作成者:外池 昌嗣(とのいけ まさつぐ)
共同研究者:木田 充洋、高木 俊宏、宇津呂 武仁、佐藤 理史
この研究では、専門分野に関する対訳用語集の自動生成を目指します。これが 実現すれば、例えば、自分の専門分野でない国際会議の出席者や同時通訳家が、 会議の前に予習したりするのに役立ちます。
まず、この研究の背景について説明しましょう。専門用語の訳語情報は実に様々 な分野で求められています。しかし、現在、専門用語の訳語情報を知ろうと思っ たとき、汎用の辞書を調べたのでは、一部の用語の訳語しかわかりません。そ こで、専門用語の辞書が必要になるのですが、それぞれの分野の辞書を人手で 作っていたのでは大変です。そこで、我々は、様々な専門分野に対して対訳用 語集を自動生成する方法を研究しました。
次に、対訳用語集生成の流れを説明します。まず、対訳用語集が欲しい分野の 用語や文書をシードとしてシステムに与えます。ここでは、「behavior analysis」をシードとしましょう。最初に、用語集に載せるべき見出し語を収 集します。次に、得られたそれぞれの見出し語の訳語を推定します。このよう にして、最終的に対訳用語集を生成します。
この研究では、要素合成法に基づいて訳語推定を行います。その方法は、まず、 訳を知りたい語を構成要素に分割します。例えば、「要素合成法」の場合は、 スライドのa〜bの3通りに分割できます。次に、構成要素の訳語を既存の辞書 で調べます。最後に、それぞれの構成要素の訳語を組み合わせて訳語候補を生 成します。このとき、訳語候補のスコアも計算しますが、その方法はあとで説 明しましょう。
こんな簡単な方法で本当に専門用語の訳語推定ができるの?と疑問に思うかも しれません。そこで、まずは、要素合成法が有効に適用できる専門用語の割合 を調査しました。調査は、既存の専門用語辞書の訳語対のうち、構成要素が日 英で対応している割合を人手で調べる方法で行いました。ここで、「構成的」 とは、スライド左下の例のように、すべての構成要素が日英で対応しているこ とを言います。逆に、「非構成的」とは、スライド右下の例のように、日英の 構成要素が対応していないことを言います。
ここで、評価に使った訳語対集合について説明しましょう。用いたのは既存の 4つの専門用語辞書、10カテゴリに含まれる、合計667個の訳語対です。
さて、調査の結果ですが、88%の訳語対が構成的であることがわかりました。 このことは、辞書に構成要素の訳語があれば、9割程度の専門用語に対して正 解訳語を生成できる可能性があることを示しています。これはつまり、要素合 成法で訳語推定できる見込みがあるということです。
次に疑問となるのが、「実際に既存辞書を用いたときに、何割の専門用語に対 して要素合成法で正解訳語が作れるのか?」でしょう。そこで、既存辞書の訳 語を用いた要素合成法により生成可能な割合を調べる方法で調査を行いました。 使用する辞書は、Ver.79、129万語収録の 英辞郎 です。調査対象は予備調査1と同じです。
さて、調査結果ですが、残念ながら27%しか正解訳語を生成可能でないことが わかりました。生成不可の例として、「applied behavior analysis」の訳語 を生成した場合を紹介しましょう。appliedの訳語として、英辞郎には「応用 された」、「実際に適用された」、「応用の」などが載っていますが、この場 合の正解である「applied」が「応用」に訳されるという情報は得ることがで きません。このことから、「複合語中の構成要素がどのように訳されるのが自 然か」という情報が必要なことがわかります。
そこで我々は、このような情報を収集して、部分対応対訳辞書を構築しました。 その方法は、まず、日英2構成要素からなる訳語対を英辞郎から抽出して、こ れをP_2とします。次に、日英とも共通の第一要素からなる訳語対をP_2から収 集します。そして、日英双方の第一要素からなる部分対応対訳対を作成します。 例えば、英語、日本語の第一要素がそれぞれ「applied」と「応用」である訳 語対をP_2から収集した場合を考えましょう。これらをまとめて、水色の四角 で示したような部分対応対訳対を生成します。このとき、あとでスコアとして 利用するために、P_2での出現回数を記録しておきます。最後に、これらを集 めて、前方一致部分対応対訳辞書とします。同様にして、後方一致部分対応対 訳辞書も作成します。
ここで疑問となるのが、このようにして作成した部分対応対訳辞書がどの程度 有効かということでしょう。そこで、英辞郎と部分対応対訳辞書を併用して、 生成可能な訳語対の割合を調査しました。その結果、英辞郎のみだと27%しか 生成可能でなかったのに対して、部分対応対訳辞書も併用すると実に49%が生 成可能であることがわかりました。このことから、既存辞書と部分対応対訳辞 書を併用すれば、要素合成法で専門用語の訳語推定ができそうだといえます。 次に問題となるのは、数多く生成されるであろう訳語候補の順位付けをどのよ うにするかということです。
この研究では、辞書の訳語対の優先順序このように定めました。
前のスライドで示した優先順序を実現するために、このようなスコアを設計し ました。訳語対のスコアの計算例を参考にしてください。
訳語対のスコアを決めたら、次は訳語候補のスコアの設計です。訳語候補のス コアは、スライドの式で示すように、訳語候補を構成する訳語対のスコアの積 であるとしました。ここで、別の訳語対の組み合せで同じ訳語候補が生成され る場合は、両者のスコアを加算します。スライドの例だと、訳語候補「応用行 動分析」のスコアは、16+1.6=17.6となります。
ここまで、説明してきた要素合成法による訳語推定の手法に対して実験を行い ました。評価用の訳語対は、予備調査で用いたものと同じです。採用する訳語 対には、英辞郎に日本語側、英語側ともに含まれないこと、及び、日本語側、 英語側とも、二構成要素以上という条件を設けました。
実験の結果、訳語推定の精度はこのようになりました。ここで、青いバー (n=1)は正解訳語が1位にランクされる割合を、紫のバー(n=10)は正解訳語が 10位以内にランクされる割合を示しています。正解訳語が1位にランクされ る割合は、約20%、10位以内にランクされる割合は約40%でした。
次に、訳語候補選択の精度を向上させるために、専門分野コーパスを利用した 訳語候補の生成・検証の仕組みを実装しました。まず、専門分野の文書をウェ ブから収集しコーパスを作ります。そして、訳語候補の生成過程で、専門分野 コーパスに存在しない部分訳語が生成された場合、この部分訳語を削除します。
この方法を用いて実験を行った結果を示します。専門分野コーパスを用いて訳 語候補の検証を行うことで、訳語推定の精度が向上しました。