Research Topics: Linguistic Knowledge Acquisition from Multilingual Text

多言語テキストからの言語知識・翻訳知識の獲得

対訳コーパス・コンパラブルコーパス等,様々な多言語テキストから, 単言語の語彙知識,機械翻訳のための翻訳知識等を獲得する.

二言語特許文からの専門用語対訳集の生成

特許業界においては,二言語特許文,特に,同一内容の対訳特許文が毎年蓄積されている. そのような特許文を利用して専門用語対訳集を自動生成する,もしくは, 半自動生成し,辞書作成作業者を支援する.

一例として,日本語特許文書およびその米国出願英文対訳特許文書の対を用いて, 統計的機械翻訳モデルの学習を行い,フレーズテーブルを得た結果,および, 既存の対訳辞書を用いた要素合成法による訳語推定結果の両者を併用して, 専門用語の対訳辞書に登録すべき訳語対の候補を自動生成する方式を研究している. また,正しい訳語候補が生成されない専門用語に対しても,その構成要素の 訳語情報を利用して,訳語であると推定される用語を相手言語特許文中で 指定することにより,辞書作成作業者を支援する方式を用いる.

ウェブを利用した専門用語対訳集の自動生成

一般に,技術翻訳や同時通訳などの翻訳の分野においては, 多様な専門的分野にわたって専門用語に関する翻訳知識が用いられる. そのような多様な分野の専門用語の訳語の情報は, 汎用辞書に含まれていない ものが多い.しかし,多様な分野について,人手で専門用語対訳集を 作成するためには多大なコストを必要とする. そこで,特定分野・トピックの対訳用語集を自動生成する手法を研究す る.特に,対訳用語集自動生成においては,特定分野・トピックの コーパスがあらかじめ与えられているとは限らず,いかにしてこれを 収集するかという課題を解決する必要がある. 本研究では,この課題を解決するために,ウェブを利用して 専門分野・トピックのコーパスを収集し,そこから, 専門用語対訳集を自動生成する手法を開発する.

日英報道記事からの翻訳知識獲得

近年,日本国内の新聞社などのサイトにおいては,日本語だけでなく英語で 書かれた報道記事も 掲載しており,これらの英語記事においては,同一時期 の日本語の記事とほぼ同一内容の報道が含まれている.これらの日本語および 英語の報道記事のページにおいては,最新の情報が日々刻々と更新されており, 最新の翻訳知識を獲得するための情報源として,非常に有用である. これらの報道記事のページから日本語・英語等, 異なった言語で書かれた文書を収集し,多種多様な分野について, 分野固有の人名・地名・組織名などの固有名詞(固有表現)や事象・言い回しなどの 翻訳知識を獲得する手法を研究する.

対訳コーパスからの語彙知識獲得

計算機による自然言語理解においては,語彙に関する知識を 記述した意味辞書が必要不可欠であるが,人手による意味辞書の構築は 作業量および記述の一貫性の点からいって容易ではない. そこで,実在する自然言語テキストを解析した結果から, 語の用法や意味を自動抽出する. 特に,対訳コーパスを利用することにより, 多義語の持つ複数の意味・用法を区別する手法を提案した.

対訳テキストの二言語間照合の研究

二言語対訳テキストは,各単言語に関する言語知識のみならず, 二言語間の翻訳に関する知識の源としても有用である. これらの知識を対訳テキストから抽出するための前処理として, 対訳テキストの各単言語テキストを二言語間で照合することを行なう. 特に,文の構造レベルの照合・意味レベルでの照合・統計的手法による 二言語間の対応推定などの研究を行なった.

________________________________________________________________________
Written by Takehito Utsuro