特許業界においては,二言語特許文,特に,同一内容の対訳特許文が毎年蓄積されている.
そのような特許文を利用して専門用語対訳集を自動生成する,もしくは,
半自動生成し,辞書作成作業者を支援する.
一例として,日本語特許文書およびその米国出願英文対訳特許文書の対を用いて,
統計的機械翻訳モデルの学習を行い,フレーズテーブルを得た結果,および,
既存の対訳辞書を用いた要素合成法による訳語推定結果の両者を併用して,
専門用語の対訳辞書に登録すべき訳語対の候補を自動生成する方式を研究している.
また,正しい訳語候補が生成されない専門用語に対しても,その構成要素の
訳語情報を利用して,訳語であると推定される用語を相手言語特許文中で
指定することにより,辞書作成作業者を支援する方式を用いる.
- 共同研究先
-
Identifying Bilingual Synonymous Technical Terms from Phrase Tables and Parallel Patent Sentences,
- Bing Liang, Takehito Utsuro and Mikio Yamamoto,
- Proceedings of the 12th Conference of the Pacific Association
for Computational Linguistics, #7, July 2011.
-
"対訳特許文を用いた同義対訳専門用語収集手法およびその評価",
-
"フレーズテーブルおよび既存対訳辞書を用いた専門用語の訳語推定"
- 森下 洋平,梁 冰,宇津呂 武仁,山本 幹雄,
- 電子情報通信学会論文誌, D, Vol.J93--D, No.11,
pp. 2525-2537, November, 2010.
-
"対訳特許文書からの専門用語対訳辞書生成: 機械翻訳による異種情報統合",
-
Integrating a Phrase-based SMT Model and a Bilingual Lexicon for
Human in Semi-Automatic Acquisition of Technical Term Translation Lexicon,
- Yohei Morishita, Takehito Utsuro and Mikio Yamamoto,
- Proceedings of the 8th Conference of the Association for Machine Translation in the Americas,
pp. 153-162, October 2008.
ウェブを利用した専門用語対訳集の自動生成
一般に,技術翻訳や同時通訳などの翻訳の分野においては,
多様な専門的分野にわたって専門用語に関する翻訳知識が用いられる.
そのような多様な分野の専門用語の訳語の情報は,
汎用辞書に含まれていない
ものが多い.しかし,多様な分野について,人手で専門用語対訳集を
作成するためには多大なコストを必要とする.
そこで,特定分野・トピックの対訳用語集を自動生成する手法を研究す
る.特に,対訳用語集自動生成においては,特定分野・トピックの
コーパスがあらかじめ与えられているとは限らず,いかにしてこれを
収集するかという課題を解決する必要がある.
本研究では,この課題を解決するために,ウェブを利用して
専門分野・トピックのコーパスを収集し,そこから,
専門用語対訳集を自動生成する手法を開発する.
- 研究助成
- 独立行政法人 情報通信研究機構 (自然言語グループ)
受託研究「Multi Word Unitの言語処理とその応用に関する研究」,
-
(代表者),平成17〜18年度.
- 科研費 基盤(A),「翻訳者を支援するオンライン多言語レファレンス・ツールの構築」,
(分担者),平成17〜20年度.
- 科研費 基盤(A),「包括的な翻訳情報資源を実現する統合翻訳支援サイトの構築」,
(連携研究者),平成21〜24年度.
- Compiling Bilingual Lexicon for Technical Terms using the Web,
slide
- Takehito Utsuro.
- The Japanese-German Workshop on Natural Language Processing,
May 2006, Tokyo,
- "ウェブからの関連語収集手法を用いた専門用語の訳語推定"
- 日野 浩平, 佐々木 靖弘, 宇津呂 武仁, 土屋 雅稔, 中川 聖一, 佐藤 理史.
- 言語処理学会第11回年次大会論文集, 言語処理学会, pp.21-24, March 2005.
- "関連用語収集問題とその解法"
- 佐々木 靖弘, 佐藤 理史, 宇津呂 武仁,
- 自然言語処理, 第13巻, 第3号, pp.151-175, July 2006.
-
"ウェブを利用した専門用語の分野判定"
- 木田 充洋,外池 昌嗣,宇津呂 武仁,佐藤 理史.
- 電子情報通信学会論文誌, D, Vol.J89--D, No.11,
pp. 2470-2482, November, 2006.
-
"Domain Classification of Technical Terms using the Web",
- Mitsuhiro Kida, Masatsugu Tonoike, Takehito Utsuro, and Satoshi Sato,
- Systems and Computers in Japan, Vol.38, No.14, pp. 11--19,
December 2007.
-
"ウェブから収集した専門分野コーパスと要素合成法を用いた専門用語訳語推定"
- 外池昌嗣, 宇津呂武仁, 佐藤理史.
- 自然言語処理, 第14巻, 第2号, pp.33-68, April 2007.
-
A Comparative Study on Compositional Translation
Estimation using a Domain/Topic-Specific Corpus collected from the Web,
- Masatsugu Tonoike, Mitsuhiro Kida, Toshihiro Takagi,
Yasuhiro Sasaki, Takehito Utsuro, and Satoshi Sato,
- Proceedings of the 2nd International Workshop on Web as Corpus (EACL-2006 Workshop),
pp. 11-18, April 2006.
-
Compiling French-Japanese Terminologies from the Web.
(pdf file 323,301 bytes)
- Xavier Robitaille, Yasuhiro Sasaki, Masatsugu Tonoike,
Satoshi Sato, and Takehito Utsuro,
- Proceedings of the 11th European Chapter of the Association
for Computational Linguistics,
pp. 225-232, April 2006.
日英報道記事からの翻訳知識獲得
近年,日本国内の新聞社などのサイトにおいては,日本語だけでなく英語で
書かれた報道記事も 掲載しており,これらの英語記事においては,同一時期
の日本語の記事とほぼ同一内容の報道が含まれている.これらの日本語および
英語の報道記事のページにおいては,最新の情報が日々刻々と更新されており,
最新の翻訳知識を獲得するための情報源として,非常に有用である.
これらの報道記事のページから日本語・英語等,
異なった言語で書かれた文書を収集し,多種多様な分野について,
分野固有の人名・地名・組織名などの固有名詞(固有表現)や事象・言い回しなどの
翻訳知識を獲得する手法を研究する.
-
"翻訳知識獲得のための言語横断関連報道記事検索"
- 堀内 貴司, 千葉 靖伸, 浜本 武, 宇津呂 武仁,
- 言語処理学会第8回年次大会論文集, 言語処理学会, pp.303-306, March 2002.
-
Semi-automatic Compilation of Bilingual Lexicon Entries
from Cross-Lingually Relevant News Articles on WWW
News Sites.
- Takehito Utsuro, Takashi Horiuchi, Yasunobu Chiba,
Takeshi Hamamoto
- Proceedings of the 5th Conference of the Association
for Machine Translation in the Americas,
pp. 165-176, October 2002.
-
"日英報道記事からの訳語対獲得における言語横断情報検索の有効性の評価"
(pdf file 339,058 bytes)
- 堀内貴司, 日野浩平, 浜本武, 中山健明, 宇津呂武仁,
- 言語処理学会第9回年次大会論文集, 言語処理学会, pp.341-344, March 2003.
-
"言語横断関連報道記事検索における翻訳ソフト・対訳辞書・数値表現翻訳規則の性能比較"
- 浜本武, 中山健明, 日野浩平, 堀内貴司, 宇津呂武仁.
- 言語処理学会第9回年次大会論文集, 言語処理学会, pp.425-428, March 2003.
-
"日英関連報道記事からの翻訳知識獲得のためのユーザインタフェースの作成"
- 日野浩平, 堀内貴司, 浜本武, 中山健明, 宇津呂武仁.
- 言語処理学会第9回年次大会論文集, 言語処理学会, pp.421-424, March 2003.
-
Effect of Cross-Language IR in Bilingual Lexicon Acquisition from
Comparable Corpora.
(pdf file 361,029 bytes)
- Takehito Utsuro, Takashi Horiuchi, Takeshi Hamamoto, Kohei Hino, and Takeaki Nakayama.
- Proceedings of the 10th European Chapter of the Association
for Computational Linguistics,
pp. 355-362, April 2003.
-
"日英報道記事からの訳語対応推定における複数の推定尺度の利用"
(pdf file 595,790 bytes)
- 日野浩平, 宇津呂武仁, 中川聖一.
- 言語処理学会第10回年次大会論文集, 言語処理学会, pp.249-252, March 2004.
- Integrating Cross-Lingually Relevant News Articles and
Monolingual Web Documents in Bilingual Lexicon Acquisition,
-
- Takehito Utsuro, Kohei Hino, Mitsuhiro Kida,
Seiichi Nakagawa, and Satoshi Sato,
- Proceedings of the 20th International Conference on Computational Linguistics,
pp. 1036-1042, August 2004.
-
"日英関連報道記事を用いた訳語対応推定"
,
- 宇津呂武仁, 日野浩平, 堀内貴司, 中川聖一.
- 自然言語処理, 第12巻, 第5号, pp.43-69, October 2005.
対訳コーパスからの語彙知識獲得
計算機による自然言語理解においては,語彙に関する知識を
記述した意味辞書が必要不可欠であるが,人手による意味辞書の構築は
作業量および記述の一貫性の点からいって容易ではない.
そこで,実在する自然言語テキストを解析した結果から,
語の用法や意味を自動抽出する.
特に,対訳コーパスを利用することにより,
多義語の持つ複数の意味・用法を区別する手法を提案した.
-
"Lexical Knowledge Acquisition from Bilingual Corpora"
- Takehito Utsuro, Yuji Matsumoto,
and Makoto Nagao
- Proceedings of the 14th International Conference on
Computational Linguistics, pp.581-587, August 1992.
-
"二言語対訳コーパスからの動詞の格フレーム獲得"
- 宇津呂 武仁, 松本 裕治, 長尾 眞
- 情報処理学会論文誌, 第34巻, 第5号, pp.913-924, May 1993.
-
"Verbal Case Frame Acquisition from Bilingual Corpora"
- Takehito Utsuro, Yuji Matsumoto,
and Makoto Nagao
- Proceedings of the 13th International Joint Conference on
Artificial Intelligence, pp.1150-1156, August 1993.
-
"Sense Classification of Verbal Polysemy based-on
Bilingual Class/Class Association"
- Takehito Utsuro
- Proceedings of the 16th International Conference on
Computational Linguistics, pp.968-973, August 1996.
対訳テキストの二言語間照合の研究
二言語対訳テキストは,各単言語に関する言語知識のみならず,
二言語間の翻訳に関する知識の源としても有用である.
これらの知識を対訳テキストから抽出するための前処理として,
対訳テキストの各単言語テキストを二言語間で照合することを行なう.
特に,文の構造レベルの照合・意味レベルでの照合・統計的手法による
二言語間の対応推定などの研究を行なった.
-
"日英対訳文間の素性構造照合による統語的曖昧性の解消"
- 宇津呂 武仁, 松本 裕治, 長尾 眞
- 情報処理学会論文誌, 第33巻, 第12号, pp.1555-1564, December 1992.
-
"Structural Matching of Parallel Texts"
- Yuji Matsumoto, Hiroyuki Ishimoto,
and Takehito Utsuro
- Proceedings of the 31th Annual Meeting of the Association for
Computational Linguistics, pp.23-30, June 1993.
-
"Bilingual Text Matching using Bilingual Dictionary and Statistics"
- Takehito Utsuro, Hiroshi Ikeda, Masaya Yamane,
Yuji Matsumoto, and Makoto Nagao
- Proceedings of the 15th International Conference on
Computational Linguistics, pp.1076-1082, August 1994.
-
"対訳辞書および統計情報を用いた二言語対訳テキスト照合"
- 宇津呂 武仁, 松本 裕治
- コンピュータソフトウェア, 第12巻, 第5号, pp.414-423, September 1995.