最終更新日: 2011/12/22
M U S T 1 日本語複合辞用例データベース v1.0

MUST1とは

日本語には、複数の形態素がひとまとまりとなって、ひとつの機能語相当語として働く表現が、数多く存在します。 このような表現は、一般に複合辞と呼ばれます。 日本語複合辞用例データベース v1.0(以下では、MUST1と呼びます)は、複合辞の機械処理を研究するための基礎データを提供することを目的として設計・編纂したデータベースです。 - マニュアル(PDF)

MUST1の構成

MUST1は、項目の集合(全125項目)として構成されています。 項目は、一つの複合辞(見出し語)に対するデータの総体を表します。 見出し語集合は、国立国語研究所編の『現代語複合辞用例集』に完全に準拠しています。

一つの項目は、複数の小項目から構成されています(全337小項目)。 小項目は、一つの見出し語を表記等に着目して細分化した小見出し語に対するデータの総体を表します。

各小項目には、最大50件の用例データが含まれています。 用例データは、その小項目の複合辞の候補(文字列だけから判断すれば、複合辞になりうる可能性がある表現)を含むテキストです。 このテキストには、その複合辞候補が実際に複合辞であるか否かを人間が判定した結果(判定ラベル)が付与されています。

用例に使用したテキストは、すべて、毎日新聞(1995年版CD-ROM)から採取しました。

MUST1の配布方法

MUST1は、毎日新聞(1995年)から抜き出したテキストを削除した形(MUST1-core)に、 国立国語研究所編『現代語複合辞用例集』の一部を加えた形(MUST1-dist)で配布します。 このため、MUST1の復元には、毎日新聞(1995年版CD-ROM)が必要です。

MUST1の作者

MUST1の設計と編纂は、グループMUSTが行ないました。グループMUSTのメンバーは、次の4名です。

M松吉俊山梨大学大学院 医学工学総合研究部
U宇津呂武仁筑波大学大学院システム情報工学研究科
S佐藤理史名古屋大学大学院工学研究科
T土屋雅稔豊橋技術科学大学情報メディア基盤センター

グループMUSTは、MUST1のうち、MUST1-coreの著作権を保持します。

謝辞

国立国語研究所編『現代語複合辞用例集』の一部の利用を許可して下さった国立国語研究所に感謝します。

本データベースの作成の一部は、京都大学-NTTコミュニケーション科学基礎研究所共同研究「グローバルコミュニケーションを支える言語処理技術」の下で実施されました。援助してくださったNTTコミュニケーション科学基礎研究所に感謝します。

注意

MUST1配布キット(MUST1-dist)に含まれる国立国語研究所編『現代語複合辞用例集』のデータの著作権は、国立国語研究所が保有しています。 このデータを無断で転載等をすることは禁じられています。

主要な研究発表

その他の研究発表については、「日本語機能表現」に関連する研究発表一覧をご参照下さい。


Copyright (c) Group MUST, 2005-.