関連用語の自動収集
  関連用語収集の第1ステップは、コーパスの作成です。 「コーパス」とは、 処理の対象とする文書の集合を意味します。
  分野d に関連する用語を集めるためには、d について記述されたウェブページを集める必要があります。
  そこで、 サーチエンジンを利用してd に関するウェブページを収集します。
  サーチエンジンに「d とは」、「d という」、…、「d 」などのクエリ(=キーワード)を入力し、 得られた結果からd について記述されたウェブページをダウンロードします。
  さらに、ダウンロードしたページから、 d が含まれる文、およびその前後2文を抜き出し、 d について記述された文書の集合・コーパス Cd を作成します。
  なお、本研究では、サーチエンジンとして goo (http://www.goo.ne.jp/) を利用しています。
前のスライド 次のスライド