ツールの紹介
Web上ですぐに試せるツール
- Ajax IMF,Sumibi.org 海外でインターネットカフェに行ったとき,メールを読むことはできても,日本語入力することができなくてこもったことはありませんか?こんなときは,どちらかのサイトを使ってみてください.Webの技術を利用することにより,仮名漢字変換のソフトが入っていなくても日本語を入力できます.
- 専門用語(キーワード)自動抽出サービス「言選Web」 専門的な文書から専門用語をビックアップしてくれます.東京大学の中川裕志先生の開発した専門用語抽出システムが元になっています.ウェブ上で試すことができますが,Perlの実行環境を準備すれば,WindowsまたはLinux上で使うことができます.
- JUMAN 日本語の文章を入力すると,分かち書きして,品詞を付与してくれる形態素解析器です.京都大学の黒橋研究室で開発されています.ウェブ上で試すことができますが,WindowsまたはLinuxにインストールして使うことができます.Debianだと,パッケージも用意されています.
- KNP 日本語の文章を入力すると,文中のどの文節がどの文節を修飾するのかを調べます.京都大学の黒橋研究室で開発されています.ウェブ上で試すことができますが,WindowsまたはLinuxにインストールして使うことができます.
インストールして動かす自然言語処理ツール
- 茶筌 奈良先端科学技術大学院大学の松本研究室で開発されている形態素解析器です.LinuxでもWindowsでも利用できます.
- MeCab 茶筌に比べて高速な形態素解析器です.
- sary サフィックスアレイというデータ構造に基づく高速な全文検索ツールです.アルゴリズムが上記のページでわかりやすく説明されているので読んでみてください.
- 南瓜(CaboCha) 上記のKNPと同じく日本語係り受け解析器です.
- Brill's Tagger (Wikipediaによれば,オリジナルのミラーがここにあるとのこと.) 英語の文章を与えると,単語に品詞(Part of Speech=POS)情報を与えるシステム(POSタガー)です.現在はマイクロソフト社に勤めるEric Brill氏によって開発されました.Brill氏によるオリジナル版はLinux環境で動作します.
- TreeTagger 様々な言語に対応するPOSタガーです.ホームページによると,「German, English, French, Italian, Spanish, Bulgarian, Russian, Greek, Portuguese and old French」に対応しているそうです.
- Charniak Parser 英語文を与えると,文中のどの語が主語,動詞,目的語,補語にあたるのかを調べる構文解析器.Eugene Charniak氏によって開発されました.