作成者:外池 昌嗣(とのいけ まさつぐ)
共同研究者:宇津呂 武仁、佐藤 理史
みのもんたさん司会の、このクイズ番組、皆さんご存じですよね。テレビ のクイズ番組「クイズ$ミリオ ネア」です。このような4択クイズが出演者に与えられ、これを間違わず に次々と解いていくと、最後には、賞金1000万円がもらえるという番組で す。
さっきの問題の答えを知りたいとき、人間なら、例えば、ウェブのサーチ エンジンに「明知小五郎」と「奥さん」を入力して検索しますよね。そうやっ て検索すると、検索結果のページが得られて、リンクされているページをたどっ て・・・
表示されたウェブページの中から、このように「文代」という答えを見つ けます。
こんなこと、コンピュータにも出来るんでしょうか??つまり、コンピュー タに4択クイズの問題を与えると、コンピュータが勝手にウェブを調べて答え を見つけてくれるなんてことが出来るのでしょうか?
いきなり結論ですが、「クイズ$ミリオネア」の72%の問題が解けました。 やり方は、「キーワードの近くに答えの語があるのでは?」という予想に基づ きます。まず、サーチエンジンで検索した結果のページをたどり、キーワード を含む文を集めます。そして、それらに含まれる選択肢の数を数え上げます。 そして、最もよく現れた選択肢を答えとして選びました。
じゃあ、もっと簡単な方法で解くことは出来ないのだろうかということを 考えました。一般的に言って、「キーワードと正解の語、両方が出現するペー ジって、キーワードと不正解の語の両方が出現するページより多い」と考えら れます。明知小五郎の妻の問題の場合であれば、「明知小五郎」と正解の「文 代」の両方が出現するページ数は、「明知小五郎」とその他の選択肢の両方が 出現するページ数よりも多いことが期待できます。このページ数は、ウェブの 世界では、サーチエンジンのヒット数で簡単に調べられます。実際、この問題 の場合は、この方法で正解を導くことが出来ます。今日紹介するのは、このよ うにサーチエンジンのヒット数を利用して4択クイズを解く方法について考え てみた研究です。
前のスライドではうまく問題が解けましたが、実は、問題はそれほど単純 ではありません。このスライドの問題を見てください。キーワードと選択肢の アンド検索のヒット数を調べると、不正解である日本の選択肢のヒット数が最 も大きくなってしまいます。これはなぜかを調べるために、選択肢のみのヒッ ト数を調べてみました。そうすると、正解の「エジプト」と不正解の「日本」 の選択肢のみのヒット数の間には、非常に大きな開きがあることがわかります。 もっと詳しく調べると、「日本の統計ー我が国の人口ピラミッド」のような、 エジプトのピラミッドとは関係のないページが非常に多く存在することがわか りました。このようなことが原因で、不正解の「日本」のアンド検索のヒット 数が1番大きくなったと考えられます。
では、どうすればいいのでしょうか?ここでは、解候補とキーワードの間 の関係の強さを示す尺度を2つ導入します。一つは、キーワードを含むページ の集合に占める、解候補も含むページの割合です。これをFAと呼ぶことにしま す。もう一つは、解候補を含むページの集合に占める、キーワードも含むペー ジの割合です。これをBAと呼ぶことにします。
「ピラミッドはどこにある?」という問題に対して、1つ前のスライドで 導入したFAとBAの値を計算してみました。FAの値は、アンド検索ヒット数に比 例するので、結果は同じです。一方、BAの値が一番大きな選択肢は、正解の 「エジプト」となりました。ここで、問題となるのは、FA1位の選択肢か、BA1 位の選択肢かどちらを信頼すべきかということです。
ここから、実際の解き方を説明しながら、FA1位の選択肢か、BA1位の選択 肢かどちらを信頼すべきかという問いに答えていきます。
まず、問題文からキーワードを選びます。人間であれば、人名とか作品名 を選びますよね?この研究では、「人名」や「組織名」など、語の種類に注目 し、あらかじめ、重要度を決めておきます。そして、重要度の高い語を1語ま たは2語選んで、キーワードにします。この問題では、「明智小五郎」と「奥 さん」をキーワードとして選びます。
キーワードを選んだら、それを使って黙々とサーチエンジンのヒット数を 収集します。ここでは、サーチエンジンとしてgooを利用しました。
必要なヒット数のデータが揃えば、それぞれの選択肢のFAとBAの値が計算 できます。ここでFA1位の選択肢とBA1位の選択肢が同じであれば、迷うことな くその選択肢を選びます。しかし、ピラミッドの問題のように、FA1位の選択 肢とBA1位の選択肢が異なっている場合が問題です。
このような場合は、解選択ルールに基づいてどちらかを選びます。このルー ルは、上か順番に適用され、最初にマッチしたものを採用します。基本的な考 え方は、「値が僅差の尺度は採用せず、値が大差の尺度を採用する。」という ものです。このルールのパラメータ及び順番は人手で調整しました。
以上で、このシステムの説明をしました。ここからは、実験とその結果に ついて説明します。実験には、トミー社から発売されているカードゲーム版ク イズミリオネアを利用します。全部で1,980問からなります。
ここで、言い訳をしますが、否定語を含む問題と比較問題は省きました。 このような問題は、今回説明した枠組みではそもそも扱えないからです。
実験の結果は、この表の様になりました。今回説明したのは、手法1だけ なので、手法1の結果に注目してください。解選択ルールを作るときに使った 分析用セットに対しては、77.3%の、この実験で初めて使う評価用セットでは、 73.4%の正解率でした。分析用セットは入試の過去問、評価用セットは本番の 入試と考えると分かりやすいと思います。
最後に、皆さん興味あるところと思いますが、このシステムで、1000万円 ゲットできる可能性はどのぐらいかを調べてみました。このグラフは、賞金が 区別の正解率を描いたものですが、これより計算すると、100万円まで到達で きる可能性は9.2%、1000万円まで到達できる可能性は1.6%でした。