研究紹介 > -3. 大規模言語モデル(LLM)による人工知能・自然言語処理 > ・・・自由回答アンケートの自動集約
大規模言語モデル(LLM)による自由回答アンケートの自動集約
大規模言語モデル(ChatGPT)を用いて,
新型コロナウイルス(COVID-19)に関する自由記述不満アンケートを自動集約します.
そのための手順は下図のようになります.
(1): ChatGPTにモデル訓練用の擬似的自由回答データを生成させます.
(2): 擬似的自由回答データに対して,ChatGPTに,
「感染予防」,「経済・仕事」,「日常生活」といった分類カテゴリを生成させます.
(3): (2)の訓練データを用いて,分類カテゴリを生成するrinna社のGPTモデルを訓練します.
(4): (3)のモデルを実際の自由回答アンケートに適用し,初期段階の623カテゴリを得ます.
(5): 初期段階の623カテゴリをクラスタリングして計10カテゴリを得ます.
(6): 擬似的自由回答データに対して,ChatGPTに計10カテゴリの分類を行わせます.
(7): (6)の訓練データを用いて,10カテゴリへの分類を行うBERTモデルを訓練します.
(8): (7)のモデルを実際の自由回答アンケートに適用し,右下の10カテゴリの統計を得ます.
ChatGPTで生成した擬似的自由回答アンケートから自動的に作成した訓練データを
用いるアプローチにより,実際の自由回答から人手で作成した訓練データと比較して,
・4分の1以下の時間
・17分の1以下の費用
で,下図の同等の統計を得ることができます.
関連論文
-
"COVID-19不満調査に関する自由記述アンケートの自動集約",
- 銭本友樹, 長谷川 遼, 宇津呂武仁. NII-IDRユーザフォーラム2023, December 2023.
-
"大規模言語モデルを用いた自由記述アンケートの自動分析の初期検討",
- 銭本友樹, 長谷川 遼, 宇津呂武仁. NLP若手の会(YANS)第18回シンポジウム(2023), August 2023.