Research Topics: Large Vocabulary Continuous Speech Recognition

大語彙連続音声認識

複数モデルの出力の共通部分を用いた信頼度 主として音響モデル・デコーダの異なる二つの大語彙連続音声認識モデルの間で，出力の共通部分が正解単語である割合を網羅的に調査し，高い信頼度が達成できるモデル組についての分析を行った． "Experimental Evaluation on Confidence of Agreement among Multiple Japanese LVCSR Models", Yasuhiro Kodama, Takehito Utsuro, Hiromitsu Nishizaki, and Seiichi Nakagawa. Proceedings of the 7th European Conference on Speech Communication and Technology, pp.2549-2552, September 2001. "複数の大語彙連続音声認識モデルの出力の共通部分を用いた信頼度の性能分析", 宇津呂武仁, 西崎博光, 原田哲志, 小玉康広, 中川聖一. 電子情報通信学会技術研究報告, SP2001-125～135, pp.25-32, January 2002. A Confidence Measure based on Agreement among Multiple LVCSR Models --- Correlation between Pair of Acoustic Models and Confidence ---. Takehito Utsuro, Tetsuji Harada, Hiromitsu Nishizaki and Seiichi Nakagawa, Proceedings of the 7th International Conference on Spoken Language Processing, pp. 701-704, Vol.I, September 2002. "複数の大語彙連続音声認識モデルの出力の共通部分を用いた高信頼度部分の推定" 宇津呂武仁, 西崎博光, 小玉康広, 中川聖一. 電子情報通信学会論文誌, D--II, Vol.J86--D--II, No.7, pp. 974--987, July, 2003. "An Unsupervised Speaker Adaptation Method for Lecture-Style Spontaneous Speech Recognition Using Multiple Recognition Systems" Seiichi Nakagawa, Tomohiro Watanabe, Hiromitsu Nishizaki, and Takehito Utsuro, 電子情報通信学会論文誌, E, Vol.E88--D, No.3, pp. 463-471, March, 2005. 機械学習を用いた複数モデルの出力の混合 従来の多数決法による複数モデルの出力の混合では，性能の低いモデルが多数派となった場合に，混合結果の性能が多数派の性能の影響を受けてしまう．個々のモデルの信頼性に応じて，信頼度の高い認識結果を選択に組み合わせる混合規則を機械学習の手法により学習し，この混合規則を用いて複数モデルの出力の混合を行う． "複数の大語彙連続音声認識モデルの出力の共通部分を用いた信頼度 - 信頼度を利用した複数モデルの出力の混合 -", 宇津呂武仁, 原田哲志, 渡邊友裕, 西崎博光, 中川聖一. 電子情報通信学会技術研究報告, SP2002-18～23, pp.25-30, May 2002. "NTCIR-3音声入力ウェブ検索タスクにおける複数音声認識モデル混合の評価", 松下雅彦, 西崎博光, 小玉康広, 宇津呂武仁, 中川聖一. 日本音響学会2003年春季研究発表会講演論文集, 第I巻, pp.211-212, March 2003. "機械学習を用いた複数の大語彙連続音声認識モデルの出力の混合 -旅行会話音声における評価-", 渡邉友裕, 山本博史, 小窪浩明, 菊井玄一郎, 西崎博光, 小玉康広, 宇津呂武仁, 中川聖一. 日本音響学会2003年春季研究発表会講演論文集, 第I巻, pp.209-210, March 2003. Confidence of Agreement among Multiple LVCSR Models and Model Combination by SVM. (pdf file 257,132 bytes) Takehito Utsuro, Yasuhiro Kodama, Tomohiro Watanabe, Hiromitsu Nishizaki and Seiichi Nakagawa, Proceedings of the 28th IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 16-19, Vol.I, April 2003. "Evaluating Multiple LVCSR Model Combination in NTCIR-3 Speech-Driven Web Retrieval Task", (pdf file 383,873 bytes) Masahiko Matsushita, Hiromitsu Nishizaki, Takehito Utsuro, Yasuhiro Kodama, Seiichi Nakagawa, Proceedings of the 8th European Conference on Speech Communication and Technology, pp. 1205-1208, September 2003. "機械学習を用いた複数の大語彙連続音声認識モデルの出力の混合" 宇津呂武仁, 小玉康広, 渡邉友裕, 西崎博光, 中川聖一. 電子情報通信学会論文誌, D--II, Vol.J87--D--II, No.7, pp. 1428-1440, July, 2004. "Improving Keyword Recognition of Spoken Queries by Combining Multiple Speech Recognizer's Outputs for Speech-driven WEB Retrieval Task" Masahiko Matsushita, Hiromitsu Nishizaki, Takehito Utsuro, and Seiichi Nakagawa, 電子情報通信学会論文誌, E, Vol.E88--D, No.3, pp. 472-480, March, 2005.
--- Correlation between Pair of Acoustic Models and Confidence ---. Takehito Utsuro, Tetsuji Harada, Hiromitsu Nishizaki and Seiichi Nakagawa, Proceedings of the 7th International Conference on Spoken Language Processing, pp. 701-704, Vol.I, September 2002. "複数の大語彙連続音声認識モデルの出力の共通部分を用いた高信頼度部分の推定" 宇津呂武仁, 西崎博光, 小玉康広, 中川聖一. 電子情報通信学会論文誌, D--II, Vol.J86--D--II, No.7, pp. 974--987, July, 2003. "An Unsupervised Speaker Adaptation Method for Lecture-Style Spontaneous Speech Recognition Using Multiple Recognition Systems" Seiichi Nakagawa, Tomohiro Watanabe, Hiromitsu Nishizaki, and Takehito Utsuro, 電子情報通信学会論文誌, E, Vol.E88--D, No.3, pp. 463-471, March, 2005.
(pdf file 257,132 bytes) Takehito Utsuro, Yasuhiro Kodama, Tomohiro Watanabe, Hiromitsu Nishizaki and Seiichi Nakagawa, Proceedings of the 28th IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 16-19, Vol.I, April 2003. "Evaluating Multiple LVCSR Model Combination in NTCIR-3 Speech-Driven Web Retrieval Task", (pdf file 383,873 bytes) Masahiko Matsushita, Hiromitsu Nishizaki, Takehito Utsuro, Yasuhiro Kodama, Seiichi Nakagawa, Proceedings of the 8th European Conference on Speech Communication and Technology, pp. 1205-1208, September 2003. "機械学習を用いた複数の大語彙連続音声認識モデルの出力の混合" 宇津呂武仁, 小玉康広, 渡邉友裕, 西崎博光, 中川聖一. 電子情報通信学会論文誌, D--II, Vol.J87--D--II, No.7, pp. 1428-1440, July, 2004. "Improving Keyword Recognition of Spoken Queries by Combining Multiple Speech Recognizer's Outputs for Speech-driven WEB Retrieval Task" Masahiko Matsushita, Hiromitsu Nishizaki, Takehito Utsuro, and Seiichi Nakagawa, 電子情報通信学会論文誌, E, Vol.E88--D, No.3, pp. 472-480, March, 2005.
(pdf file 383,873 bytes) Masahiko Matsushita, Hiromitsu Nishizaki, Takehito Utsuro, Yasuhiro Kodama, Seiichi Nakagawa, Proceedings of the 8th European Conference on Speech Communication and Technology, pp. 1205-1208, September 2003. "機械学習を用いた複数の大語彙連続音声認識モデルの出力の混合" 宇津呂武仁, 小玉康広, 渡邉友裕, 西崎博光, 中川聖一. 電子情報通信学会論文誌, D--II, Vol.J87--D--II, No.7, pp. 1428-1440, July, 2004. "Improving Keyword Recognition of Spoken Queries by Combining Multiple Speech Recognizer's Outputs for Speech-driven WEB Retrieval Task" Masahiko Matsushita, Hiromitsu Nishizaki, Takehito Utsuro, and Seiichi Nakagawa, 電子情報通信学会論文誌, E, Vol.E88--D, No.3, pp. 472-480, March, 2005.

________________________________________________________________________

Written by Takehito Utsuro

大語彙連続音声認識

複数モデルの出力の共通部分を用いた信頼度

機械学習を用いた複数モデルの出力の混合