研究について。音声認識モデル - ロボコニストの技術日記

おはこんばんちはひふみんとです

最近マイクロマウスをやってない代わりに、研究で信号処理をやっています。

元々は大して研究をやりたいとは考えていなかったのですが、マイクロマウスに信号処理と深層学習を適用出来ないのかなぁ。と考え始めた辺りから、研究室をそういった研究室にしようと考えるようになりました。

ハードウェア作成の技術については、恐らく普通の大学生よりは持っているのですが、ソフトウェア方面の技術はからっきしだったので、研究のテーマに設定することで少しは強くなるだろう。と考え、音声認識（正確には話者認識）に機械学習を適用する研究テーマを選びました。

研究、大変ではありますし、分からないことだらけですが、おおよその概観は出来てきた様な気がするので、「いずれ」、軽くまとめてみようと思います。（詳細な研究テーマは決まってないので、この知識は公開しても特に問題ありません。）

最近の主流は、音声（おはよう、いい天気だね）をMFCC（メル周波数ケプストラム係数）という特徴量に変換し、これをDNN(ディープニューラルネットワーク）にかけて音声を重複ありの音素列（おはよう→おおおおおhああああyおおおうおおうううう）として認識し、その音素列を隠れマルコフモデルによって音素列（おはよう　いいてんきだね）に変換。そしてこの音素列の群（おはよう、いいてんきだね）をn-gram 言語モデル（n-1文字前まで遡って、「おはよう　いい　天気　だ　ね」）によって認識するものです。

これに話者の認識も含めて、音声認識ソフトの実用性を高めよう。というのが僕の研究テーマです。

僕からすると体系立っている学問だと感じますが、識者からするとまだまだ小さなブレイクスルーを求めている様なので、僕の後輩各位は僕の下に付いてみるといいのではないでしょうか。楽しい研究だと思います。

音声認識、とても楽しい。

それでは。僕の現況でした。