研究について。音声認識モデル
おはこんばんちはひふみんとです
最近マイクロマウスをやってない代わりに、研究で信号処理をやっています。
元々は大して研究をやりたいとは考えていなかったのですが、マイクロマウスに信号処理と深層学習を適用出来ないのかなぁ。と考え始めた辺りから、研究室をそういった研究室にしようと考えるようになりました。
ハードウェア作成の技術については、恐らく普通の大学生よりは持っているのですが、ソフトウェア方面の技術はからっきしだったので、研究のテーマに設定することで少しは強くなるだろう。と考え、音声認識(正確には話者認識)に機械学習を適用する研究テーマを選びました。
研究、大変ではありますし、分からないことだらけですが、おおよその概観は出来てきた様な気がするので、「いずれ」、軽くまとめてみようと思います。(詳細な研究テーマは決まってないので、この知識は公開しても特に問題ありません。)
最近の主流は、音声(おはよう、いい天気だね)をMFCC(メル周波数ケプストラム係数)という特徴量に変換し、これをDNN(ディープニューラルネットワーク)にかけて音声を重複ありの音素列(おはよう→おおおおおhああああyおおおうおおうううう)として認識し、その音素列を隠れマルコフモデルによって音素列(おはよう いいてんきだね)に変換。そしてこの音素列の群(おはよう、いいてんきだね)をn-gram言語モデル(n-1文字前まで遡って、「おはよう いい 天気 だ ね」)によって認識するものです。
これに話者の認識も含めて、音声認識ソフトの実用性を高めよう。というのが僕の研究テーマです。
僕からすると体系立っている学問だと感じますが、識者からするとまだまだ小さなブレイクスルーを求めている様なので、僕の後輩各位は僕の下に付いてみるといいのではないでしょうか。楽しい研究だと思います。
音声認識、とても楽しい。
それでは。僕の現況でした。