ロボコニストの技術日記

知見や技術を備忘録として書こうかな

研究について。音声認識モデル

 

おはこんばんちはひふみんとです

 

最近マイクロマウスをやってない代わりに、研究で信号処理をやっています。

元々は大して研究をやりたいとは考えていなかったのですが、マイクロマウスに信号処理と深層学習を適用出来ないのかなぁ。と考え始めた辺りから、研究室をそういった研究室にしようと考えるようになりました。

ハードウェア作成の技術については、恐らく普通の大学生よりは持っているのですが、ソフトウェア方面の技術はからっきしだったので、研究のテーマに設定することで少しは強くなるだろう。と考え、音声認識(正確には話者認識)に機械学習を適用する研究テーマを選びました。

 

研究、大変ではありますし、分からないことだらけですが、おおよその概観は出来てきた様な気がするので、「いずれ」、軽くまとめてみようと思います。(詳細な研究テーマは決まってないので、この知識は公開しても特に問題ありません。)

 

最近の主流は、音声(おはよう、いい天気だね)をMFCC(メル周波数ケプストラム係数)という特徴量に変換し、これをDNN(ディープニューラルネットワーク)にかけて音声を重複ありの音素列(おはよう→おおおおおhああああyおおおうおおうううう)として認識し、その音素列を隠れマルコフモデルによって音素列(おはよう いいてんきだね)に変換。そしてこの音素列の群(おはよう、いいてんきだね)をn-gram言語モデル(n-1文字前まで遡って、「おはよう いい 天気 だ ね」)によって認識するものです。

これに話者の認識も含めて、音声認識ソフトの実用性を高めよう。というのが僕の研究テーマです。

 

僕からすると体系立っている学問だと感じますが、識者からするとまだまだ小さなブレイクスルーを求めている様なので、僕の後輩各位は僕の下に付いてみるといいのではないでしょうか。楽しい研究だと思います。

 

音声認識、とても楽しい。

 

それでは。僕の現況でした。