再配達受付の音声認識技術

先日 amazon.co.jp で注文して、不在のため受け取れなかった CD の再配達をたのむために、ペリカン便の再配達自動受付センターに連絡してみた。その際、せっかくだから電話口での音声認識の挙動を試してみた。


電話番号や送り状番号、営業所番号などの数列に関しては、最初よかれと思って一つ一つ区切って発音してみたのだが誤認識も甚だしかったので、普通に番号をしゃべってみたら見事な認識精度を見せてくれた。うむ、きちんと連続音声認識しているな。


配達時間帯指定などでは、あらかじめ決められた枠の中から番号を選択するようになっているが、これに関しては、たとえば1番であれば「いちばん」と発音すれば認識するが、「いち」と発音した場合には認識してくれない。わざわざ「〜ばん」をつけなければならないようで、数字のみをしゃべった場合のパターンは想定されていない模様。まぁ、慣れればどうってこと無いんだろうけど、違うパターンも想定してくれたらなお良かったのだが。


トータルでみると、なかなか使い勝手の良いインタフェースに仕上がっている。
昨今の電話機の場合、プッシュボタンが受話器本体に付いていたりするし、携帯電話であればその条件から逃れることができない*1。ボタンを押すために受話器を耳から離している間に、ガイダンスの聞き逃しがあるのではないか、と心配してしまうわけだが、音声インタフェースならばその心配はない。これだけの認識精度があるならば、確かに実用レベルだな、と。


音声認識は、かなり昔ちょっとだけ手を出したことがある領域だけど、さすがに高い精度で認識させるのは極めて難しい。少なくとも数学の苦手な人は、音声認識に関する理論を理解すること自体無理という領域。私の読んだ本にも

「人間の音声を機械に聞き取らせるのは、月へ行くことより難しい」

てなことが書いてあったな。
それがこうして実用レベルに達しているというのは、なかなか感動ものだ。

*1:イヤホンマイクという手はある。