エス・アンド・アイ株式会社
MENU
コラム:Vol.009

なぜAIの音声認識率は低いのか?
認識精度UPのためにやるべき2つの施策

2022/01/12

人が話す内容をAIが認識しテキスト化する「AI音声認識」は、コンタクトセンターやヘルプデスクにおけるお客さま応対や議事録作成、データ入力業務や自動翻訳などで活用されています。特に、コンタクトセンターでは、業務効率化や人手不足の解消などが期待されることから、導入が進んでいます。

また、AI音声認識技術を活用している例として、身近なところでは、スマートスピーカーやスマートフォンに搭載されるAIアシスタントがあります。高い精度で認識されるので、日常的にも活用している方も多いのではないでしょうか?

AI音声認識は、人が音声を聞いて書き起こす代わりに、AIが自動でテキスト化してくれるものですので、人の耳で聞き取りにくいものは認識できませんが、日常会話で使う一般用語であれば、学習させなくても高い精度で認識させることができます。

ですが、ビジネス利用となると、「思っていたほど認識されない…」など、音声認識率に課題を持つ方も多いのではないでしょうか?

今回は、音声認識率が低い時にすぐにできる解決方法をご紹介します!

学習は十分にできている? 辞書登録と文章学習にはコツがある

AIエンジンには、国語辞典に掲載されているような一般用語や人名や地名などの固有名詞などはあらかじめ定義されていますが、業界用語や特有の言い回しなどは、利用するお客さまごとに定義し、辞書登録や文章学習をさせなければなりません。

① 単語は長すぎない?正式名称だけになっていない?

辞書登録の際にポイントとなるのが、ワードの「分割単位」です。

例えば、「虎ノ門ヒルズ駅」という単語を辞書に登録してしまうと、このひとかたまりを途切れることなく、きちんと発音しないと認識されません。「虎ノ門ヒルズ」と「駅」といったふうにワードを分割して登録することで、AIが認識しやすくなります。

また、「虎ノ門ヒルズ駅」という単語だけしか登録しないと、「虎ノ門ヒルズ」は認識されなくなってしまいます。「虎ノ門ヒルズ駅」だけではなく、「虎ノ門」や「ヒルズ」などといった普段使われる呼称もきちんと登録しておくことが重要です。

ただし、なんでもかんでも呼称を登録していいかというとそういう訳ではありません。たとえば、当社は「エス・アンド・アイ(英語表記:S&I Co., Ltd.)」という社名ですが、昔からメールのドメインなどで「sandi」という綴りが使われることも多く、社内では「サンディ」と呼ぶ習慣があります。この「サンディ」という呼称を音声認識させる際に「エス・アンド・アイ」と認識させたいと言われることがわりと高い頻度であるのですが、呼称と正式名称があまりにもかけ離れている場合は、気をつけましょう。ちょっと発音を間違えただけで、正式名称の方に寄せられてしまいます。基本は、「聞こえたもの」をそのままテキストにするということが重要です。

② 同音異義語は文章学習の充実がポイント!

さらに、認識率を上げるために重要なのが、文章学習です。

例えば、「お食事券」と「汚職事件」という同音異義語。辞書登録だけでは、「おしょくじけん」という音声がどちらの意味を指しているのか、AIは理解できません。「このお店でお食事券が使えます」「お食事券の有効期限は1年間です」「お食事券は他のクーポンとの併用はできません」など、さまざまな言い回し・表現の文章を登録しておくことで、前後の文脈から正しく認識できるようになります。

同音異義語などは、辞書登録だけでは、なかなか認識率を上げられないので、文章学習を充実させて、正しく認識できるようにチューニングしましょう。

音声データに雑音は入っていない?
マイクや周りの雑音なども見過ごせない原因

まずは、当社が実施したコンタクトセンターのオペレーターとお客さまそれぞれの音声認識率の結果をご紹介します。オペレーターはマイクが口元にあるヘッドセットを使っているため、音声データに他人の声やノイズが入りにくくクリアなため、認識率は90%ありました。一方で、お客さま側は、通信環境や電話している場所によっては雑音が入りやすいため、認識率は74%と、オペレーターに比べて低い結果になりました。

S&Iで実施した認識率の測定結果

通信環境が悪いと、音声が途切れてしまう、テキスト化がごっそり抜け落ちてしまうなどの原因にもなります。また、音声ボリュームが大き過ぎると音が割れて精度が落ちる場合があるので、ボリューム調整を見直すのもすぐに改善できるポイントです。

指向性の高いマイクやノイズキャンセル機能のあるヘッドセットなど、さまざまなマイクがありますので、価格面と導入のしやすさを考慮しながら、利用シーンにあった適切なものを選んでみてください。

リアルタイムの音声認識ではなく、録音データを音声認識させる場合は、事前にノイズキャンセルするだけで、認識精度がかなり変わる場合もあるので、通信環境や録音環境を変えられない…という方は、検討してみるのもよいでしょう。

音声認識率の維持は、定期的なメンテナンスが重要

音声認識は、導入時に高い精度が出せたらそれで終わり…というわけではありません。利用範囲を拡大したり、取り扱う商品やサービスなどが追加される/取り扱うものが変わるなど、運用していると自ずと新しい言葉が増えていきます。継続的に辞書登録や文章学習をさせながら、音声認識率を維持できるように運用するのが重要です。

もし、運用体制を社内で組めない場合は、外部に委託するのも1つの手段です。社内にAIの知見がない場合も、AIの知見とスキルを持った専門家にサポートしてもらいながら、少しずつAIの知見を社内に貯めることで運用体制を整えていくことも可能です。

状況に応じて、各社にあった運用方法を検討しましょう。