MENU
コンタクトセンターDX最前線

【Vol.26】「もっともらしい嘘」を見破れ!生成AIのハルシネーション抑制したナレッジ検索で問題解決をサポート

2024/11/05

コンタクトセンターの現場では、応対履歴やFAQなどの形式知として活用できるデータが充実しているため、生成AIの技術を活用して業務効率化やサービス品質の向上につなげようとする動きが活発になっています。

今回は、生成AIを活用したナレッジ検索をテーマに、その仕組みと導入時の考慮点を技術の観点からご紹介します。

生成AIを活用したナレッジ検索とは?

従来のナレッジ検索では、FAQやマニュアルなどのナレッジベースに存在する情報をもとにAIが質問文の意図を理解・学習し、回答候補を導き出す仕組みが一般的です。

最近は生成AI技術の登場により、自然言語処理の活用がさらに高度化され、質問文の補足やバリエーションを付けたり、回答候補から質問に関連する回答要約を生成したり、より精度の高い検索結果が得られるようになっています。また、従来と比較して大きく進化した点として、個人で活用されているユースケースとして最も多い壁打ち相手のように、未知の質問に対してもLLMが持ち得る知識データの中から回答を生成することも可能になりました。

これらの技術はAIチャットボットの学習データとしても利用できる他、質問内容から適切な応対プランを提案するオペレーター支援にも活用できます。

もっともらしい嘘(ハルシネーション)とは?

簡単な例を使って、生成AIの解答結果の精度を見てみましょう。

一見どちらも正しい回答のように見えますが、これは、2024年のノーベル賞受賞者が発表される前の2024年9月2週目頃に生成AIに質問した結果です。

後者の「2024年のノーベル文学賞を受賞した作家は誰ですか?」という質問に対して、まだ2024年のノーベル文学賞の受賞者は発表されていないにも関わらず、生成AIは「ノルウェーの作家ジョン・フォッセに授与された」と、あたかも本当の情報のように回答しています。これがハルシネーションです。

[2024年9月 ChatGPT-4oを使用]

生成AIは、ハルシネーションと呼ばれる正しそうな嘘を生成してしまうリスクも多くあり、生成AIに正しい回答だけをさせることは、現段階では技術的にもかなり難しいと言われています。

例えば、ChatGPT-4oは2024年11月現在、2023年10月までのインターネット上の情報しか知らないため、新しい時事は分かりません。それでも、あたかも本当のように嘘の情報を提供してきます。そのため、あくまでも最後は人が判断することが推奨されています。

RAGで回答の精度をUP!ハルシネーションを防ぐための仕組み

ハルシネーションを抑制する仕組みとして、RAG(Retrieval-augmented generation)の技術を駆使して抽出されたデータからさらに活用しやすい文章に変換する方法が最近では主流になっています。

RAGはLLMによるテキスト生成に外部情報の検索を組み合わせることで、回答精度を高める技術です。ナレッジ検索においても、事前処理で形態素解析などを使って関連性の高い情報を検索した後、それらの情報から回答をまとめることで、ハルシネーションを抑えることが可能になります。

ハルシネーションを抑制するためのRAGを使った仕組み

以下の例では、「2024年のノーベル文学賞を受賞した作家は誰ですか?」という質問と共に、先に検索技術を使って得た情報(回答の元ネタになる情報サイトのURLと、過去の受賞者一覧)を付け加えて生成AIに質問しています。このように、回答元になる情報を明示的に指定することで、生成AIは「現在のところ受賞者は未発表です」という正しい回答を返せるようになります。

このように、生成AIをナレッジ検索などで活用する場合、生成AIにインプットする前の「検索」が重要になります。ここで代表的な検索技術をいくつかご紹介します。

■ 検索で活用される主な技術

WDS(Whole Document Search、全体文書検索)
  • ・文書全体を対象とした検索技術
  • ・一般的なキーワード検索では単語の有無にしか焦点を当てられないが、WDSは文書全体の流れや意図を把握することで、単語の一致だけでなく、文脈や関係性も考慮した高度な検索が可能になる


ベクトル検索
  • ・単語や文章などのデータを数値ベクトルに変換し、その意味や関係性を数学的に表現する技術
  • ・ベクトル間の類似度を評価することで、ベクトル空間上で近い位置にあるデータ同士が類似していると判断され、関連性の高いデータを検索する
  • ・一般的なキーワード検索よりも関連性の高いデータを効率的/精度よく検索できる


TF-IDF(Term Frequency-Inverse Document Frequency)
  • ・文章内の単語の重要度を評価する技術
  • ・特定の単語が文書全体にどれだけ頻繁に登場するか(TF)と、その単語が全体の文書群にどれだけ出現しているか(IDF)を組み合わせ、各単語の重要性を算出し、文書内で特に意味がある単語を把握することができる


形態素解析(Morphological Analysis)
  • ・自然言語を構成する最小の意味単位(形態素)に文章を分解し、単位ごとの意味や役割を解析する技術
  • ・日本語のように明確な単語の区切りがない言語では形態素解析が不可欠。文中の単語の品詞や意味を理解し、文の構造を把握することが可能になり、適切な処理を行えるようになる


BERT(Bidirectional Encoder Representations from Transformers)
  • ・文脈を理解する自然言語処理技術
  • ・従来の単方向モデルと異なり、文の前後関係を同時に考慮しながら、文章全体の意味を把握することで、より正確でコンテキストに基づいた検索や回答生成することが可能になる


Attention Mechanism(アテンション機構)
  • ・長い文章やデータセットの中で、どの部分に注目すべきかを特定する技術
  • ・従来のニューラルネットワークは文章全体を均等に処理していたのに対し、特定の単語やフレーズに重みをつけ、文脈中の重要な要素に焦点を当てることが可能になる



どの検索技術を使うか、選定する際は以下の観点で検討する必要があります。

  • ・ユースケース、検索の目的(完全一致、類似性、意味理解など)
  • ・求められる精度
  • ・応答時間の要件
  • ・技術的制約
  • ・データ量
  • ・計算リソース
  • ・メンテナンスコスト
  • ・運用面
  • ・更新頻度
  • ・スケーラビリティ要件
  • ・コスト制約


これらの要素をさまざまな角度から多角的に評価し、それぞれの技術の利点と弱点を理解した上で選択することで、ニーズに最も適した検索システムを構築できるようになります。そして、よりハルシネーションを抑制可能なサービスを目指せるでしょう。

生成AI活用のご相談はS&Iにお任せください!

生成AIを最大限活用しようとする場合、ハルシネーションの制御が重要なポイントになります。今回ご紹介した方法はRAGを使った制御方法ですが、FineTuneを使う手法もあります。

特に、FAQ支援などで生成AIを活用する場合は、RAGやFineTuneの技術を使って、自社内のFAQ等のデータを前提とした回答を生成させたり、勘違いされるような意図を排除させたりすることで、AIが正しい回答を生成できるようになり、オペレーターの経験やスキルによらない案内が可能になります。

S&Iでは、こうした生成AIの特性も踏まえて、コンタクトセンターの応対業務での活用を積極的に支援しています。生成AIとやり取りするデータの加工や処理、セキュリティ対策を考慮したサービス設計など、お客さまの業務や運用フローに応じたご提案が可能です。ご興味のある方は、ぜひ、S&Iまでご相談ください。

コンタクトセンターDX最前線