AI ハルシネーションとは、そしてなぜ起こるのか

AI ハルシネーションとは?

AI ハルシネーションとは、AI ツールが確信を持った様子を装いながらも誤った情報を生成する現象のことです。このような誤りは、過去の日付を言い間違えるような些細な不正確さから、時代遅れの健康法や有害な治療法を勧めるような深刻な誤解を招く情報までさまざまです。AI ハルシネーションは、大規模言語モデル (LLM) や、画像生成システム、その他の AI 技術を搭載したシステムで発生する可能性があります。

たとえば、AI ツールはエッフェル塔の高さを実際の 330 メートルではなく、335 メートルと誤って表示するかもしれません。このような誤差は、何気ない会話では取るに足らないものかもしれませんが、医療アドバイスのような重大な場面では、正確な測定は非常に重要です。

AI ハルシネーションを減らすために、開発者はおもに、モデルを強化する敵対的サンプル使ったトレーニングと、エラーにペナルティを与えるメトリクスを使った微調整といった 2 つのテクニックを使っています。これらの手法を理解することで、ユーザーは AI ツールをより効果的に活用し、それらが生み出す情報を批判的に評価することができます。

AI ハルシネーションの例

前世代の AI モデルでは、現在のシステムよりも頻繁にハルシネーションが起こりました。記憶に新しい例として、マイクロソフトの AI ボット Sydney が、技術レポーターの Kevin Roose 氏に「恋をしている」と言ったり、グーグルの AI 画像ジェネレーターである Gemini が歴史的に不正確な画像を生成したりしたことが挙げられます。

しかし、ハルシネーションはまだ発生しているものの、今日の AI ツールは改善されてきています。よくある AI ハルシネーションの種類をいくつか紹介します。

  • 歴史的事実
    AI ツールは、最初の月面着陸は 1968 年に起こったと述べるかもしれませんが、実際に起こったのは 1969年のことです。このような不正確さは、人類の歴史における重要な出来事を誤って伝えることにつながってしまいます。
  • 地理的な誤り
    実際の首都はオタワであるにもかかわらず、AI はトロントをカナダの首都と誤って呼ぶかもしれません。このような誤った情報は、カナダの地理を学びたい学生や旅行者を混乱させる可能性があります。
  • 財務データ
    たとえば、ある企業の株価が 1 日で 30% 上昇したと主張したものの、実際にはもっと低かったといった場合が考えられます。誤った財務アドバイスだけに頼ると、投資判断を誤る可能性があります。
  • 法的ガイダンス 
    AI モデルは、口頭での契約はあらゆる文脈において書面での契約と同等の法的拘束力があるとユーザーに誤解を与えるかもしれません。これは、特定の取引 (例えば不動産取引) では、有効性と強制力のために書面による契約が必要であるという事実を見落としています。
  • 科学研究の誤報
    AI ツールは、実際にはそのような研究が存在しないにもかかわらず、科学の躍進を裏付けるとされる研究を引用するかもしれません。このようなハルシネーションは、重要な科学的成果について研究者や一般大衆を誤解させる可能性があります。

AI ハルシネーションはなぜ起こるのか?

AI でハルシネーションが起こる理由を理解するには、LLM の基本的な仕組みを認識することが重要です。これらのモデルは、テキスト (またはトークン) を処理し、シーケンスの次のトークンを予測する、いわゆるトランスフォーマー アーキテクチャで構築されています。人間の脳とは異なり、LLM は歴史や物理学などを本質的に理解する「世界モデル」を持っていません。

AI ハルシネーションは、モデルが不正確ではあるものの、統計的には事実上正しいデータに類似した応答を生成したときに起こります。つまり、その応答は誤りではあるけれども、モデルが正しい可能性が高いと予測する応答と意味的または構造的に類似しているということです。

AI ハルシネーションが起こるのは、他にも以下のような理由があります。

不完全な学習データ

AI モデルは、学習データの幅と質に大きく依存しています。学習データが不完全であったり、多様性に欠けていたりすると、モデルが正確で均整のとれた回答を生成する能力が制限されます。これらのモデルは、例によって学習し、その例が十分な範囲のシナリオ、視点、反事実をカバーしていない場合、アウトプットがこれらのギャップを反映する可能性があります。

AI モデルは、不足している情報をもっともらしいが正しくない詳細で埋めてしまう可能性があるため、この限界はしばしばハルシネーションとして現れます。たとえば、AI が公共交通機関が発達しているある地理的地域データだけに接してきた場合、その特徴がグローバルなものではないにもかかわらず、そうであると仮定した回答を生成する可能性があります。AI は、自分が訓練されたデータの境界を越えていることを認識できません。したがって、モデルは根拠のない、あるいは偏った確信を持った主張をしてしまうかもしれません。

学習データのバイアス

学習データのバイアスは完全性と関連していますが、それと同一ではありません。不完全なデータとは、AI に提供される情報にギャップがあることを意味しますが、バイアスのかかったデータとは、利用可能な情報が何らかの形で偏っていることを意味します。これらのモデルはおもにインターネット上で学習され、インターネットには固有のバイアスがあるため、これはある程度避けられません。たとえば、多くの国や人口がインターネットにまだ十分にアクセスできておらず、その数は、世界で 30 億人近いといわれています。これは、学習データが、オフライン コミュニティの視点、言語、文化的規範を適切に反映していない可能性があることを意味します。

オンライン人口の間でも、誰がコンテンツを作成、共有し、どのようなトピックが議論され、その情報がどのように提示されるかには格差があります。こうしたデータの偏りは、AI モデルが学習し、その出力に偏りを永続させることにつながります。ある程度のバイアスは避けられませんが、データの偏りの程度や影響には大きな開きがあります。したがって、AI 開発者の目標は、こうしたバイアスを認識し、可能な限り軽減するよう努力し、データセットが意図するユース ケースに適切かどうかを評価することです。

明示的な知識表現の欠如

AI モデルは統計的なパターンマッチングを通じて学習しますが、事実や概念の構造的表現が欠如しています。何が真実で何が真実でないかを追跡するメカニズムがないため、事実の記述を生成する場合でも、それが事実であることを「知っている」わけではありません。

このような明確な事実の枠組みがないため、LLM は信頼性の高い情報を作り出すことはできますが、人間が持つような事実の真の理解や検証をすることなく、人間の言葉を模倣することに長けているのです。この根本的な限界が、AI と人間の認知の重要な違いなのです。AI が発展を続ける中、開発者が AI システムの信頼性を高めるためには、この課題に対処することが極めて重要であることに変わりはありません。

コンテキスト理解の欠如

人間のコミュニケーションにおいてコンテキストは非常に重要ですが、AI モデルはしばしばコンテキストを理解するのに苦労します。自然言語でプロンプトが表示された場合、その応答は過度に直訳的であったり、要領を得ないものになることがあります。それは、人間がコンテキストから引き出す深い理解 (世界についての知識、人生経験、行間を読む能力、暗黙の前提を把握する能力) が AI には欠けているからです。

過去 1 年間で、AI モデルは人間のコンテキストを理解する能力を向上させましたが、感情的なサブテキスト、皮肉、カルチャーへの言及などといった要素にはまだ苦戦しています。意味が進化した俗語や口語的な言い回しは、最近更新されていない AI モデルによって誤って解釈される可能性があります。AI モデルが人間の経験や感情の複雑な網の目を解釈できるようになるまで、ハルシネーションは重要な課題であり続けることでしょう。

AI チャットボットのハルシネーションの頻度は?

AI ハルシネーションの正確な頻度を決定するのは困難です。その割合は、AI ツールが使用されるモデルやコンテキストによって大きく異なります。AI スタートアップの Vectara が GitHub で公開している、主要なチャットボットがドキュメントの要約時にハルシネーションを起こす頻度をトラッキングするリーダーボードによると、チャットボットは 3% から 27% の確率でハルシネーションを起こすと推定されています。

テック企業はチャットボットに免責事項を実装し、潜在的な不正確さと追加検証の必要性について警告しています。開発者はモデルの改良に積極的に取り組んでおり、過去 1 年間のうちにすでに進展が見られました。たとえば、OpenAI は、GPT-4 が事実に基づいた応答を生成する可能性が先行モデルよりも 40% 高いことを指摘しています。

AI ハルシネーションを防ぐには

AI ハルシネーションを完全に根絶することは不可能ですが、いくつかの戦略によって、その発生と影響を軽減することができます。これらの方法の中には、AI モデルの改善に取り組む研究者や開発者により適用できるものもあれば、日常的な AI ツール ユーザーに関係するものもあります。

学習データの質を高める

AI ハルシネーションを防ぐには、高品質で多様なデータを確保することが極めて重要です。学習データが不完全であったり、偏っていたり、十分な種類がなかったりすると、新規のケースやエッジ ケースに直面したときに、モデルが正確な出力を生成するのに苦労することになります。研究者や開発者は、さまざまな観点をカバーする包括的かつ代表的なデータセットのキュレーションに努めるべきでしょう。

結果の数を制限する

モデルが大量の回答を生成した場合に、AI ハルシネーションが起こる可能性があります。たとえば、クリエイティブ ライティングのプロンプトの 20 例をモデルに求めると、セットの終わりに向かって結果の質が低下することに気づくかもしれません。これを回避するためには、結果セットをより少ない数に制限し、最も有望で首尾一貫した回答に集中するよう AI ツールに指示することで、突飛な結果や一貫性のない結果を返す可能性を減らすことができます。

テストと検証

信頼性を確保するためには、開発者、ユーザーともに AI ツールのテストと検証を行う必要があります。開発者は、モデルの出力を既知の事実、専門的な判断、評価ヒューリスティクスと照らし合わせて体系的に評価し、ハルシネーションのパターンを特定しなければいけません。すべてのハルシネーションが同じとは限りません。完全な捏造と、コンテキストの手がかりの欠落による誤認識とは異なります。

ユーザーは、AI ツールの出力を信頼する前に、特定の目的に対するその性能を検証すべきでしょう。AI ツールは、テキスト要約、テキスト生成、コーディングなどのタスクに優れていますが、すべてにおいて完璧ではありません。テスト中に望ましいアウトプットと望ましくないアウトプットの例を提供することは、AI があなたの好みを学習するのに役立ちます。テストと検証に時間を投資することで、アプリケーションにおける AI ハルシネーションのリスクを大幅に減らすことができます。

構造化された出力用のテンプレートを提供する

情報を表示するための正確な形式や構造を伝えるデータのテンプレートをAI モデルに提供することができます。結果をどのように整理し、どのような重要な要素を含めるべきかを正確に指定することで、AI システムがより焦点を絞った適切な回答を生成するように導くことができます。たとえば、アマゾンの商品をレビューするために AI ツールを使用する場合、商品ページからすべてのテキストをコピーし、以下のようなテンプレートを使用して商品を分類するように AI ツールに指示するだけです。

プロンプト 
提供されたアマゾンの商品ページのテキストを分析し、以下のテンプレートに記入してください。関連する詳細を抽出し、情報を簡潔かつ正確に保ち、最も重要な側面に焦点を当ててください。情報が不足している場合は、“N/A” (「該当なし」) と記入してください。本文中で直接言及されていない情報は追加しないでください。

  • 製品名: [AI が推定した製品名]
  • 製品カテゴリ: [AI が推定した製品カテゴリ]
  • 価格帯: [AI が算出した価格] [USドル]
  • おもな特長: [簡潔な説明]
  • 長所 [箇条書きで上位 3 ]
  • 短所 [箇条書きで上位 3 ]
  • 総合評価: [5 段階評価でランク付け]
  • 製品概要: [最大 2–3 ]

結果として、誤った出力や、提示した仕様に合わない情報が出力される可能性ははるかに低くなります。

責任を持って AI ツールを使う

上記の戦略は、システム レベルで AI ハルシネーションを防ぐのに役立ちますが、個々のユーザーは、より責任を持った AI ツールの使用方法を学ぶことができます。これらの実践は、必ずしもハルシネーションを防ぐことはできないかもしれませんが、AI システムから信頼できる正確な情報を得る可能性を高めることができるでしょう。

  • 出力結果を相互参照し、情報源を多様化する
    重要な情報を得るのに、単一の AI ツールだけに頼らないようにしましょう。情報の正確性と完全性を検証するために、定評のある報道機関、学術出版物、信頼できる人間の専門家、政府の報告書など、他の信頼できる情報源と出力結果を相互参照するようにしましょう。
  • 判断力を働かせる
    AI ツールは、たとえ最先端のものであっても限界があり、エラーを起こしやすいことを認識しましょう。出力結果を自動的に信用することは避けましょう。AI が生成した情報に基づいて意思決定を行う際には、批判的な目でアプローチし、自らの判断力を働かせることが大切です。
  • AI は出発点として使用する 
    AI ツールによって生成された出力は、決定的な答えとしてではなく、さらなる調査と分析のための出発点として扱いましょう。AI は、アイデアを探求し、仮説を立て、関連情報を特定するために使用できますが、常に人間の専門知識と追加調査によって、生成された洞察を検証し、拡大するよう心がけましょう。

おわりに

AI ハルシネーションは、些細な不正確さから完全な捏造に至るまで、現在の LLM システムの限界によって生じます。これらは、不完全または偏った学習データ、限られたコンテキストの理解、明示的な知識の欠如によって発生します。

課題は存在するものの、AI 技術は依然として強力であり、継続的に改善されています。ハルシネーションを減らす研究者たちの努力により、大きな進展が見られました。構造化されたテンプレートを提供し、出力を制限し、ユース ケースに合わせてモデルを検証することで、ハルシネーションを抑えることが可能です。

広い心を持って AI ツールを探求しましょう。AI ツールは、人間の創意工夫と生産性を高める素晴らしい機能を提供しますが、生成された結果には自分自身の判断を用い、信頼できる情報源と情報を照らし合わせることも必要です。ハルシネーションに用心しながら、AI の可能性を受け入れましょう。

2024 © Grammarly Inc.
AI Hallucinations: What They Are and Why They Happen


Grammarly は、英作文中に文法的な誤りやスペルミスの修正、表現やスタイルの改善をリアルタイムで提案してくれるクラウドベースの英文校正ツールです。ビジネス ドキュメントや学術論文、クリエイティブな文章など、さまざまなスタイルに対応しています。

Grammarly Business はさらに、上記の機能と組織全体のナレッジを組み合わせ、優れた成果を発揮します。ドキュメントやメッセージ、メール、SNS など、毎日の業務で使うデスクトップ アプリや Web サイト間で活用でき、チームや組織全体での英文コミュニケーションの改善を支援します。

タイトルとURLをコピーしました