izmyonの日記

奈良の山奥で研究にいそしむ大学院生の学習記録。

今日の論文2023/05/20:On the Origin of Hallucinations in Conversational Models:Is it the Datasets or the Models?

On the Origin of Hallucinations in Conversational Models:Is it the Datasets or the Models?

aclanthology.org

©2022 Association for Computational Linguistics

License: Creative Commons Attribution 4.0 International License(CC-BY)

本記事は、原著の内容に基づき筆者が要約または翻訳したものです。以下の図は、そこから引用しています。

This article is my summary or translation based on the content of the original publication. The following figures are taken from it.

要点まとめ

知識に基づいた会話モデルは、事実と異なる発言をすることが知られており、一般に幻覚(hallucination)と呼ばれる現象である。本研究では、この現象の根本的な原因、すなわち「幻覚は訓練データによるものなのか、それともモデルによるものなのか?」という問いについて調査する。我々は、既存の知識ベースの会話ベンチマークといくつかのSoTAモデルの両方について、包括的な人手調査を実施する。その結果、標準的なベンチマークは60%以上の幻覚応答で構成されており、幻覚だけでなく幻覚を増幅するようなモデルになっていることがわかった。この結果は、既存のデータセットとそれを用いて訓練されたモデルの品質に関する重要な問題を提起するものである。今後の研究のために、私たちのアノテーションを公開する。

github.com

1. 序論

事前に訓練された大規模な言語モデル(Radfordet al., 2019; Brown et al., 2020; Raffel et al., 2020)を搭載した知識に基づいた会話モデルは、事実と異なるステートメントを生成することがよく知られており、一般的に幻覚(hallucination)(Dziri et al., 2021b; Rashkin et al., 2021b)と呼ばれる現象を起こす。先行研究の大部分では、モデルを改善することで幻覚に対処しようとするのが大きな共通点である(Shuster et al., 2021; Mielke et al., 2020; Dziri et al., 2021a; Rashkin et al., 2021b)が、私たちの知る限りでは、これまで会話ベンチマークを監査する試みは行われていない。

 一方、知識に基づく会話ベンチマークは、エラーを起こしやすい収集プロトコルによる幻覚を含んでいるかもしれないし、忠実さよりも情報量を奨励するデサインフレームワークのせいかもしれない。 既存の対話システムは、通常、オンラインプラットフォームを通じてクラウドソースされたコーパスで訓練されている(Dinan et al., 2018; Gopalakrishnan et al., 2019; Moon et al., 2019)。提供された知識に対して忠実に根拠のあるユーティリティを考え出すインセンティブが緩いため、クラウドワーカーは知識スニペットを完全に無視したり、個人の知識を利用したり、時には架空の人物を想定したりすることがあり、その結果、主観的コンテンツや検証されていない事実知識に溢れた会話が生まれる。図1に、WOWデータセットから得られた幻覚のような会話を示す(Dinan et al.、2018)。

 一方、ニューラル会話モデルは、必ずしも忠実な出力を生成するのではなく、データの分布特性を模倣するように設計されている。このような最適化により、テスト時の幻覚行動を再現し、さらには増幅するようなモデルが押し出される可能性が高い(Bender et al., 2021)。幻覚的な応答が少数でも存在すると、忠実な反応を生成するモデルの能力を抑制するような形でデータ分布が歪むことがある(Kang and Hashimoto, 2020)。

 この研究では、談話現象の言語的コーディングシステム(Stiles, 1992)や、BEGIN(Dziri et al., 2021b)やAIS(Rashkinet al., 2021a)のような評価フレームワークからの洞察を得て、広く使われている3つの知識基盤型会話ベンチマークの回答にアノテーションを付けることにした: Wizard of Wikipedia (Dinan et al., 2018)、CMU-DOG(Zhou et al., 2018)そしてTOPICALCHAT(Gopalakrishnan et al., 2019)である。

 その結果、3つのデータセットにおいて、60%以上の回答が幻覚化されており、主な幻覚化様式は、主観的情報(思考、信念、感情、意図、個人的経験など)の表現と、裏付けのない客観的事実情報の表現によって現れていることが明らかになった。さらに、ニューラル会話モデルがこの幻覚をより深刻にするかどうかを理解するために、幻覚を回避するように設計されたものを含む、いくつかの最新モデルによって生成された応答を注釈した。その結果、生成された応答は、訓練データと比較して、幻覚の割合がさらに多いことがわかった。この結果は、現在の会話データセットの品質、知識ベースの会話システムを訓練するための適切さ、および既存のモデルの頑健性に疑問を投げかけるものである。

2. ベンチマークにおける幻覚

我々は、3つの英語クラウドソース知識ベース会話ベンチマークの人間研究を実施した: Wizard of Wikipedia (WOW)、CMU-DOG、TOPICALCHATである。これらのデータセットは2人の話者による対話で構成され、目標は特定のトピックに関する情報を伝達することであり、話者には現在のターンに関連する知識ニペットが提示される。

レスポンス分類のタクソノミー:BEGIN分類法(Dziri et al., 2021b)とAISフレームワーク(Rashkin et al., 2021a)の定義に従って、知識スニペットから排他的に推測できるかどうかに基づいて、各レスポンスを以下のようにアノテートする。含意:レスポンスは知識によって完全にサポートされている、つまり、それを含むすべての情報は、その知識に帰着しなければならない。幻覚:応答の事実的な正しさは、(たとえそれが現実世界で真実であっても)知識スニペットから完全に検証することができない。より具体的には、個人的な意見、経験、感情、現実の内部評価など、ソース文書に存在する情報に帰することができないものは、幻覚とみなされる。部分的な幻覚:応答の一部が幻覚で、残りはソース知識によって含意されいている。 汎用:「良さそうだ」「それはどうかな」など、曖昧で事実上の情報を伝えない応答。非協力:Gricean maxims(Grice, 1989)に従った収束的協力の原則に従わない、含意された応答。

 ハルシネーションの言語的性質を理解するために、我々はさらに、VRM(Verbal Response Modes; Stiles1992)と呼ばれる談話表現に対する言語的符号化システムに基づいて、応答をアノテートする。具体的には、「開示」「啓示」「助言」「確認」「質問」「確認」(Ack.)という発話行為でターンを分類する。 表1は、各VRMタイプの定義を示したものである。私たちがVRM分類法を選んだのは、回答を分析に十分なカテゴリーに分類する簡単な方法(Bunt et al., 2020)を提供しているからである。

2.1 人手評価試験

まず、2人の言語学者に、ランダムにサンプリングされた200の訓練応答について、ソース知識に関する帰属を判断してもらうという、2段階のアノテーションプロトコルに従う。アノテーション者間の一致については、BEGINとVRMの両方でFleiss' Kappaスコアを測定している。WOWはBEGINで0.89、VRMで0.78となり、実質的な一致を示している。CMU-DOGとTOPICALCHATのアノテーションはほぼ同様の一致を示した(§E参照)。高い合意スコアは、WOWに関するAISの調査結果(Rashkin et al, 2021a)と一致している。

 第2ラウンドは、AMTの非専門家アノテーターを用いて、ランダムにサンプリングした4K件の訓練回答に対して大規模なアノテーションを行うものである。このラウンドは、専門家から得られた結果が、データの品質について結論を出すのに十分な信頼性を持つことを保証するために重要である。人間のアノテーションは高価であるため、我々はWOWベンチマークに対してのみ非専門家のアノテーションを行い、CMU-DOGとTOPICALCHATのデータに対しては専門家のアノテーションに限定した。他の2つのデータセットよりもWOWを選んだのは、ソース知識がより高速なアノテーションに適しているためである(TOPICALCHAT:300ワード>CMU-DOG:215ワード>WOW:27ワード)。合計で4人の信頼できるワーカーを選び、4kの回答に注釈をつけた。注釈者間一致度を計算するために、1つの回答に対して3人の作業者を2次タスクに割り当て、それぞれ500の回答を判定してもらった。Fleiss'Kappa一致度はBEGINで0.75、VRMで0.61と報告されている。Fleiss'KappaはBEGINで0.75、VRMで0.61であったが、専門家よりも低い一致度であり、これは専門家がより強い言語的背景を持っているためと予想される。我々は、以下の質問に答えることを目的とする:

(Q1) ベンチマークにはどの程度の幻覚があるのか?:図2は、WOWの各BEGINカテゴリの内訳と、専門家によるアノテーションとAMT作業者の比較である。驚くべきことに、WOWは幻覚に満ちている。200の回答に対する専門家のアノテーションによると、幻覚化した回答には忠実な内容が多く含まれており(42.3% v.s. 19.7%完全に幻覚化された応答)、合計で62%の幻覚があることが示された。この結果は、より大きなデータでも一般化され、4Kサンプルで評価した場合、幻覚回答の割合は74.4%に増加することがわかる。その結果、CMU-DOGとTOPICALCHATのベンチマークでは、同様の傾向が見られました(図3)。CMU-DOGでは61.4%の回答が幻覚であり、16.2%の回答がソース知識を完全に含んでいるに過ぎず、TOPICALCHATでも同様の結果(幻覚63.9%、含意22.9%)を示している。幻覚応答の例は§Jに描かれている。これらの結果は、対話データセットの品質について疑問を投げかけるものである。

(Q2) 人対人のデータで使われている幻覚戦略にはどのようなものがあるか?:図2および図3は、3つのベンチマークにおけるBEGIN分類ごとのVRMの内訳を示したものである。その結果、次のようなことがわかった。すべてのベンチマークで、幻覚の大部分は開示(つまり、主観情報)に属している(WOW、CMU-DOG、TOPICALCHATではそれぞれ50.9%、56.2%、61.5%)。会話において、感想や意見、感覚などの主観的な情報を共有することは自然なことだが、その代償として、データセット中の知識スニペットが無視されることがよくある。さらに、幻覚応答では、啓発もよく見られる現象であり、人間は主観的な情報を議論するだけでなく、真偽を問わず、裏付けのない事実も持ち込むことがあることを示唆している。逆に、含意応答は、知識スニペットから推測される情報との関連性が高い(70%以上)。

3. モデルにおける幻覚の増幅

次に、推論時にモデルがどの程度幻覚現象を増幅するかを調査する。代表的なモデルを検討する。

  • GPT2(Radford et al., 2019; Wolf et al., 2019)は、知識と履歴の連合を入力とする自己回帰モデルである。

  • DoHA(Prabhumoye et al., 2021)は、知識接地用にBARTベースの会話モデル(Lewis et al., 2020)を構築し、生成中に符号化文書と履歴を別々に扱うtwo-viewアテンション機構を持つ。

  • CTRL(Rashkin et al, 2021b)は、GPT2モデルを、より劣位でより含意のある内容へと生成を導く制御トークン(Keskar et al., 2019)で補強する。

 ベンチマークで各モデルをファインチューンし、デコードに p=0.6の核サンプリング(Holtzman et al., 2019)を用いる(より詳しい実装上の詳細は§Bにある)。表2に見られるように、CTRLが最良のモデルであり、幻覚比に基づくDoHAがそれに続く。§Lの表6は、生成された応答のサンプルである。§2の解析と同様に、同じ2人の言語学者に、各ベンチマークからランダムに選ばれた200のテストサンプルについて、モデル生成された応答を解析するよう依頼している。

(Q3) SoTAの会話モデルで幻覚が増幅されるか?:表2は、3つのベンチマークに制約をかけた異なるモデルの増幅の度合いを示している。数値はデータ中の各クラスの割合を示す。人間のゴールドレスポンスと対比すると、WOWにおけるCTRLを除いて、モデルは幻覚だけでなく、幻覚の割合も増幅している。例えば、GPT2はWOWで19.2%、CMU-DOGで15%、TOP-ICALCHATで15.1%も幻覚を増幅させる。逆に、含意は17.4%、9.3%、11.9%減少している。このことから、幻覚のパターンは、含意よりも学習しやすいことが示唆される。CTRL幻覚は、非協力的な回答が多くなる反面、3つの中で最も少ない。これらの回答は知識を内包しているが、履歴との整合性がとれていない。さらに詳しく調べてみると、非協力的な応答の多くは抽出的であることがわかる。つまり、内容を履歴に適合させることなくエビデンスの大きな塊をコピーしたり、エビデンス全体の正確なコピーを出力したりしている。これは、レスポンスと知識の間の高いROUGEスコアにも反映されており、ゴールドレスポンスと比較したCTRLの抽出的な性質を裏付けている。CTRLは知識との重なりを最大化するように最適化されているため、このような挙動は驚くことではない。全体として、これらの結果は、幻覚が訓練データの問題の反映であるだけでなく、モデルの弱さの結果であることを実証している。

 我々は、モデルの欠陥に寄与し得る複数の要因が存在すると仮定する。第一に、教師強制による暴露バイアス(Ranzato et al., 2016)は、モデルが以前に予測した単語に過度に依存し、その結果エラー伝播を悪化させることができるため、幻覚がより悪化することがある。第二に、最尤推定はノイズの多いデータに対して脆弱であり、モデルがすべてのテスト参照に高い確率を割り当てる必要があるため、不安定な挙動を示す。これは、 機械要約で観察された事実(Kang and Hashimoto, 2020)である。さらに、この問題は、テスト時に使用されるデコード戦略に関連している。我々は、事実知識に基づくモデルは、しばしば正しい回答に最も高い確率を割り当て、他の分布(例えばtop-k ornucleus)に基づくサンプリングは、生成プロセスにおける幻覚を誘うかもしれないと推測している。 そして最後に、これらのモデルの振る舞いは、最終的に事前学習時にインターネットテキストから学習したバイアスによって形作られるという仮説を立てた(Nadeem et al., 2021)。幻覚の増幅に対する各要因の役割の調査は今後の研究に委ねる。

(Q4) モデルが使う幻覚の戦略にはどのようなものがあるか?:意外なことに、モデルによって幻覚に対する戦略は異なっていた。DoHAとGPT2が主に開示に依存し増幅するのに対し、CTRLは啓発に依存する。これは、CTRLが代名詞(開示のための重要な要素)を避け、含蓄のある反応を生成するように明示的に訓練されているためである。その副作用として、非協力的な回答を増幅してしまう(表2のWOWとCMU-DOGで33.5%、12.9%、20.2%)。 すべてのモデルとデータセットの完全な結果は、図6、図7、図8にある。

4. 関連研究

ニューラル言語生成における幻覚は、ニューラル機械翻訳(NMT)(Raunak et al, 2021; Wang and Sen-nrich, 2020)や要約(Durmus et al, 2020; Kang and Hashimoto, 2020)など多くの分野で、最近、多くの研究者の関心を集めている。知識ベースのニューラル対話生成における幻覚は、むしろ新しい研究問題である(Mielkeet al., 2020; Shuster et al., 2021; Dziri et al., 2021a;Rashkin et al., 2021b)。既存の研究の多くは、より堅牢な学習アプローチを導入することで、生成された出力の幻覚を回避することに焦点を当てている。Dzirietら(2021a)は、生成された応答におけるエンティティベースの幻覚を減らすために、知識グラフで補われた事実を使用するモデルを提案する。 Rashkinetら(2021b)は、訓練時に制御トークンを追加し、より客観的な文や忠実な文に向けて生成を制御している。我々の研究に近いのは、対話システムで属性を定量化するフレームワークを紹介したDziriら(2021b)とRashkinら(2021a)であるが、我々は複数のベンチマークとモデルでより細かい手動分析を行ったものである。

5. 結論

我々の調査は、対話のベンチマークとモデルの両方において、幻覚が一般的な問題であることを経験的に示している。広く使われている3つのベンチマークを分析した結果、これらのベンチマークでは幻覚が多発しており、人が使う最も一般的な戦略は「開示」と「啓発」であることが明らかになった。 さらに、これらのベンチマークで学習させた会話モデルは、幻覚を軽減するように設計されたモデルでさえも、幻覚を見せるだけでなく、幻覚を増幅させることを示す。 このため、高品質なデータの公開と、信頼性の高い会話システムの慎重な設計が必要である。その前に、データセットの使用や公開に先立ち、実用的な知見を見出すために、あらゆるデータセットのサンプルに目を通すことを強くお勧めする。