izmyonの日記

奈良の山奥で研究にいそしむ大学院生の学習記録。

今日の論文2023/05/18,19:Diving Deep into Modes of Fact Hallucinations in Dialogue Systems

Diving Deep into Modes of Fact Hallucinations in Dialogue Systems

aclanthology.org

©2022 Association for Computational Linguistics

License: Creative Commons Attribution 4.0 International License(CC-BY)

本記事は、原著の内容に基づき筆者が要約または翻訳したものです。以下の図は、そこから引用しています。

This article is my summary or translation based on the content of the original publication. The following figures are taken from it.

要点まとめ

知識グラフ(KG)ベースの会話は、多くの場合、事前に訓練された大規模なモデルを使用し、通常、事実の幻覚に悩まされている。知識ソースや会話履歴にないエンティティが応答に導入され、会話の流れが阻害されることがよくある。既存の研究では、学習手順を修正したり、多段階の洗練方法を用いることで、この問題を克服しようとしている。しかし、応答生成時に誤変換を抑制するきめ細かなシグナルを提供する、エンティティレベルの幻覚検出システムの構築は、ほとんど行われていない。この問題を解決するための第一歩として、我々は、人間のフィードバック分析を通じて、KGに基づいたチャットボットの様々な幻覚のモードを特定するために深く探索する。次に、FADE(FActual Dialogue Hallucination DEtection Dataset)と名付けられた合成データセットを作成するために、一連の摂動戦略を提案する。最後に、包括的なデータ分析を行い、幻覚検出のための複数のベースラインモデルを作成し、人間が検証したデータや既に確立されたベンチマークと比較する。

github.com

1. 序論

知識ベースの会話モデルは、多くの場合、事前に訓練された大規模なモデルを使用する(Radford et al., 2019;Brown et al., 2020)。これらのモデルは、提供された知識に従わない応答を生成することで有名である。この現象は、幻覚(Hallucination)(Dziri et al., 2022b; Rashkin et al, 2021b)と呼ばれている。補足的な知識エッジに忠実であることは、これらの知識基盤型チャットボットの主要な設計要因の一つである。もし、ある応答が与えられた知識に忠実でない場合、その応答は非情報的となり、会話の流れを危うくする危険性がある。このような大規模な言語モデル(LM)は、強力な言語学的能力を保持しているにもかかわらず、会話中に事実を理解し、提示することが不十分である。LMは、データの分布特性を模倣するように訓練され、テスト時に幻覚的な特性を強める。

 一方、多くの先行研究(Wisemanet al., 2017; Parikh et al., 2020; Tuan et al., 2019)は、忠実性を確保するために外部データでこれらのモデルを訓練すると、参照が追加の事実情報を含む、ソースと参照の発散問題が発生する可能性があることを示唆している。この問題を総合的に解決するために、Dziriらは、従来の対話生成に別の洗練段階(refinement stage)を追加することによって、2段階のgenerate-then-refineアプローチを提案し、対話システムがKGに問い合わせることによって潜在的な幻覚を修正することを可能にした。また、本研究では、2つの摂動戦略を用いて構築した合成データセットで訓練したトークンレベルの幻覚分類器を採用している。この方法には明確な利点があるが、本研究で提案された幻覚の摂動戦略は、事実生成モデルの曖昧な帰属の一部を捕らえることができないかもしれない。 図1に示すように、ニューラルモデルは、k-hop KGに存在し、期待されるものと欺瞞的に類似している応答に、幻覚のエンティティを注入することができる。また、このようなとらえどころのない幻覚を事前に検出できなければ、カスケード効果を引き起こし、後続のターンで幻覚を増幅することになる(See and Manning, 2021)。

 一方、人間のアノテーションに依存することは、エラーを起こしやすい収集プロトコールや、注意深くタスクを完了するための人間の無知のために困難である(Smith et al.、2022)。先行研究(Dziriet al., 2022c)は、知識に基づく会話ベンチマークは、忠実さよりも情報量を奨励する設計フレームワークによってもたらされる幻覚であることを示している。Dzirietらが研究したように、アノテーターが回答中の幻覚を識別するよう求められた場合、インセンティブの欠如、個人的なバイアス、または提供された知識への注意不足により、高い確率でエラーが発生する。この研究では、反復的で不明瞭な発話が幻覚を促進するなど、SeeとManningの発見のいくつかに基づいて、すでに定義されている幻覚のモードを拡張する(Maynez et al.、2020;Dziri et al.、2021a)。 この研究での我々の貢献は3つある:

  • 我々は、KG-grounded対話システムにおける事実幻覚を8つのカテゴリーに拡張する。本研究で定義したクラスが現実のデータにおいてどの程度存在するかを理解するために、SoTAのニューラル・ジェネレータで生成されたデータを用いて、システム的な人間評価を行った。

  • 人間のアノテーションは高価であり、不正確であるため、我々は、事実幻覚の非限定的な方法をシミュレートする一連の新しい摂動戦略を設計し、FADE(FActualDialogue HallucinationDEtection Dataset)と総称する一連の合成データセットを構築した。

  • 事前に訓練されたモデルベースのベースラインを複数作成し、複数の構成データセットと混合データセットでその性能を比較する。本データセットの汎化能力を評価するため、幻覚応答の全カテゴリーを網羅するBEGIN(Dziri et al., 2021b)、FaithDial(Dziri et al., 2022a)データセットに対してゼロショット推論を実施する。

2. KG-grounded対話システムにおける幻覚の異なる様式

2.1 背景

我々は、知識グラフ(KG)と呼ばれる多関係グラフ \mathcal{G} = \left( \mathcal{V,E,R} \right) から得られる事実に基づく対話において、ハルシネーションされたスパンを検出するタスクに注目する。各KGは、有向エッジのトリプレット t= \langle \text{ [SBJ ], [PRE], [OBJ] } \rangle で構成されており、ここで、 \text{ [SBJ ], [OBJ] } \in \mathcal{V} は主語と目的語を表すノード、 \text{ [PRE]} \in \mathcal{R} は関係型として理解される述語である。主に、ある文脈エンティティを中心とした元のKGのk-hopサブグラフ \mathcal{G}^k_c \in \mathcal{G}の有効なパスがそれをサポートしない場合、ニューラル対話システムは幻覚を生成してしまう。

我々の研究は(Dziri et al., 2021a)の研究を拡張し、LMが不誠実な振る舞いをする可能性がある、提供されたKGの外因的、内因的な2つの状況を特に調査したものである。この分類は幻覚の検出に有益であるが、これらの分類はさらにサブカテゴリに細分化することができ、それらは§2.3で説明される。

2.2 ベースデータセット

我々はOpenDialKG (Moon et al., 2019)を使用する。このデータセットでは、2人の作業者がペアになって特定の話題(主に映画、音楽、スポーツ、本)についてチャットする、クラウドソースの英語対話データセットである。このデータセットは、GPT2ベースのモデルの学習、人間のフィードバック分析のためのデータの生成、および摂動データセットの作成に使用される。

2.3 定義

以下に、幻覚の種類を定義し、図2にはそれぞれの種類を包括的に図示した。

(a)(Extrinsic-Soft). 外在性ソフト幻覚(Extrinsic-Soft Hallucination)は、期待されるスパンと類似しているが、 \mathcal{G}^k_cの有効なトリプルに対応しないテキストの新しいスパンをもたらす発話を意味する。

(b)(Extrinsic-Hard). 外在性ハード幻覚(Extrinsic-Hard Hallucination)とは、期待されるスパンとは異なるテキストの新しいスパンをもたらす発話であり、 \mathcal{G}^k_cの有効なトリプルに対応しない。

(c)(Extrinsic-Grouped). 外在性集団幻覚(Extrinsic-Grouped Hallucination)とは、 \mathcal{G}^k_cの有効なトリプルに対応しない、あらかじめ定義された特定のタイプの、期待とは異なる新しいテキストスパンをもたらす発話を意味する。

(d)(Intrinsic-Soft). 内在性ソフト幻覚(Intrinsic-Soft Hallucination)は、 \mathcal{G}^k_cの任意のトリプルを誤用した発話で、エンティティ間に直接の経路はないが、互いに類似しているものに相当する。

(e)(Intrinsic-Hard). 内在性ハード幻覚(Intrinsic-Hard Hallucination)は、 \mathcal{G}^k_cの任意のトリプルを誤用した発話で、エンティティ間に直接の経路はなく、いかなる形でも関連していないものに相当する。

(f)(Intrinsic-Repetitive). 内在性反復幻覚(Intrinsic-Repetitive Hallucination)は、 \mathcal{G}^k_cの[SBJ]または[OBJ]を誤用する発話で、エンティティの間に直接的な経路はないが、そのエンティティが以前に会話履歴に登場したことがあるものに対応する。

(g)(History Corrupted-Intrinsic/Extrinsic). 履歴破損(内在性/外在性)幻覚(History corrupted (intrinsic/extrinsic) Hallucination)とは、会話履歴の中で幻覚を見たエンティティの影響を受けている、内在的または外在的幻覚にさらされた発話を指す。

2.4 ヒューマンフィードバック解析

DziriらによるOpenDialKGでファインチューンされたGPT2ベースの生成モデルを用いて生成された応答について、実世界のシステムにおいてどの程度の幻覚の様式が存在するかを調べるために、人間のフィードバック分析を実施した。Greedy、ビームサーチ、中核サンプリング(nucleus sampling, top-p sampnlingとも)の4種類のデコード戦略から、0.9と0.5の確率で200件ずつ回答をサンプリングした。各ダイアログインスタンスについて、Amazon MechanicalTurk (AMT)から2人の異なるアノテーター(高い支持率を持つ)から評価を求めることにより、人間の判断をクラウドソーシングで収集した。また、Human Intelligence Task (HITS)については、コンピュータサイエンスの大学院生1名が検証を行った。また、幻覚がある例については、幻覚の種類を特定してもらった(インストラクションで異なる種類の幻覚の例を示している)。ヒューマンフィードバックの結果を表1に示す。HITSの21%は品質が悪いという理由で却下されたが、残りのアノテーションについては平均クリッペンドルフ \alpha係数が0.74となり、中程度から高い一致度が示された。 表1を用いて、次のような考察を行った。

  • 外在性ソフト幻覚は、幻覚の支配的な形態である。また、このことは、LMが真のエンティティに類似したエンティティを生成するという我々の先行研究を補強するものである。

  • ビームサーチ復号方式で生成された生成は、比較的幻覚が少ないが、外在性幻覚の割合が貪欲復号方式より高い。

  • 内在性ハード幻覚は、すべてのタイプの中で最も少ないようである。これは、LMが常に与えられたKGトリプルから何かを学ぼうとし、異質なものを生成する確率が非常に低いことを示唆している。

3. データセットの作成

FADEは、複数の摂動を用いて作成されたコンポーネントデータセットと、コンポーネントデータセットを用いて作成された混合データセットからなるデータセット集である。

3.1 摂動戦略

外在性幻覚:OpenDialKGに存在する全てのエンティティはインデクシングプロセスを経る。まず、Spacyを使用して各エンティティの名前付きエンティティタイプを決定し、各エンティティタイプに対してBM25インデックスを作成する。エンティティに対応する各KGトリプルは "[SBJ] [PRE] [OBJ]" の形式で表現され、 t_iと表記される。エンティティ( e_i)については、ドキュメント d_i = \text{concat}(t_1, t_2, \ldots t_n)を作成する。ここで、 nはそのエンティティのKGトリプルの数である。この後、我々は d_i e_iをエンティティタイプに対応するインデックスにインデクシングする。摂動プロセス中には、我々は摂動させたいエンティティの全てのKGトリプルを取得し、([SBJ],[PRE],[OBJ])の順列による各トリプルについて3つのクエリを形成する。次に、外在性幻覚のタイプに基づいて、我々は以下のような方法でドキュメントスコアを取得するためにインデックスをクエリする。 \text{scores} = \text{average}( \{ \text{BM25} (q_i, d_j) \}_{i \in (s, r, o), j \in (0, n) } ) 。選択基準は、表2に示すとおりである。

外在的集団幻覚のためのグループは表10に記載されている。選択プロセス中には、我々は反復的に摂動されたエンティティが会話履歴に存在し、実際のエンティティと一致し、オリジナルのエンティティの1ホップサブグラフに現れているかどうかをチェックする。発生が見つかった場合、我々は次の最善のエンティティに進む。

内在性幻覚:ここでは、BM25インデクスを動的に作成し、元のエンティティの1ホップサブグラフのすべてのKGトリプルをインデクス化する。再度、KGトリプルは外部幻覚と同様に"[SBJ] [PRE] [OBJ]"の形式で表現される。ここでの目標は、元のエンティティに似ているか、異なっているか、また1ホップグラフに存在するエンティティを選択することである。そのために、我々はハイブリッドなトリプル検索アプローチを採用し、元のエンティティに関連する各トリプルにスコアを付ける。まず、事前に学習されたGPT2の最終的な隠れ層を用いて、Gkc内の各ノードの初期エンベッディングを得る(詳細は§D.3を参照)。クエリは式1を用いて形成され、 \mathcal{G}^k_c内の各トリプルは、式3で述べられているような類似性スコアリングシステムを用いてスコア付けされる。

 q = \sum_{i \in {s,r,o}} \frac{\epsilon}{p(q_i) + \epsilon} v_{q_i} \tag{1}

ここで、 \epsilonは自由項パラメータ(§D.2)、 p(q_i)はクエリ項のユニグラム確率、 v_{q_i}は各クエリ項のエンベッディングである(ここでのクエリ項は元のエンティティの[SBJ],[PRE],[OBJ])。

 n_i = \frac{\epsilon}{p(s) + \epsilon} v_s + \frac{\epsilon}{q(r) + \epsilon} v_r + \frac{\epsilon}{p(o) + \epsilon} v_o \tag{2}

式2の n_i \mathcal{G}^k_c内のトリプルエンベッディングを表し、 q(r)はサブグラフ内の関係項の希少性を表す。高い出現率はペナルティとなり、残りの項は式1に類似している。

 \text{EntitySimilarity}(Q, t) = \cos(q, n_i) \tag{3}

次に、元のトリプル"[SBJ] [PRE] [OBJ]"を用いたシンプルなクエリを用いて、以前に作成したBM25インデクスをクエリし、各トリプル(t)のスコアを得る。最終的に、式4を使用して最終的なスコアを得る。

 \text{Score}(Q, t) = \beta \text{EntitySimilarity}(Q, t) + (1 - \beta) \text{BM25}(Q, t) \tag{4}

ここで、 0 \lt \beta \lt 1である。

表3に定義されたスコアと選択基準に基づいて、摂動エンティティを選択する。外来幻覚と同様に、元のエンティティと一致しないか、履歴に現れるまで、最もスコアが高いエンティティを繰り返しフィルタリングする。

*履歴破損幻覚:会話履歴は内在性または外在性戦略で破損される。会話の最後の kターンを選択し、エンティティをランダムに摂動させる。また、前のターンの少なくとも50%が破損していることを確認する。

3.2 データセットの分析

以下では、データの統計情報を提供し、提案する摂動戦略を用いて生成されたデータセットの構成と特性を明らかにする。

3.2.1 データの統計量

表4と表5は、異なる摂動戦略で作成されたデータセットの統計値である。 ベースとなるデータセットには77,430点のデータポイントが含まれている。しかし、これらのデータセットで摂動されたターンは、比較するとかなり少ない。この低い数値は、発話中のすべてのエンティティが有効なKGパスを持っているわけではないからである。外在性幻覚の場合、約12,000〜23,000文が摂動され、約550〜11,300文に複数の摂動があることがわかった。内在性幻覚の摂動データ数は、外在性幻覚よりも少ない(約9,000〜約18,000個)。KGパスが存在するかどうか、既に発生しているかどうかなど、多くのチェックが行われるため、複数の摂動を持つ発話数はごくわずかである。(例えば、KGパスが存在するかどうか、既に発生しているかどうか、など)。モデルの学習と評価を行うため、オーバーフィッティングを避けることを念頭に、学習分割のサイズを10%から30%5の範囲で、2.5%のステップで変化させる。残りのデータを半分ずつに分け、検証・テストを行う。

3.2.2 パージング機能

図3は、Spacyによって識別された、外在性幻覚のNamed Entity Recognition(NER)タグのトップ10を示したものである。外在性幻覚では、ほとんどのNERタグがPERSON型である。これは、基本データセットの元ネタが主に映画、本、音楽に関するものであることに対応している。外在型ソフト幻覚では、関連するPERSONの名前が関連性の高い人物に変更されたり、映画の名前が監督の名前に変更されたりすることがある。一方、外在性ハード幻覚では、NERタグの分布が一様であることがわかる。図4と図5は、内在性ソフト幻覚と内在性ハード幻覚の両方で、摂動されたエンティティと元のエンティティの関係性の上位10位と、その対応する値を示している。内在性ソフト幻覚では、"release year"、"starred actors"、"written by"など、より関連性の高い関係が選択されている。 一方、外来性ハード幻覚では、"Country of Origin"、"Country of Nationality"など、より珍しい関係が上位に選ばれている。

3.3 データセットの混合

実際のデータでは、あらゆる種類の幻覚が発生することが予想されるため、より難易度の高いデータセットを作成するために、あらかじめ構成されたデータセットを特定の割合で混合する。表11に、4種類のデータセットに対する異なる混合比率を示す。Observed:2.4節で示した観測データを模倣しようとし、すべてのデコーディング戦略のパーセンテージの平均を取る。Balanced:ここでは、幻覚ターンと非幻覚ターンの間のバランスのとれたデータセットを作ることを目標とし、各幻覚のタイプもバランスする。 Extrinsic+:このシナリオでは、外在性ソフト、ハード、集団の割合をそれぞれ2倍、1.5倍、1.5倍にする。Intrinsic+:ここでは、内在性ソフト、ハード、反復の割合を1.5倍に増やす。詳しくはD.4.に示している。

3.4 人手検証

我々の提案する摂動戦略が元データの幻覚を誘発するかどうかを検証するために、混合データセットのテスト分割のそれぞれから150例を無作為にサンプリングすることにした。その後、これらのサンプルをランダムに並べ、少なくとも3人のAMT作業者がアノテーションした600点のデータからなる連結サンプルを形成し、§2.4で定義したのと同じ設定をした。さらに、大学院生は、幻覚が摂動ごとの規範に合致している場所を検証した。Krippendorffのαは0.88と0.76であり、非常に高い一致を示した(平均)。我々の摂動戦略は純粋に決定論的であるため、自動的に注釈されたデータの大規模な人間による検証はこの研究の範囲外であった。このデータセットから300個、2.4.ヒューマンフィードバックから200個を抽出し、500個のデータセットを作成した。

4 タスク

幻覚を含む発話を特定し、懸念されるエンティティを突き止めるために、以下の2つのタスクを作成する。

  1. 発話分類:対話履歴 D、知識トリプル K_n、現在の発話 \bar{x}_{n+1}が与えられたとき、 \bar{x}_{n+1}が幻覚になっているか否かを分類する。

  2. トークンの分類: D K_n \bar{x}_{n+1}が与えられた場合、 \bar{x}_{n+1}に対してシーケンスラベリングを行い、幻覚のスパンを特定する。

5 ベースラインモデル

提案された幻覚検出タスクに対する初期の取り組みとして、我々は、BERT、XLNet、RoBERTaを含む、事前学習されたトランスフォーマモデルに基づくいくつかの基本的な検出モデルを作成する。これらのトランスフォーマモデルは最先端のものであり、コンテキストや組み込まれた世界知識をより効果的に活用して、自己矛盾的または反常識的な内容を検出することが可能である。

発話分類器の訓練のために、与えられた \mathcal{D},  \mathcal{K}_nおよび \bar{x}_{n+1}を用いて、事前学習されたモデルMをファインチューンし、 \bar{x}_{n+1}の二値幻覚ラベル yを予測する。ここで、 \mathcal{D} \mathcal{K}_nトークンタイプidが0のシーケンスAとして考えられ、 \bar{x}_{n+1}トークンタイプidが1のシーケンスBとして考えられる。推論時には、最終隠れ状態 \boldsymbol{H} \in \mathbb{R}^{l×h}  h, lはそれぞれ隠れサイズとシーケンス長)から、最大プーリング(すなわち、 w=\text{max_pool} (\boldsymbol{H}))により表現 w \in \mathbb{R}^hを取得する。次に、 wtanh活性化を持つMLP層を通して二値ラベル y \in \{0,1 \}を得る。訓練時には、予測ラベルと実際のラベルとの間のクロスエントロピー目的関数を用いてモデルをファインチューンする。

同様に、シーケンス分類器の訓練のために、事前学習されたモデル \mathcal{M}_sをファインチューンする。まず、 \mathcal{M}_sを用いて \mathcal{D},  \mathcal{K}_nおよび \bar{x}_{n+1}エンコードし、最終隠れ状態 \boldsymbol{H} \in \mathbb{R}^{l×h}  h, lはそれぞれ隠れサイズとシーケンス長)を取得する。各トークンの二値分類を行う代わりに、BILOUエンコーディングスキームを採用する。隠れ状態は、tanh活性化を持つMLP層を通して5ウェイラベル y \in
 \{ B, I, L, O, U \}を得る。訓練時には、予測されたラベルと実際のラベルとの間のクロスエントロピー目的関数を用いてモデルをファインチューンする。

6 実験セットアップ

ベースライン構成:BERT-base-uncased(110M)、RoBERTa-base(125M)、XL-Net-base-cased(110M)など、Hugging Face Transformersで事前に訓練された様々なモデルを使用して実験を行った。これらのモデルの大型版や中型版を使用するとより良い結果が得られるが、大型モデルを量産するのはコストがかかるため、これらのモデルの使用は控えていいる。

 次のモデル構成を実験的に検討した。(i)会話履歴の長さを変える。(ii)最大/平均プーリングを試す。(iii)MLP層に通す前に K_nに対応する隠れ状態を \bar{x}_{n+1}に対応する隠れ状態と連結するかどうか。(iv)シーケンスタガーのラベルの予測にMLPではなくCRF層を使用する。 最良の構成は、4ターンの会話履歴、max poolingを使用し、 K_nの隠れ状態を \bar{x}_{n+1}の隠れ状態と連結せず、2層MLPを使用することであった。

評価指標幻覚分類器については、精度、再現性、F1などの正式な分類指標でベースラインを評価した。発話レベルの幻覚分類器については、accuracy、precision、recall、F1、ROCのAUC (Area Under Curve)を報告した。また、感度と特異度の地理的平均を測定するG-Mean指標(Espíndola and Ebecken, 2005)を用いている。また、参照分布と仮説確率の間の平均二乗誤差を算出するBrier SkillScore (BSS) メトリック (Center, 2005) を採用している。

7 結果と議論

ベースライン性能:表6と表7は、コンポーネントデータセットと混合データセットのベースライン性能を示している。 いずれの設定でも、発話レベルの幻覚分類器はトークン・タグ付け器よりもF1の点で優れている。表6から、平均して、外在性幻覚よりも内在性幻覚の方が比較的検出しやすいことが推測される。これは、外部知識に基づくためであり、我々の摂動技術の有効性を示している。しかし、表1の出現統計量を比較すると、全タイプの中で最もF1スコアが低い外在性ソフト幻覚の出現率が高いことがわかる。外在性グループ化幻覚と外在性ソフト幻覚では、BERTが他の事前学習モデルよりも性能が高いことが興味深い。 次に混合データセットについて、observedデータセットのテストセットで推論を行ったところ、予想通りobservedデータセットのF1スコア(発話分類器とトークンレベルタガー)は他のデータセットと比較して低く、外因性ソフト幻覚の割合が高いためであった。他の混合データセットでは、XLNetモデファインチューニングされたxtrinsic+データセットがF1スコアに関して最も良好であった。

人間による検証データでのパフォーマンス:我々の混合データセットでファインチューンされた最もパフォーマンスの高いモデルを、以下のように人間による検証データでテストした。 既存のベンチマークモデルとベースラインモデルを用いて、人間が検証したデータに対して、ゼロショット推論を行った。 表8から、既存のベンチマークデータで学習したモデルでは、特にエンティティの位置がずれた場合の幻覚を理解できないことが明らかである。一方、我々のデータセットで訓練されたモデルは、F1スコアが90%を超え、より少ないパラメータで事前に訓練されたモデルを用いた2つのタスクにおいて、現在のベースラインを10.16%および17.5%上回った。 このことから、突発的な幻覚の識別は、ベンチマークデータセットでよく見られる他のタイプの幻覚(予想以上のデータを提示するなど)よりも困難であることが示唆される。

一般性:BEGINとFaithDialデータセットのテスト分割に対してゼロショット推論を行った。 ベンチマークモデルとの公平な比較を行うため、我々のデータセットでさらにroberta-largeモデルのファインチューンを行った。表9によれば、外在性幻覚の割合が高いため、観測データセットが他のデータセットに比べて低く、我々のベストモデルから得られるF1スコアはベストを下回っている。 人間検証データでの性能我々の混合データセットでファインチューニングしたモデルのうち、人間検証データでの性能を検証したところ、BEGINデータセットで6%、FaithDialデータセットで10.17%のベースライン性能を示した。しかし、このベンチマークデータセットには幻覚が含まれており、幻覚と現実の幻覚は根本的に異なることを理解する必要がある。また、ベンチマークデータセットに含まれる幻覚応答は証拠から大きく逸脱していないため、本質的な幻覚について学習したモデルが最も良い性能を示すことがわかる。一般化のためにどの程度の学習データが最適なのかを推定するため、ベンチマークデータセットにおいて、学習分割のデータを10%から30%(2.5%のステップ)にファインチューンしたモデルで推論を行った。図7に示すように、約25%が最適であることがわかった。

モデル予測:図6に、異なるデータセットでの予測を可視化した。図6aの"The Departed"は"Mark Wahlberg"が出演している映画であるが、文脈で議論されている映画、すなわち"The Italian Job"とは無関係であり、我々のモデルは幻覚のエンティティを容易に識別することができた。同様に、FaithDialデータセットで行われた予測(図6c)は、応答が予想外のものを生成しているが、その幻覚が証拠と類似している場合に、我々のモデルが正確な予測を行うことができることを示している。我々のモデルは、歴史が複雑な場合に理解できないことがある(図6b)。

8 関連研究

対話システムにおける幻覚:知識に基づいた対話生成システムにおける幻覚は、新たな研究分野である(Roller et al.,2021; Mielke et al.,2020; Shuster et al.,2021; Rashkin et al.,2021b; Dziri et al.,2021a). 先行研究では、制御トークンに対する生成の条件付け(Rashkin et al., 2021b)、トークンレベルの幻覚クリティック(hallucination critic)を訓練して厄介なエンティティを特定し、それを修正する(Dziri et al.. 2021a)、または知識検索メカニズムで生成モデルを補強する(Shuster et al., 2021)ことによってこの問題を扱っている。しかし、これらのモデルはノイズの多い学習データで学習されるため(Dziri et al., 2022b)、幻覚がさらに増幅される可能性がある。我々の研究に最も近いもの(Dziri et al., 2021a)は、外在的-内在的破損戦略を用いて幻覚クリティックを作成した。これに対して、我々は、幻覚データがニューラルチャットモジュールの帰属を模倣するように、よりきめ細かい破損戦略を作成する。

幻覚評価:最近、BEGIN(Dziri et al., 2021b)、DialFact(Gupta et al., 2022)、FaithDial(Dziri et al., 2022a)、Attributable to Identified Sources(AIS)(Rashkinet et al., 2021a)などのベンチマークが紹介されてきている。 これらの手法は適切なベンチマークシステムとして機能するものの、エンティティレベルの幻覚の検出における性能は未知数である。本研究では、様々な細かい摂動戦略によって作成されたデータで訓練されたエンティティレベルの幻覚検出器を提案することで、この問題にさらに貢献する。

9 結論

本研究では、KGに基づいた対話システムにおいて未解決の問題である、エンティティレベルの事実幻覚の様式を分析した。ヒューマンフィードバック解析により、KGに基づいたニューラル生成モデルが素直な研究アプローチよりもニュアンスのある幻覚を示すことを実証した。 我々は、実世界の観察結果を模倣したデータセットを作成するために、きめ細かい摂動ごとの戦略を提案し、FADEとして総称される一連のデータセットを作成した。我々のエンティティレベルの幻覚検出モデルは、F1スコア75.59%で幻覚のエンティティを予測し、F1スコア90.75%で発話が幻覚か否かを分類することができる。また、BEGINやFaithDialのようなベンチマークでゼロショット予測を行った場合にも、我々のモデルは良好な結果を得ることができ、摂動戦略の頑健性を示している。この研究は、より洗練された摂動メカニズムを考案し、他のタイプの幻覚をシミュレートすることで拡張することができる。