Retrieval Augmentation Reduces Hallucination in Conversation

aclanthology.org

Kurt Shuster, Spencer Poff, Moya Chen, Douwe Kiela, and Jason Weston. 2021. Retrieval Augmentation Reduces Hallucination in Conversation. In Findings of the Association for Computational Linguistics: EMNLP 2021, pages 3784–3803, Punta Cana, Dominican Republic. Association for Computational Linguistics.

License: Creative Commons Attribution 4.0 International License(CC-BY)

本記事は、原著の内容に基づき筆者が要約または翻訳したものです。以下の図は、そこから引用しています。

This article is my summary or translation based on the content of the original publication. The following figures are taken from it.

要点まとめ

人間に近い会話能力を示すようになったとはいえ、SoTAの対話モデルはしばしば事実誤認や知識の幻覚に悩まされている（Roller et al., 2020）。本研究では、我々は、最近、オープンドメインのQA（Lewis et al, 2020b; Izacardand Grave, 2021b）において、知識に基づいた対話に有効であることが示された、ニューラル検索インザループアーキテクチャの使用について調査する。このタスクは、複雑な複数ターンの対話コンテキストに基づくクエリを実行し、会話的に首尾一貫した応答を生成する必要があるため、より困難なタスクであることは間違いない。我々は、リトリーバー、ランカー、エンコーダー-デコーダーといった複数の構成要素からなる様々なタイプのアーキテクチャを研究し、会話能力を維持したまま知識量を最大化することを目的とする。我々は、2つの知識ベースの会話タスクにおいて、我々の最良のモデルがSoTAの性能を獲得したことを実証する。このモデルは、オープンドメインの会話能力を示し、訓練データにないシナリオにも効果的に汎化し、人間による評価で検証されたように、最先端のチャットボットでよく知られている知識の幻覚の問題を大幅に軽減する。

1. 序論

大規模コーパスで学習した大規模言語モデルは、対話エージェントの流暢さと会話能力を飛躍的に向上させた（Adiwardanaet al., 2020; Roller et al., 2021）。ドメイン内テストセットで高いトークンアキュラシーを持つ、perplexityの低いモデルが得られている。これらのモデルは、数十億のパラメータからなる重みに暗黙のうちに知識が蓄積されているため、オープンドメインのトピックについてある程度知識的に話すことが可能である。しかし、残念ながら、最大規模のモデルであっても、よく知られた「幻覚」問題（Maynez et al., 2020）に悩まされ、事実とは異なるもっともらしく見える状態を生成してしまう。2つの類似したエンティティの間で事実を取り違えてしまったり、たった1つのトークンが間違っていることが正しいか間違っているかの違いになってしまうような誤りを犯すことがよくあるようだ。175Bパラメータの言語モデルであるGPT3（Brown et al., 2020）を用いた例については図1を参照されたい。

最近導入された質問応答技術は、ニューラル検索インザループアプローチ（neural-retrieval-in-the-loop approach）である検索-補強生成（retrieval-augmented generation: RAG）（Lewiset al., 2020b）で、オープンドメインの質問に正しく答えるのに効果的であることが証明されている。この技術では、エンコーダとデコーダが質問をエンコードし、答えをデコード（生成）する。エンコードは、学習されたマッチング関数を使って大規模な非構造化文書セットから検索された文書やパッセージで補強され、ニューラルネットワーク全体がエンドツーエンドで学習されるのが一般的である。しかし、このような方法は、オープンドメインの知識に基づく対話という、より困難なタスクにはまだ適用されていない。この場合、質問だけでなく、対話のコンテキスト全体が入力として与えられるため、検索タスクは、より長いコンテキストと、質問に答えるための単一の事実ではなく、会話を進めるための補足的な知識を見つける必要からより難しくなる。このようなモデルは、応答を生成する際の会話能力、知識の安定性、事実性の両方を提供しなければならない。

　本研究では、ダイアローグのための検索補強型ニューラルアーキテクチャの様々な構成要素（検索器、ランカー、エンコーダ・デコーダ）を研究し、どの方法がどのような状況でうまく機能するかを分析しながら、いくつかの新しいバリエーションを提案する。特に、Poly-encoder Trans-formers (Humeau et al., 2020)を採用し、よりきめ細かい文脈候補のスコアリングを行い、Fusion-in-Decoder (Izacard and Grave, 2021b) テクニックでエンドツーエンドに訓練した検索器を採用し、対話文脈を多く無視する標準検索器の問題を回避することで、対話ターンベースの検索機構を構築して下流性能を改善することができた。

　我々の最高のモデルは二つの知識に基づく会話タスク、Wizard of Wikipedia（Dinan et al., 2019b）とCMU Document Grounded Conversations（CMU_DoG）（Zhou et al., 2018）の2つの知識に基づいた会話タスクでSoTAの結果を提供する。我々は、標準的な（非検索補強型）大規模言語モデルが実際に幻覚に苦しむのに対し、我々の最良のモデルはこの問題を大幅に抑制し、幻覚応答を60%以上削減することを自動および人間の評価を通じて示す。この効果は、分布外のトピックやテストデータでさらに顕著であり、検索が直感的にモデルの重みにないものを補うことができるケースであることを示す。ベースラインに対する知識力メトリックの利益は、分布内データで70%、分布外データで85%である。最後に、性能差の原因がどの要素にあるのかを徹底的に分析し、我々のアプローチの有効性を強調する。

2. 関連研究

テキスト生成モデルにおける幻覚は、特に要約（Maynez et al., 2020）、機械翻訳（Zhou et al., 2021）、ニュース生成（Zellers et al., 2019）の場面で、最近注目されている話題である。対話については、SoTAのモデルで観察され（Rolleret al., 2021）、深く研究されている（Mielke et al., 2020）が、今のところ解決されていない。

　オープンドメインの質問応答（QA）は、長い間、検索を中間段階として考えてきた（Voorhees and Tice, 2000）。最初は単純なベクトル空間ベースの検索器（Chen et al., 2017）を使用し、その後、検索コンポーネントがニューラルネットワークでもあるエンドツーエンド生成モデル（Lewis et al., 2020b; Izacard and Grave, 2021b）を使用するなど、最近より集中的に研究されているトピックになっている。構造化されていないテキストに対するこれらの最近のニューラルアプローチは、知識ソース（Wikipediaのハイパーリンクなど）のグラフ構造を利用する先行手法を追い越し（Min et al., 2019; Asai et al., 2020; Sun et al., 2019; Xiong et al., 2019）、対話のための魅力的な代替手段である。

　知識に基づく対話はますます重要なトピックになりつつあり、その発生をモデル化しようとするいくつかのデータセットが提案されている（Dinan et al., 2019b; Ghazvininejad et al., 2018; Gopalakrishnan et al., 2019; Galetzka et al, 2020）しかし、これらの研究の多くは、ここで検討するように、構造化されていない大きな集合から知識を検索することを学習するのではなく、知識のゴールド通路を提供することに基づいて構築されている。最近の方法は、次のことに焦点を当てている。：与えられた知識の断片のどの要素が対話に有益であるかを決定し、これは一般的に「知識選択」と呼ばれている（Zhao et al. 2020b; Kim et al., 2020; Bruyn et al., 2020）。関連する知識を得る方法の学習（Maet al., 2020; Cai et al., 2020; Zhao et al., 2020a）、または大規模言語モデルにどの程度の知識が存在するかの調査（Zhao et al., 2020c）。最近の研究では、検索に基づく機構が検討されているが、知識に対する検索は、一般に、検討されたコーパス全体の小さなサブセットに限定されている（Fan et al., 2021; Bruyn et al., 2020; Hedayatnia et al., 2020）。非構造化テキストの知識を取り入れることは、一般的に、固定文書、小さな文書セット、または単純なベクトル空間モデルからの選択に限定される（Dinan et al., 2019b）。

　ごく最近、タスク指向のダイアログに検索補強型生成が適用された（Thulke et al., 2021）。これは、オープンドメインな知識ベースの対話設定とは対照的なものである。検索補強ステップを含む他の研究には、言語モデリングの分野があり、そこでは、事前学習（Guu et al., 2020）、記憶（Yo-gatama et al., 2021）として、特にk近傍法ベースのキャッシュモデル（Khandelwal et al., 2021, 2020; Grave et al., 2017; Merity et al., 2017）を用いて使用されている。

3. モデルアーキテクチャ

我々は、オープンドメインのQAで優れた性能を発揮してきたニューラル検索インザループ生成ベースのアーキテクチャを、知識に基づくタスクに拡張する。このタスクでは、モデルの応答は知識があるだけでなく、長文生成と複数回の会話ターン全体を通じて一貫性があり、魅力的である必要がある。

　表記を一貫させるために、 $x_i=\{ x^1_i, \ldots, x_i^n \}$ をダイアログコンテキスト $i$ のトークンとし、同様に $y_i$ をグラウンドトゥルースの応答と定義する。 $Z_i= \{z_{i,1}, \ldots, z_{i,k} \}$ は、取得した $k$ 個のドキュメントのセットである。 $q( x_i )$ と $d( z_j )$ はそれぞれダイアログコンテキストと候補ドキュメントの表現であり、検索メカニズムにおいて $p_{\eta}(z_j | x_i )$ は、コンテキスト $x_i$ が与えられた時にドキュメント $z_j$ を選択する確率である。最後に、 $p_{\theta} ( y^m_i | x_i, z_{i,j}, y^1_i, \ldots, y^{m−1}_i )$ は $x_i$ 、 $z_{i,j}$ 、および先行の出力トークンが与えられた場合のトークン $y^m_i$ を出力する完全なジェネレータの確率であり、 $p_{\theta} (y_i | x_i, z_{i,j} )$ は完全なシーケンススコアである。一部のケースでは、明確さを保つために添字 $i$ と $j$ が省略される。

3.1 RAGとFiD

ニューラル検索は、BM25のような単語類似度ベースのアーキテクチャを凌駕することが示されており、FAISS（Johnson et al., 2019）のようなGPUベースの類似性検索ライブラリの助けを借りて、数百万の文書の知識ソースに拡張することができる。まず、これらの新アーキテクチャについて説明する。

Lewisら（2020b）は、RAG（retrieval-augmented generation）アーキテクチャを紹介した。RAGモデルは、様々なQA設定において正しい文章をランク付けするように事前に訓練されたDense Passage Retriever（DPR）を利用する（Karpukhin et al., 2020）。大容量FAISSインデックスには、関連文書のクエリとして $q(x_i)$ と共に $d(z_j)$ が格納されて。RAG-Sequenceは文書を独立に考慮し、連結された文脈ごとに出力シーケンスを別々に生成し、出力生成を周辺化する。RAG-Tokenはすべての文書に対する出力分布を周辺化し、生成が各トークンに対して異なる文書に関与することができる。 $d(z_j)$ は訓練中も固定されているが、トークンの損失はレトリーバー自身に伝わり、コンテキスト表現 $q(x_i)$ はレトリーバーをよりタスクに適合させるために更新される。

IzacardとGrave（2021b）はFiD（Fusion-in-Decoder）法を紹介している。再取得された文書の集合が与えられると、ジェネレーターのエンコーダは拡張されたコンテキスト $[ z_{i,j} ; x_i$ ]を独立に考慮する。エンコーダの出力はデコーダに渡される前に連結され、デコーダが同時に文書/コンテキスト表現全体に関与することを可能にする。FiDは、訓練中にリトリーバを修正したにもかかわらず、多くのQAタスクで優れた性能を示し、複数の文書に注目することの有効性を実証している。

3.2 ニューラル検索を改善する

ニューラル検索の導入は、RAGとFiDモデルがQAタスクで達成した性能向上の主な要因である。非ニューラル検索を代用すると、オープンドメインのQAタスクの性能は劇的に低下する（Lewis et al., 2020b）。そのため、検索性をさらに向上させることが、さらなる改善につながるはずである。

　計算コストをかけずに相互作用を高める方法として、DPRで検索された文書のサブセットを、より候補を意識したアプローチで再ランク付けする方法がある。DPRでは、対話コンテキストと文書候補は、最終的なドット積類似度を介してのみ相互作用する。しかし、両者の相互作用をより大きくすることで、様々な情報検索やランキングタスクにおいて優れた結果が得られる（Humeauet al., 2020; Khattab and Zaharia, 2020）。完全な相互作用は何百万もの候補文書に拡張する際に実行不可能であるため、最近の研究では、計算の大部分を分離したまま、コンテキストと候補出力の間の後段の相互作用を許可している（Khattab and Zaharia, 2020）。ある研究では、これが、次の発話を予測する対話ベースの候補ランキングタスクにおいて特に有効であることが示されている（Humeau et al., 2020）

　計算コストをかけずに相互作用を高める方法として、DPRで検索された文書のサブセットを、より候補を意識したアプローチで再ランク付けする方法がある。この方法では、Poly-encoder（Humeau et al., 2020）を採用する。Poly-encoderは、最終的なスコア計算の前に候補を意識した文脈表現を得る、追加の注意機構を導入している。この方法をDPR-Polyと呼ぶ。また、DPRモデルの重みでPoly-encoderを初期化することもでき、この方法をJoint DPR-Polyと呼ぶ。

　さらに、完全検索セットアップにおいて、より大きなコンテキストと候補の相互作用を利用する方法を検討する。PolyFAISSセットアップでは、まずPoly-encoderを訓練し、標準的なドット積とPoly-encoderスコアの間でスコアリング機構を変化させる。そして、Poly-encoderの候補エンコーダから得られた $d( z_j )$ 表現からFAISSインデックスを作成し、標準的なPoly-encoderのコンテキスト表現の縮小によってインデックスを照会する。そして、検索された文書は、Poly-encoderの完全なスコアリングメカニズムに従って再ランク付けされる。

3.3 オーグメンテッドジェネレーションの改善

マルチターン対話コンテキストは、QAにおける単一質問コンテキストよりも検索システムにとって困難である可能性がある。実際、知識に基づく対話のための先行する手法は、検索に系列の位置を組み込むことを試みたり（Fan et al., 2021）、連続した決定プロセスを考慮したり（Kim et al., 2020）している。そこで、我々は、コンテキスト全体に対する周辺化の前に、ダイアログのターン内の文書を周辺化する手法を検討し、複数の文書に対して情報を合成することを可能にすると同時に、文書がダイアログのターンごとのコンテキストに関連していることを確実にする。

RAG-Turnは、RAG-SequenceとRAG-Tokenと比較して、対話のターンを別々に考慮した上で、共同周辺化を行う。ここで、我々のコンテクストとは、 $X= \{ x_1, \ldots, x_T \}$ のように $T$ ターンのセット $X$ と考える。あるコンテキスト $X$ に対して検索された文書の全セットを $Z=\{Z_1, \ldots, Z_T \}$ と定義する、ここで、 $Z_t = \{ z_1, \ldots, z_k \}$ はコンテキスト $X$ のターンのために検索された文書のセットである。

　RAG-Turn Doc-Then-Turnは、各ターンは潜在的に異なる文書集合を含むので、まずターン内の文書を周辺化し、次にターン間の文書を周辺化し、その結果得られるシーケンスの各トークンについて周辺化する。

　RAG-Turn Doc-Onlyは、各ターンを独立に考慮し、ターン内の文書を合同に考慮することも可能である。ここでは、ターン $x_t$ の生成確率 $p_{ \text{Turn-DO} } (y | x_t)$ を次のように定義する。

　トレーニングでは、異なるターンは完全に異なるコンテキストとみなされ、損失は各ターンのグランドトゥルースラベルに対して計算される。推論では、まず各ターンに対して候補となるシーケンスを生成し、さらにフォワードパスを実行して最終的な生成を再スコアすることで、「徹底的な」脱コード化（Lewis et al., 2020b）と同様の手法をとる。この方法は、すべての候補ビームを単純にポストホックで再ランキングするよりも優れていることを発見しました。

ダイアログコンテキストが大きくなるにつれて過剰な計算を避けるため、値 $T^{\ast}＝1 ≦ T^{\ast} ≦ T$ を固定し、最新の $T^{\ast}$ ターンを独立に考慮し、それ以前のすべてのターンを合同に考慮し、 $T^{\ast} ＋1$ 個の合計コンテキスト「ターン」を生成する。

　最後に、RAG-Turn TokenとRAG-Turn Sequenceの概要を付録Bに示しすが、単純に総文書数を増やす手段として、RAG-Turnという概念を考えてみました。

3.4 フュージョンインデコーダーの改善

FiDはリトリーバーを訓練しないが、独立したエンコーダ出力が最終生成をデコードする前に融合されるため、RAGよりも大規模な文書集合に効率的に対応することができる。FiDは、主にBM25検索器やQAデータセットで事前に訓練されたニューラルリトリーバーを使って、オープンドメインのQAタスクに適用され、大きな成功を収めてきた（Izacardand Grave, 2021b; Xiong et al, 2021）。しかし、知識に基づく対話は、質問応答よりも困難な（あるいは、少なくとも物質的に異なる）検索タスクを提供する。RAGで訓練されたDPRベースのリトリーバーを持つモデルをFiD-RAGと呼び、他の検索方法との比較を示すために関連する接尾辞を付ける。

4. 実験

データセット：Wizard of Wikipedia (WoW) (Dinan et al, 2019b)とCMU Document Grounded Conversations (CMU_DoG) (Zhou et al, 2018)の2つのデータセットで実験を行い、どちらも英語での人対人のクラウドワーカーのチャットを通して収集された知識基盤の対話のセットで、一方のクラウドワーカーはWikipediaからの外部知識にアクセスすることができる。WoWは様々なトピックについて議論し、CMU_DoGは映画について議論している。WoWは様々なトピックを、CMU_DoGは映画について議論する。それぞれについて、”seen”、"unseen"の検証用とテスト用の分割を考え、"unseen"分割には訓練データで議論されていないトピック（WoW）または映画（CMU_DoG）も含まれる。WoWではこのような分割が可能だが、私たちはCMU_DoG用に独自の分割を構築した。両データセットとも、検索用の知識源として標準的なKiLT Wikipedia dump (Petroni et al., 2021) を採用している。データセットの詳細は付録Cにある。

メトリック：我々は、生成された回答に対して、perplexity (PPL)、unigram overlap (F1)、BLEU-4 (B4)、ROUGE-L (RL)を含む標準的な自動測定基準を採用した。また、4.2節で説明したKnowledge F1 (KF1)という追加指標を考慮し、人間の評価も考慮した。トレーニングの詳細は付録Dに記載されている。

4.1 検索効率

まず表1では、BART-Largeに標準的なRAG-Token DPRモデルを使用することで、対話のコンテキストとWikipedia全体から知識を検索する場合、両方のデータセットにおいて検索の補強なしでBART-Large自身を上回る性能を発揮することを示している。同様に、異なるエンコーダ・デコーダの基本アーキテクチャ（seq2seqモデル）と検索メカニズムを表2に比較した。全体として、知識ベースの会話データセットでは、検索が性能向上に大きく寄与していることがわかる。

4.2 幻覚の除去

我々は、モデルが検索された知識に適切に接地しているかどうかを知りたいのであって、単に検索された文書から一般的な単語をコピーするように学習しているわけではない（我々は英語版Wikipediaのすべてのトークンを含む非構造化知識ソースを使用しているため）。機械翻訳やQAなどの関連分野で有用であるにもかかわらず、F1、BLEU、ROUGEなどの標準的な自動化メトリックは、ニューラル会話モデルが実環境でどれだけうまく機能するかとは完全に相関しないことが示されている（Liu et al., 2016; Dinanet et al., 2019a; Mehri and Eskenazi, 2020）。そこで我々は、追加のメトリックであるKnowledge F1を導入している。標準的なF1は、モデルの生成と真実の人間の反応との間の一語の重複を測定するものであるが、Knowledge F1（KF1）は、データセット収集の際に人間が根拠とした知識との重複を測定するものである。KF1は、人間が判断した関連知識を用いてモデルが知識的に話しているかどうかを捉えようとするものであり、標準的なF1は、知識とは無関係なトークンの重なりを含む会話能力を捉える。

表1は、知識を持たないベースライン、検索機構を持つモデル、金知識を与えられたモデルを1ターンごとに比較したものである。さらに、毎ターン真のラベルまたは真の知識を用いた反応のメトリクスを示す。通常のF1によるベースラインと検索補強モデルの差は顕著であるが、Knowledge F1を考慮するとその差は大きくなり、この要素が検索補強手法の真の利得の源泉であることがわかる。この結果は、モデルが適切に知識を活用していることを裏付けている。

4.2.1 会話の人手評価

WoWテストセット（unseen）の様々な会話コンテキストに対する100のモデルの応答に対するアノテーションを実施した。専門家によるアノテーションは、研究を実施しているラボの研究者より調達した。すべてのモデルについて、会話コンテキスト、グランドトゥルースレスポンス、グランドトゥルースレスポンスを書いた人間が使った知識を表示する。次に、アノテーターに以下の質問を投げかけ、モデル性能の4つの軸を測定する。1) 一貫性（Consistency）：会話の文脈の中で、その回答が意味をなしているか、また、それ自体も意味をなしているか。2) 魅力度（Engagingness）：あなたはその反応に興味を持ちましたか？会話を続けたいと思うか？3) 知識力（Knowledgeable）：回答には、知識豊富で正しい情報が含まれているか？ 4)幻覚：モデル出力の一部が事実と異なるか？アイデアは混在していないか？

　評価結果は表4に示すとおりである。検索を強化したモデルでは幻覚率が劇的に低下し、知識力は急上昇している。これらの結果は、我々のモデルが会話における幻覚を減少させるという我々の主張を支持するものである。モデルの出力例を表3に示す。

ここで興味深い結果は、文書間の情報を融合するように設計されたRAG-Tokenベースのアーキテクチャは、実際にはそうでないアーキテクチャよりも知識の幻覚を起こしやすいということである。これは、一般的な自動化指標では直感に反する結果だが、我々のKnowledge F1指標ではそれを裏付けている。WoWの文書数を変化させた場合の性能については、セクションI.6と付録の表23で検証している。注目すべきは、RAGTokenで25個の文書を検索した場合、同じかそれ以上のF1スコアと、同じかそれ以下のperplexityが得られることである（PPLはvalid unseenで13.4から13.0に低下、F1はvalid seenで22.5から22.6に上昇）。しかし、Knowledge F1スコアが低下し（valid seenで26.0から24.7、validunseenで22.7から21.1）、人間の評価では幻覚が高く見られた。FiD-RAGモデルで考慮する文書数を増やすと、同様の傾向が見られる。人間評価指標とKnowledge F1は、標準的なF1と比較して強い相関がある（付録の図2参照）ので、今後はKnowledge F1も評価することを推奨する。

4.2.2 事実性と会話性

表4は、検索機能付きモデルと関連するベースラインでは、一貫性と魅力度が概ね同等であることを示している。ただし、魅力度がわずかに低下したのは、一部のモデルが検索された知識に依存しすぎたためと考えられる。つまり、事実性が会話能力を犠牲にすることはないようだ。これは、表1、表2などのF1やKnowledge F1のスコアとも一致している。一般に、F1値は検索型と非検索型の間で類似しているが（F1は魅力度により近いプロキシである）、Knowledge F1は（知識および幻覚測定のプロキシである）大きな違いを示している。

4.3 未知の分布への一般化

表5は、WoWとCMU_DoGの修正版の未使用データ分布に対するモデル評価の自動化指標である。未知のトピックに移行する際に、検索補強による知識へのアクセスを持たないモデルでパフォーマンスが低下する。これは、オープンドメインの対話モデルにとって必要なスキルである、新しい入力への一般化がうまくいかないという一般的な傾向を示している。WoWでは、BARTはPPL、F1、Knowledge F1でそれぞれ29％、11％、14％の性能低下、RAG DPR-Polyは同指標で16％、5％、8％の性能低下にとどまっているため、知識ベースモデルはこの問題にほとんど悩まされていない。我々の最も優れたモデルは、WoW Testの未使用のスプリットで新しいSoTAの結果を達成した（比較は表6を参照）。 Knowledge F1スコアは非常に高く維持されており、検索補強モデルは一般に、この指標に関して少なくとも性能が低下していることから、補強機能がこれらのトピックに関する知識を効果的に検索できることがわかる。

4.4 生成の拡張

4.4.1 対話のターンの条件

表7は、セクション3.3で定義したRAG-Turn法と標準的なRAG-Sequence法およびRAG-Token法を比較したもので、さらに、最新の対話のターンのみを検索対象とした標準的なRAGモデルとの比較も行っている（BLEU-4およびROUGE-Lscoresは表12参照）。文脈全体を考慮しない場合、すべてのメトリクスでパフォーマンスが劇的に低下することがすぐにわかる。RAG-SequenceとRAG-Tokenを比較すると、RAG-SequenceはRAG-Tokenよりも正規のF1スコアは低いが、知識のF1スコアは高く、RAG-Sequenceモデルは知識を取り込むのは得意だが会話能力を保つのは苦手という表4の人間の評価結果をさらに強調する結果となった。RAG-Turnモデルはこのギャップを埋め、2つのバランスのとれたトレードオフを提供する。RAG-Turn Doc-Then-TurnメソッドはRAG-Sequenceモデルより高いF1スコアを、RAG-Tokenモデルより高いKnowledge F1スコアを得た。Doc-Only RAG-Turnメソッドはseen/unseen分割の両方で最高のF1を達成し、RAG-TokenモデルのKnowledge F1スコアが改善された。異なる $T^{\ast}$ 値を用いた結果、およびRAG-Turn TokenとRAG-Turn Sequenceを用いた結果については、付録のセクションFと表13を参照。

4.4.2 FiDベースの生成の拡張

表8は、FiDのセットアップにおける様々なリトリーバの使用状況を比較したものである。FiDが知識ベースの対話に最適でないことは明らかであり、RAGで訓練されたリトリーバーを組み込むことで、パフォーマンスが大幅に改善される。具体的には、perplexityが大幅に減少し、Knowledge F1が大幅に向上した。BARTを用いたFiD-RAG-Polyは、これらのseen/unseen分割においてそれぞれ33%と41%のKnowledge F1の向上を示し、T5を用いたFiD-RAGは37%と25%の向上を示している。

4.5 検索機能強化の効果

表9は、WoW検証セットにおける、様々な検索/リランカー補強の結果の概要である。1行目は、非ニューラル検索器であるTFIDFを用いた結果で、WoWデータセットが「ウィザード」に知識を提供するためにTFIDFベースのリトリーバーを用いて構築されていたことから、これは強いベースラインとなる。しかし、DPRはすべての自動評価指標でTFIDFを強く上回っている。ニューラルベースの手法については、RAGの標準的なDPRリトリーバにPoly-encoderリランカーを追加したコードリランキングアプローチを使用すると、検証セットの両方の分割で自動化指標に関して最高性能のモデルが得られることがわかる。エンドツーエンドのリランカー機構であるPolyFAISSは、強力な結果をもたらしたが、DPRよりも有用であることは証明されなかった。付録Eの表11は、真の知識文が検索された上位k個の文書に含まれる頻度を測定することにより、これらの手法の生の検索力を測定したものである。リランキングを追加すると、検索能力が向上することが確認された。

4.6 追加アブレーション

スペース上の制約から、付録でいくつかの追加説明を行う。セクションI.1では、異なるエンコーダ・デコーダアーキテクチャとサイズにおける性能を分析し、BARTとT5がBlenderBot-400mより優れていることに注目する。一方、より大きなモデルは、同じかそれ以下の生成ベースの評価を達成しながら、より低いperplexityをもたらす。セクションI.2では、検索用に訓練されたニューラルモデルが必要かどうかを検討し、検索用にBARTまたはT5エンコーダを採用することは、我々のノウハウソースのサブセットを使用する場合に有効であることを結論付ける。セクションI.3では、デコード戦略がパフォーマンスにどのように影響するかについて議論し、ビームサーチが幻覚を減らすのに最適な戦略であることを示した（この点ではサンプリングベースの方法は不十分である）。セクションI.4では、リトリーバ／リランカーモジュールの事前トレーニングの影響について議論し、RAGセットアップでは、これらのモジュールは単に良い状態で開始する必要があると結論付けた。最後に、セクションI.6では、推論時にこれらのq2seqモデルが条件とする文書の数が、モデルの性能にどのように影響するかを概説し、文書の数が多いほどF1スコアが高くなるが、Knowledge F1スコアは低くなる。

5. 議論

これまで、知識ベース対話における文書の検索と条件付けの方法をいくつか検討してきたが、ここではその結果から得られた重要な点をまとめる。

　まず、検索コンポーネントの強さは、下流性能に非常に重要であることを指摘する。 DPR-PolyはWoWで最高の検索指標を獲得し（付録の表11）、その後、最高の生成指標を得ることができた（表2）。 FiD-RAGモデルは、オープンドメイン対話用に調整されたリトリーバの重要性を明確に示している（表5）。

　第二に、複数の文書を同時に条件とするモデルは、より魅力的な会話士になることを指摘する。RAG-Token、RAG-Turn、FiD-RAGは、RAG-Sequenceよりも高いF1スコア（表7）と高いエンゲージメント/一貫性スコア（表4）をもたらし、高い知識力を維持する。RAG-Turnは、特定の構成では、独立して対話のターンを条件付けることにより、自動化メトリクスにも利益をもたらすことを示している。また、FiDアーキテクチャは、複数のドキュメントを同時に考慮した場合に、より最適であることがわかった（より高いF1/KF1、より低い人間評価による幻覚）が、各世代で複数のドキュメントを条件とした場合には、すべてのモデルでより幻覚に苦しむことがわかった（表4、付録の表23）。

　最後に、オープンドメイン対話に用いられる標準的なメトリクスは、モデル内の幻覚を真に捉えるには不十分であることに留意する。したがって、モデルの性能をさらに研究するためには、Knowledge F1のようなメトリクスが必要となる。付録の図2は、このような自動化された指標と人間の評価との相関を強調している。

6. 結論

本研究では、会話エージェントにおける知識の幻覚の問題を研究した。この問題は、現在のシステムがしばしば事実上不正確な世代を生成することから、重要な問題である。この問題は、言語モデルのサイズや学習データとは無関係に発生することを明らかにした。特に検索支援型生成は、この問題に対する直感的な有望な解決策であり、詳細な実験により、このクラスのアプローチが、会話能力を維持したまま対話における幻覚問題を有意に低減し、訓練データを超えて未知の分布に一般化できることが示された。今後の課題としては、手法の改善や、検索された知識とモデルの重みに格納された知識との相互作用の理解など、未解決の問題に対する解決策を見出すことである。

izmyonの日記

奈良の山奥で研究にいそしむ大学院生の学習記録。

今日の論文2023/05/21,22：Retrieval Augmentation Reduces Hallucination in Conversation