Rethinking with Retrieval: Faithful Large Language Model Inference

arxiv.org

He, Hangfeng, Hongming Zhang, and Dan Roth. "Rethinking with Retrieval: Faithful Large Language Model Inference." arXiv preprint arXiv:2301.00303 (2022).

License: Creative Commons Attribution 4.0 International License(CC-BY)

本記事は、原著の内容に基づき筆者が要約または翻訳したものです。以下の図は、そこから引用しています。

This article is my summary or translation based on the content of the original publication. The following figures are taken from it.

要点まとめ

大規模言語モデル（LLM）は、様々な自然言語処理（NLP）タスクにおいて成功を収めているが、これらのモデルに格納された知識は、必然的に不完全、時代遅れ、または不正確な場合がある。このため、LLMを支援するために外部の知識を利用する必要がある。しかし、現在の方法では、外部のノウハウを取り入れるには、追加のトレーニングでファインチューニングが必要であり、コストがかかり、LLMにとって実行不可能な場合がある。この問題に対処するため、我々は、思考連鎖（CoT）プロンプトから得られた分解された推論ステップに基づいて関連する外部知識を検索する、新しい後処理アプローチ、検索付き再考（RR: rethinking with retrieval）を提案する。この軽量なアプローチは、追加のトレーニングやファインチューニングを必要とせず、LLMの入力長に制限されることもない。我々は、GPT-3を用いて、常識的推論、時間的推論、表形式推論の3つの複雑な推論タスクでRRの有効性を大規模な実験を通して評価した。その結果、RRはより忠実な説明を生成し、LLMの性能を向上させることができることが示された。

1 序論

大規模言語モデル（LLM）は、タスク固有の訓練やファインチューニングを伴わない文脈内学習により、様々なタスクで卓越した性能を示してきた（Brown et al., 2020; Chowdhery et al., 2022; Zhang et al., 2022; Ouyang et al. 2022）。最近のプロンプト化（Wei et al., 2022; Zhou et al., 2022; Kojimaet al., 2022）とデコーディング（Wang et al., 2022）の進歩により、LLMが複雑な推論を必要としないタスクに取り組むことが現実的になってきている。しかし、LLMに格納された知識は、必然的に不完全であったり、古かったり、間違っていたりする可能性がある。そのため、LLMを実世界のアプリケーションにうまく展開するためには、Wikipediaなどの外部知識源が不可欠となる場合がある。以前は、T5（Raffel et al., 2020）、BERT（Devlin et al., 2019）、RoBERTa（Liu et al., 2019）などの小型言語モデル（LM）に知識源を利用しようとした。しかし、これらの方法は、しばしば追加のトレーニングやファインチューンを必要とし、コストがかかるため、LLMには不向きである。

　本稿では、LLMで外部知識を利用するためのRR（rethinking with retrieval）という後処理アプローチを紹介する。本手法は、Wang et al. (2022)で説明されているように、chain-of-thought（CoT）プロンプト法（Wei et al., 2022）を用いて、多様な推論経路のセットを生成することから始まる。そして、これらの経路の各再生ステップを使用して、関連する外部知識を検索し、RRが提供できるようにすることで、図1に示すように、より忠実な説明と、より正確な推論を可能にする。

　我々は、GPT-3 175B（Brownet al., 2020）と異なる外部知識ソース：Wikipedia、Wikidata (Vrandeˇci ́c and Krötzsch, 2014）、WordNet（Miller, 1995）そしてConceptnet （Speer et al., 2017）を用いて、提案手法RRの有効性を3つの複雑な推論タスク：常識推論、時間推論、表推論で評価した。結果は、RRが追加的な訓練やファインチューンを必要とせずに、3つのタスクすべてにおいてすべてのベースラインを一貫して上回ることを実証し、LLMの性能を強化するために外部知識を活用する我々のアプローチの優位性を示している。

2 関連研究

検索によるLMの強化。検索機能付きLMは、外部知識を取り入れることで性能を向上させる手段として、大きな注目を集めている。例えば、学習段階（Borgeaudet al., 2021）と推論段階（Khandelwal et al., 2020）の両方で、次の単語分布の推定を改善するために、最も類似した学習コンテキストを再取得することができる。さらに、検索エンジンが関連文書を検索するための検索クエリを生成するために、検索クエリ生成器が採用されている（Komeili et al., 2022; Shuster et al., 2022; Thoppilan et al., 2022）。他のアプローチでは、検索された文書を生成タスクの追加コンテキストとして利用している（Joshi et al., 2020; Guuet al., 2020; Lewis et al., 2020）。中野ら（2021）は、テキストベースのウェブブラウジング環境において、人間のフィードバックを代わりに用いている。これらの先行研究の中で、Khandelwalら（2020）は我々のアプローチと最も密接に関連している。しかし、彼らは訓練データから構築された最近傍データストアを用いて局所推論を改善することに焦点を当てているのに対し、我々は外部知識を用いて忠実な推論を行うことに焦点を当てている。また、再検索された知識を取り込むために訓練やファインチューンを必要とする前述の他のアプローチとは対照的に、我々は、追加の訓練やファインチューンなしに検索された知識を活用するための後処理方法を提案する。

外部知識をLMに取り込む。LMの推論能力を向上させるために、外部知識を活用することに多大な努力が払われてきた。これまでの研究では、WordNet （Miller, 1995）やConceptNet（Speer et al., 2017）などの外部知識ソースを組み込んで、表形式の推論タスクでLMを強化した（Neerajaet al., 2021; Varun et al., 2022）。また、暗黙知に対する再推論能力を向上させるために、入力に明示的なルールが追加されている（Talmoret al., 2020）。さらに、Wikidata（Vrandeˇci ́c and Krötzsch, 2014）からの明示的な知識とLLMの暗黙的な知識は、画像質問応答のためのTransformer (Vaswani et al., 2017) に統合されている（Gui et al., 2021）。 Nyeetら（2021）はその代わりに、LLMの一貫性と整合性を向上させるための記号的推論モジュールを導入している。これらの先行研究の中で、Nye et al.（2021）は我々のアプローチと最も関連性が高い。しかし、彼らは論理的制約を組み込んで一貫性と整合性を向上させることに重点を置いており、我々は外部知識の利用によって説明の忠実性を向上させることを目指している。生成前に外部知識を取り込み、追加のトレーニングや微調整を必要とする前述の他のアプローチとは対照的に、我々の提案は、追加のトレーニングやファインチューンなしにLMを強化するために、後処理の方法で外部知識を活用するものである。

LLMの潜在的な知識を発見する。LLMに隠された推論のための知識を探求する研究が行われてきた。これには、LLMが推論過程で説明を生成するよう促す丁寧なプロンプトの利用が含まれる。例えば、few-shot（Wei et al., 2022）やzero-shot（Kojima et al., 2022）学習におけるchain-of-thoughtプロンプトや、中間計算のためのスクラッチパッドの利用（Nyeet al., 2022）である。さらに、LLMの多様な推論経路のサンプリングに基づく様々な方法が提案されており、モデルの補完の正しさを判断する検証者の訓練（Cobbe et al., 2021）、説明の信頼性に基づくモデル事前予測の校正（Ye and Durrett, 2022）、多様な推論経路の自己一貫性の促進（Wanget al., 2022）などがある。Zelikmanら（2022）は、LLMが少数の初期例から高品質の推論を生成する能力を代わりにブートストラップしている。Liuら（2022）はさらに、LLMから知識を生成し、それを常識推論を改善するための追加入力として使用することを提案している。この研究とは対照的に、我々の提案は、LLMを向上させるために外部の知識を活用することに焦点を当て、彼らはLLMに隠された知識エッジを探索することを目的としている。

3 検索を再考する

LLMは、質問に答えるために必要な視点を正確に捉えていても、時折、誤った裏付けとなる事実を生成することが示されている。この現象は、LLMが知識を保存・検索する方法における本質的な問題を浮き彫りにしている。（1）事前訓練コーパスに古い、誤った、または欠落した関連知識が存在する。（2）事前訓練中に関連知識を誤って記憶する。（3）推論の段階で関連知識を誤って検索する。これらの問題に対処するため、我々は、推論ステップを分解して関連情報を検索することにより、外部知識を活用するRRの使用を提案する。

概要：クエリ $Q$ が与えられたとき、chain-of-thoughtプロンプトを利用して、多様な推論パス $R_1, R_2, \cdots, R_N$ を生成し、各推論パス $R_i$ は説明 $E_i$ と続いて予測 $P_i$ からなる。その後、各理由付けパスの説明をサポートするために、適切な知識ベース $\mathcal{KB}$ から関連知識 $K_1, \cdots, K_M$ を取得し、この知識に最も忠実な予測 $\hat{P}$ を選択する。我々の提案をよりよく説明するために、本研究では"Did Aristotle use a laptop? "を実行例とする。

Chain-of-thoughtプロンプティング：標準的なプロンプトとは対照的に、CoTプロンプト（Wei et al., 2022）は、推論プロセスを捉えた一連の短文を生成するプロンプトに、ステップバイステップの推論例のデモンストレーションを含める。例えば、"Did Aristotle use a laptop? "という質問があった場合、CoTプロンプトは完全な推論経路を生成することを目指す。単に “No””と出力するのではなく、 “Aristotle diedin 322 BC. The first laptop was invented in 1980.Thus, Aristotle did not use a laptop. So the answeris no.” と出力することを目指している。CoTプロンプトは、多くの多段階推論タスクにおいて、LLMの性能を大きく向上させることが実証された。そこで、CoTプロンプティングを採用し、クエリ $Q$ に対する説明 $E$ と事前予測 $P$ の両方を得る。

多様な推論経路をサンプリングする。：Wangら(2022)と同様に、Weiら(2022)のように貪欲なパスだけを考慮するのではなく、多様な推論パス $R_1, R_2, \cdots R_N$ をサンプルする。 “Did Aristotle use a laptop?”という質問に対して、可能性のある推論パスは以下のようになる：

(R1) Aristotleは2000年に死んだ。最初のノートパソコンが発明されたのは1980年である。したがって、アリストテレスはラップトップを使用していた。だから、答えはイエスである。

(R2)アリストテレスは紀元前322年に死亡した。最初のラップトップが発明されたのは2000年である。したがって、アリストテレスはラップトップを使用していない。だから答えはノーである。

(R3)アリストテレスは紀元前322年に死亡した。最初のラップトップが発明されたのは1980年である。したがって、アリストテレスはラップトップを使っていない。だから、答えはノーである。

知識検索：異なる知識ベースは、異なるタスクに対応するために使用することができる。例えば、“Did Aristotle use a laptop?”という質問に対処するために、外部知識ベース $\mathcal{KB}$ としてWikipediaを使用することができる。情報検索技術は、分解された推論ステップに基づいて、Wikipediaから関連する知識 $K_1, \cdots, K_M$ を検索するために適用することができる。理想的には、この問題に対してWikipediaから次の2つのパラグラフを取得する。

(K1) アリストテレス（紀元前384-322）は、古代ギリシャの古典期の哲学者、大学者である。

(K2)最初のラップトップコンピュータであるエプソンHX-20は、1980年に発明された。

忠実な推論：各推論経路 $R_i$ の忠実度は、知識ベース $\mathcal{KB}$ から取得した関連知識 $K_1, \cdots, K_M$ に基づく関数 $f_{\mathcal{KB}} ( R_i )$ を用いて推定される。最終的な予測は、以下の推論手順を適用することで得られる。

ここで、 $P_i$ は推論パス $R_i$ の中の対応する予測値を示す。この推論手順は、 $N$ 個の推論パス内のすべての予測の中で、知識ベースに対して最も忠実な予測 $\hat{P}$ を特定するように設計されている。例えば、推論パス $R_1$ 、 $R_2$ 、 $R_3$ 、および検索された知識 $K_1$ 、 $K_2$ が与えられた場合、上記の推論手順は、予測 "Sothe answer is no. "を出力する。これは $R_2$ および $R_3$ の両方によってサポートされており、 $R_1$ によってのみサポートされている予測 "So the answer is yes." と比較して高い忠実スコアを有している。

4 実験

本節では、我々の提案する推論手法RRを、3つの複雑な推論タスク（常識推論、時間推論、表形式推論）で評価した結果を紹介する。

4.1 ベースライン

以下のベースラインと比較している。

ゼロショット/数ショットのプロンプト：本実験では、Brownら（2020）に記載された、入力と出力のペアの文脈上の模範をプロンプトの中でゼロまたは少数提供するアプローチに従い、標準のゼロショット/数ショットのプロンプトを持つGPT-3をベースラインとして検討した。

Chain-of-thoughtプロンプティング：標準的なゼロショット/数ショットのプロンプトに加えて、（Wei et al., 2022）で提案されたCoTプロンプトを用いたGPT-3も実験におけるベースラインとして考慮した。これは、LLMに標準的な入出力例ではなく、ステップバイステップの推論例を与えるというアプローチである。

自己一貫性：また、自己一貫性（Wang et al., 2022）をベースラインとして実験を行った。このアプローチは、CoTプロンプトで使用される素朴な貪欲デコードの代替として提案され（Wei et al., 2022）、多様な推論経路のセットをサンプリングし、サンプリングした経路を周辺化して最も一貫した回答を選択する。

4.2 常識推論

データセットの説明：常識的な推論については、StrategyQAデータセット（Gevaet al., 2021）を考慮し、暗黙の推論戦略を必要とする質問を含む。例えば、"Did Aristotle use a laptop? "という質問では、暗黙のうちに推論ステップに分解する必要があるが、"Was Aristotle alive when the laptopwas invented? "という質問では、推論プロセスを明示的に指定する。StrategyQAデータセットには2,290のトレーニング例があり、それぞれ質問（Q）、はい/いいえ（A）、分解（D）、証拠段落（E）、サポート事実（F）で構成されている。さらに，訓練例の10%（229例）を無作為にサンプリングして開発セットを作成した。回答分布はほぼ均衡しており、訓練セットと開発セットの両方で約47%の「はい」質問がある。特に指定がない限り、モデルはStrategyQAの開発セットで評価されている。

実装の詳細：このパートでは、Wikipediaを外部知識ベース $\mathcal{KB}$ として利用する。推論パスの説明の各文に対して、まずBM25（Robertson et al., 2009）を適用し、Wikipediaから最も再利用可能なパラグラフの上位10件を検索する。特に、Pyserini（Lin et al., 2021）からKarpukhinら（2020）のスパース検索BM254の再実装を利用する。その後、事前に学習したMPNetモデル（Song et al., 2020）を用いて、検索された段落と文の埋め込みのコサイン類似度に基づいて、最も類似する段落を選択する。次に、最も類似した段落を前提に、自然言語推論(NLI)モデル（Nie et al., 2020）を用いて、その文の含意スコアと矛盾スコアを求める。推論パスの忠実度は、推論パスの説明に含まれる全ての文の含意スコア、矛盾スコア、MPNet類似度に基づいて、 $f_{\mathcal{KB} } (\cdot)$ を用いて計算される。各質問に対する最終的な予測は、忠実推論によって得られる（式1）。 $f_{\mathcal{KB} } (\cdot)$ の詳細は付録A.2に記載されている。

4.3 時間的推論

データセットの説明：この実験では、時間的推論を調査するためにTempQuestionsデータセット（Jia et al., 2018）を使用する。このデータセットには、明示的な時間的制約、暗黙的な時間的制約、時間的回答、順序制約の4つのクラスに分けられた1,271の時間的質問が含まれており、質問はFreebase (Bollacker et al., 2008) からその答えとペアになっている。時間推論の最も難しい側面を調べるために、我々は、自由文の時間表現を含む暗黙の時間表現を含む、単純な時間質問のセットに焦点を当てる。例えば、“who was governor of oregonwhen shanghai noon was released?” という質問は、暗黙的な時問質問である。分析を容易にするため、回答が1つの質問のみを考慮し、合計175の例を挙げている。このうち、最初の6例はプロンプティングに使用され、残りの169例は評価に使用される。

実装の詳細：このパートでは、外部知識ベース $\mathcal{KB}$ としてWikidata (Vrandeˇci ́c and Krötzsch, 2014)を利用する。これは、公開されている最大の知識グラフであり、FreebaseのデータはWikidataに移行されている。この知識をシステムに組み込むために、各推論パスの説明の各文にエンティティリンクシステムを適用し、文中のすべてのエンティティの対応するWikidataページを同定する。次に、これらの関連するWikidataページからすべての時間的関係を抽出し、テンプレートを使用してこれらの時間的関係を文に変換する。このステップでは、各推論パスの説明の各文に対して、再利用可能な知識文のセットを生成する。そして、最終的な事前予測は、セクション4.2で説明した手順を適用することで得られる。この手順では、検索されたパラグラフは、現在のパートから関連する知識文に置き換えられる。

4.4 表形式推論

データセットの詳細：INFOTABSデータセット（Gupta et al., 2020）は、2,540のWikipedia情報ボックスから抽出した表形式の前提に基づき、人間が書いたテキスト仮説23,738個からなる表形式推論のためのデータセットである。我々は、200の表に基づく1,800の仮説を含む発展セットに焦点を当て、中立の仮説に対するCoTデモを書くのは難しいので、含意と矛盾のある仮説のみを検討する。この結果、200個の表から1,200個の仮説が選ばれ、内包する仮説と矛盾する仮説が同数ずつ評価されることになる。

実装の詳細：このパートでは、外部知識ベースとしてWordNet（Miller, 1995）とConceptNet（Speer et al., 2017）を利用する。テーブルをテキスト前提に変換するために、Varun et al.（2022）と同じ手法に従う。各前提と仮説のペアについて、Varun et al. (2022)で説明された手順に従って、"married" ←RelatedTo→"spouse" のように、前提語と仮説語を接続する関連単語関係トリプルを取得する。これらのトリプルは、いくつかの簡単なテンプレートを使って文に変換される。その結果得られた文は、表の前提語とともに、各推論パスの説明の各文に対する関連知識として機能する。最終的な予測を得るために、セクション4.2で説明した手順が適用され、セクション4.2で取得されたパラグラフは、現在のパートから関連する知識で置き換えられる。

4.5 評価

実験設定：すべての実験において，特に断りのない限り GPT-3text-davinci-002 を使用する。完了時に生成されるトークンの最大数は256に設定されている。zero-shot、few-shot、CoTプロンプトの場合、温度は0に固定した。自己一貫性と検索を伴う再考の場合、温度0.7でランダムに10個の出力をサンプリングする。詳細なプロンプトは付録A.1に記載されている。我々は、常識的推論と表形式推論についてはaccuracyで、時間推論についてはRajpurkarら（2016）で定義されているexact match metricで異なる方法の性能を評価する。

結果：表1に示すように、提案手法であるPRは、追加の訓練やファインチューンを必要とせずに、3つの推論タスクすべてにおいて、すべてのベースラインを常に上回る性能を発揮した。この結果は、LLMの性能を向上させるために外部知識を活用する我々のアプローチの有効性を強調するものである。

5 分析

このセクションでは、RRをより深く理解するために徹底的な分析を行う。

5.1 推論におけるLLMの限界

本節では，StrategyQA データセットにおける CoT プロンプトを用いた GPT-3 の分析を行う。GPT-3は、多くの問題に対して、妥当な予測結果を出すことができ、正しい予測を行うことができる。例えば、“Will the Albany in Georgia reach a hundredthousand occupants before the one in New York?”という問いが与えられたとき、GPT-3は次のような出力を出した：

上記の出力は、(1)特定の視点に基づく裏付け事実（シアン）、(2)連鎖論証（オレンジ）、(3)予測（グリーン）の3つの要素から構成されている。全体として、高いクオリティの出力が得られている。しかし、GPT-3は、一般的に適切な視点を特定できるにもかかわらず、説明の裏付けとなる事実や予測の推論が誤っている場合があることが確認された。

間違った裏付け事実：表2に示すように、GPT-3は、Lil Jonのビルボード1位の曲について、正解の「Yeah」ではなく「Get Low」であるとして、誤った裏付け事実を示している。しかし、 “Was LilJon’s top ranked Billboard song a collaborationwith a member of The Lox?”という質問に対しては、正しい観点で回答しているのである。

推論の誤り：表2に示すように、GPT-3は、富士山の頂上が日本海に突き出ることを「突き出るだろう」と正解ではなく、「突き出ないだろう」と誤った推論をしていることがわかる。しかし、 “Would the top of Mount Fuji stick out ofthe Sea of Japan?”という問いに対して、適切な視点に基づく正しい裏付けを提供している。

5.2 切除実験

分解に基づく検索の重要性：提案手法では、元のクエリではなく、分解された推論ステップに基づいて関連する外部知識を検索する。この選択の影響をさらに調べるため、本手法の他の部分はそのままに、知識検索にオリジナルのクエリを使用する実験を追加で実施した。表3に示すように、これらの実験の結果は、常識的な推論と時間的な推論の両方で悪いものであり、我々のアプローチで分解に基づく検索を行うことの重要性を示している。

さまざまな種類の知識がもたらす影響：表形式推論では、外部知識（WordNetとConceptNet）と背景知識（表）の両方を実験に使用した。このセクションでは、提案手法の性能に対する異なるタイプの知識の効果をさらに検証する。表4に示すように、テーブルに加えてWikiデータやConceptNetを取り込むことで得られる追加的な改善効果は限定的であり、GPT-3がこれらの外部知識ソースにおける多言語レベルの関係をすでに捉えていることを示している。また、表だけでは表推論が大幅に改善されたことから、提案手法も背景知識を効果的に活用できることが示唆された。

5.3 提案手法のバリエーション

基本的な考え方アウトプットの重み付け：第3節では、外部知識を活用するための我々の提案の基本的なバージョンを紹介する。我々の基本的なアプローチでは、出力を個々のユニットとして重み付けし、投票メカニズムを用いて、最も支持される予測を選択する。また、投票によらず、説明と予測の両方を含む、最も支持される出力を直接選択することも可能である。例えば、"Did Aristotle use a laptop? "の実行例（セクション3参照）では、第3推論パス $R_3$ は、知識パラグラフ $K_1$ 、 $K_2$ によって最も支持される出力である。

バリエーションI：ファクトの選択：この手法の最初のバリエーションは、外部知識に基づいてLLMの出力から事実を選択するものです。例えば、"DidAristotle use a laptop? "の例で、最初の2つの推論経路 $R_1$ 、 $R_2$ しかアクセスできない場合を考えてみましょう。この場合、 $R_2$ の最初の文と $R_1$ の次の文はそれぞれ知識 $K_1$ 、 $K_2$ によってサポートされている。この場合、 $R_2$ の第1文と $R_1$ の第2文はそれぞれ知識 $K_1$ と知識 $K_2$ によってサポートされているため、第1バリアントは $R_2$ の第1文と $R_1$ の第2文をサポート事実として出力する。

バリエーションII：ファクトの生成：LLMの出力と外部知識の両方に基づいて事実を生成することで、このアプローチの2番目のバリエーションがあります。例えば、"Did Aristotle use a laptop? "の例では、最初の推論パス $R_1$ にしかアクセスできない。 $R_1$ の第2文は、第2知識パラグラフ $K_2$ によってサポートされている。しかし、最初の文は、どのような証拠パラグラフによってもサポートされていない。このため、 “When did Aristotle die?”といった第1文に関する質問を生成し、第1知識段落 $K_1$ を用いて “Aristotle died in 322BC.”という新たな事実を生成することができる。その結果、第2のバリエーションでは、生成された事実“Aristotle died in 322 BC.” aと $R_1$ の2番目の文がサポート事実として出力されることになる。

裏付けとなる事実がある推論：我々のアプローチの2つのバリエーションについては、我々は支持する事実しか持っておらず、対応する予測を得るために最後の推論ステップを実行する必要がある。この推論のための一つの選択肢はLLMを使うことだが、LLMはコストがかかるか（Brown et al., 2020）、使いにくい（Zhang et al., 2022）。代替案としては、UnifiedQA（Khashabi et al., 2020, 2022）のような、事実をサポートする推論用の既製モデルを使用することである。付録A.5で議論したように、UnifiedQAはGPT-3よりもノイズの多い支持事実に対して頑健である。そこで、推論の最終段階には、UnifiedQAの第2バージョンであるUnifiedQA-v2 （Khashabi et al., 2022）を使用する。

実験設定：本編では、4.2節で取り上げたパラグラフではなく、StrategyQAで提供される証拠パラグラフを利用することで、コモンセンス推論に着目する。説明の質を評価するために、Honovichら（2022）の事実整合性評価のための最良のメトリックを採用する。簡略化のため、T5-11B (Raffel et al., 2020) を自らファインチューンするのではなく、Nieら (2020) が公開した訓練済みNLIモデルを使用して、NLIベースのメトリックを算出する。この2種類の実装の詳細は、付録A.4に記載されている。

結果：表5は、本提案のファクト選択とファクト生成のバリエーションが、説明のサポートファクトの忠実度を向上させ、投票なしの基本アプローチと比較して予測精度を向上させることを示している。本提案のすべてのバリエーションにおいて、CoTプロンプティングのベースラインと比較して、予測精度と説明の忠実性の両方が大幅に向上していることが確認された。

　また、投票機構を組み込むことで、基本アプローチと比較して79.91%の予測精度の向上が見られた。また、表1のエビデンスパラグラフではなく，検索されたパラグラフを用いた同じアプローチのパフォーマンス（すなわち，77.73%）と比較すると、投票ベースラインの自己矛盾（すなわち、73.36%）を有意に上回り、検索パラグラフが我々の提案にも有効であることを示している。表1に示すように、StrategyQAでは、UnifiedQAは58.95%の精度しか得られなかったが、StrategyQAで真の裏付け事実が与えられた場合、UnifiedQAは90.83%の精度で優れた性能を発揮することが注目される。このことから、StrategyQAでは、UnifiedQAは最終段階の推論には有効であるが、質問に対する回答には有効でないことが示唆された。

5.4 LMの規模が与える影響

このサブセクションでは、LMのサイズが提案手法の性能に与える影響を、特にファクトジェネレーションバリアントの文脈で検証する。 GPT-3（175B）に加え、様々なサイズのOPTモデル（Zhang et al., 2022）を用いて、セクション5.3と同じ実験設定を用いて、我々の手法の性能を比較する。図2に示すように、提案手法（Variant II）は、より小さなLMを用いた場合でも、予測精度および説明の忠実度の両面でCoTpromptingを常に上回る。

6 結論

結論として、提案手法は、LLMを支援するために外部知識を利用する有望なソリューションである。従来の方法とは異なり、RRは追加のトレーニングやファインチューニングを必要としないため、LLMのための軽量で実現可能な選択肢となる。GPT-3を用いた3つの推論タスクの実験を通じて、RRがより忠実な説明を生成し、LLMの性能を向上させることが可能であることを明らかにした。今後、RRの様々なバリエーションを検討し、LLMを外部知識で補強する際の有効性と効率性を向上させる予定である。