2023-06-10

09：Rethinking with Retrieval: Faithful Large Language Model Inference

Rethinking with Retrieval: Faithful Large Language Model Inference

He, Hangfeng, Hongming Zhang, and Dan Roth. "Rethinking with Retrieval: Faithful Large Language Model Inference." arXiv preprint arXiv:2301.00303 (2022).

License: Creative Commons Attribution 4.0 International License(CC-BY)

本記事は、原著の内容に基づき筆者が要約または翻訳したものです。以下の図は、そこから引用しています。

This article is my summary or translation based on the content of the original publication. The following figures are taken from it.

要点まとめ

大規模言語モデル（LLM）は、様々な自然言語処理（NLP）タスクにおいて成功を収めているが、これらのモデルに格納された知識は、必然的に不完全、時代遅れ、または不正確な場合がある。このため、LLMを支援するために外部の知識を利用する必要がある。しかし、現在の方法では、外部のノウハウを取り入れるには、追加のトレーニングでファインチューニングが必要であり、コストがかかり、LLMにとって実行不可能な場合がある。この問題に対処するため、我々は、思考連鎖（CoT）プロンプトから得られた分解された推論ステップに基づいて関連する外部知識を検索する、新しい後処理アプローチ、検索付き再考（RR: rethinking with retrieval）を提案する。この軽量なアプローチは、追加のトレーニングやファインチューニングを必要とせず、LLMの入力長に制限されることもない。我々は、GPT-3を用いて、常識的推論、時間的推論、表形式推論の3つの複雑な推論タスクでRRの有効性を大規模な実験を通して評価した。その結果、RRはより忠実な説明を生成し、LLMの性能を向上させることができることが示された。

1 序論

大規模言語モデル（LLM）は、タスク固有の訓練やファインチューニングを伴わない文脈内学習により、様々なタスクで卓越した性能を示してきた（Brown et al., 2020; Chowdhery et al., 2022; Zhang et al., 2022; Ouyang et al. 2022）。最近のプロンプト化（Wei et al., 2022; Zhou et al., 2022; Kojimaet al., 2022）とデコーディング（Wang et al., 2022）の進歩により、LLMが複雑な推論を必要としないタスクに取り組むことが現実的になってきている。しかし、LLMに格納された知識は、必然的に不完全であったり、古かったり、間違っていたりする可能性がある。そのため、LLMを実世界のアプリケーションにうまく展開するためには、Wikipediaなどの外部知識源が不可欠となる場合がある。以前は、T5（Raffel et al., 2020）、BERT（Devlin et al., 2019）、RoBERTa（Liu et al., 2019）などの小型言語モデル（LM）に知識源を利用しようとした。しかし、これらの方法は、しばしば追加のトレーニングやファインチューンを必要とし、コストがかかるため、LLMには不向きである。

　本稿では、LLMで外部知識を利用するためのRR（rethinking with retrieval）という後処理アプローチを紹介する。本手法は、Wang et al. (2022)で説明されているように、chain-of-thought（CoT）プロンプト法（Wei et al., 2022）を用いて、多様な推論経路のセットを生成することから始まる。そして、これらの経路の各再生ステップを使用して、関連する外部知識を検索し、RRが提供できるようにすることで、図1に示すように、より忠実な説明と、より正確な推論を可能にする。

　我々は、GPT-3 175B（Brownet al., 2020）と異なる外部知識ソース：Wikipedia、Wikidata (Vrandeˇci ́c and Krötzsch, 2014）、WordNet（Miller, 1995）そしてConceptnet （Speer et al., 2017）を用いて、提案手法RRの有効性を3つの複雑な推論タスク：常識推論、時間推論、表推論で評価した。結果は、RRが追加的な訓練やファインチューンを必要とせずに、3つのタスクすべてにおいてすべてのベースラインを一貫して上回ることを実証し、LLMの性能を強化するために外部知識を活用する我々のアプローチの優位性を示している。

2 関連研究

検索によるLMの強化。検索機能付きLMは、外部知識を取り入れることで性能を向上させる手段として、大きな注目を集めている。例えば、学習段階（Borgeaudet al., 2021）と推論段階（Khandelwal et al., 2020）の両方で、次の単語分布の推定を改善するために、最も類似した学習コンテキストを再取得することができる。さらに、検索エンジンが関連文書を検索するための検索クエリを生成するために、検索クエリ生成器が採用されている（Komeili et al., 2022; Shuster et al., 2022; Thoppilan et al., 2022）。他のアプローチでは、検索された文書を生成タスクの追加コンテキストとして利用している（Joshi et al., 2020; Guuet al., 2020; Lewis et al., 2020）。中野ら（2021）は、テキストベースのウェブブラウジング環境において、人間のフィードバックを代わりに用いている。これらの先行研究の中で、Khandelwalら（2020）は我々のアプローチと最も密接に関連している。しかし、彼らは訓練データから構築された最近傍データストアを用いて局所推論を改善することに焦点を当てているのに対し、我々は外部知識を用いて忠実な推論を行うことに焦点を当てている。また、再検索された知識を取り込むために訓練やファインチューンを必要とする前述の他のアプローチとは対照的に、我々は、追加の訓練やファインチューンなしに検索された知識を活用するための後処理方法を提案する。

外部知識をLMに取り込む。LMの推論能力を向上させるために、外部知識を活用することに多大な努力が払われてきた。これまでの研究では、WordNet （Miller, 1995）やConceptNet（Speer et al., 2017）などの外部知識ソースを組み込んで、表形式の推論タスクでLMを強化した（Neerajaet al., 2021; Varun et al., 2022）。また、暗黙知に対する再推論能力を向上させるために、入力に明示的なルールが追加されている（Talmoret al., 2020）。さらに、Wikidata（Vrandeˇci ́c and Krötzsch, 2014）からの明示的な知識とLLMの暗黙的な知識は、画像質問応答のためのTransformer (Vaswani et al., 2017) に統合されている（Gui et al., 2021）。 Nyeetら（2021）はその代わりに、LLMの一貫性と整合性を向上させるための記号的推論モジュールを導入している。これらの先行研究の中で、Nye et al.（2021）は我々のアプローチと最も関連性が高い。しかし、彼らは論理的制約を組み込んで一貫性と整合性を向上させることに重点を置いており、我々は外部知識の利用によって説明の忠実性を向上させることを目指している。生成前に外部知識を取り込み、追加のトレーニングや微調整を必要とする前述の他のアプローチとは対照的に、我々の提案は、追加のトレーニングやファインチューンなしにLMを強化するために、後処理の方法で外部知識を活用するものである。

LLMの潜在的な知識を発見する。LLMに隠された推論のための知識を探求する研究が行われてきた。これには、LLMが推論過程で説明を生成するよう促す丁寧なプロンプトの利用が含まれる。例えば、few-shot（Wei et al., 2022）やzero-shot（Kojima et al., 2022）学習におけるchain-of-thoughtプロンプトや、中間計算のためのスクラッチパッドの利用（Nyeet al., 2022）である。さらに、LLMの多様な推論経路のサンプリングに基づく様々な方法が提案されており、モデルの補完の正しさを判断する検証者の訓練（Cobbe et al., 2021）、説明の信頼性に基づくモデル事前予測の校正（Ye and Durrett, 2022）、多様な推論経路の自己一貫性の促進（Wanget al., 2022）などがある。Zelikmanら（2022）は、LLMが少数の初期例から高品質の推論を生成する能力を代わりにブートストラップしている。Liuら（2022）はさらに、LLMから知識を生成し、それを常識推論を改善するための追加入力として使用することを提案している。この研究とは対照的に、我々の提案は、LLMを向上させるために外部の知識を活用することに焦点を当て、彼らはLLMに隠された知識エッジを探索することを目的としている。

3 検索を再考する

LLMは、質問に答えるために必要な視点を正確に捉えていても、時折、誤った裏付けとなる事実を生成することが示されている。この現象は、LLMが知識を保存・検索する方法における本質的な問題を浮き彫りにしている。（1）事前訓練コーパスに古い、誤った、または欠落した関連知識が存在する。（2）事前訓練中に関連知識を誤って記憶する。（3）推論の段階で関連知識を誤って検索する。これらの問題に対処するため、我々は、推論ステップを分解して関連情報を検索することにより、外部知識を活用するRRの使用を提案する。

概要：クエリ $Q$ が与えられたとき、chain-of-thoughtプロンプトを利用して、多様な推論パス $R_1, R_2, \cdots, R_N$ を生成し、各推論パス $R_i$ は説明 $E_i$ と続いて予測 $P_i$ からなる。その後、各理由付けパスの説明をサポートするために、適切な知識ベース $\mathcal{KB}$ から関連知識 $K_1, \cdots, K_M$ を取得し、この知識に最も忠実な予測 $\hat{P}$ を選択する。我々の提案をよりよく説明するために、本研究では"Did Aristotle use a laptop? "を実行例とする。

Chain-of-thoughtプロンプティング：標準的なプロンプトとは対照的に、CoTプロンプト（Wei et al., 2022）は、推論プロセスを捉えた一連の短文を生成するプロンプトに、ステップバイステップの推論例のデモンストレーションを含める。例えば、"Did Aristotle use a laptop? "という質問があった場合、CoTプロンプトは完全な推論経路を生成することを目指す。単に “No””と出力するのではなく、 “Aristotle diedin 322 BC. The first laptop was invented in 1980.Thus, Aristotle did not use a laptop. So the answeris no.” と出力することを目指している。CoTプロンプトは、多くの多段階推論タスクにおいて、LLMの性能を大きく向上させることが実証された。そこで、CoTプロンプティングを採用し、クエリ $Q$ に対する説明 $E$ と事前予測 $P$ の両方を得る。

多様な推論経路をサンプリングする。：Wangら(2022)と同様に、Weiら(2022)のように貪欲なパスだけを考慮するのではなく、多様な推論パス $R_1, R_2, \cdots R_N$ をサンプルする。 “Did Aristotle use a laptop?”という質問に対して、可能性のある推論パスは以下のようになる：

(R1) Aristotleは2000年に死んだ。最初のノートパソコンが発明されたのは1980年である。したがって、アリストテレスはラップトップを使用していた。だから、答えはイエスである。

(R2)アリストテレスは紀元前322年に死亡した。最初のラップトップが発明されたのは2000年である。したがって、アリストテレスはラップトップを使用していない。だから答えはノーである。

(R3)アリストテレスは紀元前322年に死亡した。最初のラップトップが発明されたのは1980年である。したがって、アリストテレスはラップトップを使っていない。だから、答えはノーである。

知識検索：異なる知識ベースは、異なるタスクに対応するために使用することができる。例えば、“Did Aristotle use a laptop?”という質問に対処するために、外部知識ベース $\mathcal{KB}$ としてWikipediaを使用することができる。情報検索技術は、分解された推論ステップに基づいて、Wikipediaから関連する知識 $K_1, \cdots, K_M$ を検索するために適用することができる。理想的には、この問題に対してWikipediaから次の2つのパラグラフを取得する。

(K1) アリストテレス（紀元前384-322）は、古代ギリシャの古典期の哲学者、大学者である。

(K2)最初のラップトップコンピュータであるエプソンHX-20は、1980年に発明された。

忠実な推論：各推論経路 $R_i$ の忠実度は、知識ベース $\mathcal{KB}$ から取得した関連知識 $K_1, \cdots, K_M$ に基づく関数 $f_{\mathcal{KB}} ( R_i )$ を用いて推定される。最終的な予測は、以下の推論手順を適用することで得られる。

ここで、 $P_i$ は推論パス $R_i$ の中の対応する予測値を示す。この推論手順は、 $N$ 個の推論パス内のすべての予測の中で、知識ベースに対して最も忠実な予測 $\hat{P}$ を特定するように設計されている。例えば、推論パス $R_1$ 、 $R_2$ 、 $R_3$ 、および検索された知識 $K_1$ 、 $K_2$ が与えられた場合、上記の推論手順は、予測 "Sothe answer is no. "を出力する。これは $R_2$ および $R_3$ の両方によってサポートされており、 $R_1$ によってのみサポートされている予測 "So the answer is yes." と比較して高い忠実スコアを有している。

4 実験

本節では、我々の提案する推論手法RRを、3つの複雑な推論タスク（常識推論、時間推論、表形式推論）で評価した結果を紹介する。

4.1 ベースライン

以下のベースラインと比較している。

ゼロショット/数ショットのプロンプト：本実験では、Brownら（2020）に記載された、入力と出力のペアの文脈上の模範をプロンプトの中でゼロまたは少数提供するアプローチに従い、標準のゼロショット/数ショットのプロンプトを持つGPT-3をベースラインとして検討した。

Chain-of-thoughtプロンプティング：標準的なゼロショット/数ショットのプロンプトに加えて、（Wei et al., 2022）で提案されたCoTプロンプトを用いたGPT-3も実験におけるベースラインとして考慮した。これは、LLMに標準的な入出力例ではなく、ステップバイステップの推論例を与えるというアプローチである。

自己一貫性：また、自己一貫性（Wang et al., 2022）をベースラインとして実験を行った。このアプローチは、CoTプロンプトで使用される素朴な貪欲デコードの代替として提案され（Wei et al., 2022）、多様な推論経路のセットをサンプリングし、サンプリングした経路を周辺化して最も一貫した回答を選択する。

4.2 常識推論

データセットの説明：常識的な推論については、StrategyQAデータセット（Gevaet al., 2021）を考慮し、暗黙の推論戦略を必要とする質問を含む。例えば、"Did Aristotle use a laptop? "という質問では、暗黙のうちに推論ステップに分解する必要があるが、"Was Aristotle alive when the laptopwas invented? "という質問では、推論プロセスを明示的に指定する。StrategyQAデータセットには2,290のトレーニング例があり、それぞれ質問（Q）、はい/いいえ（A）、分解（D）、証拠段落（E）、サポート事実（F）で構成されている。さらに，訓練例の10%（229例）を無作為にサンプリングして開発セットを作成した。回答分布はほぼ均衡しており、訓練セットと開発セットの両方で約47%の「はい」質問がある。特に指定がない限り、モデルはStrategyQAの開発セットで評価されている。

実装の詳細：このパートでは、Wikipediaを外部知識ベース $\mathcal{KB}$ として利用する。推論パスの説明の各文に対して、まずBM25（Robertson et al., 2009）を適用し、Wikipediaから最も再利用可能なパラグラフの上位10件を検索する。特に、Pyserini（Lin et al., 2021）からKarpukhinら（2020）のスパース検索BM254の再実装を利用する。その後、事前に学習したMPNetモデル（Song et al., 2020）を用いて、検索された段落と文の埋め込みのコサイン類似度に基づいて、最も類似する段落を選択する。次に、最も類似した段落を前提に、自然言語推論(NLI)モデル（Nie et al., 2020）を用いて、その文の含意スコアと矛盾スコアを求める。推論パスの忠実度は、推論パスの説明に含まれる全ての文の含意スコア、矛盾スコア、MPNet類似度に基づいて、 $f_{\mathcal{KB} } (\cdot)$ を用いて計算される。各質問に対する最終的な予測は、忠実推論によって得られる（式1）。 $f_{\mathcal{KB} } (\cdot)$ の詳細は付録A.2に記載されている。

4.3 時間的推論

データセットの説明：この実験では、時間的推論を調査するためにTempQuestionsデータセット（Jia et al., 2018）を使用する。このデータセットには、明示的な時間的制約、暗黙的な時間的制約、時間的回答、順序制約の4つのクラスに分けられた1,271の時間的質問が含まれており、質問はFreebase (Bollacker et al., 2008) からその答えとペアになっている。時間推論の最も難しい側面を調べるために、我々は、自由文の時間表現を含む暗黙の時間表現を含む、単純な時間質問のセットに焦点を当てる。例えば、“who was governor of oregonwhen shanghai noon was released?” という質問は、暗黙的な時問質問である。分析を容易にするため、回答が1つの質問のみを考慮し、合計175の例を挙げている。このうち、最初の6例はプロンプティングに使用され、残りの169例は評価に使用される。

実装の詳細：このパートでは、外部知識ベース $\mathcal{KB}$ としてWikidata (Vrandeˇci ́c and Krötzsch, 2014)を利用する。これは、公開されている最大の知識グラフであり、FreebaseのデータはWikidataに移行されている。この知識をシステムに組み込むために、各推論パスの説明の各文にエンティティリンクシステムを適用し、文中のすべてのエンティティの対応するWikidataページを同定する。次に、これらの関連するWikidataページからすべての時間的関係を抽出し、テンプレートを使用してこれらの時間的関係を文に変換する。このステップでは、各推論パスの説明の各文に対して、再利用可能な知識文のセットを生成する。そして、最終的な事前予測は、セクション4.2で説明した手順を適用することで得られる。この手順では、検索されたパラグラフは、現在のパートから関連する知識文に置き換えられる。

4.4 表形式推論

データセットの詳細：INFOTABSデータセット（Gupta et al., 2020）は、2,540のWikipedia情報ボックスから抽出した表形式の前提に基づき、人間が書いたテキスト仮説23,738個からなる表形式推論のためのデータセットである。我々は、200の表に基づく1,800の仮説を含む発展セットに焦点を当て、中立の仮説に対するCoTデモを書くのは難しいので、含意と矛盾のある仮説のみを検討する。この結果、200個の表から1,200個の仮説が選ばれ、内包する仮説と矛盾する仮説が同数ずつ評価されることになる。

実装の詳細：このパートでは、外部知識ベースとしてWordNet（Miller, 1995）とConceptNet（Speer et al., 2017）を利用する。テーブルをテキスト前提に変換するために、Varun et al.（2022）と同じ手法に従う。各前提と仮説のペアについて、Varun et al. (2022)で説明された手順に従って、"married" ←RelatedTo→"spouse" のように、前提語と仮説語を接続する関連単語関係トリプルを取得する。これらのトリプルは、いくつかの簡単なテンプレートを使って文に変換される。その結果得られた文は、表の前提語とともに、各推論パスの説明の各文に対する関連知識として機能する。最終的な予測を得るために、セクション4.2で説明した手順が適用され、セクション4.2で取得されたパラグラフは、現在のパートから関連する知識で置き換えられる。

4.5 評価

実験設定：すべての実験において，特に断りのない限り GPT-3text-davinci-002 を使用する。完了時に生成されるトークンの最大数は256に設定されている。zero-shot、few-shot、CoTプロンプトの場合、温度は0に固定した。自己一貫性と検索を伴う再考の場合、温度0.7でランダムに10個の出力をサンプリングする。詳細なプロンプトは付録A.1に記載されている。我々は、常識的推論と表形式推論についてはaccuracyで、時間推論についてはRajpurkarら（2016）で定義されているexact match metricで異なる方法の性能を評価する。

結果：表1に示すように、提案手法であるPRは、追加の訓練やファインチューンを必要とせずに、3つの推論タスクすべてにおいて、すべてのベースラインを常に上回る性能を発揮した。この結果は、LLMの性能を向上させるために外部知識を活用する我々のアプローチの有効性を強調するものである。

5 分析

このセクションでは、RRをより深く理解するために徹底的な分析を行う。

5.1 推論におけるLLMの限界

本節では，StrategyQA データセットにおける CoT プロンプトを用いた GPT-3 の分析を行う。GPT-3は、多くの問題に対して、妥当な予測結果を出すことができ、正しい予測を行うことができる。例えば、“Will the Albany in Georgia reach a hundredthousand occupants before the one in New York?”という問いが与えられたとき、GPT-3は次のような出力を出した：

上記の出力は、(1)特定の視点に基づく裏付け事実（シアン）、(2)連鎖論証（オレンジ）、(3)予測（グリーン）の3つの要素から構成されている。全体として、高いクオリティの出力が得られている。しかし、GPT-3は、一般的に適切な視点を特定できるにもかかわらず、説明の裏付けとなる事実や予測の推論が誤っている場合があることが確認された。

間違った裏付け事実：表2に示すように、GPT-3は、Lil Jonのビルボード1位の曲について、正解の「Yeah」ではなく「Get Low」であるとして、誤った裏付け事実を示している。しかし、 “Was LilJon’s top ranked Billboard song a collaborationwith a member of The Lox?”という質問に対しては、正しい観点で回答しているのである。

推論の誤り：表2に示すように、GPT-3は、富士山の頂上が日本海に突き出ることを「突き出るだろう」と正解ではなく、「突き出ないだろう」と誤った推論をしていることがわかる。しかし、 “Would the top of Mount Fuji stick out ofthe Sea of Japan?”という問いに対して、適切な視点に基づく正しい裏付けを提供している。

5.2 切除実験

分解に基づく検索の重要性：提案手法では、元のクエリではなく、分解された推論ステップに基づいて関連する外部知識を検索する。この選択の影響をさらに調べるため、本手法の他の部分はそのままに、知識検索にオリジナルのクエリを使用する実験を追加で実施した。表3に示すように、これらの実験の結果は、常識的な推論と時間的な推論の両方で悪いものであり、我々のアプローチで分解に基づく検索を行うことの重要性を示している。

さまざまな種類の知識がもたらす影響：表形式推論では、外部知識（WordNetとConceptNet）と背景知識（表）の両方を実験に使用した。このセクションでは、提案手法の性能に対する異なるタイプの知識の効果をさらに検証する。表4に示すように、テーブルに加えてWikiデータやConceptNetを取り込むことで得られる追加的な改善効果は限定的であり、GPT-3がこれらの外部知識ソースにおける多言語レベルの関係をすでに捉えていることを示している。また、表だけでは表推論が大幅に改善されたことから、提案手法も背景知識を効果的に活用できることが示唆された。

5.3 提案手法のバリエーション

基本的な考え方アウトプットの重み付け：第3節では、外部知識を活用するための我々の提案の基本的なバージョンを紹介する。我々の基本的なアプローチでは、出力を個々のユニットとして重み付けし、投票メカニズムを用いて、最も支持される予測を選択する。また、投票によらず、説明と予測の両方を含む、最も支持される出力を直接選択することも可能である。例えば、"Did Aristotle use a laptop? "の実行例（セクション3参照）では、第3推論パス $R_3$ は、知識パラグラフ $K_1$ 、 $K_2$ によって最も支持される出力である。

バリエーションI：ファクトの選択：この手法の最初のバリエーションは、外部知識に基づいてLLMの出力から事実を選択するものです。例えば、"DidAristotle use a laptop? "の例で、最初の2つの推論経路 $R_1$ 、 $R_2$ しかアクセスできない場合を考えてみましょう。この場合、 $R_2$ の最初の文と $R_1$ の次の文はそれぞれ知識 $K_1$ 、 $K_2$ によってサポートされている。この場合、 $R_2$ の第1文と $R_1$ の第2文はそれぞれ知識 $K_1$ と知識 $K_2$ によってサポートされているため、第1バリアントは $R_2$ の第1文と $R_1$ の第2文をサポート事実として出力する。

バリエーションII：ファクトの生成：LLMの出力と外部知識の両方に基づいて事実を生成することで、このアプローチの2番目のバリエーションがあります。例えば、"Did Aristotle use a laptop? "の例では、最初の推論パス $R_1$ にしかアクセスできない。 $R_1$ の第2文は、第2知識パラグラフ $K_2$ によってサポートされている。しかし、最初の文は、どのような証拠パラグラフによってもサポートされていない。このため、 “When did Aristotle die?”といった第1文に関する質問を生成し、第1知識段落 $K_1$ を用いて “Aristotle died in 322BC.”という新たな事実を生成することができる。その結果、第2のバリエーションでは、生成された事実“Aristotle died in 322 BC.” aと $R_1$ の2番目の文がサポート事実として出力されることになる。

裏付けとなる事実がある推論：我々のアプローチの2つのバリエーションについては、我々は支持する事実しか持っておらず、対応する予測を得るために最後の推論ステップを実行する必要がある。この推論のための一つの選択肢はLLMを使うことだが、LLMはコストがかかるか（Brown et al., 2020）、使いにくい（Zhang et al., 2022）。代替案としては、UnifiedQA（Khashabi et al., 2020, 2022）のような、事実をサポートする推論用の既製モデルを使用することである。付録A.5で議論したように、UnifiedQAはGPT-3よりもノイズの多い支持事実に対して頑健である。そこで、推論の最終段階には、UnifiedQAの第2バージョンであるUnifiedQA-v2 （Khashabi et al., 2022）を使用する。

実験設定：本編では、4.2節で取り上げたパラグラフではなく、StrategyQAで提供される証拠パラグラフを利用することで、コモンセンス推論に着目する。説明の質を評価するために、Honovichら（2022）の事実整合性評価のための最良のメトリックを採用する。簡略化のため、T5-11B (Raffel et al., 2020) を自らファインチューンするのではなく、Nieら (2020) が公開した訓練済みNLIモデルを使用して、NLIベースのメトリックを算出する。この2種類の実装の詳細は、付録A.4に記載されている。

結果：表5は、本提案のファクト選択とファクト生成のバリエーションが、説明のサポートファクトの忠実度を向上させ、投票なしの基本アプローチと比較して予測精度を向上させることを示している。本提案のすべてのバリエーションにおいて、CoTプロンプティングのベースラインと比較して、予測精度と説明の忠実性の両方が大幅に向上していることが確認された。

　また、投票機構を組み込むことで、基本アプローチと比較して79.91%の予測精度の向上が見られた。また、表1のエビデンスパラグラフではなく，検索されたパラグラフを用いた同じアプローチのパフォーマンス（すなわち，77.73%）と比較すると、投票ベースラインの自己矛盾（すなわち、73.36%）を有意に上回り、検索パラグラフが我々の提案にも有効であることを示している。表1に示すように、StrategyQAでは、UnifiedQAは58.95%の精度しか得られなかったが、StrategyQAで真の裏付け事実が与えられた場合、UnifiedQAは90.83%の精度で優れた性能を発揮することが注目される。このことから、StrategyQAでは、UnifiedQAは最終段階の推論には有効であるが、質問に対する回答には有効でないことが示唆された。

5.4 LMの規模が与える影響

このサブセクションでは、LMのサイズが提案手法の性能に与える影響を、特にファクトジェネレーションバリアントの文脈で検証する。 GPT-3（175B）に加え、様々なサイズのOPTモデル（Zhang et al., 2022）を用いて、セクション5.3と同じ実験設定を用いて、我々の手法の性能を比較する。図2に示すように、提案手法（Variant II）は、より小さなLMを用いた場合でも、予測精度および説明の忠実度の両面でCoTpromptingを常に上回る。

6 結論

結論として、提案手法は、LLMを支援するために外部知識を利用する有望なソリューションである。従来の方法とは異なり、RRは追加のトレーニングやファインチューニングを必要としないため、LLMのための軽量で実現可能な選択肢となる。GPT-3を用いた3つの推論タスクの実験を通じて、RRがより忠実な説明を生成し、LLMの性能を向上させることが可能であることを明らかにした。今後、RRの様々なバリエーションを検討し、LLMを外部知識で補強する際の有効性と効率性を向上させる予定である。

2023-06-06

今日の論文2023/06/04,05：RWKV: Reinventing RNNs for the Transformer Era

今日の論文

RWKV: Reinventing RNNs for the Transformer Era

arxiv.org

License: Creative Commons Attribution 4.0 International License(CC-BY)

本記事は、原著の一部を筆者が翻訳したものです。以下の図は、そこから引用しています。

This article is my translation of the part of the original publication. The following figures are taken from it.

要点まとめ

Transformerは、ほぼ全ての自然言語処理（NLP）タスクに革命をもたらしたが、配列長に対して2次関数的にスケールするメモリと計算機の複雑さに悩まされている。一方、リカレントニューラルネットワーク（RNN）は、メモリと計算機要件に線形スケーリングを示すが、並列化とスケーラビリティに限界があるため、Transformerと同等の性能を発揮することは難しい。我々は、Transformerの効率的な並列化トレーニングとRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャ、Receptance Weighted Key Value（RWKV）を提案する。我々のアプローチは、線形注意メカニズムを活用し、モデルをトランスフォーマーまたはRNNとして定式化することを可能にし、学習時の計算を並列化し、推論時の計算およびメモリの複雑さを一定に保つことで、数百億のパラメータに拡張できる最初の非トランスフォーマーのアーキテクチャを実現した。我々の実験では、RWKVは同規模のTransformerと同等の性能を発揮することが明らかになり、将来の研究がこのアーキテクチャを活用してより効率的なモデルを作成できることが示唆された。本研究は、シーケンス処理タスクにおける計算効率とモデルの性能のトレードオフを調整するための重要な一歩を提示した。

github.com

1 序論

ディープラーニング技術は、人工知能において大きな進歩を遂げ、様々な科学的・産業的アプリケーションにおいて極めて重要な役割を果たしている。これらのアプリケーションは、自然言語理解、会話AI、時系列分析、さらには画像やグラフなどのシーケンスとして再構成可能な間接的なモーダリティを含む、複雑なシーケンシャルデータ処理タスクを含むことが多い（Brown et al., 2020; Ismail Fawazet al., 2019; Wu et al., 2020; Albalak et al., 2022）これらの手法の中で主流なのは、RNN、畳み込みニューラルネットワーク（CNN）、およびTransformerモデル（Vaswani et al., 2017）である。

　これらはそれぞれ明確な欠点があり、特定のシナリオで効率が制限される。RNNは消失勾配問題に悩まされ、長いシーケンスの学習が困難である。さらに、RNNは学習中の時間次元での並列化ができないため、スケーラビリティが制限される（Hochreiter, 1998; Le and Zuidema, 2016）。一方、CNNは局所的なパターンを捉えることに長けているだけであり、多くのシーケンス処理タスクに重要な長距離依存性を扱う能力に限界がある（Bai et al., 2018）。

　Transformerモデルは、局所および長距離依存性の両方を扱う能力と並列化トレーニングの能力により、強力な代替案として浮上した（Tay et al., 2022）。GPT-3 (Brown et al., 2020)、ChatGPT (OpenAI, 2022; Koco ́n et al., 2023)、GPT-4 (Ope-nAI, 2023)、LLaMA (Touvron et al., 2023)、そしてChinchilla (Hoffmann et al., 2022) など最近のモデルはこのアーキテクチャの能力を実証し、NLPで何が可能かという境界を押し広げている。これらの重要な進歩にもかかわらず、Transformerに内在する自己注視メカニズムは、主にその2次的な複雑性によって、ユニークな課題を提起している。この複雑さにより、長い入力シーケンスを含むタスクやリソースに制約のある状況では、計算量とメモリ使用量が多いアーキテクチャになってしまいる。これらの制限により、Transformerのスケーリング特性を改善することを目的とした研究が活発に行われているが、多くの場合、Transformerを非常に効果的にするいくつかの特性が犠牲になっている（Wang et al., 2020; Zaheer et al., 2020; Dao et al.. 2022a）。

　これらの課題に取り組むために、RNNとTransformerの長所を効果的に組み合わせ、主要な欠点を回避する新しいアーキテクチャ、 Receptance Weighted Key Value（RWKV）を紹介する。 RWKVは、Transformer（Katharopoulos et al., 2020）に関連するメモリボトルネックと2次スケーリングをより効率的な線形スケーリングで緩和するように慎重に設計されているが、Transformerをこの分野で優位なアーキテクチャにしている豊かで印象的な特性は依然として維持される。

　RWKVの特徴のひとつは、Transformerのような並列トレーニングやロバストスケーラビリティを提供できることである。さらに、RWKVのアテンション機構は、従来のドット積トークンの相互作用を排除し、より効果的なチャネル指向のアテンションを採用した、線形アテンションのバリエーションを導入するように再構築されている。このアプローチは、従来のTransformerアーキテクチャでは、特定のトークンとのインタラクションがアテンションを支配していたのとは大きく異なるものである。RWKVの線形アテンションの実装は、近似処理なしで行われるため、効率が大幅に改善され、スケーラビリティが向上している（表1参照）。

　RWKV開発の包括的な動機は、ニューラルネットワークアーキテクチャにおける計算効率と表現力のギャップを埋めることである。RWKVは、数十億のパラメータを持つ大規模なモデルを扱うタスクに対して、計算コストの数分の一で実用的な性能を発揮する有望なソリューションを提供する。我々の実験結果は、RWKVが、様々なドメイン、特に逐次データ処理を含むAIモデルのスケーリングとデプロイメントにおける継続的な課題に対処するための貴重なツールになり得ることを示唆している。このように、RWKVは、シーケンス処理タスクのための、より実現可能で計算効率の高い次世代のAIモデルへの道を切り開いたのである。

本論文における我々の貢献は、以下の通りである。

RNNとTransformerの長所を兼ね備え、それらの既知の制限を緩和するRWKVネットワークアーキテクチャを紹介する。
私たちは、標準的なトランスフォーマーモデルに関連する2次的な複雑さを解消し、線形アテンションをもたらす新しいアテンションメカニズムの再定式化を提案する。
我々は、大規模なモデルや長距離の依存関係を含むタスクを管理するRWKVの性能、効率、スケーリングを示すために、ベンチマークデータセットの包括的な一連の実験を実施した。
1億6900万から140億のパラメータを持つ事前学習済みモデルをPile（Gao et al, 2020）上で公開した。

4 The Receptance Weighted Key Value (RWKV) Mode

RWKVアーキテクチャの名前は、タイムミキシングブロックとチャンネルミキシングブロックで使用される4つの主要なモデル要素に由来する。

R: レセプタンス（Receptance）ベクトルが、過去の情報の受容として作用する。
W: ウェイト（Weight）は、位置の重み減衰ベクトルで、学習可能なモデルパラメータである。
K: キー（Key）は、従来のアテンションのKに類似したベクトルである。
V: バリュー（Value）は、従来のアテンションのVに類似したベクトルである。

図2に示すように、各タイミングステップにおける主要な要素間の相互作用は乗算的である。

4.1 ハイレベルサマリー

RWKVアーキテクチャは，時間混合サブブロックとチャネル混合サブブロックから構成される、一連の積み重ねられた残差ブロックから構成され、それぞれ再帰構造を持つ。

　再帰構造は、現在の入力と前の時間ステップの入力の間の線形補間（図3の対角線で示す、時間シフト混合またはトークンシフトと呼ぶ技術）として定式化され、入力埋め込みの線形投影ごとに独立に調整できる（たとえば時間混合におけるR、K、V、R、チャネル混合におけるKなど）、さらに式14で定式化されるWKVの時間依存の更新として調整される。WKVの計算はAFT（Zhai et al., 2021）に似ているが、WはAFTのペアワイズ行列ではなく、相対位置を乗じたチャネルワイズベクトルとなる。また、Wの潜在的な退化を補うために、現在のトークンに個別に注目するためのベクトルUを導入している（詳細は付録Gを参照）。

タイムミキシングブロックは次式で与えられる：

ここで，WKVの計算 $wkv_t$ は、Transformerの $Attn(Q,K,V)$ の役割を果たし、スカラー間の相互作用であるため2次コストを発生させない。直感的には、時間が長くなるにつれて、ベクトル $o_t$ は増加する項の総和で表される長い歴史に依存することになる。RWKVは目標位置 $t$ に対して、 $[1,t$ ]の位置区間で重み付け和を行い、レセプタンス $σ(r)$ と掛け合わせる。したがって、相互作用はあるタイムステップ内では乗法的であり、異なるタイムステップでは総和的である。さらに、チャネルミキシングブロックは以下のように与えられる：

ここで、二乗ReLU活性化を採用する（So et al., 2021）。タイムミキシングでもチャンネルミキシングでも、レセプタンスのシグモイドを取ることで、直感的に不要な履歴情報を排除する「忘却ゲート」として利用していることに注意。

4.2 Transformerのような並列化

RWKVは、Transformerを彷彿とさせるような、いわゆる時間並列モードで効率的に並列化することが可能である。1つのレイヤーでシーケンスのバッチを処理する時間的複雑さは[tex: O(BTd²)]である、これは主に行列の乗算 $W_i, i \in \{r,k,v,o \}$ （B個のシーケンス、T個の最大トークン、d個のチャンネルを仮定）からなる。一方、注目スコア $wkv_t$ の更新にはシリアルスキャンが必要であり（詳細は付録Bを参照）、複雑度は $O(BTd)$ である。

　行列乗算は典型的なTransformerで $W_i, i \in \{Q, K, V, O \}$ に並列化することができる。要素ごとのWKV計算は時間に依存するが、他の2つの次元に沿って容易に並列化できる（Lei et al., 2018）さらに、トークンシフトは、各ブロックで時間次元の単純なオフセットとしてPyTorch (Paszke et al., 2019) ライブラリのnn.ZeroPad2d*1を使って実装される。

4.3 RNNのような逐次的デコーディング

リカレントネットワークでは、状態 $t$ の出力を状態 $t+1$ の入力として使用することが一般的である。特に言語モデルの自己回帰推論では、各トークンが次のステップに進む前に計算される必要があり、RWKVは時系列モードと呼ばれるRNNのような構造を利用することが可能である。このような状況では、RWKVは、付録Bに示すように、推論中の復号化のために再帰的に構成することができ、各出力トークンは、シーケンス長に関係なく、一定の大きさの最新の状態にのみ依存するという利点を活用する。

　これは、RNNデコーダとして振る舞い、シーケンス長に対して一定の速度とメモリフットプリントをもたらし、より長いシーケンスを効率的に処理できる。一方、自己アテンションは、一般的に、シーケンス長に対して直線的に成長するKVキャッシュを必要とし、シーケンスが長くなるにつれて効率が低下し、メモリフットプリントと時間が増加する結果となる。

4.4 ソフトウェア実装

RWKVはもともとPytorch Deep Learning Library（Paszke et al., 2019）と4.7で説明するWKV計算用のカスタムCUDAカーネルを用いて実装されている。RWKVは一般的なリカレントネットワークであるが、現在の実装では言語モデリング（RWKV-LM）のタスクに焦点を当てている。モデルアーキテクチャは、4.7節で説明した埋め込み層と、4.6節で説明した原則に従って図2および図3に示すような複数の同じ残渣ブロックを順次適用することで構成されている。最後のブロックの後、LayerNorm (Ba et al.,2016) と線形射影で構成される単純な出力射影ヘッドを使用して、次のトークン予測タスクで使用するロジットを取得し、トレーニング中のクロスエントロピー損失を計算する。最後の残渣ブロックの後に生成された埋め込みとロジットは両方とも、後で下流のNLPタスクに使用することもできる。学習は時間並列モード（セクション4.2）で行われ、自動進行推論と潜在的なチャットインターフェースは時系列モード（セクション4.3）を利用する。

4.5 勾配の安定性とレイヤースタッキング

RWKVアーキテクチャは、TransformersとRNNの両方の融合として設計されており、従来のRNNと比較して安定した勾配とTransformersの深いアーキテクチャーという利点を提供しながら、推論において効率的である。

　以前の研究では、RNNにおける勾配の安定性の問題に取り組むために、非飽和活性化関数を使用する（Chandar et al, 2019）、ゲーティング機構（Gu et al., 2019）、勾配クリッピング（Pascanu et al., 2012）、および制約の追加（Kanai et al., 2017; Miller and Hardt, 2018）などさまざまな技術を用いてきた。しかし、RWKVはソフトマックスをRNN形式の更新と併用することで、この問題を本質的に回避している。

　RWKVモデルは、アテンションのようなスコアを更新するためのシングルステッププロセスを特徴とし、数値的安定性を助け、消失する勾配から保護する時間依存のソフトマックス演算を含む（厳密な証明は付録Fを参照）。直感的には、この操作は勾配が最も関連性の高い経路に沿って伝搬されることを保証する。レイヤー正規化（Ba et al., 2016）は、勾配を安定させることでディープニューラルネットワークの学習ダイナミクスを強化し、消失勾配と爆発勾配の両方の問題に対処するアーキテクチャのもう一つの重要な側面である。

　これらの設計要素は、RWKVアーキテクチャの安定性と学習能力に貢献するだけでなく、既存のRNNの能力を超える方法で複数の層を積層することができる。これにより、様々な抽象化レベルにおいて、より複雑なパターンを捉えることができるようになった（付録Gも参照）。

4.6 シーケンシャルなデータ処理に時間構造を利用する

RWKVは、再帰性、時間減衰、トークンシフトという3つのメカニズムの組み合わせにより、連続した情報を捉え、伝播させる。

　RWKVの時間混合ブロックにある再帰性は、シーケンス要素間の複雑な関係を捕捉し、時間を通じて局所的な情報を伝播するモデルの能力の基礎となるものである。

　このモデルは、過去の情報の影響を時間経過とともに徐々に減少させることで、逐次処理に不可欠な時間的な位置関係や進行の感覚を維持している。このような順序データにおける位置情報の扱いは、線形バイアスが入力長の外挿を容易にするAttention with Linear Biases (ALiBi) モデル (Press et al., 2022) と類似している。この文脈から、RWKVアーキテクチャは、ALiBiの訓練可能なバージョンとして認識することができ、明示的な符号化の必要なく、位置情報をシームレスに取り込むことができる。また、Zhaiら(2021)が導入したゲートコンボリューションを、あるステップまでのシーケンスの全長に拡張したものと見ることもできる。

　トークンシフトとタイムシフトの混合（図3の斜めの矢印）も、シーケンシャルデータへのモデルの適応に寄与している。現在の入力と前のタイムステップの入力を線形補間することで、モデルは入力チャンネルの情報を自然に集約し、ゲート化する。タイムシフトミキシングの全体的な構造は、時系列データの予測に使われる古典的なアーキテクチャであるWaveNet (van den Oord et al., 2016）の減衰のない因果関係畳み込みに類似している。

4.7 追加の最適化

カスタムカーネル：標準的な深層学習フレームワークを使用した場合のタスクの連続的な性質によるWKV計算の非効率性に対処するため、トレーニングアクセラレータで単一の計算カーネルを起動するように、カスタムCUDAカーネルを実装した。それ以外の部分はすべて行列の乗算やポイントワイズ演算で、効率的に並列化することが可能である。

RゲートによるFFN：先行研究（Tolstikhin et al., 2021; Liu et al.,2021; Yu et al., 2022）は、Transformerベースの視覚タスクにおいて、セルフアテンションが以前考えられていたほど必須ではない可能性を示唆している。しかし、自然言語タスクにおいて自己注意を完全に置き換えることは、あまりに思い切った方法である可能性がある。そこで、本研究では、固定的なQKV式をKVに置き換え、新たに時間減衰因子Wを導入することで、注意メカニズムを部分的に解体することにした。このアプローチにより、MLP-mixer（Tolstikhinet al., 2021）に似たトークンとチャンネル混合コンポーネントと、gMLP（Liu et al., 2021）に似たゲーティングユニットRを組み込むことができ、我々のRWKVモデルの性能を向上させる。

小さな初期埋め込み：トランスフォーマーモデル（Vaswani et al, 2017）のトレーニングの初期段階ででは、埋め込み行列がゆっくりと変化しないことが観察され、モデルが初期のノイズの多い埋め込み状態から逸脱することが課題となっている。この問題を軽減するために、我々は、埋め込み行列を小さな値で初期化し、その後、追加のLayerNorm操作を適用するアプローチを提案する。この手法を導入することで、学習プロセスを高速化・安定化し、post-LNのコンポーネントを持つディープアーキテクチャの学習を可能にする。この手法の有効性は図8で示されており、モデルが初期の小さな埋め込みから素早く移行することで、コンバージェンスが向上することが示されている。これは、シングルステップの後の小さな変化によって達成され、その結果、方向が大幅に変化し、その後、LayerNorm操作後に大きく変化する。

カスタム初期化：先行研究（He et al., 2016; Jumper et al., 2021）の原則に基づき、対称性を崩しながらパラメータをできるだけ同一性マッピングに近い値に初期化して、きれいな情報経路を確保する。ほとんどの重みはゼロに初期化される。線形層にはバイアスは使用されない。具体的な計算式は付録Dに記載されている。具体的な計算式は付録Dに記載されている。初期化の選択は、収束の速度と品質に大きな影響を与えることがわかった（付録E参照）。

5 評価

本節では、次のような疑問に対する評価に焦点を当てる：

RQ1: RWKVは、同じ数のパラメータとトレーニングトークンを持つ二次関数的なトランスフォーマーアーキテクチャに対して競争力があるか？
RQ2: パラメーターの数を増やした場合、RWKVは二次関数的なトランスフォーマーのアーキテクチャに対して競争力を維持できるか？
RQ3: RWKVのパラメータを増やすと、オープンソースの二次関数的なトランスフォーマーでは処理しきれない文脈の長さに対してRWKVモデルを学習させた場合、言語モデリングの損失は改善されるか？

RQ1およびRQ2について、図4から、RWKVが6つのベンチマーク（Winogrande、PIQA、ARC-C、ARC-E、LAMBADA、SciQ）において、主要なオープンソース二次関数的複雑度のトランスフォーマーモデルに対して非常に優れていることがわかる： Pythia（Biderman et al., 2023）、OPT（Zhang et al., 2022）、BLOOM（Scao et al., 2022）。RWKVは、PIQA、OBQA、ARC-E、COPAの4つのタスクにおいて、PythiaとGPT-Neo (Black et al., 2022）をも凌駕している（詳細は付録Hを参照）。RQ3については、図5から、文脈の長さを長くするとPileでのテストロスが少なくなることがわかり、RWKVが長い文脈情報を効果的に利用できることがわかる。

6 推論実験

サイズとファミリーに応じた推論要件のベンチマークを実施した。具体的には、CPU（x86）とGPU（NVIDIA A100 80GB）を含む非定型の計算プラットフォームで、テキスト生成の速度とメモリ要件を評価した。すべての実験では、float32の精度を使用している。埋め込み層と非埋め込み層の両方を含む、すべてのモデルパラメータをパラメータ数に含めている。異なる量子化設定における性能は、今後の研究に委ねられる。より多くの結果については、付録Iを参照してください。

　さらに、RWKV-4とChatGPT / GPT-4の比較研究を行った（付録J参照）。その結果、RWKV-4はプロンプトエンジニアリングに非常に敏感であることがわかった。 GPTで使用したプロンプトをRWKVに適したものに調整したところ、F1測定の性能は44.2%から74.8%へと大幅に向上した。

今後の展望

RWKVアーキテクチャの将来的な研究の方向性として、いくつかの有望なものがある。

時間依存性を高めた定式化でモデルの表現力を高め、効率を維持したままモデルの初期状態を探索する。
RWKVの計算効率をさらに向上させるため、 $wkv_t$ ステップで並列スキャンを適用し、計算コストを $O(B log(T) d)$ に削減する。
RWKVのエンコーダ・デコーダへの応用とクロスアテンションメカニズムの代替の可能性を調査している。これは、seq2seqやマルチモダルの設定に適用でき、学習と推論の両方の効率を向上させることができる。
RWKVの状態（またはコンテキスト）を活用することで、解釈のしやすさ、シーケンスデータの予測可能性、安全性を高めることができる。また、隠れ状態を操作することで、動作を誘導し、プロンプトチューニングによってカスタマイズ性を高めることができる。
人間とのインタラクションを強化するために、特定のセットでファインチューンされたモデルを探索する（Ouyang et al., 2022）。特に興味深いのは、異なるデータセットや特定のユースケースにおける性能であろう。
LoRA（Hu et al., 2022）のようなパラメータ効率の良いファインチューン方法を採用し、提案アーキテクチャの異なる量子化スキームでの動作を特徴付ける。

8 結論

RWKVは、時間ベースの混合コンポーネントの可能性を利用したRNNモデルへの新しいアプローチである。 RWKVは、現在のアーキテクチャの限界に対処しながら、局所性と長距離依存性を捉えることができるいくつかの重要な戦略を導入している：(1)2次QKアテンションを線形コストを持つスカラー定式化で置き換える。(2)再帰と逐次帰納バイアスを再定義し、効率的な訓練並列化と効率的推論を可能にする。(3)カスタム初期化を使って訓練ダイナミクスを強化する。

　提案アーキテクチャを様々なNLPタスクでベンチマークし、SoTAに匹敵する性能とコスト削減を示した。さらに、表現力、解釈力、スケーリングに関する実験により、モデルの能力を示し、RWKVと他の　LLMとの動作の類似性を示す。

　RWKVは、連続するデータの複雑な関係をモデル化するためのスケーラブルで効率的なアーキテクチャの新しい扉を開く。Transformerの代替案が数多く提案されているが、数百億のパラメーターを持つ事前学習済みモデルでその主張を裏付けたのは、我々のものが初めてである。

*1:0,0,1,-1

2023-06-04

今日の論文2023/06/03：Brain-inspired learning in artificial neural networks: a review

今日の論文

Brain-inspired learning in artificial neural networks: a review

arxiv.org

Schmidgall, Samuel, Jascha Achterberg, Thomas Miconi, Louis Kirsch, Rojin Ziaei, S. Hajiseyedrazi, and Jason Eshraghian. "Brain-inspired learning in artificial neural networks: a review." arXiv preprint arXiv:2305.11252 (2023).

License: Creative Commons Attribution 4.0 International License(CC-BY)

本記事は、原著の内容の一部を私が翻訳したものです。以下の図は、そこから引用しています。

This article is my translation of a portion of the contents of the original publication. The following figures are taken from it.

要点まとめ

人工ニューラルネットワーク（ANN）は、機械学習の必須ツールとして登場し、画像や音声の生成、ゲームプレイ、ロボット工学など、さまざまな領域で目覚ましい成果を上げている。しかし、ANNの動作メカニズムと生物学的な脳の動作メカニズムとの間には、特に学習プロセスに関して根本的な違いがある。本稿では、人工ニューラルネットワークにおける脳を用いた学習表現について包括的にレビューし、シナプス可塑性など、より生物学的に妥当なメカニズムの統合による人工ニューラルネットワークの機能強化について検討する。さらに、このアプローチに伴う潜在的な利点と課題を掘り下げる。そして、知能の本質の解明に近づくために、この急速に進展している分野における今後の研究の有望な道筋を明らかにするものである。

序論

記憶と学習のダイナミックな相互関係は、知的な生物システムの基本的な特徴であり、生物は新しい知識を吸収するだけでなく、既存の能力に絶えず磨きをかけ、変化する環境条件に巧みに対応することができる。生物は、新しい知識を吸収するだけでなく、既存の能力を継続的に向上させ、変化する環境条件に巧みに対応することができる。この適応特性は、長期的な学習と短期的な可塑性メカニズムによる急速な短期学習の両方を含むさまざまな時間スケールで関連し、生物神経系の複雑さと適応性を際立たせている。脳からハイレベルで階層的なインスピレーションを得る人工システムの開発は、数十年にわたる長年の科学的課題であった。しかし、最近の人工知能（AI）アルゴリズムは、多くの困難な課題において、大きなブレークスルーを達成している。このようなタスクには、人間が提供したプロンプトから画像やテキストを生成すること、複雑なロボットシステムの制御、ChessやGoなどの戦略ゲームの習得、これらのマルチモーダルな融合が含まれているが、これらに限定されない。

ANNは様々な分野で大きな進歩を遂げてきたが、生物の脳のように継続的に学習し適応する能力には、まだ大きな限界が残っている。現在の機械知能のモデルとは異なり、動物は寿命を通じて学習することができ、これは変化する環境に安定して適応するために不可欠である。この能力は生涯学習（lifelong learning）として知られているが、固定されたラベル付きデータセットからなる問題を主に最適化する人工知能にとっては大きな課題であり、新しいタスクへの生成や繰り返し学習する際の情報保持に苦労する原因となっている。この課題への取り組みは活発な研究分野であり、生涯学習能力を持つAIを開発することの潜在的な意味は、複数の領域にわたって広範囲な影響を及ぼす可能性がある。

本稿では、現在の人工知能アルゴリズムに影響を与えた脳のメカニズムを特定しようとするユニークなレビューを提供する。自然知能の基礎となる生物学的プロセスをよりよく理解するために、第1章では、シナプス可塑性から、神経活動を形成するローカルおよびグローバルダイナミクスの役割まで、神経調節を形作る低レベルの構成要素を探求する。第3章では、ANNと生物学的な神経システムを比較・対照することで、ANNに話を戻す。これにより、現在の人工モデルの継承を超えて、脳がAIに提供できるものがあることを正当化しようとする論理的根拠を得ることができる。続いて、AIシステムの能力を向上させるために、これらのプロセスをエミュレートする人工学習のアルゴリズムについて掘り下げる。最後に、これらのAI技術の実世界での様々な応用例を取り上げ、ロボット工学、生涯学習、ニューロモルフィックコンピューティングなどの分野への潜在的な影響を強調する。これにより、生物学的な脳の学習メカニズムと人工知能の相互作用について包括的に理解し、この相乗的な関係から生じる潜在的な利益を強調することを目的としている。私たちは、私たちの発見が、脳から着想を得た新世代の学習アルゴリズムを後押しすることを期待している。

脳内で学習をサポートするプロセス

ニューロサイエンスにおける壮大な努力は、脳における学習の根源的なプロセスを明らかにすることを目的としている。シナプスから集団レベルの活動まで、さまざまな粒度で学習の生物学的基盤を説明するために、いくつかの仕組みが提案されてきた。しかし、生物学的に妥当な学習モデルの大半は、局所的な事象と大域的な事象の相互作用から生じる可塑性を特徴としている。以下では、様々な形の可塑性を紹介し、これらのプロセスがどのように相互作用するかを詳しく説明する。

シナプス可塑性：脳の可塑性とは、経験によって神経回路の機能を変化させる能力のことで、特にシナプスの可塑性は、活動に基づいてシナプス伝達の強さを変化させることを指し、脳が新しい情報に適応するメカニズムとして、現在最も広く研究されている。シナプス可塑性には、短期可塑性と長期可塑性という2つの分類がある。短期可塑性は、数十ミリ秒から数分のスケールで作用し、感覚刺激に対する短期的な適応や短期間の記憶形成に重要な役割を果たす。長期可塑性は、数分から数十分のスケールで作用し、長期的な行動変化や記憶の保存の基礎となる主要なプロセスの一つであると考えられている。

神経調節：シナプスの可塑性に加えて、脳が新しい情報に適応するもう一つの重要なメカニズムは、神経調節である。神経調節とは、神経伝達物質やホルモンと呼ばれる化学的なシグナル伝達分子によって、神経活動を制御することである。これらのシグナル伝達分子は、神経回路の興奮性やシナプスの強さを変化させ、神経機能に短期的および長期的な影響を与えることができる。神経調節には、アセチルコリン、ドーパミン、セロトニンなどさまざまな種類があり、これらは、注意力、学習、感情などさまざまな機能に関連していることが確認されている。また、神経調節は、短期・長期の可塑性を含む様々な形態の可塑性に関与していることが示唆されている。

メタ弾力性：神経細胞が活動に基づいてその機能と構造を変化させる能力は、シナプス可塑性を特徴づけるものである。シナプスで起こるこれらの変化は、適切な時間に適切な量の変化が起こるように、正確に組織化されなければならない。この可塑性の調節は、メタ可塑性、あるいは「シナプス可塑性の可塑性」と呼ばれ、絶えず変化する脳をそれ自体の飽和から守るために重要な役割を果たしている。基本的に、メタ可塑性は、ニューロンやシナプスの生理的な状態の変化を引き起こすことによってシナプスの可塑性を生み出す能力を変える。メタ可塑性は、記憶の安定性、学習、神経興奮性の制御における基本的なメカニズムとして提唱されている。メタ可塑性は、シナプスが変化する過程でメタ可塑性イベントと神経調節イベントが時間的に重なることが多く、類似しているが、神経調節と区別することができる。

神経新生：新しく形成された神経細胞が既存の神経回路に統合される過程を神経新生という。神経新生は胚発生期に最も活発に行われるが、成体になってからも、特に側脳室下帯、扁桃体、海馬形成の変性回で起こることが知られている。成体マウスでは、標準的な実験室での生活と比較して、豊かな環境での生活で神経新生が増加することが証明されている。また、運動やストレスなどの多くの環境因子が、ネズミの海馬における神経新生の速度を変化させることが実証されている。全体として、学習における神経新生の役割は十分に解明されていないが、脳における学習のサポートにおいて重要な役割を果たすと考えられている。

グリア細胞：グリア細胞（神経膠細胞）は、神経伝達物質が放出・受容される神経細胞間の小さな隙間であるシナプスでの神経伝達物質シグナルを調節することによって、学習と記憶の維持に重要な役割を果たしている。グリア細胞の一種であるアストロサイトは、神経伝達物質を放出・再吸収し、代謝・解毒することができる。これにより、脳内の神経伝達物質のバランスと利用可能性が調整され、正常な脳機能と学習に不可欠なものとなっている。また、グリア細胞の一種であるミクログリアは、神経伝達物質のシグナル伝達を調節し、学習と記憶にとって重要な損傷組織の修復と再生に関与することができる。シナプス強度の構造的変化には、修復と調節に加えて、さまざまなタイプのグリア細胞の関与が必要であり、最も大きな影響を与えるのはアストロサイトである。しかし、グリア細胞は非常に重要な役割を担っているにもかかわらず、その役割についてはまだ十分に理解されていない。グリア細胞がシナプスでの学習をサポートするメカニズムを理解することは、今後の重要な研究分野である。

ディープニューラルネットワークと可塑性

人工・スパイク神経回路網：人工ニューラルネットワークは、過去数十年にわたり機械学習において重要な役割を担ってきた。これらのネットワークは、さまざまな難題の解決に向けて、驚異的な進歩を遂げてきた。 AIにおける最も印象的な成果の多くは、膨大な量のデータに基づいて学習された大規模なANNを使用することで実現されてきた。技術的な進歩もさることながら、AIにおける多くの成果は、大規模なGPU アクセラレーターやデータへのアクセスといったコンピューティング技術の革新によって説明することができる。大規模なANNの応用は大きなイノベーションをもたらしたが、一方で多くの課題が存在する。ANNの実用的な限界として、消費電力の面で効率が悪いこと、動的でノイズの多いデータの処理が苦手なことが挙げられる。また、ANNは学習期間を超えて学習することができない。学習期間中のデータは、時間経過とともに独立かつ同一分布（IID）形式となり、時間的・空間的な相関が高い物理的現実を反映していない。また、ロボットやウェアラブルデバイスなどのエッジコンピューティングデバイスへの統合に向けた課題もある。

その解決策として神経科学に注目し、研究者はANNの代替となるスパイクニューラルネットワーク（SNN）を研究している。SNNはANNの一種で、生物学的ニューロンの挙動により近くなるように設計されている。 ANNとSNNの主な違いは、SNNがタイミングという概念をコミュニケーションに組み込んでいる点である。スパイキングニューロンは、接続された（シナプス前の）ニューロン（またはセンサーの入力を経由）から、膜電位という形で時間経過とともに情報を蓄積していく。ニューロンの膜電位がある閾値を超えると、そのニューロンは、すべての発信側（シナプス後）接続に対して2値の「スパイク」を発射する。スパイクは、2値で時間的に疎であるにもかかわらず、（ANNSのような）速度ベースの情報表現よりも多くの情報を含むことが理論的に実証されている。さらに、モデリング研究により、SNNの利点として、エネルギー効率の向上、ノイズや動的データの処理能力、より堅牢で耐障害性の高いコンピューティングが可能であることなどが示されている。これらの利点は、生物学的な妥当性の向上だけでなく、従来の人工ニューラルネットワークとは異なるスパイクニューラルネットワークのユニークな特性にも起因している。以下に、リーキーインテグレートアンドファイヤーニューロンの簡単な動作モデルを説明する：

ここで、 $V(t)$ は時刻 $t$ の膜電位、 ${\tau}_m$ は膜時定数、 $E_L$ は静止電位、 $R_m$ は膜抵抗、 $I_{inj} (t)$ は注入電流、 $V_{th}$ は閾値電位、 $V_{reset}$ はリセット電位。膜電位が閾値電位に達するとニューロンがスパイクし膜電位がリセットされる。 $if \quad V(t) \geq V_{th} \quad then \quad V(t) \leftarrow V_{reset}$

このような利点があるにもかかわらず、SNNはまだ開発の初期段階にあり、より広く使われるようになるにはいくつかの課題がある。最も差し迫った課題の1つは、シナプス重みをどのように最適化するかということで、ANNの従来のバックプロパゲーションに基づく方法は、離散的で疎な非線形性のために失敗する。このような難題があるにもかかわらず、現代のスパイクネットワークで可能だと考えられていたことの限界を超えるような研究が存在する。例えば、大規模なスパイクベースのトランスフォーマーモデルである。スパイクモデルは、多くの脳を刺激する学習アルゴリズムの基礎を形成しているため、このレビューにおいて非常に重要である。

ヘビアンとスパイクタイミングに依存する可塑性：ヘビアンとスパイクタイミング依存性可塑性（STDP）は、神経回路や行動の形成に重要な役割を果たすシナプス可塑性の2大モデルである。ヘビアン学習則は、19494年にDonald Hebbが提唱したもので、あるニューロンの活性化が別のニューロンの活性化を引き起こすというように、ニューロン間のシナプスが共働的に強化されると仮定している。一方、STDPは最近提唱されたシナプス可塑性のモデルで、シナプス前後のスパイクの正確なタイミングを考慮し、シナプスの強化・弱化を決定する。 STDPは、発達中の神経回路の形成と改良、および経験に対する回路の継続的な適応に重要な役割を果たすと広く信じられている。以下では、Hebb学習とSTDPの基本原理について概説する。

ヘビアン学習：ヘビアン学習は、2つの神経細胞が同時に活動すればシナプス強度は増加し、活動しなければ減少するという考えに基づいている。ヘブは、このシナプス強度の増加は、ある細胞が他の細胞に「繰り返し、あるいは持続的に影響を与える」ときに起こるはずだと示唆した（因果関係の意味もある）。しかし、この原理はしばしば相関的に表現され、有名な比喩として"cell that fire together, wire together"（Siegrid LöwelやCarla Shatzによる様々な表現）がある。

ヘビアン学習は、教師なし学習アルゴリズムとしてよく使われるが、その目的は入力データのパターンを明示的にフィードバックせずに識別することにある。このプロセスの例として、ホップフィールドネットワークがある。このネットワークでは、（対称的な）重みにヘビアンルールを適用することで、大きな2値パターンが全結合リカレントネットワークに簡単に格納される。また、教師あり学習アルゴリズムに応用することも可能で、その場合は、ネットワークの望ましい出力を考慮してルールを変更する。この場合、ヘビアン学習則は、与えられた入力に対する正しい出力を示す教示信号と組み合わされる。

単純なヘビアン学習則は、数学的に式で記述することができる：

$\Delta w_{ij} = \eta x_i x_j$

ここで $\Delta w_{ij}$ はニューロン $i$ とニューロン $j$ の間の重みの変化、 $\eta$ は学習率、 $x_i$ はニューロン $i$ の「活動」（しばしばニューロンの発火率と考えられる）である。この法則は、2つのニューロンが同時に活性化された場合、その結合が強化されるべきであるとするものである。

基本的なヘビアン学習則の欠点として考えられるのは、その安定性の低さである。例えば、 $x_i$ と $x_j$ が最初は弱い正の相関がある場合、このルールは2つの間の重みを増加させ、その結果、相関が強化され、さらに大きな重みの増加につながる、などである。したがって、何らかの形でスタビライゼーションが必要である。これは、単純に重みを制限することによって行うこともできるし、シナプス前後の活動の履歴やネットワーク内の他のニューロンの影響などの追加要因を考慮したより複雑なルールによって行うこともできる（多くのそのようなルールの実用的なレビューについては、文献を参照のこと）。

3要素ルール：ヘビアン強化学習：報酬に関する情報を取り入れることで、ヘビアンの学習は強化学習にも利用することができる。Hebbianの更新に直接報酬を乗せるという、一見簡単そうなアイデアもあり、以下のようであり、Rは報酬（この時間ステップまたはエピソード全体）である。：

$\Delta w_{ij} = \eta x_i x_j R$

残念ながら、この考え方は信頼性の高い強化学習ができない。これは、 $w_{ij}$ がすでに最適な値にある場合、上記のルールは正味の変化をもたらし、 $w_{ij}$ を最適な値から遠ざけることに気づくことで、直感的に理解できる。

より正式には、Fremauxらが指摘したように、入力、出力、報酬の間の実際の共分散を正確に追跡するには、 $x_i x_j R$ 積の項の少なくとも1つが中心化されていなければならない、つまり、その期待値周辺のゼロ平均ゆらぎで置換されていなければならない。1つの可能な解決策は、 $R$ からベースラインを引くことによって、報酬をセンタリングすることである（一般に、この試行におけるRの期待値に等しい）。

より効果的な解決策は、出力から平均値を取り除くことである。これは、神経活動 $x_j$ に、適当なゼロ中心分布からとったランダムな摂動 $\Delta x_j$ を時々与え、生のシナプス後活動 $x_j$ ではなく、摂動 $\Delta x_j$ を3因子積に使うことで簡単に行える：

$\Delta w_{ij} = \eta x_i \Delta x_j R$

これはFieteとSeungが提案した、いわゆる「ノード摂動」ルールである。直感的には、 $x_i \Delta x_j$ インクリメントの効果は、将来の $x_j$ 応答（同じ $x_i$ 入力をカウントする場合）を摂動方向に押し出すことであることに気づく。このシフトに $R$ を掛けると、将来の反応が、 $R$ が正の場合は摂動の方向に、負の場合は摂動から遠ざかるようになる。 $R$ がゼロ平均でない場合でも、分散は大きくなるものの、（期待値として）正味の効果はRが高くなる方向に向かうことに変わりはない。

このルールは、REINFORCEアルゴリズム（Williamsの原著論文56は、確率的スパイクニューロンに対するノード摂動を正確に再現するアルゴリズムを提案している）を実装していることがわかり、 $w_{ij}$ に対する $R$ の理論的勾配を推定することができる。また、生物学的にもっともらしい方法で実装し、リカレントネットワークが疎な遅延報酬から自明でない認知タスクや運動タスクを学習できるようにすることもできる。

スパイクタイミングに依存する可塑性：スパイクタイミング依存性可塑性（STDP）は、シナプス可塑性の理論モデルであり、ニューロン間の結合強度をスパイクの相対的タイミングに基づいて変更することができる。STDPは、シナプス前後のニューロンの同時活性化に依存するヘビアン学習則とは異なり、シナプス前後のスパイクの正確なタイミングを考慮したモデルである。具体的には、シナプス前ニューロンがシナプス後ニューロンの直前に発火した場合、両者の結合は強化されると考える。逆に、シナプス後神経細胞がシナプス前神経細胞の直前に発火した場合、接続は弱くなるはずである。

STDPは、大脳新皮質、海馬、小脳など、さまざまな生体系で観察されている。この法則は、学習や記憶などの神経回路の発達や可塑性に重要な役割を果たすことが示されている。STDPは、脳の構造と機能を模倣した人工神経回路網の開発にも利用されている。

STDPの数式は、ヘビアン学習則よりも複雑で、特定の実装によって変化することがある。しかし、一般的な定式化は以下の通りである。

ここで、 $\Delta w_{ij}$ はニューロン $i$ とニューロン $j$ 間の重みの変化、 $\Delta t$ はシナプス前後のスパイクの時間差、 $A_+$ と $A_-$ はそれぞれ増強と抑制の振幅、 $\tau_+$ と $\tau_-$ はそれぞれ増強と抑制の時定数である。この法則は、2つのニューロンのスパイクのタイミングによって、2つのニューロン間の接続の強さが増減することを意味している。

人工神経回路網の学習を支えるプロセス

人工ニューラルネットワークにおける重みの最適化には、誤差駆動型のグローバル学習と、脳からヒントを得たローカル学習の2つのアプローチがある。最初のアプローチでは、大域的な誤差を最小値に近づけることで、ネットワークの重みを変更する。これは、誤差を各重量に委譲し、各重量間の修正を同期させることで実現される。一方、脳を用いた局所学習アルゴリズムは、局所的に利用可能な情報を用いて力学方程式から重みを修正することにより、より生物学的に妥当な方法で学習することを目的としている。どちらの最適化手法も、独自の利点と欠点がある。以下では、エラー駆動型グローバル学習として最も利用されているバックプロパゲーションについて説明し、その後、脳から着想を得たローカルアルゴリズムについて詳しく説明する予定である。この2つのアプローチは相互に排他的なものではなく、それぞれの長所を補完するために統合されることが多いということを述べておく。

バックプロパゲーション：バックプロパゲーションは強力なエラー駆動型グローバル学習法であり、ニューラルネットワークのニューロン間の結合の重みを変化させ、望ましい目標行動を生成する。これは、感覚情報（視覚入力、書かれたテキスト、ロボットの関節位置など）が与えられたときの行動の質を表す定量的なメトリック（目的関数）を使用することで達成される。バックプロパゲーションアルゴリズムは、フォワードパスとバックワードパスの2つのフェーズで構成されている。フォワードパスでは、入力がネットワークに伝搬され、出力が計算される。バックワードパスでは、予測出力と「真の」出力との誤差が計算され、誤差をネットワークを通して後方に伝播させることにより、ネットワークの重みに対する損失関数の勾配が計算される。この勾配を利用して、確率的勾配降下法などの最適化アルゴリズムにより、ネットワークの重みを調整する。このプロセスは、損失関数を最小化する値の集合に重みが収束するまで、何度も繰り返される。

バックプロパゲーションについて、数学的に簡単に説明しよう。まず、ネットワークの出力と真値の関数である損失関数を定義する。：

ここで、 $y$ は真の出力、 $\hat{y}$ はネットワークの出力である。この場合、二乗誤差を最小化しているが、滑らかで微分可能な損失関数であれば十分に最適化できる。次に、チェインルールを使って、ネットワークの重みに対する損失の勾配を計算する。ここで、 $w^l_{ij}$ を層 $l$ のニューロン $i$ と層 $l+1$ のニューロン $j$ 間の重みとし、 $a^l_i$ を層 $l$ のニューロン $i$ の活動として、重みに対する損失の勾配は次のように与えられる：

ここで、 $z^{l+1}_j$ はニューロン $j$ の層 $l+1$ への入力の加重和である。そして、これらの勾配を利用して、勾配降下法を用いてネットワークの重みを更新することができる：

ここで、 $\alpha$ は学習率である。勾配を計算し、重みを更新することを繰り返すことで、ネットワークは徐々に損失関数を最小化することを学習し、より正確な予測を行うことができる。実際には、勾配降下法は勾配推定に運動量を取り入れるアプローチと組み合わされることが多く、これにより汎化が大幅に改善されることが示されている。

バックプロパゲーションの素晴らしい成果を受けて、神経科学者たちは、バックプロパゲーションが脳における学習をよりよく理解できるかどうかを研究している。バックプロパゲーションの変形が脳内で起こりうるかどうかについてはまだ議論があるが、現在のバックプロパゲーションが生物学的にありえないことは明らかである。別の説では、複雑なフィードバック回路や、局所活性とトップダウン信号の相互作用（「第3因子」）が、バックプロパゲーションに似た学習形態をサポートする可能性があると考えられている。

しかし、バックプロパゲーションを繰り返し適用することで、アルゴリズムに根本的な問題が生じることがある。その一つが、「壊滅的忘却」と呼ばれる現象で、ニューラルネットが新しいデータで学習する際に、以前に学習した情報を忘れてしまうというものである。この現象は、ネットワークが新しいデータで微調整されたときや、ネットワークが前のタスクから学んだ知識を保持せずに一連のタスクで訓練されたときに発生することがある。壊滅的な忘却は、多様で変化する環境から継続的に学習できるニューラルネットワークを開発するための重要なハードルである。また、バックプロパゲーションでは、ネットワークの全レイヤーを通して情報をバックプロパゲートする必要があり、特に非常に深いネットワークの場合、計算コストと時間がかかるという課題もある。このため、深層学習アルゴリズムのスケーラビリティが制限され、限られた計算資源で大規模なモデルを学習することが難しくなる。しかし、バックプロパゲーションは、人工ニューラルネットワークを使用するアプリケーションにおいて、最も広く使用され、成功を収めているアルゴリズムであり続けている。

進化的アルゴリズムと遺伝的アルゴリズム：これらのアルゴリズムは、自然淘汰のプロセスに着想を得ており、ANNの文脈では、進化のプロセスを模倣することによってニューラルネットワークのウェイトを最適化することを目的としている。遺伝的アルゴリズムでは、ニューラルネットワークの集団をランダムな重みで初期化し、各ネットワークを特定のタスクや問題で評価する。このプロセスは数世代にわたって繰り返され、最も優れたネットワークが再生産に使用されるため、世代を超えてより高い確率で動作するようになる。進化的アルゴリズムは遺伝的アルゴリズムと同様に動作するが、確率的勾配を近似することで異なるアプローチを使用する。これは、重みを摂動させ、ネットワークの目的関数のパフォーマンスを組み合わせてパラメータを更新することで実現される。この結果、バックプロパゲーションのような局所的な探索方法と比較して、よりグローバルに重み空間を探索し、最適な解を効率的に見つけることができる。

これらのアルゴリズムの利点は、広大なパラメータ空間を効率的に探索できることであり、パラメータ数が多い問題や複雑な探索空間に適している。また、差分可能な目的関数を必要としないため、目的関数の定義や計算が困難な場合（例：スパイキングニューラルネットワーク）に有効である。しかし、これらのアルゴリズムにはいくつかの欠点もある。一つは、大規模なネットワーク集団を評価し、進化させるために必要な計算コストが高いということである。また、アルゴリズムが局所最適にはまり込んだり、収束が早すぎたりして、最適な解が得られない可能性があることも課題である。さらに、ランダムな変異を使用することで、学習プロセスの不安定性や予測不可能性を招く可能性がある。

しかし、進化的アルゴリズムや遺伝的アルゴリズムは、特に微分不可能で自明でないパラメータ空間を最適化する際に、様々なアプリケーションで有望な結果を示している。現在、これらのアルゴリズムの効率とスケーラビリティを向上させるとともに、勾配降下法ではなく、これらのアプローチをいつ、どこで使用することが理にかなっているかを発見することに焦点を当てた研究が行われている。

人工ニューラルネットワークの学習に関する脳に触発された表現

局所学習アルゴリズム：バックプロパゲーションのような、ネットワーク全体に情報を伝播させる必要があるグローバル学習アルゴリズムとは異なり、局所学習アルゴリズムは、近接またはシナプス接続されたニューロンからの局所情報に基づいてシナプスの重みを更新することに焦点を当てる。後述するように、局所学習アルゴリズムを活用することで、ANNはより効率的に学習し、変化する入力分布に適応できるようになり、実世界での応用に適している。本節では、脳から着想を得た局所学習アルゴリズムの最近の進歩と、ANNの性能とロバスト性を向上させる可能性について概説する。

バックプロパゲーション由来の局所学習：バックプロパゲーション由来の局所学習アルゴリズムは、バックプロパゲーションの数学的特性を模倣しようとする局所学習アルゴリズムの一種である。従来のバックプロパゲーションアルゴリズム（誤差信号をネットワーク全体に伝搬させる）とは異なり、バックプロパゲーション由来の局所学習アルゴリズムは、バックプロパゲーションを用いて計算された局所誤差勾配に基づいてシナプスの重みを更新する。この方法は計算効率が良く、オンライン学習が可能であるため、学習データが継続的に到着するアプリケーションに適している。バックプロパゲーション由来の局所学習アルゴリズムの顕著な例として、フィードバックアライメント（FA）アルゴリズムがある。このアルゴリズムは、バックプロパゲーションで用いられる重み輸送行列を固定ランダム行列に置き換え、エラー信号を直接接続から伝搬させることにより、エラー信号のバックプロパゲーションの必要性をなくした。フィードバックアライメントを数学的に簡単に説明すると、ネットワークの最終層と出力を結ぶ重み行列を $w_{out}$ とし、入力と第1層を結ぶ重み行列を $w_{in}$ としたとき、以下のようになる。フィードバックアライメントでは、エラー信号は $w_{out}$ の転置ではなく、固定ランダム行列 $B$ を使用して出力から入力に伝搬される。その後、入力とエラー信号の積 $\Delta w^{in} =- \eta xz$ を用いて重み更新が計算され、 $x$ は入力、 $\eta$ は学習率、 $z$ はネットワークを通して後方に伝搬されるエラー信号で、従来の逆伝播と似ている。

Direct Feedback Alignment（DFA）は、出力層の誤差を各隠れ層に直接接続することで、FAと比較して重み伝達の連鎖を単純化する。 Sign-Symmetry（SS）アルゴリズムは、フィードバック重みが符号を対称に共有する以外はFAと同様である。 FAはMNISTやCIFARのような小規模なデータセットでは優れた結果を示しているが、ImageNetのような大規模なデータセットではその性能はしばしば最適とは言えない。一方、最近の研究では、SSアルゴリズムが、大規模データセットでもバックプロパゲーションと同等の性能を達成できることが示されている。

資格伝播（Eligibility propagation: e-prop）は、従来のエラーバックプロパゲーションとスパイクタイミング依存性可塑性(STDP)などの生物学的に妥当な学習ルールの両方の利点を組み合わせて、スパイク神経回路のフィードバックアライメントの考えを拡張したものである。各シナプスに対して、e-prop アルゴリズムは資格痕跡（eligibility trace） $e_{ji} (t) = \frac{dz_j (t)}{dW_{ji} }$ を計算・保持する。資格痕跡は、過去のすべての入力を考慮した上で、ニューロンの現在の出力に対するこのシナプスの総貢献度を測定するものである。これは、バックワードパスを使用せず、純粋なフォワード方式で計算および更新することができる。この適格性トレースに、ニューロンの出力に対する誤差の勾配の推定値 $L_j (t) =\frac{dE (t)}{dz_j (t)}$ を掛け、実際の重み勾配 $\frac{dE(t)}{dW_{ji}}$ を求めることができる。 $L_j (t)$ 自体は、出力ニューロンの誤差から計算され、対称フィードバック重みを使用するか、フィードバックアラインメントのように固定フィードバック重みを使用する。e-propの欠点は、各時点でリアルタイムの誤差信号 $L_t$ を必要とすることである。なぜなら、e-propは過去の事象のみを考慮し、将来の誤差については盲目だからである。特に、REINFORCEやノード摂動のような方法とは対照的に、個々のニューロン・ニューロンの時間スケールを超える遅延エラー信号（短期適応を含む）から学ぶことはできない。

参考文献[75][76]では、神経細胞の信号アーキテクチャに関する最近の遺伝学的知見に基づき、シナプス学習の規範となる理論が示されている。そして、ニューロンタイプの多様性とニューロンタイプに特化した局所的なニューロンモジュレーションが、生物学的な単位付与のパズルの重要なピースとなる可能性を提唱している。本研究では、この理論を探求するために、資格伝播に基づく簡略化された計算モデルを確立し、ドーパミン様の時間的差異と神経ペプチド様の局所調節シグナルの両方を含むこのモデルが、e-propやフィードバックアライメントなどの従来の方法よりも改善することを示す。

一般化特性：ディープラーニングの技術は、学習アルゴリズムの汎化を理解するために大きな進歩を遂げた。特に有用な発見は、平坦な極小値がより良い汎化につながる傾向があることだった78。この意味は、パラメータ空間（シナプス重みの値）に摂動があった場合、より有意な性能低下が狭い極小値の周辺で観察されるということである。最近の研究では、（脳にヒントを得た）バックプロパゲーション由来の局所学習ルール79が発揮する汎化特性について検討されている。バックプロパゲーションに由来する局所学習ルールは、バックプロパゲーションに由来する局所学習ルールと比較して、勾配近似が真の勾配とうまく整合しないため、ステップサイズを拡大しても改善されない、より悪い、より可変な汎化を示している。漸化式の局所的な近似が完全なものよりも汎化特性が悪くなるのは当然かもしれないが、この研究は、脳から着想を得た学習アルゴリズムを設計するための最善のアプローチとは何かという新たな問いを投げかける扉を開くことになる。結論として、バックプロパゲーション由来の局所学習ルールは、脳から着想を得た学習アルゴリズムを設計するための有望なアプローチである一方、対処すべき制限を伴っていることになる。これらのアルゴリズムの汎化性の低さは、その性能を向上させ、代替的な脳内学習ルールを探求するための更なる研究の必要性を強調している。また、バックプロパゲーションに由来する局所学習ルールは、基本的に劣悪な汎化性を示すことを考えると、研究する価値があるのかどうかという疑問も出てくる。

メタ的に最適化された可塑性ルール：メタ最適化された可塑性ルールは、エラー駆動型のグローバル学習と、脳から着想を得たローカル学習の効果的なバランスを提供する。メタ学習とは、学習アルゴリズム自体の探索を自動化することであり、学習アルゴリズムを記述するために人に頼るのではなく、そのアルゴリズムを見つけるための探索プロセスを採用することであると定義できる。メタラーニングの考え方は、当然、脳から着想を得た学習アルゴリズムにも及び、脳から着想を得た学習メカニズム自体を最適化することで、手動でルールを調整することなく、より効率的な学習を発見することが可能となる。以下では、この研究の様々な側面について、微分的に最適化されたシナプス可塑性ルールから説明する。

微分可能な可塑性：この原理を応用した文献として、微分可塑性というものがある。これは、ニューラルネットワークのシナプス可塑性ルールを勾配降下によって最適化することに焦点を当てたフレームワークである。これらのルールでは、可塑性ルールはそのダイナミクスを支配するパラメータが微分可能であるように記述され、可塑性ルールのパラメータ（例えば、単純なヘビアンルールの $\eta$ 項やSTDPルールの $A+$ 項）のメタ最適化にバックプロパゲーションを用いることができる。これにより、重みのダイナミクスは、実行中に重みを最適化する必要がある課題を正確に解決できるようになり、寿命内学習と呼ばれる。

微分可塑性ルールは、神経調節ダイナミクスの微分最適化も可能である。このフレームワークには、ネットワーク出力に依存するグローバルパラメータによって重みの変化の方向と大きさを制御するグローバル神経調整と、過去の活動の影響を短い時間ウィンドウ内でドーパミン様信号によって変調するレトロアクティブ神経調整という2種類の神経調整の主なバリエーションがある。これは、どのシナプスが最近の活動に貢献したかを追跡するために使用される資格痕跡を使用し、ドーパミン信号がこれらのトレースを実際の可塑的変化へと変換することで可能となる。

微分可塑性を含む方法は、連続連想タスク、親しみ検出、ロボットノイズ適応などの幅広いアプリケーションで改良が見られる。また、この方法は、強化学習や時間的教師付き学習問題で性能向上を示す短期可塑性ルールの最適化にも使用されている。これらの方法は有望であるが、バックプロパゲーションを用いて各シナプスの複数個のパラメータを時間的に最適化するため、分化可塑性アプローチには膨大な量のメモリが必要である。これらの方法を実用化するには、パラメータ共有か、よりメモリ効率の良いバックプロパゲーションが必要になるだろう。

スパイクニューロンによる可塑性：最近、スパイキングニューロンの非微分化部分を代理勾配でバックプロパゲートする技術が進歩し、スパイク型ニューラルネットワークの可塑性ルールを最適化するために微分化可塑性を使用することができるようになった。文献[61]では、この最適化パラダイムの能力を、スパイクタイミングに依存する差動可塑性ルールを用いて、オンラインワンショット継続学習問題とオンラインワンショット画像クラス認識問題で「学習する学習」を可能にしたことを示した。また、同様の手法で、可塑性ルールのe-propの勾配近似を用いた第3因子信号の最適化を行い、e-propのメタ最適化形式を導入している。進化によって調整されたリカレントニューラルネットワークもまた、メタ最適化された学習ルールに使用することができる。Evolvable Neural Units（ENUs）は、入力の処理、保存、動的パラメーターの更新方法を制御するゲート構造を導入している。本研究では、神経細胞の個々の体細胞およびシナプス区画モデルの進化を示し、ENUのネットワークがスパイクダイナミクスと強化型学習ルールを独立して発見し、T迷路環境課題を解くために学習できることを示す。

RNNとトランスフォーマーにおける可塑性：更新規則を用いた可塑性学習を目指す研究とは別に、トランスフォーマーは最近、優れた生涯内学習者であることが示されている。文脈内学習のプロセスは、シナプスの重みを更新することなく、純粋にネットワークの活性化の中で機能する。トランスフォーマーのように、このプロセスはリカレントニューラルネットワークでも起こりうる。文脈内学習はシナプス可塑性とは異なるメカニズムのように見えるが、これらのプロセスは強い関係を示すことが実証されている。この文献で議論されているエキサイティングなつながりは、メタ学習器のパラメータ共有が、しばしば活性化を重みとして解釈することにつながるという認識である。これは、これらのモデルが固定的な重みを持つかもしれないが、可塑的な重みを持つモデルと同じ学習能力を示すことを示すものである。もう一つの関連は、トランスフォーマーのセルフアテンションは外積と内積を含み、学習された重みの更新としてキャストでき、勾配降下を実施することもできることである。

進化的・遺伝的メタ最適化：微分可塑性と同様に、進化的・遺伝的アルゴリズムは、ロボットシステムにおける手足の損傷への適応など、さまざまなアプリケーションにおいて可塑性ルールのパラメータを最適化するために使用されてきた。また、最近の研究では、直交遺伝的プログラミングを用いて、可塑性係数と可塑性ルール方程式の最適化が可能となり、解決すべき特定の課題に基づいて生物学的に妥当な可塑性ルールを発見するための自動化アプローチが提示された。これらの方法では、遺伝的または進化的な最適化プロセスは、アウターループプロセスで可塑性パラメータを最適化し、可塑性ルールはインナーループプロセスで報酬を最適化するというように、微分可能プロセスと同様の働きをする。この方法は、微分可能な方法と比較して、時間経過による誤差の逆伝播が不要なため、メモリフットプリントが非常に小さく、魅力的な方法である。しかし、メモリ効率は良いものの、勾配ベースの手法と同等の性能を得るためには、膨大な量のデータを必要とすることが多い。

自己言及的なメタラーニング：シナプス可塑性では、メタ学習者と発見された学習則の2つの学習階層があるが、自己言及的メタ学習ではこの階層が逆転している。可塑性アプローチでは、ネットワークパラメータのサブセット（シナプス結合の重みなど）のみが更新され、メタ学習された更新ルールはメタ最適化の後、固定されたままである。自己言及的なアーキテクチャは、ニューラルネットワークが再帰的にすべてのパラメータを変更することを可能にする。したがって、学習者はメタ学習者をも修正することができる。これは原理的に、任意のレベルの学習、メタ学習、メタメタ学習などを可能にする。いくつかの手法は、このようなシステムのパラメータ初期化をメタ学習している。この初期化を見つけるには、やはりハードワイヤーなメタ学習者を必要とする。また、ネットワークが自己修正することで、このメタ学習者すら不要になるものもある。発見される学習則が構造的な探索空間の制約を持ち、自己改良を単純化する場合もあり、その場合、勾配ベースオプティマイザが自己発見、進化アルゴリズムが自己最適化することができる。シナプス可塑性と自己言及的アプローチは、その違いにもかかわらず、ニューラルネットワークの自己改善と適応を達成することを目的としている。

メタ最適化学習則の一般化：特に、バックプロパゲーションのような人手による汎用的な学習ルールに取って代わるべきはいつなのか。これらの手法の課題として、探索空間が大きく、学習メカニズムにほとんど制約がない場合、汎化が難しくなることが示されている。しかし、これを改善するために、可変型共有メタ学習では、柔軟な学習ルールを、局所的に情報を交換するパラメータ共有型リカレントニューラルネットワークによってパラメータ化し、メタ最適化時には見られなかった分類問題に対して汎化する学習アルゴリズムを実現した。同様の結果は、強化学習アルゴリズムの発見でも示されている。

脳を使った学習法の応用

ニューロモーフィック・コンピューティング：ニューロモーフィックコンピューティングは、生物学的な脳の構造と機能を模倣したハードウェアを開発することを目的とした、コンピューティングシステムの設計におけるパラダイムシフトを象徴するものである。このアプローチでは、脳の学習機能だけでなく、エネルギー効率や固有の並列性をも再現した人工ニューラルネットワークを開発することを目指している。ニューロモーフィックコンピューティングシステムは、脳から着想を得た学習アルゴリズムの効率的な実行を可能にするため、ニューロモーフィックチップやメモリスティックデバイスなどの特殊なハードウェアを組み込んでいることが多い。これらのシステムは、特に先端コンピューティングやリアルタイム処理の場面で、機械学習アプリケーションの性能を飛躍的に向上させる可能性を秘めている。

ニューロモーフィック・コンピューティングの重要な側面は、生物学的なニューロンの情報処理メカニズムにより近いスパイク型ニューラルネットワークの実装を容易にする特殊なハードウェア・アーキテクチャの開発にある。ニューロモーフィック・システムは、脳から着想を得た局所学習の原理に基づいて動作するため、実世界のアプリケーションに不可欠な高いエネルギー効率、低レイテンシー処理、ノイズに対する堅牢性を実現することができる。この技術の成功には、脳から着想を得た学習技術とニューロモルフィック・ハードウェアの統合が欠かせない。

近年、ニューロモルフィックコンピューティングの進歩により、Intel社のLoihi、IBM社のTrueNorth、SpiNNakerなど、SNNやブレインインスパイアード学習アルゴリズムを実装するための専用ハードウェアアーキテクチャを備えたさまざまなプラットフォームが開発されている。これらのプラットフォームは、ニューロモーフィック・コンピューティング・システムをさらに探求するための基盤となり、研究者は新しいニューラルネットワークのアーキテクチャや学習ルールを設計、シミュレーション、評価することができる。ニューロモーフィック・コンピューティングが進歩し続けるにつれ、人工知能の発展において極めて重要な役割を果たすことが期待され、イノベーションを促進し、より効率的で汎用性の高い、生物学的に実現可能な学習システムを開発することができる。

ロボットの学習：ニューラルネットワークにおける脳を使った学習は、ロボットがより柔軟な方法で学習し、環境に適応できるようにすることで、ロボット工学の分野に存在する現在の課題の多くを克服する可能性を秘めている。従来のロボティクスシステムは、あらかじめプログラムされた動作に依存しており、状況の変化に適応する能力には限界があった。これに対して、本レビューで示したように、ニューラルネットワークは、受け取ったデータに基づいて内部パラメータを調整することで、状況に適応するように訓練することができる。

ロボット工学との自然な関係から、脳から着想を得た学習アルゴリズムは、ロボット工学において長い歴史を持つ。このため、シナプス可塑性ルールは、モーターゲインや悪路などのドメインシフトにロボット動作を適応させるために導入されており、障害物回避、多関節（アーム）コントロールにも導入されている。脳から着想を得た学習ルールは、ロボットシステムを具現化した媒体として、昆虫の脳でどのように学習が行われるかを探るためにも使われている。

深層強化学習（DRL）は、脳から着想を得た学習アルゴリズムの重要な成功例で、ニューラルネットワークの長所と脳の強化学習の理論を組み合わせて、環境との相互作用を通じて複雑な行動を学習できる自律型エージェントを作り出す。DRLアルゴリズムは、分類や回帰誤差の最小化ではなく、ドーパミンニューロンの活動を模した報酬駆動型の学習プロセスを利用することで、非常にダイナミックで不確実な環境であっても、ロボットが目標を達成するための最適な戦略を学習するよう導く。この強力なアプローチは、器用な操作、ロボット運動、マルチエージェント協調など、様々なロボットアプリケーションで実証されている。

生涯学習・オンライン学習：生涯学習やオンライン学習は、変化する環境に適応し、新しいスキルや知識を継続的に習得することを可能にするため、人工知能における脳から着想を得た学習の重要なアプリケーションである。これに対し、従来の機械学習は、固定されたデータセットで学習するため、新しい情報や環境の変化に適応する能力が欠けていた。成熟した脳は、生涯にわたって学習し続けることができる素晴らしいメディアである。このレビューでは、脳と同じような脳に着想を得た学習メカニズムを持つニューラルネットワークは、継続的に学習・適応するように訓練することができ、時間の経過とともにその性能を向上させることができることを示した。

この能力を人工システムに発揮させる脳着想学習アルゴリズムの開発は、その性能と能力を大幅に向上させる可能性を秘めており、さまざまな用途に幅広い影響を与える。このようなアプリケーションは、ロボティクスや自律システムのように、データの収集が困難であったり高価であったりする状況において特に有用であり、学習が起こる前に大量のデータを収集し処理する必要がなく、リアルタイムでシステムが学習し適応できるようになる。

破局的忘却とは、ANNが新しいデータを学習する際に、それまで学習した情報を突然忘れてしまう傾向のことである。これは、新しい学習に合わせて、それまで最適化されていたネットワークの重みが大幅に変更され、以前の情報が消去または上書きされてしまうために起こる。これは、バックプロパゲーションのアルゴリズムが、新しい学習を容易にする一方で、以前に獲得した情報を保存する必要性を本質的に考慮していないためである。この問題を解決することは、何十年もの間、AIの重要なハードルとして残っている。私たちは、脳の動的な学習メカニズムを模倣した、脳に着想を得た学習アルゴリズムを採用することで、生物に固有の熟練した問題解決戦略を活用できる可能性があると考える。

脳の解明に向けて：人工知能と神経科学の世界は、互いに大きな恩恵を受けている。特定のタスクのために特別に調整されたディープニューラルネットワークは、空間情報や視覚情報の扱い方において人間の脳と著しい類似性を示している。この重複は、人工ニューラルネットワーク（ANN）が、脳の複雑なメカニズムをよりよく理解するための努力において有用なモデルであるという可能性を示唆している。ニューロコネクショニスト研究プログラムと呼ばれる新しい動きは、この複合的なアプローチを体現しており、ANNを計算言語として使用し、脳の計算方法に関するアイデアを形成し検証している。バックプロパゲーションやバックプロパゲーションに似た局所学習ルールを使って大規模なニューラルネットワークを訓練することは、脳機能をモデル化するための良い出発点になるかもしれない。脳内でバックプロパゲーションと同様の動作をするプロセスは何かということについて、多くの生産的な研究が行われており、神経科学における新しい視点や理論に繋がっている。

このレビューでは、脳の機能を模倣するさまざまなアルゴリズムを紹介したが、脳内で実際に学習がどのように行われているかを完全に把握するためには、まだかなりの量の作業が必要である。バックプロパゲーションやバックプロパゲーションに似た局所学習ルールを使って大規模なニューラルネットワークを訓練することは、脳機能をモデル化するための良い出発点になるかもしれない。脳内でバックプロパゲーションと同様の動作をするプロセスは何かということについて、多くの生産的研究が行われており、神経科学における新しい視点や理論に繋がっている。現在の形式でのバックプロパゲーションは脳では起こらないかもしれないが、学習のメカニズムがこれほど異なるにもかかわらず、脳がANNと同様の内部表現を開発するかもしれないという考えは、脳とAIをより深く理解することにつながるかもしれない、刺激的な未解決問題である。

現在では、静的なネットワーク名だけでなく、脳のように時間の関数として解き明かされるネットワークまで探求が進んでいる。不断の学習や生涯学習のアルゴリズムの開発が進むにつれ、私たちのモデルは、自然界で観察される学習メカニズムをより忠実に反映する必要があることが明らかになるかもしれない。このような観点から、ANNに局所的な学習ルール、つまり脳独自の方法を反映させることが求められている。

我々は、ANNに生物学的に正しい学習ルールを採用することは、前述のようなメリットをもたらすだけでなく、神経科学の研究者に正しい方向を示すことにもつながると確信している。つまり、エンジニアリングのイノベーションを活性化させるだけでなく、脳内の複雑なプロセスの解明に近づくという、二重のメリットを持つ戦略なのである。より現実的なモデルによって、人工知能という新しい視点から、脳の計算の複雑さをより深く追求することができるのである。

結論

このレビューでは、より生物学的に妥当な学習メカニズムをANNに統合することを検討した。このような統合は、神経科学と人工知能の双方にとって重要な一歩となる。特に、人工知能の分野では、大規模な言語モデルや埋め込みシステムが大きな進歩を遂げており、学習と実行のためのエネルギー効率の高いアプローチが切実に求められている中で、このことは重要である。さらに、ANNはこれらの用途で大きな進歩を遂げているが、生物の脳のように適応する能力にはまだ大きな限界があり、これは脳から着想を得た学習メカニズムの主要な応用と考えられる。

神経科学とAIが将来、より詳細な脳に着想を得た学習アルゴリズムに向けて協力するための戦略を立てるとき、神経科学がAIに与えた過去の影響について、既成の解決策をそのまま問題解決に適用することはほとんどなかったことを認めることが重要である。むしろ神経科学は、動物の学習や知能の側面について興味深いアルゴリズムレベルの疑問を投げかけ、AI再研究者を刺激してきた。神経科学は、学習をサポートする重要なメカニズムについて、予備的な指針を与えている。同様に、AIで脳のような学習アルゴリズムを使った実験を行うことで、神経科学に対する理解を加速させることができる。

2023-05-27

今日の論文2023/05/26：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

今日の論文

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

arxiv.org

Wei, Jason, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Chi, Quoc Le, and Denny Zhou. "Chain of thought prompting elicits reasoning in large language models." arXiv preprint arXiv:2201.11903 (2022).

©The Authors

License: Creative Commons Attribution 4.0 International License(CC-BY)

本記事は、原著の内容に基づき筆者が要約または翻訳したものです。以下の図は、そこから引用しています。

This article is my summary or translation based on the content of the original publication. The following figures are taken from it.

要点まとめ

我々は、一連の中間推論ステップであるChain of thoughtを生成することで、大規模言語モデルが複雑な推論を行う能力をいかに大幅に向上させるかを探求する。特に、プロンプトにおいていくつかのchain-of-thoughtのデモンストレーションを模範として提供する、chain-of-thoughtプロンプティングと呼ばれる簡単な方法によって、十分に大きな言語モデルにおいて、このような推論能力が自然に出現することを示すことができる。

　3つの大きな言語モデルで実験した結果、chain-of-thoughtプロンプトは、算術、常識、記号推論の様々なタスクでパフォーマンスを向上させることがわかった。経験的な向上は顕著である。例えば、PaLM 540Bにわずか8個のchain-of-thoughtの模範解答を提示したところ、GSM8KベンチマークでSoTAの精度を達成し、ベリファイアを適用したファインチューニング済みGPT-３をも上回った。

1 序論

最近、言語処理環境は言語モデルによって大きく変化している（Peters et al., 2018; Devlin et al., 2019; Brown et al., 2020, inter alia）。言語モデルのサイズを拡大することで、パフォーマンスやサンプル効率の向上など、さまざまなメリットが得られることが示されている（Kaplan et al., 2020; Brown et al., 2020, inter alia）。しかし、モデルサイズの拡大だけでは、算術推論、常識推論、記号推論のような困難なタスクで高い性能を達成するのに十分でないことが証明されている（Raeet al., 2021）。

本研究では、2つのアイデアをもとに、シンプルな方法で大規模言語モデルの推論能力を引き出す方法を探る。まず、算術推論の技術は、最終的な答えを導く自然言語推論を生成することで利益を得ることができる。先行研究では、自然言語の代わりに形式的な言語を使用するニューラルシンボリックな方法（Roy and Roth, 2015; Chiang and Chen, 2019; Amini et al, 2019; Chen et al,2019）に加えて、ゼロからの学習（Ling et al, 2017）または事前に学習したモデルのファインチューニング（Cobbe et al, 2021）により、モデルに中間ステップ間の自然言語を生成する機能を与えている。第二に、大規模な言語モデルは、プロンプティングにより、in-context few-shot学習の既存の展望を提供する。つまり、新しいタスクごとに別の言語モデルのチェックポイントをファインチューニングする代わりに、タスクを示すいくつかの入出力模範をモデルに「促す」だけでよいのである。驚くべきことに、これは様々な単純な質問-回答タスクで成功している（Brown et al., 2020）。

しかし、上記のいずれのアイデアにも、重要な限界がある。合理性を強調したトレーニングやファインチューニングの手法では、高品質の合理性の大規模なセットを作成するコストがかかり、これは通常の機械学習で用いられる単純な入力-出力ペアよりもはるかに複雑である。Brownら(2020)で用いられた従来の数ショットプロンプト法については、理由付けが必要なタスクではうまく機能せず、言語モデルの規模が大きくなっても大幅に改善しないことが多い（Rae et al., 2021）。この論文では、これら2つのアイデアの長所を、その限界を回避する方法で組み合わせている。具体的には、〈入力、chain-of-thought、出力〉の3要素からなるプロンプトが与えられたとき、言語モデルが推論タスクに対して数発のプロンプトを実行する能力を探るものである。chain-of-thoughtとは、最終的な出力に至る一連の中間的な自然言語推論ステップのことであり、このアプローチをchain-of-thoughtプロンプティングと呼んでいる。図1にプロンプトの例を示す。

算術、常識、記号推論のベンチマークで実証評価を行い、chain-of-thoughtプロンプトが標準プロンプトを上回る、時には顕著な結果を示すことを示した。図2は、そのような結果の一つを示すもので、数学の単語問題のGSM8Kベンチマーク（Cobbe et al., 2021）では、PaLM 540Bを用いたchain-of-thoughtプロンプトが標準プロンプトを大きく上回り、SoTAの性能を達成した。プロンプティングのみのアプローチは、大規模なトレーニングデータセットを必要とせず、1つのモデルのチェックポイントで一般性を損なうことなく多くのタスクを実行できるため、重要な意味を持つ。この研究は、大規模な言語モデルが、タスクに関する自然言語データを用いたいくつかの例によって学習できることを強調している（大規模な学習データセットによって入力と出力の基礎となるパターンを自動学習する場合など）。

2 Chain-of-Thoughtプロンプティング

多段階の数学の単語問題など、複雑な推論課題を解くときに、自分の思考過程を考える。問題を中間段階に分解して、それぞれを解いてから最終的な答えを出すのが一般的である：「Janeがお母さんに花を2つあげたら10になり、お父さんに3つあげたら7になる...だから答えは7だ」この論文の目的は、言語モデルに、問題の最終解答に至る一貫した一連の中間推論ステップ、chain-of-thoughtを生成する能力を与えることである。few-shotプロンプトの模範解答の中にchain-of-thoughtの推論を示すものがあれば、十分に大きな言語モデルがchain-of-thoughtを生成することができることを示す。

　図1は、ある言語モデルがchain-of-thoughtを生成して数学の単語問題を解いた例である（それでなければ、不正解だった）。この場合のchain-of-thoughtは解答に似ており、解答と解釈することもできるが、答えにたどり着くまでの段階的な思考プロセスを模倣しているという考えをよりよく理解するために、やはりchain-of-thoughtと呼ぶことにする（また、解答／説明は通常、最終的な答えの後にやってくる（Narang et al., 2020; Wiegreffe et al., 2022; Lampinen et al., 2022, inter alia）)。

　chain-of-thoughtプロンプトは、言語モデルにおける推論を促進するためのアプローチとして、いくつかの魅力的な特性を備えている。

まず、chain-of-thoughtは原理的に、モデルが多段階の問題を中間段階に分解することを可能にする。これは、より多くの推論段階を必要とする問題に、追加の計算を割り当てることができるということである。
第２に、chain-of-thoughtは、モデルの挙動を解釈できる窓を提供し、特定の答えに到達した可能性を示唆し、推論経路がどこで間違ったかをデバッグする機会を提供する（ただし、答えをサポートするモデルの計算を完全に特徴付けることは、まだ未解決問題である）。
第３に、chain-of-thought推論は、数学の単語問題、常識的な推論、記号操作などのタスクに使用でき、人間が言語によって解決できるあらゆるタスクに（少なくとも原理的には）適用できる可能性があることである。
最後に、chain-of-thought推論は、十分に大きな言語モデルにおいて、few-shotプロンプトの模範にchain-of-thoughtの例を含めるだけで、容易に性能を引き出すことが可能である。

実証実験では、算術推論（3節）、常識推論（4節）、記号推論（5節）において、chain-of-thoughtプロンプトの有用性を観察する予定である。

3 算術推論

まず、言語モデルの算数推論能力を測定する図1のような形式の算数単語問題を検討する。人間にとっては簡単なことだが、算術推論は言語モデルがしばしば苦戦する課題である（Hendrycks et al, 2021; Patel et al, 2021, inter-alia）。驚くべきことに、540Bパラメータ言語モデルを使用した場合のchain-of-thoughtプロンプトは、いくつかのタスクでタスク固有のファインチューンモデルと同等の性能を示し、困難なGSM8Kベンチマークで新しいSoTAを達成した（Cobbe et al., 2021）。

3.1 実験設定

複数のベンチマークで様々な言語モデルのchain-of-thoughtプロンプトを探索する。

ベンチマーク：以下の5つの数学単語問題ベンチマークを検討する：(1) 数学単語問題のGSM8Kベンチマーク（Cobbe et al, 2021）(2) 様々な構造を持つ数学の単語問題のデータセットであるSVAMPデータセット（Patel et al, 2021）(3) 多様な数学の単語問題のデータセットであるASDivデータセット（Miao et al., 2020）(4)代数的単語問題のAQuAdataset (5) MAWPSベンチマーク（Koncel-Kedziorski et al, 2016）を使用した。例題は付録表12に示す。

標準的なプロンプト：Brownら(2020)が提唱する標準的なfew-shotプロンプティングは、言語モデルに入出力ペアの文脈上の模範例を与えてからテスト時の予測値を出力するものである。模範解答は質問と回答としてフォーマットされている。図1（左）に示すように、モデルは直接答えを与える。

Chain-of-Thoughtプロンプティング：我々の提案するアプローチは、図1（右）に示すように、few-shotプロンプティングの各模範を、関連する答えのためのchain-of-thoughtで補強することである。ほとんどのデータセットが評価分割しかないため、プロンプティングのためのchain-of-thoughtを持つ8つのfew-shotの模範解答を手動で構成した。図1（右）はchain-of-thoughtの模範例であり、模範例の全セットは付録表20に示されている。(これらの特定の例題は、プロンプトエンジニアリングが適用されていない。ロバスト性については、3.4節と付録A.2.で検討する)。このようなchain-of-thoughtプロンプトが、さまざまな数学の単語問題でうまく推論を引き出せるかどうかを調べるため、自由回答ではなく多肢選択式のAQuAを除くすべてのベンチマークで、この8つのchain-of-thoughtの模範セットを使用した。AQuAでは、付録表21に示すように、トレーニングセットから4つの模範解答と解答を使用した。

言語モデル：5つの大規模言語モデルを評価する。1つ目はGPT-3（Brown et al.,2020）で、text-ada-001, text-babbage-001, text-curie-001, text-davinci-002を使用しており、おそらく350M, 1.3B, 6.7B, 175BパラメータのInstructGPTモデルに相当する（Ouyanget al., 2022）。2つ目はLaMDA（Thoppilan et al., 2022）で、422M, 2B, 8B, 68B、137Bパラメータのモデルを有する。3つ目はPaLMで、8B、62B、540Bのパラメータを持つモデルがある。４つ目はUL2 20B（Tay et al., 2022）、５つ目はCodex（Chen et al., 2021、OpenAI APIのcode-davinci-002）である。我々は、greedy decodingによってモデルからサンプリングする（ただし、後続の研究では、多くのサンプリングされた世代にわたって大多数の最終回答を取ることによって、chain-of-thoughtプロンプトを改善できることを示している（Wang et al., 2022a））。LaMDAについては、5つのランダムなシードについて平均した結果を報告する。各種は、模範解答の順序をランダムにシャッフルしたものである。LaMDAの実験では、異なるシード間で大きなばらつきは見られなかったため、計算量を節約するために、他のすべてのモデルについて、単一の模範的な順序の結果を報告している。

3.2 結果

chain-of-thoughtプロンプトの最も強い結果を図4にまとめ、各モデルコレクション、モデルサイズ、およびベンチマークに関するすべての実験結果を付録の表2に示す。3つの重要なポイントがある。まず、図4は、chain-of-thoughtプロンプトがモデル規模の創発性であることを示している（Wei et al., 2022b）。つまり、chain-of-thoughtプロンプトは、小さなモデルでは性能に正の影響を与えず、100B程度のパラメータを持つモデルで使用した場合にのみ性能を向上させることができる。我々は、スケールの小さなモデルは、流暢ではあるが非論理的なchain-of-thoughtを生み出し、標準的なプロンプティングよりも低いパフォーマンスをもたらすことを定性的に発見した。

　二つ目に、chain-of-thoughtプロンプトは、より複雑な問題に対してより大きな性能を発揮する。例えば、GSM8K（ベースライン性能が最も低いデータセット）では、GPTとPaLMの最大モデルで性能が2倍以上向上した。一方、MAWPSの中で最も簡単で、解くのに１ステップしか必要としないサブセットであるSingleOpでは、性能向上はマイナスか非常に小さいものであった（付録表3参照）。

　三つ目に、GPT-3175BとPaLM 540Bによるchain-of-thoughtプロンプティングは、通常ラベル付き訓練データセットでタスク固有のモデルを調整する従来の技術と比べて、良好な結果を示している。図4は、PaLM 540Bがchain-of-thought型プロンプトを使用して、GSM8K、SVAMP、MAWPSで新しい技術水準を達成したことを示している（ただし、SVAMPでは標準プロンプトが既に事前ベストを達成している）。他の2つのデータセット、AQuAとASDivでは、chain-of-thoughtプロンプトを用いたPaLMは、SoTAの2%以内に達している（付録表2）。

　chain-of-thoughtプロンプトがなぜ機能するかをより理解するために、GSM8KのLaMDA 137Bによってモデルが生成したchain-of-thoughtを手動で調査した。モデルが最終的に正しい答えを返す50のランダムな例のうち、偶然に正しい答えにたどり着いた2つを除いて、生成されたchain-of-thoughtもすべて論理的、数学的に正しかった（付録D.1. を参照、また、モデルが間違った答えを出した50個のサンプルを無作為に調査した。この分析の要約は、46％のchain-of-thoughtは、小さなミス（計算機のエラー、シンボルマップのエラー、推論ステップが1つ足りない）を除いてほぼ正しく、残りの54％のchain-of-thoughtは意味理解や一貫性に大きなミスがあったというものだ（付録 D.2 参照）。スケーリングによってchain-of-thoughtの推論能力が向上する理由を少しでも理解するために、PaLM 62Bで発生したエラーについて、PaLM 540Bへのスケーリングによってエラーが修正されるかどうか、同様の分析を行った。その結果、PaLMを540Bにスケーリングすることで、62Bモデルにおける一段階欠落や意味理解のエラーの大部分が修正されることがわかった（付録A.1参照）。

3.3 アブレーションスタディ

chain-of-thoughtプロンプトを使用した場合の利点は、他のタイプのプロンプトでも同様のパフォーマンス向上が得られるかどうかという当然の疑問を提起するものである。図5は、後述する3つのchain-of-thoughtのバリエーションを用いたアブレーション試験である。

式のみ：chain-of-thoughtプロンプトが役立つ理由の一つは、評価すべき数式を生成することである。そこで、答えを出す前に数式だけを出力するようモデルを促すバリエーションをテストした。図5から、GSM8Kでは数式のみのプロンプトはあまり役に立たないことがわかる。これは、GSM8Kの質問のセマンティクスが、chain-of-thoughtにおける自然言語による推論ステップなしに数式に直接変換するには難しすぎることを示唆している。しかし、1ステップや2ステップの問題のデータセットでは、質問から簡単に方程式を導くことができるため、方程式のみのプロンプトがパフォーマンスを向上させることがわかった（付録表6参照）。

変数計算のみ：もう一つの直感は、chain-of-thoughtによって、モデルがより難しい問題に多くの計算（すなわち中間トークン）を費やすことができるということである。chain-of-thoughtによる推論から変数計算の効果を分離するために、問題を解くのに必要な方程式の文字数と同じ数のドット（...）だけを出力するようにモデルを促す構成をテストした。この構成では、ベースラインとほぼ同じ結果が得られたことから、変数計算自体はchain-of-thoughtプロンプトの成功の理由ではなく、中間ステップを自然言語で表現することに有用性があるようだ。

回答後のChain-of-Thought：chain-of-thoughtプロンプトのもう一つの潜在的な利点は、プロンプトによってモデルが事前訓練で獲得した関連知識にうまくアクセスできるようになることかもしれない。そこで、chain-of-thoughtプロンプトが答えの後にのみ与えられるという代替構成をテストし、モデルが最終的な答えを出すために実際に生成されたchain-of-thoughtに依存しているかどうかを分離する。この結果は、chain-of-thoughtが知識の活性化だけでなく、逐次的な推論に役立つことを示唆している。

3.4 Chain-of-Thoughtの頑健さ

模範解答に対する感度はプロンプトアプローチの重要な検討事項である。例えば、新しい模範解答の順列を変えることで、SST-2に対するGPT-3の精度は偶然に近いもの（54.3%）から最新技術に近いもの（93.4%）まである（Zhao et al, 2021）。この最後のセクションでは、異なるアノテーターによって書かれたchain-of-thoughtに対する頑健性を評価する。 Annotator Aが書いたchain-of-thoughtを用いた上記の結果に加え、本論文の他の共著者2名（Annotator BとC）が、同じfew-shot例題に対して独立してchain-of-thoughtを書いた（付録Hに示す）。

図6は、GSM8KとMAWPSのLaMDA 137Bの結果を示している（他のデータセットのアブレーション結果は、付録表6/表7に示す）。模範解答に基づくプロンプトを使用する場合に予想されるように、異なるchain-of-thoughtのアノテーションにばらつきがあるが（Le Scaoand Rush, 2021; Reynolds and McDonell, 2021; Zhaoet al., 2021）、すべてのchain-of-thoughtのアノテーションセットは標準ベースラインを大差で上回った。この結果は、chain-of-thoughtをうまく利用することが特定の言語スタイルに依存しないことを示唆している。

他の模範解答のセットでもchain-of-thoughtをうまく利用できることを確認するために、独立したソースであるGSM8Kトレーニングセット（このデータセットの例にはすでにchain-of-thoughtのような推論ステップが含まれている）からランダムに抽出した8つの模範解答3セットで実験も実行した。図6に示すように、これらのプロンプトは、手動で書かれた模範解答と同等の性能を示し、標準的なプロンプトを大幅に上回った。

あのテーター、独立して書かれたchain-of-thought、異なる模範解答、さまざまな言語モデルに対するg頑健性に加え、算術推論のためのchain-of-thoughtプロンプトは、異なる模範解答順序や模範解答の数の変化に強いこともわかった（付録 A.2 参照）。

4 常識推論

chain-of-thoughtは特に数学の単語問題に適しているが、chain-of-thoughtの言語ベースの性質は、実際には、一般的な背景知識を前提とした物理的および人間的相互作用に関する推論を含む、幅広いクラスの常識推論問題に適用可能である。常識推論は、世界と対話するための鍵であり、現在の自然言語理解システムにはまだ及ばない（Talmor et al., 2021）。

ベンチマーク：人気のあるCSQA（Talmor et al., 2019）は、しばしば事前知識を必要とする複雑なセマンティクスを含む世界に関する常識的な質問をする。StrategyQA（Geva et al., 2021）は、質問に答えるためにマルチホップ戦略を推測するモデルを要求する。BIG-benchの取り組み（BIG-bench collaboration, 2021）から、与えられた文脈から日付を推測するDate Understandingと、スポーツに関連する文がもっともらしいかありえないかを判断するSports Understandingという2つの特殊な評価セットを選択した。最後に、SayCan dataset (Ahn et al., 2022) は、離散集合から自然言語の指示をロボットの動作シーケンスにマッピングする。図3は、すべてのデータセットについて、chain-of-thoughtのアノテーションが付いた例を示している。

プロンプト：我々は、前のセクションと同じ実験設定に従う。CSQAとStrategyQAでは、訓練セットからランダムに例を選び、手動でchain-of-thoughtを構成し、数発の模範例として使用しました。BIG-benchの2つのタスクはトレーニングセットを持たないので、評価セットの最初の10例を少数ショットエグザンプルとして選択し、残りの評価セットについて数値を報告した。SayCanについては、Ahnら(2022)で使用されたトレーニングセットから6つの例を使用し、さらに手動でchain-of-thoughtを構成した。

結果：図7は、PaLMについてのこれらの結果を強調している（LaMDA、GPT-3と異なるモデルスケールについてのすべての結果は表４に示されている）。すべてのタスクにおいて、モデルサイズを拡大すると、標準的なプロンプトのパフォーマンスが向上し、chain-of-thoughtプロンプトを使用するとさらに向上し、PaLM 540Bで最も向上したように見えた。PaLM 540Bは、chain-of-thoughtプロンプティングにより、StrategyQAで先行技術を上回り（75.6% vs 69.4%）、sports Understandingで無支援のスポーツ愛好家を上回り（95.4% vs 84%）、ベースラインに対して高い性能を達成した。この結果から、chain-of-thoughtプロンプトは、様々な常識推論能力を必要とするタスクでもパフォーマンスを向上させることができることが示された（ただし、CSQAでの向上はごくわずかだった）。

5 記号的推論

最後の実験評価では、人間にとっては簡単だが、言語モデルにとっては難題となりうる記号的な推論を検討する。プロンプトは、標準的なプロンプト設定では困難な記号推論タスクを言語モデルに実行させるだけでなく、few-shotの模範解答で示されたものより長い推論時間入力への長さの汎化を促進することを示す。

タスク：以下の二つのおもちゃタスクを使用する。

最後の文字が連結される：このタスクは、名前に含まれる単語の最後の文字を連結するようモデルに要求する（例："Amy Brown"→"yn" ）。このタスクは、言語モデルが思考を連鎖させることなく実行できる最初の文字の連結の、より難しいバージョンである。3 名前のセンサスデータ（https://namecensus.com/）から、上位1,000人の姓と名をランダムに連結して、完全な名前を生成しました。
コインフリップ：このタスクでは、コインを裏返したり、裏返さなかったりした後でも、コインの表が出るかどうかをモデルに答えさせる（例：「コインは表だ」。フィービーがコインをひっくり返し、オスバルドはコインをひっくり返さない。コインはまだ表か？"→"いいえ"）。

これらの記号推論タスクの構成はよく定義されているため、各タスクについて、トレーニング/数ショット模範例と同じステップ数を持つ模範テストセットと、模範例よりも多くのステップ数を持つ評価例を持つ領域外テストセット（OOD）を検討した。最後の文字連結では、2単語の名前の例のみを抽出し、3単語と4単語の名前の最後の文字連結を実行する。また、コインフリップタスクの反転可能回数についても同様である。実験セットアップでは、前の2つのセクションと同じ方法とモデルを使用する。各タスクのfew-shotの例題について、再び手動でchain-of-thoughtを構成する（図3）。

結果：これらの領域内評価とOOD評価の結果は、PaLMについては図8に、LaMDAについては付録表5に示されている。PaLM 540Bでは、chain-of-thoughtプロンプトにより、ほぼ100％の解答率になる（なお、LaMDA 137Bでは解答しないが、PaLM540では標準プロンプトでコインフリップが既に解けている）。なお、これらの領域内評価は"toy task"であり、完全な解の構造は、few-shotサンプルにあるchain-of-thoughtによってすでに提供されている、という意味である。この3つのタスクで、未見のシンボルに対して抽象的な操作を行う能力は、モデルパラメータ100Bのスケールでしか生じない。

OODの評価については、どちらのタスクでも標準的なプロンプトは失敗している。chain-of-thoughtプロンプトを用いた場合、言語モデルは上向きのスケーリングカーブを描く（ただし、in-domain settingの場合よりも性能は落ちる）。したがって、chain-of-thoughtプロンプトは、十分な規模の言語モデルにおいて、見たことのあるchain-of-thoughtを超える長さの汎化を容易にする。

6 議論

我々は、大規模な言語モデルにおいて、多段階の再推論動作を引き出すための簡単なメカニズムとして、chain-of-thoughtプロンプトを探求した。まず、chain-of-thoughtプロンプトが算術推論の性能を大きく向上させ、アブレーションよりもはるかに強く、異なるアノテーター、模範、言語モデルに対して頑健であることを確認した（セクション3）。次に、常識推論の実験により、chain-of-thought推論の言語的性質がいかに一般に適用可能であるかを明らかにした（セクション4）。最後に、記号推論において、chain-of-thoughtプロンプトが、より長い配列長へのOOD汎化を促進することを示した（セクション5）。すべての実験において、chain-of-thought推論は、単に既存の言語モデルをプロンプトすることによって引き出される。この論文を書く過程で言語モデルのファインチューニングは行っていない。

モデル規模の結果としてのchain-of-thought推論の出現は、有力なテーマである（Wei et al., 2022b）。標準的なプロンプトが平坦なスケーリングカーブを描く多くの推論タスクにおいて、chain-of-thoughtプロンプトはスケーリングカーブを劇的に増加させる。chain-of-thoughtプロンプトは、大規模言語モデルが成功させることができるタスクのセットを拡大するようである。つまり、私たちの研究は、標準的なプロンプトが大規模言語モデルの能力の下限を示すに過ぎないことを明確に示している。この観察は、答えよりも多くの質問を投げかけることになりそうである。例えば、モデル規模をさらに拡大した場合、推論能力はどの程度向上するのか、他のどのようなプロンプティング方法が言語モデルが解決できるタスクの範囲を拡大するのか、などである。

限界については、まず、chain-of-thoughtは人間の推論者の思考プロセスをエミュレートするが、これはニューラルネットワークが実際に「推論」しているかどうかに答えるものではなく、これは未決問題として残している。第二に、手動で模範例をchain-of-thoughtで補強するコストは、few-shot設定では最小であるが、このようなアノテーションコストは、ファインチューニングでは法外である可能性がある（ただし、これは合成データ生成またはゼロショット汎化によって克服できる可能性がある）。第三に、正しい推論経路の保証がないため、正解と不正解の両方が生じる可能性がある。事実上の言語モデルの生成を改善することは、今後の研究のためのオープンな方向である（Rashkin et al., 2021; Ye and Durrett, 2022; Wiegreffe et al., 2022, inter alia）。最後に、chain-of-thought推論が大規模なモデルスケールでのみ出現するため、実世界のアプリケーションで使用するにはコストがかかる。さらなる研究により、より小さなモデルで推論を誘導する方法を探ることができる。

7 関連研究

この研究は、多くの研究分野に触発されたものであり、その詳細は、拡張された関連研究のセクション（付録C）に記載されている。ここでは、おそらく最も関連性の高い2つの方向性と関連する論文について説明する。

最初の関連する方向性は、推論問題を解決するために中間ステップを使用することである。Lingら（2017）は、一連の中間ステップを通じて数学の単語問題を解くために自然言語の根拠を使用するというアイデアを開拓している。彼らの仕事は、形式的な言語を用いて推論する文献（Roy et al., 2015; Chiang and Chen, 2019; Amini et al., 2019; Chen et al., 2019）と著しい対照をなしている。Cobbeetら（2021）は、より大きなデータセットを作成し、ゼロからモデルを訓練するのではなく、事前に訓練された言語モデルをファインチューンするためにそれを使用することによって、Lingら（2017）を拡張する。プログラム合成の領域では、Nyeら（2021）は、言語モデルを活用して、中間的な計算結果を最初に行から行に予測することによってPythonプログラムの最終出力を予測し、そのステップバイステップ予測法が最終出力を直接予測するよりも優れた性能を示す。

当然、この論文もプロンプティングに関する最近の大きな研究と密接に関わっている。Brownら(2020)によるfew-shotプロンプトの普及以来、いくつかの一般的なアプローチにより、プロンプトの自動学習（Lester et al., 2021）やタスクを記述した指示をモデルに与える（Wei et al., 2022a; Sanh et al., 2022; Ouyanget al., 2022) など、モデルのプロンプティング能力を向上させた。これらのアプローチがプロンプトの入力部分を改善または増強する（例えば、入力に前置される命令）のに対し、我々の仕事は、言語モデルの出力をchain-of-thoughtで増強するという直交する方向をとるものである。

8 結論

我々は、言語モデルの推論を強化するための簡単で広く適用可能な方法として、chain-of-thoughtプロンプトを探求した。算術推論、記号推論、常識推論の実験を通じて、chain-of-thought推論は、モデル規模が十分に大きい言語モデルで、スケーリングカーブがフラットである推論タスクを実行できるようにする、モデル規模の出現特性であることを発見した。言語モデルが実行できる推論タスクの幅を広げることで、言語ベースの推論アプローチに関するさらなる研究が促されることが期待される。

2023-05-26

今日の論文2023/05/24,25：Controlled Hallucinations: Learning to Generate Faithfully from Noisy Data

今日の論文

Controlled Hallucinations: Learning to Generate Faithfully from Noisy Data

aclanthology.org

Katja Filippova. 2020. Controlled Hallucinations: Learning to Generate Faithfully from Noisy Data. In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 864–870, Online. Association for Computational Linguistics.

License: Creative Commons Attribution 4.0 International License(CC-BY)

本記事は、原著の内容に基づき筆者が要約または翻訳したものです。以下の図は、そこから引用しています。

This article is my summary or translation based on the content of the original publication. The following figures are taken from it.

要点まとめ

ニューラルテキスト生成（data- or text-to-text）は、学習データが豊富な場合に顕著な性能を示すが、多くのアプリケーションではそうではない。並列データの大規模なコーパスを収集するために、発見的なルールがしばしば使用されるが、入力で説明できないフレーズが出力されるなど、データにノイズが混入することは避けられない。その結果、モデルはノイズを拾い上げ、流暢だがサポートされていないテキストを幻覚のように生成する可能性がある。我々の貢献は、このような幻覚を生成されたテキストの制御可能な側面として扱う、シンプルで強力な技術であり、いかなる入力も排除せず、モデルアーキテクチャを変更することなく、このような幻覚を扱う。特にノイズの多いデータセットであるWikiBioコーパス（Lebret et al., 2016）において、自動評価と人間評価の両方で、この手法の有効性を実証する。

1. 序論

ディープニューラルネットワークベース（DNN）モデルは、テキストからテキストへのマルチチュード（Bahdanau et al., 2015; Rotheet al., 2019; Narayan et al., 2018; Rush et al., 2015, inter alia）およびデータからテキストの生成タスクとして（Wiseman et al., 2017; Puduppully et al., 2019, initer alia）で顕著な性能を示している。高い性能を発揮するためには、DNNモデルは大規模な学習コーパスを必要とするが、これは通常容易に入手できない。実際、人間がキュレーションしたパラレルデータの十分に大きなコーパスを持つことはまれであり（Koehn, 2005）、研究者は大規模に入出力ペアをマイニングするための発見的ルールを考え出している（Hermann et al., 2015; Rush et al., 2015; Narayan et al., 2018）。どんなに強力でも、DNNモデルはデータアーティファクトに敏感であることが知られており（Kaushik and Lipton, 2018）、学習データのノイズを選ぶ。

　幻覚（hallucination）は厳密に定義されていないが、この言葉は、入力に忠実ではない、または無意味な生成コンテンツを指すのに標準的に使用されている（Maynez et al., 2020）。我々の研究では、主に学習データの不完全な品質によって引き起こされる前者の幻覚のようなものを懸念している。データセットの質を向上させ、入力に明確な裏付けがないフレーズを削除したり、出力にしかない情報で入力を補強したりすることが考えられる。前者の方法は、非文法的なターゲットになりやすいので危険である。入力と出力の間の強い整列を強制する後者のアプローチは以前から試みられているが、データに適度なノイズがあることが前提である（Nie et al., 2019; Dusek et al., 2019）。あるいは、データをそのままにして、生成ステップごとに注意（Attention）を払うようデコーダーにもっと圧力をかけることを試みることもできる（Tianet al., 2019）。この場合、モデルに大幅な修正を加える必要があり、デコーダがターゲットに見られるような流暢で多様なテキストを生成することが難しくなる可能性がある。

　これらのアプローチとは対照的に、我々の提案は、デコード（およびエンコード）アーキテクチャを変更することなく、そのままのデータでモデルを訓練することである。この代わりに、幻覚の程度を制御するために入力側にハンドルを導入する（図1）。この "幻覚つまみ "を使うことで、生成時に出力される裏付けのない情報量を最小化（または最大化）することができる（図2）。各トレーニングインスタンスの幻覚やノイズの程度は個別に推定され、制御された生成設定のように、入力の一部となるカテゴリ値に変換される（Ficler and Goldberg, 2017; Raffel et al, 2019）。これは、言語モデル(LM)が強制パス復号時に条件生成器よりも損失が小さい場合、次のトークンが入力で説明できないことを示す良い信号であるという直観に基づくものである。

　特にノイズの多いデータセットであるWikiBio (Lebret et al., 2016)を考慮する。このデータセットは、62%の文献に余分な情報があることが判明しており（Dhingra et al., 2019）、入力と出力間の1：1相関が成立しない（Perez-Beltrachini and Gardent, 2017)。我々のモデルは、WikiBioでSoTA BLEUの再結果を報告したLiuら（2018）のモデルより優れた性能を実証している。まとめると、我々の貢献は、(1)モデルに修正を必要としない幻覚を制御する新しいアイデア、(2)このアイデアを実装するデータおよびタスクに依存しない技術、(3)忠実性がカバー率と引き換えでないことを確認する人間評価者による3方向評価、である。

2. 幻覚の制御

制御された言語生成は、出力に特定の属性を持たせたい場合に使用されます。例えば、文の圧縮（Filippovaet al., 2015）では、長さの予算や異なるモデルを公平に比較するために、出力の長さを制御したい場合がある。これは、学習データから長さを読み取り、学習時に追加入力として使用することで実現でき、推論時に「長さのつまみ」を得ることができる（Kikuchiet al., 2016、図1）。長さ以外にも、センチメント、スタイル、テーマなど多くの属性を制御することができ、エンコーダーやデコーダーの追加入力となる（Ficler and Goldberg, 2017）。制御された生成は、最近、タスク自体が属性になる場合、マルチタスク設定で機能することが示されている強力な技術的手法である（Raffel et al., 2019）。

　私たちがコントロールしたいと思う属性は、幻覚やノイズの量です。幻覚の度合いという特別な語彙を定義し、データポイントごとにその度合いを入力の接頭辞として追加する。図2は、3つの異なる度数が付加された同じ入力と、WikiBioで学習させた制御モデルからの3つの対応する出力を示しています。出力の長さを測定したり、センチメントを検出するのは簡単ですが、与えられた例におけるノイズの量を推定する方法はあまり明らかではありません。以下では、ノイズと幻覚という言葉を交互に使用する。

3. トレーニングデータから幻覚を検出する

学習データから幻覚を検出するために、(3.1)基礎は明確だがseq2seqタスクに適用できないオーバーラップベースの手法と、(3.2)どんな環境でも適用できる簡単な手順が考えられる。両手法とも、ソースとターゲットのペアに対して、幻覚スコア $hal \in [ 0,1$ ]を与える。スコアは分位数を持つカテゴリ値に変換され、全範囲の20%をカバーする5つの区間が導入され、各区間には特別なタグが使用される。学習時には、data2textモデルは5つのタグのそれぞれについて埋め込みを学習し、推論時には、最も低い幻覚値であるhal_0を持つタグが使用される（図2）。

3.1 ワードのオーバーラップ

ソースとターゲットがトークン・レベルで類似している場合、ソースでサポートされていない単語がターゲットにどれだけ存在するかを推定するために、両者の単語オーバーラップを使用することができる。より正式には、 $hal$ をソースとターゲットのペア $(x, y)$ の関数と定義される：

$\text{hal}_{WO} (x, y) = 1 - \frac{| W_y \cap W_x |}{| W_y | } \tag{1}$

ここで、 $W$ は（ソースまたはターゲットの）単語の集合である。このオーバーラップ手法は、ソースとターゲットが同じ言語で、非常に類似していることが分かっている場合にのみ意味を持つことに注意されたい。2番目の条件は、データセット内でも異なる程度で成立する場合がある。例えば、ニュース出版社は、より抽象的な見出しを書く傾向があるか抽出的な見出しを書く傾向があるかで異なります（Zhang et al, 2018）。

3.2 LMがより良く知るために

幻覚は、デコーダーの強力なLM成分によって部分的に説明できることがよく観察されており、デコーダーは次のトークンをこれまで生成されたシーケンスの継続である可能性が高いと選択する傾向があります（Rohrbach et al., 2018; Dusek et al., 2019, inter alia）。この観察は、幻覚を検出するための第二の方法の動機となる。

ソースとターゲットがある場合、ターゲットのトークン $w_{y_t}$ がソースでサポートされていないことをどうやって知ることができるのか？同じデータセットで学習した同一のアーキテクチャを持つ2つの生成モデルを考える。

$\text{LM}$ ：デコードされた接頭辞に基づいて次のトークンを生成する無条件のLMで、ターゲットに対してのみトレーニングされているもの。
$\text{LM}_x$ ：ターゲットを生成するように訓練された条件付きLMであるが、ソースについて追加的に情報を得ることができる。

ソースからターゲットを生成するタスクでは、強制パスデコードの際、 $\text{LM}_x$ は $\text{LM}$ とは異なり、次に来るかもしれないものを予測するため、ターゲットがソースにサポートされている限り、より良いパフォーマンスを発揮すると予想されます。例えば、 $\text{LM}$ は1年のすべての月に同じ確率を割り当てるが、 $\text{LM}_x$ はソーステーブルに誕生月が記載されていれば、1ヶ月に重きを置く。逆に、次のトークンが予期せぬものであった場合、 $\text{LM}_x$ はソースに関連するトークンに多くの確率をかけるのに対し、 $\text{LM}_x$ は与えられた接頭辞が続く可能性があるものは何でも予測するように訓練されているため、小さな確率を確保することができる。 $\text{LM}_x$ が忠実であればあるほど、この差は顕著になります。

　この直感に基づき、ソースとターゲットのペアに対する単一の $\text{hal}_{LM}$ 値を計算するために、 $\text{LM}_x$ によって誤って予測されたトークンのうち、 $\text{LM}$ より損失が小さいもののターゲット全体の長さに対する比率 $|y|$ （ $w_{y_t}$ はターゲットの $t$ 番目のトークンを、 $\hat{ w_{y_t} }$ は $\text{LM}_x$ によって $t$ 番目に予測されたトークンを示します）を計算する。

例えば、接頭辞の姓が $a$ 、ターゲットの姓がフランス人作家、ソースが職業（作家）には言及しているが国籍（フランス）には言及していない場合、 $\text{LM}_x$ は次のトークンが職業である確率を高くし、 $LM$ は国籍を含むあらゆる継続の確率を低くする。次のトークン（french）の $LM$ の損失が小さければ、幻覚の存在を示すことになる。

4. 実験

実験の主な目的は、幻覚が本当に制御できるかどうかを検証することである。WikiBioデータで学習したseq2seqモデルをそのまま、ノイズ属性をアノテーションして学習した同じモデルを（WordOverlapとLMベースの手法で）比較した。また、SoTA BLEUの結果を報告したLiuら（2018）のモデルと、幻覚のない出力を生成するように設計されたTianら（2019）のモデルも評価する。

　自動評価では、BLEU（Papineni et al., 2002）と、data2textタスクに特化して設計されWikiBioで検証した最近導入したPARENTメトリック（Dhingra et al., 2019）も測定する。BLEUとは異なり、出力を基準と比較するだけでなく、入力テーブルがどれだけ関与しているかを測定する。そのため、precisionやrecallの推定を誤る可能性があり、同じような性能を持つ2つのモデルを比較する場合は、人間の評価で補完する必要がある。

　このため、人間による実験では、生成された文の流暢さと忠実さ、およびカバレッジを測定している。なぜなら、流暢で忠実な文章を生成するが、短い文章を生成するモデルを好まず、流暢さと忠実さは一握りのテンプレートで簡単に達成できるからである。

流暢さ（Fluent）：文章は自然で文法的に正しい（Fluent, Mostly fluent, Not fluent）。ここでは流暢な文章の割合を報告する。

忠実さ（Faithful）：文が表や専門家以外の背景知識によって裏付けられた情報を表現している（Faithful, Mostly faithful, Notfaithful）。専門家の知識がなくても表から推測できることはグレーゾーンであるため、全体に対するFaithfulとMostly faithfulの文の割合を報告することとした。

カバレッジ：生成された文章で表現された情報を持つテーブルセルをカウントする。

忠実度とカバレッジは、それぞれprecisionとrecallのメトリクスとして見ることができる。テストセットから200の例をランダムに選び、すべての入力テーブルと生成された出力に対して3つの評価を収集した。

4.1 モデル

SentencePieces (Kudo and Richardson, 2018) にトークン化されたWikiBioに対してbi-LSTMエンコーダ-デコーダモデルを学習する。入力テーブルは、フィールドと値を示すとの特別なタグを持つ文字列に変換される。標準的なtrain-valid-testの分割を使用し、事前学習は行わない。 $\text{LM}$ と $\text{LM}_x$ には同じモデルアーキテクチャが使用される。つまり、比較対象となるデフォルトのseq2seqモデルも $\text{LM}_x$ として使用されている。 $LM$ との違いは、後者は入力を取らないこと、対照モデルとの唯一の違いは、入力に幻覚タグを1つだけ付与することである。

4.2 ノイズの多い例を削除する

最初の疑問は、データクリーニングを行うことで、既に質の良い文章が得られるかどうかである。表1が示すように、最もきれいな20%のデータ $\text{hal}_{WO}$ は、競争力のあるモデルを訓練するのに十分ではない。事前予測はデフォルトモデルよりも正確であるが、PARENT-recallとBLEU scoreは低い値である。他のモデルと大きな差があるため、このseq2seq modelの変種は人間で評価しない。

4.3 結果

PARENT-Fはどのモデルも似たような性能で、違いはPARENTのprecisionとrecallにある。LIU-ET-AL.はPARENT-Fのスコアが最も良かったたが、その代償として他のモデルよりもPresicionが非常に低くなっている。これはまさに我々が戦おうとしている問題であり、不実な生成は情報の欠損よりも間違いなく有害です。そのため、最終的な結論を出すために、人間の評価に頼ることにした。

　入力テーブルのフィールドを連結することで完全な網羅性と忠実性を達成できるため、まず、生成された文章が人間にとって自然に聞こえるかどうかを検証する。この次元では、幻覚を減らすように設計されたすべてのモデルが、この問題に対処していないモデル（LIU-ET-AL., SEQ2SEQ）よりも比較にならないほど良いパフォーマンス（93〜96％）を示している。

　seq2seqモデルの2つの制御バージョンは、LIU-ET-ALと比較して、有意に忠実な文章を生成することができたという、我々の研究の主要な仮説を支持する。LIU-ET-AL.とデフォルトのSEQ2SEQを比較すると、デフォルトのSEQ2SEQとの差は15-25ポイント（ほとんど忠実である場合を含めると13-15ポイント）であり、我々の研究の主要仮説を支持するものであった。TIAN-ET-AL.と比較すると、忠実な評価のみを考慮した場合は良くなり、ほとんど忠実な結果も考慮した場合は悪くなる。しかし、TIAN-ET-AL.はモデルに大きな変更を加える必要があり（例えば、変分ベイズ目的を使用）、必ずしも実装可能とは言えないかもしれない。さらに重要なのは、TIAN-ET-AL.は他のモデルよりもカバー率が著しく低いことである（LMの4.1対4.5）。カバレッジの面では、LMベースのコントロールジェネレータは、オーバーラップベースのものよりも高いカバレッジを達成し、デフォルトのseq2seqと同等である。

　最後の点は、我々の研究の主な成果であり、presicionを劇的に向上させながら、デフォルトモデル（SEQ2SEQ）のrecallを維持することが可能である。さらに、 $\text{hal}_{WO}$ 法が示すように、学習データにおけるソースとターゲットの類似性に関する仮定は不要である。

5. 結果

この2つの方法を比較すると、入力と出力が同じ語彙を使用し、用語の分布が同等であるようなアプリケーションでは、根拠が明確なオーバーラップ法の方が優れている可能性があります。私たちが提案したLMベースの手法は、データに対する仮定を持たないという重要な利点がある。 WikiBioの実験でも、人手の評価でより良い結果が得られたが、これはおそらく、言い換えや素直な推論が可能であったためと思われる。例えば、「ユーゴスラビアのフットボーラーであり、マネージャーであった」というOzren Nedoklanは、ソーステーブルには職業欄がなく、ユーゴスラビアのことも書かれていないので、 $\text{hal}_{WO}$ スコアが高い。この例の $\text{hal}_{LM}$ スコアは0である。なぜなら、サッカー選手とマネージャーは、ソースのクラブの名前とそれらのマネージャーの年のフィールドから推測されるからである。

拡張の可能性：ノイズを検出する別の方法を模索することができ、制御された幻覚の枠組みでより良いパフォーマンスを発揮するかもしれないことを強調する必要がある。例えば、埋め込み空間でターゲットとソースの類似性を測定したり、サポートされていない情報を見つけるために単語アライメントツールを使用することが可能である。

　ここでは、幻覚の除去に焦点を当てているが、流暢に聞こえるがサポートされていない情報を含むことが保証されている敵対的な文を生成することに興味があるアプリケーションも考えることができる。図2は、出力中の幻覚の量が幻覚ノブの値に従って増加する様子を示している。

なぜBLUEはこんなに違うのか？：テストしたすべてのモデルが、PARENTと人間の評価スコアの点でLiu et al(2018)を上回る一方で、そのBLEUパフォーマンスに近づくことができなかったことが印象的である。なぜそうなるのかの説明はないが、我々の結果は、BLEUはMT以外の生成タスクには不適切な指標であると結論づけるReiter（2018）の見解と一致することに注意されたい。

ノイズの代わりに長さを測定できないか？：長さをコントロールするさらにシンプルなアプローチで、同様の幻覚の減少を実現できるかどうかを考えることができる。確かに、幻覚と長さには相関があり、長さが短ければ幻覚は少なくなるはずである。しかし、第4章で指摘したように、幻覚を劇的に減らすことは、制御メカニズムがなくても可能かもしれないし、少なくともWikiBioでは、テンプレートで実現できる。しかし、情報量の大幅な減少、つまり入力欄のカバー率を落とさずにそれを実現することが大きな課題である。 $\text{hal}_{LM}$ の出力と $\text{hal}_{WO}$ の出力、および両者をTianら（2019）の出力と比較すると、平均文長（文節トークン数）のランキングは、カバー率のランキングと、それぞれ17.2、17.8、18.7で一致することに注目する（表2）。 $\text{hal}_{WO}$ は特別なhal_0トークンを学習データの最短20％に関連付けるが、 $\text{hal}_{LM}$ は明らかにデータポイントの20％の異なる選択と関連していることがわかる。

6. 結論

我々は、学習データ中のノイズによって引き起こされる幻覚を制御するためのシンプルで強力なアイデアを提示し、そのようなノイズを検出する2つの方法を提案した。そして、すべてのソースとターゲットの例がどの程度ノイズが多いかをモデルに知らせ、モデルのアーキテクチャを変更することなく、カバーエイジコストなしで幻覚の量を減らすことが可能であることを実証した。重要なのは、データについて仮定することなく、これを実現したことである。人間による評価では、生成された文の忠実度は、流暢さや網羅性を損なうことなく、大幅に向上することが示された。ノイズの多いWikiBioデータセットで報告した結果は、先行研究を改善するものであった。

2023-05-23

今日の論文2023/05/21,22：Retrieval Augmentation Reduces Hallucination in Conversation

今日の論文

Retrieval Augmentation Reduces Hallucination in Conversation

aclanthology.org

Kurt Shuster, Spencer Poff, Moya Chen, Douwe Kiela, and Jason Weston. 2021. Retrieval Augmentation Reduces Hallucination in Conversation. In Findings of the Association for Computational Linguistics: EMNLP 2021, pages 3784–3803, Punta Cana, Dominican Republic. Association for Computational Linguistics.

License: Creative Commons Attribution 4.0 International License(CC-BY)

本記事は、原著の内容に基づき筆者が要約または翻訳したものです。以下の図は、そこから引用しています。

This article is my summary or translation based on the content of the original publication. The following figures are taken from it.

要点まとめ

人間に近い会話能力を示すようになったとはいえ、SoTAの対話モデルはしばしば事実誤認や知識の幻覚に悩まされている（Roller et al., 2020）。本研究では、我々は、最近、オープンドメインのQA（Lewis et al, 2020b; Izacardand Grave, 2021b）において、知識に基づいた対話に有効であることが示された、ニューラル検索インザループアーキテクチャの使用について調査する。このタスクは、複雑な複数ターンの対話コンテキストに基づくクエリを実行し、会話的に首尾一貫した応答を生成する必要があるため、より困難なタスクであることは間違いない。我々は、リトリーバー、ランカー、エンコーダー-デコーダーといった複数の構成要素からなる様々なタイプのアーキテクチャを研究し、会話能力を維持したまま知識量を最大化することを目的とする。我々は、2つの知識ベースの会話タスクにおいて、我々の最良のモデルがSoTAの性能を獲得したことを実証する。このモデルは、オープンドメインの会話能力を示し、訓練データにないシナリオにも効果的に汎化し、人間による評価で検証されたように、最先端のチャットボットでよく知られている知識の幻覚の問題を大幅に軽減する。

1. 序論

大規模コーパスで学習した大規模言語モデルは、対話エージェントの流暢さと会話能力を飛躍的に向上させた（Adiwardanaet al., 2020; Roller et al., 2021）。ドメイン内テストセットで高いトークンアキュラシーを持つ、perplexityの低いモデルが得られている。これらのモデルは、数十億のパラメータからなる重みに暗黙のうちに知識が蓄積されているため、オープンドメインのトピックについてある程度知識的に話すことが可能である。しかし、残念ながら、最大規模のモデルであっても、よく知られた「幻覚」問題（Maynez et al., 2020）に悩まされ、事実とは異なるもっともらしく見える状態を生成してしまう。2つの類似したエンティティの間で事実を取り違えてしまったり、たった1つのトークンが間違っていることが正しいか間違っているかの違いになってしまうような誤りを犯すことがよくあるようだ。175Bパラメータの言語モデルであるGPT3（Brown et al., 2020）を用いた例については図1を参照されたい。

最近導入された質問応答技術は、ニューラル検索インザループアプローチ（neural-retrieval-in-the-loop approach）である検索-補強生成（retrieval-augmented generation: RAG）（Lewiset al., 2020b）で、オープンドメインの質問に正しく答えるのに効果的であることが証明されている。この技術では、エンコーダとデコーダが質問をエンコードし、答えをデコード（生成）する。エンコードは、学習されたマッチング関数を使って大規模な非構造化文書セットから検索された文書やパッセージで補強され、ニューラルネットワーク全体がエンドツーエンドで学習されるのが一般的である。しかし、このような方法は、オープンドメインの知識に基づく対話という、より困難なタスクにはまだ適用されていない。この場合、質問だけでなく、対話のコンテキスト全体が入力として与えられるため、検索タスクは、より長いコンテキストと、質問に答えるための単一の事実ではなく、会話を進めるための補足的な知識を見つける必要からより難しくなる。このようなモデルは、応答を生成する際の会話能力、知識の安定性、事実性の両方を提供しなければならない。

　本研究では、ダイアローグのための検索補強型ニューラルアーキテクチャの様々な構成要素（検索器、ランカー、エンコーダ・デコーダ）を研究し、どの方法がどのような状況でうまく機能するかを分析しながら、いくつかの新しいバリエーションを提案する。特に、Poly-encoder Trans-formers (Humeau et al., 2020)を採用し、よりきめ細かい文脈候補のスコアリングを行い、Fusion-in-Decoder (Izacard and Grave, 2021b) テクニックでエンドツーエンドに訓練した検索器を採用し、対話文脈を多く無視する標準検索器の問題を回避することで、対話ターンベースの検索機構を構築して下流性能を改善することができた。

　我々の最高のモデルは二つの知識に基づく会話タスク、Wizard of Wikipedia（Dinan et al., 2019b）とCMU Document Grounded Conversations（CMU_DoG）（Zhou et al., 2018）の2つの知識に基づいた会話タスクでSoTAの結果を提供する。我々は、標準的な（非検索補強型）大規模言語モデルが実際に幻覚に苦しむのに対し、我々の最良のモデルはこの問題を大幅に抑制し、幻覚応答を60%以上削減することを自動および人間の評価を通じて示す。この効果は、分布外のトピックやテストデータでさらに顕著であり、検索が直感的にモデルの重みにないものを補うことができるケースであることを示す。ベースラインに対する知識力メトリックの利益は、分布内データで70%、分布外データで85%である。最後に、性能差の原因がどの要素にあるのかを徹底的に分析し、我々のアプローチの有効性を強調する。

2. 関連研究

テキスト生成モデルにおける幻覚は、特に要約（Maynez et al., 2020）、機械翻訳（Zhou et al., 2021）、ニュース生成（Zellers et al., 2019）の場面で、最近注目されている話題である。対話については、SoTAのモデルで観察され（Rolleret al., 2021）、深く研究されている（Mielke et al., 2020）が、今のところ解決されていない。

　オープンドメインの質問応答（QA）は、長い間、検索を中間段階として考えてきた（Voorhees and Tice, 2000）。最初は単純なベクトル空間ベースの検索器（Chen et al., 2017）を使用し、その後、検索コンポーネントがニューラルネットワークでもあるエンドツーエンド生成モデル（Lewis et al., 2020b; Izacard and Grave, 2021b）を使用するなど、最近より集中的に研究されているトピックになっている。構造化されていないテキストに対するこれらの最近のニューラルアプローチは、知識ソース（Wikipediaのハイパーリンクなど）のグラフ構造を利用する先行手法を追い越し（Min et al., 2019; Asai et al., 2020; Sun et al., 2019; Xiong et al., 2019）、対話のための魅力的な代替手段である。

　知識に基づく対話はますます重要なトピックになりつつあり、その発生をモデル化しようとするいくつかのデータセットが提案されている（Dinan et al., 2019b; Ghazvininejad et al., 2018; Gopalakrishnan et al., 2019; Galetzka et al, 2020）しかし、これらの研究の多くは、ここで検討するように、構造化されていない大きな集合から知識を検索することを学習するのではなく、知識のゴールド通路を提供することに基づいて構築されている。最近の方法は、次のことに焦点を当てている。：与えられた知識の断片のどの要素が対話に有益であるかを決定し、これは一般的に「知識選択」と呼ばれている（Zhao et al. 2020b; Kim et al., 2020; Bruyn et al., 2020）。関連する知識を得る方法の学習（Maet al., 2020; Cai et al., 2020; Zhao et al., 2020a）、または大規模言語モデルにどの程度の知識が存在するかの調査（Zhao et al., 2020c）。最近の研究では、検索に基づく機構が検討されているが、知識に対する検索は、一般に、検討されたコーパス全体の小さなサブセットに限定されている（Fan et al., 2021; Bruyn et al., 2020; Hedayatnia et al., 2020）。非構造化テキストの知識を取り入れることは、一般的に、固定文書、小さな文書セット、または単純なベクトル空間モデルからの選択に限定される（Dinan et al., 2019b）。

　ごく最近、タスク指向のダイアログに検索補強型生成が適用された（Thulke et al., 2021）。これは、オープンドメインな知識ベースの対話設定とは対照的なものである。検索補強ステップを含む他の研究には、言語モデリングの分野があり、そこでは、事前学習（Guu et al., 2020）、記憶（Yo-gatama et al., 2021）として、特にk近傍法ベースのキャッシュモデル（Khandelwal et al., 2021, 2020; Grave et al., 2017; Merity et al., 2017）を用いて使用されている。

3. モデルアーキテクチャ

我々は、オープンドメインのQAで優れた性能を発揮してきたニューラル検索インザループ生成ベースのアーキテクチャを、知識に基づくタスクに拡張する。このタスクでは、モデルの応答は知識があるだけでなく、長文生成と複数回の会話ターン全体を通じて一貫性があり、魅力的である必要がある。

　表記を一貫させるために、 $x_i=\{ x^1_i, \ldots, x_i^n \}$ をダイアログコンテキスト $i$ のトークンとし、同様に $y_i$ をグラウンドトゥルースの応答と定義する。 $Z_i= \{z_{i,1}, \ldots, z_{i,k} \}$ は、取得した $k$ 個のドキュメントのセットである。 $q( x_i )$ と $d( z_j )$ はそれぞれダイアログコンテキストと候補ドキュメントの表現であり、検索メカニズムにおいて $p_{\eta}(z_j | x_i )$ は、コンテキスト $x_i$ が与えられた時にドキュメント $z_j$ を選択する確率である。最後に、 $p_{\theta} ( y^m_i | x_i, z_{i,j}, y^1_i, \ldots, y^{m−1}_i )$ は $x_i$ 、 $z_{i,j}$ 、および先行の出力トークンが与えられた場合のトークン $y^m_i$ を出力する完全なジェネレータの確率であり、 $p_{\theta} (y_i | x_i, z_{i,j} )$ は完全なシーケンススコアである。一部のケースでは、明確さを保つために添字 $i$ と $j$ が省略される。

3.1 RAGとFiD

ニューラル検索は、BM25のような単語類似度ベースのアーキテクチャを凌駕することが示されており、FAISS（Johnson et al., 2019）のようなGPUベースの類似性検索ライブラリの助けを借りて、数百万の文書の知識ソースに拡張することができる。まず、これらの新アーキテクチャについて説明する。

Lewisら（2020b）は、RAG（retrieval-augmented generation）アーキテクチャを紹介した。RAGモデルは、様々なQA設定において正しい文章をランク付けするように事前に訓練されたDense Passage Retriever（DPR）を利用する（Karpukhin et al., 2020）。大容量FAISSインデックスには、関連文書のクエリとして $q(x_i)$ と共に $d(z_j)$ が格納されて。RAG-Sequenceは文書を独立に考慮し、連結された文脈ごとに出力シーケンスを別々に生成し、出力生成を周辺化する。RAG-Tokenはすべての文書に対する出力分布を周辺化し、生成が各トークンに対して異なる文書に関与することができる。 $d(z_j)$ は訓練中も固定されているが、トークンの損失はレトリーバー自身に伝わり、コンテキスト表現 $q(x_i)$ はレトリーバーをよりタスクに適合させるために更新される。

IzacardとGrave（2021b）はFiD（Fusion-in-Decoder）法を紹介している。再取得された文書の集合が与えられると、ジェネレーターのエンコーダは拡張されたコンテキスト $[ z_{i,j} ; x_i$ ]を独立に考慮する。エンコーダの出力はデコーダに渡される前に連結され、デコーダが同時に文書/コンテキスト表現全体に関与することを可能にする。FiDは、訓練中にリトリーバを修正したにもかかわらず、多くのQAタスクで優れた性能を示し、複数の文書に注目することの有効性を実証している。

3.2 ニューラル検索を改善する

ニューラル検索の導入は、RAGとFiDモデルがQAタスクで達成した性能向上の主な要因である。非ニューラル検索を代用すると、オープンドメインのQAタスクの性能は劇的に低下する（Lewis et al., 2020b）。そのため、検索性をさらに向上させることが、さらなる改善につながるはずである。

　計算コストをかけずに相互作用を高める方法として、DPRで検索された文書のサブセットを、より候補を意識したアプローチで再ランク付けする方法がある。DPRでは、対話コンテキストと文書候補は、最終的なドット積類似度を介してのみ相互作用する。しかし、両者の相互作用をより大きくすることで、様々な情報検索やランキングタスクにおいて優れた結果が得られる（Humeauet al., 2020; Khattab and Zaharia, 2020）。完全な相互作用は何百万もの候補文書に拡張する際に実行不可能であるため、最近の研究では、計算の大部分を分離したまま、コンテキストと候補出力の間の後段の相互作用を許可している（Khattab and Zaharia, 2020）。ある研究では、これが、次の発話を予測する対話ベースの候補ランキングタスクにおいて特に有効であることが示されている（Humeau et al., 2020）

　計算コストをかけずに相互作用を高める方法として、DPRで検索された文書のサブセットを、より候補を意識したアプローチで再ランク付けする方法がある。この方法では、Poly-encoder（Humeau et al., 2020）を採用する。Poly-encoderは、最終的なスコア計算の前に候補を意識した文脈表現を得る、追加の注意機構を導入している。この方法をDPR-Polyと呼ぶ。また、DPRモデルの重みでPoly-encoderを初期化することもでき、この方法をJoint DPR-Polyと呼ぶ。

　さらに、完全検索セットアップにおいて、より大きなコンテキストと候補の相互作用を利用する方法を検討する。PolyFAISSセットアップでは、まずPoly-encoderを訓練し、標準的なドット積とPoly-encoderスコアの間でスコアリング機構を変化させる。そして、Poly-encoderの候補エンコーダから得られた $d( z_j )$ 表現からFAISSインデックスを作成し、標準的なPoly-encoderのコンテキスト表現の縮小によってインデックスを照会する。そして、検索された文書は、Poly-encoderの完全なスコアリングメカニズムに従って再ランク付けされる。

3.3 オーグメンテッドジェネレーションの改善

マルチターン対話コンテキストは、QAにおける単一質問コンテキストよりも検索システムにとって困難である可能性がある。実際、知識に基づく対話のための先行する手法は、検索に系列の位置を組み込むことを試みたり（Fan et al., 2021）、連続した決定プロセスを考慮したり（Kim et al., 2020）している。そこで、我々は、コンテキスト全体に対する周辺化の前に、ダイアログのターン内の文書を周辺化する手法を検討し、複数の文書に対して情報を合成することを可能にすると同時に、文書がダイアログのターンごとのコンテキストに関連していることを確実にする。

RAG-Turnは、RAG-SequenceとRAG-Tokenと比較して、対話のターンを別々に考慮した上で、共同周辺化を行う。ここで、我々のコンテクストとは、 $X= \{ x_1, \ldots, x_T \}$ のように $T$ ターンのセット $X$ と考える。あるコンテキスト $X$ に対して検索された文書の全セットを $Z=\{Z_1, \ldots, Z_T \}$ と定義する、ここで、 $Z_t = \{ z_1, \ldots, z_k \}$ はコンテキスト $X$ のターンのために検索された文書のセットである。

　RAG-Turn Doc-Then-Turnは、各ターンは潜在的に異なる文書集合を含むので、まずターン内の文書を周辺化し、次にターン間の文書を周辺化し、その結果得られるシーケンスの各トークンについて周辺化する。

　RAG-Turn Doc-Onlyは、各ターンを独立に考慮し、ターン内の文書を合同に考慮することも可能である。ここでは、ターン $x_t$ の生成確率 $p_{ \text{Turn-DO} } (y | x_t)$ を次のように定義する。

　トレーニングでは、異なるターンは完全に異なるコンテキストとみなされ、損失は各ターンのグランドトゥルースラベルに対して計算される。推論では、まず各ターンに対して候補となるシーケンスを生成し、さらにフォワードパスを実行して最終的な生成を再スコアすることで、「徹底的な」脱コード化（Lewis et al., 2020b）と同様の手法をとる。この方法は、すべての候補ビームを単純にポストホックで再ランキングするよりも優れていることを発見しました。

ダイアログコンテキストが大きくなるにつれて過剰な計算を避けるため、値 $T^{\ast}＝1 ≦ T^{\ast} ≦ T$ を固定し、最新の $T^{\ast}$ ターンを独立に考慮し、それ以前のすべてのターンを合同に考慮し、 $T^{\ast} ＋1$ 個の合計コンテキスト「ターン」を生成する。

　最後に、RAG-Turn TokenとRAG-Turn Sequenceの概要を付録Bに示しすが、単純に総文書数を増やす手段として、RAG-Turnという概念を考えてみました。

3.4 フュージョンインデコーダーの改善

FiDはリトリーバーを訓練しないが、独立したエンコーダ出力が最終生成をデコードする前に融合されるため、RAGよりも大規模な文書集合に効率的に対応することができる。FiDは、主にBM25検索器やQAデータセットで事前に訓練されたニューラルリトリーバーを使って、オープンドメインのQAタスクに適用され、大きな成功を収めてきた（Izacardand Grave, 2021b; Xiong et al, 2021）。しかし、知識に基づく対話は、質問応答よりも困難な（あるいは、少なくとも物質的に異なる）検索タスクを提供する。RAGで訓練されたDPRベースのリトリーバーを持つモデルをFiD-RAGと呼び、他の検索方法との比較を示すために関連する接尾辞を付ける。

4. 実験

データセット：Wizard of Wikipedia (WoW) (Dinan et al, 2019b)とCMU Document Grounded Conversations (CMU_DoG) (Zhou et al, 2018)の2つのデータセットで実験を行い、どちらも英語での人対人のクラウドワーカーのチャットを通して収集された知識基盤の対話のセットで、一方のクラウドワーカーはWikipediaからの外部知識にアクセスすることができる。WoWは様々なトピックについて議論し、CMU_DoGは映画について議論している。WoWは様々なトピックを、CMU_DoGは映画について議論する。それぞれについて、”seen”、"unseen"の検証用とテスト用の分割を考え、"unseen"分割には訓練データで議論されていないトピック（WoW）または映画（CMU_DoG）も含まれる。WoWではこのような分割が可能だが、私たちはCMU_DoG用に独自の分割を構築した。両データセットとも、検索用の知識源として標準的なKiLT Wikipedia dump (Petroni et al., 2021) を採用している。データセットの詳細は付録Cにある。

メトリック：我々は、生成された回答に対して、perplexity (PPL)、unigram overlap (F1)、BLEU-4 (B4)、ROUGE-L (RL)を含む標準的な自動測定基準を採用した。また、4.2節で説明したKnowledge F1 (KF1)という追加指標を考慮し、人間の評価も考慮した。トレーニングの詳細は付録Dに記載されている。

4.1 検索効率

まず表1では、BART-Largeに標準的なRAG-Token DPRモデルを使用することで、対話のコンテキストとWikipedia全体から知識を検索する場合、両方のデータセットにおいて検索の補強なしでBART-Large自身を上回る性能を発揮することを示している。同様に、異なるエンコーダ・デコーダの基本アーキテクチャ（seq2seqモデル）と検索メカニズムを表2に比較した。全体として、知識ベースの会話データセットでは、検索が性能向上に大きく寄与していることがわかる。

4.2 幻覚の除去

我々は、モデルが検索された知識に適切に接地しているかどうかを知りたいのであって、単に検索された文書から一般的な単語をコピーするように学習しているわけではない（我々は英語版Wikipediaのすべてのトークンを含む非構造化知識ソースを使用しているため）。機械翻訳やQAなどの関連分野で有用であるにもかかわらず、F1、BLEU、ROUGEなどの標準的な自動化メトリックは、ニューラル会話モデルが実環境でどれだけうまく機能するかとは完全に相関しないことが示されている（Liu et al., 2016; Dinanet et al., 2019a; Mehri and Eskenazi, 2020）。そこで我々は、追加のメトリックであるKnowledge F1を導入している。標準的なF1は、モデルの生成と真実の人間の反応との間の一語の重複を測定するものであるが、Knowledge F1（KF1）は、データセット収集の際に人間が根拠とした知識との重複を測定するものである。KF1は、人間が判断した関連知識を用いてモデルが知識的に話しているかどうかを捉えようとするものであり、標準的なF1は、知識とは無関係なトークンの重なりを含む会話能力を捉える。

表1は、知識を持たないベースライン、検索機構を持つモデル、金知識を与えられたモデルを1ターンごとに比較したものである。さらに、毎ターン真のラベルまたは真の知識を用いた反応のメトリクスを示す。通常のF1によるベースラインと検索補強モデルの差は顕著であるが、Knowledge F1を考慮するとその差は大きくなり、この要素が検索補強手法の真の利得の源泉であることがわかる。この結果は、モデルが適切に知識を活用していることを裏付けている。

4.2.1 会話の人手評価

WoWテストセット（unseen）の様々な会話コンテキストに対する100のモデルの応答に対するアノテーションを実施した。専門家によるアノテーションは、研究を実施しているラボの研究者より調達した。すべてのモデルについて、会話コンテキスト、グランドトゥルースレスポンス、グランドトゥルースレスポンスを書いた人間が使った知識を表示する。次に、アノテーターに以下の質問を投げかけ、モデル性能の4つの軸を測定する。1) 一貫性（Consistency）：会話の文脈の中で、その回答が意味をなしているか、また、それ自体も意味をなしているか。2) 魅力度（Engagingness）：あなたはその反応に興味を持ちましたか？会話を続けたいと思うか？3) 知識力（Knowledgeable）：回答には、知識豊富で正しい情報が含まれているか？ 4)幻覚：モデル出力の一部が事実と異なるか？アイデアは混在していないか？

　評価結果は表4に示すとおりである。検索を強化したモデルでは幻覚率が劇的に低下し、知識力は急上昇している。これらの結果は、我々のモデルが会話における幻覚を減少させるという我々の主張を支持するものである。モデルの出力例を表3に示す。

ここで興味深い結果は、文書間の情報を融合するように設計されたRAG-Tokenベースのアーキテクチャは、実際にはそうでないアーキテクチャよりも知識の幻覚を起こしやすいということである。これは、一般的な自動化指標では直感に反する結果だが、我々のKnowledge F1指標ではそれを裏付けている。WoWの文書数を変化させた場合の性能については、セクションI.6と付録の表23で検証している。注目すべきは、RAGTokenで25個の文書を検索した場合、同じかそれ以上のF1スコアと、同じかそれ以下のperplexityが得られることである（PPLはvalid unseenで13.4から13.0に低下、F1はvalid seenで22.5から22.6に上昇）。しかし、Knowledge F1スコアが低下し（valid seenで26.0から24.7、validunseenで22.7から21.1）、人間の評価では幻覚が高く見られた。FiD-RAGモデルで考慮する文書数を増やすと、同様の傾向が見られる。人間評価指標とKnowledge F1は、標準的なF1と比較して強い相関がある（付録の図2参照）ので、今後はKnowledge F1も評価することを推奨する。

4.2.2 事実性と会話性

表4は、検索機能付きモデルと関連するベースラインでは、一貫性と魅力度が概ね同等であることを示している。ただし、魅力度がわずかに低下したのは、一部のモデルが検索された知識に依存しすぎたためと考えられる。つまり、事実性が会話能力を犠牲にすることはないようだ。これは、表1、表2などのF1やKnowledge F1のスコアとも一致している。一般に、F1値は検索型と非検索型の間で類似しているが（F1は魅力度により近いプロキシである）、Knowledge F1は（知識および幻覚測定のプロキシである）大きな違いを示している。

4.3 未知の分布への一般化

表5は、WoWとCMU_DoGの修正版の未使用データ分布に対するモデル評価の自動化指標である。未知のトピックに移行する際に、検索補強による知識へのアクセスを持たないモデルでパフォーマンスが低下する。これは、オープンドメインの対話モデルにとって必要なスキルである、新しい入力への一般化がうまくいかないという一般的な傾向を示している。WoWでは、BARTはPPL、F1、Knowledge F1でそれぞれ29％、11％、14％の性能低下、RAG DPR-Polyは同指標で16％、5％、8％の性能低下にとどまっているため、知識ベースモデルはこの問題にほとんど悩まされていない。我々の最も優れたモデルは、WoW Testの未使用のスプリットで新しいSoTAの結果を達成した（比較は表6を参照）。 Knowledge F1スコアは非常に高く維持されており、検索補強モデルは一般に、この指標に関して少なくとも性能が低下していることから、補強機能がこれらのトピックに関する知識を効果的に検索できることがわかる。

4.4 生成の拡張

4.4.1 対話のターンの条件

表7は、セクション3.3で定義したRAG-Turn法と標準的なRAG-Sequence法およびRAG-Token法を比較したもので、さらに、最新の対話のターンのみを検索対象とした標準的なRAGモデルとの比較も行っている（BLEU-4およびROUGE-Lscoresは表12参照）。文脈全体を考慮しない場合、すべてのメトリクスでパフォーマンスが劇的に低下することがすぐにわかる。RAG-SequenceとRAG-Tokenを比較すると、RAG-SequenceはRAG-Tokenよりも正規のF1スコアは低いが、知識のF1スコアは高く、RAG-Sequenceモデルは知識を取り込むのは得意だが会話能力を保つのは苦手という表4の人間の評価結果をさらに強調する結果となった。RAG-Turnモデルはこのギャップを埋め、2つのバランスのとれたトレードオフを提供する。RAG-Turn Doc-Then-TurnメソッドはRAG-Sequenceモデルより高いF1スコアを、RAG-Tokenモデルより高いKnowledge F1スコアを得た。Doc-Only RAG-Turnメソッドはseen/unseen分割の両方で最高のF1を達成し、RAG-TokenモデルのKnowledge F1スコアが改善された。異なる $T^{\ast}$ 値を用いた結果、およびRAG-Turn TokenとRAG-Turn Sequenceを用いた結果については、付録のセクションFと表13を参照。

4.4.2 FiDベースの生成の拡張

表8は、FiDのセットアップにおける様々なリトリーバの使用状況を比較したものである。FiDが知識ベースの対話に最適でないことは明らかであり、RAGで訓練されたリトリーバーを組み込むことで、パフォーマンスが大幅に改善される。具体的には、perplexityが大幅に減少し、Knowledge F1が大幅に向上した。BARTを用いたFiD-RAG-Polyは、これらのseen/unseen分割においてそれぞれ33%と41%のKnowledge F1の向上を示し、T5を用いたFiD-RAGは37%と25%の向上を示している。

4.5 検索機能強化の効果

表9は、WoW検証セットにおける、様々な検索/リランカー補強の結果の概要である。1行目は、非ニューラル検索器であるTFIDFを用いた結果で、WoWデータセットが「ウィザード」に知識を提供するためにTFIDFベースのリトリーバーを用いて構築されていたことから、これは強いベースラインとなる。しかし、DPRはすべての自動評価指標でTFIDFを強く上回っている。ニューラルベースの手法については、RAGの標準的なDPRリトリーバにPoly-encoderリランカーを追加したコードリランキングアプローチを使用すると、検証セットの両方の分割で自動化指標に関して最高性能のモデルが得られることがわかる。エンドツーエンドのリランカー機構であるPolyFAISSは、強力な結果をもたらしたが、DPRよりも有用であることは証明されなかった。付録Eの表11は、真の知識文が検索された上位k個の文書に含まれる頻度を測定することにより、これらの手法の生の検索力を測定したものである。リランキングを追加すると、検索能力が向上することが確認された。

4.6 追加アブレーション

スペース上の制約から、付録でいくつかの追加説明を行う。セクションI.1では、異なるエンコーダ・デコーダアーキテクチャとサイズにおける性能を分析し、BARTとT5がBlenderBot-400mより優れていることに注目する。一方、より大きなモデルは、同じかそれ以下の生成ベースの評価を達成しながら、より低いperplexityをもたらす。セクションI.2では、検索用に訓練されたニューラルモデルが必要かどうかを検討し、検索用にBARTまたはT5エンコーダを採用することは、我々のノウハウソースのサブセットを使用する場合に有効であることを結論付ける。セクションI.3では、デコード戦略がパフォーマンスにどのように影響するかについて議論し、ビームサーチが幻覚を減らすのに最適な戦略であることを示した（この点ではサンプリングベースの方法は不十分である）。セクションI.4では、リトリーバ／リランカーモジュールの事前トレーニングの影響について議論し、RAGセットアップでは、これらのモジュールは単に良い状態で開始する必要があると結論付けた。最後に、セクションI.6では、推論時にこれらのq2seqモデルが条件とする文書の数が、モデルの性能にどのように影響するかを概説し、文書の数が多いほどF1スコアが高くなるが、Knowledge F1スコアは低くなる。

5. 議論

これまで、知識ベース対話における文書の検索と条件付けの方法をいくつか検討してきたが、ここではその結果から得られた重要な点をまとめる。

　まず、検索コンポーネントの強さは、下流性能に非常に重要であることを指摘する。 DPR-PolyはWoWで最高の検索指標を獲得し（付録の表11）、その後、最高の生成指標を得ることができた（表2）。 FiD-RAGモデルは、オープンドメイン対話用に調整されたリトリーバの重要性を明確に示している（表5）。

　第二に、複数の文書を同時に条件とするモデルは、より魅力的な会話士になることを指摘する。RAG-Token、RAG-Turn、FiD-RAGは、RAG-Sequenceよりも高いF1スコア（表7）と高いエンゲージメント/一貫性スコア（表4）をもたらし、高い知識力を維持する。RAG-Turnは、特定の構成では、独立して対話のターンを条件付けることにより、自動化メトリクスにも利益をもたらすことを示している。また、FiDアーキテクチャは、複数のドキュメントを同時に考慮した場合に、より最適であることがわかった（より高いF1/KF1、より低い人間評価による幻覚）が、各世代で複数のドキュメントを条件とした場合には、すべてのモデルでより幻覚に苦しむことがわかった（表4、付録の表23）。

　最後に、オープンドメイン対話に用いられる標準的なメトリクスは、モデル内の幻覚を真に捉えるには不十分であることに留意する。したがって、モデルの性能をさらに研究するためには、Knowledge F1のようなメトリクスが必要となる。付録の図2は、このような自動化された指標と人間の評価との相関を強調している。

6. 結論

本研究では、会話エージェントにおける知識の幻覚の問題を研究した。この問題は、現在のシステムがしばしば事実上不正確な世代を生成することから、重要な問題である。この問題は、言語モデルのサイズや学習データとは無関係に発生することを明らかにした。特に検索支援型生成は、この問題に対する直感的な有望な解決策であり、詳細な実験により、このクラスのアプローチが、会話能力を維持したまま対話における幻覚問題を有意に低減し、訓練データを超えて未知の分布に一般化できることが示された。今後の課題としては、手法の改善や、検索された知識とモデルの重みに格納された知識との相互作用の理解など、未解決の問題に対する解決策を見出すことである。

2023-05-21

今日の論文2023/05/20：On the Origin of Hallucinations in Conversational Models:Is it the Datasets or the Models?

今日の論文

On the Origin of Hallucinations in Conversational Models:Is it the Datasets or the Models?

aclanthology.org

License: Creative Commons Attribution 4.0 International License(CC-BY)

本記事は、原著の内容に基づき筆者が要約または翻訳したものです。以下の図は、そこから引用しています。

This article is my summary or translation based on the content of the original publication. The following figures are taken from it.

要点まとめ

知識に基づいた会話モデルは、事実と異なる発言をすることが知られており、一般に幻覚（hallucination）と呼ばれる現象である。本研究では、この現象の根本的な原因、すなわち「幻覚は訓練データによるものなのか、それともモデルによるものなのか？」という問いについて調査する。我々は、既存の知識ベースの会話ベンチマークといくつかのSoTAモデルの両方について、包括的な人手調査を実施する。その結果、標準的なベンチマークは60%以上の幻覚応答で構成されており、幻覚だけでなく幻覚を増幅するようなモデルになっていることがわかった。この結果は、既存のデータセットとそれを用いて訓練されたモデルの品質に関する重要な問題を提起するものである。今後の研究のために、私たちのアノテーションを公開する。

github.com

1. 序論

事前に訓練された大規模な言語モデル（Radfordet al., 2019; Brown et al., 2020; Raffel et al., 2020）を搭載した知識に基づいた会話モデルは、事実と異なるステートメントを生成することがよく知られており、一般的に幻覚（hallucination）（Dziri et al., 2021b; Rashkin et al., 2021b）と呼ばれる現象を起こす。先行研究の大部分では、モデルを改善することで幻覚に対処しようとするのが大きな共通点である（Shuster et al., 2021; Mielke et al., 2020; Dziri et al., 2021a; Rashkin et al., 2021b）が、私たちの知る限りでは、これまで会話ベンチマークを監査する試みは行われていない。

　一方、知識に基づく会話ベンチマークは、エラーを起こしやすい収集プロトコルによる幻覚を含んでいるかもしれないし、忠実さよりも情報量を奨励するデサインフレームワークのせいかもしれない。既存の対話システムは、通常、オンラインプラットフォームを通じてクラウドソースされたコーパスで訓練されている（Dinan et al., 2018; Gopalakrishnan et al., 2019; Moon et al., 2019）。提供された知識に対して忠実に根拠のあるユーティリティを考え出すインセンティブが緩いため、クラウドワーカーは知識スニペットを完全に無視したり、個人の知識を利用したり、時には架空の人物を想定したりすることがあり、その結果、主観的コンテンツや検証されていない事実知識に溢れた会話が生まれる。図1に、WOWデータセットから得られた幻覚のような会話を示す（Dinan et al.、2018）。

　一方、ニューラル会話モデルは、必ずしも忠実な出力を生成するのではなく、データの分布特性を模倣するように設計されている。このような最適化により、テスト時の幻覚行動を再現し、さらには増幅するようなモデルが押し出される可能性が高い（Bender et al., 2021）。幻覚的な応答が少数でも存在すると、忠実な反応を生成するモデルの能力を抑制するような形でデータ分布が歪むことがある（Kang and Hashimoto, 2020）。

　この研究では、談話現象の言語的コーディングシステム（Stiles, 1992）や、BEGIN（Dziri et al., 2021b）やAIS（Rashkinet al., 2021a）のような評価フレームワークからの洞察を得て、広く使われている3つの知識基盤型会話ベンチマークの回答にアノテーションを付けることにした： Wizard of Wikipedia （Dinan et al., 2018）、CMU-DOG（Zhou et al., 2018）そしてTOPICALCHAT（Gopalakrishnan et al., 2019）である。

　その結果、3つのデータセットにおいて、60％以上の回答が幻覚化されており、主な幻覚化様式は、主観的情報（思考、信念、感情、意図、個人的経験など）の表現と、裏付けのない客観的事実情報の表現によって現れていることが明らかになった。さらに、ニューラル会話モデルがこの幻覚をより深刻にするかどうかを理解するために、幻覚を回避するように設計されたものを含む、いくつかの最新モデルによって生成された応答を注釈した。その結果、生成された応答は、訓練データと比較して、幻覚の割合がさらに多いことがわかった。この結果は、現在の会話データセットの品質、知識ベースの会話システムを訓練するための適切さ、および既存のモデルの頑健性に疑問を投げかけるものである。

2. ベンチマークにおける幻覚

我々は、3つの英語クラウドソース知識ベース会話ベンチマークの人間研究を実施した： Wizard of Wikipedia (WOW)、CMU-DOG、TOPICALCHATである。これらのデータセットは2人の話者による対話で構成され、目標は特定のトピックに関する情報を伝達することであり、話者には現在のターンに関連する知識ニペットが提示される。

レスポンス分類のタクソノミー：BEGIN分類法（Dziri et al., 2021b）とAISフレームワーク（Rashkin et al., 2021a）の定義に従って、知識スニペットから排他的に推測できるかどうかに基づいて、各レスポンスを以下のようにアノテートする。含意：レスポンスは知識によって完全にサポートされている、つまり、それを含むすべての情報は、その知識に帰着しなければならない。幻覚：応答の事実的な正しさは、（たとえそれが現実世界で真実であっても）知識スニペットから完全に検証することができない。より具体的には、個人的な意見、経験、感情、現実の内部評価など、ソース文書に存在する情報に帰することができないものは、幻覚とみなされる。部分的な幻覚：応答の一部が幻覚で、残りはソース知識によって含意されいている。汎用：「良さそうだ」「それはどうかな」など、曖昧で事実上の情報を伝えない応答。非協力：Gricean maxims（Grice, 1989）に従った収束的協力の原則に従わない、含意された応答。

　ハルシネーションの言語的性質を理解するために、我々はさらに、VRM（Verbal Response Modes; Stiles1992）と呼ばれる談話表現に対する言語的符号化システムに基づいて、応答をアノテートする。具体的には、「開示」「啓示」「助言」「確認」「質問」「確認」（Ack.）という発話行為でターンを分類する。表1は、各VRMタイプの定義を示したものである。私たちがVRM分類法を選んだのは、回答を分析に十分なカテゴリーに分類する簡単な方法（Bunt et al., 2020）を提供しているからである。

2.1 人手評価試験

まず、2人の言語学者に、ランダムにサンプリングされた200の訓練応答について、ソース知識に関する帰属を判断してもらうという、2段階のアノテーションプロトコルに従う。アノテーション者間の一致については、BEGINとVRMの両方でFleiss' Kappaスコアを測定している。WOWはBEGINで0.89、VRMで0.78となり、実質的な一致を示している。CMU-DOGとTOPICALCHATのアノテーションはほぼ同様の一致を示した（§E参照）。高い合意スコアは、WOWに関するAISの調査結果（Rashkin et al, 2021a）と一致している。

　第2ラウンドは、AMTの非専門家アノテーターを用いて、ランダムにサンプリングした4K件の訓練回答に対して大規模なアノテーションを行うものである。このラウンドは、専門家から得られた結果が、データの品質について結論を出すのに十分な信頼性を持つことを保証するために重要である。人間のアノテーションは高価であるため、我々はWOWベンチマークに対してのみ非専門家のアノテーションを行い、CMU-DOGとTOPICALCHATのデータに対しては専門家のアノテーションに限定した。他の2つのデータセットよりもWOWを選んだのは、ソース知識がより高速なアノテーションに適しているためである（TOPICALCHAT：300ワード＞CMU-DOG：215ワード＞WOW：27ワード）。合計で4人の信頼できるワーカーを選び、4kの回答に注釈をつけた。注釈者間一致度を計算するために、1つの回答に対して3人の作業者を2次タスクに割り当て、それぞれ500の回答を判定してもらった。Fleiss'Kappa一致度はBEGINで0.75、VRMで0.61と報告されている。Fleiss'KappaはBEGINで0.75、VRMで0.61であったが、専門家よりも低い一致度であり、これは専門家がより強い言語的背景を持っているためと予想される。我々は、以下の質問に答えることを目的とする：

(Q1）ベンチマークにはどの程度の幻覚があるのか？：図2は、WOWの各BEGINカテゴリの内訳と、専門家によるアノテーションとAMT作業者の比較である。驚くべきことに、WOWは幻覚に満ちている。200の回答に対する専門家のアノテーションによると、幻覚化した回答には忠実な内容が多く含まれており（42.3% v.s. 19.7%完全に幻覚化された応答）、合計で62%の幻覚があることが示された。この結果は、より大きなデータでも一般化され、4Kサンプルで評価した場合、幻覚回答の割合は74.4%に増加することがわかる。その結果、CMU-DOGとTOPICALCHATのベンチマークでは、同様の傾向が見られました（図3）。CMU-DOGでは61.4%の回答が幻覚であり、16.2%の回答がソース知識を完全に含んでいるに過ぎず、TOPICALCHATでも同様の結果（幻覚63.9%、含意22.9%）を示している。幻覚応答の例は§Jに描かれている。これらの結果は、対話データセットの品質について疑問を投げかけるものである。

(Q2）人対人のデータで使われている幻覚戦略にはどのようなものがあるか？：図2および図3は、3つのベンチマークにおけるBEGIN分類ごとのVRMの内訳を示したものである。その結果、次のようなことがわかった。すべてのベンチマークで、幻覚の大部分は開示（つまり、主観情報）に属している（WOW、CMU-DOG、TOPICALCHATではそれぞれ50.9%、56.2%、61.5%)。会話において、感想や意見、感覚などの主観的な情報を共有することは自然なことだが、その代償として、データセット中の知識スニペットが無視されることがよくある。さらに、幻覚応答では、啓発もよく見られる現象であり、人間は主観的な情報を議論するだけでなく、真偽を問わず、裏付けのない事実も持ち込むことがあることを示唆している。逆に、含意応答は、知識スニペットから推測される情報との関連性が高い（70%以上）。

3. モデルにおける幻覚の増幅

次に、推論時にモデルがどの程度幻覚現象を増幅するかを調査する。代表的なモデルを検討する。

GPT2（Radford et al., 2019; Wolf et al., 2019）は、知識と履歴の連合を入力とする自己回帰モデルである。
DoHA（Prabhumoye et al., 2021）は、知識接地用にBARTベースの会話モデル（Lewis et al., 2020）を構築し、生成中に符号化文書と履歴を別々に扱うtwo-viewアテンション機構を持つ。
CTRL（Rashkin et al, 2021b）は、GPT2モデルを、より劣位でより含意のある内容へと生成を導く制御トークン（Keskar et al., 2019）で補強する。

　ベンチマークで各モデルをファインチューンし、デコードに $p=0.6$ の核サンプリング（Holtzman et al., 2019）を用いる（より詳しい実装上の詳細は§Bにある）。表2に見られるように、CTRLが最良のモデルであり、幻覚比に基づくDoHAがそれに続く。§Lの表6は、生成された応答のサンプルである。§2の解析と同様に、同じ2人の言語学者に、各ベンチマークからランダムに選ばれた200のテストサンプルについて、モデル生成された応答を解析するよう依頼している。

(Q3） SoTAの会話モデルで幻覚が増幅されるか？：表2は、3つのベンチマークに制約をかけた異なるモデルの増幅の度合いを示している。数値はデータ中の各クラスの割合を示す。人間のゴールドレスポンスと対比すると、WOWにおけるCTRLを除いて、モデルは幻覚だけでなく、幻覚の割合も増幅している。例えば、GPT2はWOWで19.2%、CMU-DOGで15%、TOP-ICALCHATで15.1%も幻覚を増幅させる。逆に、含意は17.4%、9.3%、11.9%減少している。このことから、幻覚のパターンは、含意よりも学習しやすいことが示唆される。CTRL幻覚は、非協力的な回答が多くなる反面、3つの中で最も少ない。これらの回答は知識を内包しているが、履歴との整合性がとれていない。さらに詳しく調べてみると、非協力的な応答の多くは抽出的であることがわかる。つまり、内容を履歴に適合させることなくエビデンスの大きな塊をコピーしたり、エビデンス全体の正確なコピーを出力したりしている。これは、レスポンスと知識の間の高いROUGEスコアにも反映されており、ゴールドレスポンスと比較したCTRLの抽出的な性質を裏付けている。CTRLは知識との重なりを最大化するように最適化されているため、このような挙動は驚くことではない。全体として、これらの結果は、幻覚が訓練データの問題の反映であるだけでなく、モデルの弱さの結果であることを実証している。

　我々は、モデルの欠陥に寄与し得る複数の要因が存在すると仮定する。第一に、教師強制による暴露バイアス（Ranzato et al., 2016）は、モデルが以前に予測した単語に過度に依存し、その結果エラー伝播を悪化させることができるため、幻覚がより悪化することがある。第二に、最尤推定はノイズの多いデータに対して脆弱であり、モデルがすべてのテスト参照に高い確率を割り当てる必要があるため、不安定な挙動を示す。これは、機械要約で観察された事実（Kang and Hashimoto, 2020）である。さらに、この問題は、テスト時に使用されるデコード戦略に関連している。我々は、事実知識に基づくモデルは、しばしば正しい回答に最も高い確率を割り当て、他の分布（例えばtop-k ornucleus）に基づくサンプリングは、生成プロセスにおける幻覚を誘うかもしれないと推測している。そして最後に、これらのモデルの振る舞いは、最終的に事前学習時にインターネットテキストから学習したバイアスによって形作られるという仮説を立てた（Nadeem et al., 2021）。幻覚の増幅に対する各要因の役割の調査は今後の研究に委ねる。

(Q4）モデルが使う幻覚の戦略にはどのようなものがあるか？：意外なことに、モデルによって幻覚に対する戦略は異なっていた。DoHAとGPT2が主に開示に依存し増幅するのに対し、CTRLは啓発に依存する。これは、CTRLが代名詞（開示のための重要な要素）を避け、含蓄のある反応を生成するように明示的に訓練されているためである。その副作用として、非協力的な回答を増幅してしまう（表2のWOWとCMU-DOGで33.5%、12.9%、20.2%)。すべてのモデルとデータセットの完全な結果は、図6、図7、図8にある。

4. 関連研究

ニューラル言語生成における幻覚は、ニューラル機械翻訳（NMT）（Raunak et al, 2021; Wang and Sen-nrich, 2020）や要約（Durmus et al, 2020; Kang and Hashimoto, 2020）など多くの分野で、最近、多くの研究者の関心を集めている。知識ベースのニューラル対話生成における幻覚は、むしろ新しい研究問題である（Mielkeet al., 2020; Shuster et al., 2021; Dziri et al., 2021a;Rashkin et al., 2021b）。既存の研究の多くは、より堅牢な学習アプローチを導入することで、生成された出力の幻覚を回避することに焦点を当てている。Dzirietら(2021a)は、生成された応答におけるエンティティベースの幻覚を減らすために、知識グラフで補われた事実を使用するモデルを提案する。 Rashkinetら(2021b)は、訓練時に制御トークンを追加し、より客観的な文や忠実な文に向けて生成を制御している。我々の研究に近いのは、対話システムで属性を定量化するフレームワークを紹介したDziriら（2021b）とRashkinら（2021a）であるが、我々は複数のベンチマークとモデルでより細かい手動分析を行ったものである。

5. 結論

我々の調査は、対話のベンチマークとモデルの両方において、幻覚が一般的な問題であることを経験的に示している。広く使われている3つのベンチマークを分析した結果、これらのベンチマークでは幻覚が多発しており、人が使う最も一般的な戦略は「開示」と「啓発」であることが明らかになった。さらに、これらのベンチマークで学習させた会話モデルは、幻覚を軽減するように設計されたモデルでさえも、幻覚を見せるだけでなく、幻覚を増幅させることを示す。このため、高品質なデータの公開と、信頼性の高い会話システムの慎重な設計が必要である。その前に、データセットの使用や公開に先立ち、実用的な知見を見出すために、あらゆるデータセットのサンプルに目を通すことを強くお勧めする。