Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

arxiv.org

Wei, Jason, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Chi, Quoc Le, and Denny Zhou. "Chain of thought prompting elicits reasoning in large language models." arXiv preprint arXiv:2201.11903 (2022).

©The Authors

License: Creative Commons Attribution 4.0 International License(CC-BY)

本記事は、原著の内容に基づき筆者が要約または翻訳したものです。以下の図は、そこから引用しています。

This article is my summary or translation based on the content of the original publication. The following figures are taken from it.

要点まとめ

我々は、一連の中間推論ステップであるChain of thoughtを生成することで、大規模言語モデルが複雑な推論を行う能力をいかに大幅に向上させるかを探求する。特に、プロンプトにおいていくつかのchain-of-thoughtのデモンストレーションを模範として提供する、chain-of-thoughtプロンプティングと呼ばれる簡単な方法によって、十分に大きな言語モデルにおいて、このような推論能力が自然に出現することを示すことができる。

　3つの大きな言語モデルで実験した結果、chain-of-thoughtプロンプトは、算術、常識、記号推論の様々なタスクでパフォーマンスを向上させることがわかった。経験的な向上は顕著である。例えば、PaLM 540Bにわずか8個のchain-of-thoughtの模範解答を提示したところ、GSM8KベンチマークでSoTAの精度を達成し、ベリファイアを適用したファインチューニング済みGPT-３をも上回った。

1 序論

最近、言語処理環境は言語モデルによって大きく変化している（Peters et al., 2018; Devlin et al., 2019; Brown et al., 2020, inter alia）。言語モデルのサイズを拡大することで、パフォーマンスやサンプル効率の向上など、さまざまなメリットが得られることが示されている（Kaplan et al., 2020; Brown et al., 2020, inter alia）。しかし、モデルサイズの拡大だけでは、算術推論、常識推論、記号推論のような困難なタスクで高い性能を達成するのに十分でないことが証明されている（Raeet al., 2021）。

本研究では、2つのアイデアをもとに、シンプルな方法で大規模言語モデルの推論能力を引き出す方法を探る。まず、算術推論の技術は、最終的な答えを導く自然言語推論を生成することで利益を得ることができる。先行研究では、自然言語の代わりに形式的な言語を使用するニューラルシンボリックな方法（Roy and Roth, 2015; Chiang and Chen, 2019; Amini et al, 2019; Chen et al,2019）に加えて、ゼロからの学習（Ling et al, 2017）または事前に学習したモデルのファインチューニング（Cobbe et al, 2021）により、モデルに中間ステップ間の自然言語を生成する機能を与えている。第二に、大規模な言語モデルは、プロンプティングにより、in-context few-shot学習の既存の展望を提供する。つまり、新しいタスクごとに別の言語モデルのチェックポイントをファインチューニングする代わりに、タスクを示すいくつかの入出力模範をモデルに「促す」だけでよいのである。驚くべきことに、これは様々な単純な質問-回答タスクで成功している（Brown et al., 2020）。

しかし、上記のいずれのアイデアにも、重要な限界がある。合理性を強調したトレーニングやファインチューニングの手法では、高品質の合理性の大規模なセットを作成するコストがかかり、これは通常の機械学習で用いられる単純な入力-出力ペアよりもはるかに複雑である。Brownら(2020)で用いられた従来の数ショットプロンプト法については、理由付けが必要なタスクではうまく機能せず、言語モデルの規模が大きくなっても大幅に改善しないことが多い（Rae et al., 2021）。この論文では、これら2つのアイデアの長所を、その限界を回避する方法で組み合わせている。具体的には、〈入力、chain-of-thought、出力〉の3要素からなるプロンプトが与えられたとき、言語モデルが推論タスクに対して数発のプロンプトを実行する能力を探るものである。chain-of-thoughtとは、最終的な出力に至る一連の中間的な自然言語推論ステップのことであり、このアプローチをchain-of-thoughtプロンプティングと呼んでいる。図1にプロンプトの例を示す。

算術、常識、記号推論のベンチマークで実証評価を行い、chain-of-thoughtプロンプトが標準プロンプトを上回る、時には顕著な結果を示すことを示した。図2は、そのような結果の一つを示すもので、数学の単語問題のGSM8Kベンチマーク（Cobbe et al., 2021）では、PaLM 540Bを用いたchain-of-thoughtプロンプトが標準プロンプトを大きく上回り、SoTAの性能を達成した。プロンプティングのみのアプローチは、大規模なトレーニングデータセットを必要とせず、1つのモデルのチェックポイントで一般性を損なうことなく多くのタスクを実行できるため、重要な意味を持つ。この研究は、大規模な言語モデルが、タスクに関する自然言語データを用いたいくつかの例によって学習できることを強調している（大規模な学習データセットによって入力と出力の基礎となるパターンを自動学習する場合など）。

2 Chain-of-Thoughtプロンプティング

多段階の数学の単語問題など、複雑な推論課題を解くときに、自分の思考過程を考える。問題を中間段階に分解して、それぞれを解いてから最終的な答えを出すのが一般的である：「Janeがお母さんに花を2つあげたら10になり、お父さんに3つあげたら7になる...だから答えは7だ」この論文の目的は、言語モデルに、問題の最終解答に至る一貫した一連の中間推論ステップ、chain-of-thoughtを生成する能力を与えることである。few-shotプロンプトの模範解答の中にchain-of-thoughtの推論を示すものがあれば、十分に大きな言語モデルがchain-of-thoughtを生成することができることを示す。

　図1は、ある言語モデルがchain-of-thoughtを生成して数学の単語問題を解いた例である（それでなければ、不正解だった）。この場合のchain-of-thoughtは解答に似ており、解答と解釈することもできるが、答えにたどり着くまでの段階的な思考プロセスを模倣しているという考えをよりよく理解するために、やはりchain-of-thoughtと呼ぶことにする（また、解答／説明は通常、最終的な答えの後にやってくる（Narang et al., 2020; Wiegreffe et al., 2022; Lampinen et al., 2022, inter alia）)。

　chain-of-thoughtプロンプトは、言語モデルにおける推論を促進するためのアプローチとして、いくつかの魅力的な特性を備えている。

まず、chain-of-thoughtは原理的に、モデルが多段階の問題を中間段階に分解することを可能にする。これは、より多くの推論段階を必要とする問題に、追加の計算を割り当てることができるということである。
第２に、chain-of-thoughtは、モデルの挙動を解釈できる窓を提供し、特定の答えに到達した可能性を示唆し、推論経路がどこで間違ったかをデバッグする機会を提供する（ただし、答えをサポートするモデルの計算を完全に特徴付けることは、まだ未解決問題である）。
第３に、chain-of-thought推論は、数学の単語問題、常識的な推論、記号操作などのタスクに使用でき、人間が言語によって解決できるあらゆるタスクに（少なくとも原理的には）適用できる可能性があることである。
最後に、chain-of-thought推論は、十分に大きな言語モデルにおいて、few-shotプロンプトの模範にchain-of-thoughtの例を含めるだけで、容易に性能を引き出すことが可能である。

実証実験では、算術推論（3節）、常識推論（4節）、記号推論（5節）において、chain-of-thoughtプロンプトの有用性を観察する予定である。

3 算術推論

まず、言語モデルの算数推論能力を測定する図1のような形式の算数単語問題を検討する。人間にとっては簡単なことだが、算術推論は言語モデルがしばしば苦戦する課題である（Hendrycks et al, 2021; Patel et al, 2021, inter-alia）。驚くべきことに、540Bパラメータ言語モデルを使用した場合のchain-of-thoughtプロンプトは、いくつかのタスクでタスク固有のファインチューンモデルと同等の性能を示し、困難なGSM8Kベンチマークで新しいSoTAを達成した（Cobbe et al., 2021）。

3.1 実験設定

複数のベンチマークで様々な言語モデルのchain-of-thoughtプロンプトを探索する。

ベンチマーク：以下の5つの数学単語問題ベンチマークを検討する：(1) 数学単語問題のGSM8Kベンチマーク（Cobbe et al, 2021）(2) 様々な構造を持つ数学の単語問題のデータセットであるSVAMPデータセット（Patel et al, 2021）(3) 多様な数学の単語問題のデータセットであるASDivデータセット（Miao et al., 2020）(4)代数的単語問題のAQuAdataset (5) MAWPSベンチマーク（Koncel-Kedziorski et al, 2016）を使用した。例題は付録表12に示す。

標準的なプロンプト：Brownら(2020)が提唱する標準的なfew-shotプロンプティングは、言語モデルに入出力ペアの文脈上の模範例を与えてからテスト時の予測値を出力するものである。模範解答は質問と回答としてフォーマットされている。図1（左）に示すように、モデルは直接答えを与える。

Chain-of-Thoughtプロンプティング：我々の提案するアプローチは、図1（右）に示すように、few-shotプロンプティングの各模範を、関連する答えのためのchain-of-thoughtで補強することである。ほとんどのデータセットが評価分割しかないため、プロンプティングのためのchain-of-thoughtを持つ8つのfew-shotの模範解答を手動で構成した。図1（右）はchain-of-thoughtの模範例であり、模範例の全セットは付録表20に示されている。(これらの特定の例題は、プロンプトエンジニアリングが適用されていない。ロバスト性については、3.4節と付録A.2.で検討する)。このようなchain-of-thoughtプロンプトが、さまざまな数学の単語問題でうまく推論を引き出せるかどうかを調べるため、自由回答ではなく多肢選択式のAQuAを除くすべてのベンチマークで、この8つのchain-of-thoughtの模範セットを使用した。AQuAでは、付録表21に示すように、トレーニングセットから4つの模範解答と解答を使用した。

言語モデル：5つの大規模言語モデルを評価する。1つ目はGPT-3（Brown et al.,2020）で、text-ada-001, text-babbage-001, text-curie-001, text-davinci-002を使用しており、おそらく350M, 1.3B, 6.7B, 175BパラメータのInstructGPTモデルに相当する（Ouyanget al., 2022）。2つ目はLaMDA（Thoppilan et al., 2022）で、422M, 2B, 8B, 68B、137Bパラメータのモデルを有する。3つ目はPaLMで、8B、62B、540Bのパラメータを持つモデルがある。４つ目はUL2 20B（Tay et al., 2022）、５つ目はCodex（Chen et al., 2021、OpenAI APIのcode-davinci-002）である。我々は、greedy decodingによってモデルからサンプリングする（ただし、後続の研究では、多くのサンプリングされた世代にわたって大多数の最終回答を取ることによって、chain-of-thoughtプロンプトを改善できることを示している（Wang et al., 2022a））。LaMDAについては、5つのランダムなシードについて平均した結果を報告する。各種は、模範解答の順序をランダムにシャッフルしたものである。LaMDAの実験では、異なるシード間で大きなばらつきは見られなかったため、計算量を節約するために、他のすべてのモデルについて、単一の模範的な順序の結果を報告している。

3.2 結果

chain-of-thoughtプロンプトの最も強い結果を図4にまとめ、各モデルコレクション、モデルサイズ、およびベンチマークに関するすべての実験結果を付録の表2に示す。3つの重要なポイントがある。まず、図4は、chain-of-thoughtプロンプトがモデル規模の創発性であることを示している（Wei et al., 2022b）。つまり、chain-of-thoughtプロンプトは、小さなモデルでは性能に正の影響を与えず、100B程度のパラメータを持つモデルで使用した場合にのみ性能を向上させることができる。我々は、スケールの小さなモデルは、流暢ではあるが非論理的なchain-of-thoughtを生み出し、標準的なプロンプティングよりも低いパフォーマンスをもたらすことを定性的に発見した。

　二つ目に、chain-of-thoughtプロンプトは、より複雑な問題に対してより大きな性能を発揮する。例えば、GSM8K（ベースライン性能が最も低いデータセット）では、GPTとPaLMの最大モデルで性能が2倍以上向上した。一方、MAWPSの中で最も簡単で、解くのに１ステップしか必要としないサブセットであるSingleOpでは、性能向上はマイナスか非常に小さいものであった（付録表3参照）。

　三つ目に、GPT-3175BとPaLM 540Bによるchain-of-thoughtプロンプティングは、通常ラベル付き訓練データセットでタスク固有のモデルを調整する従来の技術と比べて、良好な結果を示している。図4は、PaLM 540Bがchain-of-thought型プロンプトを使用して、GSM8K、SVAMP、MAWPSで新しい技術水準を達成したことを示している（ただし、SVAMPでは標準プロンプトが既に事前ベストを達成している）。他の2つのデータセット、AQuAとASDivでは、chain-of-thoughtプロンプトを用いたPaLMは、SoTAの2%以内に達している（付録表2）。

　chain-of-thoughtプロンプトがなぜ機能するかをより理解するために、GSM8KのLaMDA 137Bによってモデルが生成したchain-of-thoughtを手動で調査した。モデルが最終的に正しい答えを返す50のランダムな例のうち、偶然に正しい答えにたどり着いた2つを除いて、生成されたchain-of-thoughtもすべて論理的、数学的に正しかった（付録D.1. を参照、また、モデルが間違った答えを出した50個のサンプルを無作為に調査した。この分析の要約は、46％のchain-of-thoughtは、小さなミス（計算機のエラー、シンボルマップのエラー、推論ステップが1つ足りない）を除いてほぼ正しく、残りの54％のchain-of-thoughtは意味理解や一貫性に大きなミスがあったというものだ（付録 D.2 参照）。スケーリングによってchain-of-thoughtの推論能力が向上する理由を少しでも理解するために、PaLM 62Bで発生したエラーについて、PaLM 540Bへのスケーリングによってエラーが修正されるかどうか、同様の分析を行った。その結果、PaLMを540Bにスケーリングすることで、62Bモデルにおける一段階欠落や意味理解のエラーの大部分が修正されることがわかった（付録A.1参照）。

3.3 アブレーションスタディ

chain-of-thoughtプロンプトを使用した場合の利点は、他のタイプのプロンプトでも同様のパフォーマンス向上が得られるかどうかという当然の疑問を提起するものである。図5は、後述する3つのchain-of-thoughtのバリエーションを用いたアブレーション試験である。

式のみ：chain-of-thoughtプロンプトが役立つ理由の一つは、評価すべき数式を生成することである。そこで、答えを出す前に数式だけを出力するようモデルを促すバリエーションをテストした。図5から、GSM8Kでは数式のみのプロンプトはあまり役に立たないことがわかる。これは、GSM8Kの質問のセマンティクスが、chain-of-thoughtにおける自然言語による推論ステップなしに数式に直接変換するには難しすぎることを示唆している。しかし、1ステップや2ステップの問題のデータセットでは、質問から簡単に方程式を導くことができるため、方程式のみのプロンプトがパフォーマンスを向上させることがわかった（付録表6参照）。

変数計算のみ：もう一つの直感は、chain-of-thoughtによって、モデルがより難しい問題に多くの計算（すなわち中間トークン）を費やすことができるということである。chain-of-thoughtによる推論から変数計算の効果を分離するために、問題を解くのに必要な方程式の文字数と同じ数のドット（...）だけを出力するようにモデルを促す構成をテストした。この構成では、ベースラインとほぼ同じ結果が得られたことから、変数計算自体はchain-of-thoughtプロンプトの成功の理由ではなく、中間ステップを自然言語で表現することに有用性があるようだ。

回答後のChain-of-Thought：chain-of-thoughtプロンプトのもう一つの潜在的な利点は、プロンプトによってモデルが事前訓練で獲得した関連知識にうまくアクセスできるようになることかもしれない。そこで、chain-of-thoughtプロンプトが答えの後にのみ与えられるという代替構成をテストし、モデルが最終的な答えを出すために実際に生成されたchain-of-thoughtに依存しているかどうかを分離する。この結果は、chain-of-thoughtが知識の活性化だけでなく、逐次的な推論に役立つことを示唆している。

3.4 Chain-of-Thoughtの頑健さ

模範解答に対する感度はプロンプトアプローチの重要な検討事項である。例えば、新しい模範解答の順列を変えることで、SST-2に対するGPT-3の精度は偶然に近いもの（54.3%）から最新技術に近いもの（93.4%）まである（Zhao et al, 2021）。この最後のセクションでは、異なるアノテーターによって書かれたchain-of-thoughtに対する頑健性を評価する。 Annotator Aが書いたchain-of-thoughtを用いた上記の結果に加え、本論文の他の共著者2名（Annotator BとC）が、同じfew-shot例題に対して独立してchain-of-thoughtを書いた（付録Hに示す）。

図6は、GSM8KとMAWPSのLaMDA 137Bの結果を示している（他のデータセットのアブレーション結果は、付録表6/表7に示す）。模範解答に基づくプロンプトを使用する場合に予想されるように、異なるchain-of-thoughtのアノテーションにばらつきがあるが（Le Scaoand Rush, 2021; Reynolds and McDonell, 2021; Zhaoet al., 2021）、すべてのchain-of-thoughtのアノテーションセットは標準ベースラインを大差で上回った。この結果は、chain-of-thoughtをうまく利用することが特定の言語スタイルに依存しないことを示唆している。

他の模範解答のセットでもchain-of-thoughtをうまく利用できることを確認するために、独立したソースであるGSM8Kトレーニングセット（このデータセットの例にはすでにchain-of-thoughtのような推論ステップが含まれている）からランダムに抽出した8つの模範解答3セットで実験も実行した。図6に示すように、これらのプロンプトは、手動で書かれた模範解答と同等の性能を示し、標準的なプロンプトを大幅に上回った。

あのテーター、独立して書かれたchain-of-thought、異なる模範解答、さまざまな言語モデルに対するg頑健性に加え、算術推論のためのchain-of-thoughtプロンプトは、異なる模範解答順序や模範解答の数の変化に強いこともわかった（付録 A.2 参照）。

4 常識推論

chain-of-thoughtは特に数学の単語問題に適しているが、chain-of-thoughtの言語ベースの性質は、実際には、一般的な背景知識を前提とした物理的および人間的相互作用に関する推論を含む、幅広いクラスの常識推論問題に適用可能である。常識推論は、世界と対話するための鍵であり、現在の自然言語理解システムにはまだ及ばない（Talmor et al., 2021）。

ベンチマーク：人気のあるCSQA（Talmor et al., 2019）は、しばしば事前知識を必要とする複雑なセマンティクスを含む世界に関する常識的な質問をする。StrategyQA（Geva et al., 2021）は、質問に答えるためにマルチホップ戦略を推測するモデルを要求する。BIG-benchの取り組み（BIG-bench collaboration, 2021）から、与えられた文脈から日付を推測するDate Understandingと、スポーツに関連する文がもっともらしいかありえないかを判断するSports Understandingという2つの特殊な評価セットを選択した。最後に、SayCan dataset (Ahn et al., 2022) は、離散集合から自然言語の指示をロボットの動作シーケンスにマッピングする。図3は、すべてのデータセットについて、chain-of-thoughtのアノテーションが付いた例を示している。

プロンプト：我々は、前のセクションと同じ実験設定に従う。CSQAとStrategyQAでは、訓練セットからランダムに例を選び、手動でchain-of-thoughtを構成し、数発の模範例として使用しました。BIG-benchの2つのタスクはトレーニングセットを持たないので、評価セットの最初の10例を少数ショットエグザンプルとして選択し、残りの評価セットについて数値を報告した。SayCanについては、Ahnら(2022)で使用されたトレーニングセットから6つの例を使用し、さらに手動でchain-of-thoughtを構成した。

結果：図7は、PaLMについてのこれらの結果を強調している（LaMDA、GPT-3と異なるモデルスケールについてのすべての結果は表４に示されている）。すべてのタスクにおいて、モデルサイズを拡大すると、標準的なプロンプトのパフォーマンスが向上し、chain-of-thoughtプロンプトを使用するとさらに向上し、PaLM 540Bで最も向上したように見えた。PaLM 540Bは、chain-of-thoughtプロンプティングにより、StrategyQAで先行技術を上回り（75.6% vs 69.4%）、sports Understandingで無支援のスポーツ愛好家を上回り（95.4% vs 84%）、ベースラインに対して高い性能を達成した。この結果から、chain-of-thoughtプロンプトは、様々な常識推論能力を必要とするタスクでもパフォーマンスを向上させることができることが示された（ただし、CSQAでの向上はごくわずかだった）。

5 記号的推論

最後の実験評価では、人間にとっては簡単だが、言語モデルにとっては難題となりうる記号的な推論を検討する。プロンプトは、標準的なプロンプト設定では困難な記号推論タスクを言語モデルに実行させるだけでなく、few-shotの模範解答で示されたものより長い推論時間入力への長さの汎化を促進することを示す。

タスク：以下の二つのおもちゃタスクを使用する。

最後の文字が連結される：このタスクは、名前に含まれる単語の最後の文字を連結するようモデルに要求する（例："Amy Brown"→"yn" ）。このタスクは、言語モデルが思考を連鎖させることなく実行できる最初の文字の連結の、より難しいバージョンである。3 名前のセンサスデータ（https://namecensus.com/）から、上位1,000人の姓と名をランダムに連結して、完全な名前を生成しました。
コインフリップ：このタスクでは、コインを裏返したり、裏返さなかったりした後でも、コインの表が出るかどうかをモデルに答えさせる（例：「コインは表だ」。フィービーがコインをひっくり返し、オスバルドはコインをひっくり返さない。コインはまだ表か？"→"いいえ"）。

これらの記号推論タスクの構成はよく定義されているため、各タスクについて、トレーニング/数ショット模範例と同じステップ数を持つ模範テストセットと、模範例よりも多くのステップ数を持つ評価例を持つ領域外テストセット（OOD）を検討した。最後の文字連結では、2単語の名前の例のみを抽出し、3単語と4単語の名前の最後の文字連結を実行する。また、コインフリップタスクの反転可能回数についても同様である。実験セットアップでは、前の2つのセクションと同じ方法とモデルを使用する。各タスクのfew-shotの例題について、再び手動でchain-of-thoughtを構成する（図3）。

結果：これらの領域内評価とOOD評価の結果は、PaLMについては図8に、LaMDAについては付録表5に示されている。PaLM 540Bでは、chain-of-thoughtプロンプトにより、ほぼ100％の解答率になる（なお、LaMDA 137Bでは解答しないが、PaLM540では標準プロンプトでコインフリップが既に解けている）。なお、これらの領域内評価は"toy task"であり、完全な解の構造は、few-shotサンプルにあるchain-of-thoughtによってすでに提供されている、という意味である。この3つのタスクで、未見のシンボルに対して抽象的な操作を行う能力は、モデルパラメータ100Bのスケールでしか生じない。

OODの評価については、どちらのタスクでも標準的なプロンプトは失敗している。chain-of-thoughtプロンプトを用いた場合、言語モデルは上向きのスケーリングカーブを描く（ただし、in-domain settingの場合よりも性能は落ちる）。したがって、chain-of-thoughtプロンプトは、十分な規模の言語モデルにおいて、見たことのあるchain-of-thoughtを超える長さの汎化を容易にする。

6 議論

我々は、大規模な言語モデルにおいて、多段階の再推論動作を引き出すための簡単なメカニズムとして、chain-of-thoughtプロンプトを探求した。まず、chain-of-thoughtプロンプトが算術推論の性能を大きく向上させ、アブレーションよりもはるかに強く、異なるアノテーター、模範、言語モデルに対して頑健であることを確認した（セクション3）。次に、常識推論の実験により、chain-of-thought推論の言語的性質がいかに一般に適用可能であるかを明らかにした（セクション4）。最後に、記号推論において、chain-of-thoughtプロンプトが、より長い配列長へのOOD汎化を促進することを示した（セクション5）。すべての実験において、chain-of-thought推論は、単に既存の言語モデルをプロンプトすることによって引き出される。この論文を書く過程で言語モデルのファインチューニングは行っていない。

モデル規模の結果としてのchain-of-thought推論の出現は、有力なテーマである（Wei et al., 2022b）。標準的なプロンプトが平坦なスケーリングカーブを描く多くの推論タスクにおいて、chain-of-thoughtプロンプトはスケーリングカーブを劇的に増加させる。chain-of-thoughtプロンプトは、大規模言語モデルが成功させることができるタスクのセットを拡大するようである。つまり、私たちの研究は、標準的なプロンプトが大規模言語モデルの能力の下限を示すに過ぎないことを明確に示している。この観察は、答えよりも多くの質問を投げかけることになりそうである。例えば、モデル規模をさらに拡大した場合、推論能力はどの程度向上するのか、他のどのようなプロンプティング方法が言語モデルが解決できるタスクの範囲を拡大するのか、などである。

限界については、まず、chain-of-thoughtは人間の推論者の思考プロセスをエミュレートするが、これはニューラルネットワークが実際に「推論」しているかどうかに答えるものではなく、これは未決問題として残している。第二に、手動で模範例をchain-of-thoughtで補強するコストは、few-shot設定では最小であるが、このようなアノテーションコストは、ファインチューニングでは法外である可能性がある（ただし、これは合成データ生成またはゼロショット汎化によって克服できる可能性がある）。第三に、正しい推論経路の保証がないため、正解と不正解の両方が生じる可能性がある。事実上の言語モデルの生成を改善することは、今後の研究のためのオープンな方向である（Rashkin et al., 2021; Ye and Durrett, 2022; Wiegreffe et al., 2022, inter alia）。最後に、chain-of-thought推論が大規模なモデルスケールでのみ出現するため、実世界のアプリケーションで使用するにはコストがかかる。さらなる研究により、より小さなモデルで推論を誘導する方法を探ることができる。

7 関連研究

この研究は、多くの研究分野に触発されたものであり、その詳細は、拡張された関連研究のセクション（付録C）に記載されている。ここでは、おそらく最も関連性の高い2つの方向性と関連する論文について説明する。

最初の関連する方向性は、推論問題を解決するために中間ステップを使用することである。Lingら（2017）は、一連の中間ステップを通じて数学の単語問題を解くために自然言語の根拠を使用するというアイデアを開拓している。彼らの仕事は、形式的な言語を用いて推論する文献（Roy et al., 2015; Chiang and Chen, 2019; Amini et al., 2019; Chen et al., 2019）と著しい対照をなしている。Cobbeetら（2021）は、より大きなデータセットを作成し、ゼロからモデルを訓練するのではなく、事前に訓練された言語モデルをファインチューンするためにそれを使用することによって、Lingら（2017）を拡張する。プログラム合成の領域では、Nyeら（2021）は、言語モデルを活用して、中間的な計算結果を最初に行から行に予測することによってPythonプログラムの最終出力を予測し、そのステップバイステップ予測法が最終出力を直接予測するよりも優れた性能を示す。

当然、この論文もプロンプティングに関する最近の大きな研究と密接に関わっている。Brownら(2020)によるfew-shotプロンプトの普及以来、いくつかの一般的なアプローチにより、プロンプトの自動学習（Lester et al., 2021）やタスクを記述した指示をモデルに与える（Wei et al., 2022a; Sanh et al., 2022; Ouyanget al., 2022) など、モデルのプロンプティング能力を向上させた。これらのアプローチがプロンプトの入力部分を改善または増強する（例えば、入力に前置される命令）のに対し、我々の仕事は、言語モデルの出力をchain-of-thoughtで増強するという直交する方向をとるものである。

8 結論

我々は、言語モデルの推論を強化するための簡単で広く適用可能な方法として、chain-of-thoughtプロンプトを探求した。算術推論、記号推論、常識推論の実験を通じて、chain-of-thought推論は、モデル規模が十分に大きい言語モデルで、スケーリングカーブがフラットである推論タスクを実行できるようにする、モデル規模の出現特性であることを発見した。言語モデルが実行できる推論タスクの幅を広げることで、言語ベースの推論アプローチに関するさらなる研究が促されることが期待される。