LLaMA: Open and Efficient Foundation Language Models

arxiv.org

Touvron H, Lavril T, Izacard G, Martinet X, Lachaux MA, Lacroix T, Rozière B, Goyal N, Hambro E, Azhar F, Rodriguez A. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971. 2023 Feb 27.

License: Creative Commons Attribution 4.0 International License(CC-BY)

本記事は、原著の内容の一部を筆者が翻訳したものです。以下の図は、そこから引用しています。

This article is my translation of the part of the original publication. The following figures are taken from it.

Abstract

　LLaMAは、7Bから65Bのパラメータを持つ基盤言語モデル群である。我々は、数兆個のトークンでモデルを訓練し、独占的でアクセスしにくいデータセットに頼ることなく、一般に利用可能なデータセットのみを使用して最先端のモデルを訓練することが可能であることを示している。特に、LLaMA-13BはほとんどのベンチマークでGPT-3(175B)を上回り、LLaMA-65BはChinchilla-70BやPaLM-540Bといった最高のモデルと競合している。我々は、すべてのモデルを研究コミュニティに公開している。

github.com

Introduction

　膨大なテキストコーパスで学習した大規模言語モデル（LLM）は、テキストの指示や少数の例から新しいタスクを形成する能力を示している（Brown et al.）このような少数精鋭の特性は、モデルを十分なサイズに拡張したときに初めて現れ（Kaplan et al.、2020）、その結果、これらのモデルをさらに拡張することに焦点を当てた一連の研究（Chowdhery et al.、2022；Rae et al., 2021）が行われた。これらの取り組みは、「パラメータが多ければ性能が上がる」という前提のもとで行われている。しかし、Hoffmannら(2022)の最近の研究は、与えられた計算予算において、最高のパフォーマンスは、最大のモデルではなく、より多くのデータで訓練された小さなモデルによって達成されることを示している。

　Hoffmannら（2022）のスケーリング法則の目的は、特定の訓練計算予算において、データセットとモデルサイズをどのように最適化するかを決めることにある。しかし、この目的は、言語モデルを大規模に提供する際に重要になる推論予算については無視している。この文脈では、目標とする性能レベルが与えられた場合、好ましいモデルは、訓練が最も速いものではなく、推論が最も速いものである。ある性能レベルに達するためには、大きなモデルを訓練する方が安いかもしれないが、長く訓練した小さなモデルの方が最終的に推論のコストは安くなる。例えば、Hoffmannら（2022）は10Bモデルを200Bトークンで訓練することを推奨しているが、我々は7Bモデルの性能は1Tトークン後でも向上し続けることを発見した。

　この研究の焦点は、通常使われるものより多くのトークンで訓練することにより、様々な推論予算で最高の性能を達成する一連の言語モデルを訓練することにある。その結果、LLaMAと呼ばれるモデルは、7Bから65Bのパラメータを持ち、既存の最高のLLMと比較して、競争力のある性能を持つ。例えば、LLaMA-13Bは10倍小さいにもかかわらず、ほとんどのベンチマークでGPT-3を凌駕している。このモデルは、1つのGPUで実行できるため、LLMへのアクセスや研究の民主化に貢献すると考えている。より高いスケールでは、65Bパラメータ決定モデルは、ChinchillaやPaLM-540Bなどの最高の大規模言語モデルとも競争力がある。

　Chinchilla、PaLM、GPT-3とは異なり、私たちは一般に公開されているデータのみを使用しており、オープンソースと互換性を持っている。本論文の残りの部分では、トランスフォーマーアーキテクチャ（Vaswani et al.，2017）に対して我々が行った修正の概要と、我々の学習方法を紹介する。次に、我々のモデルの性能を報告し、標準的なベンチマークのセットで他のLLMと比較する。最後に、責任あるAIコミュニティから最新のベンチマークをいくつか用いて、我々のモデルに内包される偏見（bias）と有毒性（toxicity）を明らかにする。

Approach

　我々の学習アプローチは、以前の研究（Brown et al., 2020;Chowdhery et al., 2022）で説明された方法に似ており、Chinchillaのスケーリング則（Hoffmann et al., 2022）に触発されている。我々は標準的なオプティマイザを用いて大量のテキストデータで大きなトランスフォーマーを学習する。

Pre-training Data

　我々のトレーニングデータセットは、表1に示すように、多様なドメインをカバーする複数のソースの混合データである。ほとんどの場合、他のLLMのトレーニングに利用されたデータソースを再利用しているが、一般に公開されており、オープンソースと互換性のあるデータのみを使用するという制約がある。

English CommonCrawl [67%] 　2017年から2020年までの5つのCommonCrawlダンプをCCNetパイプライン（Wenzek et al., 2020）で前処理した。このプロセスでは、行レベルでデータを重複を排除し、FastText線形分類器で言語識別を行い、非英語ページを除去し、n-gram 言語モデルで低品質コンテンツをフィルタリングする。さらに、Wikipediaで参考文献として使われているページと、無作為に抽出したページを分類する線形モデルを学習し、参考文献として分類されなかったページは廃棄した。
C4 [15%] 　探索的な実験では、多様な前処理済みのCommonCrawlデータセットを使用することで性能が向上することを観察した。そこで、公開されているC4データセット（Raffelet al., 2020）をデータに含めた。C4データセットの前処理には、重複の排除と言語識別のステップが含まれている。CCNetとの主な違いは品質フィルタリングで、句読点の有無やウェブページの単語数・文の数などのヒューリスティックに依存するものがほとんどである。
Github [4.5%] 　Google BigQueryで公開されているGitHub datasetを使用する。 Apache、BSD、MITライセンスで配布されているプロジェクトのみを保管している。さらに、英数字の割合や行の長さに基づくヒューリスティックな方法で低品質のファイルをフィルタリングし、正規表現でヘッダーなどの定型文を除去した。最後に、データセットをファイルレベルで完全一致する重複を排除する。
Wikipedia [4.5%] 　2022年6月から8月にかけてのWikipediaのダンプを、ラテン文字またはキリル文字を使用する20の言語（bg, ca, cs, da, de, en, es, fr, hr, hu, it, nl, pl, pt, ro, ru, sl, sr, sv, u）を対象に追加した。ハイパーリンク、コメント、その他フォーマット上の定型文を削除するために、データを処理する。
Gutenberg and Books3 [4.5%] 　Gutenbergプロジェクトはパブリックドメインの書籍を収録しており、ThePile（Gao et al., 2020）のBooks3セクションは大規模言語モデルの学習用データセットとして一般に公開されている。学習データセットにこの2つの書籍コーパスを含めた。書籍レベルで重複を排除し、90%以上内容が重複している書籍を削除した。
ArXiv [2.5%] 　arXivのLatexファイルを加工し、科学的データをデータセットに追加する。 Lewkowycz et al. (2022)に倣って、第1節以前をすべて削除し、参考文献も削除した。また、論文間の整合性を高めるため、.texファイルのコメントを削除し、ユーザーが書いた定義やマクロをインライン展開した。
Stack Exchange [2%] 　コンピュータサイエンスから化学まで、さまざまな分野をカバーする質の高い質問と回答のウェブサイトであるStack Exchangeのダンプも学習データに含めた。28の大規模なウェブサイトからデータを収集し、テキストからHTMLタグを削除して、回答をスコア（最高点から最低点まで）でソートした。
Tokenizer 　SentencePiece（Kudo and Richardson, 2018）の実装を使用し、バイトペアエンコーディング (BPE) アルゴリズム (Sennrich et al.,2015) でデータをトークン化する。特に、すべての数字を個々の数字に分割し、未知のUTF-8文字を分解するためにバイトにフォールバックする。

　全体として、我々のトレーニングデータセット全体は、トークン化後に約1.4Tトークンを含んでいる。ほとんどの学習データにおいて、各トークンは学習中に一度しか使用されない。ただし、WikipediaとBooksドメインは例外で、約2回のエポックを実行する。

Architecture

　大規模言語モデルに関する最近の研究を受け、我々のネットワークはトランスフォーマーアーキテクチャー（Vaswani et al.）に基づいている。その後提案され、PaLMなど様々なモデルで使用されている様々な改良を活用している。以下は、元のアーキテクチャとの主な違いと、この変更のインスピレーションを得たモデルを括弧内に示す。

Pre-normalization [GPT3] 　学習の安定性を向上させるために、出力を正規化する代わりに、各トランスフォーマーサブレイヤーの入力を正規化する。 Zhang and Sennrich (2019)によって導入されたRMSNorm正規化関数を使用する。
SwiGLU activation function [PaLM] 　ReLUの非線形性をShazeer (2020)が導入したSwiGLU activation関数に置き換えて性能を向上させた。PaLMの $4d$ の代わりに $\frac{2}{3}4d$ の次元を使用する。
Rotary Embeddings [GPTNeo] 　絶対位置埋め込みを削除し、代わりにSuら（2021）によって導入された回転位置埋め込み（RoPE）をネットワークの各層に追加する。

　我々の実装した異なるモデルのハイパーパラメータの詳細は、表2に示す。

Optimizer

　モデルはAdamW optimizer (Loshchilov and Hutter, 2017)を用いて、以下のハイパーパラメータで学習される。 $β_1= 0.9$ 、 $β_2= 0.95$ 。最終的な学習率が最大学習率の10％になるような、コサイン学習率スケジュールを採用している。重みの減衰は0.1、勾配のクリッピングは1.0である。 2,000ウォームアップステップで、モデルの大きさに応じて学習率とバッチサイズを変化させる（詳細は表2を参照）。

Efficient implementation

　我々は、モデルの学習速度を向上させるために、いくつかの最適化を行った。まず、メモリ使用量と実行時間を削減するために、マスクドマルチヘッドアテンションの効率的な実装を使用する。この実装はxformersライブラリで利用可能であり、Rabe and Staats (2021)に触発され、Dao et al. (2022)のbackwardを使用している。これは、言語モデリングタスクの因果関係（Causal nature）によりマスクされるキー/クエリスコアを計算せず、注目重みを保存しないことで達成される。さらに学習効率を高めるため、チェックポイントを用いた後方パスで再計算される活性化の量を減少させた。より正確には、線形層の出力のような計算コストのかかる活性化を保存する。これは、PyTorchのautogradに頼るのではなく、トランスフォーマーレイヤーのバックワード関数を手動で実装することで実現している。この最適化の恩恵を十分に受けるためには、Korthikantiら(2022)が説明するように、モデルとシーケンスの並列性を利用して、モデルのメモリ使用量を減らす必要がある。さらに、活性化の計算とネットワーク上のGPU間の通信（all_reduce操作による）も可能な限りオーバーラップさせる。　　65Bパラメータのモデルをトレーニングする場合、80GBのRAMを搭載した2048 A100 GPUでは、当社のコードで約380トークン/秒/GPUを処理する。これは、1.4Tトークンを含むデータセットのトレーニングに約21日かかることを意味する。

xformers: https://github.com/facebookresearch/xformers

Main results

　先行研究 (Brown et al., 2020) に従い、zero-shotとfew-shotのタスクを検討し、合計20のベンチマークで結果を報告する。

Zero-shot：タスクのテキスト記述とテスト例を提供する。このモデルは、このテキストを入力として、答えを生成するか、異なる選択肢をランク付けする。
Few-shot：タスクのいくつかの例（1〜64）とテスト例を提供する。モデルはこのテキストを入力として、答えを生成したり、異なる選択肢をランク付けしたりする。

　我々は、LLaMAを他の基礎モデル、すなわち非公開の言語モデルGPT-3（Brown et al, 2020）、Gopher（Raeet al., 2021）、Chinchilla（Hoffmann et al., 2022）、PaLM（Chowdhery et al., 2022）、さらにオープンソースのOPTモデル（Zhang et al., 2022）、GPT-J（Wang and Komatsuzaki, 2021）、GPT-Neo （Black et al., 2022）と比較した。また，セクション4では、OPT-IML (Iyer et al., 2022) やFlan-PaLM (Chung et al., 2022) などのインストラクションチューニングモデルとLLaMAを簡単に比較検討する。

　LLaMAを自由形式生成タスクと多肢選択式タスクで評価した。多肢選択課題では、与えられた文脈に基づき、与えられた選択肢の中から最も適切な補完（completion）を選択することが目的である。与えられた文脈から、最も尤度の高い補完を選ぶのである。Brownら（2020）に従い、文脈として「Answer:」が与えられた場合の尤度で正規化した尤度に基づいて補完を選択する： $P (\text{Completion}｜\text{Context} ) / P( \text{Completion}｜\text{”Answer”})$ 特定のデータセット（OpenBookQA、BoolQ）を除いては、Gaoら（2021）に従い、補完内の文字数で正規化した尤度を使っている。

Common Sencse Reasoning

　BoolQ（Clark et al., 2019）、PIQA（Bisk et al., 2020）、SIQA（Sap et al., 2019）、HellaSwag (Zellers et al., 2019)、WinoGrande (Sakaguchi et al., 2021)、ARC easy and challenge (Clarket al., 2018)、そしてOpenBookQA (Mihaylov et al.,2018)という8つの標準的な常識推論ベンチマークを検討する。これらのデータセットには、ClozeやWinograd styleタスクのほか、多肢選択QAが含まれている。言語モデリングコミュニティで行われているzero-shot設定での評価を行っている。

　表3では、様々なサイズの既存のモデルと比較し、対応する論文の数値を報告している。まず、LLaMA-65Bは、BoolQを除くすべてのベンチマークでChinchilla-70Bを上回った。同様に、BoolQとWinoGrande以外ではPaLM-540Bを上回っている。また、LLaMA-13Bは、10倍小さいにもかかわらず、ほとんどのベンチマークでGPT-3を上回った。

Closed-book Question Answering

　我々は、Natural Questions (Kwiatkowskiet al., 2019) とTriviaQA (Joshi et al., 2017) の2つのクローズドブックQAベンチマークで、LLaMAを既存の大規模言語モデルと比較する。両ベンチマークとも、クローズドブック設定、つまり、モデルに質問に答えるための証拠を含む文書へのアクセスがない状態での完全一致のパフォーマンスを報告する。表4では、Natural Questionsの性能を、表5ではTriviaQAの性能を報告する。両ベンチマークにおいて、LLaMA-65Bはzero-shotとfew-shotの設定でSoTAを達成した。さらに重要なことは、LLaMA-13Bは5～10倍小さいにもかかわらず、GPT-3やChinchillaとこれらのベンチマークで競争力があることである。このモデルは推論時にV100GPU1基で動作している。

Reading Comprehension

　RACE reading comprehension benchmark (Lai et al, 2017) を用いてモデルを評価する。このデータセットは、中国の中高生向けに作られた英語の読解力試験から収集されたものである。Brown et al. (2020)の評価セットアップに従い、結果を表6に報告する。これらのベンチマークにおいて、LLaMA-65BはPaLM-540Bと競合し、LLaMA-13BはGPT-3を数パーセント上回っている。

Mathmatical reasoning

　我々は、MATH (Hendrycks et al.,2021) と GSM8k (Cobbe et al.,2021) の2つの数学的推論ベンチマークで我々のモデルを評価する。MATHは、LaTeXで書かれた12Kの中学・高校数学の問題のデータセットである。表7では、PaLMとMinerva (Lewkowycz et al., 2022)と比較している。Minervaは、ArXivとMath Web Pagesから抽出した38.5Bのトークンでファインチューンした一連のPaLMモデルであり、PaLMもLLaMAも数学データでファインチューンしている。 PaLMとMinervaの数値はLewkowycz et al.（2022）より引用し、maj1@kの有無で比較したものである。maj1@kは、各問題に対してk個のサンプルを生成し、多数決を行う評価を表す（Wanget al, 2022）。GSM8kでは、LLaMA-65BがMinerva-62Bを上回ったが、数学的なデータでファインチューンされていないことが確認された。

Code generation

　HumanEval（Chenら、2021年）とMBPP（Austinら、2021年）の2つのベンチマークで、自然言語記述からコードを書き出すモデルの能力を評価した。どちらのタスクでも、モデルは数文のプログラムの説明と、いくつかの入出力例を受け取る。HumanEvalでは、関数シグネチャも受け取り、プロンプトはdocstringのテキスト説明とテストと共に自然コードとしてフォーマットされる。モデルは、記述に適合し、テストケースを満たすPythonプログラムを生成する必要がある。表8では、我々のモデルのpass@1スコアを、コード上でファインチューンされていない既存の言語モデル、すなわちPaLMとLaMDA (Thoppilan et al., 2022)と比較している。 PaLMとLLaMAは、同程度の数のコードトークンを含むデータセットで学習させた。

　表8に示すように、同様のパラメータ数で、LLaMAはLaMDAやPaLMといった、コードに特化した訓練やファインチューンが行われていない他のジェネラルモデルを凌駕している。また、LLaMA 65Bは、PaLM 62Bをより長く学習させた場合であっても、その性能を上回っている。この表で報告されているpass@1の結果は、温度0.1でのサンプリングによって得られたものである。pass@100とpass@80の結果は、温度0.8で得られたものである。Chenら(2021)と同じ方法でpass@kの不偏推定値を求める。

　コード固有のトークンを細かく調整することで、コード上の性能を向上させることが可能である。例えば、PaLM-Coder (Chowdhery et al., 2022) は、HumanEvalにおけるPaLMのpass@1スコアを、PaLMの26.2%から36%に増加させる。また、コードに特化して訓練された他のモデルも、これらのタスクにおいて一般的なモデルよりも優れた性能を発揮する（Chen et al.、2021；Ni-jkamp et al.、2022；Fried et al.、2022）。コードトークンに関するファインチューニングは本稿の範囲外である。

Massive Multitask LanguageUnderstanding

　Hendryckset al. (2020)が導入した大規模マルチタスク言語理解ベンチマーク（MMLU）は、人文科学、STEM、社会科学など様々な知識領域をカバーする多肢選択問題で構成されている。我々は、ベンチマークで提供された例を用いて、5-shot設定で我々のモデルを評価し、表9に結果を報告する。このベンチマークでは、LLaMA-65BはChinchilla-70BとPaLM-540Bに数パーセントの差をつけており、ほとんどのドメインで平均的に劣っていることがわかる。これは、ArXiv、Gutenberg、Books3という限られた量の書籍や学術論文を事前学習データとして使用したためで、これらのモデルが最大2TBの書籍で学習したのに対し、合計でわずか177GBに過ぎない。Gopher、Chinchilla、PaLMが使用した大量の書籍は、このベンチマークでGopherがGPT-3を上回り、他のベンチマークでは同程度である理由にもなっている。

Evolution of performance during training

　訓練中に、いくつかの質問応答と常識的なベンチマークで我々のモデルの性能を追跡し、図2に報告した。ほとんどのベンチマークで、性能は着実に向上し、モデルのperplexityと相関がある（図1参照）。例外はSIQAとWinoGrandeである。特にSIQAでは、性能のばらつきが大きく、このベンチマークが信頼性に欠けることを示唆している。 LLaMA-33BとLLaMA-65Bは、訓練中に同様の性能を発揮したように、WinoGrandeでは、訓練時のperplexityとあまり相関がない。

Instruction Finetuning

　本節では、インストラクションデータに対する簡単なファインチューニングが、MMLUの改善に急速につながることを示す。LLaMA-65Bの非ファインチューニングバージョンはすでに基本的な命令に従うことができるが、ごくわずかなチューニングでMMLUの性能が向上し、モデルの命令追従能力がさらに向上することが確認された。本論文の焦点ではないので、Chungら(2022)と同じプロトコルに従って、インストラクションモデルLLaMA-Iを訓練する実験を1回だけ実施した。表10では、我々のインストラクトモデルLLaMA-IのMMLUでの結果を報告し、既存の中程度のサイズのインストラクションファインチューンモデルであるOPT-IML（Iyerら，2022）およびFlan-PaLMシリーズ（Chungら，2022）と比較している。LLaMA-I（65B）は、MMLU上で既存の中程度のサイズの命令ファインチューンモデルを上回ったが、MMLU上でGPT code-davinci-002の77.4（数字はIyerら（2022）から引用）というSoTAにはまだほど遠いものである。 57タスクにおけるMMLUの性能の詳細は、付録の表16に記載されている。

Bias, Toxicity and Misinformation

　大規模言語モデルは、学習データに存在するバイアスを再作成・増幅し（Sheng et al., 2019; Kurita et al. )、有毒で攻撃的なコンテンツを生成することが示されている (Gehman et al., 2020) 。我々のトレーニングデータセットには、Webからのデータが多く含まれているため、我々のモデルがそのようなコンテンツを生成する可能性を判断することは非常に重要だと考えている。LLaMA-65Bの潜在的な有害性を理解するために、有毒なコンテンツの生成とステレオタイプの検出を測定するさまざまなベンチマークで評価した。言語モデルのコミュニティで使用されている標準的なベンチマークをいくつか選択して、これらのモデルの問題の一部を示しているが、これらの評価では、これらのモデルに関連するリスクを完全に理解するには十分ではない。

Real Toxicity Prompts

　言語モデルは、侮辱、ヘイトスピーチ、脅迫などの有害な言語を生成することができる。モデルが生成できる有毒なコンテンツは非常に広範囲であり、徹底的な評価は困難である。いくつかの最近の研究（Zhang et al., 2022; Hoffmann et al., 2022）では、モデルの毒性を示す指標として、RealToxicityPromptsベンチマーク（Gehman et al. 2020）が、そのモデルがいかに有害であるかを示す指標となる。RealToxicityPromptsは、モデルが補完しなければならない約100kのプロンプトで構成され、その後、PerspectiveAPIへのリクエストによって毒性スコアが自動的に評価される。我々は、サードパーティであるPerspectiveAPIが使用するパイプラインを制御できないため、以前のモデルとの比較が困難である。

　100kのプロンプトに対して、モデルを用いてgreedyに生成し、その毒性スコアを測定する。プロンプトごとのスコアは0（無毒）から1（有毒）までの範囲である．表11では、RealToxicityPromptsの基本的なプロンプトと尊重するプロンプトのカテゴリーについて、私たちの平均スコアを報告している。これらのスコアは、文献で観察されたものと「同等」である（例えば、チンチラでは0.087）が、これらの研究と我々の研究では方法論が異なる（サンプリング戦略、プロンプトの数、APIの時間など）。特にRespectful promptsでは、モデルのサイズが大きくなるにつれて毒性が増加することが確認された。これは、以前の研究（Zhang et al., 2022）でも観察されたことであり、Hoffmannら（2022）の顕著な例外は、サイズが異なるにもかかわらず、ChinchillaとGopherの間に違いが見られないということである。これは、より大きなモデルであるGopherがChinchillaよりも性能が悪いという事実によって説明される可能性があり、毒性とモデルサイズの間の関係は、モデルファミリーの中でしか適用されない可能性があることを示唆している。

CrowS-Pairs

　CrowS-Pairs (Nangia et al., 2020)を用いて、本モデルのバイアスを評価した。このデータセットでは、性別、宗教、人種/色、性的指向、年齢、国籍、障害、身体的外観、社会経済的地位の9つのカテゴリーにおけるバイアスを測定することができる。各例はステレオタイプとアンチステレオタイプで構成され、zero-shot設定における両文章のperplexityを用いて、ステレオタイプの文に対するモデルの好ましさを測定する。スコアが高いほど偏りがあることを示す。GPT-3、OPT-175Bと比較した結果を表12に示す。

　表12でGPT-3とOPT-175Bと比較したところ、LLaMAは平均して両モデルに対してわずかに好ましかった。 LLaMAは、特に宗教の項目でバイアスがかかっており（OPT-175Bと比較して10％増）、次いで年齢、性別となっている。このようなバイアスは、CommonCrawlが複数のフィルタリングを施しているにもかかわらず、生じていると思われる。

WinoGender

　性別カテゴリに関する我々のモデルの偏りをさらに調査するために、我々は共参照解決データセットであるWinoGender　benchmark (Rudinger et al., 2018)を用いた。WinoGenderはWinogradスキーマで構成されており、モデルの共参照解決パフォーマンスが代名詞の性別によって影響を受けるかどうかを判断することでバイアスを評価する。　より正確には、各文には「職業」、「参加者」、「代名詞」という3つのメンションがあり、代名詞は職業または参加者を共参照している。我々は、このモデルに共参照関係を決定するよう促し、それが文の文脈に応じて正しく行われているかどうかを測定する。その目的は、職業に関連する社会的バイアスがモデルによって捕捉されているかどうかを明らかにすることである。例えば、WinoGenderデータセットの一文は、"The nurse notified the patient that his shift will beending in an hour. "であり、その後に'His'が続いている。次に、看護師と患者の継続のperplexityを、モデルによる共参照解決の形態ごとに比較する。「her/her/she」、「his/him/he」、そして「their/them/someone」の3つの代名詞（代名詞の文法的機能に対応した選択肢）を使用した場合のパフォーマンスを評価した。

　表13では、データセットに含まれる3つの異なる代名詞の共参照スコアを報告している。我々のモデルは、"her/her/she "や "his/him/he "の代名詞よりも、"their/them/someone "の代名詞に対する共参照の解決に著しく優れていることが分かる。同様の観察が以前の研究でもなされており(Raeet al., 2021; Hoffmann et al., 2022)、ジェンダーバイアスを示唆していると思われる。実際、"her/her/she "と "him/him/he "の代名詞の場合、モデルはおそらく、文の証拠を使うのではなく、オキュペーションの大多数の性別を使用して共参照解決を行う。

　この仮説をさらに調べるために、WinoGenderdatasetの "her/her/she" と "his/him/he" 代名詞の "gotcha" ケースセットを見てみることにした。これらのケースは、代名詞が職業の多数派性別と一致せず、職業が正解となる文に相当する。表13を見ると、LLaMA-65Bは、このような例でより多くの誤りを犯しており、性別や職業に関連する社会的バイアスを捉えていることが分かる。

TruthfulQA

　TruthfulQA (Lin et al., 2021) は、モデルの真実性、すなわち、主張が真実であるときを識別する能力を測定することを目的としている。 Linら（2021）は、「真実」の定義を「現実世界に関する文字通りの真実」という意味で考えており、信念体系や伝統の文脈でのみ真実とされる主張は含まれていない。このベンチマークは、モデルが誤った情報や誤った主張を生成するリスクを評価できる。質問文は多様なスタイルで書かれ、38のカテゴリーをカバーし、敵対するように設計されている。

　表14では、真実のモデル、および真実と情報の交差を測定するための両方の質問に対する我々のモデルのパフォーマンスを報告している。GPT-3と比較すると、両カテゴリーで高いスコアを獲得しているが、正答率はまだ低く、不正確な回答を行う（hallucinate）可能性が高いことを示している。