izmyonの日記

奈良の山奥で研究にいそしむ大学院生の学習記録。

今日の論文2023/04/29,30:The Geometry of Multilingual Language Model Representations

The Geometry of Multilingual Language Model Representations

aclanthology.org

Tyler Chang, Zhuowen Tu, and Benjamin Bergen. 2022. The Geometry of Multilingual Language Model Representations. In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, pages 119–136, Abu Dhabi, United Arab Emirates. Association for Computational Linguistics.

©2022 Association for Computational Linguistics

License: Creative Commons Attribution 4.0 International License(CC-BY)

本記事は、原著の内容に基づき翻訳したものです。以下の図は、そこから引用しています。

This article is my translation based on the content of the original publication. The following figures are taken from it.

要点まとめ

 多言語言語モデルが、多言語表現空間の共有を維持しつつ、各言語の言語に敏感な情報(language-sensitive information)をエンコードする方法を評価する。XLM-Rをケーススタディとして用い、言語モデリング性能への因果的効果や88言語の部分空間間の直接比較に基づいて評価した結果、平均中心化後に各言語が同様の線形部分空間を占めることが示された。部分空間の平均は、中間層で比較的安定している言語感受性の高い軸(language-sensitive axes)に沿って異なり、これらの軸はトークン語彙などの情報をエンコードする。異なる言語のトークン予測を誘導するには、言語平均によって表現をシフトすることで十分であるが、我々は、トークンの位置やpart-of-speechなどの情報をエンコードする、言語に依存しない安定した軸も同定した。言語感受性の高い軸とこのような言語中立的な軸に投影された表現を可視化し、言語族とpart-of-speechのクラスターを特定するとともに、トークン位置情報を表すスパイラル、トーラス、カーブも特定することができた。これらの結果は、多言語言語モデルが直交する言語感受性の高い軸と言語中立軸に沿って情報をエンコードすることで、下流のタスクや言語横断的な転移学習のために様々な特徴を抽出できることを示している。

1. 序論

 多言語NLPタスクの多種多様なタスクでSoTAの性能を発揮しているにもかかわらず(Conneau et al.,2020a; Hu et al.,2020; Liang et al.,2020; Lin et al.,2021; Xue et al.,2021)、 多言語言語モデル表現空間の内部構造はよく分かっていない。これらのモデルの成功は、言語間で共有された多言語空間に起因することが多く、モデルが「異なる言語から来る表現を単一の共有された埋め込み空間にマッピングする」(Conneau et al.、2020b)、「異なる言語は共有空間に近い」(Pires et al.、2019)と主張する。直感的ではあるが、これらの仮定の多くは詳細に検討されていない。例えば、これらのモデルは、言語の類型的特徴のような言語に敏感な情報(language-sensitive representations; Choenni and Shutova, 2020; Lianget al., 2021; Rama et al., 2020)を保持することが示されているにもかかわらず、言語横断的な表現(language-neutral representations:Conneau et al.2020b、Libovicky et al.2020、Pires et al.2019)も示すことが知られている。しかし、表現空間の基本的な形状が、どのように言語感受的情報と言語中立的情報の統合を促進するのか、また、個々の特徴や軸に関する空間の構造は、依然として未解決のままである。

 この研究では、多言語言語モデル表現の幾何学的構造について、下流言語モデル予測、言語部分空間間の直接比較、低次元部分空間に投影された表現の可視化を用いて分析する。多言語言語モデルXLM-R(Conneau et al., 2020a)をケーススタディとして、言語部分空間は平均中心化された後に互いに類似し、部分空間の平均間の差は言語語彙などの言語に敏感な情報をエンコードすることを発見した。我々は、言語族ごとに表現をクラスタリングする言語感受軸(language-sensitive axes)と、トークン位置やpart-of-speechをエンコードする言語中立軸(language-neutral axes)を同定した。これらの軸は層を超えて比較的安定しており、多言語言語モデルが処理中に個々の特徴のための安定した部分構造を維持することを示唆している。この結果は、多言語言語モデルの表現を理解する上で、表現の幾何学の重要性を明らかにし、多言語部分空間幾何学と解釈可能な多言語学習に関する今後の研究の基礎となるものである。

2. 関連研究

 これまでの研究では、多言語言語モデルがどのように異なるタイプの情報をエンコードするかについて検討されてきた。例えば、言語間の平均表現距離は、言語間の系統的な差異と相関があり(Rama et al., 2020)、個々の表現は、特に言語に敏感な部分空間に投影した後、リンギングの類型的特徴を予測するために使用できる(Choeni and Shutova, 2020: Liang et al., 2021)。構文情報は主に共有された構文部分空間にエンコードされ(Chi et al., 2020)、トークン頻度は言語間で同様にエンコードされる(Rajaee and Pilehvar, 2022)、言語平均に応じてシフトした表現が、言語横断的並列文検索(Cross-lingual prarell sentence retrieval: Libovický et al., 2020; Pires et al. 2019)を容易にする。しかし、これらの研究は、主に特定の特徴や探索に焦点を当てており、元の表現空間の広範な幾何学がどのように特徴のエンコーディングや相互作用を促進するかに焦点を当てた研究は少ない。この広い文脈をよりよく理解するために、我々は多言語言語モデルの全体的な言語部分空間を検討し、言語に依存する特徴と言語に中立的な特徴をエンコードする軸を特定する。

3. 言語部分空間

 多言語表現空間の形状に関する最初の評価として、多言語言語モデルXLM-R (Conneauet al., 2020a)の88言語について、各言語の文脈に応じたトークン表現に対する特異値分解(SVD)を用いてアフィン(すなわち、平均シフトされた線形)部分空間を特定した。これまでの研究では、主に特異値正準相関分析(SVCCA; Raghu et al., 2017)の文脈でSVDを考え、変換されていない部分空間の形状を考慮せずに、表現のセット間の情報的類似性を定量化してきた(例えば、Kudugunta et al., 2019; Saphra and Lopez, 2019)。ここでは、SVDが、個々の言語における言語モデリングの性能を十分に説明するアフィン部分空間を特定し、その部分空間は、特に中間層において、言語別の平均値を差し引いた後に互いに類似していることを発見した。

3.1 モデルとデータセット

 すべての実験において、様々な多言語NLPタスクでSoTAの性能を達成している事前学習済み言語モデルXLM-Rを使用した(Conneau et al., 2020a)。XLM-RはBERTとRoBERTa(Devlin et al., 2019; Liu et al., 2019)のTransformerアーキテクチャを踏襲しているが、このモデルは100言語のマスクトークンを予測するように訓練されている。XLM-Rから文脈に応じたトークン表現を抽出するために、クリーンウェブのテキストデータであるOSCARコーパス(Abadji et al., 2021)からテキストシーケンスを入力し、各シーケンスが512トークンを含むように連続したセンテンスを連結させる。各Transformer層が出力したベクトル表現を第1層から第12層までのトークン表現として使用し、第0層には文脈によって条件づけられていないトークン埋め込みを使用した。XLM-Rの事前学習用コーパスとOSCARコーパスの両方に出現する88言語を対象とし、OS-CARの配列数が100未満の言語は除外した。

3.2 アフィン言語部分空間

 各言語 Aのアフィン部分空間を、各言語の平均表現 \mu_A \in \mathbb{R}^dと、正規直交基底 V_A \in \mathbb{R}^{d × k}で定義される言語内の分散を最大にする k方向を使って定義した。この部分空間を特定するために、言語 A(OS-CARコーパスの512シーケンス)の262K個の文脈に応じたトークン表現を用いて、 \mu_Aを中心とした特異値分解(SVD)を適用した。我々は、部分空間が言語の全分散の90%を占めるように、部分空間の次元数 kを選択した。すべての層で、部分空間の次元の中央値は335であり、元の768次元の半分以下であった。

 アフィン部分空間は言語モデリング性能に影響を与える。アフィン部分空間が対応する言語の関連情報をどの程度含んでいるかを評価するため、各言語 Aごとに、対応する言語部分空間に表現を投影したときの言語モデリングのperplexityを評価した。

 Proj_A (x) = V_A V_A^T (x - \mu_A ) + \mu_A

 言語 Aにおける元言語 Aのperplextiyに対する投影のperplexityの比を算出した。図2( {Proj}_A)に示すように、元の空間の半分以下の次元の部分空間を投影したにもかかわらず、一般にperplexityは微増にとどまった。このことは、アフィン言語部分空間は、言語モデリングタスクに関連する情報の多くを、対応する言語で包含していることを示唆している。

 言語の部分空間は互いに異なっていた。モデルが単にすべての言語で同じアフィン部分空間を使用しているかどうかを評価するために、異なる言語 Bの部分空間に投影したときの各言語 Aにおけるperplexityを評価した。図2( {Proj}_B)に示すように、これらの異なる言語の部分空間に投影した場合、perplexityは大幅に増加し、モデルが異なる言語のテキストを異なる部分空間にマッピングしていることが示唆された。ただし、これらの投影は各 \mu_Bを通る部分空間に投影しており、評価言語 \mu_Aの本来の意味からはかなり離れている可能性がある。したがって、他の言語部分空間への投影で高いperplexityを示したのは、単に \mu_Aではなく \mu_Bを通る部分空間への投影の結果であった可能性がある。

 平均値シフトされた部分空間は、互いに類似していた。言語 Aを言語 Bに投影した場合のperplexityを再度評価したが、言語 Bの部分空間は \mu_Aを通過するようにシフトさせた。図2( {Proj}_{B,μA})に示すように、特に中間層では、この平均値シフト投影によるperplexityは、言語 A部分空間に投影した場合よりも中程度にしか高くならない。つまり、 \mu_Aにシフトした言語 Bのアフィン部分空間への投影は、言語 Aのアフィン部分空間への投影(デフォルトでは \mu_Aを通過する)と同様であった。 このことは、中間層において、異なる言語のアフィン部分空間は、言語平均に従ってシフトすると、互いに類似していることを示唆している。また、 {Proj}_B {Proj}_{B, \mu_A} の間のperplexityの差は、より深い層で拡大する傾向にあることが示された。 このことは、言語投影 {Proj}_Bによる言語モデル性能の低下は、より深い層の言語平均によってほぼ説明できることを示唆している。このような深い層では、言語部分空間の違いが部分空間平均の違いになっていると考えられる。

3.3 部分空間距離

 補完的な指標として、部分空間間の距離を直接定量化した。そのために、まず、アフィン言語部分空間を計算するためのSVDアプローチでは、各言語の主軸と対応する分散が特定されることに注目する。これらの軸と分散を共分散行列として解釈することで、(アフィン部分空間の定義に使うのではなく)正定値行列間の距離を計算する数学の理論的動機に基づく距離メトリックを採用することができる(Bonnabel and Sepulchre, 2009)。具体的には、2つの正定値行列 K_A, K_B \in \mathbb{R}^{d×d}間の距離を次のように定義する。

 \text{Distance} (K_A, K_B) = \sqrt{\sum_i \log^2 (\lambda_i) }

 ここで \lambda_i K^{-1}_A K_B d個の正実固有値(Bonnabel and Sepulchre, 2009)とする。 この距離メトリックは、対称的であり、直線変換(回転、反射、スケーリングなど)に対して不変である。しかし、このメトリックは部分空間の平均を無視するため、平均を中心とした部分空間間の距離メトリックとしてのみ考慮することができる。

 前節で特定した88の言語部分空間間のペアワイズ距離を算出した。この距離を直感的に理解するために、各軸を \theta度で回転させたり、倍率 \gammaでスケーリングした部分空間間の距離と、真の距離を比較した。例えば、第8層のスペイン語と中国語の部分空間間の距離は、2度回転または1.53倍で拡大縮小する前後の言語部分空間からそれ自身への平均距離にほぼ等しかった。このように、任意の2つの部分空間間の距離を、類似の回転やスケーリングの観点から考察することが可能である。

 ここでも、平均値シフトされた部分空間は、互いに類似していた。各層の言語部分空間距離の平均回転角度とスケーリング倍率を図3に示す。 3.2節のperplexity比較の結果と同様に、中間層の言語部分空間は、平均中心化後、驚くほど互いに類似していることがわかる。第6層から第11層では、平均的な部分空間距離は、5度以下の部分空間回転と1.6倍以下の部分空間スケーリングと同等であった。この結果は、多言語言語モデルの中間層の表現が、特に言語平均の調整後に、最も言語横断的に整列することが多いことを示唆する先行研究(Libovický et al.、2020;Pires et al.、2019)と一致する。これらの中間層では、モデル表現は、元の入力と最終的な言語モデリング予測の両方から離れたところにあり、その両方は非常に言語感受性が高い。

4. 言語感受軸

 このように、下流の言語モデリング性能と言語部分空間間の直接比較からの収束的な証拠から、平均化後の多言語言語モデルにおいて、言語は類似した部分空間を占めると考えられる。しかし、部分空間平均の違いは、言語部分空間が特定の軸に沿って依然として異なることを実証している。 直感的には、これらの軸は、言語感受情報、つまり入力言語アイデンティティと高い相互情報を持つ情報をエンコードするはずである。 例えば、生の言語入力に含まれる語順や特定のトークンは、入力言語に関する高い情報量を持っている。 本節では、軸を接続する部分空間が、トークン語彙のような言語感受性の高い特徴をエンコードするかどうかを検討する。実際、言語平均による表現のシフトは、任意のターゲット言語の言語モデリング予測を誘導するのに十分であることを見出した。次に、LDA(Linear Discriminant Analysis)を用いて、言語感受軸を明示的に同定し、これらの軸は中間層で驚くほど安定していることを発見した。

4.1 ターゲット言語の語彙を誘導する

 我々は、言語平均や部分空間に従って表現をシフト・投影することが、異なる言語における言語モデリング予測を誘発するのに十分であるかどうかを評価した。 OS-CARコーパスの最大10億個のトークンのうち、少なくとも1e-6(100万個のトークンに1回出現)の頻度を持つトークンの集合として、その言語の語彙を定義した。 XLM-Rでは、これらの語彙は、元の25万トークンの語彙から3Kから24Kトークンの範囲であった。各語彙から、88言語の少なくとも90%に出現する共通トークン(945トークン)を除外した。これらの共通トークンは、主に句読点、数字、ラテン文字の1~2文字列からなる。

 各評価言語 Aの512個のシーケンスについて、言語モデリングによる予測値を収集し、予測されたトークンが言語 Aの語彙に占める割合を算出しました。すべての言語において、予測されたトークンのほぼすべてが共通トークンか評価言語のトークンであった(M=99.5%、SD=0.2%)。一般的なトークンと評価言語 Aトークンの平均比率を図4に示す。

 言語平均によるシフトは、ターゲット言語の語彙を誘導する。シフトベクトル \mu_B - \mu_Aを加えることで、言語 Aの表現がターゲット言語 Bにシフトされたとき、同じトークン比率になると考えた。図4に示すように、 \mu_Bにシフトすると、言語 Bの予測トークンの割合が実質的に増加し、言語 Aの予測トークンの割合が減少した。

 追加的な目標言語語彙を誘発する部分空間への投影。次に、言語Bの部分空間に投影することで、言語Bの予測値が追加されるかどうか検討した。この部分空間への射影は、言語 B部分空間と直交する軸に沿った情報を除去することと同じであり、これらの軸に沿って \mu_Bと等しい表現を設定するだけである。図4に示すように、この投影を行うだけで、平均値シフトと同様に目標言語トークンの割合が増加することがわかった。このことから、ある軸では、言語 Bの語彙の関連情報を言語平均値だけで捉えていることが示唆される。

 そこで、平均値シフトと部分空間投影の組み合わせを検討した。幾何学的には、言語 Bの部分空間と直交する軸を \mu_Bとし、言語 Bの部分空間内の軸に沿って \mu_B - \mu_Aにだけ表現を移動させる。実際、この変換により、言語 Bの予測されるトーケンの割合が、平均値シフトや投影を超えた形でさらに増加した(図4)。この変換は、未修正の言語モデルと比較して、ターゲット言語では4.7倍(10%→47%)の予測トークンを誘導し、元の評価言語では3.5倍(75%→21%)の予測トークンを減少させた。これらの結果は、ある軸では、言語感受性の高い情報を単純に言語平均で捕らえることができ(値を \mu_Bと等しくする)、他の軸に沿って、他の言語Aからの表現分布を言語Bにシフトできる(値を \mu_B - \mu_Aでシフトする)ことを示唆している。言語感受軸のタイプについて、より詳細な解釈を付録Cとして収録している。

4.2 線形判別分析(LDA)

 前節では、言語部分空間が言語感受軸(言語手段を結ぶ軸など)に沿って異なることを示し、その軸にはトークンボ語彙などの情報が記録されていることを示した。次に、Liangら(2021)と同様に、LDA(linear discriminant analysis)を用いて、言語空間を分ける特定の軸を特定した。表現の n個の集合(この場合、各言語の4K個のランダムサンプリングされた表現の1つの集合)が与えられたとき、LDAは集合間の分離を最大化する n-1軸を算出する。 Liangら(2021)を参考に、特定された言語感受軸に投影された表現を直接可視化した。

 言語族ごとにクラスター化する言語。LDAで特定された最初の軸に表現を投影すると、言語ファミリーごとに緩やかにクラスター化した(図5)。 これは、LDA軸が言語類型的特徴と言語族をエンコードすることを発見したLiangら(2021)の知見と一致する。付録D.1では、88の個々の言語種をすべて含む各層のLDAプロットを掲載している。初期の層と最後の隠れ層では、表現がスクリプトによってよりクラスター化しているように見える。実際、これらの層は元のトークン入力または出力トークン予測に近い。

 言語感受軸は中間層で安定していた。特に、LDAによって特定された軸は、中間層(5層から9層など)に対して驚くほど類似した投影がなされたことになる。実際、これらの層では、層に関係なく、同じ言語感受軸に表現が投影されることがわかった。例えば、図5のプロットはすべて、第8層について特別に計算された言語感受軸に投影されるが、第5層から第9層の表現についてはほぼ同じ投影となる。残りの層のこれらの軸への投影は、付録D.1に示されており、第3層から第11層までは同様である。LDAによって特定された最初の10個の言語感受軸については、定性的には同様の結果が観察された。これらの結果は、中・後期中層を通過しても、言語感受軸に沿った表現はほとんど変化しないことを示唆している。これらの層では、言語モデルがより多くの意味情報を処理し(Jawahar et al., 2019; Tenney et al., 2019)より言語中立軸で表現を変換する。

5. 言語中立軸

 このことから、多言語言語モデルは、言語感受性の高い情報を言語感受軸でエンコードすることが明らかになった。しかし、言語中立軸と推定される軸でどのように情報がエンコードされるかについては、まだ明確な像が得られていない。そこで、言語感受軸を特定するためにLDAを用いたことをきっかけに、より言語中立的な情報をエンコードする軸である、トークン位置とpart-of-speech(POS)を特定するためにLDAを用いた。特定された軸が、対応する特徴を言語的に中立な方法でエンコードしているかどうかを評価した。

5.1 トークンの位置

 まず、入力配列におけるトークンの位置をエンコードする軸を特定した。注目すべきは、XLM-Rの最初のトランスフォーマー層の前に、トークンの位置が絶対位置埋め込みとして言語中立的にエンコードされることである。位置情報を言語依存的に変換するモデルでなければ、情報は言語中立的にエンコードされたままである。しかし、トークン位置の軸を特定することは、モデルにおける位置情報の言語中立性についての仮定を検証し、この情報がどのように表現されるかをよりよく理解するために役立つ。

 位置軸は言語的に中立であった。16個のトークン位置に対応する表現の集合にLDAを適用し、異なる位置を区切る軸を特定した。 各位置のインデックスには、全言語から一様にサンプリングされた8K個の表現を使用した。すべてのトークン位置の表現を特定された位置軸に投影し、位置軸が位置情報を言語的に中立にエンコードしているかどうかを定性的に判断した。その結果、図6に示すように、位置軸に沿って、入力シーケンスにおけるトークンの位置を、そのソース言語を知らなくても定性的に特定することができ、トークンの位置情報がモデルを通過する際にも、ほぼ言語中立的であることが示された。

 位置情報は非線形構造に沿ってエンコードされていた。図7に示すように、トークンの位置情報は、位置部分空間において、トーラス、スパイラル、カーブに沿ってエンコードされていた。この構造は、Caiet al.(2021)の単方向言語モデルにおいて分散が最大になる方向に沿って特定された「スイスロール多様体」と類似していた。このスパイラル構造は、モデルにおいて相対位置と絶対位置の両方の情報が必要であるためではないかと我々は考えている。あるトークンが近くのトークンと相対的にどのような位置関係にあるかを知ることが有用な場合があり、この情報はトーラスによってエンコードすることができる。その円形構造はトークンの位置をあるウィンドウサイズでエンコードすることができる(例えば、図7右)。この場合、トーラス上の角度は相対的な位置の距離を表す。また、トークンの絶対的な位置を知ることが有用な場合もある。これは、単一の曲線または線形次元に沿ってエンコードすることができる(図7左)。この相対位置と絶対位置の情報を組み合わせるには、ある軸では線と曲線に、他の軸ではトークンに投影する多次元スパイラル(図6の3次元スパイラルなど)が有効である。今後、これらの非線形構造が、Transformerモデルにおけるドット積の自己保持機構からどのように生じ、どのように相互作用するのかを調べることができる。

 位置表現は層を超えて安定していた。4.2節の言語感受軸への投影と同様に、他の層で特定されたトークン位置軸に投影しても、図6とほぼ同じ曲線が得られた(プロットについては付録D.2参照)。 実際、これらの軸は2番目の隠れ層で安定し、最後の隠れ層までほとんど変化しないことがわかった。このことは、各層が言語中立的な位置軸に沿った表現に最小限の変換を加えるだけで、内部位置表現はモデルを通過する際にほとんど変化しないことを示唆している。

5.2 Part-of-speech

 多言語言語モデルが言語中立的な情報を言語中立軸に沿わせているかどうかをより強く検証するために、トークンのpart-of-speech(POS)をエンコードする軸を検討した。POSは、トークンの位置とは異なり、モデルに直接入力されない。言語中立的な方法でPOSをエンコードするために、モデルは、教師なしで、言語横断的に特徴(例えば、名詞と動詞の特徴)を調整する必要がある。

 我々は、Universal Dependencies(UD)データセット(Nivre et al.)中のPOSタグに対応する表現の集合に対してLDAを適用した。具体的には、言語モデルトークンを、UDコーパスのどこかでアノテーションされているPOSタグに対応させた。このトークンからPOSタグへの対応を用いて、各言語のトークン表現を各POSタグに対して抽出した。LDAを用いて特定のPOSタグを分離する軸を特定するために、UDコーパスに登場するトークンを持つすべての言語から一様にサンプリングした、各POSタグの8k個のトークン表現のセットを使用した。 n次元に対する投影には、 n+1個のPOSタグに対するLDAを使用し、提供されたPOSタグの表現を分離する n個の軸を作成した。

 POS軸は言語中立的で、層を超えて安定している。トークン位置と同様に、POS情報はPOS軸に沿って言語的に中立に大部分エンコードされていた。図8に示すように、POSの部分空間に投影すると、入力言語とは無関係に、POSごとにほぼクラスタリングされた表現が得られた。この結果は、構文情報が言語間で共有された線形部分空間に整列することを示す先行研究(Chi et al., 2020)と整合的である。Chiら(2020)とは異なり、我々は低次元の部分空間を同定し、その部分空間に直接投影された表現を、追加の歪みなしに(例えば、t-SNE可視化などと異なり)可視化することができる。さらに、これらのPOS軸は1層から10層にわたって比較的安定しており、他の層で同定されたPOS軸に投影しても同様の投影が得られることがわかった(追加のプロットは付録D.3参照)。この結果は、中間層がより高いレベルの情報を処理するという仮説(Jawahar et al.,2019; Tenney et al.,2019)と一致するが、これらの層の安定した軸に沿って低レベルの情報がまだ保持されていることも示唆している。

6. 多言語構造

 最後に、多言語言語モデルの表現空間がどのように構成されているか、前節の結果を統合してより明確なイメージを構築する。セクション3では、個々の言語が、平均値シフト後に互いにほぼ類似したアフィン部分空間を占めることを明らかにした。これらの言語部分空間は、言語中立的な軸を共有することで、音声位置やPOSなどの情報を包含する(セクション5)。これらの部分空間は、主に言語感受軸(例えば、言語平均を結ぶ軸)に沿って異なり、トークン語彙などの情報をエンコードする(セクション4)。つまり、言語部分空間が少なくとも1つの言語感応性の高い軸に沿って異なる限り、それらは高次元空間では基本的に重ならないということである。正確には、異なる言語の表現が直接多言語部分空間を共有するのではなく、言語に敏感な表現と言語に中立な表現を抽出するために、特定の軸と部分空間に投影する必要がある。 言語感受軸と言語中立軸の異なるタイプについては、付録Cで説明する。しかし、個々の特徴量や軸の「言語感」を厳密に定量化することは、今後の研究に委ねる。

 それでも、図1、9、10に示すように、異なる特徴をエンコードする軸は、しばしば互いに直交し、独立しており、外来ノイズや他の次元に沿った特徴の影響を最小限に抑えた投影が可能であることが判明した。例えば、図9では、名詞と動詞の区別は、入力シーケンスにおけるトークンの位置に直交する軸に沿ってエンコードされており、対応する軸に投影することでどちらの特徴も抽出することができた(付録D.4の追加例参照)。しかし、これは、高次元空間では低次元の部分空間は互いに直交している可能性が高く、互いに相関が少ない特徴を選択したためと考えられる。 将来的には、多言語言語モデルがより複雑な言語特徴をどのように幾何学的に表現するか、あるいは、モデルの表現空間が異なる特徴を表現する直交する部分空間にどの程度完全に分解できるかを評価することが考えられる。この研究は、より良いクロスリンガル伝達学習のために、言語間でより的を絞った部分空間アライメントを行うための示唆に富んでいる。例えば、我々の方法は、既存の表現アライメント手法を使って、特定のタスクに対してアライメントすべき、あるいはすべきでない特定の軸を特定するために使用できるだろう(例えば、Cao et al., 2020; Kulshreshtha et al., 2020; Zhao et al., 2021)。

 最後に、セクション4.2、5.1、5.2において、多言語言語モデルの中間層と後期中間層で、言語族、トークン位置、POSが安定してエンコードされることを示唆する初期結果を発表した。言い換えれば、これらの層の変換は、主に言語中立的であり、後のトークン再構築のために低レベルの特徴をエンコードする構造を保持する可能性がある(Voita et al.、2019)。これらの層では、表現が主に高次の特徴に対応する軸に沿って変化し(例えば、セマンティクスや一般的な推論; Jawahar et al., 2019; Tenney et al., 2019)、他の軸は変化しないかもしれない。特定の表現構造が層を超えてどのように保持されるかをより詳細に分析することが今後の研究の方向性として有望である。

7. 結論

 本研究では、多言語言語モデルXLM-Rの言語部分空間と個々の言語感受軸、言語中立軸を特定した。これらの部分空間と軸を、言語モデル予測との因果関係、部分空間間の直接比較、低次元ビジュアライゼーションなどの多様な方法論で評価した。その結果、多言語モデルは、表現空間の直交軸に表現を投影することで特徴をエンコードし、ダウンストリームタスクや多言語学習において様々な信号を効率よく同時にエンコードすることができることが示唆された。

8. Limitation

 もちろん、我々の研究にはいくつかの限界がある。まず、我々の結果は、XLM-RとOSCARコーパス(Abadjiet al., 2021; Conneau et al., 2020a)で利用可能な言語によって制限されていた。88言語中52言語がインド・ヨーロッパ語族に属していた(AppendixD.1の個々の言語を参照、Glotolog databaseから得た言語族;Hammarström et al.) 88の言語には、6つのオーストロネシア語、2つのアフリカ語しか含まれておらず、さらにネイティブアメリカンの言語は含まれていない。このように言語的多様性が限られているため、今回の結果は、言語間の部分空間と表現の類似性を過大評価する可能性がある。  第二に、検討した言語間でも、コーパスは、OSCARとXLM-Rの事前学習コーパスの両方で、サイズと品質の両方で大幅に異なっていることである。コーパスが小さく、きれいでない言語では、XLM-Rの学習済み表現と抽出された部分空間の代表性が低くなる可能性がある。また、言語感受軸や部分空間は、セクション4で観察された言語族やトークン語彙とともに、言語間のトピック分布のシフトをエンコードする可能性がある。 このような観点から、トピック情報の言語感受軸を調査することで、研究者はトピックが言語間でどのように異なるかを定量化できるかもしれない。

 最後に、計算資源が限られているため、我々の実験は事前に訓練された1つの言語モデルXLM-Rに対してのみ実行された。アーキテクチャ、ハイパーパラメータの設定、パラメータの初期化などが異なれば、異なる結果が得られる可能性がある。今後の研究で、より多くのモデルや言語をカバーする多言語言語モデル表現の幾何学的な評価が継続されることを期待する。