AttentionViz: A Global View of Transformer Attention

arxiv.org

Yeh, Catherine, Yida Chen, Aoyu Wu, Cynthia Chen, Fernanda Viégas, and Martin Wattenberg. "AttentionViz: A Global View of Transformer Attention." arXiv preprint arXiv:2305.03210 (2023).

License: Creative Commons Attribution 4.0 International License(CC-BY)

本記事は、原著の内容に基づき筆者が要約または翻訳したものです。以下の図は、そこから引用しています。

This article is my summary or translation based on the content of the original publication. The following figures are taken from it.

要点まとめ

トランスフォーマーモデルは、機械学習に革命をもたらしているが、その内部構造は謎に包まれている。本研究では、トランスフォーマーモデルが系列の要素間の豊かで文脈的な関係を学習することを可能にする、トランスフォーマーのセルフアテンションメカニズムを研究者が理解できるように設計された新しい可視化手法を紹介する。本手法の主なアイデアは、トランスフォーマーモデルがアテンションを計算するために使用するクエリベクトルとキーベクトルの結合埋め込みを可視化することである。従来のアテンションの可視化手法とは異なり、本手法は、複数の入力シーケンスにまたがるグローバルなパターンの分析を可能にする。このクエリーとキーの埋め込みに基づくインタラクティブな可視化ツールAttentionViz (demo:http://attentionviz.com) を作成し、言語と視覚の両方の変換器におけるアテンションのメカニズムを研究するために使用する。我々は、いくつかの応用シナリオと専門家のフィードバックを通じて、モデル理解の向上とクエリキー相互作用に関する新しい洞察を提供する上で、我々のアプローチの有用性を実証する。

1. INTRODUCTION

トランスフォーマーニューラルネットワークアーキテクチャ[45]は、自然言語処理（NLP）[11, 35]からコンピュータビジョン[12]までの分野で大きな影響を及ぼしている。実際、トランスフォーマーは現在、数億人が利用する大規模な実世界システムに導入されている（例：Stable Diffusion、ChatGPT、Microsoft Copilotなど）。しかし、この成功の背後にあるメカニズムは、特にモデルの複雑さとサイズが大きくなるにつれて新しい機能が出現し続けるため、いくらか謎のままである[9, 53]。トランスフォーマーのモデルをより深く理解することで、より信頼性の高いシステムを構築し、問題を解決し、改善策を提案することができる。

　本研究では、トランスフォーマーの動作をより深く理解することを目的とした新しい可視化技術について説明する。 (第2項では、トランスフォーマーについて簡単に紹介する。私たちの分析対象は、これらのモデルが要素間の豊かな関係を学習し利用することを可能にする、特徴的なトランスフォーマーセルフアテンションメカニズムである。アテンションパターンの研究は盛んに行われているが、従来の技術では、一度に一つの入力シーケンス（例えば、一つの文章や画像）に関連する情報を可視化するのが一般的であった。典型的なアプローチは、与えられた入力シーケンスに対するアテンションの重みを二分割グラフ [44, 46] またはヒートマップ [15, 25] で表現するものである。

　本手法は、多くの入力シーケンスのセルフアテンションパターンを一度に見ることができる、より高度な視点を提供する。このアプローチは、Activation Atlas [4]のようなツールの成功からヒントを得ている。このツールでは、研究者は「ズームアウト」してニューラルネットワークの概要を確認し、詳細については深堀することができる。我々は、トランスフォーマーの様々なアテンションヘッドがどのように動作するかを研究者に提供することができる、一種の"attention atlas"を構築することを目指す。主な新技法は、トランスフォーマーが使用するクエリーベクトルとキーベクトルの結合埋め込みを視覚化し、個々のアテンションヘッドのビジュアルサインを作成することである。

　この技術を説明するために、言語と視覚の両方のトランスフォーマーを使ってアテンションを探ることができるインタラクティブ可視化ツールであるAttentionVizを実装した。 AttentionVizは、一度にすべてのアテンションヘッドを見ることができるグローバルビューと、単一のアテンションヘッドまたは入力シーケンスの詳細をズームインする機能の両方を提供し、複数の詳細レベルを通じて探索を行うことができる（図1）。

　AttentionVizとドメインの専門家へのインタビューによるいくつかの応用シナリオを通じて、本技術の有用性を実証する。具体的には、広く使われているトランスフォーマーであるBERT [11]、GPT-2 [34]、および ViT [12]について、可視化によって明らかにできることに焦点を当てる。 BERTのアテンションパターンに関連するいくつかの識別可能な「視覚的痕跡」を発見し、ViTの視覚的アテンションメカニズムにおける新しい色相/周波数動作を検出し、GPT-2の異常となりうる動作を発見する。また、ユーザーからのフィードバックにより、本アプローチは、他の埋め込みをスケールアップして可視化することが可能であることが確認された。

　要約すると、この研究の貢献は以下の通りである。

共同クエリキー埋め込みに基づくトランスフォーマーモデルの注目度傾向を探る可視化技術。
視覚と言語変換におけるセルフアテンションを研究するための我々の技術を、複数のスケールで応用したインタラクティブツールである、AttentionViz。
Atten-tionVizがトランスフォーマーのアテンションパターンに関する洞察をどのように明らかにするかを示すアプリケーションシナリオと専門家によるフィードバック。

2. BACKGROUND ON TRANSFORMER MODEL

[45]で紹介されたトランスフォーマーは、連続した入力で動作するように設計されたニューラルネットワークアーキテクチャである。トランスフォーマーの完全な説明は本稿の範囲外であるが、いくつかのコンセプトは我々の研究を理解する上で重要である。まず、トランスフォーマーは、ベクトル（しばしば埋め込みと呼ばれる）の集合を入力として受け取る。埋め込みは、さまざまな入力タイプを表すことができる。テキストベースの変換器では、単語や単語の一部に対応し、ViTでは、ピクセルのパッチをエンコードする。

　ネットワークは、これらのベクトルを一連のアテンション層を介して繰り返し変換し、各アテンション層は、埋め込みのペア間で情報を移動させる。「アテンション」という名前は、すべての埋め込みが同じように関連しているわけではなく、特定のペアがより強く相互作用する、つまり、より「注意」し合うことを示唆している。アテンションレイヤーは、どのペアが相互作用し、どのような情報を流すかを決定する。

　例えば、“The brown capybara is sleeping now,” という文の単語を対象としたトランスフォーマーでは、 “capybara”と “is,”の埋め込みの間には高い注意（と情報の流れ）が期待できるが、 “brown”と “now.”の埋め込みの間には期待できないかもしれない。このセルフアテンション機構により、トランスフォーマーはシーケンスの要素間の豊富な関係セットを学習して使用することができ、様々なNLPやコンピュータビジョンのタスクにおいて、大幅な性能向上を実現している [11, 12, 34] 。

　ペアを埋め込む理由は様々である。例えば、この例文では、"brown "と "capybara "は形容詞-名詞関係で結ばれ、"capybara "と "is "は主語-動詞関係である。このように、複数の関係タイプを許容するために、トランスフォーマーのアテンション層は複数のアテンションヘッドで構成され、それぞれが異なる注意と情報の流れのパターンを表現することができる。

　各アテンションヘッドは、クエリ重み行列 $W_Q$ とキー重み行列 $W_K$ から計算される2つの線形形式を使用して、自身のアテンションパターンを計算する。具体的には、2つの埋め込みベクトル $x$ と $y$ に対して、アテンション $f(x,y)$ はクエリーベクトル $W_Q x$ とキーベクトル $W_K y$ の内積で決定される。 $W_K y$ の次元を $d$ とすると、次のようになる。

$f(x, y) = \frac{1}{\sqrt{d}} \langle W_Q x, W_K y \rangle$

　埋め込みベクトル $\{ x_1, x_2, \ldots, x_n \}$ が与えられたとき，ソフトマックス関数を使って $x_i$ と他のベクトルの間のアテンションを計算する。

$attn(x_i, x_j) = \text{softmax}_j (f(x_i, x_1), \ldots, f(x_i, x_n) ) = e^{f(x_i, x_j)} / \sum_k e^{f(x_i, x_k)}$

この式は、クエリベクトルとキーベクトルの間の内積が大きいほど、最終的な注目値が高くなることを示しており、この事実を私たちは共同埋込みの可視化で利用している。

　トランスフォーマーアーキテクチャには、ここで説明した以上のものがある。特に、我々は埋め込みのペアの間の注目の重み付けを説明しただけで、それらの間を流れる特定の情報については説明していない。(後述するように、これはさらなる研究が必要な分野である）しかし、最後の技術的なポイントは、この論文の後半で画像を解釈するのに役立つので、言及する価値がある。トランスフォーマーに与えられる最初の埋め込みは、通常、その順序（1次元配列の場合）または空間構成（ViTのようなグリッドの場合）のベクトル表現が組み込まれている。シーケンスの場合、これらの位置ベクトルは三角関数を用いて定義され、高次元空間の螺旋状の曲線上に位置する（[45]を参照）。

2.1 Models Studied in this Paper

我々は、BERT（言語）、GPT-2（言語）、ViT（視覚）の3つのトランスフォーマーモデルを研究する。BERTは、Bidirectional Encoder Representations from Transformers [11]と呼ばれる多層トランスフォーマーである。 GPT-2 (Generative Pre-trainedTransformer 2) [35]は、多層トランスフォーマーデコーダーである。ViT（ヴィジョントランスフォーマー）[12]は、画像を「パッチ」に分割し、それらを文中のトークンに見立てたセルフアテンションベースのトランスフォーマーアーキテクチャを採用するものである。 BERTと同様に、ViTは多層で二重構造のトランスフォーマーエンコーダである。この研究では、16x16（ViT-16）と32x32（ViT-32）のパッチサイズにおけるViTの性能について調べる。

多くの研究者が、トランスフォーマーの内部動作を調査することを試みている。 [7, 29]は、学習された言語表現を探求することで、トランスフォーマーベースの言語モデルによる性能向上を理解しようとしている。また[42]では、BERT が品詞タグ付けから関係分類に至る自然言語解析の古典的なステップを再現していることが確認されている。トランスフォーマーのバックボーンであるアテンションもまた、集中的に研究されている。例えば、アテンションは、自然言語処理システムの構文構造 [8, 50] やViTのゲシュタルト的なグループ化 [28] と関連しているようである。また、ViTの視覚的アテンション機構を畳み込みフィルタと比較したところ、アテンションは、画像の隠蔽、破損、高周波ノイズに対してより頑健であることがわかった[30, 33]。関連研究の議論では、トランスフォーマーのアテンションを研究するための視覚的アプローチに焦点を当てる。

3.1 Visualizing Attention in a Single Input Sequence

アテンションパターンは、言語と視覚の両方のトランスフォーマーにおいて、自然に視覚化されます[10, 16, 26, 32]。これらの可視化は、二分木グラフ（[25,40,44,46]など）やヒートマップ（[1, 15, 17, 20, 25, 36]など）を用いて、単一の入力シーケンスのクエリとキートークン間のアテンションを可視化することに主に焦点を当てている。

　複数のモデルやレイヤーを横断して比較できるような可視化もいくつか提案されている。例えば、Attention Flows [10]は、BERTの層内および層間のアテンションの比較や、1つの文章を与えられたアテンションヘッド間の比較をサポートする。Dodrio [52]は、単一の入力に適用されるグリッドビューを使用しており、アテンションヘッドの直接比較を可能にする。また、VisQA [16]では、言語セルフアテンション、視覚セルフアテンション、言語-視覚クロスアテンションのヒートマップを表示することにより、視覚質問応答タスクの異なるヘッドにおけるアテンションを可視化している。しかし、これらのモデル比較システムにおいても、分析者は、与えられたアテンションヘッドに対するパターンを特定し検証するために、一度に異なる入力を見る必要がある。

3.2 Beyond Single Inputs: Visualizing Embeddings andActivation Maximization

複数の入力にまたがって保持されるパターンを求めるのは自然なことである。この目的のために有効であることが証明された技術の1つは、複数の入力シーケンスからの埋め込みベクトルの集合を可視化することである [3, 14, 39, 51]．例えば、[36]は、多くの異なる文脈で使用される同じ単語のBERT埋め込みを視覚化し、語義に対応するクラスターを発見した。また、構文処理の研究において、[7]は、BERT埋め込みを可視化した。多言語BERTモデルからの埋め込みは、解釈の助けとなる有意義なクラスターを再び発見した。LMFingerprints[38]は、異なる言語モデル間で埋め込みベクトルを比較するために、ツリーベースの放射状レイアウトを使用している。

　もう一つの手法は、[13, 54]でViTに用いられているもので、特定のユニットの活性度を最大化する画像を見つけることを目的としている。埋め込みベクトルに適用した場合、この手法は明確に解釈可能な結果を得ることができる。しかし、著者らは、クエリベクトルやキーベクトルに適用した場合、このテクニックは有用な結果をもたらさないようだと述べている。

3.3 Gaps in the Literature

既存の文献には3つのギャップがあり、それが私たちの研究の動機となっている。

　一つ目に、埋め込みベクトルの可視化は、複数の入力にまたがるパターンを分析するための効果的な手法であることが示されているが、トランスフォーマーモデルにおけるクエリとキーの埋め込みを可視化するための体系的な試みは知られていない。また、[5]は、クエリやキーのようなセルフアテンションの中間成果物が未解明であると論じている。これらの観察から、我々のクエリキー埋め込み技術の動機付けがなされた。

　第二に、複数の埋め込みを比較する可視化技術が提案されているが（例えば、[2, 3, 21]）、これらの方法はしばしばいくつかの埋め込みに限定され、異なるトランスフォーマーヘッドやレイヤーでの埋め込みを比較するという我々のニーズに対応できない。そこで、クエリキー埋め込みを大規模に可視化するために、グローバルマトリクスビューをデザインした。

最後に、二部グラフ表現は、NLPベースのトランスフォーマーの分析に役立つことが証明されているが、視覚タスクに適用されるのを見たことがない。我々は、ViTにおける画像のアテンションパターンを研究するために、二部式グラフの可視化を作成することで、この方向を探る。

4. GOALS & TASKS

本研究の包括的な目的は、トランスフォーマーモデルにおけるグローバルなアテンションの傾向を探索することができる新しい可視化技術を設計することである。このアイデアに関する初期フィードバックを収集し、ユーザーのニーズについてより詳しく知るために、モデルの解釈可能性に関心を持つ5人の機械学習（ML）研究者（4人の博士課程学生、1人の教授）と話をした。この個別インタビューの中で、専門家に、トランスフォーマーを扱う際の現在の実践と課題、およびアテンションの可視化が研究目的の助けとなる方法について説明してもった。これらの専門家をE1-5と呼ぶことにする。

　全体として、専門家は、アテンション探索における使いやすさと簡便性の必要性を強調している。E2が要約したように、「既存の可視化ツールの多くは、学習して使用するには大変すぎる」。E5は、トランスフォーマーのアテンションを調査するためにカスタムコードを書かなければならないことが多く、これは困難で時間のかかる作業であると述べている。

4.1 Goals

最終的に、専門家の方々との対話の中で、3つの大きな目標を得ることができた。

　G1 セルフアテンションがどのようにモデルの振る舞いに反映されるかを理解する。全体として、5人の専門家全員が、異なるアテンションヘッドの挙動や、トランスフォーマーモデルがその特徴的なセルフアテンションメカニズムを通じて何を学んでいるのかをよりよく理解したいと考えていました。そのため、「アテンションパターンを素早く簡単に探せるようにしたい」という要望がありました。E2は、「アテンションはまだかなりクローズドボックスで、謎が多い」と説明し、トランスフォーマーのアテンションパターンを深く理解することで、例えば「大規模言語モデルが推論タスクや数学で失敗する理由」についての洞察を得ることができると述べた。

　G2 4.2 アテンションヘッドを比較・対照する。E5は、アテンションヘッドの違いを視覚化することで、研究プロセスの最初のステップである仮説生成に役立つと述べている：「視覚化することで、検証すべき仮説を立てたり、トランスフォーマーが何をしているのか直感的に理解することができる」。さらに、3人の専門家（E1、E2、E5）は、アテンションヘッドの比較は、モデルの刈り込み（pruning）や編集の目的で有用であると指摘した。つまり、2つのアテンションヘッドが似たような動きをするように見える場合、モデルの性能に大きな影響を与えることなく、1つを削除することができるかもしれない。E1の言葉を借りれば、アテンションヘッドを比較することで、"実際に有用なモデルの部分を見つける "ことができるかもしれない。

　G3 アテンションの異常を特定する。4人の研究者（E2-5）は、アテンションパターンの探索を通じて、トランスフォーマーの不規則性や潜在的な行動上の問題を特定することを目的としていた。この情報は、モデルのデバッグに利用することができる。例えば、E4は「アテンションを可視化することで、たとえ結果が正しくても、モデルが間違ったものを見ていることに気づくことができる。」と述べている。E3はこれに同意し、特にモデルトレーニングの文脈におけるデバッグの重要性を繰り返し述べている。「トレーニングはしばしば失敗して死ぬが、なぜ失敗したり予想外の動作をしたりするのかを理解するのは難しい」。

4.2 Tasks

これらの目標に基づき、我々は次のようなデザイン課題を設定した。

T1 アテンションヘッドをスケールで可視化する。モデル行動を素早く探索し[G1]、アテンションパターンを簡単に比較対照できるようにする[G2]ため、本ツールはトランスフォーマー層間のセルフアテンションヘッドを同時に可視化する。

T2 クエリキーのインタラクションを探索する。 E1とE4は、トランスフォーマーのセルるアテンションの理解を深めるために、クエリーとキーのペアリング情報をより理解したいという要望を述べている。そこで、本ツールでは、クエリキーの相互作用を可視化することで、アテンションパターンの比較[G2]と異常の検出[G3]をさらにサポートする。

T3 複数のレベルでアテンションを探る本ツールは、文・画像、ヘッド、モデルのレベルで可視化を行うことにより、アテンションの局所および全体的な比較[G2]を可能にする。また、1つのインターフェースで複数のビューを切り替えられる柔軟性は、知識発見[G1]を促進し、ユーザーがモデルの不規則性を識別するのに役立つ[G3]。

T4 モデルとデータ入力のカスタマイズAttentionVizは新しいトランスフォーマーやデータセットに簡単に拡張でき、異なるモデルやモダリティ（言語と視覚）間でアテンションパターンを素早く視覚的に比較し[G2]統合する[G1]ことが可能である。

5. QUERY/KEY EMBEDDINGS & DESIGN OF ATTENTION VIZ

このような目標や課題に対処するために、我々はAttentionVizと呼ばれるツールを構築した。このツールで使用される主な技術は、各アテンションヘッドに対するクエリーベクトルとキーベクトルの結合埋め込みを視覚化することである。このセクションでは、まず、このテクニックの基礎となる動機と数学について説明し、次に、完全なアプリケーションの設計について説明する。

5.1 Visualizing Query/Key Embeddings

AttentionVizの背後にある技術は比較的簡単ですが、以下に説明するように、効果的であるために2つの数学的トリックを必要とする。各トランスフォーマーアテンションヘッドは、行列 $W_Q$ と $W_K$ をそれぞれ適用することによって、入力埋め込みをクエリーベクトルとキーベクトルに変換することを思い出してほしい（第2項）。これらの行列は、元のベクトル埋め込みを低次元空間に投影し、本質的に高次元のベクトル埋め込みから特定の種類の情報を選択する。したがって、クエリベクトルとキーベクトルを検査することで、 $W_Q$ と $W_K$ によって選択される情報を学習することが期待できる。

　アテンション係数はクエリとキーの間のドット積に依存するため、クエリベクトルとキーベクトルの相対的な位置が、どのようにアテンションが分配されるかを知る手がかりになるというのが、中心的な観察である。なぜかというと、クエリーベクトルとキーベクトルが常に同じノルムを持つという仮想的な状況を考えてみる。そうすると、距離が近いほどアテンション係数が高くなることに直結する。しかし、実際には、クエリベクトルとキーベクトルのノルムは様々であり、ドットプロダクトと距離の関係は正確ではない。しかし、次のセクションで説明するように、この関係を驚くほど近くなるようにアレンジすることが可能である。

　図2は、言語トランスフォーマーにおける1つのアテンションヘッドという合成例で、この手法を説明する。共同埋め込みを作成するために、まず、与えられた文の各トークンのクエリとキーベクトル表現を取得する（第2項）。次に、t-SNE[43]、UMAP[27]、PCA[19]の3つの次元削減法のいずれかを用いて、これらの高次元ベクトルを共通の低次元部分空間上に投影する。これらの次元削減アルゴリズムの出力は、2D/3D散布図であり、各ポイントは1つのクエリまたはキートークンを表します。同じプロセスを用いて、ViTのアテンションヘッドの共同埋め込みを作成することができ、各トークンは画像パッチとなる。デフォルトでは、クエリは緑色、キーはピンク色で可視化される。しかし、ユーザーが選択できる他の色エンコーディングもある（5.2節参照）。

5.1.1 Vector Normalization

AttentionVizを設計する際に、情報を失うことなく変化させることができる2つの「フリーパラメータ」に注目した。これらのパラメータを調整することで、埋め込み距離とアテンションウェイトの関係をより密接にし、可視化の可読性を大幅に向上させることができます。次元削減の前に正規化を行う（図2）。

　Keyの移動：図3左のように、クエリベクトルとキーベクトルが分離している場合がある。この分離は、クエリとキーの埋め込みを直接比較することを難しくしている。しかし、簡単な数学的トリックにより、任意の入力シーケンスに対するアテンション計算に影響を与えることなく、これらの埋め込みをより近くに移動させることができる。特に、ソフトマックスファンクションは翻訳不変であることに注意されたい。すなわち、任意の定数 $a$ に対して、 $\text{softmax}_j (x_1+a,x_2+a, \ldots) = \text{softmax}_j (x_1, x_2, \ldots)$ とする。ここで、クエリーベクトル $x$ とキーベクトル $y_1, \ldots, y_n$ を考えてみる。任意のベクトル $v$ について、次のようになる：

$\begin{align} \text{attention}_j (x) &= \text{softmax}_j ( \rangle x, y_1 \rangle, \langle x, y_2 \rangle , \ldots ) \\ &= \text{softmax}_j ( \rangle x, y_1 \rangle + \langle x, v \rangle, \langle x, y_2 \rangle + \langle x, v \rangle, \ldots ) \\ &= \text{softmax}_j ( \rangle x, y_1 + v \rangle, \langle x, y_2 + v \rangle , \ldots ) \end{align}$

ここで、第二式は翻訳不変性によって従う。これは、与えられた入力のアテンションパターンを変えることなく、すべてのキーベクトルを、各アテンションヘッドのクエリ分布とキー分布が同一の中心を持つように変換できることを意味する。これにより、クエリとキーの比較が非常に容易になる（図3右）。

　クエリーとキーのスケーリング：GPT-2のようないくつかのトランスフォーマーでは、平均クエリノルムが平均キーノルムと大きく異なるケースが観察された。この差は、キーとクエリの関係の解釈を難しくしている。数学的には、内積と距離の関係が悪いことを示し、視覚的には、クエリが小さなクラスタであり、キーの緩い雲に囲まれていることを意味する。

　幸運なことに、スケールはシステムのもう一つの「自由なパラメータ」である。アテンションレベルは、クエリベクトルとキーベクトルの内積にのみ依存するため、すべてのクエリベクトルを $c \neq 0$ 、すべてのキーベクトルを $c^{-1}$ の係数でスケールしても、アテンションは変化しない。これにより、図4aに示すように、注目度の高いクエリーとキーのペアは、共同視覚化でより近くに配置されるようになる。（曖昧な点：スケーリングだけではコサイン距離は変割らないが、翻訳正規化と組み合わせると、自明ではない効果がある。)

　 $c$ の最適値を決定するために、ジョイント可視化では近くのクエリとキーに最も注意を払うので、距離が小さいクエリとキーのペアに重きを置く加重相関メトリックを定義することができる。したがって、クエリ-キーの内積と距離の間の重み付け相関が最大になるようなスケールファクター $c$ を選択することができる。このスケーリング方法により、ジョイント埋め込み空間における距離が、クエリとキーの間の実際のアテンションバリューを最も正確に表現することができる。

5.1.2 Distance as a Proxy for Attention

上記で説明したように、理想的には、クエリキーペアの内積が大きく正であれば（最終的な注目値が高いことに対応）、埋め込み空間においてより近くに配置されるはずであり、逆もまた同様である（図4a）。したがって、我々の共同クエリキー埋め込みにおいて距離はアテンションは逆相関すると考えられる。そこで、BERT、GPT-2、ViTの各注目ヘッドについて、コサイン距離とドット積のスピアマン順位相関を計算し、この潜在的な関連性を検討した。また、クエリとキーのSNE投影とUMAP投影を作成する際に、ユークリッド距離を距離指標として使用する実験も行ったが、一般に距離とドット積の相関は弱くなった。

　複数のデータセットとモデルにおいて、ディスタンスとアテンションの関係はかなり良好である。例えば、Wiki-Autodata [18]では、クエリ-キーの距離とドットプロダクトの平均相関は、BERTで0.938、GPTで0.792である。BERTの結果の一例を図4bに示す。使用したCOCO画像セット[23]では、平均相関はViT-32で0.873、ViT-16で0.884である。

5.2 Color Encodings

AttentionVizでは、クエリやキーのさまざまな特性を視覚化するために、さまざまなカラーエンコーディングを用意している。デフォルトのオプションは、クエリまたはキーといったトークンのタイプによってポイントを着色する。ViTでは、イメージパッチローやカラムで色付けし、位置パターンを視覚化することができる（図10）。画像はそれ自身の色情報を持つため、スタイリング要素を追加せずに元のパッチを表示することも可能である（図8）。

言語トランスフォーマ０では、正規化および離散の2つの位置の配色をサポートしている。正規化された位置を計算するために、文中の各トークンの位置を文の長さで割って、連続的なカラースケールを作成する。明るい色調は文頭に近いトークンを表す（図5b）。このため、1番目と6番目のトークンは同じ色、2番目と7番目のトークンは同じ色、といった具合に、それぞれのトークンの位置を5で割った余りを求める離散位置符号化を行う。同じ5色を使って、異なる位置にあるクエリとキーを符号化し、前者には暗い色相を使用する。図11（左）のようなジョイントエンベッディングでは、位置のわずかなずれに基づく関係（例えば、クエリが一歩先のキーに注目する）を見るために、離散的な色付けが有効である。また、クエリ/キー規範による色付けも可能である（図12a）。

5.3 Views

AttentionVizは、マトリックスビュー、シングルビュー、センテンス/イメージビューの3つの主要なインタラクティブビューを提供し、アテンションを探索する。

5.3.1 Matrix View

AttentionVizの初期ビューはMatrix Viewで、小さな倍数を使用してトランスフォーマーのすべてのアテンションヘッドを一度に可視化し（図5a）、[T1]と[T3]に直接対応する。各行はモデル層に対応し、インターフェイスの上部にある以前の層から下部にある後の層へと移動する。この「グローバル」な視点により、ユーザーは、シングルプロット（例：[46]）やインスタンスレベル可視化（例：[3, 39]）と比較して、異なるトランスフォーマー層やヘッドのパターンをより容易にスキャンすることができる。本研究で使用したモデルはすべて同じアーキテクチャであった。

　マトリックスビューでは、t-SNE、UMAP、PCAで作成されたクエリとキーの結合埋め込みを見ることができる。また、モデルタイプ（BERT、GPT-2、ViT-16/32）やデータセット[T4]を切り替え、さまざまな配色を検討し、結果のプロットを2Dまたは3Dで見ることができる。Matrix Viewは、グローバル検索機能（図6a）をサポートしており、異なるヘッド間のトークン位置のパターンを強調することができ、スケールでアテンションを分析するもう一つの方法（第7節参照）を提供している。

5.3.2 Single View

マトリックスビューの任意のプロットをクリックすると、シングルビュー（図5b）にズームすることができ、1つの注目ヘッドをより詳細に探索することができる[T3]。マトリックスビューと同様に、ユーザーはシングルビューでカラーリング、寸法、投影モード、データセット、モデルを切り替えることができる[T4]。比較を容易にするために、すべてのグラフィックの変更はビュー間で同期する。また、クエリとキーのトークンを結ぶ散布図に注目線を投影するオプションもある（図5c）。読みやすくするために、各トークンの注目度上位2つだけを表示す。この注目線機能は[T2]をサポートし、変換器の注目パターンをヘッドレベルで可視化する新しい方法を提供する。シングルビューでは、ユーザーはトークンを検索し、[39]と同様に、データ内の意味パターンを明らかにするためのラベル機能を使用することもできる。例えば、図6bでは、検索によって、このBERTヘッドの結合埋め込みにおいて、類似した意味を持つクエリ/キートークンが一緒に配置されており、それらの間の強いアテンションを示していることがわかる（Sec. 5.1.2)。

5.3.3 Sentence/Image View

Sentence/Image Viewは、1つの文章や画像内の細かなアテンションパターンを探索することができる[T2、T3]。両ビューはシングルビューで同期され、各クエリ/キーの散布図に重なるアテンションラインと一致し、スムーズなユーザー体験を提供する。

　Sentence View ：BERT または GPT-2 を使用する場合、ユーザーは Single View のポイントをクリックすると、左サイドバーに Sentence View が表示され、クリックしたトークンが強調された文レベルのアテンションの BertViz に触発された可視化 [46] が表示される（図 5c）。ヒートマップによる視覚化（例：[32]）も検討したが、長い文章では、2分割グラフのアプローチの方が読みやすさとパターン探索のしやすさに優れていると思われた。左の列のクエリートークンと右の列のキートークンを結ぶ線の不透明度は、対応する注目の強さを示している。トークンにカーソルを合わせると、トークン固有の注目線が強調される。 BERTの分類トークンやセパレータ、GPT-2の最初のトークン（Sec.7）からのノイズを減らすために、ユーザーはこれらの特別なトークンの注目線を非表示にすることができる。また、各アテンションヘッドのアテンションパターンを表示することも可能で、別のレイヤーで比較することができる（図11a）。

　Image View：ViTの画像ベースの入力では、画像パッチをクリックすると、サイドパネルに対応するオリジナル画像が表示され、クリックしたトークンが色付きの枠で強調される（図7a）。また、画像に注目度ヒートマップを重ねて表示し、クリックした画像パッチと画像の他の領域との間の注目度を透明度で示す（図7b）。イメージビューでは、単一のトークンの注目度を可視化するだけでなく、異なる画像パッチ間に矢印付きの注目線を表示して画像内の全体の注目パターンを探索することができる。1つ目のオプションは、元の画像パッチの上に矢印を重ね、それぞれの矢印が、開始画像パッチと目的パッチ間の最も強いアテンションのつながりを表している（図7c）。これにより、簡略化された2分割のアテンショングラフが作成され、ユーザーは特定のヘッド内の最も重要なパターンを特徴付けることができる。2番目のオプションは、すべての強いアテンションの接続（すなわち、attn(xi,xj)>0.1）を元の画像の横に表示し、アテンションをより包括的に見ることができる（図7d）。この可視化では、不透明度と線の太さの両方がアテンションの強さを表現するために用いられている。また、[46]をより忠実に再現するために、クエリとキーの間のすべての重みを可視化することも試みたが、この場合、過密で不可解な結果が生じることが多い。

6. SYSTEM IMPLEMENTATIO

モデルの入力を処理し、アテンション情報を計算するために、Hugging Face TransformersライブラリとPyTorchを使用している。BERT、GPT-2（小）、ViT-16/32の訓練済み実装を、GoogleとOpenAIのモデルウェイトで使用する。各NLPデータセットについて、ランダムに200文（クエリとキーの両方を含む、アテンションヘッドあたり約10kトークン）をサンプリングする。画像アテンションデータは計算量が増えるため、ViT-32では1ヘッドあたり10画像（1000トークン）、ViT-16では1ヘッドあたり4画像（1576トークン）を表示した。ViTの画像パッチの意味ラベル（例えば、「犬」や「背景」）を生成するために、DeepLabv3のセグメンテーションモデル[6]を使用する。

　AttentionVizの最終プロトタイプは、VueとTypeScriptで書かれたフロントエンドと通信するPython / Flaskバックエンドで構成されている。デモシステムは:http://attentionviz.com。データサイズが大きく、ブラウザのメモリ制約があるため、計算済みのアテンション/投影情報をJSONファイル経由でバックエンドにロードしている。ViTでは、バックエンドが画像処理（パッチハイライトや透明度調整など）を行い、フロントエンドに表示する。Deck.glを使用して、クエリとキーの共同埋め込みの結果を視覚化することができる。 AttentionVizは非常に拡張性が高く、モデルを問わないため、ユーザーは新しいトランスフォーマーやデータセットをシステムに追加することができる。

7. FINDINGS & EVALUATION

AttentionVizの有用性は、3つのアプリケーションシナリオとドメインエキスパートからのフィードバックによって説明される。AttentionVizのシナリオは、第4章の目標を達成するものであり、視覚と言語変換の世界的なセルフアテンションの傾向について、AttentionVizがどのような洞察を提供できるかを示している。

データ：BERT/GPT-2では、様々なNLPデータセットを用いて実験を行いましたが、今回の応用シナリオでは、2つのデータセットに焦点を当てた。Wiki-Auto[18]をベースラインとして一般的な入力文をサンプリングし、Super-GLUE AXb[49]をテキストテイルメントに対するタスク固有のアテンションパターンを探索するために使用する。 ViTについては、ImageNet Large ScaleVisual Recognition Challenge [37] とMicrosoft COCO: CommonObjects in Context [23] から画像を抽出し、合成画像データも用いた。

ユーザーインタビュー：E2およびE3を招き、第2ラウンドのインタビューに加え、E6（通訳研究者）とE7（視覚科学の博士課程学生）の新しい専門家を加えた。第4章と同様に、すべての専門家は個別にインタビューを受けた。まず、私たちのツールの簡単なデモを行い、私たち自身の発見をいくつか共有し、何か考えや洞察があれば共有してもらうようにした（7.1-7.3）。次に、AttentionVizの主な長所、短所、新規性について、より一般的なフィードバックを求めた（Sec.7.4）。また、埋め込みをスケールで可視化するためのこの手法の拡張や応用の可能性についても専門家に質問した。

7.1 Goal: Understanding Machine Visual Attention

AttentionVizは、画像パッチデータが本質的に視覚的であるため、視覚変換器のアテンションに関する洞察を明らかにするのに特に役立つ[G1].

視覚的注意における色相・明度の特殊化.私たちは、視覚的な注意力が色と明るさのどちらかに特化したものであるかどうかを知りたいと考えた。そこで、ViT-32の学習済みモデルに合成色と明るさのグラデーション画像を与え（図8）、その結果得られたクエリとキートークンをAttentionVizに読み込ませた。

　マトリックスビューでグローバルパターンをブラウジングすると、色と無色の視覚に類似した2つのアテンションヘッドを確認できた。1つは白黒画像のトークンを明るさに基づいて整列させ、もう1つはカラフルなパッチを色相に基づいて整列させるように見える。このデータセットには、あらゆる方向の色と明るさのグラデーション画像が含まれており、元画像の位置に関係なく、類似したパッチが共同埋込み空間内で集まっていることがわかる。E7はこの結果に興味を持ち、以前、畳み込みニューラルネットワーク（CNN）の色潜在空間を研究したことがあり、CNNとViTの動作の違いをさらに探求するために我々のツールを使用することに興味を示していた。

周波数フィルタリングと角度検出。周波数と角度は、画像データの低レベルの特性である。周波数と角度の異なる正弦波信号の画像を作成し、学習済みのViT-32モデルで処理することで、VisionTransformerにこれらの特徴に基づく視覚パターンを関連付けるアテンションヘッドがあるかどうかを調べた。その結果、クエリとキー埋め込みをMatrix Viewで見ると、空間パターンの周波数（x軸）と角度（y軸）に基づいてイメージトークンを分離するアテンションヘッドが確認された（図9）。 E7は、この結果は興味深いが、我々の色相・輝度に関する知見からすればそれほど驚くことではないとし、この「類似したパッチに注目する」行動を示さないヘッドについて、より興味を持ったと述べている。例えば、2つの画像（例：シマウマと傘）において、同じ画像パッチ（例：縦縞）が異なる文脈で出現した場合、独自のアテンションパターンが見られるのだろうか？

モデル層間のアテンション距離の増加：[12]で述べたように、ViTの深い層では、セルフアテンションが画像間でより広範囲に注意することが分かっている。ViT-32の第1層と第2層では、トークンを左、右、上、下という空間的に最も近いものとグループ化する4つのアテンションヘッドを見つけるために、Matrix Viewを使って、画像の「行」と「列」でパッチを色付けした。このことは、正方形のフィルターを使って画像を処理するCNNとは異なり、トランスフォーマーのセルフアテンション機構は、細長いフィルターに類似した、行ごと、列ごとの画像を処理することが多いことを示唆している。

7.2 Goal: Finding Global Attention Traces

言語トランスフォーマー[G2]の異なるヘッド間でセルフアテンションパターンがどのように変化するかを理解するために、AttentionVizを使ってBERTを探索した。

位置アテンションの痕跡：例えば、層3の渦巻き状のプロット（図5a）のように、ユニークな形状のアテンションヘッドがいくつか観察された。例えば、レイヤー3のヘッド9をSingle Viewで正規化ポシションで色付けすると、トークンの位置が螺旋の外側から内側に向かうにつれて増加していることがわかる（図5b）。SentenceViewでこのパターンをより詳細に調べると（図5c）、位置的な「次のトークン」へのアテンションパターンがあることが確認された。また、この「スパイラル」は、トランスフォーマーに与えられた最初の順序ベクトルを反映している（第2項）。

　さらに、マトリックスビューで識別可能な他の「痕跡」に注目したところ、小さな「塊」があるプロットにも位置パターンがあることがわかり（図11左）、それを離散の位置色分けで検証した。スパイラル」と「塊」の違いは、トークンが1つ離れた位置の他者に選択的に注目するか、複数の異なる位置に注目するかの違いにあるようだ（図5c）。同様に、クエリーとキーの重なりが大きい頭では、トークンは自分自身と同じトークンの他のインスタンスに注目し、「自己を見る」パターンを示すことがわかった。これらのヘッドを拡大すると、図6bに示すように、近接したクエリキーペアの意味的なクラスターが明確に見られ、この観察がさらに裏付けられている。

[24]によると、初期のトランスフォーマー層は線形語順に関する情報を最も多く持っており、我々の発見や[8, 46]などの過去の研究結果と一致している。インタビュー中、E2、E6、E7は、これらの興味深い幾何学的形状、特にスパイラルにすぐに気づき、観察された構造のどれだけが純粋に位置によるものなのかについて好奇心を抱いた。例えば、トランスフォーマーモデルの位置埋め込みを操作したり削除したりして、クエリキーの可視化がどのように変化するかを見るなど、専門家からいくつかのフォローアップ実験のアイデアが出された。

タスク固有の痕跡：AttentionVizで複数のデータセットを可視化した結果、共同埋め込みの形状は、異なるNLPタスクで非常に一貫していることがわかった。しかし、SuperGLUEAXbdataを用いたBERTのいくつかの後の層でのみ生じる視覚的トレースを確認した（図11右）。このようなヘッド（レイヤー8ヘッド9）をクリックして位置で色分けすると、クエリ・キーの「サンドイッチ」が観察され、テキストの先頭のキーとクエリが上に積み重なり、テキストの終わりのクエリとキーが逆の順序で続く。センテンスビューでは、テキストの先頭、中間、終わりが最も注目されていることが分かる。全体的なプロットの形と注目のパターンから、これらの頭はテキストの「中間点」を識別し、文の区別ができることが示唆される。これは、含意タスクで2つの文を比較して、同じ意味を持つかどうかを確認する方法を反映している。また、クエリは主に同じ文のキーに注目する。[20,47]は、同期戦術とタスク固有の情報がモデル中盤から後半にかけて最も顕著であることを示し、おそらくこのトレースのユニークさを説明するものである。

グローバルな検索パターン：また、MatrixViewの集計検索機能を使えば、ヘッド間のアテンションの傾向を素早くスキャンして比較することができる[G2]。我々は、検索結果のパターンが、以前に特定した視覚的なアテンションの痕跡を反映していることを発見した（図6a）。例えば、渦巻き型や小さなクエリ/キーの塊があるヘッドは、検索結果がより分散しており、その根底にある位置的アテンションのパターンを示している。一方、「自己を見る」アテンションパターンを持つヘッドは、検索結果のクラスタが1つしかなく、同じトークンのクエリとキーの間の強い相互作用を強調している。クエリとキーの共同埋め込みが明確な形状を持たない場合でも、検索結果のクラスタがいくつかある場合、ヘッドはより意味的な振る舞いを見せる可能性があり、それ以外の場合は、おそらく位置的アテンションパターンがあることが分かる。[41]は、意味情報がBERTのレイヤーに広がっていることを指摘しており、我々はAttentionVizでこれを確認した。我々の専門家の全員が、我々のツールのこの機能とアテンションパターンの比較を促進する能力に特に興奮していた。

7.3 Goal: Identifying Anomalies and Unexpected Behavior

Attention-Vizのクエリとキーの結合埋め込みを操作することで、いくつかの不規則なモデルの挙動を発見した[G3]。

ノーム不均衡とヌルアテンション：GPT-2 をMatrix View で観察していると、初期のモデル層では、キー変換を行った後でも、クエリとキーのクラスタがうまく分離していることが確認された（5.1.1 節）。ノルム（ノルムスケーリングステップの前に測定されたもの）で色付けすると、多くのヘッドで、クエリベクトルとキーベクトルのノルムに大きな格差があることがわかる（図12a）。クエリのノルムが小さい場合（薄緑色）、キーのノルムは大きくなる傾向があり（濃いピンク色）、その逆もまた然りである。GPT-2とBERTのクエリとキーの平均ノルム差を計算すると、前者ではアテンションヘッド全体で平均クエリノルム-キーノルム＝4.59であるのに対し、後者では平均差は0.41に過ぎないことがわかりました。この結果を説明できる専門家はいませんでした：「なぜクエリとキーで規範が異なるのか、意味がわからない」(E6)。興味深いことに、私たちがこの観察を行った後に発表された論文[9]では、制御不能なクエリとキーの規範が深刻な学習不安定の原因であると指摘しており、この現象はさらに研究する価値があることが示されています。この観察は、5.1.1節のスケーリングアプローチにも影響を与えました。

　また、多くのGPT-2ヘッドでは、特に後期において、ほとんどのアテンションが最初のトークンに向けられている（図12b）ことに気づいた。 [47]は、GPT-2において、最初のトークンが、"減衰ヘッドによって捉えられた言語的特性が入力テキストに現れない場合"、アテンションを受け取るためのヌルポジションとして扱われることを簡単に説明している。しかし、この現象は未解明であり、検討すべき別のオープンな解釈可能性の問いを提示している。E2およびE6は、我々のツールでこの異常な動作に自ら気づき、我々の専門家は皆、このインディングに驚いている。 [48]は、トランスフォーマー内の大部分のアテンションヘッドを刈り込んでも、モデルの性能に大きな影響を与えない可能性があることを示しており、おそらくこの支配的なヌルアテンションパターンに部分的に起因している可能性があります。しかし、AttentionVizは、最初のトークンに支払われたアテンションをフィルタリングし、隠れたクエリとキーの相互作用を明らかにすることができます。

"自分を見つめる "アテンションヘッド：AttentionVizは、ビジョントランスフォーマーの驚くべきアテンションパターンを明らかにすることもできます。Matrix Viewでは、ViT-32の初期層で、キーとクエリのクラスタが非常に拡散しているヘッドをいくつか確認した（図13a）。そのような注目ヘッド（レイヤー0のヘッド8）を見ると、同じトークンのクエリーとキーの埋め込みが小さいながらも密集したクラスターを形成しており、それぞれのクエリーとキーのペアが他からよく分離していることがわかった（図13b）。イメージビューの透明ヒートマップから、パッチは自分自身にのみ注意を向けていることがわかる（図13c）。矢印のついたアテンション線に切り替えると、この画像の全体的なアテンションパターンは「自分を見る」であり、この頭の中では画像トークン間に情報が流れていないことがわかる。

　この不規則なアテンションパターンを特定した後、学習したクエリマトリクスとキーマトリクスのパラメータを相関テストによって確認した。その結果、強い類似性（線形相関＝0.94）が認められ、このViTヘッドのクエリー層とキー層は、確かに冗長な投影を学習していることがわかりました（図13d）。E3は、この知見をモデルの刈り込み実験に活用できると指摘しました。

7.4 Takeaways from User Feedback

マトリクスビューのメリット：複数の専門家が、Matrix Viewが提供する「グローバル」な視点は、AttentionVizの最も斬新で価値のある部分であると述べている。E6は、「複数のエンベッディングを一度に可視化したいときに、ハイパーパラメータの調整から解放され、素早く比較できるのが素晴らしい」と述べている。またE7は、Matrix Viewが有用である理由として「小さな可視化なら自分でコーディングすればいいが、規模やデータ量が増えるとかなり大変だ」とも述べている。これらのコメントから、エンベディングをスケーラブルに可視化し比較するという考え方は、他のMLの場面でも有益であることが示唆された。

共同クエリキー埋め込みへの応用：専門家は、私たちの可視化手法の様々な使用例や拡張を提案し、その適用範囲の広さを証明した。例えば、E2は、未訓練または破損したトランスフォーマーのパターンを可視化することを提案し、E3およびE7は、自分自身のモデルについて訓練中のアテンションの変化を可視化することを希望し、我々の当初の目標（第4項）に合致している。同様に、E3は「2つのアテンションパターンが異なるヘッドでどのようにつながるか」を調べることに興味を示し、これは確かに誘導ヘッドペアの視覚化に適用できるだろう。E2は「2つのヘッド間の類似性を定量化する」方法を追加することが有用であると指摘し、E6はモデル刈り込みを目的とした「ヘッドのランダム性の測定または視覚化」を提案した。

プロジェクションの組み込み - 信頼すべきか、信頼すべきでないか？： E3は、投影法を用いることの難しさを強調しました。私たちが発見した幾何学的なパターン（スパイラルなど）を高く評価する一方で、t-SNEやUMAPなどの技術による歪みがあるため、これらの可視化の解釈には懐疑的な意見もありました：「自分が見たものを信用できるかどうか、どうやって判断すればいいのか。」これは、視覚的な洞察を実行可能な介入に結びつけることの重要性を強調するもので、おそらく、探索に加えて仮説検証をサポートするために我々のツールを拡張したのでしょう。

柔軟性と使い勝手のトレードオフ：E2は、AttentionVizが「非常に使いやすく、カスタマイズできる」と述べ、既存の可視化ツールに対する以前の懸念を払拭した（第4項）。しかし、E6のような専門家の中には、「すべての機能やヘッドを表示すると、圧倒されるかもしれない...」という懸念を抱いている人もいた。「情報を要約する方法はないのか？」また、E7は、「ヘッドにラベルをつけるのに、もっと手軽で良い方法はないだろうか？」と、特徴量の視覚化に近いアプローチを提案している[31]。私たちは、AttentionVizを柔軟なツールにするために設計した（例えば、異なるトランスフォーマーや異なる粒度でアテンションを分析することができる）が、私たちの設計の柔軟性と使用性のトレードオフ [22] はまだ改善できるようである。

インタラクションモードの追加：例えば、オンザフライ推論(E3)や、クエリやキーの丸で囲まれたクラスターをさらに次元削減して追加情報を明らかにし、きめ細かい分析を行う(E2)など、インタラクションモードを追加することを提案した専門家もいました。E7は、ユーザーが新しいデータセットを直接システムにアップロードできるようにすることの重要性を強調した。「このツールはさらに強力になり、人々は自分の画像を追加するなど、より多くのことを探求したくなるはずだ。」

8. CONCLUSIONS & FUTURE WORK

本論文では、クエリーとキーの結合埋め込み空間に基づく、トランスフォーマーのセルフアテンションを可視化する新しい手法を紹介する。適切な正規化により、この空間における距離が、アテンションの重みを数学的に適切に近似できることを示す。複数の入力に対するクエリとキーのコレクションを可視化することで、既存の可視化手法では困難であった、異なるアテンションヘッドにおける特徴的なパターンを見ることが可能になる。また、VisionTransformerのために、1つの画像に対するアテンションパターンを理解するのに役立つシンプルな2Dグラフ可視化を作成し、2分割アテンション表現のアイデアを画像ドメインに拡張した。

　この技術を応用して、アテンションパターンをスケールで探索するインタラクティブ可視化ツール、AttentionViz (demo:http://attentionviz.com) を作成した。複数の応用シナリオと専門家へのインタビューを通じて、我々の手法が、異なるレベルでのクエリキー相互作用を探ることで、言語と視覚変換の両方におけるアテンションについての洞察を明らかにできることを示す。専門家のフィードバックは、この手法の有用性を証明するとともに、今後の課題としていくつかの道を指し示している。例えば、複数の埋め込み型可視化の複雑さを管理し、ユーザーを興味のある特徴に集中させる方法を見つけることは、確かに有用である。また、ユーザーがその場で新しい入力を追加できるようにすることも、実りあるものになるかもしれない。

　将来の研究のもう一つの自然な方向性は、各アテンションヘッドにヴァリューベクトルの情報を組み込む方法を探ることである[45]。適切な可視化アプローチを見つけることで、アテンションヘッドがどのように機能するのかがより明らかになるかもしれない。最後に、AttentionVizは探索的なツールであるが、仮説検証や因果関係の追跡のために適応することで、実用的なモデルのデバッグを支援することができるかもしれない。

izmyonの日記

奈良の山奥で研究にいそしむ大学院生の学習記録。

今日の論文2023/05/11, 12：AttentionViz: A Global View of Transformer Attention