LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention

aclanthology.org

Ikuya Yamada, Akari Asai, Hiroyuki Shindo, Hideaki Takeda, and Yuji Matsumoto. 2020. LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 6442–6454, Online. Association for Computational Linguistics.

License: Creative Commons Attribution 4.0 International License(CC-BY)

本記事は、原著の内容に基づき筆者が要約または翻訳したものです。以下の図は、そこから引用しています。

This article is my summary or translation based on the content of the original publication. The following figures are taken from it.

要点まとめ

エンティティ表現は、エンティティを含む自然言語タスクにおいて有用である。本論文では、双方向トランスフォーマー（Vaswani et al., 2017）に基づく、単語とエンティティの新しい事前学習された文脈化された表現を提案する。提案モデルは、与えられたテキスト内の単語とエンティティを独立したトークンとして扱い、それらの文脈化された表現を出力する。我々のモデルは、BERTのmasked language model (Devlin et al, 2019)に基づく新たな事前学習課題を用いて学習される。このタスクは、Wikipediaから取得した大規模なエンティティ注釈付きコーパスにおいて、ランダムにマスクされた単語とエンティティを予測することを含む。また、我々は、トランスフォーマーのセルフアテンションメカニズムを拡張した、エンティティを考慮したセルフアテンションメカニズムを提案し、アテンションスコアを計算する際にトークン（単語またはエンティティ）の種類を考慮する。提案モデルは、様々なエンティティ関連タスクにおいて、経験的に優れた性能を達成した。特に、5つの有名なデータセットにおいて、SoTAの結果を得ることができた： Open Entity（エンティティタイピング）、TACRED（関係分類）、CoNLL-2003（名前付きエンティティ認識）、ReCoRD（クローズ型質問応答）、SQuAD 1.1（抽出型質問応答）。ソースコードと学習済み表現は、https://github.com/studio-ousia/luke で公開した。

github.com

1 序論

自然言語のタスクには、関係分類、エンティティタイピング、名前付きエンティティ認識（NER）、質問応答（QA）など、エンティティを含むものが多い。このようなエンティティ関連のタスクを解決する鍵は、エンティティの効果的な表現を学習するモデルである。従来のエンティティ表現は、知識ベース（KB）内のエンティティに関する情報を格納する固定埋め込みベクトルを各エンティティに割り当てる（Bordes et al., 2013; Trouillon et al., 2016; Yamada et al., 2016, 2017）。これらのモデルはKBの豊富な情報を捉えているが、テキスト中のエンティティを表現するためにエンティティリンクが必要であり、KBに存在しないエンティティを表現することができない。

これに対して、BERT (Devlin et al., 2019) やRoBERTa (Liu et al., 2020) などのTransformer (Vaswaniet al., 2017) に基づく文脈化単語表現 (CWR) は、言語モデリングに基づく教師なし事前学習タスクで学習した効率的な汎用単語表現を提供する。最近の多くの研究では、CWRに基づいて計算されたエンティティの文脈化表現を使用して、エンティティ関連のタスクを解決している（Zhang et al., 2019; Peters et al., 2019; Joshi et al.,2020）。しかし、CWRのアーキテクチャは、以下の2つの理由から、エンティティを表現するのに適していない。 (1) CWRはエンティティのスパンレベルの表現を出力しないため、通常、下流のデータセットに基づき、そのような表現を計算する方法を学ぶ必要がある。 (2) 多くのエンティティ関連タスク、例えば、関係分類やQAは、エンティティ間の関係を推論する。トランスフォーマーは、セルフアテンション機構を用いて単語を複数回関連付けることで単語間の複雑な関係性を捉えることができるが（Clark et al., 2019; Reif et al., 2019）、多くのエンティティがモデル内で複数のトークンに分割されているため、エンティティ間でそのような推論を行うことは困難である。さらに、CWRの単語ベースの事前学習タスクは、エンティティの他の単語を与えられたマスクドワードを予測すること、例えば、"The Lord of the [MASK]" を与えられた "Rings" を予測することは、エンティティ全体を予測するよりも明らかに簡単だからである。

　本論文では、LUKE（Language Understanding with Knowledge-based Embeddings）を開発することによって単語とエンティティに関する新しい事前学習済みの文脈化表現を提案している。LUKEは、Wikipediaから取得した大量のエンティティ注釈付きコーパスを用いて訓練したTransformer（Vaswani et al., 2017）に基づいている。LUKEと既存のCWRの重要な違いは、単語だけでなくエンティティも独立したトークンとして扱い、Transformerを用いてすべてのトークンの中間表現と出力表現を計算することである（図1参照）。LUKEは、BERTのmasked language model (MLM)（Devlin et al., 2019）をストレートに拡張した新しい事前学習タスクを使って学習される。

　LUKEは、BERTのmasked language model (MLM)（Devlin et al., 2019）をそのまま拡張した新しい事前訓練タスクを用いて訓練されます。このタスクは、[MASK]エンティティに置き換えることでランダムにエンティティをマスクし、これらのマスクされたエンティティのオリジナルを予測することによってモデルを訓練する。RoBERTaをベースとし、MLMと提案タスクの目的を同時に最適化することで、モデルの事前学習を実施する。下流のタスクに適用した場合、[MASK]エンティティを入力として、テキスト中の任意のエンティティの表現を計算することが可能である。さらに、タスクにエンティティ注釈がある場合、このモデルは、対応するエンティティ埋め込みにエンコードされた豊富なエンティティ中心情報に基づいて、エンティティの表現を計算することができる。

　本論文のもう一つの重要な貢献は、エンティティを意識したセルフアテンション機構を用いてTransformerを拡張した点である。既存のCWRとは異なり、我々のモデルは単語とエンティティという2種類のトークンを扱う必要がある。そのため、トークンの種類を容易に判別できるようにすることが有益であると考えるそのため、アテンディングトークンとアテンディングされたトークンに応じて異なるクエリ機構を採用することで、自己アテンション機構を強化した。

　　我々は、エンティティタイピング、関係分類、NER、クローズ型QA、および抽出QAという5つの標準エンティティ関連タスクに対して大規模な実験を実施し、我々の提案モデルの有効性を検証している。提案モデルは、RoBERTaを含む全てのベースラインモデルを全ての実験で上回り、5つのタスクでSoTAの結果を得た：Open Entityデータセットでのエンティティタイピング(Choi et al., 2018)、TACREDデータセットでの関係分類（Zhang et al., 2017）、CoNLL-2003データセット（Tjong Kim Sang and De Meulder, 2003）のNER、ReCoRDデータセットのクローズ型QA（Zhang et al., 2018a）、SQuAD 1.1 dataset（Rajpurkar et al., 2016）の抽出的QA。ソースコードと事前学習した表現を https://github.com/studio-ousia/luke で公開している。本論文の主な貢献は以下のように要約される：

我々は、エンティティに関連するタスクに対応するために特別に設計された新しいコンテキスト付きリプレゼンテーションであるLUKEを提案する。LUKEは、Wikipediaから得られた大量のエンティティ注釈付きコーパスを用いて、ランダムにマスクされた単語や実体を予測するように訓練される。
本論文では、Transformerの原型を効果的に拡張した、エンティティを意識したセルフアテンション機構を紹介する。提案する機構は、アテンションスコアを計算する際に、トークンのタイプ（単語や属性）を考慮する。
LUKEは、5つの一般的なデータセットにおいて、強力な経験的性能を達成し、SoTAの結果を得ることができた： Open Entity、TACRED、CoNLL-2003、ReCoRD、SQuAD 1.1です。

2 関連研究

静的なエンティティ表現：従来のエンティティ表現は、KB内の各エンティティに固定的な埋め込みを割り当てている。これには、知識グラフで学習した知識埋め込み（Bordes et al., 2013; Yang et al., 2015; Trouillon et al.,2016）や、KBから取得したエンティティのテキストコンテキストや説明で学習した埋め込み（Yamada et al., 2016, 2017; Cao et al., 2017; Ganeaand Hofmann, 2017）がある。我々の事前学習タスクと同様に、NTEE（Yamada et al., 2017）とRELIC（Ling et al., 2020）は、KBから取得したそのテキストコンテキストを与えられたエンティティを予測することによってエンティティ埋め込みをトレーニングするアプローチを使用している。テキスト中のエンティティを表現する場合、このラインの主な欠点は、（1）エンティティを表現するためにテキスト中のエンティティを対応するKBエントリに解決する必要があり、（2）KBに存在しないエンティティを表現できないことである。

文脈化単語表現：最近の多くの研究では、CWRの単語表現を使用して計算されたテキスト中のエンティティの文脈に応じて表現に基づいてエンティティ関連タスクに取り組んでいる（Zhang et al, 2019; Baldini Soares et al., 2019; Peters et al., 2019; Joshi et al., 2020; Wang et al., 2019b, 2020）。CWRの代表的な例は、ELMo（Peters et al., 2018）とBERT（Devlin et al., 2019）で、それぞれ深いlong short-temr memory（LSTM）とTransformer（Vaswani et al., 2017）に基づいている。BERTは、テキスト内のランダムな単語をマスクし、マスクされた単語を予測するためにモデルを訓練する事前学習タスクであるMLMを使用して訓練される。 RoBERTa（Liu et al, 2020）、XLNet（Yang et al., 2019）、Span-BERT（Joshi et al., 2020）、ALBERT（Lan et al., 2020）、BART（Lewis et al., 2020）、T5（Raffelet et al., 2020）などの最近のCWRのほとんどは、MLMと同等または類似のタスクを用いて訓練したTransformerをベースにしている。単語ではなくエンティティをマスクする我々の提案する事前学習タスクと同様に、最近のいくつかのCWR、例えばSpan-BERT、ALBERT、BART、T5は、単一の単語ではなく単語スパンをランダムにマスクすることによってMLMを拡張している。

　さらに、最近の様々な研究では、KBのような外部ソースからの知識を注入することによってCWRを強化する方法が模索されている。ERNIE（Zhang et al., 2019）やKnow-BERT（Peters et al., 2019）は、KBから別途学習した静的エンティティ埋め込みを使用してCWRを強化するために同様のアイデアを使用している。WKLM（Xiong et al., 2020）は、テキスト内のエンティティ名が同じタイプの別のエンティティ名で置換されているかを検出するモデルを訓練する。KEPLER（Wang et al, 2019b）は、MLMと知識埋め込み目的関数（Bordes et al., 2013）に基づいて事前学習を行う。 K-Adapter（Wang et al., 2020）は、我々の研究と同時に提案されたもので、事実と言語の知識を注入するニューラルアダプターを使用してCWRを拡張するものである。この研究は、私たちの事前学習タスクがKBの情報を使ってモデルを強化することから、私たちの研究と関連している。

　LUKEは、上記のCWRとは異なり、エンティティに関連するタスクを効果的に解決するために設計された、エンティティを意識したセルフアテンション機構を備えた改良型トランスフォーマーアーキテクチャを使用している。 LUKEは、すべての実験において、既存のCWRや知識強化型CWRに対して優れた実証結果を得ている。すべての実験において、既存のCWRや知識強化型CWRより優れた実証結果を得ることができた。

3 LUKE

図 1 に LUKE のアーキテクチャを示す。モデルは多層双方向トランスフォーマーを採用している（Vaswani et al., 2017）。文書中の単語とエンティティを入力トークンとして扱い、各トークンの表現を計算する。例えば、 $m$ 個の単語 $w_1, w_2, \ldots ,w_m$ と $n$ 個のエンティティ $e_1, e_2, \ldots, e_n$ からなるシーケンスが与えられたとき、我々のモデルは、 $D$ 次元の単語表現 $h_{w_1}, h_{w_2}, \ldots ,h_{w_m}$ 、ここで、 $h_w \in \mathbb{R}^D$ とエンティティ表現 $h_{e_1}, h_{e_2}, \ldots, h_{e_n}$ 、ここで $h_e \in \mathbb{R}^D$ を計算する。エンティティは、Wikipediaのエンティティ（例：図1のBeyonc）またはスペシャルエンティティ（例：[MASK]）とすることができる。

3.1 入力表現

トークン（単語またはエンティティ）の入力表現は、以下の3つの埋め込みを使用して計算される。

トークン埋め込みは、対応するトークンを表す。単語トークン埋め込みを $A \in \mathbb{R}^{V_w×D}$ とし、ここで $V_w$ は語彙の数である。計算効率を上げるため、エンティティトークン埋め込みを2つの小さな行列、 $B \in \mathbb{R}^{V_e×H}$ と $U \in \mathbb{R}^{H×D}$ に分解して表現する（ここで、 $V_e$ は語彙の中のエンティティ数）。したがって、エンティティトークン埋め込みの完全な行列は $BU$ と計算できる。
位置埋め込みは、単語列におけるトークンの位置を表す。単語列の $i$ 番目の位置に出現する単語とエンティティは、それぞれ $C_i \in \mathbb{R}^D$ と $D_i \in \mathbb{R}^D$ として表現される。エンティティ名が複数の単語を含む場合、図1に示すように、対応する位置の埋め込みを平均化することでその位置の埋め込みが計算される
エンティティタイプの埋め込みは、トークンがエンティティであることを表す。埋め込みは、 $e \in \mathbb{R}^D$ で示される単一のベクトルである。

単語の入力表現とエンティティの入力表現は、それぞれトークンと位置の埋め込み、およびトークンと位置とエンティティタイプの埋め込みを合計することで計算される。過去の研究（Devlin et al., 2019; Liu et al., 2020）に従い、特別なトークン[CLS]と[SEP]を、それぞれ最初と最後の単語として単語列に挿入する。

3.2 エンティティを意識したセルフアテンション

セルフアテンション機構は、トランスフォーマー（Vaswani et al, 2017）の基礎であり、トークンの各ペア間のアテンションスコアに基づいて、トークン同士を関連付ける。 $x_i \in \mathbb{R}^D$ の入力ベクトル $x_1, x_2, \ldots, x_k$ の列が与えられたとき、 $y_i \in \mathbb{R}_L$ の出力ベクトル $y_1, y_2, \ldots, y_k$ の各々は、変換された入力ベクトルの加重和に基づいて計算される。ここで、各入出力ベクトルは、本モデルにおけるトークン（単語またはエンティティ）に対応するため、 $k=m+n$ とする。 $i$ 番目の出力ベクトル $y_i$ は次のように計算される：

ここで、 $Q \in \mathbb{R}^{L×D}$ , $K \in \mathbb{R}_{L×D}$ , $V \in \mathbb{R}^{L×D}$ はそれぞれ、クエリ行列、キー行列、バリュー行列を表す。

　LUKEは単語とエンティティの2種類のトークンを扱うため、アテンションスコア（ $e_{ij}$ ）を計算する際に、対象となるトークンの種類の情報を用いることが有益であると考えられる。そこで、 $x_i$ と $x_j$ のトークンの種類ごとに異なる問い合わせ行列を使用する、エンティティを意識したクエリ機構を導入し、この機構を強化する。形式的には、アテンションスコア $e_{ij}$ は以下のように計算される：

ここで、 $Q_{w2e}, tex: Q_{e2w}, Q_{e2e} \in \mathbb{R}^{L×D}$ はクエリ行列である。オリジナルの機構と我々の提案する機構の計算コストは、学習時に勾配の計算と追加クエリ行列のパラメータの更新を行う追加コストを除いて同一であることに注意されたい。

3.3 事前学習タスク

LUKEの事前学習には、従来のMLMと、MLMを拡張してエンティティ表現を学習する新しい事前学習タスクを使用する。特に、Wikipediaのハイパーリンクをエンティティの注釈として扱い、Wikipediaから取得した大規模なエンティティの注釈付きコーパスを用いてモデルを学習する。ある割合のエンティティをランダムにマスクし、特別な[MASK]エンティティに置き換えて、マスクされたエンティティを予測するモデルを学習する。形式的には、語彙のすべてのエンティティに対してソフトマックス関数を適用することで、マスクされたエンティティに対応する元のエンティティが予測される：

ここで、 $h_e$ はマスクされたエンティティに対応する表現、 $T \in \mathbb{R}^{H×D}$ 及び $W_h \in \mathbb{R}^{D×D}$ は重み行列、 $b_o \in \mathbb{R}^{V_e}と[tex: b_h \in \mathbb{R}^D$ はバイアスベクトル、 $gelu（\cdot）$ はgelu活性化関数（Hendrycks and Gimpel, 2016）、 $\text{layer_norm} (\cdot)$ はレイヤーノーム関数（Lei Ba et al., 2016）である。最終的な損失関数は、MLM損失とマスクされたエンティティを予測するためのクロスエントロピーの損失の合計であり、後者は前者と同じように計算される。

3.4 モデリングの詳細

我々のモデル構成は、 $\text{RoBERTa_{LARGE}}$ （Liu et al., 2020）、双方向トランスフォーマーとBERT（Devlin et al., 2019）の変種に基づく事前訓練済みCWRに従う。特に、我々のモデルは、 $D= 1024$ の隠れ次元、24の隠れ層、 $L= 64$ のアテンションヘッド次元、16のセルフアテンションヘッドを持つ双方向トランスフォーマーに基づいている.エンティティトーク埋め込みの次元数は $H= 256$ に設定されている。RoBERTaのパラメータは355M、エンティティのパラメータは128Mであり、パラメータ総数は約483Mである。入力テキストはRoBERTaのトークナイザーを用いて単語にトークン化され、 $V_w=50K$ 単語の語彙で構成される。計算効率のため、エンティティ語彙はすべてのエンティティを含まず、エンティティ注釈に最も頻繁に登場する $V_e= 500K$ エンティティのみを含む。また、エンティティ語彙には、[MASK]と[UNK]という2つの特殊エンティティが含まれている。

　このモデルは、Wikipediaのページをランダムな順序で200Kステップ繰り返し学習させる。学習時間を短縮するために、LUKEがRoBERTaと共通に持つパラメータ（トランスフォーマーと単語の埋め込みのパラメータ）をRoBERTaで初期化する。過去の研究（Devlin et al., 2019; Liu et al., 2020）に従い、全単語とエンティティの15%をランダムにマスクする。我々は、自己アテンション機構のアブレーション研究を行いたいが、2回の事前学習を行う余裕がないため、我々のエンティティを意識したセルフアテンション機構ではなく、オリジナルのセルフアテンション機構を使用して事前学習を行う。セルフアテンション機構のクエリ行列（ $Q_{w2e}$ 、 $Q_{e2w}$ 、そして $Q_{e2e}$ ）は、下流のデータセットを用いて学習する。事前学習の詳細については、付録Aに記載されている。

4 実験

我々は、エンティティタイピング、関係分類、NER、クローズ型QA、抽出型QAという5つのエンティティ関連タスクを用いた大規模な実験を実施した。我々は、単語、エンティティ、またはその両方の表現に単純な線形分類器を乗せた類似のモデル構造をすべてのタスクに使用する。特に指定がない限り、[CLS]と[SEP]のトークンをそれぞれ最初と最後のトークンとして元の単語列に挿入することによって、入力単語列を作成する。入力エンティティ列は、[MASK]エンティティ、タスクのために導入された特別なエンティティ、またはWikipediaエンティティを使用して構築される。タスク固有の特殊エンティティのトークン埋め込みは[MASK]エンティティのそれを使って初期化され、エンティティを意識したセルフアテンション機構のクエリー行列（ $Q_{w2e}$ 、 $Q_{e2w}$ 、 $Q_{e2e}$ ）は元のクエリー行列 $Q$ を使って初期化される。

事前学習ではRoBERTaをベースモデルとして使用したため、すべてのタスクでRoBERTaを主要なベースモデルとして使用する。各セクションのベースライン・モデルについては、セクション 2 で説明しているため、説明を省略する。実験の詳細については、付録Bを参照されたい。

4.1 エンティティタイピング

まず、与えられた文中のエンティティの種類を予測するタスクであるエンティティタイピングの実験を行う。 Zhangら（2019）に従い、Open Entityデータセット（Choi et al., 2018）を使用し、9つの一般的なエンティティタイプのみを考慮する。Wangら（2020）に従い、loose micro-precision、recall、F1を報告し、主要指標としてmicro-F1が採用されている。

モデル：対象エンティティを[MASK]エンティティで表現し、各文中の単語とエンティティをモデルに入力する。そして、対応するエンティティ表現に基づき、線形分類器を用いてエンティティを分類する。このタスクをマルチラベル分類として扱い、すべてのエンティティタイプで平均化された2値のクロスエントロピー損失を用いてモデルを訓練する。

ベースライン：UEFT（Choi et al., 2018）は、双方向LSTMを利用してコンテキスト表現を計算する便利なモデルである。また、BERT、RoBERTa、ERNIE、KnowBERT、KEPLER、K-Adapterをベースラインとして使用する。

結果：表1に実験結果を示す。LUKEは、主要ベースラインのRoBERTaを2.0 F1ポイント、先行する最良公開モデルのKnowBERTを2.1 F1ポイント大幅に上回る。さらに、LUKEはK-Adapterを0.7 F1ポイント上回り、新たなSoTAを獲得しています。

4.2 関係性分類

関係分類は、文中のheadエンティティとtailエンティティ間の正しい関係を決定する。我々は、42種類の関係を持つ106,264文を含む大規模な関係分類データセットであるTACRED dataset（Zhang et al., 2017）を用いて実験を実施する。 Wangら（2020）に従い、micro-precision、recall、F1を報告し、micro-F1を主要指標とする。

モデル：頭部と尾部の実体を表すために、それぞれ[HEAD]と[TAIL]という二つの特殊エンティティを導入し、各文中の単語とこの二つのエンティティをモデルに入力する。次に、headとtailのエンティティを結合した表現に基づく線形分類器を使用してタスクを解く。このモデルは、クロスエントロピー損失を用いて学習される。

ベースライン：C-GCN（Zhang et al., 2018b）は、依存関係木構造上のグラフ畳み込みネットワークを用いてタスクを解決する。MTB（Baldini Soareset al., 2019）は、大量のエンティティ注釈付きテキストを用いた空白マッチングタスクを通じてBERTに基づいて関係表現を学習する。また、LUKEをBERT、RoBERTa、SpanBERT、ERNIE、KnowBERT、KEPLER、K-Adapterと比較した。

結果：実験結果は表2に示す。 LUKEは、我々の主要なベースラインであるRoBERTaを1.4 F1ポイント、以前の最良公開モデルであるMTBとKnowBERTを1.2 F1ポイント明らかに上回った。さらに、K-Adapterを0.7 F1ポイント上回り、新たなSoTAを達成した。

4.3 名前付きエンティティ認識

標準的なCoNLL-2003データセット（Tjong Kim Sang and De Meulder, 2003）を用いて、NERタスクの実験を行った。過去に行われた実験にならって、スパンレベルのF1を報告する。

モデル：Sohrab and Miwa（2018）に従い、各文中の可能なスパン（またはn-gram）をエンティティ名として列挙し、それらを対象エンティティタイプまたはスパンがエンティティではないことを示すノンエンティティタイプに分類することでタスクを解決する。データセットの各文に対して、可能な限りのスパンに対応する単語と[MASK]エンティティを入力する。各スパンの表現は、スパンの最初と最後の単語の単語表現と、スパンに対応するエンティティ表現を連結することによって計算される。その表現を使って線形分類器を用いて各スパンを分類し、交差エントロピー損失を用いてモデルを訓練する。計算効率を上げるため、16語以上のスパンは除外する。推論では、まず、ノンエンティティタイプに分類されたスパンをすべて除外する。重複するスパンを選択しないようにするため、予測されるエンティティタイプのロジットに基づいて残りのスパンから貪欲にスパンを選択し、すでに選択されているスパンと重複しない場合は降順に選択する。Devlinら（2019）に従い、ターゲット文書に最大限の文書コンテキストを含める。

ベースライン： LSTM-CRF（Lample et al., 2016）は、conditional random fields（CRF）付き双方向LSTMに基づくモデルである。Akbikら（2018）は、文字レベルの文脈化表現で強化したCRF付き双方向LSTMを用いてこの課題に取り組む。同様に、Baevskiら（2019）は、双方向トランスフォーマーに基づくCWRで強化されたCRF付き双方向LSTMを使用している。また、ELMo、BERT、RoBERTaをベースラインとして使用している。RoBERTaとの公正な比較を行うために、スパンの最初と最後の単語の表現を連結することによって計算されたスパン表現で、上記に記されたモデルを使用してその性能を報告する。

結果：実験結果を表 3 に示す。LUKEはRoBERTaを1.9 F1ポイント上回った。さらに、Baevskiet al.（2019）で報告された以前の状態を0.8 F1ポイント上回ることで、この競合データセットにおける新しいSoTAを達成した。

4.4 クローズ型質問応答

我々は、120K以上の例からなるクローズ型QAデータセットであるReCoRDデータセット（Zhang et al., 2018a）で我々のモデルを評価する。このデータセットの興味深い特徴は、その質問のほとんどが外部知識なしでは解決できないことである。以下は、このデータセットに含まれる質問とその回答の例である。

質問：訴訟の主張によると、「世界中の音楽ファンが瞬時に認識できる『天国への階段』の一部は、『X』の大部分とほぼ同じに聞こえる。」

答え：牡牛座

質問と文章が与えられたら、文章に書かれているエンティティのうち、欠けているエンティティ（上記の質問ではXで示されている）に適合するものを見つけることが課題である。このデータセットでは、文章中のエンティティスパン（開始位置と終了位置）のアノテーションが提供され、回答は提供されたエンティティスパンの中に1回または複数回含まれることになる。過去の研究成果に従い、開発セットとテストセットにおいて、完全一致（EM）とトークンレベルのF1を用いてモデルを評価した。

モデル：このタスクは、パスセージの各エンティティに関連性スコアを割り当て、最も高いスコアを持つエンティティを回答として選択することで解決される。Liuら（2020）に従い、質問 $q_1, q_2, \ldots, q_j$ と回答 $p_1, p_2, \ldots, p_l$ が与えられたとき、入力単語列は次のように構成される： $\text{ [CLS$ } q_1, q_2, \ldots,q_j \text{ [SEP ] [SEP ]} p_1, p_2, \ldots, p_l \text{ [SEP ]} ]。さらに、欠落したエンティティに対応する[MASK]エンティティと、パッセージ内のすべてのエンティティを入力する。欠損したエンティティと対応するエンティティを連結した線形分類器を用いて、パッセージ内の各エンティティの関連性スコアを計算する。パッセージ内の全エンティティを平均したバイナリクロスエントロピーロスを用いてモデルを学習し、最も高いスコア（ロジット）を持つエンティティを答えとして選択する。

ベースライン： DocQA+ELMo（Clark and Gardner, 2018）は、ELMo、bidirectional attention flow (Seo et al., 2017)、そしてセルフアテンション機構に基づくモデルである。XLNet+Verifier（Li et al., 2019）はXLNetに基づくルールベースの回答検証のモデルで、このデータセットに基づいて最近行われた競技会の優勝者である（Ostermann et al, 2019）。また、BERTとRoBERTaをベースラインとして使用する。

結果：その結果を表4に示す。LUKEは、開発セットにおいて、最良のベースラインであるRoBERTaをEMポイント1.8、F1ポイント1.9で大幅に上回った。さらに、モデルをアンサンブルしないテストセットでは、RoBERTa（アンサンブル）よりも優れた結果を得ることができた。

4.5 抽出的質問応答

最後に、100Kの質問と答えのペアからなる有名なStanford Question Answering Dataset（SQuAD）1.1 （Rajpurkar et al, 2016）を使って実験を行う。質問と答えを含むWikipediaの文章が与えられた場合、タスクはその文章に含まれる答えを予測することである。過去の研究に従って、開発セットとテストセットにおけるEMとトークンレベルのF1を報告する。

モデル：前の実験と同じ方法で、質問とパッセージから単語列を構築する。他の実験と異なり、Wikipediaのエンティティは、エンティティの名前（例："U.S."）から参照するエンティティ（例：United States）へのマッピングを使用して、質問と文章から自動的に生成されたエンティティ注釈に基づいてモデルに入力される。このマッピングは、付録Cで詳しく説明されているように、Wikipediaのエンティティハイパーリンクを使用して自動的に作成される。我々は、BERTとRoBERTaと同じモデルアーキテクチャを使用してこのタスクを解決した。特に、回答のスパン境界（すなわち、開始位置と終了位置）を予測するために、単語表現の上に独立した2つの線形分類器を使用し、交差エントロピー損失を使用してモデルを訓練する。

ベースライン：我々は、BERT、RoBERTa、SpanBERT、XLNet、ALBERTなどの最近のCWRの結果と我々のモデルを比較しました。RoBERTaとALBERTの結果は開発セットでのみ報告されているため、このセットを使用してこれらのモデルとの比較を行う。 RoBERTaとの公平な比較を行うため、RoBERTa（Liu et al., 2020）と同じモデル・アーキテクチャとハイパーパラメータを使用した。

結果：実験結果を表5に示す。LUKEは、開発セットにおいて、我々の主要なベースラインであるRoBERTaを0.9 EMポイント、0.4 F1ポイント上回った。さらに、この競争力のあるデータセットにおいて、EMとF1の両方でXLNetを0.3ポイント上回り、新たなSoTAを達成した。なお、XLNetはここで検討した他のモデルよりも、ビームサーチを含むより高度なモデルを使用している。

5 分析

このセクションでは、3つの追加実験を報告することで、LUKEの詳細な分析を提供する。

5.1 エンティティ表現による効果

LUKEの表現が下流タスクのパフォーマンスにどのような影響を与えるかを調べるために、CoNLL-2003データセットのNERとSQuADデータセットの抽出的QAを、エンティティを入力せずに行うアブレーション実験を行った。この設定では、LUKEは各単語の表現を計算するために単語配列のみを使用する。また、RoBERTaと同じモデル構成でタスクを処理した。表6に示すように、この設定では、CoNLL-2003データセットで1.4 F1ポイント、SQuADデータセットで0.6 EMポイントと、明らかに性能が低下し、この2つのタスクにおける我々のエンティティ表現の有効性を実証している。

5.2 エンティティを意識したセルフアテンションによる効果

LUKEを使用した場合の性能と、トランスフォーマー独自の機構を使用した場合の性能を比較することで、我々のエンティティを意識したセルフアテンション機構のアブレーションスタディを実施した。表7に示すように、LUKEは全てのタスクにおいて、エンティティを意識したセルフアテンション機構が元の機構を上回る性能を発揮している。さらに、関係分類（TACRED）とQA（ReCoRDとSQuAD）という2種類のタスクで大きな改善が見られた。これらのタスクは、エンティティ間の関係に基づく推論を含むため、本機構は、モデル（すなわち、アテンションヘッド）がエンティティ間の関係を捕捉することに容易に集中できるようにするものであると考えられる。

5.3 追加の事前学習の効果

セクション3.4で述べたように、LUKEはRoBERTaをベースに、Wikipedia コーパスを用いた200Kステップの事前学習を行っている。過去の研究（Liuet al., 2020; Lan et al., 2020）では、CWRの学習ステップ数を増やすだけで、下流タスクの性能が向上することが示唆されているため、RoBERTaと比較してLUKEの優れた実験結果は、事前学習ステップ数が多いために得られると考えられる。これを調べるために、RoBERTaに基づいて、Wikipedia コーパスを用いてMLMに基づく事前学習を追加したモデルを200K学習ステップ学習することにする。事前学習で使用した詳細な構成は、付録Aで確認できる。

　このモデルの性能をCoNLL-2003データセットとSQuADデータセットで評価したところ、RoBERTadと同じモデルアーキテクチャを使用していることがわかった。表8に示すように、このモデルは両データセットにおいてオリジナルのRoBERTaと同等の性能を達成しており、LUKEの優れた性能はより長い事前学習によるものではないことが分かる。

6 結論

本論文では、Transformerに基づく新しい事前学習された単語とエンティティの文脈化表現であるLUKEを提案する。LUKEは、改良されたTransformerアーキテクチャと、新しいエンティティを意識したセルフアテンションメカニズムを用いて、単語とエンティティのコンテキスト化された表現を出力する。実験結果は、様々なエンティティ関連のタスクにおいて、その有効性を証明している。今後の課題として、LUKEを生物医学や法律などのドメインに特化したタスクに適用する予定である。

izmyonの日記

奈良の山奥で研究にいそしむ大学院生の学習記録。

今日の論文2023/06/11,12：LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention