ERNIE: Enhanced Language Representation with Informative Entities

License: Creative Commons Attribution 4.0 International License(CC-BY)

本記事は、原著の内容に基づき筆者が要約または翻訳したものです。以下の図は、そこから引用しています。

This article is my summary or translation based on the content of the original publication. The following figures are taken from it.

要点まとめ

大規模コーパスで事前学習されたBERTのようなニューラル言語表現モデルは、プレーンテキストから豊富な意味パターンをうまく捕捉し、様々なNLPタスクのパフォーマンスを一貫して向上させるためにファインチューンすることができます。しかし、既存の事前学習済み言語モデルは、より良い言語理解のために豊富な構造化知識事実を提供できる知識グラフ（KG）の組み込みをほとんど考慮していない。我々は、KGに含まれる情報量の多いエンティティが、外部知識を用いて言語表現を強化することができると主張する。本論文では、大規模なテキストコーパスとKGの両方を利用して、語彙、構文、知識情報を同時にフル活用できる拡張言語表現モデル（ERNIE）を学習する。実験結果は、ERNIEが様々な知識駆動型タスクで大幅な改善を達成し、一方で他の一般的なNLPタスクでは最先端モデルBERTと同等であることを実証している。コードとデータセットは今後公開される予定である。

github.com

1 序論

特徴ベース（Mikolov et al., 2013; Pennington et al., 2014; Peters et al., 2017, 2018）およびfファインチューニング（Dai and Le, 2015; Howard and Ruder, 2018; Radford et al., 2018; Devlin et al., 2019）アプローチを含む、事前に訓練した言語表現モデルは、テキストから豊富な言語情報を取得し、多くのNLPアプリケーションを支援できる。BERT（Devlin et al., 2019）は、最も最近提案されたモデルの1つとして、単純な微調整によって名前付きエンティティ再認識（Sang and De Meulder, 2003）、質問応答（Rajpurkar et al., 2016; Zellers et al., 2018）、自然言語推論（Bowman et al., 2015）、テキスト分類（Wang et al., 2018）を含む様々なNLPアプリケーションでSoTAの結果を得ている。

　事前学習済み言語表現モデルは有望な結果を達成し、多くのNLPタスクで通常の構成要素として働いているが、言語理解のための知識情報を組み込むことが軽視されている。図1に示すように、"Blowin' in the Wind”と"Chronicles: Volume One"について、それぞれ歌と本であることを知らなければ、エンティティタイピングタスクでBob Dylanの2つの職業、すなわち”songwriter"と"writer"を認識することは困難である。また、関係分類タスクでは、"composer"や"author"のような細かな関係を抽出することはほぼ不可能である。既存の学習済み言語表現モデルでは、この2つの文は"UNK wrote UNK in UNK"のように構文的にあいまいである。したがって、豊富な知識情報を考慮することで、より良い言語理解につながり、エンティティタイピングや関係分類など、様々な知識駆動型アプリケーションに利益をもたらす。

　言語表現モデルに外部知識を取り入れるには、主に2つの課題がある。（１）構造化知識のエンコーディング：与えられたテキストに関して、その関連する情報的事実をいかに効果的に抽出して言語表現モデルのKGにエンコードするかは重要な問題である。（２）異種情報の融合：言語表現の事前学習手順は知識表現手順と全く異なるため、二つの個別のベクトル空間が生じる。語彙、構文、知識の情報を融合させた特別な事前トレーニングの目的をどのように設計するかは、もう一つの課題である。

　上記の課題を克服するために、我々は、大規模なテキストコーパスとKGの両方で言語表現モデルを事前学習するERNIE（Enhanced Language RepresentatioN with Informative Entities）を提案する。

　（１）知識情報の抽出とエンコードのために、まずテキスト中で言及されている名前付きエンティティを認識し、これらの言及をKG中の対応するエンティティに整列する。KGのグラフベースの事実を直接利用する代わりに、TransE（Bordes et al., 2013）のような知識埋め込みアルゴリズムでKGのグラフ構造をエンコードし、情報エンティティ埋め込みをERNIEの入力とする。ERNIEは、テキストとKGの間の整列に基づき、知識モジュールのエンティティ表現を意味モジュールの基礎層に統合する。

　（２） BERTと同様に、事前学習目標として、マスク化言語モデルと次文予測を採用する。また、テキストと知識特徴のより良い融合のために、入力テキスト中の名前付きエンティティの整列をランダムにマスクし、モデルにKGから適切なエンティティを選択して整列を補完させるという新しい事前学習目的を設計した。既存の事前学習済み言語表現モデルは、局所的な文脈を利用してトークンを予測するだけであるが、我々の目的は、トークンとエンティティの両方を予測するために文脈と知識事実の両方を集約し、知識豊富な言語表現モデルを導くことをモデルに求める。

我々は、2つの知識駆動型NLPタスク、すなわち、エンティティタイピングと関係分類について実験を行った。実験の結果、ERNIEはこれらの知識駆動型タスクにおいて、語彙、構文、および知識情報を最大限に活用することで、SoTAモデルのBERTを大幅に上回る性能を発揮することがわかった。また、ERNIEを他の一般的なNLPタスクでも評価したところ、ERNIEは依然として同等の結果を得ることができた。

2 関連研究

テキストから言語情報を取得し、その情報を特定のNLPタスクに利用するために、言語表現モデルの事前学習に多くの努力が払われている。これらの事前学習アプローチは、特徴ベースアプローチとファインチューニングアプローチに分けられる。

　初期の研究（Collobert and Weston, 2008; Mikolov et al., 2013; Pennington et al, 2014）は、特徴ベースのアプローチを採用し、単語を分散表現に変換することに重点を置いている。これらの事前訓練された単語表現は、テキストのコーポラにおける統語的・意味的情報を捉えるため、様々なNLPモデルの入力埋め込みや初期化パラメータとして用いられることが多く、ランダム初期化パラメータよりも大きな改善をもたらす（Turian et al., 2014）。これらの単語レベルモデルは単語の多義性に悩まされることが多いため、Petersら（2018）はさらにシーケンスレベルモデル（ELMo）を採用し、異なる言語コンテキストにわたる複雑な単語の特徴を捉え、ELMoを使用してコンテキストを考慮した単語埋め込みを生成する。

　Dai and Le（2015）は、入力特徴として事前に訓練された言語表現を使用するだけの上記の特徴ベースの言語アプローチとは異なり、ラベル付けされていないテキストでオートエンコーダを訓練し、事前に訓練されたモデルアーキテクチャとパラメータを他の特定のNLPモデルの出発点として使用する。Dai and Le (2015)に触発され、ファインチューンのためのより多くの事前訓練された言語表現モデルが提案されている。Howard and Ruder（2018）は、ユニバーサル言語モデル（ULMFiT）を構築するためにAWD-LSTM（Merity et al., 2018）を提示する。Radfordら（2018）は、generative pre-trained Transformer (Vaswani et al., 2017) (GPT)を提案して、言語表現を学習している。Devlinら（2019）は、多層トランスフォーマーによる深層双方向モデル（BERT）を提案しており、様々なNLPタスクでSoTAの結果を達成している。

　特徴ベースとファインチューニングの両方の言語表現モデルが大きな成功を収めているものの、それらは知識情報の組み込みを無視している。最近の研究で実証されているように、余分な知識情報を注入すると、読解（Mihaylov and Frank,2018; Zhong et al., 2018）、機械翻訳（Zaremoodi et al.、2018）、自然言語推論（Chen et al.、2018）、知識獲得（Han et al.、2018a）、対話システム（Madotto et al.、2018）のようなタスクでオリジナルモデルを大幅に向上させることができる。したがって、我々は、余分な知識情報は、既存の事前学習モデルに効果的に利益をもたらすことができると主張する。実際、いくつかの研究では、外部KGを効果的に活用するために、単語とエンティティの表現学習を共同で行うことが試みられており、有望な結果を得ている（Wang et al., 2014; Toutanova et al., 2015; Han et al., 2016; Yamada et al., 2016; Cao et al., 2017, 2018）。Sunら（2019）は、知識による言語表現を強化するために、マスクド言語モデルの知識マスク戦略を提案している。本論文では、さらにコーポらとKGの両方を利用して、BERTに基づく拡張言語表現モデルを学習する。

3 手法

本節では、ERNIEの全体的なフレームワークとその詳細な実装を紹介する。モデルアーキテクチャは3.2節、情報主体の符号化と異種情報の融合を目的とした新規の事前学習タスクは3.4節、ファインチューンの詳細は3.5節である

3.1 記法

トークン列を $\{w_1, \ldots ,w_n \}$ 、 $n$ はトークン列の長さである、とする。一方、与えられたトークンに整列するエンティティ列を $\{e_1, \ldots, e_m \}$ とし、 $m$ はエンティティ列の長さであるとする。KGではすべてのトークンがエンティティに整列できるわけではないので、ほとんどの場合、 $m$ は $n$ と等しくないことに注意する。さらに、すべてのトークンを含む語彙全体を $\mathcal{V}$ 、KGのすべてのエンティティを含むエンティティリストを $\mathcal{E}$ とする。トークン $w \in \mathcal{V}$ に対応するエンティティ $e \in \mathcal{E}$ がある場合、それらの整列は $f(w)=e$ と定義される。本稿では、図2に示すように、エンティティをその名前付きエンティティフレーズの最初のトークンに整列する。

3.2 モデルアーキテクチャ

図2に示すように、ERNIEのモデル全体は2つのモジュールから構成されている。(1)入力トークンから基本的な語彙と構文情報を取得する下層のテキストエンコーダ（T-Encoder）、(2) 下層からのテキスト情報にトークン指向の余計な知識端情報を統合する上位知識型エンコーダ（K-Encoder）、これによりトークンとエンティティの異種情報を統合特徴空間に表現できるようにした。また、T-Encoderの層数をN、K-Encoderの層数をMと表記する。

具体的には、トークン列 $\{w_1, \ldots, w_n \}$ とそれに対応するエンティティ列 $\{e_1, \ldots,e_m \}$ が与えられたとき、テキストエンコーダはまず各トークンのトークン埋め込み、セグメント埋め込み、位置埋め込みを合計して入力埋め込みを計算し、次に語彙的、構文的特徴 $\{w_1,\ldots,w_n \}$ を以下のように計算する。

ここで、 $\text{T-Encoder}(\cdot)$ は、多層双方向トランスフォーマーエンコーダである。 $\text{T-Encoder}(\cdot)$ はBERTにおける実装と同一であり、BERTが普及しているため、このモジュールの包括的な説明は除外し、Devlinetら（2019）およびVaswani et al.（2017）を読者に紹介する。

$\{w_1,\ldots,w_n \}$ を計算した後、ERNIEは知識エンコーダK-Encoderを採用し、知識情報を言語表現に注入する。具体的には、効率的な知識埋め込みモデルTransE (Bordes et al., 2013)によって事前に訓練されたエンティティ埋め込み $\{e_1, \ldots,e_m \}$ で $\{e_1, \ldots,e_m \}$ を表現する。そして、 $\{w_1,\ldots,w_n \}$ と $\{e_1, \ldots,e_m \}$ の両方をK-Encoderに送り、異種情報を融合させ、最終出力埋め込みを計算する。

$\{w^o_1,\ldots,w^o_n \}$ と $\{e^o_1, \ldots,e^o_m \}$ は特定のタスクのための特徴として使用される。知識付きエンコーダK-Encoderの詳細については、3.3節で紹介する。

3.3 知識のあるエンコーダー

図2に示すように、知識エンコーダK-Encodercは、トークンとエンティティの両方を符号化し、それらの異種特徴を融合するために設計された積層アグリゲータで構成される。 $i$ 番目のアグリゲータでは、前のアグリゲータから入力されたトークン埋め込み $\{w^{(i-1}_1,\ldots,w^{(i-1)}_n \}$ とエンティティ埋め込み $\{e^{(i-1}_1,\ldots,e^{(i-1)}_n \}$ はそれぞれ二つのマルチヘッドセルフアテンション（MH-ATT）（Vaswani et al, 2017）に送り込まれる。

　そして、 $i$ 番目のアグリゲータは、トークンとエンティティの並びを相互に統合するための情報融合層を採用し、各トークンとエンティティの出力埋め込みを計算する。トークン $w_j$ とそれに並ぶエンティティ $e_k＝f(w_j)$ に対して、情報融合プロセスは以下の通りである、

ここで $h_j$ は、トークンとエンティティの両方の情報を統合した内側の隠れ状態である。 $\sigma(\cdot)$ は非線形活性化関数であり、通常はGELU関数（Hendrycks and Gimpel, 2016）である。対応するエンティティのないトークンについては、情報融合層は以下のように統合せずに出力エンベッディングを計算する、

簡単のため、 $i$ 番目のアグリゲータ演算を以下のように表記する、

トップアグリゲータが計算したトークンとエンティティの埋め込み出力は、知識エンコーダK-Encoderの最終出力埋め込みとして使用される。

3.4 知識注入のための事前学習

情報エンティティによる言語表現に知識を注入するために、ERNIEに新たな事前学習タスクを提案する。このタスクでは、トークン-エンティティのアライメントをランダムにマスクし、アライメントされたトークンに基づいて対応するエンティティのすべてを予測するようにシステムに要求する。このタスクはノイズ除去オートエンコーダ（Vincent et al., 2008）の訓練に似ているため、この手順をノイズ除去オートエンコーダ(dEA)と呼ぶ。ソフトマックス層では $\mathcal{E}$ のサイズが非常に大きいことを考慮し、KG内のすべてのエンティティの代わりに、与えられたエンティティシーケンスに基づいてエンティティを事前検出することだけをシステムに要求する。トークン列 $\{w_1, \ldots, w_n \}$ とそれに対応するエンティティ列 $\{e_1, \ldots, e_m \}$ が与えられたとき、整列されたトークン $w_i$ のエンティティ分布を次のように定義する（[tex: \text{linear}(\cdot)は線形層）。式(7)は、dEAのクロスエントロピー損失関数を計算するために使用される。

トークン-エンティティの整列に誤差があることを考慮し、dEAのために以下の操作を行う： (1) 時間の5%は、あるトークンとエンティティの整列に対して、エンティティを別のランダムなエンティティに置き換える。これは、トークンが間違ったエンティティに整列されているというエラーを修正するために我々のモデルを訓練することを目的としている。 (2) トークン-エンティティの整列を15%の時間でマスクする。これは、エンティティの整列システムが既存の整列をすべて抽出しないエラーを修正するためにモデルを学習することを目的とする。(3) 残りの時間では、トークン-エンティティの整列を変更しない。これは、より良い言語理解のために、エンティティ情報をトークン表現に統合するようにモデルを促すことを目的としている。

　BERTと同様に、ERNIEも事前学習タスクとしてタスク付き言語モデル（MLM）と次世代予測（NSP）を採用し、ERNIEがテキスト中のトークンから語彙と構文の情報を取得できるようにする。これらの事前学習タスクの詳細は、Devlin et al.(2019)に記載されている。総合的な事前トレーニングの損失は、dEA、MLM、NSPの損失の合計である。

3.5 特定のタスクのためのファインチューニング

図3に示すように、様々な一般的なNLPタスクに対して、ERNIEはBERTと同様のファインチューン手順を採用することができる。特別な[CLS]トークンに対応する最初のトークンの最終出力埋め込みを、特定のタスクの入力シーケンスの表現とすることができる。いくつかの知識駆動タスク（例えば、関係分類やエンティティタイピング）については、特別なファインチューン手順を設計する。

　関係分類については、タスクは、与えられたエンティティペアの関係ラベルをコンテキストに基づいて分類することをシステムに求める。 ERNIEを関係分類のためにファインチューンする最も簡単な方法は、与えられたエンティティの言及の最終出力埋め込みにプーリング層を適用し、分類のためにそれらの言及埋め込みを連結したもので与えられたエンティティのペアを表現することである。本論文では、入力トークン列に2つのマークトークンを追加することで、エンティティの言及を強調する別の方法を設計する。これらのマークトークンは、従来の関係分類モデル（Zeng et al., 2015）における位置埋め込みと同様の役割を果たす。次に、分類のために[CLS]トークン埋め込みも取り入れる。ヘッド・エンティティとテール・エンティティには、それぞれ異なるトークン[HD]と[TL]を設計することに注意。

エンティティタイピングのための特定のファインチューニング手順は、関係分類の単純化バージョンである。先行するタイピングモデルが文脈埋め込みとエンティティ言及埋め込みの両方をフル活用するように（Shimaoka et al., 2016; Yaghoobzadeh and Sch ̈utze, 2017; Xin et al., 2018）、我々は、言及マークトークン[ENT]を持つ修正入力シーケンスが、文脈情報とエンティティ言及情報の両方を注意深く組み合わせるようにERNIEを導くことができると主張する。

4 実験

本節では、ERNIEの事前学習の詳細と、知識駆動型タスクと一般的なNLPタスクを含む5つのNLPデータセットにおけるファインチューニングの結果を示す。

4.1 事前学習データセット

事前学習手順は、主に言語モデルの事前学習に関する既存の文献に準拠したものである。 ERNIEを一から学習させるのはコストがかかるため、Googleが公開したBERTのパラメータを採用し、トークンをエンコードするTransformerブロックを初期化する。事前学習はNSP、MLM、dEAからなるマルチタスクであるため、事前学習用コーパスとして英語版Wikipediaを用い、テキストをWikidataに整列する。事前学習のためにコーパスをフォーマット化した後、アノテーション付き入力は約4500Mのサブワードと140Mのエンティティを持ち、3エンティティ未満の文は破棄される。

ERNIEを事前学習する前に、Wikidataに対してTransEで学習した知識埋め込みをエンティティの入力埋め込みとして採用した。具体的には、5,040,986個のエンティティと24,267,796個のファクトトリプルを含むWikidataの一部をサンプリングする。エンティティの埋め込みは学習中に固定され、エンティティエンコーディングモジュールのパラメータはすべてランダムに初期化される。

4.2 パラメータ設定とトレーニングの詳細

本論文では、トークンエンベッディングとエンティティエンベッディングの隠れ次元をそれぞれ $H_w, H_e$ とし、セルフアテンションヘッドの数をそれぞれ $A_w, A_e$ とする。具体的には、 $N= 6, M= 6, H_w=768, H_e= 100, A_w=12, A_e= 4$ というモデル規模である。BERTBASEのパラメータ総量は約110Mであり、ERNIEの知識モジュールは言語モジュールよりもはるかに小さく、ランタイムパフォーマンスにほとんど影響を与えないことがわかる。また、ERNIEの事前学習は、注釈付きコーパスを用いて1エポックのみ行った。学習プロセスを高速化するため、最大系列長を512から256に短縮した。これは、セルフアテンションの計算が長さの二次関数になるためである。また、バッチ内のトークン数をBERTと同じにするため、バッチサイズを2倍の512とした。学習率を $5e^{-5}$ に設定した以外は、BERTで使用した事前学習ハイパーパラメータをほぼ踏襲している。ファインチューニングのため、バッチサイズ、学習率、学習エポック数を除き、ほとんどのハイパーパラメータは事前学習と同じである。バッチサイズ：32、学習率（Adam）： $5e^{-5}$ 、 $3e^{-5}$ 、 $2e^{-5}$ 、エポック数：3から10。

　また、遠距離教師付きデータセットであるFIGER（Ling et al., 2015）についてもERINEを評価した。深く積み重ねられたTransformerブロックの強力な表現能力から、小さなバッチサイズではモデルが学習データをオーバーフィットすることがわかった。したがって、オーバーフィットを避けるために大きなバッチサイズと少ない学習エポックを使用し、学習率の範囲を変更しない、すなわち、バッチサイズ2048、エポック数2,3とした。

　ほとんどのデータセットにはエンティティの注釈がないため、TAGME (Ferragina and Scaiella, 2010)を用いて文中のエンティティの言及を抽出し、それらをKGの対応するエンティティにリンクさせる。

4.3 エンティティタイピング

エンティティの言及とそのコンテキストが与えられた場合、エンティティタイピングでは、システムがエンティティの言及にそれぞれのセマンティックタイプをラベル付けする必要がある。このタスクの性能を評価するために、FIGER (Ling et al., 2015) とOpen Entity (Choi et al., 2018) の2つの確立されたデータセットでERNIEをファインチューンする。FIGERの訓練セットはdistant supervisionでラベル付けされ、そのテストセットは人手によりアノテートさえる。Open Entityは完全に手動でアノテーションされたデータセットである。これら2つのデータセットの統計は表1に示されている。我々は我々のモデルを以下のエンティティタイピングのベースラインモデルと比較する。

NFGEC：NFGECはShimaokaら(2016)が提案したハイブリッドモデルである。NFGECは、入力として、エンティティの言及、コンテキスト、および特別なハンドクラフトの特徴を組み合わせており、FIGERにおけるSoTAモデルである。本論文では、様々なニューラルモデルの一般的な言語表現能力の比較に焦点を当てているため、この作業ではハンドクラフト特徴を使用しない。

UFET：Open Entityについては、新しいハイブリッドモデルUFET（Choi et al., 2018）を加えて比較する。UFETはOpen Entityデータセットで提案されており、NFGECのエンティティの言及で分離された2つのBi-LSTMの代わりに、コンテキスト表現にBi-LSTMを使用する。

　NFGECとUFETに加えて、公平な比較のために、セクション3.5で紹介した同じ入力形式でBERTをファインチューンした結果も報告している。 NFGEC、BERT、ERNIEをFIGER上で比較し、評価基準としてstrict accuracy, loose macro、loose microのスコアを採用した。

　FIGERの結果は表2の通りである。この結果から、以下のことがわかる。：(1) BERTは、NFGECとマクロおよびミクロの評価基準で同等の結果を得た。しかし、BERTはNFGECのベストモデルよりも精度が低い。strict precisionは、事前予測が人間の注釈と一致するインスタンスの割合であるため、BERTの強力なフィッティング能力により、distant supervisionからの誤ったラベルがBERTによって学習されることを示している。(2) BERTと比較して、ERNIEはstrict accuracyを大幅に向上させた。これは、外部知識がERNIEを正則化してノイズの多いラベルの適合を回避し、その結果、エンティティタイピングに有利になることを示している。

　Open Entityの結果を表3に示す。この表から、以下のことがわかる。：(1) BERTとERNIEは、従来のエンティティタイピングモデルよりもはるかに高いrecallスコアを達成している。これは、事前学習言語モデルが、教師なし事前学習と手動注釈付き学習データの両方を十分に活用し、より優れたエンティティタイピングを実現していることを意味している。(2) BERTと比較して、ERNIEはprecisionを2%向上させ、recallを2%向上させた。これは、情報エンティティがERNIEのラベル予測をより正確にするのに役立つことを意味する。

　要約すると、KGからの情報を注入することにより、distant supervisionエンティティタイプデータセットであるFIGERにおけるノイズラベル課題を効果的に軽減した。さらに、ERNIEは、ゴールドアノテーションを持つOpen Entityにおいてもベースラインを上回った。

4.4 関係分類

関係分類は、与えられたセンテンスにおける2つのエンティティ間の正確な関係を決定することを目的としており、これは重要な知識駆動型NLPタスクである。このタスクの性能を評価するために、2つの確立されたデータセットFewRel（Han et al, 2018c）とTACRED（Chang et al, 2017）でERNIEをファインチューンしている。2つのデータセットの統計は、表4に示すとおりである。FewRelの元々の実験設定はfew-shot学習であるため、FewRelデータセットを共通関係分類の設定に並べ替えた。具体的には、学習セットには各クラスから100インスタンス、開発セットとテストセットにはそれぞれ200インスタンスをサンプリングする。FewRelでは80クラス、TACREDでは42クラス（特殊関係「無関係」を含む）である。我々のモデルを、関係分類のための以下のベースライン・モデルと比較する。

CNN：畳み込み層、最大プール層、非線形活性化層からなるCNNは、出力文の埋め込みを取得し、それを関係分類器に供給する。先頭と末尾のエンティティの位置をより良く捉えるために、位置埋め込みがCNNに導入される（Zeng et al., 2015; Linet al., 2016; Wu et al., 2017; Han et al., 2018b）。

PA-LSTM：Zhangら（2017）は、LSTMネットワーク上にposition-awareなアテンションメカニズムを導入したPA-LSTMを提案しており、最終的な文の表現に対して、これらの文の各単語の相対寄与度を評価する。

C-GCN：Zhangら（2018）はグラフコンボリューション操作を採用して、関係分類の構文木をモデル化している。語順を符号化し、非順序解析におけるエラーの副作用を軽減するために、文脈化 GCN (C-GCN)は、まず、Bi-LSTM を用いて、文脈化された表現を GCN モデルの入力として生成する。

　これらの3つのベースラインに加え、公平な比較のために、セクション3.5で紹介した同じ入力フォーマットでBERTをファインチューンする。FewRel にはエンティティ間の関係がないnullインスタンスがないため、モデルの性能を示すためにマクロ平均のメトリクスを採用している。また、FewRelは文にWikidataのファクトが含まれているかどうかをチェックすることで構築されているため、公正な比較のために、事前学習前にKGの関連ファクトを削除している。表5から、2つの見解が得られる。 (1) CNNエンコーダを一から学習させるには、学習データが十分でないため、CNNのF1スコアは69.35%にとどまった。しかし、BERTとERNIEを含む事前学習モデルは、F1スコアを少なくとも15%向上させる。(2) ERNIEはBERTよりも絶対的に3.4%のF1増加を達成しており、外部知識の融合が非常に有効であることを意味している。

　TACREDでは、80%近いnullインスタンスがあるため、先行研究（Zhang et al., 2017）に従って、マクロではなくモデルのパーフォーマンスを表すマイクロ平均化メトリクスを採用している。CNN、PA-LSTM、C-GCNの結果は、Zhangら(2018)の論文に由来し、それぞれCNN、RNN、GCNの最高の結果である。表5から、我々は以下を観察する： (1) C-GCNモデルは、C-GCNが構文木とエンティティマスク戦略を利用し、0.4％のF1増加によって強いBERTモデルを上回る。エンティティマスク戦略とは、各サブジェクト（および同様にオブジェクト）エンティティを特殊NERトークンと置き換えることを指し、これは我々の提案する事前学習タスクdEAと同様である。 (2) ERNIEは、最高のrecallとF1スコアを達成し、BERTのF1を約2.0%向上させた。これは、知識モジュールが関係分類に有効であることを証明している。

　結論として、事前学習した言語モデルは、バニラエンコーダCNNとRNNよりも関係分類に多くの情報を提供できることがわかった。また、ERNIEは関係分類データセットの両方でBERTを上回ったが、特に学習セットがはるかに少ないFewRelでは上回った。これは、大規模な注釈付きデータが利用できない多くの自然言語処理タスクにとって重要なことである、小さな学習データを最大限に活用するために、余分な知識がモデルを助けることを示している。

4.5 GLUE

General Language Understanding Evaluation (GLUE)ベンチマーク（Wang et al., 2018）は、多様な自然言語理解タスクの集まりであり（Warstadt et al., 2018; Socher et al., 2013; Dolan and Brockett, 2005; Agirre et al., 2007; Williams et al., 2018; Rajpurkar et al., 2016; Dagan et al., 2006; Levesque et al., 2011）、Devlinら（2019）で使用された主要なベンチマークである。我々の知識改変が一般的なNLPタスクの性能を向上させるかどうかを調べるために、GLUEの8つのデータセットでERNIEを評価し、BERTと比較する。

　表6では、我々の評価投稿の結果とリーダーボードからのBERTの結果を報告している。 MNLI、QQP、QNLI、SST-2のような大きなデータセットでは、ERNIEはBERTBASEと一致していることが分かる。つまり、ERNIEはCoLAとRTEでは優れているが、STS-BとMRPCでは劣っている。

　要するに、ERNIEはGLUEでBERTBASEと同等の結果を達成している。一方では、GLUEが言語表現に外部知識を必要としないことを意味する。他方では、ERNIEは異種情報融合後にテキスト情報を失うことがないことを示す。

4.6 アブレーションスタディ

本節では、FewRelデータセットを用いたERNIEの事前学習タスク（dEA）と情報エンティティの効果を検証する。w/o enntitiesとw/o dEAは、それぞれ、エンティティ列入力のないERNIEと事前学習タスクdEAのファインチューニングを指す。表7に示すように、以下のことがわかった。(1) エンティティ列入力がない場合、dEAは事前学習で言語表現に知識情報を注入し、BERTのF1スコアを0.9%増加させる。 (2) 形成されたエンティティは、直感的に関係分類に役立つ多くの知識情報をもたらすが、dEAを用いないERNIEはこれをほとんど利用しないため、F1が0.7％増加した。

5 結論

本論文では、言語表現モデルに知識情報を取り入れるためのERNIEを提案する。本論文では、言語表現モデルに知識情報を組み込むためのERNIEを提案し、テキストと言語表現モデルの両方から得られる異質な情報をよりよく融合させるために、知識エッジ可能なアグリゲータと事前学習タスクdEAを提案する。実験結果は、ERNIEがBERTよりもdistant supervisionデータのノイズ除去や、限られたデータに対するファインチューニングに優れていることを示す。今後の研究には3つの重要な方向性が残されている：(1) ELMo（Peters et al., 2018）のような特徴ベースの事前学習モデルに知識を注入する。(2) 世界知識データベースWikidataとは異なるConceptNet (Speer and Havasi, 2012)などの言語表現モデルに多様な構造知識を導入する。(3) より大きな事前学習データの構築に向け、現実世界のコーポレーションを発見的に注釈付けする。このような方向性は、より一般的で効果的な言語理解につながる可能性がある。