izmyonの日記

奈良の山奥で研究にいそしむ大学院生の学習記録。

今日の論文2023/4/15:What's New? Identifying the Unfolding of New Events in Narratives

What's New? Identifying the Unfolding of New Events in Narratives

arxiv.org

Mousavi SM, Tanaka S, Roccabruna G, Yoshino K, Nakamura S, Riccardi G. What's New? Identifying the Unfolding of New Events in Narratives. arXiv preprint arXiv:2302.07748. 2023 Feb 15.

©The Authors, Originally posted in arXiv(https://arxiv.org/abs/2302.07748).

License: Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)

本記事は、原著の内容に基づき筆者がまとめたものです。以下の図は、そこから引用しています。この記事は、原著と同じライセンスで公開されています。

This article is my summary based on the content of the original publication. The following figures are taken from it. This article is published under the same license as the original content.

要点まとめ

  • ナラティブ(物語、自分語り)は時間と文脈の中で展開される豊富なイベントのソースを含んでいる。これらのイベントを自動的に理解することで、物語の要約された理解を、更なる計算や推論に利用できると考えられる。

  • 本研究では、イベントの情報状態(IS: Information Status)を研究し、ナラティブ中の新イベントの自動識別という新しいタスクを提案する。イベントとは主語、述語、目的語の三つ組みのことであり、イベントはナラティブの文脈と、常識的な推論によって推論できるかどうかという点で、新しいものとして分類される。

  • 一般公開されているナラティブのコーパスに人間のアノテータ―を使って文レベルで新事象をアノテーションした。アノテーションの手順、アノテーションの品質とタスクの難易度を検証する。

  • アノテーションデータセットアノテーション資料、およびナラティブ理解のための新事実抽出タスクのためのベースラインを公開する。

github.com

余談:この記事の筆者(izmyon)もアノテータ―の一人

背景

  • ナラティブの理解は難しいテーマであり数多くの領域で研究されている。ナラティブの理解を自動化できれば、ユーザーの回想の要約された理解を得ることができるかもしれない。この分野ではナラティブ全体とその登場人物についての要約された理解を得るためにイベントの順序を抽出することに焦点を当てており、主語と目的語間の述語的な依存関係で表現されることが多く、a)述語が主語と目的語の依存関係の行動/発生関係を表し、b)異なるイベント間で再出現するキャラクターが物語の主人公であるという2つの仮定による。

  • ここでイベントは、動詞とその従属関係に基づく定義に従い、主語、述語、目的語の三つ組みとして定義する。あるイベントがナラティブにおいて新しいものであるかどうかを、情報状態(IS)により評価する。ISとは、その情報はナラティブの中で事前に提示されておらず、常識によって推論することができないものである、ということを指す。

  • イベントを通して物語を簡潔かつ顕著に理解するためには、物語の新しい出来事や参加者に関連し、新規に貢献するイベントを特定し選択する必要がある。新しいイベントを認識する過程には事象参照解決タスクが含まれる。このタスクは、同じイベントを参照しているすべてのイベントを検出することかからなり、以前のイベントを参照しているイベントは、新しいとはみなされない。また、そのイベントが初めて語りに登場する場合も、常識的な知識の一部である可能性があるため、必ずしも新しいとは言えない。

  • このタスクは、ナラティブの中で展開される新しいイベントを特定するものである。a) ナラティブ中の顕著な情報を抽出し、他のイベントとの関係に注目して位置づける。b) ナラティブの一連の文節単位から新しいイベントを獲得する必要性、から着想を得ており、このタスクは自然言語理解ベンチマークに含めるべき、新規かつ非常に困難なタスクであると考えている。

  • 我々はナラティブからイベント候補を抽出する教師なしモデルを開発し、SENDを解析して各文章のすべてのマーク可能なイベントを抽出することができた。次のステップとして、ナラティブ中の新イベントを選択するアノテーションタスクを実施し、新イベントの候補選択およびシーケンスタグ付けの両方の設定でベースラインを開発した。

アノテーション

  • 5人のアノテータ―が新事実を文レベルで特定するアノテーションタスクを実施した。コーパスは感情的なナラティブであるSEND(Stanford Emotional Narrative Dataset)である。このデータセットは49人の被験者による193のナラティブから構成され、各ナレーターに人生におけるもっともポジティブな経験とネガティブな経験をそれぞれ三つ語るように求めることで収集された。アノテーションの負担を軽減するため、Mousavi et al. (2021)が提案したイベント候補抽出パイプラインを開発し、これを用いて各センテンスのすべてのイベントの候補を自動的に解析・抽出した。アノテータ―は候補のリストから新しいイベントを選択する、またはベースラインが抽出できなかったイベントを追加した。ランダムに抽出した21個のナラティブはそのまま保存し、残りの172個についてパイプラインを用いて三つ組みを文レベルで抽出した。

  • 五人のアノテータ―は、以下のアノテーションUIプラットフォームを用い、一度に一文ずつ物語を提示され、その文に対するイベント候補のリストを提示される。

  • アノテータ―はその候補が文中の情報を正しく反映しているか、常識では推論できないような新しい情報を提供しているかを判断し、両者を満たす場合新イベントとして選択する。候補として提示されなかった新イベントがある場合は、その新情報を伝える連続したスパンテキストを追加する。以下は抽出されたイベントの例である。

  • タスクの実施に際しては、アノテータ―とミーティングを行い、タスクとガイドラインを説明した。その後一つのナラティブにアノテーションを付ける一回目のタスクを実行するよう依頼された。一回目は著者らが結果を手作業でチェックし、アノテータに改善点を話した後、二回目のタスクとして別のナラティブをアノテーションするように要請した。一回目から二回目でアノテータ―の合意が向上した。

  • アノテーションの結果からアノテートされたイベントの大半は連続スパンテキストとして追加され、候補抽出モデルでは検出できなかったことが分かった。さらに、イベント候補はナラティブの全体にほぼ一様分布しているが、連続スパンテキストはほぼすべてナラティブの前半に配置されていることが分かる。これは、文脈上以前から言及されているイベントは「古い」イベントであるため新イベントの定義と一致する。また、ナレーターは文の後半で新イベントに言及する傾向があることが示された。

新イベント検出ベースライン

 新イベント検出という新しいタスクのベースラインとして、ニューラルと非ニューラルのベースラインを開発した。候補の選択とシーケンスタグ付けの二つの設定を用いてタスクを定式化した。

新イベント候補の選定ベースライン

 イベント抽出モデルによって抽出されたトリプレット候補から、新しいイベントを選択することを目的とするモデル群である。

  • ルールベース

 - ランダムセレクタ:文とそのイベントに対し、ランダムに一つの候補を文の新しいイベントとして選択する。

 - バイナリセレクタ:文と候補のそれぞれに対し、それが新しいイベントかどうかをランダムに決定する。

 - 第一候補セレクタ:文のイベント候補のうち、最初に抽出されたものを新しいイベントとして選択する。

 - 最終候補セレクタ:最後のイベント候補を新しいイベント候補として選択する。

 - 新主語セレクタ:候補の中で、未見の主語を含む最初の候補を新事実として選択する。

 - 新事実セレクタ:新エンティティを含むイベント候補をすべて選択する。つまり、新しい主語または目的語を含む候補をすべて選択する。

  • ニューラルネットワークモデル  ニューラルモデルでは、事前学習済み言語モデルを用い、入力ベクトルを新イベントの候補、現在の文、文脈新イベントの3要素でモデル化する。文脈新イベントとは、これまでの文脈における真の新イベントである。モデルはこの入力を受け取り、イベント候補が新イベントであるかどうかの分類判定を出力する。ここでは、BERTおよびRoBERTaをこのタスクのためにファインチューニングした。

  • ベースラインモデルの結果を下図に示す。ルールベースの中では最終候補セレクタが最高性能となっておりこれはアノテーション結果と一致した。さらに、全てのルールベースモデルのF1スコアは40.0%未満であった。両ニューラルモデルがルールベースを上回り、RoBERTaはこのタスクにおいて高いリコールを維持しながら最高レベルの精度を持ち、全てのベースラインを上回った。

新イベントシーケンスタギングベースライン

 ナラティブ中の新イベント検出のために開発されたもので、文中の新イベントを表すトークン列にタグ付けを行うモデルである。ここでもルールベースとニューラルベースの両方のベースラインを開発した。

  • ルールベース

 - ランダムタガー:文中のトークンを新イベントトークンとしてランダムにタグ付けする。

 - アーリータガー:文の最初の30%を新しいイベントトークンとしてタグ付けする。

 - レータータガー:文の最後の30%を新しいイベントとしてタグ付けする。

  • ニューラルネットワークモデル  ここでもBBERTとRoBERTaを使ってベースラインを開発した。入力として現在の文と文脈新イベントを入力として受け取り、文中のトークンに対応する Eまたは Oからなるタグシーケンスを出力し、それが新しいイベントを記述するか否かを示す。最初に、アノテーションされた連続スパンイベントを用いて、シーケンスタギングベースラインを訓練した。

  • 結果を下表に示す。ルールベースのモデル間ではPrecisionとF1スコアに大きな差はなく、ニューラルモデルがベースラインの中で最も高い性能を有している。しかしPrecisonは想定よりかなり低い。Positive Agreement Fleissを用いた計算結果などからモデル部分的なイベントを緩やかに予測できるがイベント全体を正しく予測できるのは稀であり、モデルにとってタスクが非常に複雑であることが示唆された。

  • 次に、選択されたイベントの候補と連続スパンのアノテーションの両方を訓練セットとテストセットとして用いて、同じベースラインモデルを評価した。結果は下表のようになり、全てのモデルの性能が向上しており、同じような性能の傾向が観察される。