Evaluation of Response Generation Models: Shouldn’t It Be Shareable and Replicable?

aclanthology.org

Seyed Mahed Mousavi, Gabriel Roccabruna, Michela Lorandi, Simone Caldarella, and Giuseppe Riccardi. 2022. Evaluation of Response Generation Models: Shouldn’t It Be Shareable and Replicable?. In Proceedings of the 2nd Workshop on Natural Language Generation, Evaluation, and Metrics (GEM), pages 136–147, Abu Dhabi, United Arab Emirates (Hybrid). Association for Computational Linguistics.

License: Creative Commons Attribution 4.0 International License(CC-BY)

本記事は、原著の内容に基づき筆者がまとめたものです。以下の図は、そこから引用しています。

This article is my summary based on the content of the original publication. The following figures are taken from it.

要点まとめ

人間と機械との対話の評価においては、人手評価（HE: Human Evaluation）が主流であり、自動評価指標は代用性が低い。しかし合意されたHEプロトコルはないため、再現性、透明性、一貫性のない評価手続きを行うか、自動評価指標を用いるしかないのが現状である。
本研究では、詳細なプロトコルを公開することで、応答生成モデルの人手評価を標準化することを提案する。これにはタスク設計、アノテータの募集、タスク実行、アノテーション報告などが含まれる。さらに、研究コミュニティによってそのまま、全体的、部分的、あるいは修正・拡張して使用することができる。
我々は、パーソナライズされた応答生成という複雑なタスクのために、対話によってファインチューンされた二つのモデル（GPT-2とT5）を評価することによって、プロトコルを検証する。我々はこのコミュニティに、この透過的で再現性があり、比較可能なHEのアプローチを用いて評価することを勧める。
ソースコード

github.com

背景

NLGモデルの評価に関する試みは、エンドツーエンドモデルの出現以前にさかのぼるが、アノテータ―の訓練や評価には時間がかかりさらに高価であるため、機械翻訳や自動要約タスクなどでは、BLEU、METEOR、ROUGEなどの自動評価指標が開発された。これらの指標は、応答生成などの他のタスクでも使用されてきたが、現在利用可能な自動評価指標は人間の判断との相関性が低く、生成は一貫性、流暢性、文法構造などの些細な要因だけでなく、適切性、エンゲージメント、需要性などの要因にも左右されるために不適切である (Liu et al., 2016;Sai et al., 2022)。
生成された応答を評価するためには、依然として人手評価（HE）が必要なアプローチであり (Smithet al., 2022)、クラウドソーシングなどの出現により、より安価で実現できるようになった。しかし、HEタスクの設計の評価にはほとんど注意が払われていない。合意された標準的なプロトコルがないためにHEタスクは、非透過的な手順、再現性のない、比較できない結果、不明確なリソース割り当てに悩まされながら実行されてきた。
本研究では応答生成モデルのHEのための実験手法を標準化し、詳細なプロトコルを提示し、各研究やドメイン間の比較可能性、再現可能性を高めることを目的とする。必要な手順と材料はすべて説明され共有され、プロトコルはドメインにとらわれず、言語に依存せず、異なるバージョンや規格に拡張することが可能である。さらにこのプロトコルを改良し、バージョンアップ可能な規格に拡張することを求める。

Proposed Human Evaluation Protocol

　人手評価（HE）のタスクを４つの主要なステップ、1) タスク設計、2) アノテータ―リクルート、3) タスク実行、4) 報告の四つの実行ステップに分割する。

1. タスク設計

　タスク設計は、評価とアノテーションの特性という二つの側面に特徴づけられる。

1-1. 評価特性

　タスクの評価特性は、評価の粒度（Granularity）、評価する品質次元（Quality Dimensions）とその定義、アノテータ―に対する質問（Question）、アノテーションの形式（特に決定と質問：DescisionsとExplanations）がある。

粒度（Granularity）：対話評価の粒度には、対話レベルでの評価とターンレベルでの評価の二種類がある。ターンレベルでの評価はよりきめ細かい評価であることが示されており(Smith et al., 2022)、その中でも絶対評価と比較評価に分類される。このプロトコルでは、ターンレベルでモデルを評価する。また、アノテータ―に意図しないpick the bestのバイアスを与えないために、各対話履歴につき一つの候補を提示する。また、グランドトゥースの発話もアノテータへの応答候補として提示され、参照点となる。
品質次元（Quality Dimensions）：このプロトコルでは、一般的なエンドツーエンドの応答生成モデルのエラーと品質に基づいて、以下の４つの基準を含んでいる。ただし、これらの基準は拡張することができる。今回提案するのは以下の四つ。
適切性（Appropriate）：対話が対話履歴に関して意味があるか、適切な継続となっているかどうか、つまり首尾一貫している（Coherent）かどうかを調査する。
文脈性（Contextual）：応答候補が文脈を参照しているかどうか、および応答が存在しない情報または矛盾する情報を参照（hallucination）していないかを調査する。
傾聴性（Listening）：応答を生成する話し手が、話相手を注意深く聞き、理解しているかどうか。
正確性（Correct）：応答候補の文法、構文、構造が正しいか。
質問（Questions）：アノテータ―が応答の質について問われる質問の定式化を行う。今回のプロトコルで各次元の回答を評価するための、バイアスを避け、明確かつ中立になるように設計された質問を提示する。これは、対応する基準と質問を追加することによって拡張できる。

決定（Descisions）: 　各基準について、肯定的、否定的、「わからない」の３点リカート尺度から回答を選択するよう求められる。「わからない」の目的は、アノテータ―は決定論的な判断を下すことができない場合があるため、非決定論でエラーを起こしやすい判断を強いないようにするためである。
説明（Explanations）: 　アノテーターに、応答の誤りや正しさを指摘させ、彼らの判断を説明するように求める。説明は三つの基準に対して行われ、回答候補を評価した直後に事前定義されたオプションを選択するか、自由記述による説明のどちらかまたは両方を求められる。

1-2. アノテーション特性

　アノテーションタスクは、人間とタスクシステムの相互作用であり、タスクの開始時から、アノテータ―は提示される特性や情報に応じて、タスクのメンタルモデルを作成する傾向がある(Moray, 1998)。ここで生じる問題の原因の一つはユーザーとデザイナーのメンタルモデル間のギャップである(Norman, 1988; Xie et al.、2017)。さらに、タスクにおける高レベルの認知的作業負荷は、知識を取得・活用する能力を低下させるため、作業負荷の低減はエラーの頻度を減らすのに役立つという研究結果もある(Leveson, 2016; Zenati et al.)。したがって、アノテーションタスクは、タスク全体を通じて、適切なガイドラインと例、UIの提供により、作業負荷を低減させる必要がある。

ガイドラインと例（Guidelines & Examples）　アノテータ―にタスクを導入し、そのプロセスについて支持することを目的としたガイドラインはあいまいさを最小限に抑え、設計に沿ったメンタルモデルを形成できるように明確でシンプルである必要がある。さらに、アノテーションの際に起こりうる困難や曖昧さを回避し、ワーカーが作業になれるために例題を選択する必要がある。
ユーザーインタフェース（User Interface）　我々は、以下のような、拡張可能で使いやすく直感的なUIを実装した。

内部パイロット（Internal Pilot）　内部パイロットは、タスクの難易度/主観性、タスクの実行に夜する時間、期待されるタスクの品質の閾値について、信頼性の高いフィードバックを提供する。メインタスクの前にタスクの曖昧さや問題点の可能性を検出し、解決するのに役立つ。

2. アノテータ―のリクルート

　必要な数のアノテータ―を募集する必要がある。ほとんどの場合、アノテーションはクラウドソーシングによって行われる。その場合、クラウドワーカーを採用する過程では、サンプリングポリシー、資格、報酬等、結果の質に影響を与えうるいくつかの側面がある。

サンプリング　信頼性の高い結果を得るには、正しいターゲットグループから募集する必要があり、ほとんどが場所、言語流暢性、教育レベルなどの前提条件によって条件づけられる。
資格　アノテータ―がクラウドソーシングからサンプリングされた場合、上記の条件が不適切に満たされる場合があるため、資格設定も必要である。資格認定タスクは、タスクデザイナーが低品質のアノテータ―をフィルタリングし、クラウドワーカーがメインタスクとUIに慣れるのを助ける。
報酬　適切な報酬は、クラウドワーカーのパフォーマンス、および作業するのにかかる時間に影響する重要な外在的要因である(Mason and Suri, 2012; Whiting et al.)。タスクを完了するのに必要な時間と複雑さを適切かつ公正に見積もり、公正な賃金を設定することが極めて重要である。

3. タスク実行

　実行時におけるアノテータ―間の一致度は、タスク全体を通して結果の品質が維持されているかどうかを示すことができ、一致度のきゅげきな低下や上昇は、バッチ間の難易度不均衡、あるいは低品質なアノテータ―によるものである可能性がある。前者は層別サンプリングによって対処し、後者に対してはアノテータ―にリアルタイムフィードバックする。

4. アノテーション報告

　このプロトコルでは、プロトコルと起こりうる結果の明確さと透明性を確保するために、最終的な結果とともに報告すべき側面と要素のチェックリストを提供する。

評価の粒度
品質次元
アノテーション形式

　クラウドワーカーに関する基準は、以下。

サンプリング基準、資格タスクの説明、拒否基準。
採用されたワーカーの数。

　さらに、結果の信頼性を高めるために報告されるべき統計量をいかに示す。

参加したアノテータ―の数。
アノテートされたサンプル数
各サンプルに対する投票
アノテータ―間の合意レベルと指標
アノテーター1人あたりの作業量
アノテータ―の属性
リソース利用（タスク実行時間、アノテーターへの支払い、クラウドソーシングプラットフォーム）。

プロトコルの検証

　個人化と接地された知識の利用というタスクに対して、２つの応答生成モデルを評価した。大規模なイタリア語コーパスでファインチューンされたiT5と、GePpeTtoというイタリア語版のGPT-2 smallをもとにしたモデルである。この二つのモデルのファインチューニングは、Mousavi et al. (2021)が収集したFollow-Upダイアログのデータセットを用いて行われた。これらは、Zhao et al. (2021)らが用いたのと同じアプローチで、各対話に対応するナラティブの上に生成を根拠づける場合と根拠づけない場合のモデルをファインチューンした。

HEプロトコルの実装

　二つのモデルの性能を評価するため、ファインチューンテストセットから約50%の42種類の対話履歴をサンプリングし、各対話に対する全モデルの応答をサンプリングした（履歴の長さは2~4ターンと異なる。）３人の内部専門家と３人の非内部専門家のアノテーターにより、５つの対話を用いて、二回の内部パイロットを実施した結果、UIとガイドラインの改良はほとんど行われなかった。タスクの作業量や時間設定を行った後、イタリア居住でイタリア語を第一言語とすることや、資格取得基準、報酬などを設定した。

アノテーション統計量

　40名のワーカーが参加し、35名が認定され、42サンプルが7人のアノテータ―によってアノテートされた。Cohen’s kappaにより各アノテータ―の一致度を計算し、Flissのkappaメトリクスを用いて同一バッチ内の一致度を算出した。また、強い判断に対する一致度なども算出したが、下表のようにどれも評価中一貫していた。

評価結果

各モデルの多数決に基づくHEの結果を下表に示す。接地はiT5-Baseの性能を向上させるが、GePpeTtoの性能をあらゆる面で悪化させる。iT5-Baseの出力には文法的・構造的な誤りが生じ、それでも最も高い評価を得たが、グラウンドトゥルースとは大きなギャップがあった。

接地はモデルに関係なくレスポンスが「文脈不明」とラベル付けされるケースを減らす一方で、ほぼ同じ割合でhallucinationのケースを増やすことが分かった。また、インコヒーレントが理由で「適切でない」とラベル付けられるケースの割合は、接地に関係なく全てのモデルが苦しんでいた。さらに、GePpeTtoは接地により応答の繰り返しのケースをかなり減少させていた。