Human Evaluation of Conversations is an Open Problem: comparing the sensitivity of various methods for evaluating dialogue agents

aclanthology.org

Eric Smith, Orion Hsu, Rebecca Qian, Stephen Roller, Y-Lan Boureau, and Jason Weston. 2022. Human Evaluation of Conversations is an Open Problem: comparing the sensitivity of various methods for evaluating dialogue agents. In Proceedings of the 4th Workshop on NLP for Conversational AI, pages 77–97, Dublin, Ireland. Association for Computational Linguistics.

License: Creative Commons Attribution 4.0 International License(CC-BY)

本記事は、原著の内容に基づき筆者が要約または翻訳したものです。以下の図は、そこから引用しています。

This article is my summary or translation based on the content of the original publication. The following figures are taken from it.

要点まとめ

会話型AIの改良の中心は、会話をどのように評価するかという未解決の問題である。自動評価基準の問題はよく知られており（Liu et al., 2016）、人間による評価が依然としてゴールドスタンダードと考えられている。
残念ながら、人間による評価をどのように行うかも未解決の問題である。データ収集方法が異なれば、人間の同意や統計的感度のレベルも異なり、その結果、人間のアノテーションにかかる時間や人件費も異なる。
この研究では、5種類のクラウドワーカーベースの人間評価方法を比較し、比較するモデルの種類によって最適な方法が異なり、全体として明確な勝者はいないことを発見した。この分野の未解決の問題を明らかにする一方で、我々の分析は、いつどの方法を使うべきか、将来の可能な方向性へのアドバイスにつながっている。

序論

　オープンドメインの会話モデルの性能に関する包括的な分析には、人手による評価が含まれる必要がある。自動指標はモデル性能のある側面を捉えるが、モデルが現実的で興味深い会話にどの程度長けているかを人間の評価者が判断することに代わるものではない（Deriu et al., 2021; Liu et al., 2016; Dinan et al., 2019b）。残念なことに、人手評価というものは、良い会話士に求められるすべての側面を捉えるために、慎重に構築されなければならないのである。どのような評価手法であっても、繰り返したり矛盾したりするような新たな欠点を発見するためには、何度も会話を繰り返して評価する必要があり、一方、会話の最後に1回だけ評価する手法では、会話期間中のモデル性能の変化を考慮できない可能性がある。さらに、モデルの性能をリッカート尺度で評価する技術では、異なるモデルの評価間で主観的な数値評価の矛盾が生じる可能性がある（Liet al, 2019）。また、様々な人手評価手法を比較検討した結果、それぞれに成功例と失敗例があり、人手評価はまだまだ未解決の問題であるとの結論に至った。

　本研究では、代表的な人間による評価技術を分析する。まず、モデルの応答ごとに評価を行うターンごとの評価と、会話の最後だけ評価を行うダイアログごとの評価を比較する。ターンごとの評価では、より細かい設定が可能で、注釈者が小さな違いに注目しやすいという利点がある。しかし、会話の質はその部分の総和以上のものであり、グローバルなダイアログごとの評価はこれをよりよくとらえることができる。次に、2つのモデルをアノテーターが直接比較するペアワイズ方式と、アノテーターが一度に1つのモデルだけを見て評価するシングルモデル方式を検討する。どちらのアプローチも、ターンごと、ダイアログごとのいずれかを選択することができる。例えば、ペアワイズのターンごとの評価では、クラウドワーカーが対話エージェントとチャットし、それぞれのワーカーのメッセージの後に、エージェントからの応答として、2つの異なるモデルからそれぞれ1つずつ、二つの可能な応答を選択しなければならない。ペアワイズアプローチは、回答を比較することでわかる微妙な違いを見つけることができ、絶対評価で発生する分布のずれの問題を軽減することができる。しかし、単一モデルのアプローチは、直接比較することが重要でない場合に有効である。

　このように、対話モデルを評価するためのさまざまな手法を、3つの異なる設定で比較し、それぞれの長所を対比している。

ペアワイズのターンごとの評価は、会話中のモデル性能の変化を測定するのに適している。この手法は、例えば、異なるデータセットで学習させた2つのモデルを比較する場合など、2つのモデルのペアが、前の対話の文脈の中でどの程度適切な応答をしているかが明らかに異なる場合にうまく機能する傾向がある。
モデル間の差異が非常に微妙な場合など、数回の会話で初めて明らかになる場合や、応答の平均長さなど、会話全体でグローバルに現れる応答のパターンに注目する場合、ペアワイズによる対話ごとの評価が最適となる傾向がある。
単一モデルの評価は、会話ごとに行われる場合と会話の最後に行われる場合の両方で、先に述べた2つの設定ではあまりうまくいかない傾向があるが、例えば、パラメータの数が異なる2つのモデルなど、品質がわずかに異なるだけでそれ以外は似ているモデルを比較する場合には、うまくいく。

これらの結果は、人間による評価の難しさを浮き彫りにすると同時に、これらの異なる状況下でどのような手法を用いるのが最適か、また、今後の課題についても指針を与えてくれる。特に、ペアワイズとシングルモデル、ターンごととダイアログごとの利点を一つの手法に統合する最善の方法を調査することは、実りある方向性となりうる。また、人間が書いた説明文を収集する際に、これらのアプローチの解釈可能性を分析する。これらの評価手法のコードをParlAIフレームワークで公開している。

先行研究

この研究は、質問応答や目的指向の会話など、より制限された領域とは異なり、正確な目標を持たないオープンドメインの対話の評価に関するものであり、そのための広く受け入れられた評価手法は現在のところ存在しない（Deriu et al., 2021; Huang et al., 2020; Roller et al.2020）。自動評価指標は比較的速く、効率的で、再現性が高いが、その多くは「人間の判断との相関が非常に弱い」ことが示されており（Liu et al., 2016, Dinan et al.（2019b）も参照）、信頼できる自動評価指標を作る最善の方法はまだ議論されている（De-riu et al., 2021）。この研究では、人間による評価、特にクラウドワーカーの活用に焦点を当てている。これは、訓練された専門家（Deriu et al., 2021）や配置（Gabriel et al., 2020; Shuster et al., 2020）を利用するよりも、評価者のプールを増やすことができ、研究目標との整合性を確保することができるという利点がそれぞれある。しかし、クラウドワーカーの利用自体にも避けるべき落とし穴がある（Huynh et al, 2021）。

　クラウドワーカーへの特定の指示文言の選択は、会話の質と結果の評価に大きな影響を与える（Huynh et al., 2021）。例えば、一般的な「お互いを知る」雑談（Zhang et al., 2018）、ボットに安全でない発言を生成させる（Xu et al., 2020）、クラウドワーカーに敵対するかしないかを指示する（Dinanet al., 2019a）、などの特定の面を評価するようにワーカーに指示することができる。また、クラウドワーカーに会話の内容を尋ねる際に、関心度、意味、流暢さ（See et al, 2019）、感性、特異性（Adiwardana et al, 2020）、毒性、バイアス（Xu et al, 2020）など様々な特定の質問を選ぶことができ、これらの質問の正確な言い回しは感度に大きな影響を与えることがある（Li et al, 2019）。標準的な評価プロトコルでは、1人の人間が同じタスクでモデルと会話し、その会話を評価するが、他の方法では、評価者が人間とモデルの間の既存の会話、または2つのモデルの間の会話を評価する（Li et al., 2019； Deriuet al., 2020）。これらの後者の手法は、既存の会話データを効率的に再利用することができ、実験的に有用であることが示されている（Li et al., 2019; Roller et al., 2021）が、評価者が自分が関与していない会話を評価することは難しいかもしれない。

評価プロトコール設計時のもう一つの選択は、会話を個別に、例えばリッカートスコア評価で評価するか（Ashwin et al., 2017;Venkatesh et al., 2018、詳細は付録Aを参照）、モデルを比較してペアワイズで評価するか（Li et al., 2019；Liang et al., 2020, など）である。リカートスコアリングは、注釈者ごとのバイアス（Kulikov et al., 2019）や時間経過による誤差の分布のドリフト（See et al., 2019）などの弱点を抱えているが、新しいモデルの評価を古いモデルの評価と比較できるため、古いモデルの評価を再度収集する必要がなく、ペアワイズ比較よりも効率が良い。

最後に、評価技術は、会話のターンごとに評価を集めるのか（Adiwardana et al, 2020; Komeili et al, 2021）、またはAcute-Eval（Li et al, 2019）のように会話の最後だけ評価を集めるのかで異なる。会話全体の技術というのは、会話の質がその部分の和以上のものであると想定される場合には有効であるが、評価セッションの開始時と終了時に提示された情報にそれぞれ重みがある場合に現れる、プライマシー効果やリテンシー効果のために苦しむ可能性がある（Asch, 1946; Anderson, 1965; Murdock Jr, 1962; Postman and Phillips, 1965)。

関連研究のより詳細な評価については、付録Aを参照。

方法

評価技術

既存の研究で議論されているさまざまな方法の横断的な範囲にまたがる、いくつかの人間評価技術を調査する。

シングルモデル vs. ペアワイズ、そしてターンごと vs. ダイアログごとの評価方法のバリエーションを比較するとともに、セルフチャットの方法を従来の人間-ロボット会話評価と比較した。図1に各手法の概要を示す。これらの評価を行う際に使用した品質チェックの詳細については、付録B.3に示す。

会話設定

人間とロボットの評価は、一連の会話で構成されている。会話は、Amazon Mechanical Turkからクラウドソーシングされた人間（「Human Speaker」）と、変換モデル（「Bot Speaker」）で構成されている。会話は、スピーカーが自然に話し、会話開始時に渡される2つのペルソナ文を使って、ある人物になりきってロールプレイングを行う。図2（左）に例を示す。

　会話におけるHuman Speakerの最初のメッセージは、Adiwardana et al.（2020）の慣例に従い、"Hi!"に固定される。 Rollerら（2021）のBlenderBotの評価に使われた会話の長さとほぼ同じになるように、Human SpeakerとBot Speakerがそれぞれ6ターン話した後に会話が終了する。ここでは、「好み」「人間らしさ」「面白さ」という3つの評価指標を検証している。

ペアワイズのターンごとの評価

PW-Turn（Pairwise Per-Turn evaluation）技術では、メッセージの送信ごとにクラウドワーカーにペアのモデル回答から選択させることで、会話のターンごとにアノテーションをする。したがって、この設定では、Human SpeakersはBot Speakerに話しかけ、後者は実際に比較される2つのモデルを表している。人間のスピーカーは、会話の中で自然に話すことができる。ボットスピーカーが発言する順番が回ってくるたびに、クラウドワーカーにはまず、可能な限り2つの選択肢が提示される。それぞれの応答は、Clark and Smith (2021)と同様に、比較される2つのモデルのどちらか一方から得られる。これらのモデル回答の順序をランダム化する。作業者は、与えられた評価指標に対して、より良い回答を選択しなければならない。3つのメトリクスに使用する語句は、Li et al.（2019）から引用している。

好み（Preference）「長い会話の中で、相手の次の反応はどれがいい？」
人間らしさ（Humanness）「次の相手の反応は、どちらが人間らしく聞こえますか？」
面白さ（Interestingness）「これらの回答のうち、1つは興味深く、1つはつまらないものだとしたら、どちらがより興味深いと思いますか？」

作業者は、選択した回答について、自由記述で正当な理由を述べなければならない。そして、その応答がボット・スピーカーの実際の応答となり、そこから会話が続いていく。図2は、UIの画面例である。この評価手法のためにワーカーをオンボーディングする際に行われた品質チェックの説明は、付録B.2に記載されている。実験では、単純にターン数を平均した勝率と、ダイアログ全体のターン数結果の非線形な組み合わせ（勝者総取り投票など）を考慮し、その影響を測定している。

ペアワイズのダイアログごとの評価

今回紹介するPW-Dialog（Pairwise Per-Dialogue Evaluation）は、評価者に2つのモデルの対立軸を提示し、どちらかを選んでもらう手法である。私たちが採用した手法はAcute-Eval法（Li et al, 2019）と同じだが、他の手法の名称との整合性のために、ここではPW-Dialog評価と呼ぶことにした。モデルペアと評価指標ごとに、（1）クラウドワーカーとモデルエージェントの会話、（2）同じモデルの会話エージェント同士の自己チャット（自己チャットバリアント）の評価を収集している。私たちが使用する質問（Li et al(2019)より）は、PW-Turnとほぼ同じであるが、ターンごとの場合ではなく、ダイアログごとの場合の言い回しになっている。

好み（Preference）「長話をしたい相手は？」
人間らしさ（Humanness）「どちらのスピーカーがより人間らしく聞こえるか？」
面白さ（Interestingness）「このスピーカーのうち、一人は面白く、一人はつまらないと言われたら、どちらの方が面白いと思いますか？」

図3にUIのスクリーンショット例を示す。

シングルモデル評価

単一モデルの評価実験では、ターンごととダイアログごとを同じUIに統合した（スクリーンショットは図4参照）。クラウドワーカーは、1つのモデルによる会話エージェントとチャットし、そのモデルの各レスポンスについて、それが魅力的か、人間的か、興味深いかを、スクリーンショットに記載された文言で注釈する必要がある。1人のスピーカーにつき6メッセージで構成されるコンバーションが終わると、ワーカーは、セクション3.1.2に記載されている3つの評価指標それぞれについて、1～5のリッカート尺度でパートナーを評価しなければならない。このタスクで得られたモデル応答のターンごとの注釈をSingle-Model Per-Turn evaluations (SM-Turn) と呼び、会話終了時のリッカートスコアをSingle-Model Per-Dialogue evaluations (SM-Dialog) と呼ぶ。

経験的に、SM-Turnの成功率やSM-Dialogのリッカートスコアは、評価を収集した特定の日に大きく依存することがわかった。これは、おそらくクラウドワーカーのプールの日ごとの変動に起因している。これを打ち消すために、本研究（セクション3.2）で議論した4つのモデルすべてについて、同時に評価を実施した。

モデル

Rollerら(2021)の4種類の対話モデルについて、SM-Turn、SM-Dialog、PW-Turn、PW-Dialog、PW-Dialogself-chatという5つの人間評価手法の相対性能を分析する。

BlenderBot3B：BlenderBotの一種で、27億のパラメータを持ち、既存のRedditデータセット（第三者によって抽出・取得され、pushshift.ioで利用可能（Baumgartner et al., 2020））で事前学習を行い、その後いくつかの目的別の対話データセットでファインチューンを行った。
BlenderBot3B-M0： BlenderBot3Bは、比較的長く、興味深い応答を保証するために、20トークンの最小生成長を使用している。また、全く同じモデルで、最小世代長を持たないモデル（M0を付けてと表記）とも比較している。
BlenderBot90M： BlenderBot3Bの一種で、9000万個のパラメータを持ち、同じデータセットで学習している。
Reddit3B: BlenderBot3Bだが、サードパーティのRedditダンプで事前学習しただけで、対話データセットでファインチューニングはしていない。

　すべてのモデルについて、M0適応を除けば、Rollerら(2021)と同じ生成設定を使用する。評価技術にとって、どれがベストかを見分けるのは難しい課題として、実験ではこれらの比較的似たモデルを選びましたが、Rollerら(2021)の過去のAcute-Eval(PW-Dialog)による自己チャット測定から、BlenderBot3Bは他の3モデルと同等かそれ以上に性能が高いのではないかと先験的に予想している。　　3つのペアワイズ評価手法では、具体的には、特徴的な違いがある3つのモデルのペア間の比較を行う。

長さの比較： Blender-Bot3BとBlenderBot3B-M0を比較すると、これらのモデルの違いは生成文の長さのみである。
サイズ比較：パラメータ数の異なる2つのモデル、Blender-Bot3BとBlenderBot90Mを比較する。
ファインチューニングの比較：ファインチューニングしたBlenderBot3Bと事前学習のみのReddit3Bを比較（どちらも同じパラメータ数）。

結果

ペアワイズのターンごとの評価からモデルの勝率

ペアワイズ評価技術PW-Turnについて、BlenderBot3Bの他モデルに対する勝率を表1に計算した。Blender-Bot3Bの方が優れていると思われるので、100%に近い値がより好ましいと判断される。 4種類のバリアントの勝率を表示する。ボットスピーカーの6回の会話ターンをすべて含み、ボットスピーカーの最初のターンを評価から除外し、ターンの非線形関数を計算する。会話ごとに2乗または勝率を計算し、そのスコアをすべての会話で平均化する。付録C.2で詳しく説明するように、Bot Speakerの1ターン目を落とすとPW-Turnの勝率が高くなることが一般的に分かっている。クラウドワーカーがどのモデルの回答を選択するかというターンごとの変動が少なくなるため、勝率は通常、勝者総取り方式で会話に集約され、さらに高くなる。

　一般に、Blender-Bot3Bの勝率は、作業者に1つのモデル回答を選択させる際に使用する評価質問の関数としてあまり変化しないことが分かった。これは、作業者が解釈する際のこれらの質問・指標の正確な定義が曖昧なためなのか、ある指標と他の指標でモデルの性能が相関しているのか、あるいは他の理由なのか、先験的には不明である。

シングルモデル評価によるモデルスコア

表2は、全モデルのターンごとの成功率（SM-Turn）と会話終了時のリッカートスコア（SM-Dialog）を示している。セクション4.1やRollerら(2021)のペアワイズ評価と同様に、BlenderBot3BはSM-TurnやSM-Dialogメソッドを用いた他のモデルよりも概して優れている。表5（付録）は、SM-Turn技法による成功率を、（集計ではなく）会話の順番の関数として示したものである。BlenderBot3Bのスコアは、会話ターンによって概ね安定しているが、Bot Speakerの最初の2ターンでわずかに低くなっており、付録C.2のPW-Turnと同様の結果が得られていることを反映している。そこで、BlenderBot3Bの性能を他のモデルに比べて最大化するために、最初の2ターンからSM-Turnスコアを削除することも検討した。 PW-Turnと同様に、ダイアログごとの勝敗スコアを計算することで、BlenderBot3Bと他のモデルとの性能差がさらに大きくなることがわかる。　PW-Turnは3つの評価指標で勝率がほぼ同じであるのに対し（4.1項）、「面白さ」の評価指標での単一モデルの成功率は他の2つの評価指標よりも低く、特にSM-Turnでは顕著であった。SM-TurnとSM-DialogのクラウドワーカータスクのUIに、3つの評価項目を並べて表示することで、ワークワーカーが3つの評価項目を区別してモデルを評価するのに役立つのではないかと考えている（図4）。

　ワーカーの最終的なリッカート尺度による評価に、どのような会話の展開が最も強く寄与しているかについては、付録 C.4 を参照されたい。

すべての評価手法の直接比較

このセクションでは、すべてのペアワイズおよびシングルモデル評価技術を直接比較し、その相対的な強さを見分ける。技術ごとの評価実施回数、クラウドワーカーの活動時間の詳細については、付録C.1を参照されたい。

すべての技法における勝率を計算する

SM-TurnとSM-Dialogの性能をペア技と直接比較するために、異なるモデルの評価のサンプルをブートストラップし、あるモデルのSM-Turn成功率とSM-Dialogのリッカートスコアが他のモデルより高い頻度を計算することによって、2つのシングルモデルの技法の有効勝率を計算する。 4.1節と4.2節のベストパフォーマンス手法の分析に続き、異なるモデルのパフォーマンスを区別するために、これらの手法の能力を最大にするために、PW-TurnではBot Speakerの第2ターンから第6ターン、SM-Turnでは第3ターンから第6ターンをWinner-takes-all（WTA）モードでのみ検討する。

　表3は、全ての評価技術によって生み出される勝率を比較したものである。全体として、3つのモデルの比較では、それぞれ異なる手法が最適であることがわかった。

長さ比較　PW-DialogとPW-Turnのペアワイズ評価手法は、単一モデルの評価手法よりもはるかに優れた性能を発揮する。BlenderBot3Bの応答は、BlenderBot3B-M0の応答よりも平均して多くの単語を含む傾向があり、この技術間の感度の違いは、両モデルの応答を並べて見ることで、特にPW-Dialogのように2つの会話中の会話を比較する場合に、両者の長さの違いがより明確になることによるものではないかと推測している。このように、クラウドワーカーが平均的に長い回答を好む傾向がある場合、モデルの回答を並べて比較することで、BlenderBot3B-M0よりもBlenderBot3Bの回答を選ぶことができるようになるかもしれない。

サイズ比較ここでの技術間の差は、長さの比較よりも小さく、完全対話技術のPW-DialogとSM-Dialogは、パーターンの技術よりもわずかに優れている。 Rollerら（2021）が示したように、BlenderBot3BとBlenderBot90Mは、自己チャット会話におけるAcute-Evals（すなわちPW-Dialog）において、統計的に有意な差のあるパフォーマンスを示さない。したがって、これらのモデル間の性能のわずかな差は、会話全体のレベルではより明白であることが理解できるかもしれない。

ファインチューニング比較この比較では、PW-Turnがすべての手法の中で最も良い結果を出している。 Reddit3Bのモデルは会話データセットで微調整されていないため、パートナーに対する反応はBlenderBot3Bの反応よりも文脈的に意味をなさないことが一般的である。PW-Turn評価において、Bot Speakerと会話している最中のワーカーには、このような無意味な回答が非常にわかりやすいのだろうと推測している。しかし、PW-Dialog評価で会話全体を読む作業者はモデルと直接対話したことがないため、また、SM-TurnやSM-Dialog評価では、Reddit3Bと対話でファインチューンされたモデルの応答を直接比較できないため、これらの応答はあまりわからないかもしれない。

実験における説明可能性：クラウドワーカーによる理由の分析クラウドワークスの評価作業では、クラウドワーカーが判断した理由も聞いている。これらの理由は、結果に解釈の幅を持たせることができる。完全な分析は付録C.5に記載されている。例えば、長さの比較では、「情報」や「詳細」といったキーワードがよく出てくる。ファインチューニングの比較では、「flow」「personal」「contradicts」といったキーワードが多く、Persona-Chatのようなファインチューニング会話データセットが、よりパーソナルで矛盾が少なく、流れるように会話することを意味している。

実験の再現性付録C.6では、各評価技術におけるモデル勝率の経年変化について分析を行っている。全体として、PW-Turn、PW-Dialog、SM-Turnの3つはチャンク体験の中で最も変化が少なく、SM-Dialogはより変化が大きいことがわかった。このため、SM-Dialogの使用は説得力に欠ける。

全体を通した発見

これら3つのモデルの比較結果から、パートナーに発見されやすい方法で賢明な返答をする能力に差があるモデルのペア（BlenderBot3BとReddit3Bなど）にはターンごとの評価手法が適しているかもしれないが、モデル間の差がより敏感な場合には会話全体の手法が望ましいかもしれないことが示唆された。しかし、このような広範な仮説を十分に裏付けるには、もっと多くのペアのモデルで評価する必要がある。また、モデルの生成文が平均的な長さで異なる場合を除き、シングルモデル手法はペアワイズ手法と比較して競合することがわかった。この場合、両者の反応を並べて見ることで、別々に見るよりも両者の違いがより明確になるかもしれまない。

技法の組み合わせまた、異なる評価手法の感度がモデルのペアによって大きく異なることから、複数の手法の結果を組み合わせることで、すべてのケースで合理的な性能を発揮するコンプロマイズ手法が可能かどうかも検討した。そこで、PW-TurnとPW-Dialogの評価を1：5の割合で一緒にサンプリングした場合の勝率（「PWコンボ」）を表3に含めている。このサンプリングは、PW-DialogがBlender-Bot3BとBlenderBot3B-M0、BlenderBot90Mを素早く比較する能力（長さとサイズの比較）をほとんど維持し、PW-TurnがBlenderBot3BとRed-dit3Bの性能を測定する優れた能力（微調整の比較）も維持する。

　一方、SM-TurnとSM-Dialogという2つの単一モデルの技法のレーティングは同時に収集されるため、ある会話に対する両方の技法のレーティングを平均化することで、それぞれの技法が個別に行うよりもわずかに細かい感度を実現することができる。図11、図12、図13に示すように、適切な重み付けをすれば、平均化によって、SM-Dialogだけよりも少し速く、SM-Turnだけよりも劇的に速く、モデル間で統計的に有意な差が出ることがわかる（付録C.8）。

　勝率だけでなく、様々な評価手法の有用性を直接比較するもう一つの方法は、統計的に有意な結果を得るためにクラウドワーカーが評価に費やさなければならない工数を推定することである。これらの結果（図8、図9、図10）は、勝率（第4.3.1項）のパターンにほぼ沿ったものであった。これらの時間推定を行う際の仮定については、付録C.7を参照のこと。　

結論

本研究では、異なる評価手法が対話モデル間の性能差をどの程度測定できるかを比較し、ターン単位の手法と対話単位の手法、ペアワイズの手法とシングルモデルの手法で性能差が生じる例を示す。各技術が最も適しているケースを完全に網羅的に分析するには、今回調査した3つのモデルよりも多くのペアで測定する必要があり、クラウドワーカーの労働力を飛躍的に向上させる必要があると思われる。

　しかし、この結果は、比較対象がどのモデルであっても、1つの評価手法が他の手法よりも優れていると断言することの難しさを示しており、モデル間の差異を最適に測定するためには、複数の手法を組み合わせる、あるいは全く別の手法が必要であることを示している。より普遍的で理想的な手法としては、1回の回答で最も明確に現れる性能の要素を捉えるために、ターンごとのモデル性能を調査しつつも、コンバージェンス全体でモデルの品質を総合的に判断できるようにする必要があると思われる。ターンごととダイアログごとの評価スコアを組み合わせることで、両者の性能差のギャップを埋めることができることを示したが、少なくとも組み合わせた方法では、すべてのケースでどちらかの個別技術を上回ることはできない。

　将来的には、BlenderBot3BとBlenderBot90Mのようなわずかな性能差しかないモデルの弱い信号を増幅する別の方法を模索したり、個人的な興味に訴えるコンテンツではなく、会話の質の一般的な尺度に基づいて回答を選択するように作業員を訓練することで、改善できるかもしれない。このようなほぼ等価なモデルの感度を向上させることで、より性能差の小さいモデルの比較も可能になるはずである。

　この研究は、区別可能性（モデル間の区別が可能）と効率性（アノテーターに時間をかけない）を可能にする技術の評価に集中してきたが、他の望ましい性質もある。特に、会話の多様性（Hashimoto et al, 2019）、実験の再現性、結果の説明可能性（Deriu et al, 2021）などがあげられる。私たちの実験では、後者2つのトピックについていくつかの議論がなされているが、これらのトピックは、ここで提供されるよりももっと徹底した分析に十分に値するものである。