izmyonの日記

奈良の山奥で研究にいそしむ大学院生の学習記録。

今日の論文2023/04/26:N-best Response-based Analysis of Contradiction-awareness in Neural Response Generation Models

N-best Response-based Analysis of Contradiction-awareness in Neural Response Generation Models

aclanthology.org

Shiki Sato, Reina Akama, Hiroki Ouchi, Ryoko Tokuhisa, Jun Suzuki, and Kentaro Inui. 2022. N-best Response-based Analysis of Contradiction-awareness in Neural Response Generation Models. In Proceedings of the 23rd Annual Meeting of the Special Interest Group on Discourse and Dialogue, pages 637–644, Edinburgh, UK. Association for Computational Linguistics.

©2022 Association for Computational Linguistics

License: Creative Commons Attribution 4.0 International License(CC-BY)

本記事は、原著の内容に基づく筆者の要約または翻訳です。以下の図は、そこから引用しています。

This article is my summary or translation based on the content of the original publication. The following figures are taken from it.

要点まとめ

  • 対話応答生成において、直前の文脈と矛盾する応答を生成しないようにすることは重要な課題である。実現可能な方法の一つは、応答のn-ベストリストから矛盾する応答をフィルタリングするような後処理である。この場合、最終的な応答はこのn-ベストリストから選択されるため、n-ベストリストの品質が矛盾の発生に大きく影響する。

  • 本研究では、n-ベストリストの一致度を用いて、ニューラル応答生成モデルの文脈矛盾認識能力を定量的に分析した。特に、極端な質問を刺激入力として用い、簡潔かつ定量的な分析を行った。この実験により、最近の神経反応生成モデルや方法論の矛盾認識を示し、その特性や限界について議論した。

分析視点

 まず、フィルターが矛盾する応答を除去できると仮定すると、矛盾を防ぐためにn-ベストリストが生成されなければならない。理想的なモデルは、矛盾のない、関連性や情報量など他の多くの基準で優れている出力を生成する。モデルは、矛盾のない出力を提供するために、少なくとも1つの矛盾のない候補を生成しなければならない。さらに、矛盾しない候補であっても、他の基準(例えば、関連性、情報量)に基づいて排除される可能性があるため、ベストリストに矛盾のない回答が多いほど、様々な基準で最終的なアウトプットの品質が向上するという仮説が成り立つ。以上のことを踏まえ、n-ベストリストについて、矛盾しない回答の存在の確実性(Certainty)と、矛盾しない回答の多様性(Variety)を以下のように定義し検証を行った。

  • 確実性(Certainty):少なくとも1つの矛盾しない再反応を持つn-ベストリストの割合。

  • 多様性(Variety):少なくとも1つの矛盾しない回答を持つベストリストだけを集めたときの、各n-ベストリストにおける矛盾しない回答の割合。

入力Qのセットが与えられたとき、これらは以下のように計算する:

 
\begin{aligned}
\text{Certainty} &= \frac{|Q'|}{|Q|}, \\
\text{Variety} &= \frac{1}{|Q'|} \sum_{q \in Q'} \frac{\text{cnt}(f(q))}{|f(q)|}, \\
Q' &= \{ q \mid \text{cnt}(f(q)) > 0, q \in Q \}
\end{aligned}

ここで、 f(-)はベストリスト生成関数、 cnt(-)は与えられたn-ベストリストから矛盾のない回答の数を返す関数である。例えば、矛盾しない回答と矛盾する回答の組み合わせでn-ベストリストを生成するモデルのCertaintyは高いが、Varietyは低い。しかし、常に非矛盾または矛盾する回答のみでn-ベストリストを生成するモデルは、Varietyは高いが、Certainityは低い。我々は、n-ベストリストには矛盾のない回答が含まれ(Certainty=1.0)、その割合が高い(High Variety)であることが必要だと考えている。

分析のための入力と評価

矛盾を明らかにするためのポーラーエコー質問

ポーラーエコー質問

 エコーエスチョン(Noh,1998)は、他の話者の発話を繰り返すことによって、文脈情報を確認したり、明確にしたりするものである。我々は、矛盾のある反応を引き出すために、エコー質問を刺激入力として分析に用いる。極性質問では、基本的に「はい」「いいえ」の2つの回答しかできないので、生成された回答が矛盾しているかどうかを明確に判断することができる。また、生成された応答をYES/NOの2値分類問題として分析することで、実験結果を確率レベルに基づいて定量的に議論することが可能となる。

入力の準備

 自然言語推論(NLI)タスクのデータセットを用いて、前項で述べた分析入力を効果的に得ることができる。このデータセットは、前提条件とそれに関連する仮説の間の論理的関係(すなわち、含意、中立性、または矛盾)を指定する。NLIデータセットは、基本的な書き換えルールのセットを使用して、二項対立のデータに変換する。我々のテストでは、確認応答の生成(ENTQ)と、反証応答の生成(CNTQ)に分類される2種類の入力がある。表1に、入力サンプルと、それらが最初のNLIデータからどのように変換されるかを示す。 各入力は、履歴とメッセージの2つの発話から構成されている。この分析では、モデルが前のターンで履歴を生成したと仮定して、与えられたメッセージに対する応答を生成する。

出力時の矛盾検出

 矛盾を検出する最も簡単な方法は,応答がyes/noで始まるかどうかをチェックすることである. しかし、間接的な表現(例えば、Why not?)の場合、この方法では矛盾を検出することができない。そこで、ENTQ/CNTQに対するベストな回答を分類するために、自動yes-no分類器を使用する。この分類器は、Circaデータセット(Louis et al., 2020)を用いてRoBERTa(Liu et al., 2019)をファインチューニングすることによって学習される。

実験

 我々は、このフレームワークが、矛盾を回避する上で非常に重要なn-ベストリストの特性を示すことを示す。従来のビームサーチ(BS)で生成されたn-ベストリストと最近提案された技術を比較することで、これを実証する。

実験設定

入力の準備

 分析入力を得るために、大規模で良質なNLIデータで一貫性のあるMulti-Genre NLI Corpus (Williams et al, 2018)を使用した。 2,000個のENTQ/CNTQ入力を作成し、entailment/contradictionでラベル付けされた2,000個のサンプルを抽出した。

レスポンス生成モデル

 最近開発された以下の2つの高性能モデルである、DialoGPT(hang et al., 2020)とBlender(Roller et al., 2021)を使用した。

ビームサーチを用いたn-bestの解析

 Bは生成時のビームサイズとする。B=10のビームサーチで応答を生成すると、非常に質の高い結果が得られることが経験的に判明しており、頻繁に使用される値である(Zhang et al.) 図2は、これらの方法で生成された10個のベストリストのCertainityとVarietyを示した。

Certainity

 表2より、CNTQタイプの入力の約10%において、最高得点のモデルでさえ、矛盾した回答を含むベスト10リストを生成していることがわかる。完璧な回答フィルターを使っても、モデルはこれらの質問に対して矛盾のない回答を提供することができない。このエラー率は、有効な回答が非常に限定された極論を入力としていることから、決して低いものではないことを強調しておく必要がある。ビームサイズを拡大することで、少なくとも1つの矛盾しない回答を持つn-ベストリストの数を増加させることができる。実際、ビームサイズを大きくするとCertaintyが向上する(図2の(a)、(b))。B=40にすることで、ENTQ、CNTQともにDialoGPT 345Mを用いた場合のCertaintyは1.0となる。

Variety

 B=10では、すべてのモデルのVarietyが0.5(偶然率)以上となった(表2)。つまり、完全なランダムではなく、矛盾を回避する方向性をもったベストリストが生成されていることがわかる。しかし、ビームのサイズを大きくするとVarietyが低下し(図2(c)、(d))、出力品質が低下する。 例えば,CNTQ型入力に対してB=40のDialoGPT345MのVariety(ENTQ,CNTQともにCertaintyが1.0のモデル)は0.58に減少している。

総論

 矛盾を回避するという点で、我々の分析枠組みは、ビームサーチのベストリストの特徴を示した。一般的な構成(B=10)では、Certaintyは1.0に達しなかった。ビームサイズを大きくすると、Certaintyは1.0に達するが、Varietyは劇的に減少する。この結果は、ビームサイズによるCertaintyとVarietyのトレードオフを示しており、この例では、ビームサーチで高いCertaintyとVarietyを得ることに制約があることがわかった。さらに、DialoGPTで得られるCertaintyはBlenderで得られるCertaintyよりも大きく、Varietyはその逆であることがわかり、CertaintyとVarietyの観点で様々なモデルが異なる挙動を示すことが示唆された。本研究は、各モデルのCertaintyとVarietyを検証することの重要性を強調するものである。

様々な手法によるn-bestの解析

高い「確実性」と「多様性」を実現するには?

 Certainityを高める方法の一つは、より広い範囲の応答を持つベストリストを生成し、各ベストリストが特定の数の矛盾しない応答を含むことが保証されるようにすることである。 このようなn-ベストリストを構築するために、diverse beam search (DBS) (Vijayakumar et al.,2016) とnucleus sampling (NS) (Holtzman et al.,2020) メソッドが使用されている。さらに、Liら(2020)は最近、矛盾する回答に低い確率を割り当てる尤度 (UL) 学習を使用するモデルを提案した。これらのモデルを使用してベストリストを生成すると、ほぼ確実にCertaintyとVarietyの両方を強化できる。これらの3つの戦略を用いて生成されたベストリストを評価し、これらの技術がどの程度CertaintyとVarietyを向上させるかを確認する(n-best DBSとNSを使用して生成されたリスト、および尤度学習と一緒にビームサーチを使用して生成されたn-bestリスト)。

結果

 表3は、BS、DBS、NS、ULを用いて生成した10個のベストリストのCertaintyとVarietyを示したものである。 αの値は、ファインチューンの際のULの損失の度合いを示している。 α=0のULでは、 α>0のULと同じ学習設定で、最大尤度で微調整された応答生成モデルを用いているため、 α=0 α>0のULを比較することで、尤度学習と非尤度学習を公平に比較することができる。この結果、3つの手法で得られたベストリストの特性や、手法によってCertaintyやVarietyがどの程度向上するかが明らかになった。 DBS法とNS法を用いた場合、BS法を用いた場合のCertaintyである1.0に比べ、かなり低い検索サイズでCertainty 1.0を達成し、CNTQ型インプットにおけるVarietyは0.5(偶然率)以下となる。 しかし、 α>0のULを用いた場合のCertaintyはBSを用いた場合よりも大きく、 α=0のBSやULを用いた場合よりも高いVarietyを維持したまま達成された(UL学習)。この結果は、世代モデルが高いCertaintyとVarietyに近づいていることを示しており、特に最近提案されたUL損失法では顕著である。また、「はい」「いいえ」という非常に限定された有効回答にもかかわらず、 α>0のULで得られるCertaintyは1.0に達していない。このことから、ベストリスト生成において、矛盾を回避するという点では、まだ改善の余地があると結論づけられる。

結論

 矛盾検出器の開発に基づき、矛盾を回避するための実用的な方法として、モデルn個のベストリストから矛盾する候補を取り除く方法がある。我々は、極性型質問を分析入力として、矛盾回避の観点からベストリストの特性を定量的に検討した。Certaintyはn-ベストリストが少なくとも1つの矛盾しない回答を持つかどうかを決定し、Varietyは各n-ベストリストがいくつの矛盾しない回答を持つかを評価するもので、提案フレームワークはCertaintyとVarietyに基づくn-ベストリストの特性を示すことを示した。その結果、ビームサーチ法では高いCertaintyとVarietyを達成することが難しいことが明らかになった。 CertaintyとVarietyに基づいてモデルのn-ベストリストを分析する我々のアプローチは、極性型応答生成に限らず、あらゆる応答生成問題に適用可能であり、それは今後の課題となるであろう。