Dialog Acts for Task Driven Embodied Agents

aclanthology.org

Spandana Gella, Aishwarya Padmakumar, Patrick Lange, and Dilek Hakkani-Tur. 2022. Dialog Acts for Task Driven Embodied Agents. In Proceedings of the 23rd Annual Meeting of the Special Interest Group on Discourse and Dialogue, pages 111–123, Edinburgh, UK. Association for Computational Linguistics.

License: Creative Commons Attribution 4.0 International License(CC-BY)

本記事は、原著の内容に基づき筆者がまとめたものです。以下の図は、そこから引用しています。

This article is my summary based on the content of the original publication. The following figures are taken from it.

要点まとめ

身体化されたエージェントは、タスクの説明を理解し、必要な情報を得るために適切なフォローアップの質問をすることで、様々なユーザのタスクを成功させるために、自然言語による対話が可能である必要がある。
本研究では、このようなダイアログをモデル化するためのダイアログアクトを提案し、3,000以上のタスク指向の会話（合計39.5k発話）からなるTEAChデータセットにダイアログアクトをアノテートしたTEACh-DAを作成した。これは、身体化されたタスクのための、ダイアログアクトをアノテートした最初の大規模データセットの一つである。
さらに、このデータセットを用いて、与えられた発話のダイアログアクトをタグ付けし、対話履歴から次の応答のダイアログアクトを予測し、ダイアログアクトを用いてエージェントの非対話行動をガイドするモデルの学習を実証する。
特に、対話履歴からTEACh実行タスクでは、具体的なタスクを完了するために環境内で実行される一連の低レベルアクションをモデルが予測し、ダイアログアクトによって、ダイアログアクトなしのシステムと比較して、タスク成功率が最大2ポイント向上することを実証している。

TEACh-DA dataset

　 TEAChデータセット(Padmakumar et al., 2021)は、家事タスクを完了するために協力するユーザー（Commander）とロボット（Follower）を演じる人間のアノテータ間の状況対話からなる。各対話セッションでは、例えばMAKE COFFEEやPREPARE BREAKFASTなど、フォロワーが達成すると思われる高度なタスクがある。タスクの詳細はコマンダーに知られているがフォロワーにはない。フォロワーは、ユーザーとの対話を通じて、達成すべきタスクの特定、タスクのカスタマイズ（例えば、朝食のために準備すべき料理の特定）、関連オブジェクトの位置やタスク達成に必要なより詳細な手順などの追加情報の取得、およびこれらをアクションに変換する必要がある。この研究では、TEAChデータセットにダイアログアクトをアノテートし（この新しいアノテーション付きデータセットをTEACh-DAと呼ぶ）、タスク指向の状況対話でどのように言語が使用されているかをより良く理解する。 TEACh-DAデータセットは、3,000ダイアログの39.5k発話からなり、そのうち60%がコマンダーの発話で、残りがフォロワーの発話である。

　この研究では、合計で、TEAChの全発言をカバーする18個のダイアログアクトを定義した。TEAChデータの発話を注意深く分析し、表1に示すように、ダイアログアクトを5つに大別した。

一般的なもの：対話の開始や終了など、従来の対話に該当する行為
指示関連：家事タスクを達成するために環境内で実行すべき行為に関連する発話
オブジェクト/ロケーション関連：特定のTEAChタスクのために処理または操作される必要があるオブジェクトに関連する要求および情報を求める発話
インターフェイス関連：TEAChアノテーションそのものに関連する発話（NotifyFailureやOtherInterfaceComment）
フィードバック関連：ナビゲート、オブジェクト操作、一般的なタスク実行に関するフィードバック（肯定的、否定的）を提供するために使用される発話。

　TEAChデータセットの発話を対話形式でアノテーションするために、英語に堪能な専門家アノテーターを雇った。アノテータ―は、完全なダイアログを見せられ、各発言に最も適切なダイアログアクトをアノテートするよう求められ、複数のダイアログアクトが存在する場合は、発話をスパンに分割し、各スパンに1つのダイアログアクトラベルを付与するよう指示された。その結果、7％の発話が複数のダイアログアクトを持つように分割された。アノテーションの質を測定するために、235の発話（17ダイアログ）の小さなサブセットについて、2人のアノテーターからアノテーションを収集した。このサブセットでは、Cohen's kappaが0.87であることが確認された。図1には、タスク「Boil Potat」のTEAChセッションの例が示されており、各発話のダイアログアクトが含まれている。多くのタスク指向の対話と同様に、話者の役割（コマンダーまたはフォロワー）と発話のダイアログアクトには強い相関が見られる。例えば、Informの発話の大部分はコマンダーのものであり、コマンダーはタスクに関する指示やオブジェクトの位置やその他の詳細を知らせるのに対し、リクエスト発話の大部分（指示、オブジェクトの位置など）はフォロワーのものである。表1では、コマンダーとフォロワーのダイアログアクト、定義、およびその頻度について示している。

実験

　環境におけるエージェントの将来の行動を予測することを含む、様々なモデリングタスクにダイアログアクトをどのように利用できるかを検討する。 (i)ダイアログアクトの分類と発話のダイアログアクトの予測、(ii)対話履歴を与えられた将来のターンのダイアログアクトの予測、(iii)TEACh対話履歴を与えられたタスクの計画の予測、(iv)対話履歴と環境における過去のアクションを与えられたタスク完了のためにTEACh環境で実行すべき低レベルアクションのシーケンス全体の予測（Padmakumar et al., 2021の対話履歴からの実行（EdH）ベンチマーク）を検討する。

ダイアログアクトの分類

　ダイアログアクト分類は、ダイアログ内のユーザ発話の一般的な意図を特定するタスクである。ダイアログアクト分類はタスク指向ダイアログやオープンドメインなダイアログではよく研究されているが、人間とロボットのダイアログではまだ十分に研究されていない問題である(Gervits et al., 2020)。我々は、ダイアログアクトの分類のために、事前に訓練された大規模な言語モデルRoBERTa-baseをファインチューニングする実験を行った。

　我々は、話者の役割（フォロワーまたはコマンダー）と対話履歴が発話の意図を予測するために重要であると予想する。このことを検証するために、異なる入力形式（図2）のダイアログアクトを、話者と文脈情報（DH：対話における過去の全発言、ST：話者タグ、DA-E：対話における過去の全発言のグランドトゥルースダイアログアクトタグ）の値を変化させて予測した。表2にその結果を示す。

　TEAChでは、表1に示すように、ダイアログアクトの分布は話者の役割（Commander vs. Follower）によって変化することがわかった。また、各話者役割の発話に対するモデルの精度を理解するために、表2に話者役割ごとに分けて結果を示す。フォロワーの発話では、発話者タグと前のターンでの対話履歴の両方がダイアログアクトの特定に役立つことが確認された。コマンダーの発話では、話者タグとダイアログ履歴の両方がわずかながら改善された。

次ダイアログアクト予測

　エンドツーエンドの対話モデルにおいて、次のターンに望まれるダイアログアクトを予測することは、応答生成に有用である(Tanaka et al., 2019)。エージェントがフォロワー発話により多くの指示や追加情報を求めるタイミングを特定するために特に有用である。この課題を、あるターンまでの対話履歴を入力として与え、次のターンのダイアログアクトを予測する分類タスクとしてモデル化した。対話履歴に加え、次のターンの話者情報を入力することが、モデルの性能を向上させるかどうかを確認するためのテストも行った。ダイアログアクト分類モデルと同様に、次の発話のダイアログアクトを予測するために、RoBERTa ベースモデルをファインチューンした。表3に、次のダイアログアクト予測に関する結果を示す。次の発話がフォロワーからのものであり、話者情報または前の発話のダイアログアクトを入力に加えた場合、次のダイアログアクト予測の性能が著しく向上することが確認された。このタスクの精度が他のタスク指向の対話データセットの類似タスクと比較して低いのは、このデータセットがターンテイクを強制していないためであるという仮説を立てた。コマンダーやフォロワーは、1つの意図を複数の発話に分割することができ、一方の発話は相手からの次の応答を予測してから質問されることがある。例えば、コマンダーがフォロワーにトマトのスライスを頼んだ場合、コマンダーはフォロワーがトマトやナイフの場所を尋ねるだろうと予想し、フォロワーが尋ねる前にその情報の提供を始めるかもしれない。さらに、コマンダーとフォロワーは、視覚的な合図や環境における相手の行動に直接反応することもある。したがって、視覚情報や環境情報は、将来のダイアログアクトを予測する上でも重要である可能性が高い。

プラン予測

　タスクプランニングは、タスクを完了するためにロボットの高レベルの動作を導くために、シンボリックアクションのシーケンスを生成するプロセスである(Ghallab et al., 2016)。本実験では、オブジェクト操作のシーケンスで構成されるような、単純なタスクプランの表現を検討する。このような計画を実行する場合、ロボットは必要なオブジェクトに移動する必要があり、環境の状態に応じて追加のステップが必要になる可能性がある（例えば、電子レンジが満杯の場合、ロボットはまず掃除する必要がある）。しかし、対話だけで、タスクの計画を生成することができるはずである。そこで、2つのセッティングを検討する。

Game-to-Plan：ゲームプレイセッションのダイアログ全体が与えられたとき、そのゲームプレイセッション中に行われたすべてのオブジェクトインタラクションアクションをプランとして予測する。
Dialog-History-to-Plan：ゲームプレイセッションのダイアログ履歴の一部が与えられたとき、次のダイアログ発話までに発生する必要があるオブジェクトインタラクションアクションを予測する。

　Game-to-Plan設定は、そのような状況下のインタラクションを発生後に事後的に分析するのに役立つ可能性が高く、一方でDialog-HIstory-to-Plan設定は、ユーザーと対話し、対話で得られた情報に基づいて仮想環境での行動を実行する身体化エージェントを構築するために使用することができる。このようなエージェントは、任意の時点で、これまでの対話の履歴から、次に行うべきいくつかのオブジェクトの対話を予測し、それを完了させる。入力は対話または対話履歴からなり、出力はオブジェクトとのインタラクションアクション（例：Pickup、Place、ToggleOn）とオブジェクトタイプ（例：Mug、Sink）の交互のシーケンスとなるよう計画予測をseq2seqとしてモデル化している。対話履歴をダイアログアクトで補強し（＋DA情報）、入力対話をフィルタリングしてInstruction型とアノテートされた発話セグメントのみを含むようにする（＋フィルタ）。このタスクのBARTベースモデルをファインチューンし、異なる実験条件を以下の指標で評価する：

有効なプランの割合：生成された出力シーケンスのうち、有効なアクションとオブジェクトタイプを交互に並べたものの割合。(例えば、(Pickup, Mug)(Place, Sink) (ToggleOn, Faucet)は有効なシーケンスだが、(Pickup, Mug) (Sink) (ToggleOn, Faucet) と (Pickup, Mug) (Place) (ToggleOn, Faucet) はSinkに対するアクションとPlaceに対するオブジェクトがそれぞれ抜けているので無効である)
( アクション、オブジェクト）タプルの精度：有効なオブジェクトタイプに続いて有効なアクションを持つものを（アクション、オブジェクト）タプルとして識別し、精度は、生成された出力がグランドトゥルースプランに存在する割合である。
( アクション、オブジェクト）タプルのリコール：リコールは、生成された出力に存在する、グランドルゥースプランの（アクション、オブジェクト）タプルの割合である。

結果は表4に含まれている。ダイアログアクト情報の追加と関連するダイアログアクトへのフィルタリングにより、いくつかのスプリットで性能が向上するが、他のスプリットでは向上しないことがわかる。ダイアログ履歴からプランへの変換では、より大きな改善が見られる。これは、発話テキストからダイアログアクトを自動的に特定できるため、明示的に特定する必要がないためと考えられる。

対話履歴からの実行

　Padmakumar et al. 2021で定義されたEDH（Execution from Dialog History）タスクは、上記のタスクの拡張版である。ダイアログ履歴と環境での過去の行動を考慮して、単に重要なオブジェクトの相互作用を予測するのではなく、対話履歴に記述されたタスクを達成するための低レベルのアクションシーケンスを完全に予測することが期待されている。モデルによって予測されたアクションシーケンスは仮想環境で実行され、必要なオブジェクト状態の変化がどれだけ達成されたかに基づいてモデルが評価される。このタスクに使用されるメトリクスには、成功した状態変化の割合（目標条件成功率、GC）、すべての状態変化が達成されたセッションの割合（成功率、SR）、およびこれらのメトリクスを予測された経路長に対する真実の経路長の比率で多重化した軌跡長重み付けバージョンがあり、軌跡重み付けメトリックの値が低いほど、モデルは同じ状態変化を達成するために長いシーケンス動作を使用していることを示している。 Padmakumar et al., 2021に提案されたEpisodic Transformer (E.T.)モデルを用い、言語入力（対話履歴（DH）のみをベースラインとする）を変化させ、話者タグ（+ST）およびグランドトゥルースのダイアログアクトタグを開始（+DA-S）、終了（+DA-E）または両方（+DA-SE）に付加する。表5には、選択した実験セットの結果を示す。言語入力がダイアログアクトでマークアップされた場合、最大2ポイントの成功率の小さな性能向上が観察されるが、話者情報による利点はあまり観察されない。よりモジュール化されたアプローチ（例：(Minet al., 2021)）を用いると、言語理解から生じるエラーの影響を、このような低レベルの行動を予測する際に最も難しい要素であるナビゲーションから生じるエラーの影響から切り離すことが容易になるため、より強い改善が見られると考えられる（Blukis et al., 2022; Jia et al., 2022; Min et al., 2021）。