izmyonの日記

奈良の山奥で研究にいそしむ大学院生の学習記録。

今日の論文2023/04/24:A System For Robot Concept Learning Through Situated Dialogue

A System For Robot Concept Learning Through Situated Dialogue

aclanthology.org

Benjamin Kane, Felix Gervits, Matthias Scheutz, and Matthew Marge. 2022. A System For Robot Concept Learning Through Situated Dialogue. In Proceedings of the 23rd Annual Meeting of the Special Interest Group on Discourse and Dialogue, pages 659–662, Edinburgh, UK. Association for Computational Linguistics.

©2022 Association for Computational Linguistics

License: Creative Commons Attribution 4.0 International License(CC-BY)

本記事は、原著の内容に基づき筆者がまとめた、もしくは翻訳したものです。以下の図は、そこから引用しています。

This article is my summary (or translation) based on the content of the original publication. The following figures are taken from it.

要点まとめ

  • 人間と一緒に未踏の環境で活動するロボットは、未知の概念をその場で学習する必要がある。そこで我々は、質問生成の計算モデルと認知ロボットアーキテクチャを組み合わせた新しいシステムを実証する。このモデルは、環境の観察結果を基にした概念学習のための前後対話の動的生成をサポートし、アーキテクチャは、記号的推論(symbolic reasoning)、行動表現(action representation)、ワンショットラーニング(one-shot learning)、その他の状況依存型インタラクションのための機能をサポートする。

  • 本システムは、一般化可能でスケーラブルな基礎的アプローチを用いて、物体、場所、行動を含む新しい概念について学習することができる。我々は、協調的な参照解決タスク(collaborative reference resolution task)における人間のベースラインとの学習効率の比較によってシステムを評価し、システムが新しい概念の学習において効果的かつ効率的であること、そして、その動作に関する説明を情報的に生成できることを示す。

背景

 人間と相互作用する自律型ロボットは、しばしば自分にとって馴染みのない概念に遭遇する。 これは、学習データが限られていたり、収集やラベル付けにコストがかかる新しい環境を探索する際に特に問題となる。例えば、宇宙探査用のロボットは、地球上には存在しない物体に遭遇したり、手順を実行する必要があり、そのためのデータが不足している場合がある。多くの環境におけるオンライン学習の自然なアプローチは、人間とロボットのインターフェースを利用し、ロボットが人間に質問をして新しい概念について学ぶという多方向の対話を可能にすることである。自然言語対話が可能なロボットアーキテクチャや、会話の基礎となる質問生成のメカニズムなどは、これまでにも研究されてきたが、個別の貢献を目的として設計されており、対話を通じて概念を学習するという全体的な問題にはギャップが残っていた。本システムは、確率的決定ネットワークモデルにより、あらゆる環境下での概念学習に最適な質問を動的に生成し、質問することができる。 本システムの対話例を図1に示す。

 対話によるロボット概念学習の初期の研究では、エージェントが環境内のオブジェクトについて質問することを可能にするために、事前に指定されたオントロジーやグラフィカルモデルの使用(Lemaignanet al.2012; Chai et al.2018; Perera et al.2018) や対話による行動の学習(She et al.2014) が検討された。他の研究では、参照解析のためのプロアクティブ記号接地や語用モデルの使用(Williams et al.2019; Arkin et al.2020) が研究されている。これらの研究とは対照的に、我々は。不確実性の概念を含み、意思決定ネットワークの動的適応を通じて新しいタスクドメインに拡張することができ、さらに任意の特性から質問を生成できるスケーラブルなアプローチを提案する。

システムデザイン

 我々のシステムは、対話的な概念学習を可能にするために、質問選択のための決定ネットワークモデル(Gervits et al., 2021a)とDIARC (Distributed Integrated Affect Reflection Cognition) ロボットアーキテクチャ (Scheutz et al.,2019) を組み合わせている。DIARCアーキテクチャは、意味構文解析、知識のイントロスペクション、説明文の生成、および行動のワンショット学習のサポートを可能にする。本システムで使用するDIARCの構成は、図2に示すとおりである。

決定ネットワーク

 このモデルは、参照対象に対するロボットの知識を表し、曖昧さを軽減し、新しい概念知識を獲得するのに役立つ質問を選択する。図3は、システムによって構築された決定ネットワークの一般例を示している。緑色のボックスはチャンスノードであり、エージェントの知識であるオブジェクトの特性、ターゲット参照語の数、および命令に対応するランダム変数である。ロボットが質問をする目的は、曖昧さを減らすこと(参照解析の場合、ある概念の参照候補の数を絞り込むこと)であるため、モデルは、モデルから期待される最大の効用を計算することによって「最適」な質問を選択し、効用は、各オブジェクト特性についてシャノンエントロピーを計算することによって設定する。 Gervitsら(2021a)が示すように、このアプローチは新規環境における対話学習に適している。なぜなら、決定ネットワークは、観察されたオブジェクト特性のみが与えられた新規環境に対して動的に構築されるからであり、さらに、このネットワークは、環境中のすべての実体を明確化するために必要な最小限のノードセットで構築され、新しい実体が発見された場合には、その場で再構築することができる。これにより、本アプローチは、未踏の様々な環境に対して一般化し、拡張することが可能となる。

意味解析と宣言的知識

 NLUコンポーネントは、CCG文法を使用して、入力テキストを入力の発話行為タイプ(例:instructionまたはstatement)を含める論理的な意味表現にマッピングする。また、語用論的推論ルールを使用して、ユーザーの発話の文脈上の意味をさらに推論することも可能である。システムは、観察されたオブジェクトの特性、NLUコンポーネントからの解釈、およびその論理的推論など、システムの信念の宣言的知識ベースを維持する。

目標に基づく対話マネージャとロボットの行動

 ダイアログマネージャは、発話者の入力の意味を処理し、発話者の入力の発話行為タイプに基づいてシステムゴールを形成する役割を担っている。指示の場合、発話者の意図がロボットの目標として採用され、目標を満たすアクションを呼び出すか(すべての参照元がわかっている場合)、決定ネットワークを使用して明確な質問を生成することによって処理される。ステートメントの場合、システムは入力に表現された(または入力から推測された)事実で宣言的知識を修正する。どちらの場合も、NLGコンポーネントは、ロボットによる応答(通常は単純な承認)を生成するために使用される。ロボットのアクションは、前提条件、効果、構成ステップからなるアクションの抽象的な論理的定式化を提供するアクションスクリプトとして実装されている(Scheutz et al.)。本システムでは、ロボットは、ある場所に移動したり、物体を拾ったりといった、ロボットが実行可能な基本的な行動ごとにアクションスクリプトを持つ。さらに、DIARCでは、下位レベルの命令シーケンスを発行することで、新規アクションのワンショット学習が可能である(Scheutzet al.、2017)。

参考解像度

 本システムは、ダイアログマネージャと相互作用する参照解決コンポーネントによって、新しいオブジェクトを学習することができる。未知の参照先に遭遇した場合、システムはその概念についてシステムが現在知っている特性に基づいて、参照しうる実体の数を計算する。 複数の参照先が考えられる場合、ダイアログマネージャは、判断ネットワークモデルを利用して、説明のための質問を生成する。ユーザーからの応答を解釈し、システムの宣言的知識の更新に使用する。単一の参照元が得られると、システムは対応する概念を持つオブジェクトを特定し、命令を実行する。システムはこのプロセスを繰り返し適用することで、概念に関する知識を獲得することができる。

評価

 本システムを評価するために、PR2ロボットを用いて、未知の物体や学習手順を含む仮想宇宙船環境において、ロボットを実装した。ロボットは、自然言語コマンドを入力することで、新しい道具を正しい容器に入れるよう指示され、共同作業による道具整理タスクを実行した。ロボットは、10人の参加者の対話からなるHuman-Robot DialogueLearning (HuRDL) コーパスのサブセット(Gervits et al. )からコマンドのシーケンスが与えられる。人間が生成した質問は、精度(未知の参照語を解決した後にロボットが実行できたコマンドの割合)および質問効率(エージェントが各新しい概念を学習するために必要な平均質問回数)の観点から、同じコマンドに対してロボットが生成した質問と比較される。宇宙船の環境には、6つの主要なタイプと、色やサイズなど6つの特徴的な次元で異なる各タイプの3つのインスタンスを持つ18の道具がある。また、プラットフォーム、ロッカー、クレートなど18個のコンテナがあり、中には鍵がかかっているものもあり、開けるには専門的な手順を学ぶ必要がある。ロボットは、環境内のエンティティの基本的な知覚表現と、観察された特性(例えば、エンティティは赤い、小さい、など)を含むが、それらの名前はない状態でスタートする。

 結果は表1に示す。全体として、ロボットは人間よりも平均的に多くの質問をしたが、十分な質問でタスクのすべてのエンティティを解決することができ、より高い精度を達成することができた。 この結果は、人間のパフォーマンスと比較して、精度と質問効率のトレードオフを強調している。我々のシステムは、人間が新しい概念を学習する際に利用できる常識的な知識がないため、一般的にオブジェクトごとに多くの質問をする必要があるが、曖昧性解消への体系的アプローチにより、環境内のエンティティを見落とすなど、人間が時々行うミステイクを回避することができた。

結論と今後の課題

 我々は、質問生成のための意思決定ネットワークモデルと認知ロボットアーキテクチャを組み合わせたロボットシステムを発表し、未踏の環境において対話を通じて新しい概念を効率的に学習することを可能にした。 本システムの設計は、意思決定ネットワークの動的構築によりスケーラブルであり、ロボットアーキテクチャは、記号的推論や説明の生成を含むより広範な状況下でのインタラクションを可能にする。 本システムの評価では、同じ課題に対する質問効率は人間よりも若干低いものの、新しい概念を学習することに長けていることが実証された(実験結果)。今後は、概念学習に先立ち、探索によってロボットが自動的に特性を獲得できるようにすることを目指す。