Towards Socially Intelligent Agents with Mental State Transition and Human Value

aclanthology.org

Liang Qiu, Yizhou Zhao, Yuan Liang, Pan Lu, Weiyan Shi, Zhou Yu, and Song-Chun Zhu. 2022. Towards Socially Intelligent Agents with Mental State Transition and Human Value. In Proceedings of the 23rd Annual Meeting of the Special Interest Group on Discourse and Dialogue, pages 146–158, Edinburgh, UK. Association for Computational Linguistics.

License: Creative Commons Attribution 4.0 International License(CC-BY)

本記事は、原著の内容に基づき筆者がまとめたものです。以下の図は、そこから引用しています。

This article is my summary based on the content of the original publication. The following figures are taken from it.

要点まとめ

社会的知能を持つエージェントの構築には多くの課題があり、その一つはエージェントの精神状態遷移を追跡し、人間のようにその価値観によって導かれる意思決定を行うようにエージェントに教えることである。
このために、精神状態シミュレーションと価値モデリングを対話エージェントに組み込むことを提案する。まず、対話とイベントの両方の観測から情報を抽出し、エージェントの心のグラフィカルな表現を維持するハイブリットな精神状態パーサーを構築する。また、Transformerベースの価値観モデル、人間の価値観データセット Value Netから人間の嗜好を学習する。
実験の結果、提案モデルは、ファンタジーテキストアドベンチャーゲームデータセットLIGHTにおける対話/行動/感情予測タスクにおいて、SoTAを達成することが示された。また、(i)提案する精神状態パーサーが、どのように位置やオブジェクトなどの文脈に立脚してエージェントの意思決定をすることができるか、(ii)価値観モデルが、エージェントの個人の優先順位に基づいて意思決定を支援することができるかを示すケース例を示す。

序論

近年、大規模な事前学習済みモデルを用いた言語モデリングが目覚しく進歩し、一般的なチャットボットまたはタスク指向の対話システムの構築に使用されている。これらのシステムの多くは流暢な文章を生成することができるが、社会的に知的なエージェントを構築するためには、2つの大きな課題がある。(1) 対話を「心のふれあい」(Gardenfors,2014)と考えたり、話者間のメンタルモデルの整合性をとる(Rumelhart et al., 1986;Stolk et al., 2016)ために、エージェントの精神状態の推移を明示的に追跡する既存研究は少ない(Ad-hikari et al., 2020)。現在の対話システムにこのような機能を持たせることで、エージェントは文脈に応じた発話の条件付けができ、行動の効果をシミュレートすることができ、さらにユーザーによって押し出された拡張された意味、含意、皮肉を理解することができる（Grice、1981、1989）。(2)エージェントにその価値観によって導かれる合理的な判断をさせることを教えることは、まだ十分に研究されていないままである。社会的・文化的な観点から、人間は、個人の価値観、常識、社会意識に関連する効用関数によって記述される共通の選好を持つ傾向がある。例えば、身の安全を重視する人は、夜間の外出を控えて家にいることを好むなどである。
本研究は、Embodied Cognitive Linguistics (ECL) (Lakoff and Johnson, 1980; Garden-fors, 2014) と社会学で確立した価値論 (Schwartz, 2012) に基づいて、これらの問題を軽減することを目的とする。ECLは、自然言語は本質的に実行可能であり、精神的シミュレーションと比喩的推論によって駆動され（Lakoff andJohnson, 1980）、体現された相互作用を通じて学習される（Feldman and Narayanan, 2004; Tamariet al.、2020）ことを述べている。その信条に従い、対話と精神状態を変換するハイブリッド精神状態パーサーを提示する。イベント観測を、エージェントの心のグラフィカルな表現に変換する。我々は、大規模なテキストベースの具現化環境LIGHT(Urbanek et al., 2019)で実験を行う。
結果、我々の精神状態エミュレータと価値関数を持つモデルが、既存のTransformerベースのモデルの中で、人間のアノテーションと一致する最高のパフォーマンスを達成することを示した。さらに、事例研究により、精神状態は文脈情報を提供し、価値観モデルはエージェントが価値主導の意思決定を行うのに役立つことがさらに実証されている。
メインの貢献は二つある。第一に、現在の対話システムの設計を再考し、認知科学と現代社会学の観点から新しいパラダイムを提案すること。第二に、精神状態シミュレーションと人間の価値観モデリングを対話生成と意思決定に取り入れることで、社会的知能を持つエージェントを構築するための新しい枠組みを提示することである。我々の方法論は、二対話システム（Zhao, 2019）、仮想現実（Laiet al., 2019）、人間とロボットの相互作用（Yuanand Li, 2017）における幅広い対話的社会状況に一般化することができる。

問題の定式化

　LIGHT（Urbanekら、2019）は、接地された対話を研究するための大規模なクラウドソーシングファンタジーテキストアドベンチャープラットフォームである。図4aは、ローケーションの説明、オブジェクト（およびそれらのアフォーダンス）、キャラクター、およびそれらのペルソナを含む典型的なローカル環境設定を示している。エージェントは、自由形式のテキストで他のエージェントと会話したり、テンプレートによって定義された行動をとったり、特定の感情を表現したりすることができる（図4b）。環境設定と観察履歴があれば、次のターンのエージェントの発話・行動・感情を予測することが課題である。社会的知能を達成するために、エージェントの精神状態の推移をモデル化し、人間の価値観を取り入れる。心のモデルは、テキスト世界の基礎的な状態に関するエージェントの信念を表すために提案される。一方、人間の価値観の効用関数は、一般的な社会的状況における人間の好みを記述するために設計されている。ここでは、簡単のためにテキストアドベンチャーゲームで実験を行ったが、提案するアーキテクチャは、より豊かな環境をサポートする。

精神状態モデリング

　我々の目標は、対話における精神状態を解析し、構築し、維持することである。ローカルな環境の詳細に基づいた精神状態によって、エージェントは、変化する世界の状態と、発話と行動の条件をシミュレートし、推論することができる。図3は、このグラフのノードが、関係するエージェント、ペルソナの記述、オブジェクト、オブジェクトの記述、設定の記述を表すものである。グラフのノードは、関係するエージェント、ペルソナの説明、オブジェクト、オブジェクトの説明、設定の説明を表し、これらはゲームの設定が切り替わるにつれて変化することになる。これらのノード間の関係エッジは、心の状態を表す。心の状態は、観察された対話履歴や行動によって更新される。例えば、「王が杖を召使いに渡す」と、杖は王から召使いに移される。

人間の価値観モデリング

我々は、ファンタジー世界のエージェントは、その好ましい価値観の効用を最大化するために、ほぼ最適な選択をすると仮定し、利用可能な選択肢を、 $n$ 個の網羅的かつ排他的な発話または行動 $A=\{a_1, \ldots, a_i, \ldots, a_n \}$ の集合と定義する。価値関数 $f_v (\cdot)$ は、価値次元 $v \in V = \{ \textrm{achievement, power, security, conformity, tradition, benevolence, universalis, self-direction, simulation, hedonism} \}$ からの代替案の効用スコアを記述する。例えば、 $a_i$ が $a_j$ よりセキュリティの点でより好ましいとすれば、 $f_{security(a_i)} > f_{security(a_j)}$ となる。通常、価値関数の解析形式を見つけることはできないが、選好を考える上で重要なのは、2つの選択肢のうち、どちらがより高い安全性を与えるかである。
LIGHTでは、エージェントの価値観の優先順位はペルソナ記述によって反映される。図4aの例では、召使はconformityとtranditionを重んじ、self-directionとstimulationの優先度が低い人である。同じ価値関数を用いて価値優先度パーサー $f_v (p)$ を近似する。ここで、 $p$ はペルソナの記述であり、候補 $a_i$ の人物 $p$ に対する有用性または望ましさは、その値の優先順位と候補者の有用性スコアとの間のユークリッド距離である。

$v(a_i) = \sqrt{ \sum_{v \in \mathbb{V}} \left( f_v (p) - f_v (a_i) \right)^2 } \tag{1}$

いくつかの行動は物理的に不可能なこともあるため（例えば、エージェントが物体を運んでいない場合、物体を落とすことはできない）、意思決定プロセスは、精神状態からの制約に従う効用スコアを最大化する問題、すなわち、 $u ( a | c )$ であり、 $c$ は文脈または制約を表す。

アルゴリズム

　提案するフレームワークの全体的なアーキテクチャは、図4に示されている。各シナリオについて、LIGHT環境から設定記述（図4a）が提供される。これには場所の説明、オブジェクトのアフォーダンス、エージェントのペルソナ、エージェントが持っている、着ている、または振り回しているオブジェクトを含む。自由形式の会話、行動、感情は、観察履歴としてコミュニケーション中に記録される（図4b）。まず、精神状態解析器が、設定記述をグラフ表現に解析し、エージェントの精神状態を初期化する（step1, 2）。精神状態の更新の他に、物理的または因果的に不可能な行動を除外するための行動マスクを出力する（step3）。グラフエンコーダ（step4）とテキストエンコーダ（step5）は、それぞれメンタル状態グラフ $G_t$ と対話観察 $O_t$ をベクトル表現に変換する。また、同じテキストエンコーダを用いて、候補者 $C_t$ をエンコードする（step6）。Step7では、コンテキストベクトルは、bi-directional attention aggregator(Yuet al., 2018; Seo et al., 2016)によって結合され、各候補はMLPによってスコア付けさえる（step8）。行動マスクを適用して、現在の精神状態制約の下で実現可能な候補を取得する（step9）。Step10と11では、最後のステップから上位3つの候補が価値モデルに供給され、再ランク付けされる。環境内の他のエージェントからの応答を受け取ると、新しい観察が再び解析され、エージェントの心の状態を更新するために使用され、サイクルが繰り返されることになる。以下、各コンポーネントをより詳細に説明する。

精神状態トラッキング（ステップ1-2）

図5は、心的状態パーサーのアーキテクチャを説明する。ここで、 $R$ は関係型の最大数、 $N$ はエンティティの最大数とし、心的状態グラフ $G \in [ -1, 1 ]^{R×N×N}$ と定義する。初期心的状態グラフ $G_0$ は、設定記述 $O_0$ からルールベースのパーサーによって構築される。このグラフは関数 $f_e$ によって隠された状態 $h_0$ に符号化され、後にグラフの更新に使用される。ゲームステップ $t$ で、精神状態解析器は観察 $O_t$ から関連情報を解析し、エージェントの精神状態を $G_ {t-1}$ から $G_t$ へ更新する。観測 $O_t$ がステップ $t-1$ から $t$ へ漸進的に情報を伝えることを考慮し、各ステップでグラフ全体の代わりにグラフ更新 $\Delta g_t$ を生成する

$G_t = G_{t-1} \oplus \Delta g_t \tag{2}$

ここで $\oplus$ はグラフ更新操作である。グラフ更新は離散的または連続的であり、それぞれの更新方法の長所と短所に関する研究がなされている(Adhikari et al., 2020)。離散的なアプローチは、誤差の蓄積に悩まされるが、その分、解釈しやすいという利点があり、連続グラフモデルはデータから学習する必要があるが、起こりうるエラーに対してより堅牢である。本研究では、典型的な人間と機械の対話環境において、離散的なイベントと連続的な情報が混在していると考え、エージェントの心の状態を更新するためのハイブリッド（離散-連続）手法を提案する。ここでは、私たちがテストしたLIGHTの例では、アクションやイベントがテンプレートベースであるため、構文解析には離散的な方法を採用するのが適切であり、一方、発話は離散的な表現で符号化することが困難であるため、連続的なアップデートの方法を適用する。

離散グラフの定義と更新

　グラフ更新のために、 $\Delta g_t$ を次の二つの操作からなる更新の系列であると考える。

ADD(src,dst,relation)：ノードsrcからノードdstにrelationという名前のエッジを追加する。
DEL(src, dst, relation)：ノードsrc、ノードdst間のrelationという名前のエッジを削除する。

　LIGHTは、get, drop, put, give, steal, wear, remove, eat, drink, hugandhitなどのアクションを定義し、それぞれ1つまたは2つの引数を取る（例：give scepter to servant）。すべてのアクションは、 $G_{t-1}$ に作用する更新演算子の1つまたはシーケンスとして解析することができる。例えば、「エージェントにオブジェクトを与える」を実行するアクターは、DEL(actor, object, carrying)とADD(agent, object, carrying)に解析される。設定記述と離散イベントのルールベースの解析は、seq2seqデコーディングプロセスで置き換えることもできる。LIGHTでは両方の文字列がうまく構造化されているので、簡単のためにそのようなデコーダーの訓練を省略する。また、LIGHTのアクションは制約を満たしたときのみ実行されるため、現在の精神状態に応じた行動マスクも生成する。隣接行列をチェックすることで、アクセスできないオブジェクトに対して行われるアクション候補を除外している。

連続グラフの定義と更新

　また、エージェントの行動だけでなく、その発話がエージェントの精神状態に暗黙の影響を与える可能性もある。このような連続的な対話観察を扱うために、グラフ更新操作 $\oplus$ としてリカレントRNNを用いる。

$\begin{align} \Delta g_t &= f_{\Delta} \left( h_{G_{t-1}}, h_{O_t} \right), \\ h_t &= RNN \left( \Delta g_t, h_{t-1} \right), \tag{3} \\ G_t &= MLP(h_t). \end{align}$

関数 $f_{\Delta}$ は、直前の心的状態 $G_{t-1}$ と観測結果 $O_t$ からの情報を集約して、グラフ更新 $\Delta g_t$ を生成する。 $h_{G_{t-1}}$ はグラフエンコーダからの $G_{t-1}$ の表現（representation）、 $h_{O_t}$ はテキストエンコーダの出力、 $h_t$ は記憶として働く隠れ状態であり、そこからMLPを用いて新しい精神状態 $G_t$ を復号する。再帰性演算子には、LSTM(Hochre-iter and Schmidhuber, 1997)またはGRU(Cho et al., 2014)のいずれかを使用することができる。適用したグラフエンコーダとテキストエンコーダの詳細については、4.2節で紹介する。

アクションステップセレクタ（ステップ4-11）

　アクションセレクタは、エージェントの精神状態を条件として、予測タスク（すなわち、発話、アクション、または感情）に基づいて最適な候補を選択する。セレクタは、精神状態グラフを隠れ状態ベクトルに変換するグラフエンコーダ（図4④）、対話履歴とテキスト候補を符号化するテキストエンコーダ（図4⑤, 4⑥）、2つの文脈表現を融合するアグリゲーター（図4⑦）、各候補にスコアを割り当てるジェネラルスコアラー（図4⑧）、割り当てられたペルソナに基づいて候補を再ランク付けする価値観モデル（図4⑩）の5つのコンポーネントで構成されている。

グラフエンコーダ：精神状態のグラフ表現をエンコードするために、R-GCNs (Schlichtkrull et al., 2018)を使用する。R-GCNは、精神状態グラフのエッジの属性を埋め込む（relationのテキスト埋め込み）ためにGCNを用いるために採用された。
テキストエンコーダ：BERTベースのエンコーダが、[CLS]トークンに対応する最後の隠れ状態を用いて、テキストベースの対話履歴をベクトル表現に変換する。また、同じエンコーダを用いて、テキストの応答候補を符号化する。
アグリゲーター：心的状態と文脈化されたテキストの隠れ状態からの情報を利用するために、双方向注意層(Yu et al., 2018; Seo et al., 2016)が採用される。共同注意は、エージェントが対話の中で言及された記憶部分に集中することを可能にする。
スコアラー：各候補に文脈表現ベクトルを連結し、ソフトマックス活性化MLP層で各候補のスコアを生成する。
価値ランカー：すべての候補がランク付けされた後、上位3つの候補を選択し、提案された価値観モデルに従って再ランク付けを行う。価値観モデルは、知識ベースVALUENET(Qiu et al., 2022)で学習したBERTベースの利用度スコアラーである。カスタム入力フォーマット'[CLS] [$VALUE]s'を、BERTに入力する。例えば、以下のようになる。

$f_v(s) = \text{BERT}( [ \text{ [CLS ] }\$\text{ [ VALUE ]s}),$

ここで、[CLS]は回帰のための特別なトークン、sはシナリオ、[$VALUE]は関心のある価値次元 $d$ のTransformerを促すために定義した特別なトークンである（Li and Liang, 2021; Brownet al, 2020)。回帰ヘッドがモデルの上に置かれ、 $[-1,1$ ]の範囲内でユーティリティの連続的な推定を取得する。

VALUENETは、図6に示すように、10次元のシュワルツの価値観で構成されており、SOCIAL-CHEM-101(Forbes et al., 2020)からキュレーションされた社会シナリオから構成されている。そして、サンプルはAmazon Mechanical Turkのワーカーによってアノテーションされ、彼らは提供されたシナリオに対する態度について質問される。例えば、あなたが博愛を重んじる人であれば、「今日、私はネズミを葬り、弔った」と言うだろうか？その選択肢（「はい」「いいえ」「関係ない」）を数値化したものが「数値効用」であり、それぞれ+1、-1、0とする。

実験

　我々はLIGHTデータセットで実験を行い、我々のモデルを2種類のBERTモデルに基づく最先端の手法と比較した。また、提案するフレームワークが、エージェントが環境の詳細を把握し、価値主導の意思決定を行う上でどのように役立つかを実証するために、ケーススタディを実施することで、我々のモデル設計を正当化する。

実験のセットアップと実装

　LIGHTのダイアログは、データセットがリリースされると、train(8539)、valid(500)、seen test(1000) 、unseen test(739)に分けられる。unseenテストセットは、訓練データには登場しないシナリオで収集された対話から構成されている。対話の履歴、行動、感情を用いて、エージェントの次のターンを予測する。なお、原著論文では、オブジェクトのアノテーションを利用して、親和性のない行動を手動でフィルタリングしているが、我々は、エージェントの精神状態から実現可能な行動を自動的に推論する我々のモデルの能力を示すために、すべての候補を提供する。

ここでは、提案するフレームワークの実装の詳細について説明する。心的状態グラフは、シナリオに関わる全ての要素を含む構造化された設定文字列で初期化される。設定解析は一般的な解析ツールである正規表現とspaCy（Honnibal and Montani, 2017;Clark and Manning, 2016;Honnibal and Johnson, 2015）に基づき、図7に示すような初期心的状態グラフを生成する。関数 $f_e$ と $f_d$ について、我々は、tanh (Karlik and Olgac,2011) と ReLU (Agarap, 2018) の活性化を持つ2層MLPを使用する。テキストエンコーダーは、事前学習されたBERT（base-uncased）モデル(Wolf et al., 2020)である。また、収束を速くするために連続する層間のハイウェイ接続を採用し、パラメータを減らしオーバーフィッティングを防ぐために3基底分解を採用しています。

ベースラインモデル

　このタスクで最先端の性能を維持してきた2つのBERTベースのモデル(Urbanek et al., 2019)を強力なベースラインとして使用する。BERTBi-Rankerは、コンテキストと各候補のベクトル表現を生成する。各候補は、文脈埋め込みと候補埋め込みの間のドット積によってスコアが割り当てられる。BERT Cross-Rankerは、文脈の文字列と各候補を連結して、代わりにBERTモデルに文字列を与える。Bi-rankerと比較して、Cross-rankerは、各候補を符号化する際に、モデルが文脈に注目することを可能にする。

結果と考察

　表1は結果で、私たちのモデルは最先端のモデルよりも大きなマージンで上回っている。結果を理解するために、まず、離散、連続、および提案するハイブリッドパーサーを用いた心的状態グラフの設計を比較する。アクション予測タスクにおいて、離散的なパーサーは、純粋な連続的手法（+2.8%（seen）、+8.2%（unseen））、BERT Bi-Ranker（+9.6%（seen）、+14.6%（unseen））、BERT Cross-Ranker（+1.4%（senn）, +1.6% （unseen））を上回った。連続的な精神状態解析は、あまり頻繁でない行動によってもたらされる難しい制約を見逃す一方で、対話によって暗黙的にグラフを更新し、対話予測において離散的なものよりも良い結果を示した（+1.5%（seen）,+2.2%（unseen））ハイブリッド心的状態パーサーは、ほぼ全てのメトリクスにおいて、3つの中で最も良い結果を示した。また、LIGHTの感情予測は、文脈に厳密な制約がないため、難しいタスクであることがわかる。人間でさえ、27.0%（seen）、34.4%（unseen）の精度しか達成できない。次に、提案する行動マスク（ハイブリッド精神状態vs.ハイブリッド＋マスク）のアブレーション実験により、行動予測において行動精度を約1％向上させる有効性を証明することができた。図8は、精神状態が文脈に基づくエージェントの行動を支援することを示す図である。

　このように、サーバントと王冠の間には、「運ぶ」というタイプの非常に弱い関係があることがわかる。したがって、この時間ステップでは、サーバントは王冠を他の人に与えることはできないはずである。最後に、価値モデルを導入した後の結果を分析する。まず、ペルソナ記述に価値関数を適用して、エージェントの価値優先度を計算する。例えば、図4のサーヴァントのペルソナ記述では、「formity」「tradition」「safety」が他の次元よりもエージェントにとって高い効用スコアを持っていることがわかる。そこで、式1に基づいて、上位3つの候補の効用スコアを算出する。これにより、エージェントは与えられた役割に沿った意思決定を行うようになり、対話予測で+0.3%（seen）、+0.3%（unseen）、行動予測で+1.9%（seen）、+2.1%（unseen）、感情予測で+0.7%（unseen）と総合性能がさらに向上する。