izmyonの日記

奈良の山奥で研究にいそしむ大学院生の学習記録。

今日の論文2023/4/21:Graph Neural Network Policies and Imitation Learning for Multi-Domain Task-Oriented Dialogues

Graph Neural Network Policies and Imitation Learning for Multi-Domain Task-Oriented Dialogues

aclanthology.org

Thibault Cordier, Tanguy Urvoy, Fabrice Lefèvre, and Lina M. Rojas Barahona. 2022. Graph Neural Network Policies and Imitation Learning for Multi-Domain Task-Oriented Dialogues. In Proceedings of the 23rd Annual Meeting of the Special Interest Group on Discourse and Dialogue, pages 91–100, Edinburgh, UK. Association for Computational Linguistics.

©2022 Association for Computational Linguistics

License: Creative Commons Attribution 4.0 International License(CC-BY)

本記事は、原著の内容に基づき筆者がまとめたものです。以下の図は、そこから引用しています。

This article is my summary based on the content of the original publication. The following figures are taken from it.

要点まとめ

  • タスク指向の対話システムは、人間と会話しながら特定の目標を達成するために設計されている。しかし実際には、複数のドメインやタスクを同時に扱わなければならない場合がある。その際はマルチドメイン対話に対応するため、タスクマネージャがドメインの変更を考慮し、異なるドメイン/タスクにわたって計画を立てることができる必要がある。

  • だがこのような状況では、報酬信号が乏しい一方で、状態-行動の次元が大きくなるため、強化学習は困難となる。本研究における実験では、グラフニューラルネットワークに基づく構造化ポリシーと、異なる程度の模倣学習を組み合わせることで、マルチドメインダイアログを効果的に扱えることを示唆している。報告された実験は、標準的なポリシーに対する構造化ポリシーの利点を強調するものである。

背景

  • タスク指向の対話システムは、人間との会話中に特定の目標を達成するために設計されている。レストランやホテルの検索や予約など、異なる領域におけるさまざまなタスクを支援することができる(Zhu et al., 2020)。例えば、パーソナルアシスタントやチャットボットのような実際のアプリケーションは、ユーザーはホテルを見つけ(第1のタスク、第1のドメイン)、予約し(第2のタスク、第1のドメイン)、近くのレストランを見つけたい(第1のタスク、第2のドメイン)など、複数のタスクに対処する必要があり、さらにタスクは複数のドメインにまたがる可能性がある。

  • 通常、対話のゴールはスロットフィルタリング問題としてモデル化され、対話マネージャ(DM)は、文脈に応じて対話アクションを選択するこれらのシステムのコアとなる要素であり、強化学習(RL)は、DMのモデルに使用できる。その場合、ポリシーは、目標を満足する確率を最大化するように訓練される(Gao et al., 2018)。

  • この複雑さを扱う方法の1つは、意思決定プロセスを分解するドメイン階層に頼ること、別の方法は、ポリシーをスケールアップすることによって、あるドメインと別のドメインを簡単に切り換えることである。我々の主な貢献は、グラフニューラルネットワーク(GNN)のような構造化ポリシーとある程度の模倣学習(IL)を組み合わせることで、マルチドメイン対話を処理するのに有効であることを研究することである。

関連研究

  • 基本的な階層強化学習(Dayan and Hinton, 1993; Parr and Russell, 1998;Sutton et al., 1999; Dietterich, 2000)は、対話管理に関するこれまでの一連の研究(Budgeianowski et al., 2017; Casanueva et al.,2018a,b; Chen et al.,2020b) にインスピレーションを与えた。最近では、GNN (Zhou et al., 2020;Wu et al., 2020) による構造化階層は、独立なサブポリシーの学習を可能にする (Chen et al., 2018, 2020a) 。これらの研究は、ドメイン依存性を排除するために共通の特徴空間にスロット表現を標準化するDomain Independent Parametrisation(DIP)を採用しており、ポリシーは異なるスロットを同じ方法で扱うことができる。したがって、可変数のスロットを扱い、同様のタスクで異なるドメインに移行するポリシーを構築することが可能である (Wang et al., 2015) 。

  • 我々の貢献は、Chenら(2020b)と三つの点で異なる。第一にマルチドメイン専用のフレームワークであるCONVLAB(Zhu et al., 2020)で実験を行う。第二に、ドメインをアクティブにする際にダイアローグステートトラッカー(DST)の出力を破棄しない。第三に、GNN構造を各ドメインに適応させ、エッジの重みを共有しながら相対的ノードを維持する。

  • 報酬のスパース性は、教師ポリシーによって何らかの知識を注入して学習をガイドすることで回避することが出来る。 このアプローチは、模倣学習(IL: imitation learning)(Hussein et al., 2017)と呼ばれ、エージェントがその教師を模倣して学習するだけの純粋な行動クローニング(BC: behaviour cloning)から、ヒントが提供されない強化学習(RL)(Shah et al., 2016; Hester et al., 2018;Gordon-Hall et al., 2020; Cordier et al., 2020)へと変化する。

模倣学習によるGNNポリシーの拡張

 CONVLABで発表されたマルチタスク設定を採用し、1つの対話に以下のタスクを持つことができる。(i)データベースへの問い合わせとオファーを行うために情報を要求する「検索」、(ii)アイテムを予約するために情報を要求する「予約」。一つのダイアログに、ホテル、レストラン、アトラクション、電車などの複数のドメインを含めることも可能である。

図1に示すように、本手法は、(i)ドメインレベル(スロット数の変化に対応可能)、(ii)マルチドメインレベル(ドメインの変化に対応可能)で適応できるように設計されている。 まず、DSTモジュールは、どのドメインをアクティブにするかを選択する。 次に、図1aに示すように、複数ドメインの信念状態(および行動空間)をアクティブなドメインに投影する(すなわち、アクティブなドメインに対応するDIPノードのみを保持する)。その後、Chenら(2020b)のようにGNNメッセージパッシングを適用するが、意思決定モジュールのドメイン固有DIPノード間のみである(図1b)。

GNNポリシー

 GNN構造とは、DIPからノードを抽出した完全連結グラフのことである。各スロットのパラメータを表すスロットノード(S-NODEと表記)とドメインのパラメータを表す一般ノード(スロット独立ノードを表すI-NODE)の2種類を区別する。この抽象的な構造は、スロット間の関係をモデル化する方法であり、ウェイトシェアに基づく対称性を利用するものである(図1b)。

模倣学習

 構造化アーキテクチャに加え、エージェントの探索をガイドするために、あるレベルのILを使用する。実験では、CONVLABの手作り(handcrafted)ポリシーを教師(oracle)として使用したが、他のポリシーを使用することもできる。BC(Behaviour cloning)は、教師ポリシーを模倣しようとする純粋な教師あり学習法である。 その損失関数は、分類問題におけるクロスエントロピー損失である。Imitation Learning From Oracle Demonstrations (ILFOD) は、エージェントがオラクルのアクションをデモストレーションとして再生し、再生バッファに注入することを可能にするRL手法である。実験では、エージェント自身のアクションの半分を、オラクルによって生成されたものとともにバッファに保持した。Imitation Learning From Oracle Supervision(ILFOS)は、エージェントが教師付き損失、すなわちマージン損失で学習する場合の教師あり学習強化学習の組み合わせ(Hester et al, 2018)である。

実験

 (i)ベースラインを提案するGNNに段階的に拡張する、(ii)ILで探索を誘導する、ことによりアブレーション研究を行った。すべての実験はランダムな初期化で10回リスタートし、500対話で評価した結果を平均化した。学習は1,000ダイアログをステップに10,000ダイアログまで行い、手法の可変性と安定性を分析した。

モデル

 ベースラインはACERであり、これは非常に洗練されたアクタークリティック手法である(Wang et al., 2016)。アブレーション研究の後、我々はGNNの構造を近似するためにFNNにいくつかの階層の概念を徐々に追加した。FNNは、DIPパラメータを持つフィードフォワードニューラルネットワークである。FNN-REFはCONVLABの複数アクションを持つネイティブパラメタ(no DIP)のFNNである。HFNNはドメイン選択モジュールを持つ階層的ポリシーで,各ドメインに対するFNNに基づく。HGNNはドメイン選択モジュールとGNNに基づく階層的ポリシー。UHGNNはすべてのドメインに対して固有のGNNを持つHGNNである。

指標

 すべてのタスクについて、ポリシーの性能を評価した。 検索タスクでは、precision、recall、F-scoreの指標であるinform rateを使用する。bookタスクでは、accuracyメトリックスであるbook rateを使用する。対話は、informのrecallとbook rateの両方が1である場合にのみ、成功したと判定される。対話は、ユーザーの視点から見て成功した場合(つまり、提供された情報がシミュレータが客観的に期待したものでない場合、成功しなくても対話は完了する)、完了したとみなされる。

評価

 模擬ユーザーを用いて、対話マネージャと対話システムの評価を行った。

対話マネージャー

 図2に示すように、我々はACERを用いたアブレーション研究を実施した。まず、ACERのすべてのRL(図2a)は、BC(図2b)とは対照的に、教師なしで学習することが困難であることがわかる。特に、階層的意思決定ネットワーク(HFNN:緑)、グラフニューラルネットワーク(HGNN:赤)、ジェネリックポリシー(UHGNN:紫)は、FNNと比較して大幅に性能が向上することが分かる。 同様に、ILFOD(図2c)やILFOS(図2d)のようなILを使用すると、性能が顕著に向上する。したがって、汎用GNNを学習することにより、協調的な勾配更新と多領域対話の効率的な学習が可能となる。逆に、HFNNsを用いた階層的な意思決定では、系統的な性能向上は保証されないことがわかった。これらの結果は、GNNがマルチドメインでの対話方針の学習に有用であることを示唆しており、学習中にドメインを越えてその場で転送し、性能を向上させることができる。最後に、ILFOD(図2c)については、すべてのアーキテクチャが大きなばらつきの影響を受けていることがわかる。 このことから、マルチドメインダイアログの管理は、デモンストレーションを用いても困難であり、報酬を伴う学習は、ロバストな成功には不十分であることがわかる。

対話システム

 我々は、対話パイプライン全体におけるポリシー学習アルゴリズムを評価し、特に我々の最良のDMポリシーACER-ILFOS-UHGNN(短縮名ACGOS)を評価した。 実験結果は表1に示す。我々のアプローチの性能は、ダイアログアクトを直接渡す場合、手作り(handcrafted)の方針(教師)に近いことがわかる(97.3vs.97.0)。また、BERT NLU(Devlin et al., 2018)とtemplatebasedNLG(83.8vs.81.7)を用いた場合にも、手作りのポリシーに近い性能である。これは、有意差のあるベースラインと比較してはるかに優れている(例えば、ACGOSの81.7と事前訓練されたPPOの71.7)。これらの結果は、標準的なポリシーと比較した場合の構造化ポリシーの利点を強調している。