izmyonの日記

奈良の山奥で研究にいそしむ大学院生の学習記録。

今日の論文2023/4/16:Multi-Task Learning for Depression Detection in Dialogs

Multi-Task Learning for Depression Detection in Dialogs

aclanthology.org

Chuyuan Li, Chloé Braud, and Maxime Amblard. 2022. Multi-Task Learning for Depression Detection in Dialogs. In Proceedings of the 23rd Annual Meeting of the Special Interest Group on Discourse and Dialogue, pages 68–75, Edinburgh, UK. Association for Computational Linguistics.

©2022 Association for Computational Linguistics

License: Creative Commons Attribution 4.0 International License(CC-BY)

本記事は、原著の内容に基づき筆者がまとめたものです。以下の図は、そこから引用しています。

This article is my summary based on the content of the original publication. The following figures are taken from it.

要点まとめ

  • うつ病は特に感情的なコミュニケーションのあり方に影響を与える深刻な精神疾患であり、他社との関わり方に影響を与えると言われている。

  • 本研究では対話におけるうつ病のシグナルについて検証する。うつ病と感情は互いに情報を与え合うことができるという仮説を立て、トピックと対話行為の予測を通じて対話構造の影響を探ることを提案する。

  • マルチタスク学習(MTL)アプローチにより、タスクをすべて対話に合わせた階層的モデリングと共同して学習させた。DAICコーパスとDailyDialogコーパスを用いて実験を行い、最高で70.6%のF1という、うつ病の検出におけるSOTAを達成し、うつ病と感情やダイアログ構成との相関、および異なるソースからの情報を活用するMTLの力を実証した。

  • ソースコード

github.com

モデルアーキテクチャ

  • MTLで成功するためには、主タスクと補助タスクが関連していることが条件の一つと考えられるため、精神状態に関連していると考えられる感情関連のタスクを選択した。

  • うつ病が会話中の他者との関わり方にも影響を与えるという仮定し、第一歩として対話行為と話題という浅いシグナルを調べることで対話構造とうつ病の関連付ける。また情報のレベルが異なるために発話ターンから文章まで、階層的なモデリングを提案する。

  • ベースラインモデル: Cerisaraet al. (2018)のものと同様の2レベルRNNを用いた。入力単語はゼロから単語の埋め込みを使用してベクトル化され、第一レベル(ターンレベル)では、埋め込みをbi-LSTMで各ターンに対して一つのベクトルを得る。第二レベル(ダイアログレベル)では、ターンのシーケンスをRNNネットワークに取り込み、最終的に出力はうつ病予測のための線形層に渡される。

  • MTLモデル:MTLアーキテクチャは、下図のように共有隠れ層とタスク固有の出力層で構成されるハードパラメータ共有アプローチ。補助タスクの中には、発話ターンレベル(感情、対話行為)でアノテーションされるものもあれば、文書レベル(うつ病、トピックなど)のものもあるため、階層的でタスク固有の出力層(MLP)を2つのレベルで配置する。文レベルの感情や対話行為の情報は、ターンレベルのLSTMネットワークで学習され、うつ病やトピックの予測に役立たれる。一方、上位レベルの情報は、下位レベルのネットワークを更新するためにバックプロパゲートすることができ、損失は各タスクの損失の合計とする。MTLの設定は、各タスクに等しい重みを設定する。

データセット

  • DAIC-WOZ:DIACコーパスのサブセットであり、参加者とエリー(人間二人が操作する仮想面接官のアニメーション)との2者面談の対話データである。1ダイアログで平均250発話ターンが含まれる1セッションが、189セッション含まれている。

  • DailyDialog:英語学習者向け13118の2者間対話(1対話当たりの平均発話回数は7.9回)が含まれており、日常生活から金融までの様々なトピックが扱われている。さらに、専門家により、7つの感情、4つの対話行為、および10のトピックが付されている。訓練セットには、感情と対話行為について87kターン以上、トピックについては11k対話が含まれてる。

結果と考察

  • MTL階層構造を用いた結果と多数決モデルやSOTAモデルと比較して下表に示す。ベースラインモデルはシングルタスクのナイーブ階層モデルである。マルチタスクアーキテクチャにすることで、各タスクを別々に追加した際に改善することができ、感情(+Emo)やトピック(+Top)分類タスクを追加すると F_1が+11.5%以上増加し、対話行為(+Diag)では最高で+16.9%の増加が確認された。これは各タスクがうつ病検出の主要な問題と関連があることを示している。トピックを追加した場合、STLと比較して精度がわずかに低下するが F_1はよくなっており、少数派タスク(非うつ病)の予測が改善せれる。また、Precisionの面では異なるレベルのタスク(うつ病「+Emo」とうつ病「+Diag」)がより役立つようである。これは、大域的な表現よりも先に、より優れた局所的な表現(スピーチターン)を構築するのに役立つと推測される。うつびょう 検出と三つの補助タスク(+Emo+Diag+Top)を組み合わせて、4つのタスクすべてを共同学習すると、すべてのメトリクスが改善される。

  • うつ病患者は到底の感情を表現する傾向があり、感情がメインタスクに有益なのは自然である。これらの結果は、感情と対話構造の両方が補完的な情報を提供することで役立つことを示し、補助タスクのパフォーマンスに関する対話構造をより細かくモデリングする研究への道を開くものである。