izmyonの日記

奈良の山奥で研究にいそしむ大学院生の学習記録

メンタルヘルスケアのための対話システム:レビュー論文のレビュー② ―開発のための技術および評価指標

Preface

 Alaa A. Abd-alrazaqらによる、メンタルヘルスのための対話システムに関する、一連のレビュー論文についてのまとめの第二弾。第一弾は、以下。

izmyon.hatenablog.com

それぞれのレビュー論文について、とりあえずAbstractとPrincipal findingsを訳し、それ以外の個人的に面白そうな知見はOther Interesting Findingsにまとめた。今回は、開発に用いた技術についてのレビューと、評価指標に関するレビューの二つについてまとめる。

Technical Aspects of Developing Chatbots for Medical Applications: Scoping Review

www.jmir.org

Safi Z, Abd-Alrazaq A, Khalifa M, Househ M Technical Aspects of Developing Chatbots for Medical Applications: Scoping Review J Med Internet Res 2020;22(12):e19127, doi: 10.2196/19127, PMID: 33337337, PMCID: 7775817

©Zeineb Safi, Alaa Abd-Alrazaq, Mohamed Khalifa, Mowafa Househ. Originally published in the Journal of Medical Internet Research (http://www.jmir.org), 18.12.2020.

License: Creative Commons Attribution 4.0 (CC-BY)

The following is the edited translation.

Abstract

Background

 チャットボットは、ユーザーと自然言語による対話を行うことができるアプリケーションである。医療分野では、さまざまな目的でチャットボットが開発・利用されている。患者にタイムリーな情報を提供するなど、メンタルヘルスの治療者へのアクセスなどといった文脈で重要な役割を果たしいる。1960年代後半に最初のチャットボットであるELIZAが開発されて以来、さまざまな健康目的のチャットボットをさまざまな方法で開発するための多くの努力が続いている。

Objective

 本研究は、最適な開発方法を説明し、チャットボット開発研究者の将来の研究開発を支援するため、医療分野で使用されるチャットボットに関する技術的側面と開発方法論を探求することを目的としたものである。

Methods

 8つの文献データベース(IEEEACM、Springer、ScienceDirect、Embase、MEDLINE、PsycINFO、Google Scholar)で関連論文を検索した。また、選択した論文の前方および後方参照チェックを行った。研究の選択は1人の査読者が行い、選択された研究の50%は2人目の査読者が無作為にチェックした。結果の統合にはナラティブアプローチを用いた。チャットボットは、開発における異なる技術的側面に基づいて分類された。各モジュールを実装するためのさまざまな技術に加え、主なチャットボットの構成要素が特定された。

Results

 最初の検索で2481件の論文が見つかり、その中から包含基準および除外基準に合致する45件の研究を特定した。ユーザーとチャットボットの間のコミュニケーションで最も一般的な言語は英語であった(n=23)。テキスト理解モジュール、対話管理モジュール、データベース層、テキスト生成モジュールの4つの主要なモジュールを特定した。テキスト理解と対話管理の開発手法で最も多いのはパターンマッチング法である(それぞれn=18、n=25)。テキスト生成は固定出力が最も多い(n=36)。オリジナルの出力生成に依存する研究は非常に少なかった。ほとんどの研究は、会話を通してチャットボットが異なる目的で使用するために、医療知識ベースを保持していた。いくつかの少数の研究は、対話履歴を保持し、ユーザーデータと以前の会話を収集した。

Conclusions

 多くのチャットボットが医療用として開発され、そのスピードは増している。最近、チャットボットのシステム開発機械学習ベースのアプローチを採用するシフトが見受けられる。臨床成果をさまざまなチャットボット開発技術や技術的特徴と関連付けるために、さらなる研究を行うことができる。

Principal Findings

 チャットボットの主要コンポーネントと、これらのコンポーネントの連携方法について報告する。チャットボットは通常、テキスト理解モジュール、対話管理モジュール、データ管理層、テキスト生成モジュールの4つの主要コンポーネントで構成されている。

 チャットボットの開発で採用されている最も一般的な設計手法は、テキスト理解と応答生成のためにパターンマッチングを用いることである。一方、機械学習や生成手法は、医療領域におけるチャットボットの開発で最も一般的に使用されていない手法の一つである。これは主に2つの理由に起因する。まず、機械学習に基づく手法よりもパターンマッチングの手法に依存する一つ目の理由は、パターンマッチングの手法は、明確に定義されたクエリに対して正確なレスポンスを生成し、結果としてミスが少なくなるため、より信頼性が高いからである。機械学習ベースの手法は、通常、さまざまな種類のエラーを発生させるため、医療アプリケーションでは許容されない。2つ目の理由は、機械学習分野の状況が急速に発展し、特に深層学習の出現によってその手法の頑健性が高まったのは、ここ数年のことだからである。古い手法ではルールベースのチャットボットやパターンマッチングアルゴリズムに依存していたが、テキスト理解や応答生成に機械学習を利用した手法はすべて2017年から2019年の間に提案されたものである。また、機械学習手法を使用していない可能性がある理由として、機械学習ベースのアプローチは、大量のドメイン固有のデータを使用して学習する必要があり、医療分野では不足していて入手が困難な可能性があるという事実が考えられる。全体的に、機械学習アプローチとアルゴリズムは、メンタルヘルス自閉症などの特定の医療状態に使用するチャットボットの開発により適しており、ルールベースのアプローチは、一般的な医療目的に使用するチャットボットの開発により適していることが分かった。一方、パターンマッチング手法やアルゴリズムは、特殊な医療と一般的な医療の両方に利用されるチャットボットの開発により広く利用されていた。

 データ管理の面では、開発したチャットボットは、医学的事実の辞書を含む医学知識ベース、ユーザーの属性や好みに関する詳細を含むユーザー情報データベース、ユーザーに応答する会話文の全エントリーを含む対話スクリプトデータベースの3種類のデータベースを記録していた。どのようなデータベースを保持するかは、チャットボットの種類とターゲットとする機能によって異なる。教育用チャットボットは通常、医療用知識データベースを保持する。ユーザーの感情に基づいてコンテキストを切り替えるチャットボットは、通常、ユーザー情報データベースを保持する。

 開発されたチャットボットの多くは、ユーザーとのコミュニケーション言語として英語を使用しており、ドイツ語、中国語、アラビア語などの他の言語はあまり見られなかった。これは、発表の多くが米国発であり、次いで英語を第一言語とするオーストラリア発であることと整合的である。

Other Interesting Findings

 動的な対話管理はより自然なユーザー体験を提供するにもかかわらず、開発されたシステムのほとんどは静的な対話管理手法に依存している。ユーザーの感情に基づいて、あるいはユーザー入力のトピックの変化を検出して対話のコンテキストを変更することは、チャットボットの開発において考慮すべき重要な点である。

 近年、さまざまな応用分野において、対話エージェントの開発に機械学習人工知能の手法を用いることが増えている。チャットボットの開発における機械学習ベースの手法の採用率は、近年増加傾向にあるとはいえ、まだ比較的低い水準にある。教師ありの機械学習アルゴリズムは、特殊な病状や疾患を対象としたチャットボットの開発に適しているようであり、ルールベースの手法は、一般的な医療目的で使用するチャットボットの開発に多く利用されているようである。機械学習の手法を用いることで、よりダイナミックで柔軟な対話の管理、幅広い応答の生成など、より優れたテキスト理解を実現し、よりリアルなユーザー体験を提供できるエージェントを開発することができる。

 よりオープンに、対話管理[4]、テキスト理解[5]、テキスト生成[6]の方法におけるstate-of-the-art手法のより幅広い適応を文献により公開することは、医療分野における会話型エージェントの開発に本当に有益である。

 注目すべきは、チャットボット開発の技術的な側面が、必ずしも研究において明確に言及されていないことである。考案されたアーキテクチャは一般的なものであり、必ずしもすべての開発されたチャットボットに適用されるわけではない。1つ以上のコンポーネントが省略されても、チャットボットは正常に機能する可能性がある。

Technical Metrics Used to Evaluate Health Care Chatbots: Scoping Review

www.jmir.org

Abd-Alrazaq A, Safi Z, Alajlani M, Warren J, Househ M, Denecke K Technical Metrics Used to Evaluate Health Care Chatbots: Scoping Review J Med Internet Res 2020;22(6):e18301, doi: 10.2196/18301, PMID: 32442157, PMCID: 7305563

©Alaa Abd-Alrazaq, Zeineb Safi, Mohannad Alajlani, Jim Warren, Mowafa Househ, Kerstin Denecke. Originally published in the Journal of Medical Internet Research (http://www.jmir.org), 05.06.2020.

License: Creative Commons Attribution 4.0 (CC-BY)

The following is the edited translation.

Abstract

Background

 対話エージェント(チャットボット)は、ヘルスケア分野での応用の歴史が長く、患者の自己管理支援やカウンセリングなどのタスクに利用されてきた。医療システムへの需要の高まりと人工知能(AI)能力の向上に伴い、その利用は拡大すると予想されている。しかし、ヘルスケア用チャットボットの評価に対するアプローチは多様かつ行き当たりばったりに見えるため、この分野の進歩の妨げになる可能性がある。

Objective

 本研究は、ヘルスケアチャットボットを評価するために先行研究が使用した技術的(非臨床的)な指標を特定することを目的としている。

Methods

 7つの書誌データベース(例:MEDLINE、PsycINFO)を検索し、さらに含まれる研究および関連するレビューの後方および前方参照リストチェックを行うことで研究を特定した。2人の査読者が独立して研究を選択し、含まれる研究からデータを抽出した。抽出されたデータは、特定された指標を、指標が評価するチャットボットの観点に基づくカテゴリにグループ化することによって、ナラティブアプローチにより統合された。

Results

 検索された1498件の引用のうち、65件の研究がこのレビューに含まれた。チャットボットは27の技術的メトリクスで評価され、それらはチャットボット全体(例:ユーザビリティ、分類器の性能、速度)、応答生成(例:理解度、リアルさ、反復性)、応答理解(例:ユーザーが評価したチャットボットの理解力、単語エラー率、概念エラー率)、美観(例:仮想エージェントの外観、背景色、コンテンツ)に関連するものであった。

Conclusions

 ヘルスチャットボットの研究の技術的指標は多様であり、調査デザインとグローバルユーザビリティの指標が主流であった。標準化の欠如と客観的な指標の少なさは、ヘルスチャットボットの性能を比較することを困難にし、この分野の発展を阻害する可能性がある。私たちは、研究者が会話ログから計算されたメトリクスをより頻繁に含めることを提案する。さらに、チャットボットの研究に含めるための特定の状況に対する推奨事項を備えた技術的なメトリックのフレームワークを開発することを勧める。

Principal Findings

 現在、ヘルスチャットボットの評価には標準的な方法がないことが明らかになった。ほとんどの観点は、自述式アンケートやユーザーインタビューを使って研究されている。一般的な測定基準は、応答速度、単語エラー率、概念エラー率、対話効率、注意推定、タスク完了度である。様々な研究がチャットボットの異なる観点を評価し、直接の比較を複雑にしている。このばらつきの一部は、チャットボットの実装とその明確なユースケースの個々の特性によるものかもしれないが、応答の適切さ、理解度、現実性、応答速度、共感性、反復性などの指標が、それぞれごく一部のケースにしか適用できないとは考えづらい。また、客観的な定量指標(例えば、ログレビューに基づく指標)は、報告された研究において比較的稀にしか使用されていない。したがって、我々は、チャットボットの研究に含めるための特定の状況に対する勧告を伴う技術的なメトリックの評価フレームワークに向けて研究開発を継続することを提案する。

 Jadejaら[81]は、チャットボットの評価について、情報検索(IR)視点、ユーザー体験(UX)視点、言語視点、AI(人間らしさ)視点の4つの次元を紹介している。先行研究[14]では、ヘルスチャットボットは必ずしも情報を取得するためだけに設計されていないため、IRの視点をタスク指向の視点に修正し、さらにシステム品質とヘルスケア品質の視点を加えて、この分類を適応・拡大した。技術的なメトリクスの定義から外れるヘルスケア品質の観点を除くと、このスコーピングレビューの結果は、これらすべての次元が実際にヘルスチャットボットの評価で表現されていることを示している。むしろ問題は、自己報告とUXの視点に偏っていることに加え、何をどのように測定するかが一貫していないことにあるようである。ヘルスチャットボットの品質に特化した標準的な指標と対応する評価ツールを考え出すには、さらなる研究が必要である。

 我々は、ユーザビリティがヘルスチャットボットの最も一般的に評価される観点であることを発見した。System Usability Scale (SUS [82,83])は、ユーザビリティを評価する研究の大部分では使用されていなかった(多くの場合、単一の調査質問が代わりに使用されていた。)が、我々が繰り返し使用されていることを観察した確立されたユーザビリティ尺度である。SUSは、非独占的であり、技術にとらわれず、製品間の比較をサポートするように設計されている[82]。そのため、研究者が評価にSUSを含めることを標準化することで、ヘルスチャットボットのUXのグローバルな評価は、品質と比較可能性が向上する可能性がある。しかし、Holmesらの研究[84]は、ユーザビリティとUXを評価する従来の方法をヘルスチャットボットに適用した場合、それほど正確ではない可能性があることを示した。そのため、ヘルスチャットボットのための適切な指標に向けては、まだ研究が必要である。

 XiaoIce[85]に代表されるように、ソーシャルチャットボットの成功指標としてConversational-turns Per Session(CPS)が提案されている。ヘルスチャットボットの目的はソーシャルチャットボットと同一ではないが、CPSがソーシャルチャットボット領域で標準的な指標として受け入れられるようになれば、健康チャットボットの評価でソーシャルエンゲージメントの次元を評価するための標準指標の有力候補になるだろう。社会的次元に関連する代替・補足的な指標としては、ユーザーにチャットボットの共感度を採点してもらう方法があるが、CPSは客観的・定量的な指標であるという利点がある。インタラクション時間やタスクにかかる時間など、他の客観的かつ定量的な指標もCPSの代替となり得るが、例えばユーザーが他のタスクとチャットボットのインタラクションをマルチタスクしている場合、CPSよりもエンゲージメントの代表度が低くなる可能性がある。ソーシャルエンゲージメントの他に、タスク完了度(会話ログの分析により評価されることが多い)も有望なグローバル指標である。

 標準化のためのさらなる領域は、応答の質であろう。我々は、応答生成は広く評価されているが、非常に多様な方法であることを確認した。反応の生成と理解に関する標準的な尺度が出現すれば、研究の比較可能性が大きく向上する。この分野で有効性が検証された尺度を開発することは、チャットボット研究への有用な貢献となるであろう。

 我々は、適用可能で実用的な評価であれば、健康チャットボットの研究に分類器の性能を含めることを称賛する。難易度の違いにより、ドメイン間で生のパフォーマンス(例えば、曲線下の面積)を比較することはあまり意味がないかもしれない。理想的には、チャットボットのパフォーマンスは、手元のタスクに対する人間の専門家のパフォーマンスと比較されるだろう。さらに、我々は、製品が成熟するにつれて、ヘルスチャットボットの研究における性能測定の進歩の機会があると認識している。初期段階の良い評価指標は、プロダクトが良く機能するために、応答品質と応答理解を評価するものとなるだろう。その後の実験では、自己申告によるユーザビリティや、ソーシャルエンゲージメントの指標の評価を進めることができる。分類器の性能は、臨床結果を評価する試験が必要かどうかを判断するための技術的な性能評価となる。