Preface

　Alaa A. Abd-alrazaq(College of Science and Engineering, Hamad Bin Khalifa University, Qatar)らによる、メンタルヘルスのための対話システムに関する、一連のレビュー論文についてまとめる。それぞれのレビュー論文について、とりあえずAbstractとPrincipal findingsを訳し、それ以外の個人的に面白そうな知見はOther Interesting Findingsにまとめた。今回は、患者の見方と意見に着目したレビューと、有効性と安全性に関するレビューの二つについてまとめる。

（ちなみに、今回扱っている論文はいずれもOpen Accessであり、Creative Commons License (CC-BY)なので、適切な引用方法及びライセンス表示により利用できるが、出版社が権利を有する論文をこのような形でブログで転載すると著作権侵害になり出版社に怒られる可能性があるので気を付けましょう。）

Perceptions and Opinions of Patients About Mental Health Chatbots: Scoping Review

www.jmir.org

Abd-Alrazaq AA, Alajlani M, Ali N, Denecke K, Bewick BM, Househ M Perceptions and Opinions of Patients About Mental Health Chatbots: Scoping Review J Med Internet Res 2021;23(1):e17828, doi: 10.2196/17828, PMID: 33439133, PMCID: 7840290

©Alaa A Abd-Alrazaq, Mohannad Alajlani, Nashva Ali, Kerstin Denecke, Bridgette M Bewick, Mowafa Househ. Originally published in the Journal of Medical Internet Research (http://www.jmir.org), 13.01.2021.

License: Creative Commons Attribution 4.0 (CC-BY)

The following is the edited translation.

Abstract

Background

　チャットボットは、メンタルヘルスケアサービスへのアクセスを改善するために、過去10年間使用されてきた。患者の認識や意見は、ヘルスケアへのチャットボットの導入に影響を与える。メンタルヘルスチャットボットに関する患者の認識や意見を評価するために、多くの研究が行われてきた。著者らの知る限り、メンタルヘルスチャットボットに関する患者の認識や意見をめぐるエビデンスのレビューはない。

Objective

　本研究は、メンタルヘルス用チャットボットに関する患者の認識と意見に関するスコーピングレビューを行うことを目的とする。

Methods

　PRISMA（Preferred Reporting Items for Systematic reviews and Meta-Analyses）extension for scoping reviewsガイドラインに沿ってスコーピングレビューを実施した。研究は、8つの電子データベース（例えば、MEDLINEとEmbase）を検索し、さらに、このレビューに含まれる研究と関連する他のレビューの後方および前方参照リストチェックを行うことによって同定された。合計で2名の査読者が独立して研究を選択し、含まれる研究からデータを抽出した。データは主題分析により統合された。

Results

　検索された1072件の引用のうち、37件のユニークな研究がレビューに含まれた。主題分析では、研究の結果から、有用性、使いやすさ、応答性、理解度、受容性、魅力、信頼性、楽しさ、内容、比較の10のテーマが生成された。

Conclusions

　メンタルヘルスのためのチャットボットについて、患者が全体的に肯定的な認識や意見を持っていることが示された。今後取り組むべき重要な課題は，チャットボットの言語能力であり，想定外のユーザー入力に適切に対処できること，高品質の応答を提供できること，応答に高い多様性があることなどが求められる。臨床に役立てるためには、チャットボットのコンテンツを個人の治療勧告と調和させる方法を見つけなければならない。つまり、チャットボットの会話のパーソナライゼーションが必要である。

Principal Findings

　このレビューの主な発見は、ヘルスケアプロバイダーが長期にわたって提供できないチャットボットの機能があるということだ。これらの機能は、メンタルヘルスのチャットボットにおいて有用であると認識されており、リアルタイムフィードバック、ウィークリーサマリー、日記のような継続的なデータ収集が挙げられる。有用性と使いやすさは、分析された論文で最も包括的に研究されている。全体的に、メンタルヘルスチャットボットの有用性は、患者に高く認識されている。これらの研究によると、患者はチャットボットシステムを使いやすいと感じている。インタラクションが楽しいと思われることと信頼できると認識されることは、チャットボットとインタラクションする際の重要な仲介者である[70]。また同時に、チャットボットは便利で使いやすいと認識されているが，報告された研究の参加者は，それらのシステムの既存の会話の限界も認識していた：会話は浅く，混乱し，または短すぎると認識されていた。これは、今後のメンタルヘルスチャットボットの開発で取り組むべき重要な課題を指摘している。会話の質はまだ改善する必要がある。この文脈では、応答性と応答の多様性という点でのチャットボットの品質が重要な課題である。現在、システムは応答回数がかなり制限されているが、これはLaranjoら[71]がすでに報告しているように、多くのチャットボットの開発初期段階であるためである可能性がある。関連する重要と判断されるもう一つの側面は、提供された情報の品質と治療医の勧告との一貫性である。

Other Interesting Findings

　有用であるためには、ユーザーに複数の方法で応答できる高品質のチャットボットを作成する必要がある。メンタルヘルスチャットボットは、やる気と魅力があると認識され、ユーザーとの関係を構築するために共感的でなければならない。de Gennaroによる研究[76]は、共感的なチャットボットが社会的排除の犠牲者に感情的なサポートを提供する可能性があることを実証し、これを支持している。

　標準的な医療環境における患者-医師、患者-セラピストの関係は、信頼と忠誠心によって特徴付けられる。チャットボットと患者の関係も信頼できるものにするための方策を講じる必要がある。これは、収集した患者データの二次利用について、データ保存や分析手順に関する情報を提供することで実現できるだろう。もう一つのアプローチは、対面式とウェブベースまたはデジタルセラピーを組み合わせたブレンドセラピー[77]で、認知行動療法における費用対効果が高く、利用しやすい形式の可能性を示している。これは、チャットボットがセラピーに関連していなければならないという、もう一つの実用的な意味合いにも対応することになる。特に、チャットボットが提供する推奨事項は、治療を行う医療従事者の推奨事項と一致していなければならない。このため、チャットボットを医療プロセスに統合することが求められ、チャットボットは医療従事者の推奨事項や治療計画を知っておく必要がある。最後に、患者におけるチャットボット利用の受容性を高めるには、医師がそれらのシステムの有用性を納得し、患者に推奨するようにする必要がある。研究によると、有用性を確信している医師がすでに存在することが示唆されている[72]。患者の医師に対する信頼の絆が強いことを考えると，医師がアプリを推奨すれば，患者もその有用性に納得するはずである。

　メンタルヘルスチャットボットの言語能力を向上させる必要性はまだある[71]。ユーザーの入力を理解し、適切に応答する能力を高めなければならない。さらに、チャットボットの応答の多様性を確保するために、動的な応答を生成する方法が必要である。言語的または語彙的な可変性は、ルールベースのチャットボットの知識ベースに追加することができるが、その能力は常に知識ベースの完全性に依存する。知識ベースから応答をわずかに適応または再定式化する方法は、この問題への対処に役立つ可能性がある。ヘルスケア以外のドメインでは、対話の質を向上させるためにクラウドソーシングが適用されている[78]。しかし，ヘルスケアでは，応答や勧告が臨床的なエビデンスに沿ったものであることを保証しなければならないため，データからの学習には注意を払わなければならない。ヘルスチャットボットを学習させるために、どのように臨床的なエビデンスを学習させるかについては、まだ未解決の研究課題である。

　さらに、予期せぬユーザーの入力に対処し、危機的状況を検知する方法も開発しなければならない。メンタルヘルスでは、自殺や自傷の危険性がある人に適切に対応することが重要である[79]。センチメント分析は、自殺や自傷行為に関するソーシャルメディアメッセージの分析に成功したことが証明されている[80]。これらの手法は、健康チャットボットにおいても有用である可能性がある。主な課題は、緊急事態が検出された後に適切な反応をすることである。もう一つの興味深い研究トピックは、個々のユーザーに対するチャットボットのカスタマイズやパーソナライゼーションである。このトピックはまだ初期段階にある[81]。メンタルヘルスのチャットボットが決定木や固定的に実装されたルールベースに依存している限り、特定のユーザーのニーズに適応することはできないだろう。さまざまなタイプのユーザーに対する応答があるように知識ベースを構築することはできるが、これには時間がかかり、常に不完全なものになるだろう。これには、ユーザーとの会話から学習することが助けになるだろう。言語のスタイルや複雑さは、与えられたユーザー入力に基づいて適合させることができる。患者固有の知識、例えば、治療計画に関する知識は、医療記録から取得することができる。このような知識をチャットボットに動的に取り込む方法が求められている。このようにして、チャットボットのコンテンツは、個人のニーズに合わせて適応される。

　メンタルヘルスチャットボットを評価するためには、ベンチマークを作成し、一貫した指標と方法を開発する必要がある。Laranjoら[71]は、ヘルスチャットボットの特徴、現在のアプリケーション、評価指標をレビューした。評価指標は、技術的性能、ユーザーエクスペリエンス、健康研究指標の3種類に大別された。デジタルヘルス介入[82]とヘルスチャットボット[83,84]の評価フレームワークに向けた最初の試みは、最近発表された。考慮したい観点に応じて、異なる指標を用いることができる。例えば、システムの性能と有効性は異なる計算指標により評価される（例えば、使い勝手usability、使いやすさeasse of use、有用性usefulness）。ソフトウェアの品質は、ソフトウェア工学の指標を用いた信頼性、セキュリティ、保守性、効率性によって測定することができる[86]。システムがAIや機械学習の技術を用いる場合、指標は予測や推奨の精度や正確さで構成される。さらに、システムの効率性は、既存のケアモデルと評価・比較されなければならない。アプリの安全な使用に関しては、（1）治療内容の質、（2）機能性、（3）データの安全性と保護という3つの基準で評価する必要がある[87]。

Effectiveness and Safety of Using Chatbots to Improve Mental Health: Systematic Review and Meta-Analysis

www.jmir.org

Abd-Alrazaq AA, Rababeh A, Alajlani M, Bewick BM, Househ M Effectiveness and Safety of Using Chatbots to Improve Mental Health: Systematic Review and Meta-Analysis J Med Internet Res 2020;22(7):e16021, doi: 10.2196/16021, PMID: 32673216, PMCID: 7385637

©Alaa Ali Abd-Alrazaq, Asma Rababeh, Mohannad Alajlani, Bridgette M Bewick, Mowafa Househ. Originally published in the Journal of Medical Internet Research (http://www.jmir.org), 13.07.2020.

License: Creative Commons Attribution 4.0 (CC-BY)

The following is the edited translation.

Abstract

Background

　世界的な精神医療を提供する人手の不足により、精神疾患を持つ人々のニーズに応えるために、チャットボットなどの技術的進歩の活用が求められている。チャットボットは、話し言葉、書き言葉、視覚的な言語を用いて人間のユーザーと会話し、対話することができるシステムである。メンタルヘルスにおけるチャットボット使用の有効性と安全性を評価した研究は数多くあるが、それらの研究結果を概観したレビューはない。

Objective

　本研究は、先行研究の結果をまとめ、概観することで、メンタルヘルスの改善にチャットボットを用いることの有効性と安全性を評価することを目的とした。

Methods

　この目的を達成するために、システマティックレビューを実施した。検索には7つの書誌データベース（例：MEDLINE、EMBASE、PsycINFO）、検索エンジン「Google Scholar」、収録研究および関連レビューの後方および前方参照リストチェックとした。2名の査読者が独立して研究を選択し、含まれる研究からデータを抽出し、バイアスのリスクを評価した。研究から抽出されたデータは、適宜、ナラティブアプローチおよび統計的手法により統合された。

Results

　検索された1048件の引用のうち、8つのアウトカム（うつ病の重症度: Severity of depression、心理的幸福度: Psychological wellbeing, 不安の重症度: Severity of anxiety, ポジティブおよびネガティブな感情: Positive and negative affect, 苦痛: Distress, ストレス: Stress, 安全性: Safety, 高所恐怖症の重症度: Severity of acrophobia）に対するチャットボットの使用効果を検討した12件の研究を同定した。弱いエビデンスでは、チャットボットがうつ病、苦痛、ストレス、高所恐怖症の改善に効果的であることが示された。一方、同様のエビデンスによると、主観的な心理的幸福度に対するチャットボットの使用は、統計的に有意な効果を示さなかった。不安の重症度やポジティブおよびネガティブな感情に対するチャットボットの効果については、結果が相反していた。チャットボットの安全性を評価した研究は2件のみで、有害事象や害は報告されていないことから、メンタルヘルスにおいて安全であると結論づけられた。

Conclusions

　チャットボットはメンタルヘルスを改善する可能性がある。しかし、その効果が臨床的に重要であるというエビデンスがないこと、各アウトカムを評価する研究が少ないこと、それらの研究においてバイアスのリスクが高いこと、いくつかのアウトカムで結果が矛盾していることなどから、このレビューにおけるエビデンスは、これを確実に結論づけるには不十分であった。チャットボットの有効性と安全性について確かな結論を出すためには、さらなる研究が必要である。

Principal Findings

　この研究では、チャットボットを使用してメンタルヘルスを改善することの有効性と安全性に関するエビデンスを体系的にレビューした。 8 つのアウトカムに対するチャットボットの使用の効果を調べた 12 の研究を特定した。最初のアウトカム（うつ病）については、4 つの RCT から得られた質の低いエビデンスにより、通常の治療やうつ病の重症度に関する情報よりもチャットボットを支持する統計的に有意な差が示されたが、この差は臨床的に重要ではなかった。 2 つの準実験では、チャットボットの使用後にうつ病のレベルが低下したと結論付けられた。 2 つの研究から得られたエビデンスがナラティブアプローチにより統合されたため、このうつ度合の減少が臨床的に重要であるかどうかは特定できなかった。また 2 つの研究で得られた知見は、アウトカムの測定において深刻なバイアスの影響を受けた可能性がある。メンタルヘルスにおけるチャットボットの有効性を評価したレビューがないことを考慮して、結果を同様の介入 (すなわち、インターネットベースの精神療法的介入) に関する他のレビューと比較した。このレビューにおけるうつ病に対する全体的な効果 (–0.55) は、他のレビューと同等であった。具体的には、Andersson と Cuijpers によって実施されたメタ分析では、セラピストのサポートなしでインターネットベースおよびコンピューター化されたうつ病の心理的介入の全体的な効果は 0.25 (95% CI 0.14-0.35) であったが [39]、別のメタ分析では、うつ病のインターネットベースの精神療法介入の合計効果は0.32であった[40]。

　不安に関しては、2 つの RCT から得られた非常に質の低いエビデンスでは、チャットボットと不安の重症度に関する情報との間に統計的に有意な差は示されなかった。対照的に、ある準実験では、チャットボットを使用した後、不安レベルが大幅に低下したと結論付けられた。これらの相反する調査結果は、2 つの理由に起因する可能性がある。第一に、プレテスト-ポストテストの準実験は、選択バイアスに起因する内部妥当性が低いため、介入の効果を見つけるための RCT ほど信頼性が高くない[35,41]。第 2 に、2 つの RCT とは対照的に、準実験 [32] のチャットボットにはバーチャルな外見(身体) が含まれていたため、チャットボットは口頭および非言語的に (体の動きや顔の表情を通じて) ユーザーとコミュニケーションをとることができる。この身体化により、チャットボットとの会話がより共感的になり、ユーザーとの効果的なラポールの構築が促進されたと考えられる[19,42,43]。このレビューのメタアナリシスの結果と、スマートフォンのメンタルヘルス介入に関連する別のレビューの結果は矛盾していた。 9 件の RCT のメタアナリシスでは、スマートフォンのメンタルヘルス介入を行った後、介入を行わなかった場合と比較して、不安レベルが大幅に減少したことが示された (SMD 0.325、95% CI 0.17-0.48) [44]。これらの相反する結果は、両方のレビューにおける介入の違い (チャットボットと異なるモバイルによる介入) またはメタ分析された研究の数 (2 対 9) のいずれかの結果である可能性がある。

　ポジティブとネガティブな感情に対するチャットボットの効果に関する調査結果は矛盾していた。ある研究では、チャットボットが 2 週間の追跡調査でポジティブおよびネガティブな感情を改善したと結論付けているが [29]、別の研究では、2 週間の追跡調査でチャットボットの有意な影響は見られなかった[28]。 2 つの研究は、研究デザイン、サンプルの特性、コンパレータの特性、および結果の測定に関しては非常に同質であったが、チャットボットの種類とデータ分析の方法が異なっており、これらの違いが矛盾した結果につながった可能性がある。具体的には、最初の研究 [29] のチャットボットは、2 番目の研究 [28] のものよりも高度であった。ユーザーへの応答を生成するために人工知能と機械学習を用いており、これにより、より人間らしくなり、ユーザーはより社会的につながっていると感じることができた[5]。 2 つ目の違いについては、最初の研究ではチャットボットがポジティブとネガティブな感情に与える影響をまとめて評価しているのに対し [29]、２番目の研究ではチャットボットがポジティブな感情とネガティブな感情に及ぼす影響を別々に調べていた[28]。

　3つの研究のナラティブアプローチによる統合は、チャットボットと対照群との間で主観的な心理的幸福度に関して統計的に有意な差がないことを示した。有意な差が出なかった理由は、3 つの研究で非臨床サンプルを使用したことで説明できる。言い換えれば、参加者はすでに心理的に良好な状態にあるため、チャットボットを使用する効果はそれほど大きくない可能性がある。

ナラティブアプローチにより統合された 2 つの研究によると、チャットボットは苦痛のレベルを大幅に低下させた。どちらの研究もバイアスのリスクが高かった。したがって、この調査結果は注意して解釈する必要がある。同様の文脈での研究では、私たちの調査結果に匹敵する調査結果が報告された。より正確に言えば、RCT は、オンラインチャットカウンセリングが時間の経過とともに心理的苦痛を大幅に改善したと結論付けた [45]。

このレビューでは、チャットボットは時間の経過とともにストレスレベルを大幅に低下させた。残念ながら、エビデンスにバイアスのリスクが高いため、チャットボットの効果に関して決定的な結論を出すことはできない。

ある RCT によると、チャットボットは高所恐怖症の重症度を軽減するのに効果的だった。この RCT における高所恐怖症に対するチャットボットの効果サイズ [38] は、メタアナリシスによって報告された恐怖症に対するセラピスト支援の曝露治療の合計効果サイズよりもかなり高かった (2.0 対 1.1) [46]。これは、チャットボットが、恐怖症の治療においてセラピストが提供する暴露治療と同等か、それよりも優れている可能性があることを示している。

チャットボットの安全性を測定する 2 つの RCT のうち、どちらも、チャットボットがうつ病や高所恐怖症のユーザーの治療に使用された場合、有害事象や害は報告されなかったため、チャットボットはメンタルヘルスに安全に使用できると結論付けた。ただし、2 つの研究でバイアスのリスクが高いことを考えると、この証拠はチャットボットが安全であると結論付けるのに十分ではない。

Other Interesting Findings

　このレビューでは、チャットボットがうつ病、苦痛、ストレス、および高所恐怖症を改善する可能性があることが分かったが、含まれている研究におけるバイアスのリスクが高く、エビデンスの質が低く、各結果を評価する研究が不足しているため、これらの結果に関する決定的な結論を引き出すことはできなかった。含まれている研究のサンプルサイズが小さいこと、および含まれているいくつかの研究の結果に矛盾があること、このため、ユーザー、医療提供者、治療者、政策立案者、およびチャットボット開発者は、結果を慎重に表示する必要がある。

　このレビューで見つかった弱くて相反する証拠を考えると、ユーザーはメンタルヘルスの専門家の代わりにチャットボットを使用すべきではない。代わりに、医療専門家は、個人が必要に応じて医学的アドバイスを求めることを奨励するために、すでに利用可能な介入の補助として、また利用可能なサポートと治療への道しるべとしてチャットボットを提供することを検討する必要がある。

　このレビューのチャットボットの 3 分の 2 は、定義済みのルールと決定木を使用して応答を生成したが、残りのチャットボットは人工知能を使用していた。ルールベースのチャットボットとは対照的に、人工知能チャットボットは複雑なクエリへの応答を生成し、ユーザーが会話を制御できるようにすることができる [13]。人工知能チャットボットは、ルールベースのチャットボットよりも共感的な行動と人間のようなフィラー言語を示すことができる [19]。これにより、人工知能チャットボットがユーザーとのラポールをより効果的に構築し、それによってユーザーのメンタルヘルスを改善する可能性がある[42]。人工知能チャットボットはルールベースのチャットボットよりもエラーが発生しやすいと主張できるが、これらのエラーは、広範なトレーニングとより多くの使用によって最小限に抑え、減少させることができる [49]。したがって、開発者は人工知能チャットボットに集中して有効性を向上させることが望まれる。

　バイアスの全体的なリスクは、主にアウトカムの測定、報告された結果の選択、および交絡の問題が原因で、含まれるほとんどの研究で高かった。今後の研究は、そのようなバイアスを避けるために、研究を実施および報告する際に、推奨されるガイドラインまたはツール (RoB 2 および ROBINS-I など) に従う必要がある。

　報告方法が不十分なため、メタ分析に多くの研究を含めることができなかった。より高度な研究 (すなわち RCT) を奨励するだけでなく、著者は試験結果の報告においてより一貫性を保つ必要がある。たとえば、このレビューでは、多くの研究が平均、SD、サンプルサイズなどの基本的な記述統計を報告できていなかった。 RCT を報告するための承認されたガイドライン (例: CONSORT-EHEALTH [50]) に研究が準拠していることを確認することは、この分野に大きな利益をもたらすだろう。

　現在のレビューでは、すべての 2 グループ試験の比較対象は介入なしまたは教育のいずれかであった。有望な結果 (例: うつ病、苦痛、高所恐怖症) については、チャットボットを、非同期電子介入や他のタイプのチャットボット (例: ルールベースのチャットボットvs人工知能チャットボットまたは身体化されたチャットボット vs 身体化されていないチャットボット) などの他の能動的介入と比較することが望まれる。

　Abd-alrazaq らが実施したスコーピングレビュー [13] によると、チャットボットは、自閉症、心的外傷後ストレス障害、物質使用障害、統合失調症、認知症など、多くの精神障害に使用されている。現在のレビューでは、これらの障害に使用されるチャットボットの有効性または安全性を評価する研究は見つからなかった。これは、自閉症、心的外傷後ストレス障害、物質使用障害、統合失調症、および認知症の患者を対象としたチャットボットの有効性と安全性を調べる差し迫った必要性を浮き彫りにしている。

　このレビューでは、同じ結果を測定するために使用されるツールと研究デザインの不均一性が特定された。たとえば、うつ病の重症度は、PHQ-9、Beck Depression Inventory II、または Hospital Anxiety and Depression Scale を使用して測定された。さらに、介入前後の結果を評価した研究もあれば、介入後にのみ評価した研究もあった。この分野は、研究間の結果の比較と解釈を容易にするために、将来的に共通の一連の結果測定を使用することで前進するだろう。チャットボットの長期的な有効性と安全性を評価した研究は 1 つだけで、参加者は 12 週間追跡された。チャットボットの有効性と安全性の結果は、短期的な調査結果と比較して長期的な調査結果を考慮すると、異なる場合があるため、長期的な結果を評価することが不可欠である。