Towards Personality-Aware Chatbots

aclanthology.org

Daniel Fernau, Stefan Hillmann, Nils Feldhus, Tim Polzehl, and Sebastian Möller. 2022. Towards Personality-Aware Chatbots. In Proceedings of the 23rd Annual Meeting of the Special Interest Group on Discourse and Dialogue, pages 135–145, Edinburgh, UK. Association for Computational Linguistics.

License: Creative Commons Attribution 4.0 International License(CC-BY)

本記事は、原著の内容に基づき筆者がまとめたものです。以下の図は、そこから引用しています。

This article is my summary based on the content of the original publication. The following figures are taken from it.

要点まとめ

チャットボットはカスタマーサービスの自動化などでますます利用されるようになっている。しかし、ほとんどのチャットボットはユーザーへの適応が不十分であり、満足の行かないものになる可能性がある。本研究では、Myers-Briggsタイプ指標から抽出されたユーザーの性格タイプに合わせて自動的に調整する適応型会話エージェントを分析する。
300人のクラウドワーカーを対象とした実験では、外向・内向・思考・感情といったタイプ分けをどのように評価し、職業推薦のための対話エージェントを設計することができるかを調査した。
結果、提案された設計は妥当であり、いわゆる引き寄せの法則にしたがい、ユーザーとマッチングさせた性格の類型化に関する実験では、総合満足度、自然さ、促進度、信頼、対話の適切さといったユーザビリティの基準に大きな正の影響があることが示された。

背景

音声アシスタントに次いで、テキストベースの会話エージェント、通称チャットボットは、大きな注目を集めている。多くの企業が顧客サービス業務を自動化し、コストを削減するためにチャットボットに注目しており、2020年までに80%の組織がチャットボットを導入する可能性があると予測されていた。しかし、今日のシステムは顧客の期待に応えていないようである(Gnewuch et al., 2018)。ほとんどのチャットボットにとって重要な障害は、人間味と自然さを欠くということである(Schuetzler et al., 2014; Gnewuch et al., 2018)。さらに、いくつかの研究では、ソーシャルキューとそのユーザーの知覚社会的前提、信頼、楽しみ、使用意図に対するポジティブな効果を調べており(Zum-stein and Hundertmark, 2017 ; Ahmad et al., 2020）、ソーシャルキューがユーザーを苛立たせる結果になるとマイナスな効果もあることも示されている(Louwerse et al., 2005)。
人間と機械の相互作用に関する研究では、パーソナリティが不可欠な要因であるとされており(Chaves and Gerosa, 2021)、伝統的に質問紙によって評価される。しかし現在では、SNSなどのオンラインプラットフォームから人間が生成したデータを利用可能であり (Boyd andPennebaker, 2017)、ユーザーの言葉は、ユーザーのパーソナリティを表す(Pen-nebaker and King, 1999; Boyd and Pennebaker,2017; John et al., 1988)。
本研究では、ユーザーの推定される性格タイプに自動的に適応する性格タイプ指標適応型チャットボットの開発を提案する。今までも、性格特性が等しいチャットボットと対話した場合に、コミュニケーション相互作用、人間的魅力、好み、友人性が高くなると報告する、いわゆる「引き寄せの法則」の影響を分析している研究(Ahmad et al., 2020; Park et al.,2012)はあり、(Ahmad et al., 2020)の研究以外は有意な結果は得られていないが、パーソナリティをどう実現するかに関するデザイン基準に関する研究はない。本研究では、デザイン実装の詳細を示すことで、この分野に貢献することを目的としている。

チャットボット設計

　パーソナリティ適応型チャットボットのプロトタイプは、Microsoft Azure BOt Frameworkをベースにブラウザに構築され、入力された性格に応じ、各会話ツリーは二つのサブダイアログに分けられた職推薦タスクを実行する。最初のサブダイアログはユーザーに挨拶し、二番目のサブダイアログは仕事に関連した質問をして、性格に基づいた推薦を行う。チャットボットの性格をデザインするために、言語的な手がかりを使用した。下表は、チャットボットの四つの異なるデザインのキャラクターに対する、適用された手がかりとその度合いを示したものである。

ユーザースタディ

　実験は五つのステップからなる。(なぜステップ４がないのかはよくわからない。タイポ？)

(1) OEJTSに準拠した12項目の性格自己申告書に記入する。

(2) チャットボットと対話し、性格のタイプを一致させるか不一致にさせるかをランダムに割り当てる。

(3) ユーザーは、最初のインタラクションを９つのユーザビリティ項目で評価する。

(5) 再びチャットボットと対話し、(2)と同じように別の性格タイプを見る。

(6) 再び９つのユーザビリティ項目と、一つ目と二つ目のバージョンの好みに関する質問を評価する。

本研究では、I/EとT/Fの各スケールのうち、最も得点の高い9項目を実験に使用した。さらに、各二項対立をE/Iタイプ6項目、T/Fタイプ6項目に分割した。選択した項目は、「とてもそう思う」「そう思う」「どちらともいえない」「そう思わない」「とてもそう思わない」の5段階のリッカート尺度で評価し、ユーザーの性格タイプに応じて、ステップ2とステップ4でテストする2つのチャットボットが自動的に選択され、そのうち1つはユーザーと同じ性格タイプ（マッチング）、もう1つは逆の設定を用いた（ミスマッチ）。例えば、ユーザーがEF（外向型感情）に分類される場合、EFとITの両方のチャットボットとランダムに対話した。外向的なチャットボットはCarla、内向的なチャットボットはSophiaと名付け、チャットボットが女性に見えるとユーザーが個人情報を共有しやすくなるという効果を狙っている（Toader et al.）。
ステップ2とステップ5のインタラクションのトピックは、適切な仕事を推薦するために、個人的および仕事に関連する好みについてチャットすることであり、チャットボットは、ユーザーの性格を考慮した上で、最適な仕事を推薦する。しかし、推薦の精度や、推薦に対するユーザーの受容性については分析していない。本研究では、性格がインタラクションの使いやすさに与える影響に着目し、分析を行った。具体的には、名前、出身、好みなどの一般的な質問から会話が始まり、その後、チャットボットは仕事に関する好みを尋ねる。例えば、OEJTSの外向性を測定する項目の1つは、ユーザーが「グループで最もよく働く」か「一人で最もよく働く」かを評価するものである。
さらに、チャットボットは、閉じた領域内で、イントラチャットボットとインターパーソナルチャットボットの中間に位置するように設計されており、限られた機能性を提供しており（Nimavat and Champaneria, 2017）、ユーザーの質問に答える機能を提供する代わりに、ユーザーが質問に答えることを可能にするだけである。この制限については、調査の冒頭で説明し、誤った期待を抱かせないようにした。また、複数メッセージの書き込みがサポートされておらず、すべての情報は1つのメッセージにまとめなければならない。
ユーザビリティアンケートは、9つの項目から構成され、両チャットボットを比較する2つの項目と、参加者に関する5つの一般的な項目からなる。ユーザービリティの項目は、ITU-T勧告P.851（Rec, 2003）に由来する4項目と、カスタムデザインされた5項目に分けられる。パーソナリティ領域に適応するため、受容性、自然性、プロモータースコアに関連する4項目が選択された。これらについては、受容性と自然性がよく一般化されていることが実証されている（Möller et al.、2007）。 ITU-Tの性格因子は、本研究では性格のタイプ分けに重点を置いているため、今回の実験には適さないものであった。そこで、異なるチャットボットと対話する際に、適用されたデザイン選択が参加者に知覚されるかどうかを測定するために、5つのカスタム項目が設計された。これらの9つのユーザビリティ項目は、上記と同じ5点リカートスケールで評価された。さらに、Carla（外向型）とSophia（内向型）を直接比較するための2つの項目が用意された。最初の項目は、どちらのチャットボットがよりユーザーの好みに適応していると認識されているかを評価するもので、2番目の項目は、両者を直接比較する場合の一般的な好みを尋ねるものである。両項目とも、ユーザーはCarla、Sophia、両方、または何も選ばないという選択肢がある。また、アンケートの最後には、性別、年齢層、チャットボットの使用経験、母国語、現在の職業に関する5つのプロファイリング質問を行った。
参加者は、米国、英国、オーストラリアのクラウドソーシングプラットフォームtheCrowdee（Naderi et al.、2014）を用いて300名を募集した。参加者には、タスクの推定作業時間に基づいて、最低賃金が平等に支払われた。参加した300人のクラウドワーカーのうち、266人の有効回答が得られたと考えられる。さらに、2名の参加者はスコアが四分位範囲より3倍高かったため、外れ値として研究から除外された。定性的フィードバックを事前に分析したところ、参加者は期待通りにタスクを解決でき、概して研究を楽しんでいたと確信している。

結果と考察

図1はOEJTSで測定した性格スコアの分布を示したものである。両者の棒グラフは、6（左：内向性または思考）～30（右：外向性または感情）の性格スコア別に参加者数を示し、その値を2つのクラスに区別するために等空間ビニング閾値18を設定している。上段のI/Eグラフでは、IとEの比率が62:38であり、下段のT/Fグラフでは約51:49と、よりバランスのとれた分布となっている。すべてのタイプに少なくとも47名が参加しており、ETは18%（47名）と少数派、次がEFで20%（54名）であった。内向型では、IFが28％（75名）、ITが34％（90名）と過半数を占めている。どのクラスも他のクラスの2倍以上の大きさではないので、全体的な分布にアンバランスはない。

引き寄せの法則の効果を分析するために、Q1-9のマッチングスコアとミスマッチングスコアの間の統計的有意差を片側検定で調べた。表5に示すように、マッチした人格の総合満足度（Q1）は、ミスマッチした人格に比べて有意に高い。同様に、性格が一致したチャットボットは、性格が不一致のチャットボットと比較して、友人に勧められる可能性が高い（Q3）く、一致したパーソナリティは、不一致のパーソナリティに比べて、信頼度（Q7）が有意に高い。これらの結果は、性格の一致が、私たちの仕事推薦チャットボットの使いやすさの認知に良い影響を与えるという仮定を支持するものである。また、明示的な操作にもかかわらず、対話の長さに関しては、参加者が有意な差を感じなかった。
片側検定では、内向型ボットの形式性（Q5）は外向型ボットに比べて有意に高く、信頼性の認知は、外向的なボットに比べて有意に高い。メッセージの長さ（Q8）と感情（Q6）は、内向的なボットのメッセージは外向的なボットに比べて長く感じられるが有意差はない。最後に、「感覚的な」ボット（Q6）は、「考える」ボットに比べて、有意に感情的であるとは認識されていない。最後に、どちらのボットが最もユーザーに適応していると認識されたかをカイ二乗検定で直接比較検討した。その結果、I/E性格タイプとチャットボットの行動における適応の認識との間に有意差は見られなかった。
我々の知る限り、これは、チャットボット（N = 266）の自動的に適応されたパーソナリティが、職業推薦タスクの使いやすさ、信頼、適切さに対して、小さいながらも統計的に有意な正の効果を示した最初の研究である。さらに、特定の性格特性と相関する言語キューが紹介されており（Pennebakerand King、1999；Mairesseら、2007；Ruaneら、2020）、本稿で紹介する結果はこの研究体にさらに貢献している。その結果、3つのデサイン選択肢のうち2つで、言語による性格の違いが有意に知覚されることが示された。これらの結果は、性格の一致がチャットボットのユーザビリティスコア（本研究で使用した項目のうち1つを除くすべて）を有意に高くすることをさらに検証するものである。さらに、信頼価値と（仕事を勧めるというタスクに対する）適切性も、性格のタイプを一致させると、不一致に比べて有意に向上することが示された。