A Distributional Lens for Multi-Aspect Controllable Text Generation

License: Creative Commons Attribution 4.0 International License(CC-BY)

本記事は、原著の内容に基づき筆者が要約または翻訳したものです。以下の図は、そこから引用しています。

This article is my summary or translation based on the content of the original publication. The following figures are taken from it.

要点まとめ

マルチアスペクト制御可能なテキスト生成は、シングルアスペクト制御に比べ、より困難で実用的な課題である。既存の手法は、シングルアスペクトから学習した複数のコントローラを融合させることで複雑なマルチアスペクト制御を実現しているが、これらのコントローラの相互干渉による属性退化に悩まされている。
そこで我々は、分布の観点から属性融合に関する考察を行い、複数の属性分布の共通領域を直接探索し、その組み合わせとして生成することを提案する。本手法では、まずオートエンコーダ構造で属性空間を推定する。その後、異なる属性を表す点への距離を共同で最小化することにより、反復的に共通領域にアプローチする。最後に、プレフィックスチューニングに基づくデコーダーで、属性に関連した文にマッピングする。
センチメント、トピック、デトックスの3つの側面からなる制御タスクの実験により、本方法が属性関連性とテキストの品質においていくつかの強力なベースラインを上回り、SOTAを達成することが明らかになった。また、さらなる分析により、本アプローチの有効性を説明する裏付けを得ることができた。

github.com

序論

制御可能なテキスト生成は、所望の属性を持つ流暢なテキストを生成することを目的とする自然言語生成の挑戦的なタスクである。パイロット研究では、条件モデルを直接ファインチューニングすることでシングルアスペクトの制御を試みたり（Ziegler et al., 2019; Keskaret al., 2019）、大規模な事前学習済み言語モデルのコストが高いため（Brownet al., 2020a; Zhang et al., 2022）、言語モデルを固定した手法に転換したり（Dathathri et al., 2020）している。

最近の研究では、より実用的な設定であるマルチアスペクト制御のテキスト生成に焦点が当てられており、既存のアプローチは主に次の3つの技術路線に分かれている：重み付きデコード（Dathathri et al., 2020、Krause et al., 2021）、多目的オプティマイゼーション（Clumar et al, 2021; Mireshghallah et al., 2022）、prefix-tuning（Qian et al., 2022）である。これらのアプローチは、単一のアスペクトから学習したコントローラを組み合わせて、固定された言語モデルに適用する方法を探求しているが、コントローラの相互干渉によって引き起こされる属性退化に苦しんでいる。

我々は、この問題を解決するために、分布的な視点を提供する。現在のテキスト生成のパラダイムでは、言語モデルは、自然言語分布からのサンプリングに相当する訓練データを用いて、文に対する推定分布を形成する（Pillutla et al., 2021）。シングルアスペクト制御の場合、これらの手法は、属性ごとに分類器やPrefixを独立して学習し、属性に関連する文の分布の中心を評価し、言語モデルの分布がその中心に偏るようにするものと考えられている。そのため、マルチアスペクト制御を行う場合、これらの融合戦略は、これらの中心の補間や平均を直接求めることになるが、これはあまりに単純である可能性がある。図1に示すように、補間点は確率空間において複数の中心を組み合わせた後に獲得した位置を示している。そして、その共通部分は、複数の属性を同時に満たすオラクル文が存在する位置を示している。図1の左側では、属性の分布が対称的である場合、確かに補間点は共通領域内にある。しかし、補間点と共通部分との間にはミスマッチがある可能性がある。例えば、図1右のように、2つの歪んだ分布が尾部で交わるため、補間点が共通領域から外れてしまい、希望する属性をまとめて表現することができなくなる。

本論文では、補間点を用いて共通領域を近似するのとは異なり、共通領域を直接取得する戦略を提案する。まず、属性に関連する文章を、推定属性空間を構成する潜在的な表現に対応付けるオートエンコーダ構造を導入する。この空間は、特別に設計した制約条件により、属性間の関係をモデル化することができる。その後、すべての属性の分布の長い尾根を歩き回り、より緊密に結合する場所を反復的に見つけることができる効果的な共通部分探索アルゴリズムを提供する。最後に、探索された共通部分から文章を構成するために、プレフィックスチューニングに基づくデコーダを利用する。

IMDb movie reviews (Maas et al., 2011), AGNews (Zhang et al., 2015), Jigsaw Toxic CommentClassification Challenge Datasetで、それぞれセンチメント面から2属性、トピック面から4属性、解毒から1属性の3側面制御で実験する。各属性の関連性を個別に評価し、その平均値を最終的な関連性の指標として算出する。また、文章の質については、perplexityと、流暢さ（fluency）と多様性（diversity）に関する明確さ（distinctness）を評価する。その結果、本手法は、多面的な制御において、強力なベースラインモデルを有意に上回ることができることが示された。さらに、解析実験により、直感的な仮定が我々の観測結果とよく一致することを発見した。主な成果は以下の通りである：

より実践的なマルチアスクペクト制御をモデル化する分布の視点を提案する。
属性空間の共通部分を直接探索し、目的の属性を持つ文章を生成する方法を提供する。
本手法は、強力なベースラインと比較して、マルチアスペクト制御の有効性を実験的に明らかにし、SOTAを達成した。

手法

本節では、まず本手法の動機と全体的な流れを紹介し、その後、各モジュールを詳細に説明する。

概要

図2に示すように、本手法は、属性空間の推定、共通部分の検索、共通部分の文へのマッピングなど、主に属性空間を中心に展開される。

まず、サンプリングされた文章から属性空間を構築し、実空間をできるだけ正確に推定することを目指す。推定された属性空間を構成する点を潜在表現とするオートエンコーダ構造を採用する。推定された空間が、属性の確率分布や異なる属性間の関係など、属性を確実にモデル化することを保証するために、表現にさらに3つの制約を加える。(1) Reconstruction Loss $\mathcal{L}_R$ は、属性空間上の点と本来の属性関連文とのギャップを埋めることを目的としており、コンテンツに反映された属性を回復することを目的とする。(2) Attribute Classification Loss $\mathcal{L}_C$ は、同じアスペクトから異なるアスペクトのポイントを区別することで、エンコーダーがよりアスペクトを把握することに注力する。(3)Aspect Gap Loss $\mathcal{L}_G$ は、異なるアスペクトのデータソース間のドメインギャップによって引き起こされるアスペクトの不一致を評価する。特徴アライメント（Pan et al, 2010）に触発され、各二つのアスペクトの分布中心間の距離を最小化する。

　第2段階は、希望する属性の共通領域を探索することを目的とする。交差領域が存在する場合、その領域内の点は、周囲の小さな領域に現れる近傍点を満たし、必要な属性をすべてカバーするはずである。この近傍思想に触発され、これらの属性がより緊密に結合する領域に反復的に近づくアルゴリズムを設計する。第3のステップは、検索された共通部分をPrefixにマッピングし、言語モデルを活性化させて属性に関連する文章を生成する。言語モデルがわずかな変化に影響されにくくするために、多変量ガウス分布から摂動ベクトルをサンプリングする。

属性空間の推定

与えられた $|A|$ 個の観点 $A= \{A_1, \cdots, A_{|A|} \}$ がそれぞれ $|A_t|$ 個の属性 $\{a_1^t, \cdots, a^t_{|A_t|} \}$ を含んでいるとする。ここで、 $I^t_{\tau}$ は訓練データ中の全ての属性 $a^t_{\tau}$ を持つ文章の識別子を表すインデックス集合である。我々は $I_t = \cup^{|A_t|}_{\tau=1} I_{\tau}^t$ 、 $I = \cup^{|A|}_{t=1} I^t$ となるようにする。ここで $I_t$ は観点 $A_t$ における任意の属性を持つ全ての文章のインデックスであり、 $I$ は全訓練データのインデックスである。我々は全ての観点 $\boldsymbol{A}$ からの文章 $\{X_i \}$ を、統一されたマッピングパラメータ $\phi : \mathcal{H}_i = \text{Encode}_{\phi} (X_i)$ を使って表現 $\{ \mathcal{H}_i\}$ にエンコードする。ここで $i \in I$ である。

再構築損失 $\mathcal{L}_R$ ：図2の上部に示されているように、再構築損失 $\mathcal{L}_R$ は、事前訓練された言語モデル $p_{LM}$ の自己回帰損失と同じ方法で計算される。

$L_R = -\sum_{i \in I} \log p_{LM}(X_i| \text{Prefix}_i) \tag{1}$

ここで $\text{Prefix}_i = \text{MLP}_{\theta} ( H_i + \lambda \epsilon_i)$ 、 $\epsilon_i \sim N(0, I)$ である。

ここでの $X_i$ は全訓練データセットからのサンプル文章で、すなわち $i \in I$ である。また、スケーリングファクター $\lambda$ を持つ $\epsilon_i$ は、再構築時の頑健性のために多変量ガウス分布 $N(0, I)$ からサンプルされた摂動ベクトルである。多層パーセプトロン $\text{MLP}_\theta$ は摂動した $\mathcal{H}_i$ を言語モデルを活性化させ、望ましい属性を持つテキストを生成することができる $\text{Prefix}_i$ にマップする。我々の主な目標は属性の回復であるため、 $\mathcal{L}_R$ はあまりよく収束しないようにしながらもテキストの流暢さを維持することが好ましいということに注意する価値がある。

属性分類損失 $L_C$ ：我々はエンコーダーが属性に焦点を当てるように、以下の方法で $\mathcal{L}_C$ を強制する。

$\mathcal{L}\_C = - \sum^{|A|}_{t=1} \sum^{|A_t|}_{\tau=1} \sum_{i \in I^t_{\tau}} \log p_{\pi_t} (a^t_{\tau} | \mathcal{H}_i ) \tag{2}$

与えられた文章の表現に対して、 $p_{\pi_t}$ はパラメータ $\pi_t$ を持つ分類器で、観点 $A_t$ から属性 $\{a^t_{\tau} \}$ を区別する。

観点ギャップ損失 $\mathcal{L}_G$ ：我々は、分布中心間の不一致を罰するようにする：

$\mathcal{L}_G = \sum_{1 \leq t_1 < t_2 \leq |A|} \left|| \sum_{i \in I^{t_1}} \frac{\mathcal{H}_i}{ | I^{t_1}| } - \sum_{j \in I^{t_2} } \frac{\mathcal{H}_j}{ | I^{t_2} | } \right||_2 \tag{3}$

これらは、全ての異なる分布中心間のユークリッド距離である。観点の大規模なスケールへの一般化の際には、モデルが更新されるたびに全データセット上で平均を計算することが比較的高コストとなる。我々はこの損失を実践的にバッチレベルの近似を用いて計算する。各観点にはメモリユニットが割り当てられ、その観点の推定中心の最新の表現を保存する。一つの観点からの文章のバッチを処理するたびに、その表現の平均を中心とみなし、メモリ内の他の観点の中心へのユークリッド距離を合計する。これが推定された $\mathcal{L}_G$ である。次に、この観点のメモリユニットを最新のものに更新する。

訓練段階では、我々の損失関数は次のようになる：

$\mathcal{L} = w_1 \mathcal{L}_R + w_2 \mathcal{L}_C + w_3 \mathcal{L}_G \tag{4}$

我々はエンコーダ、MLP層、および分類器ヘッドのためのパラメータ $\phi, \theta, \{\pi_t\}$ のみを更新するということに注意する価値がある。

属性の共通部分

あるN個の異なる観点からの属性 $\{a_{\alpha_1}^1, a_{\alpha_2}^2, \cdots, a_{\alpha_N}^N \}$ の共通部分内に共有点が存在すると仮定し、その点を $\tilde{\mathcal{H}}^{\ast}$ と表記する。ここで、 $a^t_{\alpha_t}$ は観点 $A_t$ における $\alpha_t$ 番目の属性を表す。我々のアルゴリズム１は、異なる属性からの最近傍を用いて最もバランスの取れた点に反復的に近づくことで、 $\tilde{\mathcal{H}}^{\ast}$ を近似する。まず、候補 $\{ \tilde{\mathcal{H}}_{m}^0 \}$ を属性空間でランダムにサンプリングした点で初期化し、それぞれの属性 $a^t{\alpha_t}$ の最も近い点までの距離を計算する。その後、全ての属性に対する平均距離が最も小さい上位 $M$ サンプルを選択する。各イテレーションでは、我々は各属性について $\tilde{H}_m^s$ に最も近い上位 $K$ の点を選択し、これらの点の重み付き平均を用いて $\tilde{\mathcal{H}}^{s+1}_m$ を更新する。ここで、 $\omega_{\alpha_t}$ は属性をバランス良く扱うため、または特定の属性を優遇するために使用される重みであり、 $\omega_{\alpha_t}$ の負の値は特定の属性から離れることさえ可能であることに注意が必要である。最後に、我々は最後のイテレーション $S$ から最良の候補を選択する。これは、共通領域、すなわち、複数の属性に関連する表現内に存在することが期待される。

共通部分を用いた生成

図2の右下に示されているように、我々は交差領域から得られた表現 $\tilde{\mathcal{H}}^{\ast}$ を直接 $\text{MLP}_{\theta}$ を用いてPrefixに変換し、言語モデルに入力 $X$ から多属性の文 $Y$ を生成させる。

$Y = \arg \max_y p_{LM} (y | \text{Prefix}^*; \mathcal{X} ) \\ \text{Prefix}^* = \text{MLP}_{\theta} (\tilde{\mathcal{H}}^* + \lambda \epsilon_i), \quad \epsilon_i \sim \mathcal{N} (0, I). \tag{5}$

一つの属性組み合わせに対して複数の属性関連の文を生成する場合、その共通部分を一度だけ計算すればよい。

実験

ここでは、「感情」「話題」「無害化」の3つの側面から制御することで、本手法の有効性を実証する。

マルチアスペクト制御タスク

使用するデータセットは、GeDi (Krauseet al., 2021) とContrastive Prefix (Qian et al.,2022) と同じである。全ての属性でデータ規模のバランスを取るために、GeDiが使用するサンプル数より少ない各データセットから10k文をランダムにサンプリングし、各属性がこの量を均等に分割している。センチメント、トピック、デトックスについては、それぞれIMDb movie reviews (Maaset al., 2011)、AGNews dataset (Zhang et al.,2015) 、Jigsaw Toxic Comment Classifica-tion Challenge Dataset5を使用する。

　テキスト生成に用いるプロンプトは、PPLM (Dathathri et al., 2020) で用いたものと同じであり、単語袋実験から20個、識別器実験から15個を用いている。3つのアスペクトの8つの組み合わせと2つの感情×4つのトピック×1つの解毒で実験し、各組み合わせと各プロンプトに対して5つのコンプリートを生成する。合計で35×2×4×1×5＝1400文の文章が生成されることになる。なお、言語モデルに有毒な文章を生成させるようなプロンプトは特に使用していないため、無害化を容易に改善することができる。

異なる側面に対する性能を測定するために、属性の関連性を計算する。Yelp dataset（Zhang et al., 2015）でDeBERTa （He et al., 2021b,a）分類器を感情側面について、トピック分類器を学習中に使われなかった全ての残存データを利用して、ファインチューンを行う。Google Perspective APIで毒性がないことを評価する。モデルの最終的な性能は、上記で紹介した3つの属性関連性スコアの平均値で決定される。また、テキストの品質を測定するために2つの補助的な指標を使用する。一つは、Contrastive Prefix（Qian et al., 2022）に従ってGPT2-largeによって計算されるperplexityである。また、異なるPrefixの変化にモデルが影響されないように、異なるPrefixから生成された文のDistinctness （Li et al., 2016）を計算し、1-gram。2-gram。3-grams distinct scoreを平均してsimplicityとしている。さらに、異なるモデルshuffledによって生成された文章で人間による評価を行う。各文章は3人の専門家評価者によって、3つの属性の関連性とテキストの流暢さについて評価される。評価者は各項目を1〜5で評価し、5は属性との関連性が高い、または非常に流暢な文章を表す。

ベースライン

(1) Weighted Decoding: PPLM（Dathathri et al.,2020）は、学習済み分類器からバックプロパゲートされた勾配で言語モデルのバイアスをかける。GeDi（Krause et al., 2021）は、属性に条件付けられたトークン確率で復号化プロセスに影響する。(2) Multi-objective Optimization:MU-COCO（Kumar et al., 2021）は、デコード処理を、言語モデルが目的関数、属性が制約となる最適化問題として捉えている。Mix&Match（Mireshghallah et al., 2022）は、エネルギーベースモデルで属性を制御し、マスキング、サンプリング、補正により文章を生成する。 (3) Prefix–Tuning:Contrastive Prefix（Qian et al., 2022）は、prefixを利用して言語モデルを活性化し、連結や半教師による属性関連文の生成を行う。

結果

表1の自動評価結果に基づき、多面的な設定のもと、手法の種類に基づきモデルを時系列にグループ化した。また、異なる属性の組み合わせにおけるモデルの安定性を反映する標準偏差を示した。

　重み付け復号化において、GeDiはPPLMよりも強力な分類器を用い、属性の関連性、異なる組み合わせに対する安定性、識別性において優れた性能を示すが、その反面、perplexityにおいては劣る。多目的最適化手法では、属性の関連性については良好な結果が得られたが、MUCOCOは、その非自己回帰的なパラダイムがゼロからの生成に適していないため、perplexityについては爆発的に悪化してしまった。半教師付きContrastive Prefixの性能は、多様性の欠如を除いて、GeDiと同様である。

　本手法は、属性に関連する平均的な指標において、既存のベースラインと比較して少なくとも7.3%の有意な改善を示し、最高の性能を発揮しした。我々の進歩は主にセンチメントとトピックの側面からもたらされ、それぞれ13.9%と10.3%を下回ることはなかった。我々のモデルは無害化（detoxification）に関してはベストではないが、平均で最も低い標準偏差10.9により、最もバランスが良く安定している。流暢な文章を得意とする言語モデルを直接修正することなく導入するPrefixチューニングベースの手法であるため、perplexityにおいて高い性能を発揮し、多様性においてもその性能を受け継いでいる。

　さらに、アスペクトギャップ損失 $\mathcal{L}_G$ と属性分類損失 $\mathcal{L}_C$ を分離して評価する。一方、 $\mathcal{L}_G$ がないと、異なる学習データセットの偏りを緩和することができず、交差領域の探索が困難になる。また、属性空間における異なるアスペクトのサンプルポイント間の距離が長くなると、我々のモデルはより疎な領域からマッピングされた文章を生成することになり、流動性についてはわずかに低下し、多様性についてはわずかに増加することになる。一方、 $\mathcal{L}_C$ がない場合、属性空間は完全に崩壊する。これは、モデルが同じアスペクトの異なる属性の表現をほとんど区別できず、比較的楽な解毒に集中するためである。さらに悪いことに、明確な表現がないため、モデルは類似の文章から異なる文章を復元する必要があり、学習時に振動が生じ、推論時に完全な文章を生成することができない。

人間による評価結果は表2のとおりで、注釈者内一致度はFleiss'κで0.36であった。GeDi、Contrastive Prefix、および我々の方法を評価した結果、センチメントとトピック関連性において自動評価と一致することが確認された。無害化に関するモデルの性能は高く、比較的類似しているため、自動的な結果は、アノテーターが我々のモデルがベースラインよりも良い仕事をすると信じている手動的な結果とは異なる。perplexityは比較的信頼性が低いため、手動で測定されたGeDiの流暢さはContrastivePrefixの流暢さよりもはるかに優れている。そして、我々の方法は最も優れた流暢性を達成した。

分析

さまざまな属性とその組み合わせの効果

各属性およびその組み合わせの詳細な結果を表3に示す。GeDiとPrefix-tuningはシングルアスペクトコントロールにおいて異なる性能を発揮し、それぞれに長所がある。例えば、GeDiは93.9%のレリバンスでネガティブに特化しており、Prefix-tuningは90.6%のレリバンスでポジティブを得意としている。マルチパースペクティブコントロールを行う場合、平均関連度はそれぞれ91.1%、79.1%となり、このようなアンバランスな特性を受け継いでいる。また、ベースラインはシングルアスペクトと比較して、各属性の平均関連度が0.7～33.0と、相応に低下している。平均して、我々のモデルは、属性メトリクスにおいて他のベースラインを上回った（表1）。詳細には、我々のモデルは、プレフィックスチューニングに基づく別のモデルであるContrastive Prefixと比較して、ほとんどの属性で競争力のある性能を発揮している。特に、ビジネスや科学技術といった属性において、我々のモデルは、マルチアスペクト制御において、プレフィックスチューニングに基づく別の手法を大幅に改善し、シングルアスペクト制御においては、それを上回ることさえ可能である。

　また、属性間の相関は、表3のように大きく変化している。例えば、一般的にポジティブは無毒と相性が良いが、ネガティブは無毒が大きく低下する。これは、人を褒めることと怒らせることは同時にできない、という直感と一致する。また、世界やビジネスのニュースは、戦争、飢餓、インフレなどネガティブに報道されることが多く、ポジティブと組み合わせるのは困難である。属性が密接に相関していない場合、つまり、これらの属性を併せ持つ自然文が少ない場合、本手法はそのような稀な出来事を捉え、その頻度を拡大する可能性が高くなる。ビジネスを例にとると GeDiは75.7、Prefixは93.5と、ビジネスに対するシングルアスペクト制御を行うことで、細かい属性関連性を実現することが容易にできる。しかし、ビジネスに対してポジティブを付与した場合、ベースラインモデルはその相関性の弱さから、GeDiが54.3、Contrastive Prefixが41.7に低下してしまう。これに対し、本手法では、学習文に含まれるこの異常な共起を属性空間から回収することでこの問題を緩和し、単一アスペクト制御に近い91.7という性能を達成することができる。また、比較的よく使われるビジネスとネガティブを組み合わせた場合、ベースラインモデルではまだ若干の低下が見られる。一方、本手法は96.7とシングルアスペクト制御を上回る性能を得ることができる。

推定される属性空間

図3では、センチメントとトピックの側面から、ポジティブ、ネガティブ、スポーツ、科学/技術の4つの属性を推定し、属性空間の一部を示している。この高次元空間を主成分分析（PCA）により2次元に投影したところ、我々の仮説と同様に、スポーツと科学/技術の分布は非対称であり、共通部分は属性の分布の疎なエッジにあることがわかった。さらに、ベースラインの戦略と我々の戦略で探索された共通部分をそれぞれ投影した。ポジティブ-科学/技術ペア、ネガティブ-科学/技術ペアの場合、組み合わせは比較的タイトであり、共通部分を見つけるのは容易である。しかし、ポジティブ-スポーツペアとネガティブ-スポーツペアの共通部分はかなりまばらである。拡大図に示すように、ベースラインで探索された共通部分は2つの分布中心の中間点であるが、この位置は属性が交差している場所ではない。逆に、本手法はこのような疎な領域で共通部分を見つけることができ、その周囲のわずかな領域に2つの異なる属性の様々な点を同時に出現させることができる。なお、この投影でpositiveとnegativeが接しているように見えるのは、高次元空間で近いからで、実際には、この2つの属性をA.3に投影しただけでは、共通部分は存在しない。

$K$ の効果

$K$ の変化を共通部分探索アルゴリズムで解析し、その結果を表4に示す。我々のモデルは、 $K$ が200のときに臨界点に達し、このとき最適な性能を発揮する。一方、 $K$ の値が徐々に増加するにつれて、我々の方法は、サンプルが少ない一方で属性がより緊密に組み合わされる領域に注意を払わなくなり、性能はそれに伴って低下する。 $K$ が5kに達したとき、本手法は共通部分を分布中心の中点として扱うプレーンなプレフィックスチューニングモデルに堕落する。その性能は表1のContrastive Prefixの連結版と似ているが若干劣る。一方、 $K$ が小さいと、ノイズの影響が学習データで無視できなくなるため、最適とはいえない性能になる。 $K$ が10より小さい場合、モデルは非常に不安定になる。

属性分布

各属性が独立に投影されたPCAにより、サンプルポイントを2次元に投影する。図4に示すように、Worldの散布図を表示し、ガウスカーネル密度推定を行い、確率分布を可視化する。濃い部分は確率が高いことを示し、オラクル文の表現点が多く集まる場所であることがわかる。また、赤い楕円で示された領域が推定された分布の中心である。プロットのように、Worldの分布は、上部に中心があり、下部は疎な尾を引くように、大きく非対称である。さらに、分布は非凸で、右下隅に孤立したクラスターがある。この観察結果は、属性の実用的な分布は、ガウス分布のような対称的な分布よりもはるかに複雑であるという我々の仮説を裏付けるものである。さらに、他の属性の分布もA.1.にプロットした。

ディストリビューションレンズに関する議論

DGC (Khalifa et al., 2020）のようなパイロット的な研究は、エネルギーベースのモデルで言語分布を推定し、制約の多様性にアプローチして制約を満たすようにこの分布を最適化する。COLD Decoding (Qin et al., 2022)やMuCoLa （Kumaret al., 2022）のような最近の分布アプローチは、言語と属性分布を同じ空間で捉え、属性関連の文をLangevin Dynamicsでサンプリングするようにしている。画像側の同時進行研究であるPromptGen (Wu et al., 2022）は、深層再生モデルを用いて、ターゲット属性に関連する画像の複雑な分布をシミュレートする。しかし、多様体学習の常識として、学習済みの言語モデルは、高次元の埋め込み空間に低次元の言語の多様体を推定するため、埋め込み空間内のほとんどの点は言語モデルによって確率的にモデル化されていないことになる。言語モデルの分布モデル化能力を過信することは、良い選択とは言えないと我々は考えている。本手法では、属性空間を属性文の離散的なサンプル点で表現し、これらの離散的な点とそのカバー領域を推定分布のサポートセットとすることを試みている。

結論

本研究では、マルチアスペクト制御可能なテキスト生成のための分布的視点を提示し、実験結果により、本モデルの優位性が確認された。さらに、推定された属性空間の2次元投影を観察した結果、属性空間に関する我々の仮説がより実現可能であることが示された。将来的には、よりきめ細かい制御を行うために、異なる属性の組み合わせの相関関係を調べたり、バイアスを除去または利用するためにデータセットに取り込んだりすることが可能である。

制限事項

本手法は、属性空間を推定する必要があるため、データへの依存性がある。そのため、本手法は数ショット学習ではうまく機能しにくい。しかし、この欠点は、スタイル変換のタスクでは比較的十分なシングルアスペクトのデータしか必要としないため、それほど深刻ではない。また、本手法のデータ依存性は、データの偏りにやや敏感であることである。学習データの異なるアスペクトの意味的乖離が大きすぎる場合、各アスペクトの分布の距離を縮めることを目的としたアスペクトギャップ損失は、文再構成損失と衝突する。　また、アスペクトギャップ損失は各アスペクトのバッチレベルの推定を利用しているため、計算資源もこのアプローチに影響を与える。したがって、バッチサイズが大きければ大きいほど、より正確な近似推定ができ、属性空間に偏りが少なくなる。バッチサイズが小さい場合の代替戦略は、十分な分布サンプルを蓄積した後に損失をバックプロパゲートすることだが、これはより多くの学習エポックを要する。

izmyonの日記

奈良の山奥で研究にいそしむ大学院生の学習記録。

今日の論文2023/05/13,14：A Distributional Lens for Multi-Aspect Controllable Text Generation