Preface
このシリーズでは、Diffusionモデルについて学習する時にノート代わりに記事を書いていく。これはその第二弾で以下の第一弾の続き。手始めにめちゃ分かりやすいと巷で話題の(そして実際分かりやすかった)以下のDiffusionモデルの解説論文を少しずつ翻訳していき、脳に焼き付けていく。後々より詳しい解説とか、自分でJAXで実装とかができたらいいなと思っている。
Calvin Luo: Understanding Diffusion Models: A Unified Perspective, arXiv: 2208:11970, doi: 10.48550/ARXIV.2208.11970
©Calvin Luo, Originally posted in arXiv(https://arxiv.org/abs/2208.11970), 25 Aug 2022
License: Creative Commons Attribution 4.0 International (CC-BY)
以下は、原文の一部を翻訳したもので、以下の図はそこから引用したものです。
The following is the translation of part of the original content and the figures below are retrieved from it.
Understanding Diffusion Models: A Unified Perspective
Variational Diffusion Model
変分拡散モデル (VDM: Variational Diffusion Model) [4, 5, 6] を考える最も簡単な方法は、単純に以下の三つの重要な制約を持つマルコフ型階層変分オートエンコーダとして考えることである。
潜在次元はデータ次元と正確に等しい。
各タイムステップにおける隠れエンコーダの構造は学習されず、線形ガウスモデルとして予め定義されている。言い換えれば、それは前のタイムステップの出力を中心とするガウス分布である。
隠れエンコーダのガウスパラメータは、最終タイムステップTにおける潜在変数の分布が標準ガウス分布になるように時間的に変化する。
さらに、標準的なマルコフ型階層変分オートエンコーダにおいける階層的遷移間のマルコフ特性は、明示的に維持するものとする。 これらの仮定が意味するところを拡大してみよう。最初の仮定から、多少の表記法の乱用はあるが、真のデータサンプルと潜在変数の両方をで表すものとする。ここで、は真のデータサンプルを表し、]はインデックスの階層を持つ対応する潜在変数を表す。VDMの事後分布は、MHVAEの事後分布(式(24))と同じだが、今は次のように書き換えることができる。
第二の仮定から、エンコーダの各潜在変数の分布は、その前のHVAEの出力を中心とするガウス分布であることがわかる。マルコフ型HVAEとは異なり、各タイムステップにおけるエンコーダの構造は学習されない。それは線形ガウスモデルとして固定され、平均と標準偏差はハイパーパラメータとしてあらかじめ設定されるか[5]、またはパラメータとして学習される[6]。ここでは、平均、分散のガウシアンエンコーダとしてパラメータ化する。ここで係数の形式は,潜在変数の分散が同じようなスケールにとどまるように選択される。言い換えれば、このエンコーディングの手順は”分散保存的(variance-preserving)”である。ここで、ガウス分布のパラメータ化は他の方法も可能であり、同様の導出ができることに注意。このやり方では、は(潜在的に学習可能な)係数であり、階層的深さに応じて柔軟に変化することである。数学的には、エンコーダの遷移は次のように表される。
第三の仮定から、は固定された、あるいは学習可能なスケジュールに従って時間と共に進化し、最終的な潜在変数の分布が標準ガウスとなることがわかる。そして、マルコフ型HVAEの同時分布(式(23))を更新して、VDMの同時分布を次のように書くことができる。
つまり、これらの制約が意図しているのは、時間経過とともに入力画像を徐々にノイズに変えていくということであり、より詳しく言うと、ガウスノイズを加えていくことで入力画像を徐々に崩壊させ、最終的には純粋なガウスノイズと完全に同じにさせるということである。この過程を視覚的に表現したのが図3である。
なお、エンコーダの分布は、各タイムステップにおいて、定義済みの平均と分散のパラメータを持つガウシアンとして完全にモデル化されるため、もはやによってパラメータ化されないことに注意する。したがって、VDMでは、新しいデータをシミュレートできるように、条件を学習することにのみ興味がある。VDM を最適化した後のサンプリング手順は、ガウシアンノイズをからサンプリングし、繰り返しノイズ除去遷移をTステップ通し、新しいを生成する。
他のHVAEと同様に、VDMはELBOを最大化することで最適化でき、次のように導出される。
ELBOの導出形式は、その個々の構成要素で解釈することができる。
- は再構成項と解釈され、一段階目の潜在変数が与えられたときの元のデータサンプルの対数尤度を予測する。この項はバニラVAEにも現れ、同様に学習させることができる。
- は事前マッチング項であり、最終的な潜在分布がガウス事前分布と一致するときに最小化される。この項は、学習可能なパラメータを持たないため、最適化の必要がない。さらに、最終的な分布がガウス分布となるように、十分に大きなを仮定しているため、この項は実質的にゼロになる。
- は整合項であり、の分布が前方、後方の両プロセスで整合するように努める。つまり、各中間タイムステップごとに、ノイズの多い画像からのノイズ除去ステップは、対応するよりクリーンな画像からのノイズ加算ステップと一致すべきであり、これはKLダイバージェンスによって数学的に反映される。この項は、式(31)で定義されているように、がガウス分布と一致するように学習されるとき最小となる。
ELBOのこの解釈は、図4に視覚的に描かれている。すべてのタイムステップに対して最適化しなければならないため、VDMを最適化するコストは、主に第3項によって支配される。
この導出の下では、ELBOのすべての項は期待値として計算され、したがって、モンテカルロ推定を使用して近似することができる。しかし、今導出した項を用いてELBOを実際に最適化すると、最適とは言えないかもしれない。整合項は、すべてのタイムステップごとに2つの確率変数に対する期待値として計算されるので、モンテカルロ推定の分散は、タイムステップごとに1つの確率変数のみを用いて推定される項よりも大きくなる可能性がある。個の整合項の合計で計算されるため、最終的なELBOの推定値はの値が大きいと分散が大きくなる可能性がある。
その代わりに、各項が一度に1つの確率変数に対する期待値として計算されるELBOの形式を導出することを試みましょう。重要なのは、エンコーダの遷移をと書き換えることで、マルコフ特性により、余分な条件項は不要になることである。そして、ベイズ則に従って、各遷移を次のように書き換えることができる。
この新しい式を使って、式(37)のELBOから再開して導出を試みることができる。
以上より、低い分散で推定できるELBOの解釈を導き出すことに成功し、各項が一度に最大でも一つの確率変数の期待値として計算されることがわかる。この定式化は、個々の項を調べることでエレガントに解釈することができる。
- は再構成項と解釈できる。バニラ VAEのELBO における類似の項と同様、この項はモンテカルロ推定を用いて近似および最適化できる。
はノイズ化された入力の最後の分布が標準ガウス事前分布にどれくらい近いかを示す。学習可能なパラメータは無く、ここでの仮定の下では0に等しい。
は"ノイズ除去マッチング項"である。望みのノイズ除去遷移ステップを、ground-truthのノイズ除去遷移ステップの扱いやすい近似として学習する。はノイズの多い画像をどのようにノイズ除去するかを定義し、最終的に完全にノイズ除去された画像がどうあるべきかを知っているため、ground-truth信号として機能することができる。したがって、この項は、KLダイバージェンスによって測定されているように、2つのノイズ除去ステップができるだけ一致するときに最小化される。
余談だが、二つのELBOの導出過程(式(45)および式(58))において、マルコフ仮定のみが用いられており、その結果、これらの式は任意のマルコフ型HVAEに対して成り立つことがわかる。さらに、とすると、二つのVDMのELBOの解釈は、いずれも式(19)で書かれるように、バニラVAEのELBO方程式を正確に再現する。
このELBOの導出では、最適化コストの大部分が再び総和項にあり、再構成項に対して支配的であった。各KLダイバージェンスの項は、エンコーダを同時に学習するという複雑さが加わるため、任意に複雑なマルコフ型HVAEでは任意の事後分布に対して最小化することが難しいが、VDMではガウス推移仮定を利用して最適化を扱いやすくすることが可能である。ベイズの定理により、以下のようになる。
エンコーダの遷移に関する仮定(式(31))から、が既に分かっているので、後はとの形を導けば良い。幸運なことに、VDMのエンコーダ遷移は直線ガウスモデルであるという事実を利用して、これも扱いやすくすることができる。再パラメータ化トリックの下で、サンプルは以下のように書き換えることができる。
同様に、サンプルは次のように書き換えることができることがわかる。
そして、の形式は再パラメータ化のトリックを繰り返し適用することで再帰的に導出することができる。ここで、のランダムノイズ変数を取得できたとする。そして、任意のサンプルに対して、以下のように書き換えることができる。
ここで、式(64)では2つの独立なガウス確率変数の和がいまだガウシアンであり、平均は2つの平均の和、分散は2つの分散の和であることを利用している。をガウシアンからのサンプル、そしてをガウシアンの標本とすると、それらの和はガウシアン からサンプリングした確率変数として扱うことができる。この分布からのサンプルは、再パラメータ化のトリックを使って、として、式(66)のように表現される。
したがって、ガウシアン形式を導出しました。この導出はを記述するガウス分布のパラメータを得るために修正することができる。ここで、との両方の形式を知っているので、ベイズ則展開に代入しての形式の計算に進むことができる。
ここで式(75)のは、との値のみの組み合わせとして計算されたのそれぞれに関する定数項であり、この項は式(84)に暗黙的に返されて平方完成される。
したがって、各ステップにおいてはとの関数である平均と係数の関数である分散で正規分布することが示された。 これらの係数は既知で各タイムステップで固定されており、ハイパーパラメータとしてモデル化された場合は恒常的に固定化されるか、またはモデル化しようとするネットワークの現在の推論出力として扱われる。式(84)に従うと、分散方程式をと書き直すことができ、以下が成り立つ。
近似ノイズ除去遷移ステップをground-truthのノイズ除去遷移ステップにできるだけ近づけるために、ガウシアンとしてモデル化することもできる。さらに、すべてのα項は各タイムステップで凍結されることが知られているため、近似されたノイズ除去遷移ステップの分散もとなるように直ちに構築することができる。しかし、はを条件としないので、その平均をの関数としてパラメータ化しなければならない。
ここで、2つのガウス分布の間のKL収束は次の通りであることを思い出してほしい。
この場合、2つのガウス分布の分散を正確に一致させることができるので、KLダイバージェンス項の最適化は、2つの分布の平均の差を最小化させるために減少させることになる。
ここで、 はの略記、はの略記として簡略化して書いている。言い換えれば、我々は、に一致するを最適化したいのであって、我々の導き出した式(84)から、次のような形をとる。
もを条件としているので、以下の形に設定することでに近い形で一致させることができる。
ここで、は、ノイズの多い画像と時間インデックスからを予測しようとするニューラルネットワークによってパラメータ化される。そして、最適化問題は次のように単純化される。
したがって、VDMを最適化することは、任意にノイズ化された画像から元のground-truthとなる画像を予測するニューラルネットワークの学習に帰結する[5]。さらに、すべてのノイズレベルにわたって、我々の導き出したELBO目的関数(式(58))の総和項を最小化することは、すべてのタイムステップにわたって、この式を最小化することによって近似できる。
これは次に、時間ステップにわたる確率的なサンプルを使うことで最適化される。
Reference
[4] ] Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. In International Conference on Machine Learning, pages 2256–2265.PMLR, 2015.
[5] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Advances in Neural Information Processing Systems, 33:6840–6851, 2020.
[6] Diederik Kingma, Tim Salimans, Ben Poole, and Jonathan Ho. Variational diffusion models. Advances in neural information processing systems, 34:21696–21707, 2021.