を単語列(文書)とし,i.i.d.標本が与えられているとする.ただし,は単語を表し,である.ここで,トピックという概念を導入する.トピックは,例えば「政治」とか「経済」みたいなもの.個のトピックを考え,これをで表す.

混合ユニグラムモデルでは,文書という名の単語列はただ一つのトピックに基づいて生成されると仮定する. つまり,文書がトピックをもち,トピックが単語分布を持つ,というイメージ. トピックと単語が従う確率分布が持つ確率質量関数をそれぞれ以下のように定義する.

これはカテゴリ分布と呼ばれているらしい.

さて,パラメータをデータ から推定することを考える. とりあえず最尤推定してみよう. 最適化問題は以下のようになる.

ただし,対数尤度は,

ちなみに,

である.ここのきもは,文書はトピックに基づいて生成されると仮定したので,を周辺化してトピックの条件付き確率で記述している点. 僕なりにいうと,文書がトピックとは独立に生成されるなんてことはありえないというか今そんなことは考えていないのでこうやるんだと思っている.

さて,解いていきたいところだけど,実はこの問題,ラグランジュの未定乗数法で条件は出せるが,解析的に解が計算できない. これは,logの中にsumがいて邪魔だから. この問題を解決するために,以下のようにジェンセンの不等式(Jensen’s inequality)を用いて対数尤度の下界を導出する.

ただし,. なんか僕は最初,一行目ですでにという制約があるんだからジェンセンの不等式適用できるじゃないか!って思っていました. あと,多分じゃなくて,とかにしてもいいと思いますが,こうすると後々楽なんだと理解しています. さて,Jの代わりにFを最大化するのですが,これって何をやっているのでしょうか. 一つの解釈は,は下界Fが持つパラメータで,Fをに関して最大化して,Jの近似を得ているのでは,と思います. では,以下の問題を解いて,Jの近似を得ましょう.

Lagrangianは以下のようになる.

以下途中計算.

これらから,

を得る. さて,Jの近似が得られました. 今度は,Jの近似に関して最大化します.

Lagrangianは以下のようになります.

以下,途中計算. まずは

よって,

次は.

よって,

以上をまとめると,適当に初期値を決めて,

を繰り返す.

さて,こういうアルゴリズムを作ったけど,対数尤度が減少しないことの証明が最低限必要だ. これは現在の解において,対数尤度と下界が接していれば良い. つまり,において,となっていれば良い. そうすると,下界の最大値は少なくとも今の対数尤度の値となる. 以下,これを証明する.

これで,EMアルゴリズムによって,対数尤度は減少しないことがわかった.