Term Frequencyの確率論的解釈
文書を, 単語をとすると, 文書検索におけるゴールはを推定することになる. 一度,が推定できれば,単語に対して,の大きい順に文書を並べれば,検索っぽいことができる.
さて,文書検索において古くからよく使われる関数に,TF-IDF (Term frequency - inverse document frequency)がある. 今回は,このTFの部分を確率論的に解釈したいと思う.
さて,データが与えられたとする. この時,対数尤度は以下のようになる.
ただし,は文書が含む総単語数,は文書の番目に出現する単語,は文書での単語の出現回数である. 今回は,をそれぞれ以下のようにモデル化する.
制約条件を加えて最適化問題を書くと以下のような問題を解くことで,パラメータを求める.
この時ラグランジアンは以下で与えられる.
最適解は以下の条件を満たす.
よって,
となり,これはTerm Frequency (TF)に一致する. なお,今回は,のみに関心があったので,については省略する.
こうして見てみると,文書ごとにユニグラムモデルを考えているように見える. 次は,これを混合ユニグラムモデルに拡張してみようと思う.