混合ユニグラムモデルの生成過程に基づいて人工データを生成してみました.

これで,混合ユニグラムモデルの推定精度の評価ができます. 他にも,文書数が少なくて特徴量の数(単語の異なり語数)が多い状況などが人口的に作り出せます. こういうところからインスパイアされることも多いと思うので,やってみました. コードは以下です. 実際にGMMでクラスタリングしてみると,文書数200に対して,特徴量が少ない時 (1000),V1-Measureは1.0と完璧にクラスタリングできていますが, 特徴量の数を5000に増やすと,データ行列がかなりスパースになり,V1-Measureが0.5程度にまで下がります.