混合ユニグラムモデルの生成過程に基づいて人工データを生成してみました.
これで,混合ユニグラムモデルの推定精度の評価ができます.
他にも,文書数が少なくて特徴量の数(単語の異なり語数)が多い状況などが人口的に作り出せます.
こういうところからインスパイアされることも多いと思うので,やってみました.
コードは以下です.
実際にGMMでクラスタリングしてみると,文書数200に対して,特徴量が少ない時 (1000),V1-Measureは1.0と完璧にクラスタリングできていますが,
特徴量の数を5000に増やすと,データ行列がかなりスパースになり,V1-Measureが0.5程度にまで下がります.