500件中,450件を学習に,50件をテストに用いました.なお,辞書も学習データのみで構築しています.つまりテストデータには未知語が含まれています.
結果を以下に示します.やはり未知語が多いと予測が辛そうです.ただ,未知語であっても予測できているケースもあります.
今回はデータ数が少ないので,仕方ないかもしれません.次回はもっと大規模なデータでやりたいですね.
コーパスを作らないといけないわけですが….
コードのアルゴリズム部分は最後に載せておきます.
今回も短文だ….長文を書く元気が欲しいです.