word2vecが流行っていますね.僕も3ヶ月前くらいから触り始めました.これ,どうしても類似度に目がいくんですけど,よい類似度っていうのは目的によりけりなので一般的に評価しづらいです.なのでこの手の論文とかでもうまくいった例を幾つか載せて定性的に評価していることがあります.今回は,ベクトル表現学習の”上のタスク”である分類問題においてこの有効性を評価してみます.
今,「犬の名前なのか猫の名前なのかを分類する分類器を作りたい」人がいるとします.機械学習的なアプローチだと,犬の名前,猫の名前をいくつかピックアップしてデータを作り,学習させて評価します.コードは以下に載せておきます(もし試したい人がいたら,モデルはご自身のを!).
結果は以下のようになりました.
CVスコアが0.94 で定量的にみてもうまく分類できていますね.ちなみにこのモデルだと,”マンチカン”と似ている単語TOP10は以下のようになります.
ここまで見ると動物同士が似てしまっている,動物の分類には使えない!となりそうですが,世の中には強力な分類器が存在していますのであまり類似度だけをみて判断するのはよくなさそうです.
今回はword2vecで学習したベクトル表現を使って単語の分類問題に挑戦してみました.今回はなかなかうまくいったので,他の応用にも使えそうです!!
※この記事は WordPress に投稿した記事を変換したものです。一部不自然な表示があるかも知れません。ご了承ください。また、記事タイトル先頭の * は WordPress から移行した記事である印です。