TF-IDFを使ってキーワードを選んでみた
前回の続き。
TF-IDFを使ってキーワードを選んでみた。
わけちの場合、以下になるのかな。
tf = ツイートの中のキーワード数(1ツイートに何度も同じ単語があることは少ないのでほとんど1でしょうね)
df = 今まで学習してきた全ツイート数のうち、キーワードを含むツイート数
N = 今まで学習してきた全ツイート数
単語の学習回数は何かに使うかもと取っておいたので、ちょっと誤差(1ツイートにキーワードが複数回あった場合)はあるだろうけどdfに使えそう。
学習したツイート数は覚えていなかったんだけど、1回の返信でどれが一番大きい値になるかを調べるだけなので適当な定数でいいだろう。
結果
過去のわけちのツイート+リプライを食わせてみた。名詞しか対象にしていません。
★が一番値が大きい単語でキーワードとして使われます。
今日は焼酎に限る tfidf=3.367295829986474 keyword(今日) tfidf=6.8679744089702925 keyword(焼酎)★ 何でこのテーブルゲームだけで下半身露出でしか聞いてはアルコール切れた。怪しい単語を覚え始めたなw tfidf=7.181591944611865 keyword(テーブル) tfidf=4.31748811353631 keyword(ゲーム) tfidf=9.721125994942152 keyword(下半身)★ tfidf=6.675823221634848 keyword(露出) tfidf=7.9291264873067995 keyword(アルコール) tfidf=7.751475318021456 keyword(単語) アコギ購入!何買ったの? tfidf=9.721125994942152 keyword(アコギ)★ tfidf=6.118097198041348 keyword(購入) tfidf=3.9512437185814275 keyword(何) 甲子園、観ます!気が早いな tfidf=8.377241230988792 keyword(甲子園)★ tfidf=4.276666119016055 keyword(気) 昇格するぞ!わけちのsudo大作戦 tfidf=10.819778284410283 keyword(昇格) tfidf=7.641564441260972 keyword(ちの) tfidf=11.512925464970229 keyword(sudo)★ FF14って何でした?…そう言ってやるなよ>< 新生FF14に期待しようず。 tfidf=14.285654802323242 keyword(FF)★ tfidf=11.911674738929662 keyword(14) tfidf=3.9512437185814275 keyword(何) tfidf=9.114930187171524 keyword(新生) tfidf=14.285654802323242 keyword(FF)★ tfidf=11.911674738929662 keyword(14) tfidf=6.329720905522696 keyword(期待)
上の例だと100点だ!!