「ニコニコのタグ検索の「精度」の話」の反省


前回の記事がわりとつっこまれてたので色々反省して,本来書きたかった趣旨と,駄目なところをあげてみる。

書きたかったこと。


そもそも言いたかったことは以下につきる。


ニコニコ動画のタグが使いにくいのは(精度でなく)再現率が極度に低いタグが多いから」


改めて考えると,この場合に「再現率」という語句を使うのも微妙かもなー,と思ったりもするんだけど*1,要するに,dankogaiの「精度」の語句に違和感を覚えたのをきっかけに,どうしてニコニコのタグが使いづらいのかを自分なりに適合率とか再現率とかで表現してみたくなっただけなんですな。
本当,言いたかったのはここだけ。それに余計なことを付け足したのが間違い。

駄目なところ


で駄目だよなあと反省した箇所が以下。


なお,語句としては精度より適合率のが自分は好きです(dankogaiのがあったから先の記事では揃えただけ)。たぶんこっちの方が分かりやすいと思うので,以下では適合率の方を使用してます。

  1. “タグ検索の”適合率・再現率の測り方をちゃんと検討してない。
    • 「精度(適合率)っていえば検索式の評価のことだよな?」と思いこんで,十分な検討もせずに図書館の件名で本を探すときの調子で*2動画に付与されたタグから適合率を求めた。これがアウアウ。
    • つーかこういう研究って前例あると思ったら,タグ検索同士の比較ってあんまりないんですね。(海外の方は十分見てないのであるかもだけど)国内には別種のソーシャルタグの検索精度を比較するような研究は見つけられなかった。*3
    • 要するに,前例がない(または知らない)ものを勝手な思いこみでろくに検討せずに出してたと。馬鹿です。
  2. 必要もないのにはてブの適合率まで出してる。しかも不十分に。
    • そもそもニコニコのタグは適合率は低くないって話をしたいだけだったのに,欲を出して(というか元記事がそうだったから)はてブと比較しようとした。これが失敗の上塗り。
    • 上と同じくよく分からない方法で適合率を求めてる上,比較のためとはいえニコニコの動画のブクマという特殊なサンプルを一つしか調べてないので偏りまくったわけです。
    • まあ根本が腐ってるからサンプル増やしても仕方ないんですが。
    • つーか誰かはてブ内をタグで検索する場合の適合率や再現率の調査って知りません? 見つけられないorz
  3. そもそも再現率出してない。
    • いやめんどいから出さないで推定だけしたんですが。これ本題なのにね。
    • ニコニコ動画の孤立タグの比率の調査とかはあとでやってもいいなと思ってます。ランダムに動画リスト出してそのタグの統計だすとか。
  4. 結論だけでやめておけばいいのに,改善案とか蛇足を足してる。
    • 完全に余計。せめて別エントリで書いておけばよかったのにね。書いてたらノリノリになっちゃって俺天才じゃねモードに入ったらしい。
    • アレはわかりづらい上にあんまり参考にならないと思うので読みづらければ読まなくよいです。
    • ある動画群のタグのタグクラウド化とかは面白い気はするんですけどね。マイリストとかランキング動画とかのタグをタグクラウド化して遊び中。一部はニコニコ部で公開してます。

今回学んだ教訓

  • ネタは小刻みに出して詰め込みすぎない。
  • 思いつきは思いつきで出して,変に理論武装しない。詳細な分析は後からでもOK。
  • 前例主義最高!
  • つか正直,こういう反省記事も痛いよねー。

*1:孤立しているタグが多いという話

*2:一種のタグである図書館の件名は前回やったノリで,適当な本を見つけてから似たような本を探すときによく使用します。

*3:似たようなところでは,タグを自動的に付与するシステムの研究で適切なタグが付与できたかを適合率・再現率を用いて評価する例はあったけど,これは「タグの付与の評価」であって「タグによる検索の評価」ではないので別物。というかこれを見てやっと検索式の評価として用いる用法だけじゃないことに気づいたアホな自分