はてブ指数への反応に応えて


思い立って作って公開してからあちこちで反響頂いて,気がついたらブクマ数147*1。それまでの最大だった貸し本棚の倍以上と,想像以上の数字となってしまいました。せいぜい10数ブクマかなー,って思ってたんですけどねえ。。。


で,ブクマでいくつか興味深いコメントがあったので,取り上げて考察してみる。
なお,「h指数がよくわからない」という旨のコメントを見かけましたが,そのへんはmin2-flyさんの元記事でわかりやすく解説してあるのでご参照のこと。

toruto 理解してないで、書いておきます。この指数を組み込んだ検索アルゴリズムってどうだろう。対象となる範囲の問題があるかもだけど、何かに生かせそうな感じ。


計算自体はそれほど面倒ではないですし,はてブ指数のみならそれほど大きく変動もしないんですよね。せいぜい1か2上がる程度。今回みたいに大当たりしても変わらないくらい。
だからある程度固定化した値として処理することができると思いますので,サービスに組み込むことは可能かも。


ただ,検索というより,ホットエントリみたいな「いま人気のあるサイト」的な形式の方が向いてるかもしれません。
たとえばh指数と同時に提唱されたものとしてm値(h指数の年単位の差分。h指数の成長率)というのがあります。この値は近年の研究者の「勢い」みたいなものと考えられます。
これを応用して,はてブ指数については1日単位で「はてブ指数が伸びたサイト」みたいなリストが出せると面白いかも。過去記事のブクマが増えたのかもしれないし,新しい人気記事を書いたのかもしれませんが,現在注目される書き手,ということが言える気がする。特に指数の成長率については上も下も*2同様に困難,ってとこが面白い。

fromdusktildawn この計算方法だと、ブログの「濃度」は分からない。


はてブ指数では,ブログのブックマークの「濃度」は分からない,という指摘。
これについてはまったくその通り。はてブ指数では濃度は分かりません。


ただ,そもそもh指数の方式による指標は,その質(この「質」の意味合いについては後述)だけでなく,量も評価の対象としていることも忘れてはいけません。つまりブログがどれだけ人気の高い記事ばかりを生産してるとしても,その頻度があまりに少なければ,評価としては低くなってしまうのです。


この点で,fromdusktildawn氏がその典型的な事例であることがよく分かります。
上記でいうような「濃度」を計測する指標としては,ブクマ数の平均(総ブクマ数を被ブクマ記事数*3で割ったもの)を取るのが適当でしょう。
たとえば404 Blog Not Foundは総ブクマ数が61662,被ブクマ記事数2442で,平均は約25.25。d:id:umedamochioはブクマ数が21314,記事数798で約26.71となります。いくつかのブログを見ていくと,特に上位のブロガーに関しては20〜30ぐらいが一般的なことが分かります。
これに対し,d:id:fromdusktildawnは,総ブクマ数が15854,被ブクマ記事数が205で,平均は約77.34と,はてブの濃度が極端に高いことがわかります。


はてブ指数は68ですが,平均が77と極端に高いd:id:fromdusktildawnは,人気の高い記事を書いてるものの,記事数があまり多くない(記事を乱発させていない),というブログの典型といえるでしょう。
もちろん,こうしたスタンスでブログを続けることが良いとか悪いとかいうことではありません。ただしそうしたブログは,一つ一つの記事は人気が高いとしても記事数が少ないために,はてブ指数は低くなってしまう,ということです。


参考に,主なブログ等のはてブ指数とはてブの平均は以下の通り。(平均の高い順)
また,平均と指数の比較のために平均を指数で割ったものも付しました。

はてブ指数 最大ブクマ 総ブクマ ブクマ記事数 平均 平均/指数
POP*POP 147 1452 76144 906 84.04 0.57
id:fromdusktildawn 68 710 15854 205 77.33 1.13
phpspot 144 781 82459 1608 51.28 0.35
GIGAZINE 216 1567 197338 4882 40.42 0.18
Life is beautiful 80 588 23253 653 35.6 0.44
id:naoya 75 544 20937 633 33.07 0.44
痛いニュース 98 1509 71327 2206 32.33 0.32
id:secondlife 51 442 8063 264 30.54 0.59
id:amachang 53 486 9073 298 30.44 0.57
id:umedamochio 76 1213 21314 798 26.7 0.35
404 Blog Not Found 102 486 61662 2442 25.25 0.24
id:essa 56 364 12046 563 21.39 0.38
ITmedia 193 1207 359544 38676 9.29 0.04
ネタフル 82 1243 43423 5535 7.84 0.09
CNET Japan 125 1053 228007 30386 7.5 0.06
ITpro 147 1731 200954 28531 7.04 0.04
http://anond.hatelabo.jp/ 84 709 56935 9536 5.97 0.07
id:myrmecoleon(参考) 13 148 763 90 8.47 0.65


これをみると,平均(はてブの濃度)が指数を上回るというのは一定の記事数をブクマされてるブログとしては非常に珍しいことがよく分かります。id:fromdusktildawnのスタンスが光ってるというかなんというか。
また平均/指数が低いところは,人気のある記事を多数出していても乱発の傾向がある,というかそもそもニュースサイトなどのように毎日多数の記事を出すのが通常,みたいなところがありますね。クオリティよりも手数で勝負なIT系ニュースサイトと,一つ一つの記事を大事にする個人ブログの違いがはっきり見えます。……って,そうするとdankogaiはニュースサイトよりなんですね; 記事数多いですからねえ。

I11 ブックマークは肯定的引用だけとは限らない。興味本位、ネガティブな評価、嘲笑などを含む。はてブ指数はダイアリーの質とは関係ない。

leva サラリと実装してしまうところがカコイイ。ただコメント欄にもある通り、ソーシャルブックマークというのは論文の被引用文献に準ずる「価値」を示してはいないと言うこと。論争も含めて価値というならその通りだが


はてなブックマークのブクマ数はダイアリーの質(内容の高さ)とは相関していない,という指摘。これは確かにそうです。ブックマーク数を用いた評価はこれを前提に考えないといけないでしょう。


ただ,実はそのことは別にはてブ指数に限ったわけでなく,学術論文でもdisる目的で引用されることは多々あるんですよね。この論文のここがひどいとか,間違ってるとか。まあはてブよりは割合はかなり低いんですが,必ずしも引用数が質と直結してるわけではない。
だから一般に被引用数を評価の数字として使うときは「impact」と言います。被引用数の高い雑誌を表す指標として「impact factor」というのがあるのと同様。おそらく影響力とか存在感などと訳すのが適当だと思います。はてなのブックマーク数についても,これは同様でしょう。


つまり,はてブでの評価における「質」とは,記事の内容の質のことではなく,あくまで(はてなブックマークにおける)存在感である,と考えた方がいいでしょう。つまり論争だろうが,[これはひどい]だろうが,それがはてなブックマーク利用者の関心をわかせたものであるなら「質が高い」とする指標。
この点で,特に上記の意味での質だけでなく,量についても評価するはてブ指数は「存在感」の指標である,とみるのが適当だと思います。ホットエントリでよく見かけるとかそういうの。


そういう観点からみれば,GIGAZINEが上位につけているのもそれほど違和感はないかも。確かに存在感はありますから。

*1:うを,書き終わったら150いってる。。。まだ伸びるのかよ

*2:定評を受けててブクマを集めやすいサイトも,そうでないサイトも

*3:本来は総記事数を使うべきだが,確認困難なためブクマされた記事に限定