過去のはてブがURL絞込みからたどれなくなってる件。(追記あり)


id:naoya さんより詳細な仕様の説明がされていたので内容を修正しました。素早い回答ありがとうございました! 下記のとおり,実質的な問題はやり方次第で回避できるようです。


はてブ指数チェッカーご臨終のお知らせ。
はてなブックマークにはURLの前部を指定して,それに該当するブクマの新着・注目・人気などを調べる「URLで絞込み」という機能があるのですが,それがいまではある程度以前より前がたどれなくなっているらしい。
要するに,


http://b.hatena.ne.jp/entrylist?sort=eid&url=http%3A%2F%2Fb.hatena.ne.jp&of=7920
記事書き終わってからみたら,もう一ページ前までしかなくなってました。


2008年11月13日より前のメタブックマークはなかったことになりました!(マテ


まあ探せないってだけですが,これは新着だけじゃなくて,人気や注目でも同じ。つまりこの範囲(だいたい過去7000〜10000件の様子。基準不明)より前のブクマは,人気順で出しても網羅的じゃない,ってこと。このため,はてブの「人気」の機能を利用していたはてブ指数チェッカーは,数千記事を越える対象(ニュースサイト,動画投稿サイト,ブログサービス全体等)では正しい値が出せなくなりました。


そもそも気づいたきっかけは,『www.nicovideo.jp』 の人気エントリー - はてなブックマークが妙に最近の動画ばかりで埋められていたこと。確か数百をこえるブクマがされた動画もあったはずで違和感があり,調べてみると,ニコニコ動画も今年の1月中旬以前のブクマがたどれなくなってました。



http://b.hatena.ne.jp/entrylist?sort=eid&url=http%3A%2F%2Fwww.nicovideo.jp&of=9720


まあこんな大昔をたどろうとする人は珍しいけれど(数千ページがブクマられてる必要がある),たとえばはてダで過去に一番ブクマされた人はどれ,みたいなことはこれによりもう調べられなくなっています。
この仕様変更については告知はいまのところ発見できませんでした。類似のものとしては以下。

  • キーワードページ、タグページでの注目エントリーは、「そのキーワードもしくはタグを含む直近の k 件から 5 users 以上の新着順」という条件での表示となります。
    • これまでは「そのキーワードもしくはタグを含むすべてのエントリーから 5 users 以上の新着順」でした。
    • 実際に表示されるキーワードやタグページでは直近の数百件程度からの参照がほとんどで、過去のエントリーが参照されることはほとんどありません。そのため直近の k 件で絞り込みを行うよう変更しました。
    • 現在は k = 1000 としていますが、この値は今後調整予定です。
    • この影響で、該当キーワードや該当タグを含むエントリーが多いエントリーでは古いエントリーが遡れなくなりますが、参照される機会はほとんどないため問題はないだろうと考えています。
タグページ、キーワードページのパフォーマンス調整について - はてなブックマーク日記 - 機能変更、お知らせなど


これはタグとキーワードの仕様変更ですが,これがURL指定の場合でも行われるようになった,と考えれば今回の仕様変更の説明はつきます。
はてなブックマークは,過去の蓄積を大事にするサービスだと思っていたのですが,古いブクマは見えなくても問題ない,ってのが現在の考えであるようですね。ストックでなくフローと。だいぶがっかり。
特に「古いエントリーが遡れなくなりますが、参照される機会はほとんどないため問題はないだろうと考えています」とか。過去の良エントリーを見つけやすくするのがブックマークの蓄積やそれの検索の目的なんじゃないのかな。それともフローな最新情報紹介サイトに徹するのか。


いまのところ正式なアナウンスはないようですが,とりあえず分かってることは,


というところ。


自分はニコニコ動画の過去の人気動画を探すなどのときによく新着を数千ページさかのぼって過去の動画を探したりしていたのですが*2そういうことももうできないようですやり方を考えればできるようです。。まあシステム的な負荷が大きいことは分かりますが,これはサービスとしての姿勢を疑ってしまうかも。


ということを書いていたらご回答がありました。

過去のデータの蓄積から検索したりといったことがブックマークの目的ではないかというのは、その通りです。ですので、できうる限り蓄積したデータは提供していますし、検索もできます。

集合知」というのはロングテールのデータをロボット等で取り出せるように公開しておく、ということだとは思いません。ロングテールにあるデータも含めて、何かしらの仕組みで情報要求通りに順位付けをした上で提示することだと思います。そのために検索や、関連エントリーなど(人気エントリー、新着エントリーといった限定された範囲のデータを対象にしたものではなく)広範囲のデータに対するアプローチがあります。今後もその辺りを継続的に強化していくつもりです。


つまり,データの公開も無闇に公開していくのではなく,ユースケースを考えながらそれぞれに最適化されたやり方で提供していく,ということなのですね。なるほど。そういうことなら納得できます。
とりあえず回避の方法もないわけじゃないようですので*3大きな問題はないのかも。
改めて,素早いご回答ありがとうございました。

*1:自分もニコ部のほうには付けてる。こっち付けてないのは単にいじってないだけw

*2:ニコニコ動画の仮〜β時代の動画の人気は,わずかにブログで取り上げられた例を除けば,ブクマやInternetArchiveでないと調べられません。

*3:twitterみたいなURL構成のところだと,全体で人気のある発言を,みたいな使い方はできませんが