類書の探し方まとめ


東北各県版の図書館マップでがんばってるid:natu_nさんが「続き物(シリーズ)の検索もいれないと」と最近動いてる。あとid:bookscannerのところでは最近,Amazonの本Wikipediaの記事の「つながり」を可視化することについての記事が連続してあがっている。
自分とこでも何かに使えないかとそのへんのアイディアをまとめてるんだけど,どうも実装には時間がかかりそうなので,アイディアだけ放出してみた。どうぞご自由にお使いくださいな。ただし利用は自己責任で。


ちなみに主題としては本の関連書の探し方ですが,基本的な考え方は論文の検索やWebページの探し方とも共通しています。このへんはレファレンサの基礎の基礎と言えますね。

著者名


要するに同じ著者の書いた本。一番スタンダードだが,適合率*1は非常に高め。たいがい同じ人物は似たような主題分野の本を書きがちであるという性質を利用。難しい話をしなくても,作家買いはあんまりはずれがないよね,って話。
関連して,出版社名で探すってのもあるが,こっちは一部の専門的な出版社を除いてあまり有効ではないですね。出版社名は主題よりもむしろ,見つけた本の事前評価の部分にからんできますでしょうか。


難点としては

  • 同著者の本だけだと類書の一部しか探せない(再現率*2が低い)
  • 同姓同名の別人がいると適合率が落ちる*3
  • そもそも色んな主題の本を出してる作家も多い。

あたり。
特に再現率の低さは重要。著者名での類書検索は有効ですが,これだけでは十分ではありません。
あと,同じ人の書いた本は内容が「似すぎてしまう」ため,セカンドオピニオン的な意図で類書を探す場合には有効じゃないです。またWebサービスで使う場合の注意点としては,本によって著者名の表記が違うことがあるので,その違いを吸収できるように組まないとうまく動きません。

シリーズ名,レーベル名


タイトルが限定されますが,シリーズ名やレーベル名で検索するというのも割合有効です。たとえば「○○シリーズ」であるとか「○○文庫」であるとかですね。
特にシリーズ名はちゃんと付与されている場合,ほぼ確実に適合した類書を探せる利点があります。たとえばhttp://www.amazon.co.jp/gp/series/89165をみれば涼宮ハルヒシリーズの本が一覧できます。また小説類については同一レーベルの本はある程度類似した読書感が期待できると考えてよいでしょう。


難点としては

  • 一部のタイトルにしか付与されていない
  • ある程度限定されてしまうので,再現率が低い。
  • そもそもシリーズのタイトルって統一されてない*4

といったところ。ちなみに図書館の検索システムの中にもこうしたシリーズ名を検索キーとして使えるものは珍しくないです。

分類,ジャンル


書店,図書館等で用意している本のジャンル分けや分類を利用する方法。Amazonだと「文学・評論」「人文・思想」「社会・政治」みたいなのがありますね。図書館だといわゆる分類法,NDCだとかLCだとか。
同一の分類(ジャンル)にある本は,類似した主題を扱っていますので,類書である可能性は高いです。図書館の本が分類表の順番に並べられているのも,なるべく類書が近い位置に並ぶように,という配慮に由来しています。
難点としては,

  • 大雑把な分類だと適合率が落ち,細かい分類だと再現率が落ちる。
  • 人力なので手間がかかる。また見逃しもある。

あたり。たとえばAmazonだと,「本 > 文学・評論 > 文芸作品 > 日本文学」という感じで3段階までしか絞り込めないので,検索結果の3桁4桁は当たり前。一方図書館の分類法はもっと細かくまで分類できますが,分類してしまうせいで関連してるのに漏れるものもあります。


これもやはり,他と組み合わせて使う方法でしょうか。特におおざっぱな分類と著者名検索を組み合わせると,ほぼ確実に適合した文献を探せる利点があります。

件名,非ソーシャルなタグ


さいきん少し話題になった図書館の件名も,こうした類書検索のための手段として使用できます。件名というのは分類とは異なるシステムでふられてる,図書につけるタグのようなもので,検索性の向上によく貢献しています。
特に国会図書館NDL-OPACなどでは非常によく件名がふられているため,ある本を探した後にそれについてる件名と同じのがついてるのを探してまわると,かなり網羅的に本を探すことが可能です。この類だとPubmedのMeSHタームなんかも有名ですね。


難点はやはり,

  • 人力なので手間がかかる。またもちろん完全じゃない。
  • そもそもちゃんとつけてないところが多い。

あたり。分類は配架のために必要なので必須ですが,件名はわりと任意の項目なので,見逃されがちな傾向がありますね。
なお,ネット書店などの本に出版社がつけるタグなどもこの件名と類似のものとして利用可能です。ただし,図書館以上にちゃんとついてませんが。

引用,参考文献


引用してる本や参考文献としてあげてる本。参考文献だということは,著者が自分の本と関連深い本だと示しているわけですので,たいがいは適合率の高い本が集まります。
これは,どちらかというと学術論文で一般的な手法です。興味深い論文があったら,その引用文献にあたる,ってのは研究者にとっては習慣といえるほど根付いている技術ですね。


なお,引用してる本だけだと時代的に古い本しか集められませんが,現在学術論文ではCitation Indexという論文の引用のデータベースがあり,これを使用することでその論文が引用してる論文(引用論文)だけでなく,その論文を引用してる論文(被引用論文)も探すことができます。引用というのは研究者の評価にもつながるもので,この Citation Index やこれを利用した Impact Factor はしばしば研究者や論文の評価に用いられています*5


なお,上記の方法をWWWのページ群に適用したのが Googleページランクです。「重要なページから多数リンクされてるページは重要である」というアルゴリズムは,明白に学術研究における引用・被引用の評価システムに起因しています(id:bookscannerさんが紹介している Wikiosity もそうですね)。


この方式はかなり有力ですが,難点としては

  • すでにデジタルなテキストとなっていない場合,機械的に処理できない(手入力が必要)*6
  • 引用などの習慣の整備されてない分野(マンガとか)の本では機能しない可能性が高い
  • 少なくとも図書についてはこうしたデータベースは整備されてない

があげられるでしょうか。
これ,図書についてもちゃんと整備されると面白いんですけどね。例の議員がいってた「捏造写真の載ってる本とあわせて,オリジナルの載ってる文献もみられるように」みたいなことも可能ですし,『水は答えを知っている―その結晶にこめられたメッセージ』とあわせて『水はなんにも知らないよ (ディスカヴァー携書)』も紹介できるでしょう。歴史捏造や疑似科学商法への対策は,資料の上に何かを貼るなんてとんでもない方法でなく,こうした図書の引用データベースの整備で行うべきでしょうね。

AmazonのSimilar


ネット書店最大手の Amazon によるオススメ本。メカニズムとしては「この商品を買った人はこんな商品も買っています」との文句のとおりで,その本の売れ方から出た関連性。
マンガなどについては同時期に出た本が並んだりするので類書の探し方としては必ずしも有効ではないけれど,一般書の場合は関連書をまとめて買う人が多いのか類書が出やすいですね。


基本的にはAmazon独自のデータベースですが,AWSのおかげで公開されてるので,すでに多数のWebサービスで利用されています。
難点としては

  • Amazonで売れた本についてしかでない
  • 主題以外の要因によるノイズが混じる(発売日が近い等)
  • AWSの利用が必須

あたりでしょうか。

リストマニア,ネット本棚


Amazon ついでにいうと,Amazonリストマニアのような誰かの作った文献リストも類書を探すのには有効です。


またリストマニアは比較的「見せるリスト」です。これに対して本棚.orgブクログのようなネット上の本棚サービスは「自分の使うための本のリスト」ですが,両者は同様に「誰かが選んだ似たような主題の本のリスト」として活用することができます。


このへんは特に小説や漫画で関連書(似たような面白さの本)を探すのに有効でしょう。趣味の合う人の本棚は非常に参考になるというか。ただたいがい人はいろんな本を読むので,ノイズはそれなりに混じるでしょうね。

ソーシャルブックマーク


最近はいわゆるフォークソノミーを活用しようとしている本の検索も現われてきました。有名どころではLibraryThingsですが,利用者がタグをつけられる図書館のOPACも海外では現われてきてます。特にLibarryThingsはけっこう成果が出てるようですね。


いずれもまだ実験段階といえるため,具体的に長所短所をいえたものではありませんが,しいていえば以前分析したとおり,

  • タグをつける行為自体に,ユーザーにとっての直接的な利点がないと継続しない。

があります。ソーシャルブックマークは比較的有効に機能していますが,その場で現物をみることができない図書についても同様であるかは怪しいでしょう。


XISBN


OCLCのWorldcatで出してるXISBN。これは上記とはかなり違うサービス。
ある本のISBNを http://old-xisbn.oclc.org/webservices/xisbn/{ISBN} って形式でリクエストしてやると,その本の別バージョンの本のISBNがXMLで帰ります。ちゃんとAPIが公開されてるので安心して使える。
参考:OCLCのxISBN、正式サービスに | カレントアウェアネス・ポータル


たとえば英語版『ブギーポップは笑わない』(isbn:1933164166)をこれに投げると

http://old-xisbn.oclc.org/webservices/xisbn/1933164166

漫画版『ブギーポップは笑わない』(の英語版。isbn:1933164182)も帰ってくる,という感じ。


残念ながら日本の本はほとんどヒットしないのですが,有名な本の翻訳書なんかの場合は別。たとえば共産党宣言(isbn:4003412451)なら
http://old-xisbn.oclc.org/webservices/xisbn/4003412451
でおびただしい量の別版(各国版,電子版,等々)がヒットします。*7


今は英語圏での利用しか実用的ではありませんが,もっとちゃんと日本語版も整備してくれれば「日本語の論文→洋書→洋書の日本語版」みたいな形に変換するのにも利用できるかもしれません。

連想検索


国立情報学研究所で研究されてる「使用している単語の類似性から検索する」っていう技術。Webcat Plus新書マップ,想などで利用されてます。詳しくは以下を参照。


Webcat Plus
http://geta.ex.nii.ac.jp/


このシステムを使用すると,複数の自然文の類似度を比較することができるため,より類似した本を探す,ってのに使えます。たとえばこれをGoogle Book Search の電子テキストなんかに使えば似たような本を探すのにはけっこう便利でしょうね。


本については今のところ以下の5つにこのシステムが実装されています(もっとあるかな?)。


Webcat Plus
新書マップ~テーマで探す新書ガイド~
BOOK TOWN じんぼう
想−IMAGINE Book Search | 多様な情報源の想いを連ねて発想しよう!
http://www.hontsuna.com/


で,特に本から本の連想検索といえば第一号のWebcat PlusWebcatの書誌IDであるNCIDを調べて以下のようにやると,


http://webcatplus.nii.ac.jp/assoc.cgi?hdn_mode=equal_assoc&check_dsel=1%2CNCID%3ABA63795878


見事に『涼宮ハルヒの憂鬱 (角川スニーカー文庫)』のシリーズが拾えます。あとそれ以外では『舞王 ―プリンシパル― (JUMP jBOOKS)』と『リバースガール (新風舎文庫)』と『閻魔の弁護人 (新風舎文庫)』が似てるらしい。まじかよ。


ちなみにほんつなにも似たような機能があって,こっちだとこんな感じ(こっちはISBNでいける)。

http://www.hontsuna.com/pages/skensaku/rel_book/?isbn=4044292019

同じくハルヒシリーズが順当に並ぶ。でもやっぱり『舞王 ―プリンシパル― (JUMP jBOOKS)』と『閻魔の弁護人 (新風舎文庫)』は似てるらしい。なんでさ。


まあ正味,システム的にいってある程度の分量のある文章同士じゃないとあまり高い精度の比較はできないので,小説のあらすじレベルじゃキツいんですよね。たぶん全文同士の比較ならそれなりに有効なはずなんですが。
実際,Webcat Plusについての利用者アンケートの結果でも「連想検索使えない!」って意見がたっぷりあったようです。自分も似たようなこと書いてました。


ということで,

  • 元のデータベースに十分な分量の文章が入ってないと機能しない
  • そもそもWebcat Plus 等は「ご自由に利用下さい」って感じではない*8

あたりで実用には遠いかも。
ただ,キーワードが思いつかないときにブラウジング感覚で探すのにはいいんですよね。クラスタリングとかを利用するともっと使い勝手がよくなる気がする。

ブログ等の同時言及


自分とこで実験してたのがこれ。具体的にはAjax ISBN checker(こういうの) ではてなダイアリーでISBNリンクを貼った記事について,同じ記事中に述べてる別の本のISBNを集めて,その数が多いモノを表示,とかやってた。発想としてはネットワーク理論で出てくるエルデシュ数(共著論文を書いた研究者同士は距離1とする)みたいな感じ。


たとえば 涼宮ハルヒの憂鬱 (角川スニーカー文庫) だと

涼宮ハルヒの消失(5)
涼宮ハルヒの溜息(4)
涼宮ハルヒの憂鬱 (1)(3)
涼宮ハルヒの退屈(3)
ライトノベル完全読本 Vol.2(3)
涼宮ハルヒの陰謀(3)
涼宮ハルヒの暴走(2)
ボクのセカイをまもるヒトex(2)
ボクのセカイをまもるヒト〈2〉(2)
シグルイ 7 (7)(2)


みたいな感じ(かっこ内は同時言及の回数)。なんでシグルイ
これも母数を増やせば(現在ははてなの仕様で最新100の日記限定)それなりに面白いことになるかなー,と思ってる。問題点としては,

  • 著作権の問題とか
  • 書評でもなんでもない同時言及をどうするか(一緒に買いました,的な)
  • そもそも計算処理が重いんですが(こりゃ自分の技術不足か)

あたりかな?

まあ,ソーシャルな方法で類書を表示するシステムを構築するなら,SBMライクな図書ブックマークを作るとか,本のSNSにするとかよりも,すでに膨大に存在するブログの書評記事を利用する方が現実的じゃないかなー,とか考えながらいじっております。


最終的には,上記のようなさまざまなシステムをまとめて,関連性のランキングをつけて,かつ「同じ著者の本」「同じ年の本」みたいにクラスタリングして表示できるようなのができたらいいですねー(注:自分で作ろうとは思ってない)。
あるいは単純に,AmazonのSimilarや連想検索等から同著者の本を除くだけでも面白そうかも。


あ,あと,上記にない良いネタがありましたらよろしくご一報のほど。

*1:検索して出た結果中,適当なものがどれだけあるかの割合

*2:データベース中の適当なもののうち,どれだけが検索して出たかの割合

*3:この弱点は,図書館などで著者名索引を作ることで解消できます。ただしその分の労力が必要ですが

*4:京極夏彦のシリーズとか。あれは妖怪シリーズ?

*5:厳密には,Impact Factorをこれらの評価に使用するのは誤りですが

*6:id:bookscannerさんが紹介している Amazon.com の citation の試みは,スキャンしたテキストを使用して“無理やりに”引用被引用の関係を探すというシステムで,図書の引用データベース作成の機械的な処理を考える上で参考になると思います。

*7:ちょうど前にこれを知ったときに手元にあった中国の神話 (丸善ブックス)とかでもこんな感じ。http://old-xisbn.oclc.org/webservices/xisbn/4621060996

*8:にもかかわらず所蔵館マップつくってるじゃんて? 聞かないで。