Fri, Oct 22 - Myrmecoleon in Paradoxical Library. はてな新館

00:18 おふろでた。
00:25 またニコ : ぷよオー http://nico.ms/sm12495328 (01:17) #nicovideo #sm12495328
00:33 権利者削除のデータを8割くらい収集が終わったのでみてる。権利対象物がその動画自体のIDってのがあるなあ。これとか http://nico.ms/sm8584366
00:37 宗教法人幸福の科学による権利者削除動画が三つほどあるなあ。
00:40 創価学会による権利者削除ってひとつしかないのかな意外だ。まあまだ何十万か未チェックな権利者削除あるけど
00:44 レアな削除権利者とかをみるとけっこうおもしろかったりしますね。
00:48 削除権利者名，微妙に表記が違ったりするのがあるのでちゃんと集計するんなら正規化が必要だのう。
00:50 鷲宮町商工会による権利者削除とかあるのか。
00:53 権利者別の削除した動画の再生数の合計とかみてる。
00:54 近畿日本鉄道株式会社による権利者削除とかあるなあ。
00:57 やっぱりネタ的に面白いのは宗教団体とかかな＞削除権利者　ほかにもいくつかの宗教団体による権利者削除を確認。
00:59 さいきんの削除の場合は権利侵害対象の指定もできるのでそれで数えてみると，一番多いのは「「化物語」 video File」だった件。化物語人気だねえ。400個超がこれで削除されてる
01:02 削除対象の記述，細かく曲名やらタイトルやらまで書いてるところもあれば「文化放送が掲載を許可していない作品」だの「社団法人音楽制作者連盟会員の肖像」だの大雑把なところもありさまざまですのう。
01:04 「対象物：ほんとにあった!呪いのビデオの著作権侵害です。」にちょっと笑った。 http://nico.ms/sm820446
01:07 西日本旅客鉄道株式会社の乗務員教育動画とかわざわざ権利者削除で消してるんだなあ。
01:11 削除対象物が指定されてるものに限ると，闘牌伝説アカギ関連の削除が一番再生数を食ってるんだなあ。
01:14 「この動画はSMILE開発の申立により、開発テストの権利侵害として削除されました。対象物: SMILEVIDEO」開発テストの権利侵害ってなんですか。 AUTO UPLOAD@Ruby@8366161‐ニコニコ動画(9) http://bit.ly/9SgL9q
01:19 侵害された権利の内容でみると著作権＞レコード製作者の権利＞放送事業者の権利＞肖像権＞実演家の権利＞以下略ぐらいか。原盤権関係多いなー
01:24 著作者人格権侵害で消されてる動画がちょっとあるなあ。PARQUETSというところのPop'nに出してた曲関連の動画のようなので，音ゲー関係に詳しい人はピンとくるのかも。チェイス！チェイス！チェイス！とか。
01:26 プライバシー権侵害で消されてる動画はだいたいニコ生関係かｗ
06:33 起きましたー。
06:37 . @tari_tipa @taillight7 @KDD @kiyoaki1966 おはようございまーす
06:46 . @librarius_I @pui_puipui @ha_ma おはようございます！
12:02 RT @takeshikuboyama: APIコンテストのことは割としっかりと　ronbuntterの紹も #nii_litera
12:10 RT @itonotaisuke: @referentter 図書館情報大での事件ですね。＞ http://crd.ndl.go.jp/GENERAL/servlet/detail.reference?id=1000033104
12:12 うお。レファ協DBで未解決だったレファレンス案件に情報提供してる方が。レファ協公式でこういうのやろうぜ。腕試しで求めてるのがそれかしら。
12:22 ごはん。
12:33 同じ番組みてたけど「いいからまず論文のDOIだせよ」以上の感想はなかったなあ。 / Togetter - 「脳科学は母性を証明しつつあるのか」 http://htn.to/yoE244
12:38 100年後，未来の人類がこのメモを発見して「つまりインデックスは海底からの使者でクトゥルフの使いであり，禁書は旧支配者による地上侵略を予言したものだったんだよ！」とかトンデモ本書く流れ。 / 売りスレまとめR インデックスとイカ娘の関… http://htn.to/n7s7CA
13:00 RT @flashoman: ニコス16:9対応投入しました。事前実行スクリプトになっていて/isWide=trueとしておくと16:9の幅までニコスレイヤーが広がります。なお、/isWideの途中での変更はできません。
13:01 うひょニコスの16:9対応できてたのかー。これはwktk
15:26 職場あうと。新幹線のって東京いきます。うっかりあいふぉん家に忘れてしまった。
18:01 上野から乗り換えて御徒町なう。
18:59 #mitan なう。
18:59 RT @bammy0715: 本日のマイタンUstはこちらです。 #mitan (Broadcasting live at http://ustre.am/gs75)
19:02 #mitan はじまた。
19:04 清田先生から前回言ってたプライバシー保護データマイニングのおはなし。 #mitan
19:07 データマイニングの現況。データ蓄積のコストが劇的に低下，マイニングのためのコンピュータ資源も容易に入手可能（PCの性能向上，クラウド），ツールも整備されてきた。 #mitan
19:10 一方で課題。データを使いやすい形で蓄積するのは困難。HDDの肥やしになってしまう。また簡単に有用な結果はでないので手数が必要。そしてプライバシー保護と，それによるデータの有用性のトレードオフが現在問題になっている。 #mitan
19:14 プライバシー保護。個人情報保護法，業界ごとの倫理規定。プライバシー≠個人情報 #mitan
19:17 こうした現状への疑問。プライバシー保護への定性的な議論は多くなされているが，定量的な議論が少ない。トレードオフの関係である以上，両者の比較のために定量化は不可欠。リスクマネジメントですね。個人情報を公開しないはプライバシー保護の十分条件でない。 #mitan
19:19 プライバシー保護に関する例。「link attack」。まさちゅーせっつ州知事の医療記録が公開情報から特定可能だった。ZIP #mitan
19:21 公開されてる医療データ，選挙の投票者名簿にはそれぞれ ZIPコード（郵便番号），誕生日，性別が記載されている。これをマッチングすると医療データの中の知事のデータを特定することができてしまう。 #mitan
19:25 複数の組織がそれぞれプライバシーについてのクリティカルなデータ（名前，住所など）をもっている。それを必要最小限の範囲（microdata）にサニタイズする仕組みもあるが，それでも「link attack」でデータを組み合わせるによって特定できてしまう場合がある。 #mitan
19:26 郵便番号のようなありふれたデータから個人を特定できてしまう状況で，その個人のセンシティブなデータ（病歴等）と紐付されてしまうことを防がないといけない。 #mitan
19:28 k-anonymity(k-匿名性)。ある個人が同一の属性をもつk-1人の中に紛れこませられる，という基準。それによりlink attackでも1/kでしか特定できなくする。このkの人数から匿名性を評価する匿名化手法。 #mitan
19:31 匿名化手法：一般化。階層的な性質をもつデータは上位の抽象的なデータ（例. 生年＞生年月＞生年月日）だけを公開する。／抑圧。特異性のあるデータ項目は削除する。 #mitan
19:32 k-匿名性の問題点。上手く個人を隠したつもりでも，任意の病気がどの人種に起こりやすいか，などの背景知識から，個人が特定できる場合もある。 #mitan
19:33 そこで l-多様性という発想がある。あるグループないで少なくともl種類のセンシティブなデータがある状態，らしい。そろそろ理解が追い付かなくなってきた； #mitan
19:34 t-closeness 。ある属性の値の量に偏りがある（aとbが必ずあるけど99%と1%だとか）になる場合をなくすなどいろいろな手法がある。 #mitan
19:36 まとめ。プライバシー保護は「情報を公開しない」だけでは実現できない。公益のために公開が必須の情報もあるが，それを組み合わせることでプライバシーが侵害されることもある。一方で，法の精神に従うなら柔軟に考えてよい部分も。知る自由 #mitan
19:36 すごい内容が濃すぎて消化が追い付かない感じ； #mitan
19:39 質疑応答。日本国内ではほとんど事例はないらしい。まだ契約で提供した個人情報を漏洩しない，などしか行われていない。 #mitan
19:43 どういうふうにすれば政府を説得して情報を公開させるか，みたいな話。有用性のあるデータを適度に伏せた状態で公開すること自体が（まったく公開しないことよりも）プライバシーの保護になるのではないか。情報を盗むインセンティブが無くなる。 #mitan
19:47 アメリカでも現場レベルではここまでやってるわけじゃないのね。研究者における議論のレベル #mitan
19:49 大学図書館関連だと，ある先生がどんな研究をしてるか，という内容が見えてしまうと個人が特定できてしまう。確かになあ。 #mitan
19:51 質問。最近急に盛り上がったの？→一部では昔から盛り上がってた課題。近年では，複数のライバル企業が協同してデータマイニングをするためにどうするか（他社にデータをとられたくはないが，結果は知りたい），などの場面で活用。 #mitan
20:28 #l1gp　に #mitan が負けてるらしい。若さェ……
20:30 ちなみに #mitan の Ust はこちら。いま東大のOPAC検索ログから検索時のキーワード補完機能をつくるでござるなお話し中。 http://ustre.am/gs75)
20:32 次のキーワードをどうやって予測するか。そのままログから予測すると直後のキーワードのみ＞N-1の組み合わせ同時に使われるキーワード＞N(N-1)/2の組み合わせ。馬鹿でかいデータ量になってしまう。 #mitan
20:33 RT @milkya: 【40分後から図書館情報学チャンネル！】L-1グランプリチームLieが図書館について熱く議論するUstは本日20時〜！今日は、クローラのプロとアクセスログ解析のプロが、Librahackと図書館の今後について熱く語ります！ http://bit.l ...
20:34 クローリングにアクセスログ解析：そこにプライバシー保護データマイニングの話をですね。 #mitan #l1gp
20:35 アクセスログからGETAssocのインデックスファイルを作った。→途中で異常終了してしまう→とりあえずその行だけ抜いた　らしい。試行錯誤だなあ。 #mitan
20:36 いろんなことをとりあえずスルーした話。今後の課題でしょうね #mitan
20:37 Ust では見せられないよ！なものが出ました！ #mitan
20:39 OPACログからの検索語補完。プライバシーって入力->個人情報保護って出る　みたいな結果がでてる。けどよくわからないIDだの哲学研究って雑誌名？なども出てる。 #mitan
20:40 入浜権ってなんだろう。
20:41 まいにんぐ探検会 × 東大OPAC検索ログ #mitan
20:43 GETAssocもいじいじしたいのう。 #mitan
20:45 もうちょっとチューニングが必要，かあ。＞キーワード補完 #mitan
20:45 へえ。GETAって評価の仕方をパラメータで変えたりできるんだ #mitan
20:48 慶應大のOPACのログも許諾が取れたので，同じようなプログラムにかけてみたものを次回紹介 #mitan
20:50 清田先生から，Exciteの公開されてる検索ログから，検索語を「どう変えたか」を集計してみてみる。 chat を chat rooms に変えたとか。 #mitan
20:51 時系列のあるデータってのはそのへんが強みだよなあ。順序で行動が読み取れる。 #mitan
20:53 「メタデータつなぐ系」の状況。フォーマット関連の議論をあつめてる進めてる段階。 #mitan
20:54 まいたんWikiがスパム多いらしい。今後はアカウントを取得した人だけが書き込めるようにする。 #mitan
20:55 アカウントの作成自体にはとりあえず制限なし。アカウントさえとればだれでも編集できる。Code4Libとの連携関係も一応だいじょうぶ。 #mitan
20:57 図書館総合展のブースのはなし。ARGのブースで #mitan 関連のチラシを置いたり時間貸ししたりできるらしい。 #mitan
20:58 各グループでA4一枚ぐらいのリーフレットで活動紹介。いいかも #mitan
20:59 Ust も Wiki もオープンなんだし内容の紹介はいいんじゃないかなあ #mitan
21:00 そういえば次回の予定はいつなんだろう。
21:00 総合展で #mitan 開催とかｗｗｗｗ
21:09 #mitan 終わって懇親会どうするかモード。
23:28 まいたんの飲み会終わって帰宅中。レファレンス談義面白かった。俺あんなこと考えてたなんて知らなかった。
23:33 「レファレンスの回答はゴールじゃないんだ。そこからはじまるんだ」とかは自分でも巧いこと言ったなと思ったなど。
23:48 まいたんでやっと図書館総合展の招待券もらったのでフォーラム眺めてるが、ARGとCHIのどの時間でもいる感がひどい。