日本図書館研究会 情報組織化研究グループ7月月例会
日時:7月18日(土)@大阪科学技術センター
発表者:清田陽司氏(東京大学情報基盤センター)
タイトル:図書館分類体系とWikipediaを統合した情報探索支援システムの開発
情報知識学会との共催の研究会に参加してきました。
発表していただいた清田氏は上記の所属とともに、株式会社リッテルにも所属されています。今回の発表は同社のLittel Navigatorの紹介を中心に進められました。
1. Littel Navigatorとは?
Littel Navigatorとは情報探しのヒント検索システムとして働きます。図書館的な言い換えをすると、パスファインダー自動生成システムあるといえるそうです。あるテーマについて調べたり研究しようとする際に、テーマに対して「切り口」を与え、情報そのものの発見、あるいは情報の関係との発見へと導きます。例えば「Winny」についてレポートを書こうとした時に、「知的財産(著作権)」「P2Pソフトウェアの技術」「匿名掲示板独自の文化」「表現の自由」などの掘り下げるテーマ(切り口)は多様にあります。これらの切り口に対して、どのような文献・情報が必要か、その他の関連する分野をナビゲートします。
リッテルナビゲーターの主な機能は以下の4つです
デモンストレーションでは、「Winny」という検索語を入力して、検索をクリックすると上部からタブ、検索方法一覧、一番下にはテーマグラフ、右端に外部へのリンクがありました。
タブは検索方法を切り替えるようです。タブは、「全体を見る」「分野から探す」「関連語から探す」「百科事典から探す」「書籍から探す」「国立国会図書館PORTA」の5つです。アマゾンのAPIを利用した書影、リサーチ・ナビやマーケティングリサーチのために導入した企業もあるとのことです。
2. 図書館の世界とWebの世界
報探索に必要な要件として、以下の三つが挙げられました。
- カバレッジ
- どんなキーワードに対しても何かしらのレスポンスを。
- 組織化
- 「これを見た人はこんな情報も見ています」だけでなく、その分野の古典・定番となっている情報もほしい
- 信頼性
- 信頼できる情報源
これらを踏まえて図書館の世界とWebの世界を対比させ、図書館には信頼性を、Webにはカバレッジを担当させて、組織化は両者がそれぞれの特徴を生かすのはリッテルナビゲーターの特徴となっています。
- 図書館の世界の特徴
- カバレッジに難あり
- 組織化の強み
- これまでの目録の積み上げ
- ストック情報
- 信頼性
- Webの世界の特徴
研究を行う上での情報検索は、情報の発見が目的のブラウジングではなく目的のために情報を見つけようとする情報探索であるため、Web上の組織化の限界を図書館の世界の組織化で補い、図書館の検索の間口の狭さとカバレッジをWebで補おうとしているそうです。そして、この両者の橋渡しとしてWikipediaを利用しているのがリッテルナビゲーターの最大の特徴となっています。
3. オントロジーとフォークソノミー
2の組織化について、さらに詳しく説明されました。オントロジー(BSH)、フォークソノミー(Wikipedia)に対して、以下のような比較がされました。
BSH4 | Wikipedia | |||
---|---|---|---|---|
アプローチ | トップダウン | ボトムアップ | ||
長所 | 安定、深い組織化 | 多様な観点の反映、新しい概念への対応 | ||
短所 | 多様な観点を反映せず、新しい概念を含まず | 不安定、浅い組織化 | ||
上位概念 | 一つしかもてない | 複数持てる | ||
概念の総数 | 11,184 | 15,532(30万項目)*1 |
両者の概念名の一致は1,363個*2と、両者の組織化の目的は異なるものの、重なっているところは少なくない。
4. 2つの分類体系の統合による分類自働導出
そこで、リッテルナビゲーターは図書館の分類体系をWikipediaで拡張しよういう試みに取り組んでいます。両者を組み合わせて利用することで、キーワードから探索テーマ(件名)を自動導出し、導出された件名に関連する情報資源を提示します。図書館オントロジーとWikipediaの重なる概念名をとっかかりに関連付けをビームサーチとうい手法で自動生成しているそうです。
5. Wikipediaについての考察とアイディア
オンラインで多数の参加者による編集がされるウィキペディアですが、日本語版で60万項目、英語版295万項目をはじめ250言語を超える記事を抱え、XMLでダウンロード可能となっています。事典のみならず、ウィキペディアの特徴を生かして、コーパス、文書集合、表記ゆれ辞書、シソーラス、固有表現辞書としての利用の可能性も有しています。
ここでのウィキペディアの特徴とは、主に4つに分けられます。
- 多数の参加者による編集
- 基本方針は「誰でも編集できる」
- 秩序維持の仕組みが存在する(基本方針とガイドラインなど)
- 半定型データ
- 編集の項目ごとのガイドラインとなるウィキプロジェクト
- 上記と同様にテンプレート
- ただし、これらに完全に従う必要はなく、編集の中で定型化していく
- 外部情報リソースとの連携
- ISBNやアマゾンへのリンク
- 項目の組織化
- フォークソノミーの特徴を有す
- カテゴリにもカテゴリを付与可能
既存の情報リソースと比較すると、ウィキペディアはタクソノミーとフォークソノミーの中間的性格であり、この点が図書館の分類体系とWeb情報資源を結びつける接点となっているとのことでした。
ただし、巨大なデータに対して更新の頻度(現在はウィキペディアからのリースに合わせて一か月に一度)、リンク切れの問題などの課題もあるそうです。
6.まとめ
今後の展開として、他言語版の開発、分野別シソーラス(MeSHなど)の活用、情報リテラシー教育の題材としての活用、企業研究、生涯学習への展開を予定されているそうです。
「図書館かWebか」という二項対立ではなく両者の役割を踏まえた見方が大事であるということばで、発表は締めくくられました。
最後に会場からでた、質問を覚えている範囲で記録します。
- (公共図書館の方より)自前で作成したデータベースの活用は可能か
- ウェブのインターフェースであれば可能
- (大学関係者の方より)図書館の分類との対比がされたウェブ的な分類体系であるフォークソノミーは分類というよりかは、エンドユーザインデックスではないか
- すべてのフォークソノミーが分類とは言えないが、ウィキペディアは結果として分類の性格(ある種の観点を持つという説明がされました)を持っている
そのほかに、件名の自動生成のアルゴリズムについての質問があったのですが、ビームサーチ、類似度計算(エヌグラム?)、ベクトル空間法、用語の濃度で計算という単語のメモをとるのが精いっぱいで、理解まで至りませんでした。気になる個所はおいおいフォローできたら・・・したいです。