klarer-himmel13's diary

(旧)図書館の中では走らないでください!から

情報組織化研究グループ9月例研究会「Linked Open Dataの基礎とこれからの情報活用」

日時:2013年9月21日(土) 14:30~17:00
発表者 :嘉村哲郎氏(東京藝術大学芸術情報センター/総合芸術アーカイブセンター, NPO法人 リンクト・オープンデータ・イニシアティブ)
テーマ :Linked Open Dataの基礎とこれからの情報活用

  • 嘉村さんの背景

Open Data概要

  • ビックデータとよく使われる
  • 2009年 TEDのプレゼンで Raw Data Noe a Year OpenData
  • 政府、科学研究、コミュニティ
  • オープンの解釈
    • 誰もが自由に利用、再配布、再利用
    • 条件はつけない(非営利とか、教育目的に限るのはオープンじゃない)
    • パブリックドメイン、ドメイン表記
    • 公共、学術、文化機関がオープンデータの対象
  • まとめ
    • 政府・自治体・企業・コミュニティなど組織または個人が保有するデータを公開し、第三者が自由に利用できるようにすること
    • 情報を公開し→情報の存在を世の中に伝える
    • CSVXMLなど再利用かつ機械処理できる形式の公開が望ましい
    • 公開するデータはできるかぎりオープンライセンスを適用
  • データ共有5つのステップ
    • ★1:形式は問わず、オープンライセンスで公開
    • ★2:構造化された形式で公開(xls)
    • ★3:機械処理できる汎用的な形式で公開(scv,tsv,json)
    • ★4:IRIを含めたRDFデータでの情報公開
    • ★5:他のRDFデータへのリンクを含めたオープンライセンスのデータを公開

Linked Open Data

  • Linked Data
    • 標準化されたデータのウェブ
  • IRI=URL
  • LOD基本原則
    • IRIをあらゆる事物=リソースの識別子につかう
    • IRIの利用にはHTTPの技術
    • IRIにアクセスすると事物に関する構造化データが得られる
    • データには他のIRIへのリンクを含む
  • 構造化データ RDF
    • W3Cというウェブに関する技術の標準化を進める団体により、標準化されたデータ形式
    • ひとつの情報を主語、述語、目的語で表現する
    • 双方向の関係である
      • 主語:藤田嗣治、述語:作品は、目的語:「カフェ」
      • 主語:カフェ、述語:作者は、目的語:藤田嗣治
  • メタデータ(コンピュータが内容を理解するための記述)
    • 再利用性
@prefix dc:<http://purl.org/dc/terms/>.
@prefix ex:<http://example.jp/>.

ex:001 a ex:artwork;
dc:title "カフェ"@ja;
dc:created "1949";
dc:medium "油彩/キャンバス"@ja;
  • リンクするデータ
    • LODはリレーショナルデータベースでいうところのID(識別子)をIRIとするイメージ
    • ネットワークで参照できる
  • APIとSPARQL Endpoint
    • APIは公開するサイトごとに仕様が異なる
    • SPARQL Endpointは仕様やデータの取得方法は一緒だが、メタデータがどんなものかを理解しないといけない=どんな種類のメタデータが取得できるかはそれぞれで異なる
      • 公開されているデータ構造を確認する必要がある
  • LODAC
    • Linked Open Data for ACademia
    • Linked Dataのアプローチで様々な学術情報を公開して,活用することを目的

LOD利用事例

  • BookSampo
    • 文学研究や文献研究のLinked Dataポータル
    • 内外のウェブ上のデータへのリンクとフィンランド内で構築された人物典拠や博物館資料情報等との連携も図られている
  • datahub
    • CKANが自治体データが中心であるのに対して、研究情報を含む点が特徴
  • GeoNLPプロジェクト
  • 鯖江市の観光案内アプリケーション

まとめ

  • 再利用される情報はインターネット経由でアクセスして他のデータからリンクして利用できるオープンライセンスが望ましい
  • 著作権を可能な限り放棄する
  • 著作権や作者の意思表示等で「完全に自由に利用可能」
  • 公共・地域・文化・芸術・学術あらゆる情報がリンクすることでウェブ上に分散する関連情報をより使いやすく
  • 5つのステップのうち、4、5を目指す意義
    • 利用の立場
      • インターネットに接続されたコンピュータからデータのリンクできる
      • データの一部(例えば項目の一つ)を取り出して使うことができる
      • 他のデータと複数組み合わせて使うことができる
      • データのリンク情報から関連する情報を発見することができる(ただし、RDFデータ構造を理解する必要あり)
    • 公開の立場
      • データ項目へのアクセスを細かく設定でき、利用者にあわせて設計できる
      • 他のデータ公開者からデータに対してのリンクができる

質問

  • ★4へは具体的にどう変換する?
    • プログラム変換、最近はマッピング方式で簡易にできる
    • OpenRefineMake your own RDF(ただし、どんなことができる/出来ないかは要確認)

ちょっとした感想

  • 今あるLODではないデータを変換するか、新しいものをLODにするのか
    • 各機関でそれぞれ公開しているデジタルアーカイブ
  • メタデータの属性のデザインは自由で、とてもむずかしい
    • その分野で一般的であるとともに、そこから外れる属性をどう表現するか
  • IDはIRIに?
    • CiNiiなどはNCIDをキーにしたURLだが、こんなイメージなのだろうか


Linked Data: Webをグローバルなデータ空間にする仕組み

Linked Data: Webをグローバルなデータ空間にする仕組み