読者です 読者をやめる 読者になる 読者になる

klarer-himmel13's diary

(旧)図書館の中では走らないでください!から

情報組織化研究グループ6月月例会「FRBR研究会の取り組み―著作同定の試み」

日時:2011年6月25日(土)14:30〜17:00
会場:大阪市立総合生涯学習センター 第3研修室
発表者:谷口祥一氏 (筑波大学
テーマ:FRBR研究会の取り組み:著作同定作業の試み
概要:OPACのFRBR化を図るため、既存書誌レコードに対する人手による著作同定作業を、主にわが国の古典著作を対象に分担して進めている。現在、J-BISC(JAPAN/MARC)から、わが国の主要な古典著作ごとに包括    的な候補レコード群を取得し、個々のレコードに対して該当するか否かを判定し、判定結果を記録している。併せて、必要な同定基準を整備している。こうした同定作業の概要、同定結果の集計および個々の著作ごとの特徴、同定結果の活用法などについて報告する*1

「FRBR研究会」は2009年6月に発足し、この研究会図書館員や研究者の方々が中心となり、日本の図書館目録へのFRBR適用にかかる課題を検討することを目的をされているそうです。現在までは著作同定を実施し、それについて発表していただきました。

はじめに

図書館目録(=OPAC)において、FRBR化の先行事例がいくつもある。代表としてMARC21書誌レコードに対する著作の機械的同定、FictionFinder*2、WoridCatなどがあげられる。これらは第一グループと呼ばれる「著作」「表現形」「体現形」「個別資料」の系列に沿った、同一表現形の単位でまとめて検索・表示機能である。先に挙げた先行事例と日本の事例をまとめると

  • MARC21
    • 書誌レコード中の著作の手掛かりを抽出
    • 「著者標目+副出記入標目」を基本とし、典拠レコードも活用
  • FictionFinder
    • 著作単位(小説作品)にレコードをクラスタリング
    • Work-setアルゴリズム*3を公開
    • 著作レベルレコードを機械的に作成
  • WorldCat
    • Work-setアルゴリズムを採用しているがFictionFinderとは差異あり
    • 著作レコードは作成せず、代わりに「View all editions and formats」ボタン
    • xISBNサービス
  • 国立国会図書館サーチ
    • ゆにかねっとレコード(DC-NDL形式レコード)に適用
    • 「グループ資料を表示」ボタン

その他に著作の機械的同定実験を重ね、著作同定には機械的作業で一定の成果を上げることができること、その一方で古典の著作同定には人手による作業が必要であるという結論に至った。

著作同定作業手順
  1. 対象とする著作の選定
    • 主要古典を中心に158件
  2. 同定作業用レコードをJ-BISCDVD更新版(明治〜2009年3月)から抽出
    • 合計32,976件(一つの書誌レコードに対して複数の著作を同定することもあるためダブりも発生する)
  3. 個々のレコードに対して人手により当該著作(体現形)に該当するかを判定
  4. 判定結果の記録
    • 識別番号の末尾にフィールドタグとサブフィールドタグを記録
    • 該当するタイトルをマークアップ()
    • 同一著作と認定しなかった書誌レコードについてその旨も記録はしている(-D)
  5. 並行して、シリーズに対しても判定

たとえば、このような書誌

00175001209-377A
020$AJP$B75001209
[…]
291$A今昔物語
[…]
377$A内容:今昔物語(福永武彦訳)宇治拾遺物語(野坂昭如訳)
[…]

著作同定作業基準
  • FRBRの示す基準に整合させ、かつできるだけ既存の基準に整合させる
  • 原則として書誌レコードのみを見て判定
  • 国立国会図書館による作業方針と結果を活用する
    • これらはまだ公表はしていない
  • 例としてこれらは同一著作とする
    • 校註書
    • 現代語訳、部分訳
    • 影印本
    • 縮約、要約
    • 抜粋、一部、部分、抜書、選
    • 音訳、朗読
    • マイクロブック、抄、諸本対照、本文付き索引
  • 異なる著作とみなす
    • 評釈書
    • 学習参考書
    • 児童書、絵本
    • 漫画
    • 索引
    • ダイジェスト
    • 抄訳、速記、暗誦、加工、平かな絵入り、絵巻物、滑稽本
判定の根拠
  • 貢献の度合い
  • 同一性の追跡可能性
同定作業結果の集計

以下の三つの項目を算出し、25Xと29Xにおいて著作が同定されたものを対象に集計した。

  • 当該著作に属すると判定されたレコード数
  • 同定されたタイトル
    • フィールド25X $A(本タイトル)、$B(タイトル関連情報)、29X(多巻ものの各巻タイトル)$A、$Bにおいて同定されたものを対象に集計
    • 責任表示
    • 著者標目
    • NDC分類標目
    • NDLC分類標目
    • NDLSH分類標目
    • 出版社
    • 出版年
  • 内容注記のタイトル
  • J-BISCの検索機能を用いた検索結果集合との一致度(再現率、制度、F値*4

対象となった書誌レコード32,976件、最大値は源氏物語の4,112件から最小値3件と幅は大きいが、

  • 各著作に対する一定数の実体は存在
    • 全体の平均:表現形(≒タイトル)3.5件、体現形(≒冊数)45.9件
    • つまり、古典著作をFRBR化する意義はある
  • 著作によるバラつきの大きさが顕著
  • カテゴリによる特徴
    • カテゴリごとの著作数が大きく異なるため、明確な結論は出しにくい
  • カテゴリの相違によって表現形数、体現形数に差があるか統計的に検定
    • 一元配置の分散分析に対するクラスカル・ウォリス検定*5
    • 「成立年代による体現係数」のみ、5%水準で有意(p値0.0261)
    • 「著作形式と成立年代とを組み合わせたときの表現係数」、「著作形式と成立年代とを組み合わせたときの体現係数」が、1%水準で有意(それぞれp値0.0089、0.0040)
今後の課題
  • 判定結果の妥当性の検証、質の保証
    • ダブルチェック、第三者のよる確認
  • 同定作業の拡充
  • JAPAN/MARC以外のレコードに対する同定作業
  • 古典籍以外
    • 音楽作品、近代著書、翻訳資料
  • 未判定レコード群に対する清野のよい機械的同定法の開発
  • 同定作業の公開
  • 公開方式
質疑応答
  • 著作同定の事例の中でパロディのようなものもあったが、判定基準の精度について
  • ミスもあるかもしれない*6
  • JLA目録委員会などとの絡みは?
  • 特にはないが、相互に益することがあれば
  • 同定判断基準の公開予定は?
  • まだ白紙
  • NDLサーチとの関係は?
  • こちらはNDLのAPIを活用する実験的なプラットフォームにしたい

ここでNDLサーチの典拠レコードの公開、という話もでました。
国立国会図書館の書誌データに関する個人情報保護対策基準(accessed 2011/6/26)
http://www.ndl.go.jp/jp/library/data/bib_personal_information201106-1.pdf

OPACの検索機能向上とのからみについて質問を受けて

  • 書誌レコードだけで判断できない場合はどんな場合か。(書誌レコードで判断できない→目録規則に問題がある?)
  • 現物を見たい場合はあるが、どんなと言われると難しい。
  • 目録規則の版によって同定作業に違いがあるのか、という意見を受けて(1965年版には「著作」という概念があった)
  • 新しい版の方がやりやすかった。あとは国立国会図書館の判断と一致しないことも
  • 作業としては源氏物語のような書誌レコードが多い→少ないのほうがよかった?
  • たまたま、源氏物語→少ないという方法をとったが、実感としてはそのほうが達成感もあった
  • 媒体の違いは同定作業に影響したか
  • 録音資料に関してはあまり問題がなかった
  • 「-D」(=同一著作と見なさなかった)は関連著作として使えるのか
  • どこまでを関連著作とするのかという新しい問題が出て切るためそこまではしていない。


古典の世界では作品を享受するコミュニティが限られており、かつ「著作がだれのものか」という概念もなかったそう。(今更ですが、源氏物語には紫式部完全オリジナル版、というのは現存していないように)
最近、名寄せや著者同定の話に触れることが多いのですが、著作同定との接点はどこだろう

*1:http://www.tezuka-gu.ac.jp/public/seiken/meeting/news.html accessed 2011/6/26

*2:現在、リニューアルに向けて一時閉鎖中 accessed2011/6/26

*3:http://www.oclc.org/research/activities/past/orprojects/frbralgorithm/default.htm accessed 2011/6/26

*4:情報検索の分野では、情報検索システムの性能を表す総合的な評価尺度のこと。次の式で計算される。F値=((βxβ+1)xPxR)/(βxβxP+R) ここでP:適合率、R:再現率、β:適合率の再現率に対する相対的な重要度を示すパラメータ、を意味している。通常はβ=1として計算される。再現率、適合率ともに検索性能を表す指標であるが、これらは通常トレードオフの関係にあり、一方を高めると他方が低くなる。そこで、この両者を総合的に評価する指標として、F値が用いられる。http://www-lab25.kuee.kyoto-u.ac.jp/NLP_Portal/glossary/index.html accesssed 2011/6/26

*5:[http://www.google.co.jp/search?aq=f&sourceid=chrome&ie=UTF-8&q=%E3%82%AF%E3%83%A9%E3%82%B9%E3%82%AB%E3%83%AB%E3%83%BB%E3%82%A6%E3%82%A9%E3%83%AA%E3%82%B9%E6%A4%9C%E5%AE%9A#sclient=psy&hl=ja&source=hp&q=%E3%82%AF%E3%83%A9%E3%82%B9%E3%82%AB%E3%83%AB%E3%83%BB%E3%82%A6%E3%82%A9%E3%83%AA%E3%82%B9%E6%A4%9C%E5%AE%9A%E3%81%A8%E3%81%AF&aq=f&aqi=g1&aql=&oq=&pbx=1&bav=on.2,or.r_gc.r_pw.&fp=5fea03748f1fb9ad&biw=1280&bih=683:title=ググッても]ちょっとつかみにくかったです。

*6:NDLOPACで検索したら、分かるかもという声があったので検索したら、指摘のあった「枕冊子」は「枕草子」の同一著作でした。