klarer-himmel13's diary

(旧)図書館の中では走らないでください!から

Code of practice for research data usage metrics release 1

Make Data Count(MDC)プロジェクト、研究データの評価指標に関する実務指針第1版のプレプリント版を公開 | カレントアウェアネス・ポータル
Code of practice for research data usage metrics release 1 [PeerJ Preprints]

研究データの利用統計、COUNTERのCoP for RD1(Code of Practice for research data usage metrics release 1)のプレプリント版。2018年の2月に公開された。研究データに特化した利用統計の標準は、はじめての試みになる。その意味でRelease1。
Code of Practice Release5のレポートでは、Release4からmetiricが半減して、大きな変更点のひとつである。metiricsは(私の理解では)「利用状況ごとの数え方」を意味する。Journal of ABC(OA誌)の2016年1月における、リクエスト数(あるセッションにおいてPDF閲覧するなど)が124件というのは

Title... Data_Type Access_Type Is_Archive *Metric_Type *Jan-2016
Journal of ABC Journal OA_Gold_APC N total_requests 124

だし、Journal of DEF(購読誌でカレント分)の2018年1月における、ユニークな検索(investigations)数が280件というのは

Title... Data_Type Access_Type Is_Archive *Metric_Type *Jan-2016
Journal of DEF Journal Controlled N total_investigations 280

…となる。

An Indoctrination of to Resease 5
https://www.projectcounter.org/wp-content/uploads/2017/02/COUNTER-R5-Consultation-2017-02-23.pdf

CoP5とCoP for RD(Research Data Usage Metrics)1の関係について。CoPのなかにはDatabase Master Report(DR)が含まれており、そのなかでは、searches_regular、searches_federated、searches_automated、という3つのmetiricsがセットされている。では、CoP for RD1は何なのかというと、データリポジトリやプラットフォーム側(データプロバイダ、各大学や研究機関も含まれる)が標準化された研究データのUsage Metrics (利用状況総計値)を出せるようにするもの。datasetはinvestigationやrequestの対象であり、つまり「このメタデータに何回、アクセスがあったのか?(investigation)」「何回データが検索されたのか、それはinvestigationのうちのどの部分を占めるのか(request)」を数えることは、それはCoPにおけるDatabaseとは異なる。

とはいえ、CoP for RD1はCoF5を踏まえた上のものであり、CoP5の方法が適応されている。基本的な語彙、たとえばinvestigations、request、sessionなどは共通する。そこで研究データのUsage Metricsはどうなるのか、研究データの利用統計に特有な課題は何か、というのがこのプレプリントの主たるテーマとなっている。8章のうちReportの話が中心になっている4章くらいまでを中心に読んでみた。5章以降はたぶんCoP5と共通している部分も多い(と思う)。

研究データの利用統計レポートに必要なもの

論文と比べて研究データの利用統計に特有の特徴は、

  • 統計レポートは機関レベルではなく地理的なまとまりのほうが重要になる
  • データセットの全バージョンをを横断している必要がある
    • 研究データはバージョンアップがわりとあるため
    • 各バージョンと全バージョンをあわせた利用統計レポートが推奨
  • データセット単位とデータセットの構成要素別の利用統計

これら特徴のうち、バージョンや単位ついてはなんとなくわかる。現役の研究データはつねにバージョンアップされているので、バージョン管理が重要になるとともに、利用統計レポートにおいてもバージョン管理が重要になってくるのであろう。また、dataset、collection、components(各データの構成要素)の利用統計が必要なのも想像ができる(これはたとえば図書と各章における関係に似てるかもしれない)。

前者の地理情報について、国・地域の情報が必要になるのだということが繰り返し述べられている。地理情報は、同じデータセットミラーサイトのようにいくつかの地域でホストされているときや、利用者がいる地域によって利用が左右されるようなデータセットのときには、利用状況の把握を補助する役割を果たすという。具体例が適切かはわからないがある地域の気象情報などだろうか?

特徴的な用語の提議
  • dataset
    • ある機関から公開されたデータのまとまり
    • アクセス出来てひとつかそれ以上のフォーマットでダウンロードできる
  • component
    • datasetの利用可能なひとつひとつ
    • ここにもダウンロードできる
  • collection
    • datasetをさらにまとめてキュレーションしたもの
  • version
概要

レポートの基本的な構成は、CoP5と似ている。以下は図書館やデータセンター(データの供給側)向け、datasetのReportのマスターレポートのエレメント。1行目は図書館向けのReport例。

Report_Name Report_ID Release Metrics_Types *Report_Filters *Report_Attributes Expections Reportoing_Period Created Created_By
Dataset Report dsr-12hd-zt65 RD1 Unique_Dataset_Investigations;Unique_Dataset_Requests Access_Method=Regular;Access_Method=Machine Attributes_To_Show=Access_Method 3040: Partial Data Returned begin_date=2016-01-01;end_date=2016-08-30 2016-10-11 DataONE

datasetの構成要素も定義している。以下、必須には★を、いずれかが必須には☆をつけた。

  • Dataset_Title★
  • Publisher★
  • Publisher_ID★
  • Creators

Publication_Date

  • Dataset_Version
  • DOI☆
  • Other_ID☆
  • URI

_YOP

  • Access_Method
  • Metrics_Type★
  • Reporting_Period_Total★
  • mmm-yyyy★

CoP for RD1が誕生する背景には、RDM(研究データ管理)の流れを受けており、この作成もRDMコミュニティとの連携のもとで作成されている。(当然かもしれないけど)RDMの整備とともに注目していきたい。

COUNTERまわりのメモ

引き続きCOUNTER周辺を追っていくことになったので、ちょこちょこ読んだり聞いたりしていたので、メモ。

2017年にリリースされたCoPRelease5であるが、2019年1月から利用開始となる。

  • 2018.8~12
    • Release4:mandatory
    • Release5:optional
  • 2019.1~4
    • Release4:mandatory
    • Release5:mandatory
  • 2019.5~2020.12
    • Release4:may be retierd
    • Release5:mandatory
  • 2021.1~
    • Release4:should be retierd
    • Release5:mandatory

www.slideshare.net
2018 06 07 07 01 Webinar COUNTER Code of Practice Release 5 - YouTube

変わる点は、レポートの形態、item(論文)単位での取得、リポジトリ対応、データ対応なのだと思う。リポジトリとデータは別に読んでるものがあるのでいずれ。。

レポートがわりと変わるのだけど、各社はどういう情報をだしているんだろ?と思ったので少し調べてみた。

現行の対応状況はCOUNTER準拠の出版社リストは下記の通り。
https://www.projectcounter.org/about/register/


現行について、OCLCのブログでもSUSHI経由でのCOUNTER準拠状況についてまとめられていた。
help.oclc.org

移行に向けていくつかの対応状況を調べてみたが、見落としているのかあまり出ていない模様…

Wiley-Blackwell

所定の期限までに COUNTER Code of Practice (CoP) の新しいRelease 5に対応するよう取り組みます。それまでは、COUNTER 4に準拠した下記
のレポ ートをご提供します。

http://www.wiley.co.jp/blog/pse/wp-content/uploads/2018/03/FV_322304-Japanese-2018_WOL_Migration_Technical_FAQ_V1-2-180227.pdf

上記のウェビナーをワイリーの人が発表されているし、いちばん、ワイリーが情報が出てきた。データベースについては独自の利用統計(Database Usage Report)が提供され、プラットフォーム更新により、いくつかのレポートが提供されなくなるそう。

Elsevier

統計のページからは見つけられず。

www.elsevier.com

Springer-Nature

SpringerLink, Nature.comとも見つけられず。
Usage reporting | For Librarians Japan | Springer Nature


出版社向けのウェビナー(しかしながら音がめちゃくちゃ悪い)
www.youtube.com


その他(Alma

Support for COUNTER 5 and SUSHI lite is on the Alma Roadmap. Ex Libris is closely following developments in the industry regarding these protocols and will incorporate them into Alma in a timely manner, as the industry develops. We are aware that COUNTER has stated that “In January 2019, all publishers and vendors are required to comply with the new Release of the Code of Practice” and Ex Libris product management is therefore closely following all developments.

knowledge.exlibrisgroup.com

国際社会の中での日本のデジタルアーカイブ:新日本古典籍総合データベースの海外ユーザー調査から

2018年6月23日@大阪学院大学
14:30‐17:00
発表:井原英恵氏
月例研究会案内(情報組織化研究グループ)

修士論文として執筆された調査研究
Hanae Ihara. What are the challenges of presenting Japanese cultural memory through digital archives? : the potential of the Database of Pre-modern Japanese Works for international Japanese studies.
https://dagda.shef.ac.uk/dispub/dissertations/2016-17/External/Ihara_H.pdf (約4.5MB)


サービスを設計し運営するうえで、ユーザの存在は欠かせないものである。物理体として図書館にはその地理的、質量的な特徴からサービス対象というものが設定されている(ある程度は)が、デジタルアーカイブというものはそれらの制約を飛び越えることができる。だからこそ、ユーザをどのように考えるのか、という問題提起がされていた(という私の理解である)。この発表では人文学分野における資料の画像データを中心とした、デジタルアーカイブの分析として「ユーザエンゲージメント」という概念を用いている。

1.デジタルアーカイブと取り巻く状況

  • オンラインで公開する
    • 著作権
    • ライセンス
    • 英語化:機械翻訳、一部英訳、完全英訳…など程度はさまざま
    • 複数国をまたぐプロジェクト:国際敦煌プロジェクト、Ukiyo-e.org、新日本古典籍総合データベース

2.ユーザーエンゲージメント

  • JISC Digitisation Programme (Marchioni, 2009)
    • ユーザエンゲージメントという概念を提案
      • 提供機関とユーザ(とベンダー)が相互に協力し合う関係性
    • 3割のDAが活用されず、休止(アップデートをされず)している
    • 成功したDAの共通項がユーザとのかかわり
      • グッドプラクティス:British Library Sound Archive、Discovering Literature、Discovering Literature など
  • User Studies for Digital Library Development
    • DAに関連する技術への注目は限定されたユーザ理解
    • ユーザからのフィードバックやコミュニティ単位でのアプローチはユーザを限定的にしかとらえない
  • DAのライフサイクルのなかに取り込む
    • DA計画(ここから!)→構築→資料選定→コンテンツの活用
    • 「ユーザ」の設定の仕方が鍵となるのか?
    • 提供志向ではなく、利活用志向
    • 限られたリソースとのバランス

新日本古典籍データベースの海外ユーザ調査

  • 新日本古典籍総合データベース
    • 日本の古典籍のポータルサイト国文学研究資料館
    • 日本古典籍総合目録データベースの書誌データ
    • デジタル化画像
    • 国際共同研究ネットワーク構築計画(2014~)
      • 海外ユーザもターゲット
  • 貴重書・宝物閲覧
    • 閲覧に必要なコストを下げる
    • 資料保存
  • 日本の古典籍
    • 原本の不在
    • さまざま(筆者や読者・書写者による)な改訂
    • 本文の異同が多いため悉皆調査・比較が基本となる
  • 調査概要
    • パイロット版提供中(2017年4月~10月)
    • 海外輸出を対象としたオンラインアンケート
    • 国文学研究資料館へのインタビュー
    • 本公開版と今後の展開にむけた提案

アンケート調査ならびにインタビューまとめ

  • 日本以外に研究バックグラウンドをもつ(N=65)
  • 日研究の学会メーリングリストへの投稿依頼
    • 7/13学会から許可
  • ヨーロッパ(60%)と北米(22%)中心
    • アメリカの学会からは「日本の古典籍を使うユーザはあんまりいないから」と断られたため、研究者HPから個別に連絡
    • アジア圏の研究者は連絡先が不明なことが多かった
    • 人文科学(89%)、社会科学(11%)
  • 日本語の読解能力は高いユーザ層
    • 自己申告によると90%以上が幅広い話題を理解できるレベル
  • 新日本古典籍総合データベースの認知度(N=55)
    • 知っている(58%)
    • おおむね好評
    • 機能や表示機能に改善希望
      • マイクロ画像を除外する
      • Classic Books(古典籍)とJapanese Classic Books(和古書)の違いが不明
      • サムネイル表示を帙ではなく資料にしてほしい
      • 「早稲田のようにしてほしい」(サムネイルのモザイク表示など)
        • 実際はIIIF対応のコンテンツはビューワの機能で実現可能
      • 英語マニュアル不在
    • 書誌情報への希望
      • 日本古典籍総合目録データベースの典拠リンク復活
      • 参考文献や所蔵を一覧
  • 原本の情報
    • 98%が原本閲覧を必要
    • 理由を質問項目から削除してしまった…!
  • CCの認知度(N=54)
    • 新日本古典籍総合データベースに付与を知らない(70%)
    • 活用法がわからない(35%)
  • DOI認知度(N=55)
    • 新日本古典籍総合データベースに付与を知らない(76%)
    • 利用方法がわからない(36%)
  • 相互運用性への希望
    • WikipediaやVIAFへのリンク
    • 国文学研究資料館が提供するほかのDBとの横断検索
    • 日文研などが提供するDBとの横断検索
    • 質疑応答でウェブスケールディスカバリ(初学者向け)についての要望はなかったそう
    • CiNii Booksとの連携(2017.10~)
    • Japan Konwledgeとの連携(予定)
  • デジタル画像の利用目的
    • 研究についで、教材、宿題・課題とつづく
    • 歴史的典籍NW事業
    • 教材としての活用可能性
      • MOOCの日本古典籍オンラインプログラム
      • ここの↑掲示板へのリーチもユーザエンゲージメント
  • 専門を同じくする人・コミュニティが主な情報源(N=32)
  • インターフェイス言語(N=56)
    • 日本語(37%)
    • 英語(18%)
    • 両方(45%)
    • アンケート調査も89%が英語版を選択
      • 日本語上級者であっても
  • 英語の書誌情報
    • 英語(ローマ字)でのヨミ
    • 資料タイトルと著者名
    • ローマンアルファベットの強み
    • Google翻訳強い
    • ローマ字ヨミのGoogle検索で日本古典籍の情報がヒットする
      • 日本語(ネイティブでかつ英語が苦手な)ユーザが知らない日本の古典籍の世界
    • 英語(ローマンアルファベット)でインターネット上に現れる必要性
  • 画像データの一括ダウンロード
  • くずし字のテキスト化
  • 目録登録機能
  • 修正報告機能
  • ユーザエンゲージメントの重要性
    • ユーザ目線の気づき
    • 副次情報
  • 反省点
    • 小規模な調査
    • アジアの研究者不参加
    • ある程度、答えが予測できた
    • エンゲージメントまで至らず
  • 提案
    • ユーザへのインタビュー
    • フォーカスグループ調査
      • ディスカッション
    • オープンな問い
    • 協働でDAを育てる

3.国際社会のなかでのデジタルアーカイブ

  • DAの特徴として国際性を生まれながらにして持つ
  • 最初のエンゲージメントの対象
    • 海外の文化機関の日本資料専門家
    • 日本研究者
      • 海外における日本情報の核となる
      • アカデミア・専門家という付加価値
      • 英語(+各地の言語)で情報発信
  • 日本の文化を各地でローカライズする
    • 例:BBCの番組
    • 届けたい相手が聞く耳を持つメディアに語ってもらう
  • 海外ユーザとの交流
    • ユーザに近づけるプラットフォームとは?
    • 情報がつねに出入りする
  • ユーザエンゲージメントの鍵
    • ユーザに目を向ける
    • ユーザの視点
    • ユーザのニーズとは??

質問

  • DAプロバイダーはデータを提供し、ユーザがシステムを作るという考えもユーザエンゲージメントか。
    • 一側面からそうであるが、そうでないユーザのニーズはプロバイダーがDAに反映させる必要がある
  • 新日本古典籍総合データベースの既存の機能以外に要望があったか?
    • 欧州の目録ない資料に対して目録登録をしたい
    • 書誌の修正投稿機能
  • 古典籍の時代区分別(江戸期/それ以前)の調査はしているか?(質問の意図が私がうまく汲めず…)
    • していない
  • 日本の古典籍に特有の要望はあったか?
  • ユーザエンゲージメントはユーザのニーズの把握なのか?
    • それも含まれる
  • マネジメントの側面からのアプローチも考えられる
  • ユーザエンゲージメントのモチベーションは何か?
    • 予算獲得、DAの維持と発展
  • ウェブスケールディスカバリにおける日本語コンテンツの少なさ
    • DSとの連携についての言及はなかったが、初学者を対象に据えると必要

感想

  • DAのベストプラクティス紹介のときに、引用文献調査について触れられていた
    • とても当たり前というか、大前提な感じで紹介されていたが自館でほとんどやっていない…
  • ユーザエンゲージメントにおいて核となる人やコミュニティをいかに見つけるかというのが難しい
  • 利用ログ(どこ経由で来たか)が役に立つ事例はあるのかな?(ということが聞きたかった)

FRBRからLRMへ:書誌情報にかかわる新たな概念モデルについて

2018年4月28日@大阪学院大学
14:30‐17:00
発表:和中幹雄氏(大阪学院大学
月例研究会案内(情報組織化研究グループ)

この手のお話に全く追いついておらず、LRM(IFLA Library Reference Model)の話はほぼ初見。3月に公開された「カレントアウェアネス」(CA1923)を補足する発表だった。字数制限で書けなかった点、具体例や各実体、属性、関連の定義のお話が中心だった。
紹介された文献(日本語で読めるもの)は以下の3つ。

CA1923 - 動向レビュー:IFLA Library Reference Modelの概要 / 和中幹雄 | カレントアウェアネス・ポータル

和中幹雄. FRBR-LRM(FRBR, FRAD, FRSADの統合案)の概要メモ. 資料組織化研究‐e. No.69(2016.10) p. 27-41.
http://techser.info/wp-content/uploads/2016/10/69-20161027-3-PB.pdf

千葉孝一. FRBR再考. 資料組織化研究‐e. 資料組織化研究‐e. No.69(2016.10) p. 1-17.
http://techser.info/wp-content/uploads/2017/04/FRBR__0416.pdf

原典は下記から
IFLA -- IFLA Library Reference Model (LRM)

カレントアウェアネスをはじめ、文献で説明されている箇所は重複するので、気になった部分やよくわからなからなかったところだけメモ。

歴史的な経緯

(1)FRBRのバージョンアップ
1998年に誕生したFRBRは想像以上に広がって、2009年にFRAD(著者名典拠)や2010年にFRSAD(件名や分類)が発表されている。
誕生から20年を経て、セマンティックウェブを前提とする現代において、その定義のあいまいさや、FRADとFRSADとの間に生じる用語のずれモデル同士の異同を解消するための新モデル=LRMという立ち位置。
ちなみに、FRBRにもとづいたRADであるが、LRMに対応するためのtool kitを公開予定である。新NCRも何かしら影響されるのだろうか…?

(2)その名称から「FRBR」がなくなり、むしろFRBRから一度なくなった「Library」が復活した
(図書館)外とつながるために外を意識したモデルであった(という私の理解)FRBRに対して、LRMは(図書館とは)違うモデルとの相互運用性を担保するために(図書館側からの)姿勢を示すことを目的にしている、というお話であった。
それの表れとしてOMR(Open Metadata Registry)の名前空間に登録されている、FRBR(FRBRer)、FRAD、FRSAD、LRM、FRBRoo(object orientated。博物館と図書館の統合モデル)の各クラス数、プロパティ数、総エレメント数を比較すると、LRMはずいぶん少なくなる、と予想される(カレントアウェアネスの表1)。
むしろ、FRBRooやPRESSoo(逐次刊行物の概念モデル。LRMは逐次刊行物についてはこちらに任せているのでLRMでは逐次刊行物の部分はシンプル)などほかのコミュニティとの調整を意識しているらしい。ところで、FRBRooは「FRBR」という文字が入っているが、まったくのほかのコミュニティというポジションなのだろうか…?FRBR→LRMになることで、FRBRooの名前はそのままなのだろうか…?

内容のはなし

(3)概念モデルの仕様書により近い形
ID、Name、Definition、Constrainsts、Scope Note、そしてExamplesという表形式ですべて表現されている。FRBRが記述で表現されているがゆえに、これらが混在していてわかりにくくなっていた点を解消しようとしている。機械処理を前提としている。

(4)実体の階層化

  • Res
    • Work
    • Expression
    • Manifestation
    • Item
    • Agent
      • Person
      • Collective agent
    • Nomen
    • Place
    • Time-span

たとえば、Agentの定義は下位(PersonとCollective agent)にあてはまり、それぞれ定義を繰り返さない

(5)LRMで新しく登場する実体

  • Res
    • ラテン語でthing
    • LRMがとりあつかう世界の書誌情報における「ありとあらゆるもの」
  • Agent
    • 個人・団体・家族だったもの
    • LRMからは架空の人物はAgentから外れる。これによりRADにも影響する
      • 和中先生いわく、議論はあったがわりとあっさりと通った、そう。
  • Nomen
    • 実体と実体を指し示す名称との関連
    • Linked Data仕様
立ち位置

(6)属性より関連重視
電子な世界において、ManifestationやItem、その属性よりも、WorkやExpressionで紐づけられることが重要になる。
質疑応答で言及された「ハブとしてのLRM」

(7)エンドユーザに焦点
いわゆる図書館内部プロセスに必要な「管理データ」や図書館員固有のタスクであるJsitifyが対象外になる

概念モデルを輸入すること

(8)北米とヨーロッパ中心
策定者であるIFLA FRBR Review Groupは有志の研究者グループ。そこにアジア勢は中国から1人

(9)翻訳と概念の理解のすれ違いの困難さ
Personを個人と訳すのか、問題。ダブリンコアをはじめとするほかのメタデータスキーマとの兼ね合いもあり、また翻訳すること自体が、概念モデルと微妙にずれてしまう危険性をはらむ。考え方を英語名にして定義だけ日本語にしたらいいのか?とはいえ、読むハードルは英語だと高くなりがち。

E-book usage: counting the challenges and opportunities

しばらく何も書いていなかったので、最近読んだものをメモしておく。
電子リソースとかその統計とかについて、関わる機会のなかで「E-BOOKは課題」ということを何度も耳にしていた。

スタートは2年前のE-BOOKフォーラムの報告書。
JUSP ebook forum(2016-07)
http://jusp.jisc.ac.uk/news/JUSP-ebook-discussion-forum-report-20160714.pdf

その1年後にフォーラム後の動きとして、課題と展望について発表された。もしかすると、またそのうち、続報が来るかもしれない。
insights.uksg.org

E-BOOKの利用統計については、EJとは違う課題もある。たとえば購入スタイルについて、DDA(demand-driven acquisition)、PDA(patron-driven acquisition)EBA(evidence-based aquisition)のように利用統計にもとづいて購入方法はE-BOOKに特徴的である。

また、複数のアグリゲーターやパッケージで提供される点もあげられる(High Wireとかあるけど)。異なるプラットフォームをまたがってタイトル単位の利用統計を集計しようとすると、ISBNが付与さられていなかったり、付与されていても各アグリゲーターメタデータが不充分であることでうまく集計できなくなるという。執筆者が収集したいくつか事例が紹介されていたが、のExcelのVLOOKUPを使うような素朴な?方法をとっている館も多いという。共通のIDについての取り組みとして、NBK(National Bibliographic Knowledgebase)というものが紹介された。

https://www.jisc.ac.uk/rd/projects/national-bibliographic-knowledgebase

英・Jisc、コレクション管理や発見可能性の改善を目的とした“National Bibliographic Knowledgebase”の開発を開始 | カレントアウェアネス・ポータル

いわく、KBARTⅡではE-BOOKの正確なメタデータの重要性は認識しており、KB+(ジャーナル)とあわせて電子リソース整備のナショナルレベルの二本柱だそう。カレントアウェアネス-Rでも言及されているように、GOKbと共にパッケージを越えたE-BOOKのをプラットフォームを目指すという。GOKbと違って、なぜKB+とは別に作ったのだろう??

COUNTERに関してはRelease5がひかえているが、現行のBR1(月別・タイトル別タイトルリクエスト成功件数)とBR2(月別・タイトル別セクションへのリクエスト成功件数)との間に互換性がないことが解決事項として指摘されている。また「いま、読めているコンテンツ」が、買い切り・購読・unowned(訳語がわからない…)なのかを見分けられないと、 見直しに活用するには不十分である。反対にサービスの質維持のために「いま、読めていないコンテンツ」が、非購読だからなのか切り替え忘れなのかも重要な情報である。もっとも「使えるはずのコンテンツをもれなく提供しているか」というチェック機能を十分なものにするには、購読管理や予算管理の業務と利用統計がお互いに参照可能な状態になっていないと難しいのであるが。いずれにしても、IDが不十分であるのはE-BOOK管理の上で課題であるということが何度も繰り返されている。

ここで、コンソーシアム/各機関であれ、購入/中止であれ、利用統計の動機にあるのは「いかに予算を効率的にE-BOOKに使うか」という視点である。Webサービスへの活用とか、予算の振り分け(APCに使うとか?)に利用しているところもあるのだろうけど、総論として紹介されるのは、decision-makingを支援する、ということである。ミクロな観点からだと他の動機もあるのかもしれないけど…

機関リポジトリと識別子

気になることを調べる短記事シリーズ~リハビリ編~

ふと、複数の機関リポジトリ、あるいは機関リポジトリと出版社サイトというように複数のサーバから論文が公開されることの問題ってなんだろと考えて、ひとつは利用統計がばらけること?と思った。そして、それって論文の識別子のもとに集計できればいいのでは?とも思った。

もうひとつPost-printは出版社版と原則は同じ内容だけど、"違う"ものだから機関リポジトリのコンテンツに、DOIを付与できない(ここでいうDOIは学位論文とか紀要論文に対して、機関リポジトリが付与するDOIではなくて、出版社版のDOI)。

つまり、Post-printを認める出版社はその条件として、自社サイトへのリンクを挙げることが多いが、それは「機関リポジトリのコンテンツと出版社サイトで公開されているコンテンツが同一である」ということを示すのではなく、「Post-printはあくまで出版社版への補助(というべきかなんと言うべきか)」だからDOIをURIを記述することが求められているのだろう。たとえば

Furthermore, the author may only post his/her version provided acknowledgement is given to the original source of publication and a link is inserted to the published article on Springer's website.

www.springer.com

最初の疑問に立ち返って、IRのメタデータに「DOI」という項目を持っていれば、Post-printと出版社版をつなぐことは可能なのだろうか、つまり、出版社サイトとアグリゲーターの利用統計に、機関リポジトリ(Post-print)も加えて「この論文のトータル◯件利用されました」と計算することはできるのだろうか?機関リポジトリだけでなく、Figshareや ResearchGateでもDOIを取得することができるが、それらと出版社版との関係を示す項目は無いのだろうか?

あるいは、ORCIDなどの著者識別子のもとに著者ごとの研究成果一覧を集計すること…は機関リポジトリの取り組みとしてはすでにあるようだ。

IRUS-UK and ORCIDs | Jisc scholarly communications

これはIRUS-UK(英国内の機関リポジトリの利用統計アグリゲーターサービス)におけるORCIDとの取組事例。
研究者DBとしての側面をIRが持つとすると著者名典拠管理のキーとしてORCIDを使っている、らしい。

COUNTER Code of Practice Release 5 Draft

かえってきた気になったことを調べる短記事シリーズ。

2017年1月付でCOUNTER Code of Practice Release 5(以下、Release5)のドラフト版が公開された。

docs.google.com

COUNTER実務指針第5版草案公開 フィードバック受け付け中 | カレントアウェアネス・ポータル


Release4からの変更点や主な特徴をまとめたイントロダクションを中心に見ていく。

www.projectcounter.org

特徴的に現れるのはレポートである。Release4までは36種あったレポートは11種までに簡略化された。
その代わりに、Data_Type、Access_Type、Is_Archive、Metric_Type、Section_Type…等々といった「type」によって、状況に応じた定義がされるようになった。

Data_Typeは、対象の種別を定義する。これによりレポートの大枠が決まる。

  • Book
  • Database
  • Dataset
  • Journal
  • Multimedia
  • Platform
  • RepositoryItem

たとえば、Platformの場合、レポートは「Platform Report 1」か「Expanded Platform Report」のいずれかである。

Access_Typeは、対象へのアクセス方法を定義する。これにより、例えば講読誌とオープンアクセス誌を区別することができる

  • Controlled
  • OA_Delayed
  • OA_Gold_APC
  • OA_Gold_Non_APC
  • Other_Free_to_Read

Is_Archiveはその名のとおり、バックファイルかカレントかを定義する。

Metric_Typeは、Release4では25種あったが、Release5では12種に簡略化された。どう訳したら良いのか分からないのだけど、itemに対しては「investigations」「requests」「no_license」「limit_exceeded」で、DatabaseとPlatformに対しては「searches」で定義されている。たとえば、「unique_item_requests」は、同一セッションにおいて、記事をPDFやHTMLで閲覧するためにリクエストされた回数をカウントする。「unique_item_investigations」は、あるセッションのなかで、フルテキストを閲覧するためにクリックされた回数をカウントする。

Release5では、章・節レベルをSection_Typeで定義する。

  • Article
  • Book
  • Chapter
  • Section

その他のtypeとの組み合わせで、Release4で主に資料種別で定義されたレポートが、簡略化されつつも、様々な利用状況(電子ブックの1章の利用統計のカウント、等)に応じたレポートが可能となった。

これまでタイトルレベルのみであったが、Release5によってJournalやBookに収録されるArticleレベルの利用統計も取れるようになったことは大きいのかなぁと思う。

英訳と理解があやふや(特にMetric_Type)なので、気がついたら随時、修正します。