klarer-himmel13's diary

(旧)図書館の中では走らないでください!から

Code of practice for research data usage metrics release 1

Make Data Count(MDC)プロジェクト、研究データの評価指標に関する実務指針第1版のプレプリント版を公開 | カレントアウェアネス・ポータル
Code of practice for research data usage metrics release 1 [PeerJ Preprints]

研究データの利用統計、COUNTERのCoP for RD1(Code of Practice for research data usage metrics release 1)のプレプリント版。2018年の2月に公開された。研究データに特化した利用統計の標準は、はじめての試みになる。その意味でRelease1。
Code of Practice Release5のレポートでは、Release4からmetiricが半減して、大きな変更点のひとつである。metiricsは(私の理解では)「利用状況ごとの数え方」を意味する。Journal of ABC(OA誌)の2016年1月における、リクエスト数(あるセッションにおいてPDF閲覧するなど)が124件というのは

Title... Data_Type Access_Type Is_Archive *Metric_Type *Jan-2016
Journal of ABC Journal OA_Gold_APC N total_requests 124

だし、Journal of DEF(購読誌でカレント分)の2018年1月における、ユニークな検索(investigations)数が280件というのは

Title... Data_Type Access_Type Is_Archive *Metric_Type *Jan-2016
Journal of DEF Journal Controlled N total_investigations 280

…となる。

An Indoctrination of to Resease 5
https://www.projectcounter.org/wp-content/uploads/2017/02/COUNTER-R5-Consultation-2017-02-23.pdf

CoP5とCoP for RD(Research Data Usage Metrics)1の関係について。CoPのなかにはDatabase Master Report(DR)が含まれており、そのなかでは、searches_regular、searches_federated、searches_automated、という3つのmetiricsがセットされている。では、CoP for RD1は何なのかというと、データリポジトリやプラットフォーム側(データプロバイダ、各大学や研究機関も含まれる)が標準化された研究データのUsage Metrics (利用状況総計値)を出せるようにするもの。datasetはinvestigationやrequestの対象であり、つまり「このメタデータに何回、アクセスがあったのか?(investigation)」「何回データが検索されたのか、それはinvestigationのうちのどの部分を占めるのか(request)」を数えることは、それはCoPにおけるDatabaseとは異なる。

とはいえ、CoP for RD1はCoF5を踏まえた上のものであり、CoP5の方法が適応されている。基本的な語彙、たとえばinvestigations、request、sessionなどは共通する。そこで研究データのUsage Metricsはどうなるのか、研究データの利用統計に特有な課題は何か、というのがこのプレプリントの主たるテーマとなっている。8章のうちReportの話が中心になっている4章くらいまでを中心に読んでみた。5章以降はたぶんCoP5と共通している部分も多い(と思う)。

研究データの利用統計レポートに必要なもの

論文と比べて研究データの利用統計に特有の特徴は、

  • 統計レポートは機関レベルではなく地理的なまとまりのほうが重要になる
  • データセットの全バージョンをを横断している必要がある
    • 研究データはバージョンアップがわりとあるため
    • 各バージョンと全バージョンをあわせた利用統計レポートが推奨
  • データセット単位とデータセットの構成要素別の利用統計

これら特徴のうち、バージョンや単位ついてはなんとなくわかる。現役の研究データはつねにバージョンアップされているので、バージョン管理が重要になるとともに、利用統計レポートにおいてもバージョン管理が重要になってくるのであろう。また、dataset、collection、components(各データの構成要素)の利用統計が必要なのも想像ができる(これはたとえば図書と各章における関係に似てるかもしれない)。

前者の地理情報について、国・地域の情報が必要になるのだということが繰り返し述べられている。地理情報は、同じデータセットミラーサイトのようにいくつかの地域でホストされているときや、利用者がいる地域によって利用が左右されるようなデータセットのときには、利用状況の把握を補助する役割を果たすという。具体例が適切かはわからないがある地域の気象情報などだろうか?

特徴的な用語の提議
  • dataset
    • ある機関から公開されたデータのまとまり
    • アクセス出来てひとつかそれ以上のフォーマットでダウンロードできる
  • component
    • datasetの利用可能なひとつひとつ
    • ここにもダウンロードできる
  • collection
    • datasetをさらにまとめてキュレーションしたもの
  • version
概要

レポートの基本的な構成は、CoP5と似ている。以下は図書館やデータセンター(データの供給側)向け、datasetのReportのマスターレポートのエレメント。1行目は図書館向けのReport例。

Report_Name Report_ID Release Metrics_Types *Report_Filters *Report_Attributes Expections Reportoing_Period Created Created_By
Dataset Report dsr-12hd-zt65 RD1 Unique_Dataset_Investigations;Unique_Dataset_Requests Access_Method=Regular;Access_Method=Machine Attributes_To_Show=Access_Method 3040: Partial Data Returned begin_date=2016-01-01;end_date=2016-08-30 2016-10-11 DataONE

datasetの構成要素も定義している。以下、必須には★を、いずれかが必須には☆をつけた。

  • Dataset_Title★
  • Publisher★
  • Publisher_ID★
  • Creators

Publication_Date

  • Dataset_Version
  • DOI☆
  • Other_ID☆
  • URI

_YOP

  • Access_Method
  • Metrics_Type★
  • Reporting_Period_Total★
  • mmm-yyyy★

CoP for RD1が誕生する背景には、RDM(研究データ管理)の流れを受けており、この作成もRDMコミュニティとの連携のもとで作成されている。(当然かもしれないけど)RDMの整備とともに注目していきたい。