Code of practice for research data usage metrics release 1

Make Data Count（MDC）プロジェクト、研究データの評価指標に関する実務指針第1版のプレプリント版を公開 | カレントアウェアネス・ポータル
 Code of practice for research data usage metrics release 1 [PeerJ Preprints]

研究データの利用統計、COUNTERのCoP for RD1（Code of Practice for research data usage metrics release 1）のプレプリント版。2018年の2月に公開された。研究データに特化した利用統計の標準は、はじめての試みになる。その意味でRelease1。
Code of Practice Release5のレポートでは、Release4からmetiricが半減して、大きな変更点のひとつである。metiricsは（私の理解では）「利用状況ごとの数え方」を意味する。Journal of ABC（OA誌）の2016年1月における、リクエスト数（あるセッションにおいてPDF閲覧するなど）が124件というのは

Title...	Data_Type	Access_Type	Is_Archive	*Metric_Type	*Jan-2016
Journal of ABC	Journal	OA_Gold_APC	N	total_requests	124

だし、Journal of DEF（購読誌でカレント分）の2018年1月における、ユニークな検索（investigations）数が280件というのは

Title...	Data_Type	Access_Type	Is_Archive	*Metric_Type	*Jan-2016
Journal of DEF	Journal	Controlled	N	total_investigations	280

…となる。

An Indoctrination of to Resease 5
https://www.projectcounter.org/wp-content/uploads/2017/02/COUNTER-R5-Consultation-2017-02-23.pdf

CoP5とCoP for RD（Research Data Usage Metrics）1の関係について。CoPのなかにはDatabase Master Report（DR）が含まれており、そのなかでは、searches_regular、searches_federated、searches_automated、という3つのmetiricsがセットされている。では、CoP for RD1は何なのかというと、データリポジトリやプラットフォーム側（データプロバイダ、各大学や研究機関も含まれる）が標準化された研究データのUsage Metrics (利用状況総計値)を出せるようにするもの。datasetはinvestigationやrequestの対象であり、つまり「このメタデータに何回、アクセスがあったのか？（investigation）」「何回データが検索されたのか、それはinvestigationのうちのどの部分を占めるのか（request）」を数えることは、それはCoPにおけるDatabaseとは異なる。

とはいえ、CoP for RD1はCoF5を踏まえた上のものであり、CoP5の方法が適応されている。基本的な語彙、たとえばinvestigations、request、sessionなどは共通する。そこで研究データのUsage Metricsはどうなるのか、研究データの利用統計に特有な課題は何か、というのがこのプレプリントの主たるテーマとなっている。8章のうちReportの話が中心になっている4章くらいまでを中心に読んでみた。5章以降はたぶんCoP5と共通している部分も多い（と思う）。

研究データの利用統計レポートに必要なもの

論文と比べて研究データの利用統計に特有の特徴は、

統計レポートは機関レベルではなく地理的なまとまりのほうが重要になる
データセットの全バージョンをを横断している必要がある
- 研究データはバージョンアップがわりとあるため
- 各バージョンと全バージョンをあわせた利用統計レポートが推奨
データセット単位とデータセットの構成要素別の利用統計

これら特徴のうち、バージョンや単位ついてはなんとなくわかる。現役の研究データはつねにバージョンアップされているので、バージョン管理が重要になるとともに、利用統計レポートにおいてもバージョン管理が重要になってくるのであろう。また、dataset、collection、components（各データの構成要素）の利用統計が必要なのも想像ができる（これはたとえば図書と各章における関係に似てるかもしれない）。

前者の地理情報について、国・地域の情報が必要になるのだということが繰り返し述べられている。地理情報は、同じデータセットがミラーサイトのようにいくつかの地域でホストされているときや、利用者がいる地域によって利用が左右されるようなデータセットのときには、利用状況の把握を補助する役割を果たすという。具体例が適切かはわからないがある地域の気象情報などだろうか？

特徴的な用語の提議

dataset
- ある機関から公開されたデータのまとまり
- アクセス出来てひとつかそれ以上のフォーマットでダウンロードできる
component
- datasetの利用可能なひとつひとつ
- ここにもダウンロードできる
collection
- datasetをさらにまとめてキュレーションしたもの
version

概要

レポートの基本的な構成は、CoP5と似ている。以下は図書館やデータセンター（データの供給側）向け、datasetのReportのマスターレポートのエレメント。１行目は図書館向けのReport例。

Report_Name	Report_ID	Release	Metrics_Types	*Report_Filters	*Report_Attributes	Expections	Reportoing_Period	Created	Created_By
Dataset Report	dsr-12hd-zt65	RD1	Unique_Dataset_Investigations;Unique_Dataset_Requests	Access_Method=Regular;Access_Method=Machine	Attributes_To_Show=Access_Method	3040: Partial Data Returned	begin_date=2016-01-01;end_date=2016-08-30	2016-10-11	DataONE

datasetの構成要素も定義している。以下、必須には★を、いずれかが必須には☆をつけた。

Dataset_Title★
Publisher★
Publisher_ID★
Creators

Publication_Date

Dataset_Version
DOI☆
Other_ID☆
URI☆

_YOP

Access_Method
Metrics_Type★
Reporting_Period_Total★
mmm-yyyy★

CoP for RD1が誕生する背景には、RDM（研究データ管理）の流れを受けており、この作成もRDMコミュニティとの連携のもとで作成されている。（当然かもしれないけど）RDMの整備とともに注目していきたい。

klarer-himmel13's diary

（旧）図書館の中では走らないでください！から

Code of practice for research data usage metrics release 1

研究データの利用統計レポートに必要なもの

特徴的な用語の提議

概要