klarer-himmel13's diary

(旧)図書館の中では走らないでください!から

第2回京都大学研究データマネジメントワークショップ

日時 2019/02/28(10時20分~17時00分)
会場 京都大学理学研究科セミナーハウス
http://www.media.kyoto-u.ac.jp/accms_web/event/1613.html

報告「京都大学におけるデータマネジネントの現状」
司会:元木 環先生(京都大学学術情報メディアセンター・助教
報告者:川口 朋子先生(京都大学アカデミックデータ・イノベーションユニット・研究員、家森 俊彦先生(京都大学名誉教授/アカデミックデータ・イノベーションユニット・研究員)、青木 学聡先生 (京都大学学術情報メディアセンター・准教授)

  • アンケート調査・ヒアリング調査経過報告
  • 京大データマップ初版・アンケート第2段計画等紹介
  • データマネージメントに関するルーブリック紹介

招待講演「研究データマネジメントの現状と課題」
村山 泰啓先生(国立研究開発法人情報通信研究機構・研究統括)

パネルディスカッション「京都大学における研究データマネジメントのあり方」
<前半>招待講演に対する質疑応答国立情報学研究所、情報環境機構、図書館機構での現状について話題提供
<後半>ディスカッション

後日、報告書が出るとのアナウンスがあったので、詳細はそちらに。配布資料がほぼなかったのでメモと理解ができた範囲で。
最初に梶田先生からワークショップで共有する文脈について解説があった。

www.scj.go.jp

axies.jp
「学術機関における研究データ管理に関する提言(案)」を公開予定

研究を取り巻くコンテクストが急速に変化(研究公正、オープンアクセス、オープンサイエンス)しており、これらの組織には関係者が共有可能な青写真の共有とコーディネーションを提言が求められる。そこで京都大学では、アカデミックデータ・イノベーション ユニットが発足し、これまで活動を続けている。

www.cpier.kyoto-u.ac.jp

京都大学におけるデータマネジメントの現状

川口朋子先生「アンケート調査・ヒアリング調査報告」
  • 次世代研究間競争性のための研究データに関する基礎調査
  • 京大の研究者3,375名対象
  • 2018年12月4日~:先行調査(ユニットメンバー)
  • 2018年12月21~2019年1月5日:本調査
    • 総務課経由でメールによる依頼(実際の送付先や送付時期を調査主体の葛ユニットでは確認できなかった)
    • メーリス(学際融合教育研究推進センター)
    • 京大のポータルサイトへの掲示
  • 研究データ(データセットやデータベースにしたいデータ)を持っているか?
    • 「データセット」が人に見せるような整ったものという印象を与えた?
  • 全問回答(244名)、未完了(828名)
    • 244名の内容にフォーカス
    • 回答者の所属は多い順に医学、生命科学、生物学、農学、工学…とつづく
    • 研究データの所持ありが48%
  • データの種類:多様な名前、無名のデータが存在
  • 目的や分野:目的が解析、比較、解明、データマイニングなど具体的、というより研究目的になっている
  • データの概略(分かる:119、不明:130):fasta、jpg、cad、ppt、スプレッドシート
    • データを表すキーワードに「スプレッドシート」がはいっている。内容と形式の違いを理解してもらうのたいへん。
    • 自然科学が中心。医学は多いが公開否が多い
    • 公開状況:関係者と共有(41%)、公開(11%)、公開予定なし(20%)、公開準備(11%)、公開に課題あり(4%)→ヒアリング
  • 自由記述
    • 個人での保存・管理は大変(容量、セキュリティ、コスト、クラウド希望)
      • 体制的に継続的運用が困難(人がいない)
      • 公開に議論が必要(外部との契約にかかわる、個人情報、純粋に大学の所有物とは言えないもの)
      • 公開作業する人がいない
      • 保存すべき、では人は動かない
      • 研究データの定義が異なるため回答しにくい
  • まとめ
    • データに関する認識は多様
    • 多様なデータ
    • 個人での管理はたいへん
    • 組織的・継続的な管理
      • 公開には課題や工夫が必要
      • 今後も継続的に活動
  • ヒアリング調査:2018年12月26日~2019年2月20日
    • 収集について、保管・整理について、公開について
    • 家森先生と川口先生のペアで訪問
  • ケース1:東南アジア研究
    • インタビューデータ
    • 音声はDropbox、書き起こしを依頼してプリントしファイル保存
    • ファイル
    • 論文執筆に利用、フィールドバック
    • 取り扱いは不安(インタビューイーへの配慮)、公開は限定的にしたい、全公開⇔インタビューイーへの利益にならないことは公開しない
  • ケース2:大学法人文書
    • 人文書など
    • 目録作成、データベース登録、人事データはデジタル化しない
    • 書庫、学内のホスティングサービスを利用
    • 原則公開
    • 分散所蔵されている資料群、バックアップ体制は学内サービスを利用、HDD保存、共有フォルダ
  • ケース3:中国古典語の形態素解析・依存文法解析
    • 漢籍の白文に符号を付与しデータ化
    • GitLabに登録
    • 自前でサーバを立ち上げて管理
    • 日々、作りながら公開
    • アクセスが少ないものは閉鎖すべきか検討中、公開後の取り下げの扱い
  • ケース4:学術分野ごとの研究風土や価値観の比較調査
    • 学会へアンケート調査依頼(1800名のデータ)をしウェブ実施
    • エクセル、Wordpress
    • 公開(ダウンロード)
    • 論文には使用せず
  • ケース5:地球物理学
    • 北極スヴァールバル諸島で観測したオーロラの画像データ(4秒に1枚)
    • 自分と共同研究者(他大学)に自動送信、目録なし
    • 3重のバックアップ、学内停電に被害、観測機にポータブルハードディスク
    • 論文執筆、研究チームの合意で公開、7‐8年は待つ、1日単位で公開
  • ケース6:有機化学
    • 天然、合成化合物の各種分析データ
    • エクセル
    • 個人のPCで管理、研究室の50年分の研究ノート(研究手法が変わるので今の研究には役立てられないが、質問に対して参照したことはある)を別室でストック
    • 公開はしない(研究のプライオリティが下がる)、supporting informationとして公開、立証に必要があるかどうかチェック項目がある
    • 新規性のためにデータ公開は当たり前、論文に使わないデータ(ネガティブデータ)は公開しない、一般性や普遍性がないので2-30年より前のものは使えない
  • ケース7:地域研究
    • 水質分析データ
    • 結果をExcelでまとめてデータ化しているがそこまできれいじゃない
      • エクセルに起こしてDB化
    • 教員が管理、学生が卒業前にデータをフォルダに入れる
  • 論文執筆
    • データ構造が複雑で、体系的なデータにするのは困難、管理は無理、
      • 採水する頻度、場所、分析項目、統計方法、解析手法が人によって違う
      • 解析データを公開するには注釈文が必要(大きな労力)
    • (その他)トレイのアンケート調査(回答)紙ベース(ベトナム、タイ、カンボジア
      • 教員管理で論文執筆に利用
  • ヒアリング調査のコメント(総括)
    • 研究途中でデータ整理は考えられない。目的と結果が研究の始まりと終わりで変わる
    • そのまま公開はできず、注釈文が必要になる。それは負荷(その分野を理解していないといけない)
    • 公開作業を担う人材
    • 学生への研究データ管理の教育はたいへん
  • ヒアリング調査まとめ 
  • データ管理の実態は多様
    • 目的は研究であり研究データ管理ではない
    • 公開・非公開の議論がもっと必要(段階的な管理)
  • まとめ
    • 研究データへの認識が多様で曖昧(「データ」の理解をすり合わせ)
    • 整理・保存・活用も多様、整理してないデータも多い
    • 個人・研究室でのデータ管理は負担が多い
    • 組織的・継続的な運用は検討課題
    • 公開には丁寧な議論が必要
家森俊彦先生「京都大学研究データマップ」
  • 目的:学内に存在するデータを俯瞰、公開データの所在・リンク、条件付き公開データ・非公開データの所在、データセットの分類と相関図(未完成)、検索システム(未完成)
  • 京大の構内図にデータをマッピングし、分類
  • データなのに所在をもつ不思議な図(京大の地図が頭にはっていることが前提)
  • 地図に示すとどんな分野の研究データがあるのかが浮かび上がる
  • アンケート調査からの推測
    • 医学生物農学は回答率が高い、ただし公開は難しい。グループ内での共同が必要な分野
    • 地球科学・地球環境関係も回答率たかい、公開・公開しないと研究が困難
    • 社会化学、地域関係は回答率たかい、公開はIRのみ
    • 工学は低い、実験データは体系的なデータセットとしてまとまりにくい、再利用が困難・無意味?
    • 研究所・付属施設は公開DBを持つ、共同施設としての役割
  • 要検討事項
    • グループ内での共有に適したシステムが必要
    • DB化の公開と補助
    • 室内実験データの記録と保存方法・教育
    • データ内容の情報(メタデータ)事態を秘密にしたい場合も、熾烈な競争分野はとくに
    • 論文に使用したデータの公開補助システム
    • 共同研究を促進するためのデータの条件付き公開方法
    • 大学の資産・外部評価対象としてのデータ
    • 研究所・付属施設のWDS加入促進
    • https://www.icsu-wds.org/
青木学聡先生「ルーブリックによるRDMの共通理解」
  • RDM(データを生成・収集、保管、共有、解析手法として適用、公開)はこれまでも意図せずに行ってきた側面もある
  • しかしながら、現在はは個人レベルではもはや解決できない状況に
  • 倉田敬子ら「日本の大学・研究機関における研究データの管理,保管,公開:質問紙調査に基づく現状報告
  • RDMワークショップ(第一回)
  • 回答の傾向
    • プランデータはその場かぎりで作成しがち
    • 組織化はだと自分で決めたルールでやっている
    • バックアップは難しい
    • 手順は記録してもなぜそのデータを収集したかは記録していない
    • データ公開と共有はまだい一般的ではない
    • 収集の際に合意がないと公開できない(準備段階で公開準備)
    • データは資産→正しくデータを捨てる技術が必要
    • 命名規則
  • 組織内のデータ管理体制
    • AXIESにおいて提言取りまとめ中
    • CIOトップレベルの合意
  • RDM体制構築のためのツールキット
  • 組織のためのRDMルーブリック
    • 研究データマネジメントルーブリック (research data management (RDM) rubric) の日本語訳

村山 泰啓先生「研究データマネジメントの現状と課題」

  • WSDの事務局担当
  • オープン(なんでもオープンが言い訳ではない)サイエンス
  • オープンサイエンスの議論の全体像へむけて(暫定、改訂版)
    • 政策動向
    • 近代科学の健全性
    • デジタルトランスフォーメーション
    • データを科学業績へ近づける
    • 国際学会・国際社会における規範の変化
    • オープン化できる研究データとは(現場でのデータの多様性)
      • データの多様性を読み解く
      • オンライン科学データの信頼性
      • 社会システムとして
    • そのために科学(従来)の枠組みを超えた社会投資
  • オープンサイエンス
  • データを出す・出さない、評価
  • 実践上の諸課題
    • データを捨てること・保存すること
  • 公共データのオープン化(オープンガバメント)⇔研究・科学データ共有(リサーチデータ)
    • 軍事・高度な専門性といったセンシティブなデータ
    • 汗かいた人が報われるように
  • オープンサイエンスの定義
  • 諸外国における理念の整理が進む(OECD、NIH、RCUK)
    • アジアには頑張ってほしい(by 欧州)
  • G8サミット
  • G7科学技術大臣会合(インセンティブとインフラ)
  • G7イタリア会議
  • 国内の動向
    • 戦略的開放≠フルオープン(誰でも自由に)
    • 我が国におけるオープンサイエンス推進の在り方について(2015) 
    • 統合イノベーション戦略(2018)
    • 国研データポリシー策定ガイド(2018)
    • 研究不正は強調したくない
  • そもそもデータとは?(G7科技大臣会合発表スライドより、2016年)
    • 社会と科学の相互信頼の問題
      • データを出すのに戸惑う研究サイドの不信感⇔個人情報は避けて通れない
      • 匿名性処理、出せるかたちにするプロセスをどう考えるか←コミュニティがそれを考える
      • 政治問題と絡むとむずかしい
      • アカデミックフリーダム
      • National Oceanic and Atmospheric Administrationが科学者のアウトプットは科学者のものという声明
      • 科学生産を担い手としての科学者≠研究者という考え方
    • 社会全体にとっての情報資産=研究データ
    • 科学技術の推進剤
    • 科学と社会双方にとっての有益なベストプラクティス
    • データなしにはテクノロジー次のステップに進めない
      • 80年後に今の研究データを継承するために
  • 学術のありかたを見直す必要があるの?
    • 「論文を書くために」がんばる研究者
    • 論文以外の研究活動も評価される仕組みが必要なのでは?
  • Raise standards for preclinical cancer research
    • ライフサイエンスの分野において53の論文の再現可能性を確認したが6本しか確認できなかった
    • 高IF=再現可能性高い、ではない
    • なのに10~200くらい引用されている
    • さかのぼるとあるところでさかのぼれなくなってしまう(再現可能性がないと)
  • 社会システムとしたのサイエンス
    • 印刷文化・技術中心
    • 研究実機関(大学)、出版社、保存主体(図書館)
    • 研究だけしてても社会の役に立たない(残す仕組みが必要)
    • あたらしい形の仕組みが必要
  • 図書館が学術情報の守護者になりうるのか?
    • デジタルになったら(なったからこそ)重要度が増す
  • 出版社の役割
  • 論文だけでは研究の信用は担保できなくなる
    • コミュニティでの研究情報共有
    • フラットでオープンな議論のための研究データ
    • 科学コミュニティのコンセンサス
    • 一般社会・政治的意思決定
    • (論文だけでなく)研究活動全体が将来の評価像?
    • 知の再生産活動にかかわる人全体がどう評価されるのか
      • そういう人たちはどうやって職を得るの?
      • 英国:リサーチアプトプットメトリックス
      • 研究評価にかんするサンフランシスコ宣言(DORA;SanFrancisco Declaration on Research Assessment)
      • 論文のプロセスのように研究データのプロセス(管理、収集、保管)も評価される
      • 研究業績主義が研究データ(研究活動全体)の評価がないがしろにされた側面
  • 「いい研究データ」をどう判断するの?
    • 定量的に?客観的に耐えられる?データのIFとか出ちゃうと本末転倒
    • 定性的指標とは??(サンフランシスコ宣言より)
    • 評価基準を明文化するのがグローバルスタンダードになるのなら、それをアジアも踏まえざるを得ない
    • 合理的な制度を再構築をする。日本的な(情緒)を捨てる未来
    • 指標をつくるならテストし、いい評価指標をいかに使うのかを科学者がやっていく
      • 議論をさらけ出すのは違う(評価に値するものを選んで開示。どんな情報が科学の科学たるゆえの公開情報はなにか??)
  • G7での言及。インセンティブ:評価
  • AGU Position Statement
    • データ保存は所属機関の責任である
    • そこで学術コミュニティではなく、所属機関が出てくる背景はなにか??
  • 従来のデータ共有・現状分析
    • 従来はコミュニティ内での共有(身内間で手法や文脈を共有していることが前提)
    • 近年のオープンリサーチデータとは違う(研究成果物との論文と同等の位置づけ)
      • 付帯情報、データ生成にかかわる情報の記録
      • 誰が引用・参照できる
  • データピラミッド
    • 保存しただけ、未整備、他人は利用不可
    • 整理、構造化されたデータ
    • 処理済み、他人にも使えるレベル
    • 論文とともに出版されるデータ(情報資産)
  • JAXAのデータ整備論
    • 汎用性とデータ処理の2軸
    • 非公開は保管期間を定め、期限後に見直し(廃棄も含めて検討)
    • 公開は長期保管
    • ILRS(測地分野)
      • Use of persistent Identifiers
      • IGSN
    • Cruise DOI
  • Belmont Forumプロジェクトのとりくみ
    • PARSEC(自然保護区が社会経済に及ぼす影響の多国融合研究を通じた新たなデータ共有・再利用手法の構築)
    • データを利用した発表時には特定の論文を参照する慣習があった
      • 引用と識別子が重要としそこから取り組んだ
      • 自分や分野にとってでいちばん役に立ちそうなもの箇所をみつけてそこからはじまる

パネルディスカッション

込山悠介先生「GakuNin RDM
  • 機関リポジトリ(JAIRO Cloud)で研究データが扱えるようになる
    • GakuNinRDMの公開基盤がJC
  • プロジェクト単位での管理
    • バージョン管理
    • ユーザ管理
    • ほかのサービスとのマウント
    • プロジェクトのサマリー
    • 学認と連携して共有
    • 研究証跡保存機能
    • データ公開基盤との連携(JC以外にも渡せるフォーマットでエクスポートできる)
    • アドオン
  • ロングラン実証実験
  • RDMコンサルティングサービス
青木先生
  • 研究データ保存
  • 京都大学における公正な研究活動の推進等に関する規程

‐部局・研究室レベルの取り組み

    • 工学研究科のルール(学内専用)
    • 掛谷先生の研究室の取り組み
  • 組織的な取り組み:研究データ保存サービス
    • 現在はプロトタイプ
  • ダークアーカイブECM)Enterprise Contents Management
    • 長期保存
    • 病院と医学での臨床研究データ保存(20190122~)
    • 倫理審査申請システムを経て保存(連携した)
    • 認知度がまだ低い
    • 運用側も利用側も不信
      • 何でもかんでも預かれる?本当に任せられるの?
  • 安定的な運用モデルの模索
    • 研究者の既存の手法に沿わないと合わせないといけない
    • アクセス方針(開示要求)
    • 死蔵されちゃう、バックアップでしかない
  • コンプラ
    • リスク管理
    • コストからベネフィットへ(金銭的心理的障壁を抑える)パフォーマンス向上、付加価値をつける
  • どんなデータがあるの?→アンケート調査
  • 大学のが学術コンテンツ戦略の根幹に?
山中節子氏「オープンサイエンス支援:京大図書館機構の取り組み状況」
  • 京都大学における経緯
    • OA方針(2015)
    • オープンアクセス特別委員会(研究データも対象)
  • これまでの実績としてSuppleとして図や動画したことはあるが文献中心
  • DOIを付与したいという照会があった
  • 桂図書館(仮)でのサイエンス支援
  • RCOSによるサービス

ディスカッション

原先生(東南アジア地域研究研究所)
  • データベースをつくっている
    • 各研究者が研究成果を公表したい
    • 貴重なデータをサルベージ
    • ディスクぼろくなるのでマイグレーションしてデータ化
  • いつまで?人と金の限界
    • データベースは意味を持つ
    • メタデータ必須(意味が分からなきゃ意味がない)
  • 10年後に検索できる??(キーワードが変わってしまう)

→梶田先生:FAIR原則にそったデータにするには?

村山先生
  • FAIRは言うは易く行うは難し
  • デジタルコンテンツとしていかに整備するのか-オントロジーサービス
  • データを収集した時の測定状況がわからんとそのデータは使えん
    • データジャーナル
慶応の倉田先生
  • センサーデータ、巨大データなどはデータ構造や測定方法は標準化しやすい
  • 医学や人文は標準化されていない
  • 社会科学ではサーベイ(社会調査)はICPSRで保管しデジタル化としてお金とるビジネス
    • 先月の九大で言われた「めちゃくちゃ使われるとオープンにするインセンティブが失われる」
  • 保管してたくさん集まれば価値がある
  • Googleのデータ検索に日本のデータが出てこん(クローリングの条件にあわない)
    • 標準化は研究者と機関でやるのだがいっぺんには無理
    • 研究データを生成するとこと整備する機関は別でいい
    • 政府のデータカタログの作りが現代の水準に追い付いていない
  • 経済学ではパネルデータが整備
    • 分野による
  • データの重要性は分かっているが全体を見渡せるマネジメントが欠如している
梶田先生
  • 言語の壁
  • 学術会議での議論は大切(学会を上レイヤーがいないから)
  • 学会が上位レイヤーでの議論を自主的にやってくれればいいのだけど
村上先生
  • 学術会議ではデジタル化基盤づくりからはじめる
  • みんなの足並みがそろわないと
  • 国際体制をつくれる人脈をもっているBelmont Forumプロジェクト。これを国内でできるのか
    • この点が不得手な日本人
三宅先生(京大)
  • 不得手なのはデジタルデータにしたときに立ちはだかる
  • タイピング(キーボード)と言語の16ビットが邪魔をする
    • 日本語オントロジーが整備
    • 類義語が多い日本語
    • 日本語だとデータクレンジングがしにくい(大丈夫かNC)

→梶田先生:IDでのコントロール、国際標準に沿ったID

家森先生
  • 欧米中心で動く世界
  • そういう場に非アルファベット圏外が出ていってアピールする必要がある

→梶田先生:RDMのひとたちは、RDM発展途上国にやさしいし、多様性は気にしてる

原先生
  • 言語の問題を解決するにはこういう場に人文の議論を引っ張ってくる
込山先生
  • インターオペラビリティの向上を目指しているが、あくまで輸入
  • 検索レイヤー
  • ナレッジグラフ、オープンデータが対象(IRに入っているもの)

→梶田先生:クローズなデータも含めて横断検索したいと思っている

村上先生
  • 基盤(コードやプロトコル)のところはNIIでやってもいい機運はあるの?
込山先生
  • データに関してはDOI
  • CiNiiリサーチのナレッジグラフでID付与
    • ドメインごとのIDを引き直しは考えていない
    • 一般的なPIDで規定
  • 研究データ利活用協議会?
村上先生
  • DOIの次はオントロジーや検索は?
    • 教室のIDとか
  • サービスに直結しない基盤づくりを初期の今だからこそやるの?
  • RDMの初期で何も決まっていない今だからこそ
    • 日本から発案する気はあるの?
    • ゲームメイキングはしないの?
  • 実利に結びつかない投資を
    • とうことを標準化する仕事が学協会において仕事として認められてほしい
    • (何かすでにある課題を解決するというよりかは)将来の困りごとを見据えてやる
    • 実利は予測もあり合理的な議論の下で合理的判断で先回る文化を学協会でつくる
松井先生
  • データはだれのものか?
    • 税金でつくったら国民のものという米国
    • 納税者への義務
    • 一方で日本では研究データは研究者のものという意識、所有の考え方
    • データは備品になる!?

→梶田先生:OSポリシーということも

村上先生
  • 学術会議ではOSポリシーはまで出ないと思う
松井先生
  • 今までは講座や研究室がしっかりしてたから残ってた(結果的に)
  • 残せない+ICT発達だから今、こういう議論している

→梶田先生:パラダイムが変わっている(少子化グローバル化、ICT)
→梶田先生:何を残すかどう残すか、なにをやるのかを議論

原先生
  • デジタルデータは増えている。激増
  • デジタルデータは0か1でぶっとぶので組織レベルなセキュアが必要

→梶田先生:それに加えて公開や保存に合意を得る

天野さん
  • 研究データマネジメントプランはファンダーが課すがそれに限らず大学が課してもいいかも
  • 今あるデータをどう残すか、とこれからのデータをどう残すかが戦略(DMP)
  • これからの戦略のためにDMPは超重要
    • 学術会議の議論を待たずにこれを大学レベルで考える時期にきている
    • 対ファンダーと学内用のDMPは二つあっても
村上先生
  • 自発的にデータを手放せるの?という疑問
  • ファンダーやジャーナルが言うからという外圧なら有効
    • ジャーナルが言うから→リポジトリに登録→登録時に公共物だということに合意させる→データが共有資産に(オープンサイエンス)
    • アカデミーと出版社が協力する仕掛け
  • (たとえば)オーストラリアではORCID必須
    • 学会の偉い人がトップダウンで動かした
    • コミュニティを引っ張る人がオープン化
    • 日本では状況が違うので説得には戦略が必要