Cited References Explorer(CRExplorer)を触ってみた
Web of Scienceからダウンロードしたデータを分析するソフトウェアCRExplorer公開 | カレントアウェアネス・ポータル
昨年のことになるが、Web of Scienceの分析・可視化ツールが公開された。Web of Scienceのデータ自体は自分で取得しなくてはいけないが、細かな技術知識無しに始められる手軽さがある。
まず、Cited References Explorerのサイトに行き
CRExplorer - Cited References Explorer
1もしくは2の方法で、Cited References Explorerを立ち上げる。
Web of Scienceから取得するデータを抽出する
今回は仮に、ということで2種類のデータをダウンロードした。
1.NEJMのLETTER
検索項目: 出版物名: (new england journal of medicine)
絞り込み: ドキュメントタイプ: ( LETTER )
タイムスパン: 2015-2015.
合計709件(2016.4.3)
2.NEJMのREVIEW
検索項目: 出版物名: (new england journal of medicine)
絞り込み: ドキュメントタイプ: ( REVIEW )
タイムスパン: 2015-2015.
合計299件(2016.4.3)
マークリストに追加した後にダウンロードした。
WoSの検索結果画面表示が最大50件なので、1000件を越えるとしんどいなぁという感じがする。
また、一度にダウンロードできる件数が最大500件なので、何回かに分けなくてはならない。やはり、一度にダウンロードするのは1000件未満が良いのか。(CRExplorer自体はデフォルトの最大インポートは10万件なので、他によい方法があるのかもしれない…)
ファイル形式は「他のファイルフォーマットで保存」>「テキスト」
出力項目は全項目。
Cited References Explorerにデータを読みこませる
709件が引用した1985件がグラフ化する。
被引用文献に出版年フィルターをかけたり、項目ごとにソートをかけることができる。
任意のデータや、出版年を取り除くことも可能。
左側のグラフは画像保存、右側のデータもcsvで保存可能。
LETTER(1991年以降)
REVIEW(1991年以降)
単純にグラフを生成するだけでも、REVIEWの方が幅広い年を引用している(だからこそのREVIEWなのだけど)ことが見て取れる。
また、709件で1985件の引用論文に対して、REVIEWは299件で2886件の引用論文と、1論文あたりの引用文献数もREVIEWの方が多い。
その他、Merge Cited References of the Same ClusterやCluster equivalent Cited Referencesによって、データ内の同一データを発見したり、マージすることができる。同一データの判定はレーベンシュタイン距離による、らしい。
CRExplorerに読み込むとClusterIDというものが付与される。これを使うことで表記のゆれを集約できる(赤い四角)…のか?
このClusterIDは、Standardization>Cluster equivalent Cited Referencesを使うことで、レーベンシュタイン距離(上記の青い丸)、Volume、Page、DOIごとに変更することもできる。
また、任意の複数文献を選択して、Same・Different・Extractを指示し、ClusterIDを変更・修正することもできる。Differentを指示すると異なるsub-ClusterIDが割り当てられる。Extractを支持すると同一だったsub-ClusterIDから切り離される。Sameは同じsub-ClusterIDが割り当てられる。
例えばID=111を選択し(ClusterID=109/109であり、同一ClusterIDは3件)、Extractをクリックすると
sub-ClusterIDが、109→111に変わり、ClusterID=109/111となる。
自分が触ってみて理解できたところまでしか書けていないが、もう少しできるようになると面白いかもしれない。