klarer-himmel13's diary

(旧)図書館の中では走らないでください!から

Cited References Explorer(CRExplorer)を触ってみた

Web of Scienceからダウンロードしたデータを分析するソフトウェアCRExplorer公開 | カレントアウェアネス・ポータル

昨年のことになるが、Web of Scienceの分析・可視化ツールが公開された。Web of Scienceのデータ自体は自分で取得しなくてはいけないが、細かな技術知識無しに始められる手軽さがある。

まず、Cited References Explorerのサイトに行き

CRExplorer - Cited References Explorer

1もしくは2の方法で、Cited References Explorerを立ち上げる。

使い方はこちらを見ながら
[1601.01199] Introducing CitedReferencesExplorer (CRExplorer): A program for Reference Publication Year Spectroscopy with Cited References Standardization

Web of Scienceから取得するデータを抽出する

今回は仮に、ということで2種類のデータをダウンロードした。

1.NEJMのLETTER

検索項目: 出版物名: (new england journal of medicine)
絞り込み: ドキュメントタイプ: ( LETTER )
タイムスパン: 2015-2015.
合計709件(2016.4.3)

2.NEJMのREVIEW

検索項目: 出版物名: (new england journal of medicine)
絞り込み: ドキュメントタイプ: ( REVIEW )
タイムスパン: 2015-2015.
合計299件(2016.4.3)

マークリストに追加した後にダウンロードした。
WoSの検索結果画面表示が最大50件なので、1000件を越えるとしんどいなぁという感じがする。

f:id:klarer-himmel13:20160403001654j:plain

また、一度にダウンロードできる件数が最大500件なので、何回かに分けなくてはならない。やはり、一度にダウンロードするのは1000件未満が良いのか。(CRExplorer自体はデフォルトの最大インポートは10万件なので、他によい方法があるのかもしれない…)

ファイル形式は「他のファイルフォーマットで保存」>「テキスト」
出力項目は全項目。

f:id:klarer-himmel13:20160403003057j:plain

Cited References Explorerにデータを読みこませる

709件が引用した1985件がグラフ化する。
f:id:klarer-himmel13:20160403004554p:plain


被引用文献に出版年フィルターをかけたり、項目ごとにソートをかけることができる。
f:id:klarer-himmel13:20160403004926p:plain

任意のデータや、出版年を取り除くことも可能。
f:id:klarer-himmel13:20160403005423p:plain

左側のグラフは画像保存、右側のデータもcsvで保存可能。

LETTER(1991年以降)

f:id:klarer-himmel13:20160403173409p:plain

REVIEW(1991年以降)

f:id:klarer-himmel13:20160403173522p:plain

単純にグラフを生成するだけでも、REVIEWの方が幅広い年を引用している(だからこそのREVIEWなのだけど)ことが見て取れる。
また、709件で1985件の引用論文に対して、REVIEWは299件で2886件の引用論文と、1論文あたりの引用文献数もREVIEWの方が多い。

その他、Merge Cited References of the Same ClusterやCluster equivalent Cited Referencesによって、データ内の同一データを発見したり、マージすることができる。同一データの判定はレーベンシュタイン距離による、らしい。

CRExplorerに読み込むとClusterIDというものが付与される。これを使うことで表記のゆれを集約できる(赤い四角)…のか?
f:id:klarer-himmel13:20160403211347p:plain

このClusterIDは、Standardization>Cluster equivalent Cited Referencesを使うことで、レーベンシュタイン距離(上記の青い丸)、Volume、Page、DOIごとに変更することもできる。

また、任意の複数文献を選択して、Same・Different・Extractを指示し、ClusterIDを変更・修正することもできる。Differentを指示すると異なるsub-ClusterIDが割り当てられる。Extractを支持すると同一だったsub-ClusterIDから切り離される。Sameは同じsub-ClusterIDが割り当てられる。
例えばID=111を選択し(ClusterID=109/109であり、同一ClusterIDは3件)、Extractをクリックすると
f:id:klarer-himmel13:20160403212849p:plain

sub-ClusterIDが、109→111に変わり、ClusterID=109/111となる。
f:id:klarer-himmel13:20160403213041p:plain

自分が触ってみて理解できたところまでしか書けていないが、もう少しできるようになると面白いかもしれない。