klarer-himmel13's diary

(旧)図書館の中では走らないでください!から

日本図書館研究会 情報組織化研究グループ月例研究会1月例会

1/31@大阪市立浪速人権文化センター
…遅いですが、情報組織化研究グループ1月例会に行ってきました。

医学生物分野におけるテキストマイニング技術の展望

発表者:小池麻子氏(日立製作所中央研究所)

日立中央研究所の紹介

  1. テキストマイニングの必要性
  2. 連想検索
  3. 辞書構築と概念認識
  4. 情報抽出
  5. 仮説生成と知識発見

テキストマイニングについて初めて、まとまったお話を聞かせていただきました。
以下で詳細、感想や月例会で出た意見などを書いていきます。

1.テキストマイニングの必要性

文献などの情報の増加により、かつてのように「頭の中にすべての知識が入っている」ままではスピード、量の両面でおいつかなくなっている。特にヒトゲノムの場合は遺伝学そのものの変化もあり、個別のある遺伝子に特化するというよりもむしろ、遺伝子同士の関係が研究の対象となり、大量のデータや文献から解釈をしないとならないため、テキストマイニングの必要性が高かったそうだ。
また、医学生物系の検索サービス(PubMEDやHighWire Pressなど)が企業に対して制約が緩くなってきたため、より行いやすくなってきたらしい。遺伝子系の分野では発行から半年〜1年経過したものは無料でフル検索できるよう。

2.連想検索

連想検索とは「文書−単語連想と単語−文書連想の合成」として実現される。つまり、ある単語から文書を検索→そこからキーワードとなる単語が抽出→その単語が含まれる文書が検索…というように単語を媒介にして文書がどんどん、芋づる式で導かれるらしい。単語は出現頻度や意味類似などから抽出されるそう。医学生物分野は自然言語で書かれるので、埋もれた関係性を見つけ出す需要がほかの自然科学分野に比べて高いそうだ。

3.辞書構築と概念認識

2でも書いたが、医学生物分野において(特に遺伝系)用語の認識というのは困難を伴うらしい。

  • 同義語(シノニム)
  • 語彙的曖昧性(複数の遺伝子が同一の名称)
  • 一般名詞との区別
  • 些細なつづりのバリエーション

これらの問題に対応するために

  • シノニムの問題→辞書の構築
  • 語のバリエーション→バリエーション→の自動生成とトライ構造の工夫
  • あいまい性の問題→用語認識後のフィルタリングステップの充実

という工夫で処理している。
そこで遺伝子辞書について、辞書は主に固有名詞と機能についての辞書がある。
固有名詞は自動的に集めた後、それらを似たものを一つの「ファミリー」としてファミリー辞書にまとめていく。辞書の構成には人手をかけて、再現率よりも精度重視らしい。
機能用語(Gene Ontology)の辞書は関連語と類似用語を収集する。

4.情報抽出

この抽出は構文解析により、機能や相互作用を抽出する。遺伝子と機能を抽出するということは大変困難なそうだ。

5.仮説生成と知識発見

1 概念Aと概念Bが明示的につながりを持つ
2 概念Bと概念Cが明示的につながりを持つ
→概念Aと概念Cは明示的にではないがつながりを持つ
…という仮説をテキストマイニングを通して生成できる。
このような潜在的知識発見をSwansonがレイノー病と魚油の関係をみつけたことにはじまる。
ただし、あらゆるものを単純につないでいくと際限なく広がってしまい、解釈が困難になってしまう。
そこでそのために様々な対策が取られているらしい。以下で書き出し。(内容理解に至らず…)

  • 辞書とシソーラスの利用
  • 概念間の関係の定義
  • Open/Closed Discovery
  • 統計の手法
  • 特異値分解による概念間の関連度
  • 連鎖解析への応用

後半が箇条書きが多いのは気のせい…ではありません。