下が古い.上が新しい.間は他所

2009-10-18

テキストマイニングというか,文書クラスタリング.ひとつの文書に出現する単語 (形態素) の組成をベクトルで表現して,各単語の出現頻度や共起性なんかに基づいて,複数の文書をクラスタリングするというアレ.この場合,文章が何を意味するかとか,単語がそれぞれの文章の中でどのようなロールを果たしているかなんてのはどうでもよくて,単純に出現するかとうかということが問題とされる.これはちょうど,各生物体が生態系の中でどのようなロールであるかの情報が欠損し,単純に居たか居ないかが問題になる群集組成を扱う事態に対比できる (もっとも,化石群集では出現したか否かに関するデータ自体に欠損がある).問題は扱う文書ないし化石群集の時系列性.つまり,同時間面の異なる地域の群集を扱っているのか,同地点の異なる時間面の群集を扱っているのかということ.文書の場合には,引用の構造なんかを使った場合のグラフクラスタリングとの比較ができるので,その辺の効果の見積もりができると面白いなぁ,とかなんとかいう妄想.