テクストデータ内に出現する語の頻度を、形態素解析によって計算、ランキング表示します。
単語だけではその語が「どのように」語られているかは明らかになりませんが、テクストデータ内の
トピック・話題
としてどのような語が頻出しているということを概観することができます。
テクストデータ内の単純な係り受け関係を、2次元マップ上にプロット。
テクストデータを
網羅的に俯瞰
し、この語に関してはこのような使われ方をしているらしいという、
大まかなあたりをつける
ことが可能です。
*単純な係り受け関係ではなく、さらにそれを拡張して、
名詞が
1〜複数個の
助詞、述語と共に構成する意味のまとまり
(その語がどういう意味で使われているかがわかる程度のまとまり)を「
基礎意味チャンク
」と呼称し、テクスト解析の単位の一つとして利用しています。
係り受け関係だけでは、「肌-ない」「肌-かける」など、それだけの情報では
妥当な解釈を行いにくい
抽出結果が多くあります。
基礎意味チャンクを解析単位として用いることで、「カバー力がある」「価格が安い」というような単純な2項の関係だけでなく、より
実際に人々が意味した内容に近い
、「〜が〜を〜する」といった、
複数個の助詞・述語による関係を抽出する
ことが出来ます。
抽出された基礎意味チャンクは、集計表示だけでなく、一覧表示という形でも出力することができます。集計表ではチャンクの構成要素のパターンマッチの結果が数として表示されますが、一覧表では
より詳細なチャンクの内容の確認
と、検索結果に対する
意味内容の分類
がおこなえます。
テクストデータ内の意味内容を深堀りしていくなかで、
ある語を含むチャンクがさらにどういう構成要素を持っているか
という分析を行います。下記の例は「欲しい(ほしい)」という要望表現を行っている人が、具体的にどういうことを「欲しい」と言っているかの分析の例です。