テクスト意味空間分析詳細
テクスト意味空間分析とは
テクスト意味空間分析詳細
テクスト意味空間分析詳細
コーディング手順1 テクストデータ内の出現語頻度で当たりをつける
テクストデータ内に出現する語の頻度を、形態素解析によって計算、ランキング表示します。
単語だけではその語が「どのように」語られているかは明らかになりませんが、テクストデータ内のトピック・話題としてどのような語が頻出しているということを概観することができます。
コーディング手順2 テクストデータ内の係り受け頻度度で当たりをつける
テクストデータ内の単純な係り受け関係を、2次元マップ上にプロット。
テクストデータを網羅的に俯瞰し、この語に関してはこのような使われ方をしているらしいという、大まかなあたりをつけることが可能です。
コーディング手順3-1 基礎意味チャンク*表で、指定した語が構成する意味内容を抽出・集計する
*単純な係り受け関係ではなく、さらにそれを拡張して、名詞が1〜複数個の助詞、述語と共に構成する意味のまとまり(その語がどういう意味で使われているかがわかる程度のまとまり)を「基礎意味チャンク」と呼称し、テクスト解析の単位の一つとして利用しています。
コーディング手順3-2 より人々が実際に意味した内容に近い単位を抽出する
係り受け関係だけでは、「肌-ない」「肌-かける」など、それだけの情報では妥当な解釈を行いにくい抽出結果が多くあります。
基礎意味チャンクを解析単位として用いることで、「カバー力がある」「価格が安い」というような単純な2項の関係だけでなく、より実際に人々が意味した内容に近い、「〜が〜を〜する」といった、複数個の助詞・述語による関係を抽出することが出来ます。
コーディング手順4-1 意味内容の分類
抽出された基礎意味チャンクは、集計表示だけでなく、一覧表示という形でも出力することができます。集計表ではチャンクの構成要素のパターンマッチの結果が数として表示されますが、一覧表ではより詳細なチャンクの内容の確認と、検索結果に対する意味内容の分類がおこなえます。
コーディング手順4-2 意味内容の集約
テクストデータ内の意味内容を深堀りしていくなかで、ある語を含むチャンクがさらにどういう構成要素を持っているかという分析を行います。下記の例は「欲しい(ほしい)」という要望表現を行っている人が、具体的にどういうことを「欲しい」と言っているかの分析の例です。

Page top
English 採用情報 サイトマップ お問い合わせ 会社概要 個人情報保護方針 セキュリティについて