「Webマイニング」とは
「Webマイニング」とは、ウェブ上にあるデータやコンテンツ、テキスト情報を収集し、目的に沿った有用な情報を抽出する処理のことで、鉱山から鉱石を掘り起こす「マイニング」に準えて作られた語です。
膨大な情報源からデータのマイニングを行うことを「データマイニング」と呼びます。データマイニングで得られる情報は、大きく以下の4つに分類されます。
-
- データ(Data):整理されていない数値
- 情報(Information):「データ」を整理・カテゴライズしたもの
- 知識(Knowledge):「情報」から得られる傾向・知見
- 知恵(Wisdom):「知識」を利用して人が判断する力
これは「DIKWモデル」と呼ばれる分類法で、1980年代に検討された思考モデルであり、Data(生データ)、Information(情報)、Knowledge(知識)、Wisdom(知恵)の頭文字から命名されています。
データマイニングをWeb上で行うことから「Webマイニング」と呼ばれています。具体的な内容については「データマイニングとは?基本の考え方から分析手法、仕組みを解説!」という「ITトレンド」さんの記事が分かりやすいです。
「Webマイニング」を利用した研究の大雑把な流れは、①膨大なソースから大量のデータを収集する(マイニング)、②プログラム等による解析に利用できる形に収集したデータを整形する(クレンジング)、③数理的・統計的な手法を用いて有用な結果を引き出す(アナライズ)、という手順で進められます。
社会学におけるWebマイニングの参考資料
「計算社会科学におけるWebマイニング」
(人工知能学会全国大会2018チュートリアル講演資料)
Fujio Toriumi 氏