データマイニングとは?基本的な7つの分析手法をご紹介

 データマイニング

 

データマイニングとは、事前にわからないが潜在的に有用な、不完全でノイズが多く、ファジーでランダムな大量のデータから隠された情報を抽出するプロセスです。

情報ストレージ形式によると、マイニングに使用されるオブジェクトは、リレーショナルデータベース、オブジェクト指向データベース、データウェアハウス、テキストデータソース、マルチメディアデータベース、空間データベース、一時データベース、異種データベース、およびインターネットです。

 

一、データマイニングプロセス

ビジネス上の問題を明確に定義し、データマイニングの目的を決定します。

データ準備:データ準備には、大規模データベースおよびデータウェアハウスターゲットでのデータマイニング用のデータ抽出ターゲットデータセットの選択、データの完全性と一貫性のチェック、ノイズ除去、不足しているフィールドを埋める、無効なデータを削除するなど。

データマイニング:データ関数のタイプとデータの特性に応じて、対応するアルゴリズムが選択され、精製および変換されたデータセットに対してデータマイニングが実行されます。

結果分析:データマイニングの結果を解釈および評価し、ユーザーが最終的に理解できる知識に変換します。

 

二、データマイニングの分類

直接データマイニング:目的は、利用可能なデータを使用してモデルを構築することです。このモデルは、残りのデータを記述し、特定の変数(データベースのテーブル、つまり列の属性として理解できる)を記述します。

間接的なデータマイニング:特定の変数はターゲットで選択され、モデルによって記述されるのではなく、すべての変数間に特定の関係が確立されます。

 

三、データマイニング手法

1.ニューラルネットワーク法

ニューラルネットワークは、その優れた堅牢性、自己組織化適応性、並列処理、分散ストレージ、高い耐障害性のために、近年ますます注目を集めています。

 

2.遺伝的アルゴリズム

遺伝的アルゴリズムは、生物学的自然選択と遺伝的メカニズムに基づくランダム検索アルゴリズムであり、バイオニックグローバル最適化手法です。遺伝的アルゴリズムには、暗黙的な並列処理の特性があり、他のモデルとの組み合わせが容易であるため、データマイニングに適用できます。

 

3.決定木法

デシジョンツリーは、予測モデルで一般的に使用されるアルゴリズムであり、大量のデータを分類し、そこから価値のある潜在的な情報を見つけることを目的としています。その主な利点は、簡単な記述と高速分類であり、特に大規模なデータ処理に適しています。

 

4.ラフ集合法

ラフ集合理論は、不正確で不確実な知識を研究するための数学的ツールです。ラフセットメソッドにはいくつかの利点があります。追加情報を提供する必要がなく、入力情報の表現スペースが単純化される、アルゴリズムがシンプルで操作が簡単です。ラフセット処理の対象は、2次元のリレーションテーブルに似た情報テーブルです。

 

5.正および負のメソッドをオーバーライドする

すべての肯定的な例を網羅し、すべての否定的な例を除外して、ルールを見つけるという考え方を使用しています。最初に、正のサンプルセットで任意のシードを選択し、負のサンプルセットで1つずつ比較します。フィールド値と互換性のあるセレクターは破棄されます。それ以外の場合は保持されます。この考えによれば、すべての肯定的な例は回覧され、肯定的な例の規則(セレクターの組み合わせ)が得られます。

 

6.統計分析法

データベースのフィールドアイテム間には、機能的な関係と関連する関係の2種類の関係があり、統計分析を使用してそれらを分析できます、つまり、データベースの情報は統計原則を使用して分析されます。一般的な統計、回帰分析、相関分析、差分分析などを実行できます。

 

7.ファジィ集合法

すなわち、ファジー判定、ファジー意思決定、ファジーパターン認識、およびファジークラスタリング分析は、ファジー集合理論を使用した実用的な問題に使用されます。システムの複雑さが高ければ高いほど、あいまいさがより強くなります一般的なファジーセット理論では、あいまいさのあいまいさを記述するためにメンバーシップを使用します。

 

関連記事:

2020年データマイニングに関する面白い記事10選

データサイエンスにオススメの本80冊!

ビッグデータ分析用オンライン講座10選