データ・セットの分析と要約に使用される探索的データ分析という手法について、理解する上で必要な内容をすべてご紹介します。
探索的データ分析(EDA)は、データ・サイエンティストがデータ・セットを分析および調査して、主な特性を要約するために使用する手法で、データ可視化の手法が活用されることが多くあります。 それは、データ・サイエンティストがパターンを見つけ出すことや、異常に気付き、仮説を検証し、仮定を確認することを容易にするため、データ・ソースをどのように操作すれば必要な答えが得られるかについて、判断を行う際に役立ちます。
EDAは主に、形式モデリングまたは仮説検定のタスクにとどまらず、データから何を読み取れるかを見出すのに用いられ、データ・セットの変数および変数間の関連をよりよく理解することに役立ちます。 また、データ分析のために検討している統計技法が適切かどうかを判断することにも役立ちます。 1970年代にアメリカの数学者であるJohn Tukey氏によって開発されたEDA技法は、今日のデータ発見プロセスにおいて広く使われ続けている手法です。
EDAの主な目的は、 前提条件を作成する前のデータ考察を支援することです。 これは、明らかなエラーを識別し、データ内のパターンをよりよく理解し、外れ値または異常イベントを検出し、変数間の興味深い関連を検索するのに役立ちます。
データ・サイエンティストは探索的分析を使用して、導き出した結果が有効であり、望ましいビジネス成果と目標に適用できることを確認することができます。 EDAはまた、ステークホルダーが的確な質問をしていることを確認することで、彼らを支援します。 EDAは標準偏差、カテゴリー変数、および信頼区間に関する質問への回答に役立ちます。 EDAが完了し、洞察が得られると、その特徴を元に
機械学習
を含む、より洗練されたデータ分析またはモデリングに使用することができます。
多くの変数を含む高次元データのグラフィカル表示の作成に役立つ、クラスタリングおよび次元削減の技法。
生データ・セット内の各フィールドの単変量データの可視化と、要約統計量。
データ・セット内の各変数と考察中のターゲット変数間の相関関係の評価を可能にする、二変量データの可視化と要約統計量。
データ内の異なるフィールド間の相互作用をマッピングし、理解するための、多変量データの可視化。
教師なし学習
におけるクラスタリング手法である、K平均法。ここでは各グループのセントロイドからの距離に基づいて、データ・ポイントがK(クラスターの数)個のグループに割り当てられます。 特定のセントロイドに最も近いデータ・ポイントは、同じカテゴリー下でクラスター化されます。 K平均法は、マーケット・セグメンテーション、パターン認識、画像圧縮で一般的に使用されます。
統計とデータを使用して結果を予測する、線形回帰などの予測モデル。
EDAには4つの基本タイプがあります。
単変量非グラフィカル:
これは最も単純な形式のデータ分析で、分析されるデータは1つの変数だけで構成されます。 これは単一の変数のため、原因や関連性は扱いません。 単変量解析の主な目的は、データを記述し、その中に存在するパターンを検出することです。
単変量グラフィカル:
非グラフィカル手法ではデータの全体像がつかめません。 そのため、グラフィカル手法が必要となります。 単変量グラフィックスの一般的なタイプは次のとおりです。
-
幹葉図-これはすべてのデータ値と分布の形状を表示します。
-
ヒストグラム-これは各棒がある範囲のデータ値の頻度(カウント)または割合(カウント/合計カウント)を表す棒グラフです。
-
箱ひげ図-これは最小値、第一四分位数、中央値、第三四分位数、最大値の5つの数値の要約をグラフィカルに表現するものです。
-
多変量非グラフィカル:
多変量データは1つ以上の変数から発生します。 多変量の非グラフィカルなEDA技法は一般的に、クロス集計または統計を介して、データの2つまたはそれ以上の変数間の相関関係を示します。
-
多変量グラフィカル:
多変量データはグラフィックスを使用して、2セット以上のデータ間の相関関係を表示します。 最も使用されているグラフィックは、グループ化された棒グラフ、または各グループが数ある変数のうち1つのレベルを表し、グループ内の各棒が他の変数のレベルを表す棒グラフです。
多変量グラフィックスのその他の一般的なタイプは次のとおりです。
-
分布図-これは水平軸と垂直軸にデータ・ポイントをプロットして、1つの変数が別の変数の影響をどの程度受けるかを示すのに使用されます。
-
多変量グラフ-これは、因子と応答との相関関係をグラフィカルに表現したものです。
-
ランチャート-これは時間の経過と共にプロットされたデータの折れ線グラフです。
-
バブル・チャート-これは2次元プロットで複数の円(バブル)を表示する、データ可視化チャートです。
-
ヒート・マップ-これはデータ値がカラーで表現される、データのグラフィカル表現です。
EDAの作成に使用される代表的なデータ・サイエンス・ツールには、以下のようなものがあります。
-
Python:
これは動的意味論を採用した、インタプリタ型でオブジェクト指向のプログラミング言語です。 高レベルの組み込みデータ構造に、動的型付けおよび動的バインディングを組み合わせることで、迅速なアプリケーション開発だけでなく、既存のコンポーネントを一緒に接続するためのスクリプト言語またはグルー言語としての利用にとって、非常に魅力的なツールです。 PythonとEDAを一緒に使用して、データ・セット内の欠損値を識別することができます。この重要なプロセスにより、機械学習の欠損値の処理方法を決定することができます。
-
R言語:
これはThe R Foundation for Statistical Computingがサポートする、統計コンピューティングおよびグラフィックスのための、オープンソースのプログラミング言語およびフリーソフトウェア環境です。 このR言語は、統計的観測やデータ分析の開発において、データ科学の統計学者の間で広く使用されています。
これらのアプローチの違いについて深く掘り下げるには、「
Python vs. R: What's the Difference?(PythonとR:違いは何か)
」
をご参照ください。