適用対象:
SQL Server 2019 以前の Analysis Services
Azure Analysis Services
Fabric/Power BI Premium
重要
データ マイニングは SQL Server 2017 Analysis Services で非推奨となり、SQL Server 2022 Analysis Services で停止されました。 非推奨および停止された機能については、ドキュメントの更新は行われません。 詳細については、「Analysis Services 下位互換性」を参照してください。
データ マイニング (機械学習) の アルゴリズム は、データからモデルを作成するヒューリスティクスと計算のセットです。 モデルを作成するために、データ マイニング アルゴリズムは、まず提供されたデータを分析し、特定の種類のパターンまたは傾向を探します。 この分析を繰り返し実行した結果を使用して、マイニング モデルを作成するための最適化されたパラメーターが定義されます。 これらのパラメーターはデータセット全体に適用され、実用的なパターンおよび詳細な統計情報が抽出されます。
アルゴリズムによってデータから作成されるマイニング モデルは、次のようにさまざまな形式を取ります。
データセット内のケースの関係を説明するクラスターのセット
結果を予測し、基準を変更するとその結果がどのように影響を受けるのかを示すデシジョン ツリー
売上を予想する数学的モデル
複数の製品を 1 つのトランザクションにグループ化する方法、およびそれらの製品がまとめて購入される確率を示すルールのセット
SQL Server データ マイニングで提供されるアルゴリズムは、データからパターンを派生する最も一般的で、よく研究された方法です。 一例を挙げるには、K-means クラスタリングは最も古いクラスタリング アルゴリズムの 1 つであり、さまざまなツールやさまざまな実装とオプションで広く使用できます。 ただし、SQL Server データ マイニングで使用される K-Means クラスタリングの特定の実装は、Microsoft Research によって開発され、SQL Server Analysis Servicesによるパフォーマンスのために最適化されました。 Microsoft データ マイニング アルゴリズムはすべて、提供された API を使用して広範にカスタマイズしたり、十分にプログラムすることができます。 Integration Services のデータ マイニング コンポーネントを使用して、モデルの作成、トレーニング、再トレーニングを自動化することもできます。
また、OLE DB for Data Mining 仕様に準拠するサードパーティ製アルゴリズムを使用することも、またはサービスとして登録してから SQL Server データ マイニング フレームワーク内で使用できるカスタム アルゴリズムを開発することもできます。
特定の分析タスクに使用する最適なアルゴリズムを選択するのが困難な場合があります。 異なるアルゴリズムを使用して同じビジネス タスクを実行できる一方、各アルゴリズムによって異なる結果が生成されたり、一部のアルゴリズムでは複数の種類の結果が生成されたりする場合があります。 たとえば、Microsoft デシジョン ツリー アルゴリズムは、予測だけでなく、データセット内の列の数を減らす方法としても使用できます。これは、デシジョン ツリーが、最終的なマイニング モデルに影響を与えない列を識別できるためです。
SQL Server データ マイニングには、次のアルゴリズムの種類が含まれます。
分類アルゴリズム 。データセット内の他の属性に基づいて、1 つまたは複数の離散変数を予測します。
回帰アルゴリズム 。データセット内の他の属性に基づいて、利益や損失などの 1 つまたは複数の連続数値変数を予測します。
分割アルゴリズム 。データを、類似したプロパティを持つアイテムのグループまたはクラスターに分割します。
アソシエーション アルゴリズム 。データセット内の異なる属性間の相関関係を検出します。 この種類のアルゴリズムの最も一般的な使用例は、マーケット バスケット分析で使用するアソシエーション ルールの作成です。
シーケンス分析アルゴリズム 。Web サイトの一連のクリック、マシン保守に先行するログ イベントなど、データ内の頻度の高いシーケンスまたはエピソードを要約します。
ただし、ソリューションが複数ある中で、1 つのアルゴリズムに限定される必要はありません。 経験豊富なアナリストであれば、ある 1 つのアルゴリズムを使用して最も効果的な入力 (つまり変数) を判断し、次に別のアルゴリズムを適用してそのデータに基づいて特定の結果を予測するものです。 SQL Server データ マイニングを使用すると、1 つのマイニング構造で複数のモデルを構築できるため、1 つのデータ マイニング ソリューション内でクラスタリング アルゴリズム、デシジョン ツリー モデル、Naïve Bayes モデルを使用して、データに対して異なるビューを取得できます。 また、1 つのソリューション内で複数のアルゴリズムを使用して、個別のタスクを実行することもできます。たとえば、回帰を使用して財務予測を取得したり、ニューラル ネットワーク アルゴリズムを使用して予測に影響を及ぼす因子を分析したりできます。
特定のタスクで使用するアルゴリズムの選択の参考として、各アルゴリズムが長年使用されてきたタスクを次の表に示します。
次のセクションでは、SQL Server データ マイニングで提供される各データ マイニング アルゴリズムの学習リソースへのリンクを示します。
基本的なアルゴリズムの説明: アルゴリズムの機能とそのしくみについて説明し、アルゴリズムが役立つ可能性のあるビジネス シナリオの概要を示します。
テクニカル リファレンス: アルゴリズムの実装に関する技術的な詳細と、必要に応じて学術的な参照を提供します。 アルゴリズムの動作を制御したり、モデルの結果をカスタマイズしたりするために設定できるパラメーターを列挙します。 データ要件について説明し、可能であればパフォーマンスのヒントを提供します。
モデル コンテンツ: 各種類のデータ マイニング モデル内で情報がどのように構造化されるかについて説明し、各ノードに格納されている情報を解釈する方法について説明します。
データ マイニング クエリ: モデルの種類ごとに使用できる複数のクエリを提供します。 たとえば、モデル内のパターンをさらに理解できるようにするコンテンツ クエリや、それらのパターンに基づいて予測できるよう支援する予測クエリなどがあります。
データ マイニング ツール