Microsoft ロジスティック回帰アルゴリズム

[アーティクル]
12/15/2008

Microsoft ロジスティック回帰アルゴリズムは、Microsoft ニューラルネットワークアルゴリズムのバリエーションです。このアルゴリズムでは、HIDDEN_NODE_RATIO パラメータが 0 に設定されます。この設定により、非表示の層を含んでいない、ロジスティック回帰に相当するニューラルネットワークモデルが作成されます。

予測可能列に状態が 2 つしか含まれていないが、予測可能列に特定の状態が含められる確率と入力列を関連付けて、回帰分析を実行する必要があるとします。次の図は、予測可能列の状態に 1 と 0 を割り当て、この列に特定の状態が含められる確率を計算し、入力変数に対する線形回帰を実行した場合に得られる結果を示しています。

線形回帰を使用して不十分にモデル化されたデータ

x 軸には入力列の値が表示されます。y 軸には、予測可能列が特定の状態またはもう一方の状態になる確率が表示されます。この場合の問題は、列の最大値と最小値が 0 と 1 であっても、線形回帰によって列が 0 と 1 の間に制限されないことです。この問題を解決するには、ロジスティック回帰を実行します。ロジスティック回帰分析では、直線を作成するのではなく、制約の最大値と最小値を含んでいる "S" 字型曲線が作成されます。たとえば、次の図は、前の例で使用したのと同じデータに対してロジスティック回帰を実行した場合に得られる結果を示しています。

ロジスティック回帰を使用してモデル化されたデータ

曲線が 0 ～ 1 の範囲を超えていないことに注目してください。ロジスティック回帰を使用して、予測可能列の状態の決定に重要な役割を果たす入力列を特定できます。

アルゴリズムの使用

Microsoft ニューラルネットワークビューアを使用して、線形回帰マイニングモデルを調べます。

ロジスティック回帰モデルには、キー列、1 つ以上の入力列、および 1 つ以上の予測可能列が必要です。

次の表のように、Microsoft ロジスティック回帰アルゴリズムでは、特定の入力列のコンテンツの種類、予測可能列のコンテンツの種類、およびモデリングフラグがサポートされています。

入力列のコンテンツの種類	Continuous、Cyclical、Discrete、Discretized、Key、Table、Ordered
予測可能列のコンテンツの種類	Continuous、Cyclical、Discrete、Discretized、Ordered
モデリングフラグ	MODEL_EXISTENCE_ONLY と NOT NULL

すべての Microsoft アルゴリズムでは、共通の関数セットがサポートされています。ただし、Microsoft ロジスティック回帰アルゴリズムでは、次の表のような追加の関数がサポートされています。

IsDescendant	PredictStdev
PredictAdjustedProbability	PredictSupport
PredictHistogram	PredictVariance
PredictProbability

すべての Microsoft アルゴリズムに共通の関数の一覧については、「データマイニングアルゴリズム」を参照してください。これらの関数の使用方法については、「データマイニング拡張機能 (DMX) 関数リファレンス」を参照してください。

Microsoft ロジスティック回帰アルゴリズムを使用したモデルでは、マイニングモデルのノードの構造がその基になるデータと必ずしも直接対応しているわけではないので、ドリルスルーやデータマイニングディメンションがサポートされていません。

Microsoft ロジスティック回帰アルゴリズムでは、結果として得られるマイニングモデルのパフォーマンスおよび精度に影響を与えるいくつかのパラメータがサポートされています。次の表では、各パラメータについて説明します。

パラメータ	説明
HOLDOUT_PERCENTAGE	提示されたエラーの計算に使用するトレーニングデータ内のケースの割合を指定します。HOLDOUT_PERCENTAGE は、マイニングモデルのトレーニング中に停止条件の一部として使用されます。既定値は 30 です。
HOLDOUT_SEED	提示されたデータをランダムに調べるときに使用する擬似乱数ジェネレータのシード値を指定します。HOLDOUT_SEED を 0 に設定すると、アルゴリズムによってマイニングモデルの名前に基づいたシードが生成され、再処理中にモデルのコンテンツが変更されることはありません。既定値は 0 です。
MAXIMUM_INPUT_ATTRIBUTES	選択した機能を呼び出す前にアルゴリズムが処理できる入力属性の数を定義します。この値を 0 に設定すると、機能の選択がオフになります。既定値は 255 です。
MAXIMUM_OUTPUT_ATTRIBUTES	選択した機能を呼び出す前にアルゴリズムが処理できる出力属性の数を定義します。この値を 0 に設定すると、機能の選択がオフになります。既定値は 255 です。
MAXIMUM_STATES	アルゴリズムによってサポートされる属性状態の最大数を指定します。属性の状態の数が状態の最大数よりも大きい場合、アルゴリズムでは属性の最も一般的な状態が使用され、残りの状態は無視されます。既定値は 100 です。
SAMPLE_SIZE	モデルのトレーニングに使用するケースの数を指定します。アルゴリズムプロバイダでは、この数と、HOLDOUT_PERCENTAGE パラメータで指定された割合に含まれないケースの総数の割合のうち、いずれか小さい方が使用されます。たとえば、HOLDOUT_PERCENTAGE が 30 に設定されている場合、アルゴリズムでは、このパラメータの値と、ケースの総数の 70% に相当する値のうち、いずれか小さい方が使用されます。既定値は 10000 です。

参照

Share via

Microsoft ロジスティック回帰アルゴリズム

アルゴリズムの使用

参照

概念

その他の技術情報

ヘルプおよび情報

その他のリソース