Microsoft 線形回帰アルゴリズム

[アーティクル]
12/15/2008

Microsoft 線形回帰アルゴリズムは、Microsoft デシジョンツリーアルゴリズムを変形したものです。このアルゴリズムでは、MINIMUM_LEAF_CASES パラメータが、マイニングモデルのトレーニング時にアルゴリズムで使用される、データセットのケースの総数以上に設定されます。このようにパラメータを設定することにより、アルゴリズムで分割が作成されず、線形回帰が実行されます。

線形回帰を使用して、2 つの連続した列の関係を調べることができます。この関係は、一連のデータを最もよく表す直線の式の形になります。たとえば、次の図の直線は、データの最適な線形表現です。

データセットをモデル化した直線

図の直線を表す式は、回帰式と呼ばれる y = ax + b という一般的な形式になります。変数 Y は出力変数を表し、変数 X は入力変数を表します。a と b は調整可能な係数です。図の各データポイントには、回帰直線からの距離に関する誤差があります。回帰式の係数 a および b により、回帰直線の角度と位置が調整されます。データポイントに関する誤差の合計が最も小さな数になるまで、a および b を調整して、回帰式を取得できます。

アルゴリズムの使用

Microsoft ツリービューアを使用して、線形回帰マイニングモデルを調べます。

線形回帰モデルには、キー列、入力列、および少なくとも 1 つの予測可能列が必要です。

次の表のように、Microsoft 線形回帰アルゴリズムでは、特定の入力列のコンテンツの種類、予測可能列のコンテンツの種類、およびモデリングフラグがサポートされています。

入力列のコンテンツの種類	Continuous、Cyclical、Key、Table、Ordered
予測可能列のコンテンツの種類	Continuous、Cyclical、Ordered
モデリングフラグ	NOT NULL、REGRESSOR

すべての Microsoft アルゴリズムでは、共通の関数セットがサポートされています。ただし、Microsoft 線形回帰アルゴリズムでは、次の表のような追加の関数がサポートされています。

IsDescendant	PredictStdev
IsInNode	PredictSupport
PredictHistogram	PredictVariance
PredictNodeId

すべての Microsoft アルゴリズムに共通の関数の一覧については、「データマイニングアルゴリズム」を参照してください。これらの関数の使用方法については、「データマイニング拡張機能 (DMX) 関数リファレンス」を参照してください。

Microsoft 線形回帰アルゴリズムでは、結果として得られるマイニングモデルのパフォーマンスおよび精度に影響を与えるいくつかのパラメータがサポートされています。次の表では、各パラメータについて説明します。

パラメータ	説明
MAXIMUM_INPUT_ATTRIBUTES	選択した機能を呼び出す前にアルゴリズムが処理できる入力属性の数を定義します。この値を 0 に設定すると、機能の選択がオフになります。既定値は 255 です。
MAXIMUM_OUTPUT_ATTRIBUTES	選択した機能を呼び出す前にアルゴリズムが処理できる出力属性の数を定義します。この値を 0 に設定すると、機能の選択がオフになります。既定値は 255 です。
FORCED_REGRESSOR	アルゴリズムによって計算された列の重要性にかかわらず、指定した列をアルゴリズムでリグレッサとして使用するように設定します。

MAXIMUM_INPUT_ATTRIBUTES

選択した機能を呼び出す前にアルゴリズムが処理できる入力属性の数を定義します。この値を 0 に設定すると、機能の選択がオフになります。

既定値は 255 です。

MAXIMUM_OUTPUT_ATTRIBUTES

選択した機能を呼び出す前にアルゴリズムが処理できる出力属性の数を定義します。この値を 0 に設定すると、機能の選択がオフになります。

既定値は 255 です。

FORCED_REGRESSOR

アルゴリズムによって計算された列の重要性にかかわらず、指定した列をアルゴリズムでリグレッサとして使用するように設定します。

参照

Share via

Microsoft 線形回帰アルゴリズム

アルゴリズムの使用

参照

概念

その他の技術情報

ヘルプおよび情報

その他のリソース