Algorithme MLR (Microsoft Linear Regression)

L'algorithme MLR (Microsoft Linear Regression) est une variante de l'algorithme MDT (Microsoft Decision Trees), où le paramètre MINIMUM_LEAF_CASES est défini de façon à être supérieur ou égal au nombre total de cas du jeu de données que l'algorithme utilise pour l'apprentissage du modèle d'exploration de données. Si le paramètre est défini de cette manière, l'algorithme ne crée jamais de division et effectue par conséquent une régression linéaire.

Vous pouvez utiliser la régression linéaire pour déterminer une relation entre deux colonnes continues. La relation se présente sous la forme d'une équation correspondant à la droite représentant le mieux une série de données. Par exemple, la droite dans le diagramme suivant est la meilleure représentation linéaire possible des données.

Ligne qui modélise un ensemble de données

L'équation qui correspond à la droite du diagramme est de type y = ax + b et s'appelle l'équation de régression. La variable Y représente la variable de sortie, X représente la variable d'entrée, et a et b sont des coefficients ajustables. Pour chaque point de données du diagramme, une erreur est associée à la distance entre le point et la droite de régression. Les coefficients a et b de l'équation de régression ajustent l'angle et l'emplacement de la droite de régression. Vous pouvez obtenir l'équation de régression en ajustant a et b jusqu'à ce que la somme des erreurs associées aux points atteigne le plus petit nombre possible.

Utilisation de l'algorithme

Utilisez la Visionneuse d'arborescences Microsoft pour explorer un modèle d'exploration de données de régression linéaire.

Un modèle de régression linéaire doit contenir une colonne clé, des colonnes d'entrée et au moins une colonne prévisible.

L'algorithme MLR (Microsoft Linear Regression) prend en charge des types de contenu de colonne d'entrée, des types de contenu de colonne prévisible et des indicateurs de modélisation spécifiques qui sont répertoriés dans le tableau suivant.

Types de contenu de colonne d'entrée

Continu, Cyclique, Clé, Table et Ordonné

Types de contenu de colonne prévisible

Continu, Cyclique et Ordonné

Indicateurs de modélisation

NOT NULL et REGRESSOR

Tous les algorithmes Microsoft prennent en charge un ensemble commun de fonctions. Toutefois, l'algorithme MLR (Microsoft Linear Regression) prend en charge des fonctions supplémentaires qui sont décrites dans le tableau suivant.

IsDescendant

PredictStdev

IsInNode

PredictSupport

PredictHistogram

PredictVariance

PredictNodeId

   

Pour obtenir la liste des fonctions qui sont communes à tous les algorithmes Microsoft, consultez Algorithmes d'exploration de données. Pour plus d'informations sur l'utilisation de ces fonctions, consultez Fonctions DMX (Data Mining Extensions).

L'algorithme MLR (Microsoft Linear Regression) prend en charge plusieurs paramètres qui affectent les performances et la précision du modèle d'exploration de données obtenu. Le tableau suivant décrit chacun de ces paramètres.

Paramètre Description

MAXIMUM_INPUT_ATTRIBUTES

Définit le nombre d'attributs d'entrée que l'algorithme peut traiter avant d'appeler la sélection des fonctionnalités. La valeur 0 désactive la sélection des fonctionnalités.

La valeur par défaut est 255.

MAXIMUM_OUTPUT_ATTRIBUTES

Définit le nombre d'attributs de sortie que l'algorithme peut traiter avant d'appeler la sélection des fonctionnalités. La valeur 0 désactive la sélection des fonctionnalités.

La valeur par défaut est 255.

FORCED_REGRESSOR

Force l'algorithme à utiliser les colonnes indiquées en tant que régresseurs, quelle que soit leur importance selon les calculs de l'algorithme.

Voir aussi

Concepts

Algorithmes d'exploration de données
Assistant Exploration de données
Sélection des fonctionnalités pour l'exploration de données
Affichage d'un modèle d'exploration de données à l'aide de la Visionneuse d'arborescences Microsoft

Autres ressources

CREATE MINING MODEL (DMX)

Aide et Informations

Assistance sur SQL Server 2005