Algorithme MLR (Microsoft Linear Regression)

Article
12/15/2008

L'algorithme MLR (Microsoft Linear Regression) est une variante de l'algorithme MDT (Microsoft Decision Trees), où le paramètre MINIMUM_LEAF_CASES est défini de façon à être supérieur ou égal au nombre total de cas du jeu de données que l'algorithme utilise pour l'apprentissage du modèle d'exploration de données. Si le paramètre est défini de cette manière, l'algorithme ne crée jamais de division et effectue par conséquent une régression linéaire.

Vous pouvez utiliser la régression linéaire pour déterminer une relation entre deux colonnes continues. La relation se présente sous la forme d'une équation correspondant à la droite représentant le mieux une série de données. Par exemple, la droite dans le diagramme suivant est la meilleure représentation linéaire possible des données.

Ligne qui modélise un ensemble de données

L'équation qui correspond à la droite du diagramme est de type y = ax + b et s'appelle l'équation de régression. La variable Y représente la variable de sortie, X représente la variable d'entrée, et a et b sont des coefficients ajustables. Pour chaque point de données du diagramme, une erreur est associée à la distance entre le point et la droite de régression. Les coefficients a et b de l'équation de régression ajustent l'angle et l'emplacement de la droite de régression. Vous pouvez obtenir l'équation de régression en ajustant a et b jusqu'à ce que la somme des erreurs associées aux points atteigne le plus petit nombre possible.

Utilisation de l'algorithme

Utilisez la Visionneuse d'arborescences Microsoft pour explorer un modèle d'exploration de données de régression linéaire.

Un modèle de régression linéaire doit contenir une colonne clé, des colonnes d'entrée et au moins une colonne prévisible.

L'algorithme MLR (Microsoft Linear Regression) prend en charge des types de contenu de colonne d'entrée, des types de contenu de colonne prévisible et des indicateurs de modélisation spécifiques qui sont répertoriés dans le tableau suivant.

Types de contenu de colonne d'entrée	Continu, Cyclique, Clé, Table et Ordonné
Types de contenu de colonne prévisible	Continu, Cyclique et Ordonné
Indicateurs de modélisation	NOT NULL et REGRESSOR

Tous les algorithmes Microsoft prennent en charge un ensemble commun de fonctions. Toutefois, l'algorithme MLR (Microsoft Linear Regression) prend en charge des fonctions supplémentaires qui sont décrites dans le tableau suivant.

IsDescendant	PredictStdev
IsInNode	PredictSupport
PredictHistogram	PredictVariance
PredictNodeId

Pour obtenir la liste des fonctions qui sont communes à tous les algorithmes Microsoft, consultez Algorithmes d'exploration de données. Pour plus d'informations sur l'utilisation de ces fonctions, consultez Fonctions DMX (Data Mining Extensions).

L'algorithme MLR (Microsoft Linear Regression) prend en charge plusieurs paramètres qui affectent les performances et la précision du modèle d'exploration de données obtenu. Le tableau suivant décrit chacun de ces paramètres.

Paramètre	Description
MAXIMUM_INPUT_ATTRIBUTES	Définit le nombre d'attributs d'entrée que l'algorithme peut traiter avant d'appeler la sélection des fonctionnalités. La valeur 0 désactive la sélection des fonctionnalités. La valeur par défaut est 255.
MAXIMUM_OUTPUT_ATTRIBUTES	Définit le nombre d'attributs de sortie que l'algorithme peut traiter avant d'appeler la sélection des fonctionnalités. La valeur 0 désactive la sélection des fonctionnalités. La valeur par défaut est 255.
FORCED_REGRESSOR	Force l'algorithme à utiliser les colonnes indiquées en tant que régresseurs, quelle que soit leur importance selon les calculs de l'algorithme.

MAXIMUM_INPUT_ATTRIBUTES

Définit le nombre d'attributs d'entrée que l'algorithme peut traiter avant d'appeler la sélection des fonctionnalités. La valeur 0 désactive la sélection des fonctionnalités.

La valeur par défaut est 255.

MAXIMUM_OUTPUT_ATTRIBUTES

Définit le nombre d'attributs de sortie que l'algorithme peut traiter avant d'appeler la sélection des fonctionnalités. La valeur 0 désactive la sélection des fonctionnalités.

La valeur par défaut est 255.

FORCED_REGRESSOR

Force l'algorithme à utiliser les colonnes indiquées en tant que régresseurs, quelle que soit leur importance selon les calculs de l'algorithme.

Voir aussi

Algorithme MLR (Microsoft Linear Regression)

Utilisation de l'algorithme

Voir aussi

Concepts

Autres ressources

Aide et Informations

Ressources supplémentaires