Méthodes de discrétisation

Article
12/15/2008

Certains des algorithmes utilisés pour créer des modèles d'exploration de données dans Microsoft SQL Server 2005 Analysis Services (SSAS) requièrent des types de contenu spécifiques afin de pouvoir fonctionner correctement. Par exemple, certains algorithmes, tels que l'algorithme MNB (Microsoft Naive Bayes), ne peuvent pas utiliser des colonnes continues en tant qu'entrée ou ne peuvent pas prédire des valeurs continues. En outre, certaines colonnes peuvent contenir tellement de valeurs que l'algorithme ne peut pas identifier facilement les tendances intéressantes qui ressortent des données et qui vont servir à créer un modèle.

Dans ce cas, vous pouvez discrétiser les données des colonnes afin de pouvoir utiliser les algorithmes pour créer un modèle d'exploration de données. La discrétisation est le processus consistant à mettre les valeurs d'un jeu continu de données dans des compartiments afin d'obtenir un nombre discret d'états possibles. Les compartiments eux-mêmes sont traités comme des valeurs discrètes et ordonnées. Vous pouvez discrétiser les colonnes de nombres et de chaînes.

Plusieurs méthodes vous permettent de discrétiser des données. Chaque méthode calcule automatiquement le nombre de compartiments à générer, en utilisant l'équation figurant dans l'exemple de code suivant :

Number of Buckets = sqrt(n)

Dans cet exemple de code, n correspond au nombre de valeurs de données distinctes dans la colonne. Si vous ne voulez pas qu'Analysis Services calcule le nombre de compartiments, vous pouvez utiliser la propriété DiscretizationBuckets pour spécifier manuellement le nombre de compartiments.

Le tableau suivant décrit les méthodes que vous pouvez utiliser pour discrétiser des données dans Analysis Services.

Méthode de discrétisation	Description
AUTOMATIC	Analysis Services détermine la méthode de discrétisation à utiliser.
CLUSTERS	L'algorithme divise les données en groupes en échantillonnant les données d'apprentissage, en initialisant à un certain nombre de points aléatoires, puis en exécutant plusieurs itérations de l'algorithme MC (Microsoft Clustering) à l'aide de la méthode de clustering EM (expectation-maximisation). La méthode CLUSTERS est utile car elle fonctionne sur n'importe quelle courbe de distribution. Cependant, elle nécessite une durée de traitement plus longue que les autres méthodes de discrétisation. Cette méthode peut uniquement être utilisée sur des colonnes numériques.
EQUAL_AREAS	L'algorithme divise les données en groupes contenant un nombre égal de valeurs. Cette méthode convient surtout aux courbes de distribution normales, mais elle n'est pas efficace si la distribution comprend un nombre élevé de valeurs dans un groupe resserré de valeurs continues. Par exemple, si la moitié des articles de la commande qui sont spécifiés dans un diagramme de cas ont un coût de zéro, la moitié des données se situent sous un même point de la courbe. Dans ce type de distribution, cette méthode disperse les données pour tenter d'établir une discrétisation équivalente dans plusieurs zones, ce qui engendre une représentation inexacte des données.

AUTOMATIC

Analysis Services détermine la méthode de discrétisation à utiliser.

CLUSTERS

L'algorithme divise les données en groupes en échantillonnant les données d'apprentissage, en initialisant à un certain nombre de points aléatoires, puis en exécutant plusieurs itérations de l'algorithme MC (Microsoft Clustering) à l'aide de la méthode de clustering EM (expectation-maximisation). La méthode CLUSTERS est utile car elle fonctionne sur n'importe quelle courbe de distribution. Cependant, elle nécessite une durée de traitement plus longue que les autres méthodes de discrétisation.

Cette méthode peut uniquement être utilisée sur des colonnes numériques.

EQUAL_AREAS

L'algorithme divise les données en groupes contenant un nombre égal de valeurs. Cette méthode convient surtout aux courbes de distribution normales, mais elle n'est pas efficace si la distribution comprend un nombre élevé de valeurs dans un groupe resserré de valeurs continues. Par exemple, si la moitié des articles de la commande qui sont spécifiés dans un diagramme de cas ont un coût de zéro, la moitié des données se situent sous un même point de la courbe. Dans ce type de distribution, cette méthode disperse les données pour tenter d'établir une discrétisation équivalente dans plusieurs zones, ce qui engendre une représentation inexacte des données.

Vous pouvez utiliser la méthode EQUAL_AREAS pour discrétiser des chaînes.

Les méthodes CLUSTERS et THRESHOLDS utilisent un échantillon aléatoire de 1 000 enregistrements pour discrétiser les données. Utilisez la méthode EQUAL_AREAS si vous ne voulez pas que l'algorithme échantillonne les données.

Voir aussi

Share via

Méthodes de discrétisation

Voir aussi

Concepts

Autres ressources

Aide et Informations

Ressources supplémentaires