Exploration des modèles de publipostage ciblé (Didacticiel sur l'exploration de données)

Article
12/15/2008

Une fois les modèles de votre projet traités, vous pouvez les afficher en utilisant l'onglet Visionneuse de modèle d'exploration de données du Concepteur d'exploration de données. Vous pouvez utiliser la liste Modèle d'exploration de données située en haut de l'onglet pour étudier chaque modèle de la structure d'exploration de données.

Les sections qui suivent décrivent comment explorer des modèles d'exploration de données dans les visionneuses.

Modèle Arbre de décision Microsoft
Modèle Clustering Microsoft
Modèle Microsoft Naive Bayes

Modèle Arbre de décision Microsoft

Lorsque vous basculez vers l'onglet Visionneuse de modèle d'exploration de données dans le Concepteur d'exploration de données pour le projet du didacticiel AdventureWorks sur l'exploration de données, le Concepteur ouvre le modèle d'exploration de données de publipostage ciblé, le premier modèle de la structure. Chaque algorithme utilisé pour créer un modèle dans Analysis Services retourne un type différent de résultats. Par conséquent, Analysis Services fournit une visionneuse distincte pour chaque algorithme. Lorsque vous parcourez un modèle d'exploration de données, le modèle s'affiche sous l'onglet Visionneuse de modèle d'exploration de données au moyen de la visionneuse qui convient pour le modèle. Dans ce cas, pour le modèle d'arbre de décision, c'est la visionneuse d'arbre Microsoft qui est utilisée. Cette visionneuse contient deux onglets, Arbre de décision et Réseau de dépendances.

Arbre de décision

Sous l'onglet Arbre de décision, vous pouvez visualiser tous les modèles d'arbres qui composent un modèle d'exploration de données. Étant donné que le modèle de publipostage ciblé du projet du didacticiel contient un seul attribut prévisible uniquement, Bike Buyer, un seul arbre uniquement est visible. Si plusieurs arbre existaient, vous pourriez utiliser la case Arbre pour choisir un autre arbre.

Par défaut, la visionneuse d'arbres Microsoft affiche uniquement les trois premiers niveaux de l'arbre. Si l'arbre contient moins de trois niveaux, la visionneuse affiche uniquement les niveaux existants. Vous pouvez afficher davantage de niveaux en utilisant le curseur Afficher le niveau ou la liste Expansion par défaut. Pour plus d'informations sur la façon de configurer la visionneuse, consultez Affichage d'un modèle d'exploration de données à l'aide de la Visionneuse d'arborescences Microsoft.

Pour modifier l'arbre

Positionnez le curseur Afficher le niveau sur la valeur 5.
Affectez à la liste Arrière-plan la valeur 1.

En modifiant le paramètre Arrière-plan, vous pouvez rapidement voir le nombre de cas pour Bike Buyer égaux à 1 dans chaque nœud. Plus l'ombrage du nœud est foncé et plus le nombre de cas dans le nœud est élevé.

Dans l'arbre de décision, chaque nœud affiche les informations suivantes :

La condition requise pour atteindre ce nœud à partir du nœud qui le précède. Le chemin complet du nœud est indiqué dans la Légende d'exploration de données. Il est également possible de l'afficher dans l'info-bulle qui apparaît lorsque le curseur est positionné sur un nœud.
Un histogramme qui décrit la distribution des états de la colonne prévisible par ordre de popularité. Vous pouvez contrôler le nombre d'états figurant dans l'histogramme en utilisant le contrôle Histogrammes.
La concentration de cas, si l'état de l'attribut prévisible est spécifié dans le contrôle Arrière-plan.

Vous pouvez afficher les cas d'apprentissage que chaque nœud accepte. Pour cela, cliquez avec le bouton droit sur le nœud et choisissez Extraire.

Réseau de dépendances

L'onglet Réseau de dépendances affiche les relations entre les attributs qui déterminent la capacité de prévision du modèle d'exploration de données.

Le nœud central du réseau de dépendances, Bike Buyer, représente l'attribut prévisible du modèle d'exploration de données. Chaque nœud voisin représente un attribut qui affecte le résultat de l'attribut prévisible. Vous pouvez utiliser le curseur situé à gauche de l'onglet pour contrôler la force des liens affichés. Lorsque vous déplacez le curseur vers le bas, seuls les liens les plus forts sont affichés.

Sélectionnez un nœud du réseau et reportez-vous à la légende de couleur en bas de l'onglet pour voir les nœuds que le nœud sélectionné permet de prévoir ou les nœuds qui prévoient le nœud sélectionné.

Modèle Clustering Microsoft

Utilisez la liste Modèles d'exploration de données en haut de l'onglet Visionneuse de modèle d'exploration de données pour choisir le modèle TM_Clustering. La visionneuse utilisée pour ce modèle, Microsoft Cluster Viewer, contient quatre onglets : Diagramme de cluster, Profils du cluster, Caractéristiques du cluster et Discrimination de cluster. Par défaut, la visionneuse affiche l'onglet Diagramme de cluster à sa première ouverture.

Pour plus d'informations sur la façon de configurer la visionneuse Microsoft Cluster Viewer, consultez Affichage d'un modèle d'exploration de données à l'aide de Microsoft Cluster Viewer.

Diagramme de cluster

L'onglet Diagramme de cluster permet d'explorer les relations entre les clusters que l'algorithme découvre. Les lignes entre les clusters représentent le lien logique et sont plus ou moins ombrées selon le degré de similitude entre les clusters. La couleur actuelle de chaque cluster représente la fréquence de la variable et l'état dans le cluster. Vous pouvez sélectionner la variable et l'état dans les zones Variable d'ombrage et État en haut du nœud. La variable par défaut est Population, mais vous pouvez la remplacer par n'importe quel attribut du modèle, afin de découvrir les clusters contenant les membres avec les attributs que vous souhaitez. En utilisant le curseur à gauche du réseau, vous pouvez appliquer un filtre pour exclure les liens les moins forts et rechercher les clusters liés par une relation étroite.

Par exemple, pour Variable d'ombrage choisissez Bike Buyer et pour État choisissez la valeur 1. Vous voyez alors que le Cluster 5 contient la plus grande quantité d'acheteurs de vélos et que le Cluster 4 et le Cluster 7 sont les clusters liés par la relation la plus étroite.

Profils du cluster

L'onglet Profils du cluster présente une vue d'ensemble du modèle TM_Clustering. Comme vous pouvez le voir dans la visionneuse, l'onglet Profils du cluster contient une colonne pour chaque cluster du modèle. La première colonne contient la liste des attributs associés à au moins un cluster. Les autres colonnes de la visionneuse contiennent la distribution des états d'un attribut pour chaque cluster. La distribution d'une variable discrète est indiquée sous la forme d'une barre de couleur, le nombre maximal de barres étant indiqué dans la liste Barres de l'histogramme. Les attributs continus sont affichés avec un graphique en losange qui représente l'écart moyen et l'écart type dans chaque cluster.

Caractéristiques du cluster

L'onglet Caractéristiques du cluster permet d'étudier plus en détail les caractéristiques d'un cluster. Par exemple, si vous utilisez la liste Cluster pour afficher le Cluster 5 dans le scénario de ce didacticiel, vous pouvez voir que les personnes de ce cluster, qui sont les clients ayant acheté un vélo dans le passé, ont tendance à posséder les caractéristiques suivantes : elles parcourent seulement entre 0 et 1,6 km, ne possèdent pas de voiture et sont mariées.

Discrimination de cluster

L'onglet Discrimination de cluster permet d'explorer les caractéristiques qui différencient un cluster d'un autre cluster. Lorsque vous sélectionnez deux clusters dans les zones Cluster 1 et Cluster 2, la visionneuse détermine les différences entre les clusters et les affiche en commençant par les attributs qui les différencient le plus.

Par exemple, comparez le Cluster 5 et le Cluster 7 du modèle TM_Clustering. Le Cluster 5 contient la plus grande quantité d'acheteurs de vélos et le Cluster 7 la plus petite quantité. Les personnes appartenant au Cluster 7 vivent généralement en Amérique du Nord et sont plus jeunes, elles appartiennent à la tranche d'âge 23/31 ans, tandis que les personnes appartenant au Cluster 5 vivent en Europe et parcourent généralement de petites distances comprises entre 0 et 1,6 km.

Modèle Microsoft Naive Bayes

Utilisez la liste Modèles d'exploration de données en haut de l'onglet Visionneuse de modèle d'exploration de données pour choisir le modèle TM_NaiveBayes. La visionneuse utilisée pour ce modèle, la visionneuse de l'algorithme MNB (Microsoft Naive Bayes), contient quatre onglets : Réseau de dépendances, Profils d'attribut, Caractéristiques d'attribut et Discrimination d'attribut.

Pour plus d'informations sur la façon d'utiliser la visionneuse de l'algorithme MNB (Microsoft Naive Bayes), consultez Affichage d'un modèle d'exploration de données à l'aide de la Visionneuse de l'algorithme MNB (Microsoft Naive Bayes).

Réseau de dépendances

L'onglet Réseau de dépendances s'utilise de la même façon que l'onglet Réseau de dépendances de la visionneuse d'arbre Microsoft. Chaque nœud dans la visionneuse représente un attribut et les lignes entre les nœuds représentent des relations. Dans la visionneuse, vous pouvez voir tous les attributs qui ont une incidence sur l'état de l'attribut prévisible Bike Buyer.

Si vous faites glisser le curseur vers le bas, seuls les attributs qui ont la plus grande incidence sur la colonne Bike Buyer restent affichés. En changeant la position du curseur, vous pouvez découvrir que le nombre de véhicules possédés est le facteur le plus important permettant de déterminer si une personne est un acheteur de vélos ou non.

Profils d'attribut

L'onglet Profils d'attribut décrit comment les différents états des attributs d'entrée affectent le résultat de l'attribut prévisible.

Dans la zone Prévisible, vérifiez si Bike Buyer est sélectionné. Les attributs qui affectent l'état de cet attribut prévisible sont présentés avec les valeurs des états des attributs d'entrée et avec leurs distributions dans chaque état de l'attribut prévisible.

Caractéristiques d'attribut

L'onglet Caractéristiques d'attribut permet de sélectionner un attribut et une valeur pour voir la fréquence à laquelle les valeurs des autres attributs apparaissent dans les cas de valeurs sélectionnées.

Dans la liste Attribut, vérifiez si Bike Buyer est sélectionné et dans la liste Valeur, sélectionnez 1. Dans la visionneuse, vous verrez que les personnes qui parcourent entre zéro et 1,6 km pour se rendre à leur travail et qui vivent en Amérique du Nord sont celles qui achètent le plus de vélos.

Discrimination d'attribut

L'onglet Discrimination d'attribut permet d'étudier la relation entre deux valeurs discrètes de l'attribut prévisible sélectionné et d'autres valeurs d'attributs. Étant donné que le modèle TM_NaiveBayes compte seulement deux états, 1 et 0, vous n'avez à apporter aucune modification à la visionneuse.

Dans la visionneuse, vous pouvez voir que les personnes qui ne sont pas propriétaires de voitures achètent généralement des vélos et que les personnes propriétaires de deux voitures n'en achètent généralement pas.

Tâche suivante de la leçon

Test de la précision des modèles d'exploration de données (Didacticiel sur l'exploration de données)

Partager via

Exploration des modèles de publipostage ciblé (Didacticiel sur l'exploration de données)

Modèle Arbre de décision Microsoft

Arbre de décision

Pour modifier l'arbre

Réseau de dépendances

Modèle Clustering Microsoft

Diagramme de cluster

Profils du cluster

Caractéristiques du cluster

Discrimination de cluster

Modèle Microsoft Naive Bayes

Réseau de dépendances

Profils d'attribut

Caractéristiques d'attribut

Discrimination d'attribut

Tâche suivante de la leçon

Ressources supplémentaires