Présentation de l'architecture de pertinence de la recherche de contenu d'entreprise

Article
02/01/2010

Dans la recherche, la pertinence représente le degré de correspondance entre les résultats de la recherche qui sont renvoyés et ce que l'utilisateur voulait rechercher. Idéalement, les résultats qui sont renvoyés sur la première page sont les plus pertinents, pour que l'utilisateur ne doive pas parcourir plusieurs pages de résultats pour trouver les meilleures correspondances pour sa recherche.

Recherche de contenu d'entreprise dans Microsoft Office SharePoint Server 2007 comprend un nouveau moteur de classement développé en collaboration avec Microsoft Research. Il est spécialement optimisé pour les besoins de la recherche de contenu d'entreprise.

Présentation du classement statique et dynamique

Il y a deux types de composants de formules de classement utilisés dans le calcul de pertinence : statique et dynamique. La différence entre les composants dépend de ce que le classement calculé est affecté ou non par les termes de la requête, et dépend également du contenu et du texte réels de différentes propriétés pour un élément de contenu.

Classement dynamique

Le classement dynamique décrit le classement qui est affecté par les valeurs du contenu ou des propriétés pour un élément de contenu ; ceci s'appelle également classement dépendant de la requête.

Les sections suivantes contiennent une présentation des composants utilisés pour l'algorithme de classement dynamique utilisé dans le calcul de pertinence de la Recherche de contenu d'entreprise.

Texte d'ancrage

Le texte d'ancrage est le texte qui est inclus dans un lien hypertexte pour décrire le contenu cible de ce lien hypertexte. Quand la Recherche de contenu d'entreprise analyse l'élément de contenu, ce texte est inclus dans l'index correspondant à ce contenu. Le texte d'ancrage influence seulement le classement et n'est pas le facteur déterminant pour inclure un élément de contenu dans le jeu de résultats. Par exemple, si tous les termes de la requête sont trouvés seulement dans le texte d'ancrage et pas dans le contenu réel de l'élément, le lien est peut-être obsolète, et l'élément de contenu n'est pas inclus dans les résultats.

La recherche indexe le texte d'ancrage des éléments suivants :

Éléments d'ancrage HTML
Listes de liens de Windows SharePoint Services
Listes de Microsoft Office SharePoint Portal Server 2003
Liens hypertexte de Microsoft Office Word 2007, Microsoft Office Excel 2007 Microsoft Office PowerPoint 2007 (seulement pour les fichiers utilisant les nouveaux formats XML ouverts Office)

Pondération des propriétés

Important

La modification arbitraire des poids des propriétés peut avoir un effet défavorable sur la pertinence globale du système : il n'est donc pas recommandé d'y procéder sans avoir correctement évalué les modifications et leur impact sur la précision des résultats de la recherche.

Certaines propriétés sont plus importantes que d'autres pour le calcul de la pertinence. Ceci s'appelle la pondération des propriétés. La Recherche de contenu d'entreprise vous offre un moyen de modifier le poids de chaque propriété de façon à leur donner un poids plus important dans le calcul de la pertinence. Vous devez pour cela utiliser le modèle objet Administration de la recherche. Pour un exemple de code montrant comment réaliser cette opération, voir Procédure : modifier le paramètre Poids d'une propriété gérée.

Notes

La syntaxe de la recherche SQL de Microsoft Office SharePoint Portal Server 2003 prenait en charge la pondération des colonnes de type date-heure dans les requêtes. La syntaxe de la recherche SQL de Recherche de contenu d'entreprise dans Microsoft Office SharePoint Server 2007 ne la prend plus en charge. Si la pondération des colonnes est présente dans les requêtes de recherche migrées vers Office SharePoint Server 2007, ces requêtes fonctionnent correctement, mais les valeurs de pondération des colonnes sont ignorées.

Normalisation de la longueur des propriétés

Un élément de contenu peut avoir de nombreuses propriétés dont la longueur est différente. Si les valeurs de ces propriétés sont traitées de façon égale, indépendamment de leur taille, lors du calcul de la pertinence, cela peut avoir un effet négatif sur le classement calculé. La normalisation de la longueur ajuste le classement d'un élément de contenu sur la base de la longueur de la propriété et du paramètre de normalisation de la longueur. Vous devez utiliser le modèle objet Administration de la recherche pour effectuer la normalisation de la longueur des propriétés.

Correspondance d'URL

La correspondance d'URL est le processus par lequel la Recherche de contenu d'entreprise vérifie les URL des éléments de contenu pour y rechercher une correspondance directe avec les termes de recherche spécifiés.

Extraction du titre

L'extraction du titre, qui consiste à utiliser la valeur du titre dans les calculs de la pertinence, permet de renvoyer du contenu hautement pertinent si l'élément de contenu est nommé de façon appropriée. Il existe cependant des scénarios où la valeur de la propriété de titre ne reflète pas le contenu avec précision. Par exemple, les titres suivants ne fournissent pas d'informations significatives sur leur contenu :

Slide 1 (le nom par défaut de la première diapositive dans un fichier de présentation PowerPoint, utilisé comme nom du fichier de présentation par PowerPoint si ce nom n'est pas modifié)
Document 1 (le nom par défaut d'un fichier de document Word, utilisé par Word comme nom du fichier de document si ce nom n'est pas modifié)

Les exemples de titres ci-dessus ne fournissent pas d'informations significatives sur le contenu de ces fichiers et ils ne sont donc pas pertinents pour la recherche. Pour éviter ce problème, la Recherche de contenu d'entreprise détecte une autre candidat pour le titre au sein du corps de l'élément de contenu et inclut cette valeur avec le titre réel lors du calcul de la pertinence.

Notes

Ce processus est effectué seulement sur des fichiers Microsoft Office.

Classement statique

Le classement statique décrit le classement qui n'est pas affecté par le contenu ou les valeurs des propriétés d'un élément de contenu ; ceci s'appelle également classement indépendant de la requête.

Les sections suivantes contiennent une présentation des composants utilisés pour l'algorithme de classement statique dans le calcul de pertinence de la Recherche de contenu d'entreprise.

Distance en clics

Vous liez un document, une page Web, une liste ou un autre élément à d'autres éléments de contenu parce que l'élément de contenu lié contient plus que probablement des informations qui se rapportent à la valeur du contenu de l'élément d'origine contenant le lien et qui améliorent cette valeur. Par conséquent, les informations sur ces liens hypertexte vers un élément de contenu spécifique, telles que le nombre de liens hypertexte vers cet élément ou l'emplacement de ces liens, peuvent être précieuses pour déterminer la pertinence.

La distance en clics fait référence au nombre de liens entre un élément de contenu et une page « experte » établissant des liens vers l'élément de contenu. Pour le calcul de pertinence de la recherche, le point de départ est une page faisant autorité, comme cela est décrit dans Authoritative Pages and Demoted Sites. Plus grand est le nombre de liens que doit suivre l'analyseur depuis une page faisant autorité jusqu'à l'élément de contenu, moins le score de pertinence est élevé. S'il existe plusieurs chemins menant à un élément de contenu, la pertinence est calculée sur la base du chemin le plus court, c'est-à-dire celui qui a le plus petit nombre de liens depuis la page faisant autorité jusqu'à l'élément de menu.

Profondeur de l'URL

Le contenu important ou pertinent se trouve souvent plus près du sommet de la hiérarchie d'un site qu'à plusieurs niveaux de profondeur dans ce site. Ainsi, le contenu a une URL plus courte et l'utilisateur peut plus facilement se le rappeler et y accéder. La Recherche de contenu d'entreprise tient compte de cette situation en analysant la profondeur de l'URL, qui fait référence au nombre de niveaux à franchir pour trouver l'élément de contenu. Le niveau est déterminé par l'analyse du nombre de barres obliques (« / ) contenues dans l'URL ; plus il y en a dans le chemin d'URL, plus la profondeur de l'URL est importante pour cet élément de contenu. Une grande profondeur d'URL peut donc diminuer la pertinence de ce contenu.

Détection automatique de la langue

Les utilisateurs sont susceptibles de rechercher plutôt du contenu dans leur propre langue que dans d'autres langues. La Recherche de contenu d'entreprise détermine la langue de l'utilisateur sur la base des en-têtes « Accept-Language » à partir du navigateur qu'il utilise : c'est la détection automatique de la langue. Lors du calcul de la pertinence, le contenu qui est extrait dans la langue de l'utilisateur est considéré comme étant plus pertinent que le contenu dans d'autres langues, à l'exception du contenu en langue anglaise. Celui-ci est considéré comme étant aussi pertinent que du contenu dans la langue de l'utilisateur.

Prise en compte du type de fichier

Dans la plupart des scénarios de recherche, certains types de fichiers sont plus pertinents que d'autres. Par exemple, les pages HTML et les documents Word sont généralement plus pertinents pour la recherche d'un utilisateur qu'une feuille de calcul Excel ou un fichier en texte simple.

Le calcul de pertinence de la Recherche de contenu d'entreprise utilise un algorithme de classement qui valorise davantage certains types de fichiers par rapport à d'autres. Ceci s'applique aux types de fichiers suivants, présentés selon l'ordre de classement par défaut de la Recherche de contenu d'entreprise, en commençant par le mieux classé :

Pages Web HTML
Présentations PowerPoint
Documents Word
Fichiers XML
Feuilles de calcul Excel
Fichiers en texte simple
Éléments de liste

Voir aussi

Référence

Microsoft.Office.Server.Search.Administration.Ranking
Microsoft.Office.Server.Search.Administration.Schema
Microsoft.Office.Server.Search.Administration.Keywords

Autres ressources

Amélioration de la pertinence
Architecture d'Enterprise Search
Mise en route avec le modèle objet Administration de recherche de contenu d'entreprise
Administration par programme de la recherche de contenu d'entreprise

Partager via