Partager via


Configuration des fichiers du dictionnaire des synonymes

Mis à jour : 12 décembre 2006

Tous les fichiers du dictionnaire des synonymes inclus dans Microsoft SQL Server 2005 sont mis en forme de la manière suivante.

<XML ID="Microsoft Search Thesaurus">

<!--  Commented out
    <thesaurus xmlns="x-schema:tsSchema.xml">
      <diacritics = false/>
        <expansion>
            <sub>Internet Explorer</sub>
            <sub>IE</sub>
            <sub>IE5</sub>
        </expansion>
        <replacement>
            <pat>NT5</pat>
            <pat>W2K</pat>
            <sub>Windows 2000</sub>
        </replacement>
        <expansion>
            <sub>run</sub>
            <sub>jog</sub>
        </expansion>
    </thesaurus>
-->
</XML>

Chaque fichier du dictionnaire des synonymes contient une ou plusieurs des sections suivantes :

  • Jeu d'expansion
    Un jeu d'expansion contient un groupe de synonymes. Ces synonymes sont identifiés dans le code par des balises de « substitution » (<sub> et </sub>). Les requêtes contenant des correspondances dans une substitution sont étendues pour inclure toutes les autres substitutions du jeu d'expansion.
  • Jeu de remplacement
    Un jeu de remplacement contient un motif de texte à remplacer par un jeu de substitution. Reportez-vous à l'exemple de la section « Jeu de remplacement » plus loin dans cette rubrique.

Le fichier du dictionnaire des synonymes inclut également une balise <diacritics = false/>. false indique que les termes spécifiés dans les jeux d'expansion et de remplacement ne tiennent pas compte des accents. Pour effectuer des recherches à l'aide du dictionnaire des synonymes et en tenant compte des accents, modifiez cette balise en <diacritics = true/>. Par exemple, supposez que vous spécifiez le remplacement du modèle « café » par d'autres modèles dans une requête de recherche en texte intégral. Si le fichier du dictionnaire des synonymes ne tient pas compte des accents, la recherche de texte intégral remplace les modèles « café » et « cafe ». Si le fichier du dictionnaire des synonymes tient compte des accents, la recherche de texte intégral remplace seulement le modèle « café ». Notez que ce paramètre ne peut être appliqué qu'une seule fois dans le fichier et s'applique à tous les modèles de recherche au sein du fichier. Vous ne pouvez pas définir ce paramètre pour des modèles individuels.

ms345186.note(fr-fr,SQL.90).gifImportant :
Lorsque vous modifiez des fichiers du dictionnaire des synonymes à l'aide des outils d'édition de texte, les fichiers doivent être enregistrés au format Unicode et des indicateurs d'ordre des octets doivent être spécifiés.

Jeu d'expansion

Chaque jeu d'expansion est délimité par une balise <expansion>. Dans le jeu d'expansion, vous spécifiez une ou plusieurs substitutions délimitées par une balise <sub>. Dans le jeu d'expansion, vous pouvez spécifier un groupe de substitutions synonymes les unes des autres.

Par exemple, vous pouvez modifier la section expansion pour traiter les substitutions « writer », « author » et « journalist » en tant que synonymes. Les requêtes de recherche de texte intégral contenant des correspondances dans une substitution sont étendues pour inclure toutes les autres substitutions spécifiées dans le jeu d'expansion. Par conséquent, dans l'exemple précédent, lorsque vous envoyez une requête FORMS OF THESAURUS ou FREETEXT pour le mot « author », la recherche de texte intégral renvoie également les résultats contenant les mots « writer » et « journalist ».

Voici à quoi ressemble la section du jeu d'expansion pour l'exemple ci-dessus :

 <expansion>
         <sub>writer</sub>
         <sub>author</sub>
         <sub>journalist</sub>
 </expansion>

Jeu de remplacement

Chaque jeu de remplacement est délimité par une balise <replacement>. Dans chaque jeu de remplacement, vous pouvez spécifier un ou plusieurs motifs délimités par une balise <pat>. Vous pouvez spécifier une ou plusieurs substitutions délimitées par des balises <sub>. Vous pouvez spécifier un motif de texte à remplacer par un jeu de substitution. Les motifs et les substitutions peuvent contenir un mot ou une suite de mots.

Par exemple, supposons que vous souhaitez remplacer les requêtes pour le motif « W2K » par les substitutions « Windows 2000 » ou « XP ». Si vous exécutez une requête de texte intégral pour « W2K », la recherche de texte intégral renvoie seulement les résultats contenant « Windows 2000 » ou « XP ». Elle ne renvoie pas les résultats contenant « W2K ». Cela est dû au fait que le motif « W2K » a été « remplacé » par les motifs « Windows 2000 » et « XP ».

Voici à quoi ressemble la section du jeu de remplacement pour l'exemple ci-dessus :

 <replacement>
         <pat>W2K</pat>
         <sub>Windows 2000</sub>
         <sub>XP</sub>
 </replacement>

Si deux jeux de remplacement contiennent des motifs similaires en correspondance, le plus long des deux a priorité. Par exemple, si vous exécutez une requête FORMS OF THESAURUS pour « Internet Explorer online community » avec les jeux de remplacement suivants, le jeu de remplacement « Internet Explorer » est prioritaire par rapport au jeu de remplacement « Internet ». La requête sera donc traitée comme « IE online community » ou « IE 5 online community ».

<replacement>
         <pat>Internet</pat>
         <sub>intranet</sub>
</replacement>

et

<replacement>
         <pat>Internet Explorer</pat>
         <sub>IE</sub>
         <sub>IE 5</sub>
</replacement>

Voir aussi

Concepts

Architecture de la recherche de texte intégral
Dictionnaire des synonymes
Recherche de texte intégral

Autres ressources

CONTAINS (Transact-SQL)
FREETEXT (Transact-SQL)
FREETEXTTABLE (Transact-SQL)

Aide et Informations

Assistance sur SQL Server 2005

Historique des modifications

Version Historique

12 décembre 2006

Contenu modifié :
  • Correction de la syntaxe de la balise <diacritics_sensitive> en <diacritics = false/> et mise à jour de l'explication de cette balise.
Nouveau contenu :
  • Une remarque importante a été ajoutée qui stipule que les fichiers d'un dictionnaire des synonymes doivent être enregistrés au format Unicode et que des indicateurs d'ordre des octets doivent être spécifiés.

17 juillet 2006

Nouveau contenu :
  • Clarification de la signification de la balise <diacritics_sensitive>.