Configuration des composants linguistiques de texte intégral

À compter de SQL Server 2008, la recherche en texte intégral prend en charge environ 50 langues, dont l'anglais, l'espagnol, le chinois, le japonais, l'arabe, le bengali et l'hindi. Pour obtenir une liste complète des langues de texte intégral prises en charge, consultez sys.fulltext_languages (Transact-SQL). Chacune des colonnes contenues dans l'index de recherche en texte intégral est associée à un identificateur de paramètres régionaux (LCID) Microsoft Windows qui représente une langue prise en charge par la recherche en texte intégral. Par exemple, le LCID 1033 correspond à l'anglais américain et le LCID 2057 à l'anglais britannique. Pour chaque langue de texte intégral prise en charge, SQL Server fournit des composants linguistiques qui acceptent l'indexation et l'interrogation des données de texte intégral qui sont stockées dans cette langue.

Les composants spécifiques d'une langue incluent un analyseur lexical et un générateur de formes dérivées. Un analyseur lexical détecte des limites de mots en fonction des règles lexicales définies pour une langue donnée (analyse lexicale). Chaque analyseur lexical est associé à un générateur de formes dérivées qui conjugue des verbes pour la même langue. Pour plus d'informations, consultez Analyseurs lexicaux et générateurs de formes dérivées.

De plus, à compter de SQL Server 2008, une liste de mots vides système contenant un jeu de base de mots vides (également appelés mots parasites) est fournie. Un mot vide n'est d'aucune utilité pour la recherche et il est ignoré par les requêtes de texte intégral. Par exemple, en français, les mots tels que « un », « et », « est » ou « le » sont considérés comme des mots vides. En général, vous devez configurer un ou plusieurs fichiers de dictionnaires des synonymes et une ou plusieurs listes de mots vides. Pour plus d'informations, consultez Mots vides et listes de mots vides.

SQL Server installe également un fichier de dictionnaire des synonymes pour chaque langue de texte intégral, ainsi qu'un fichier de dictionnaire des synonymes global. Les fichiers de dictionnaire des synonymes installés sont essentiellement vides, mais vous pouvez les modifier et définir des synonymes pour une langue ou un scénario d'entreprise spécifique. En développant un dictionnaire des synonymes adapté à vos données de texte intégral, vous pouvez élargir efficacement l'étendue des requêtes de texte intégral sur ces données. Pour plus d'informations, consultez Configuration du dictionnaire des synonymes.

L'indexation d'un document dans une colonne de type de données varbinary, varbinary(max), image ou xml nécessite un traitement supplémentaire effectué par un filtre. Ce filtre doit être spécifique au type de document (.doc, .pdf, .xls, .xml, etc.). Pour plus d'informations, consultez Filtres de recherche en texte intégral.

Notes

Les analyseurs lexicaux (et les générateurs de formes dérivées) et les filtres s'exécutent dans le processus hôte de démon de filtre (fdhost.exe). Pour plus d'informations sur ce processus, consultez Architecture de la recherche en texte intégral.

Voir aussi

Référence

Concepts

Autres ressources