Configurazione dei file del thesaurus

Data aggiornamento: 12 dicembre 2006

Tutti i file del thesaurus inclusi in Microsoft SQL Server 2005 sono formattati come descritto di seguito.

<XML ID="Microsoft Search Thesaurus">

<!--  Commented out
    <thesaurus xmlns="x-schema:tsSchema.xml">
      <diacritics = false/>
        <expansion>
            <sub>Internet Explorer</sub>
            <sub>IE</sub>
            <sub>IE5</sub>
        </expansion>
        <replacement>
            <pat>NT5</pat>
            <pat>W2K</pat>
            <sub>Windows 2000</sub>
        </replacement>
        <expansion>
            <sub>run</sub>
            <sub>jog</sub>
        </expansion>
    </thesaurus>
-->
</XML>

Ogni file del thesaurus include una o più delle sezioni seguenti:

  • Set di espansione
    Un set di espansione contiene un gruppo di sinonimi identificati nel codice con i tag di "sostituzione" (<sub> e </sub>). Le query contenenti corrispondenze in una sostituzione vengono espanse in modo da includere tutte le altre sostituzioni del set di espansione.
  • Set di sostituzione
    Un set di sostituzione include un criterio di testo da sostituire con determinate parole. Per un esempio, vedere la sezione "Set di sostituzione" più avanti in questo argomento.

Il file del thesaurus include inoltre un tag <diacritics = false/>. Il valore false indica che ai termini specificati nei set di espansione e di sostituzione non viene applicata la distinzione tra caratteri accentati e non accentati. Per applicare la distinzione tra caratteri accentati e non accentati alle ricerche eseguite con il thesaurus, impostare il tag su <diacritics = true/>. Si supponga, ad esempio, di specificare la sostituzione del criterio "café" con altri criteri in una query di ricerca full-text. Se il file del thesaurus non supporta la distinzione tra caratteri accentati e non accentati, mediante la ricerca full-text verranno sostituiti i criteri "café" e "cafe". Se il file del thesaurus supporta la distinzione tra caratteri accentati e non accentati, mediante la ricerca full-text verrà sostituito soltanto il criterio "café". Si noti che questa impostazione è applicabile una sola volta nel file e viene applicata a tutti i criteri di ricerca in esso contenuti. Questa impostazione non può essere specificata per singoli criteri.

ms345186.note(it-it,SQL.90).gifImportante:
Quando si modificano i file del thesaurus utilizzando gli strumenti editor di testo, è necessario salvare i file in formato Unicode e specificare gli indicatori per l'ordine dei byte (BOM).

Set di espansione

Ogni set di espansione è racchiuso in tag <expansion>. All'interno di tali tag è necessario specificare una o più sostituzioni racchiuse in tag <sub>. Nel set di espansione è possibile specificare un gruppo di sostituzioni che sono sinonimi.

È possibile, ad esempio, modificare la sezione di espansione in modo che le sostituzioni "writer", "author" e "journalist" vengano trattate come sinonimi. Le query di ricerca full-text che contengono corrispondenze in una sostituzione vengono espanse in modo da includere tutte le altre sostituzioni specificate nel set di espansione. Pertanto, nell'esempio precedente, quando si inoltra una query FORMS OF THESAURUS o FREETEXT per la parola "author", vengono restituiti anche i risultati di ricerca contenenti le parole "writer" e "journalist".

La sezione del set di espansione dell'esempio sopra descritto sarebbe:

 <expansion>
         <sub>writer</sub>
         <sub>author</sub>
         <sub>journalist</sub>
 </expansion>

Set di sostituzione

Ogni set di sostituzione è incluso in un tag <replacement>. All'interno di tali tag è possibile specificare uno o più criteri di testo racchiusi in tag <pat>. È possibile specificare una o più sostituzioni incluse tra tag <sub> oppure un criterio di testo da sostituire con un set di sostituzione. Criteri e sostituzioni possono contenere una parola o una sequenza di parole.

Si supponga, ad esempio, di voler utilizzare nelle query per il modello "W2K" le sostituzioni "Windows 2000" e "XP". Se si esegue una query full-text per "W2K", verranno restituiti solo i risultati di ricerca contenenti "Windows 2000" o "XP", ma non quelli contenenti "W2K". Questo accade perché "W2K" è stato "sostituito" con "Windows 2000" e "XP".

La sezione del set di sostituzione dell'esempio sopra descritto sarebbe:

 <replacement>
         <pat>W2K</pat>
         <sub>Windows 2000</sub>
         <sub>XP</sub>
 </replacement>

Se sono presenti due set di sostituzione con criteri di testo simili da associare, il più lungo dei due ha la precedenza. Se, ad esempio, si esegue una query FORMS OF THESAURUS per "Internet Explorer online community" e sono presenti i set di sostituzione indicati di seguito, "Internet Explorer" ha la precedenza su "Internet". La query verrà pertanto elaborata come "IE online community" o "IE 5 online community".

<replacement>
         <pat>Internet</pat>
         <sub>intranet</sub>
</replacement>

e

<replacement>
         <pat>Internet Explorer</pat>
         <sub>IE</sub>
         <sub>IE 5</sub>
</replacement>

Vedere anche

Concetti

Architettura della ricerca full-text
Thesaurus
Ricerca full-text

Altre risorse

CONTAINS (Transact-SQL)
FREETEXT (Transact-SQL)
FREETEXTTABLE (Transact-SQL)

Guida in linea e informazioni

Assistenza su SQL Server 2005

Cronologia modifiche

Versione Cronologia

12 dicembre 2006

Contenuto modificato:
  • Correzione della sintassi del tag <diacritics_sensitive> in <diacritics = false/> e aggiornamento della spiegazione delle funzioni del tag.
Nuovo contenuto:
  • Aggiunta della nota Importante per chiarire che è necessario salvare i file del thesaurus in formato Unicode e specificare gli indicatori per l'ordine dei byte.

17 luglio 2006

Nuovo contenuto:
  • Chiarimento del significato del tag <diacritics_sensitive>.