フルテキスト検索の基礎

このトピックでは、フルテキスト検索に関するコンポーネント、プロセス、用語について簡単に説明します。フルテキスト検索で使用する用語は、その多くが Microsoft SQL Server と共通していますが、「クロール」「トークン」など、フルテキスト検索特有の用語もいくつかあります。

フルテキスト検索の用語

以下に、フルテキスト検索を使用するために理解しておく必要がある用語とコンポーネントを挙げます。

フルテキスト インデックス

意味のある単語と、指定された列内でのその位置に関する情報を格納しています。この情報を使用して、特定の単語や単語の組み合わせを持つ行を検索するフルテキスト クエリを高速に実行します。詳細については、「フルテキスト インデックス」を参照してください。

フルテキスト カタログ

フルテキスト カタログには、0 個以上のフルテキスト インデックスが含まれています。フルテキスト カタログは、SQL Server のインスタンスに関連付けられているローカル ハード ドライブ上になければなりません。カタログは、データベース内で 1 つ以上のテーブルのインデックス作成の要求を満たすことができます。フルテキスト カタログは、リムーバブル ドライブや、フロッピー ディスク、ネットワーク ドライブ上に格納することはできません。ただし、フルテキスト カタログを格納した読み取り専用データベースに接続している場合を除きます。

ワード ブレーカ

指定した言語で、ワード ブレーカはその言語の語彙の規則に基づいてテキストをトークン化します。詳細については、「ワード ブレーカとステミング機能」を参照してください。

トークン

ワード ブレーカによって識別される語または文字列です。

ステミング機能

指定した言語に対し、ステミング機能によってその言語の規則に基づいて特定の語の変化形が生成されます。ステミング機能は言語によって異なります。詳細については、「ワード ブレーカとステミング機能」を参照してください。

フィルタ

ファイルの種類 (.doc など) が指定されると、フィルタは varbinary(max) または image 列に格納されたファイルからテキストを抽出します。詳細については、「フルテキスト検索フィルタ」を参照してください。

作成またはクロール

フルテキスト インデックスを作成し保持するプロセスです。詳細については、「フルテキスト インデックスの構造」を参照してください。

ノイズ語

頻繁に出現する、検索に役立たない語のことです。たとえば、英語ロケールでは、"a"、"and"、"is"、"the" などの語はノイズ語と見なされます。このような語は、フルテキスト インデックスが肥大化するのを防ぐため、無視されます。詳細については、「ノイズ語」を参照してください。

ms142581.note(ja-jp,SQL.90).gifメモ :
Microsoft Windows フェールオーバー クラスタ環境では、フルテキスト インデックス作成が全面的にサポートされます。

参照

概念

フルテキスト検索の概要

その他の技術情報

CREATE FULLTEXT INDEX (Transact-SQL)

ヘルプおよび情報

SQL Server 2005 の参考資料の入手