企业级搜索体系结构

Microsoft Office SharePoint Server 2007 企业级搜索是一个 Microsoft Office SharePoint Server 2007 共享服务,通过它可以进行广泛、可扩展的内容收集、索引和查询。该服务支持使用基于结构化查询语言 (SQL) 的查询语法进行全文搜索,并提供支持关键字搜索的新的关键字语法。

企业级搜索采用与 Windows SharePoint Services 搜索相同的基本搜索服务。

本主题提供了企业级搜索内部体系结构的相关信息,以及企业级搜索作为一种共享服务的相关信息。

内部体系结构

下图详细说明了搜索服务的内部体系结构。

搜索服务的内部体系结构

以下是搜索服务体系结构的各个组件。

  • 索引引擎   处理从内容源筛选出的文本块和属性块,将它们存储在内容索引和属性存储中。

  • 查询引擎   对内容索引和搜索配置数据执行关键字和 SQL 语法查询。

  • 协议处理程序   以内容源的本机协议打开内容源并公开要筛选的文档和其他项目。

  • IFilter   用本机格式打开文档和其他内容源项目并筛选为文本块和属性块。

  • 内容索引   存储单词及其在内容项中的位置的相关信息。

  • 属性存储    存储包含属性和关联值的表。

  • 搜索配置数据   存储搜索服务使用的信息,包括爬网配置、属性架构、范围等信息。

  • 分词系统   查询引擎和索引引擎用来将组合词和短语拆分成单个的单词或标记。

内容爬网

索引引擎使用共享内存的管道来请求筛选器端口监控程序开始筛选内容源。若要成功完成爬网过程,内容源必须具有一个可读取其协议的关联协议处理程序。筛选器端口监控程序根据索引引擎提供的起始地址为内容源调用适当的协议处理程序。筛选器端口监控程序使用协议处理程序和 IFilter 提取和筛选内容源中的单个项目。为每个文档应用适当的 IFilter,然后筛选器端口监控程序通过管道将提取的文本和元数据传递到索引引擎。

在内容爬网过程的这个阶段,索引引擎将文档属性存储到独立于内容索引的属性存储中。属性存储包含了一个属性及其值的表。可以对该存储中的属性进行检索和排序。此外,该存储还支持对属性进行简单查询。表中的每一行都对应全文检索中一个单独的文档。内容项的实际文本存储在内容索引中,因此可用于内容查询。属性存储还将维护并加强爬网文档时所收集的文档级安全性。

此时,索引引擎使用分词系统和词干分析器进一步处理爬网过程中收集的文本和属性。分词系统组件用于将文本拆分成单词和短语。分词系统组件用于生成给定单词的词尾变化形式。索引引擎还将删除干扰词并创建用于全文搜索的逆选索引。

搜索查询的执行

执行搜索查询时,查询引擎将查询传递到一个特定于语言的分词系统。如果没有用于该查询语言的分词系统,则使用非特定分词系统,该分词系统将进行空白样式分词,即在单词和短语中的空白处进行分词。分词后得到的单词将通过词干分析器以生成给定单词的特定于语言的词尾变化形式。在爬网和查询过程中采用分词系统和词干分析器可增强搜索效果,因为生成了更多用户查询句式的相关选项。查询引擎执行属性值查询时,会首先检查索引以获取可能的匹配项的列表。匹配文档的属性是从属性存储中加载的,并且查询中的属性将经过再次检查以确保存在匹配项。查询的结果是所有匹配结果的列表,按照它们与查询单词的关联度排序。如果用户不具有对某个匹配文档的权限,查询引擎将从返回的列表中筛选出该文档。

作为共享服务的搜索

共享服务是由其他应用程序使用的高价值应用程序。在 Office SharePoint Server 2007 逻辑体系结构中,共享服务提供程序 (SSP) 是一组共享服务和相关的共享资源。服务器场管理员可以创建并配置 SSP 来管理多项共享服务,以便场中的多个门户网站使用这些共享服务。然后,场管理员将 SSP 指定给一个门户网站。一个场可包含多个 SSP,但一个门户网站只能与一个 SSP 关联。一个 SSP 只能有特定共享服务的一个实例。

企业级搜索可管理性

在 SharePoint Portal Server 2003 中,您需要分别管理每个门户网站的爬网配置和内容索引。而在 企业级搜索 中,您可在 SSP 级别管理所有门户网站的爬网配置和内容索引,每个 SSP 具有一个内容索引和一个属性存储。这样可避免冗余索引,并对资源占用量大的操作(如索引管理)进行集中管理,从而增强了 企业级搜索 的可管理性。

备注

仍可在网站集级别配置某些搜索设置;有关详细信息,请参阅本主题的“网站级别搜索可管理性”部分。

下一部分将简要介绍 Office SharePoint Server 2007 中企业级搜索共享服务的各个部分。

内容源

内容源是起始地址的集合,这些起始地址表示搜索索引组件应爬网的内容。内容源还指定了定义爬网行为和内容爬网计划的设置。

企业级搜索默认提供几种类型的内容源,因此很容易将爬网配置到不同类型的数据(内部和外部数据)。以下是企业级搜索中的内容源类型:

  • SharePoint 内容

  • Web 内容

  • 文件共享内容

  • Exchange 文件夹内容

  • 业务数据内容

若需要添加其他类型的内容,您可以创建 企业级搜索 的自定义内容源和协议处理程序。

备注

您还可以使用 Lotus Notes 内容源,但默认情况下该内容源未经配置。

有关内容源的详细信息,请参阅内容源概述

共享范围

利用搜索范围,可以根据搜索范围中的内容项之间的共有元素将内容项分组。搜索范围使用户可以将搜索集中于索引中内容的子集,而不是搜索整个索引,从而帮助用户搜索到相关性较高的结果。企业级搜索支持从一个内容索引进行多样搜索,而范围在其中起着重要作用。创建搜索范围后,您可以添加范围规则并指定是包含还是排除与特定规则匹配的内容,从而定义将加入该搜索范围的内容。您可根据以下各项来定义范围规则:

  • 地址

  • 属性查询

  • 内容源

您可以在 SSP 级别或单个网站集级别创建并定义搜索范围。SSP 级别的搜索范围称为共享范围,可供所有被配置为使用特定 SSP 的网站使用。

有关搜索范围的详细信息,请参阅使用搜索范围

文档属性映射

企业级搜索架构包含两种类型的属性(爬网属性和托管属性)以及这两种属性之间的映射。

索引引擎在对内容进行爬网时将从内容项提取已爬网的属性。根据所使用的协议处理程序和 Ifilter,这些属性将被分组为不同的属性类别。例如,从业务数据目录中的内容爬网的属性将分组到业务数据类别中;从 2007 Microsoft Office 系统内容中爬网的属性将分组到 Office 类别中。

托管属性是搜索用户体验中的属性组,因此,若要在搜索功能中加入爬网属性值,必须将其映射到“文档”属性映射中的托管属性。托管属性是在 SSP 级别创建和管理的。有关详细信息,请参阅管理元数据

服务器映射

服务器名称映射是您可以配置的爬网设置,用于替代在内容添加入索引后搜索结果的显示或访问方式。例如,您可以将内容源配置为通过文件共享路径爬网网站,然后创建一个服务器名称映射项以将文件共享映射到网站的 URL。

包含的相关性

相关性设置会影响项目相关性排名的计算方法,而相关性排名会影响搜索结果在搜索结果列表中的显示顺序。提高搜索结果的相关性是本发行版的重点。企业级搜索中提供了经过更新的分级引擎,它经过优化,专门用于搜索企业内容和业务线 (LOB) 应用程序数据。

更新后的相关性计算中包含以下各项:

  • 单击距离

  • 超链接定位文本

  • URL 浏览深度

  • URL 文本匹配

  • 自动提取元数据

  • 自动检测语言

  • 文件类型相关性偏值

  • 增强的文本分析

有关企业级搜索相关性的详细信息,请参阅改进相关性

包含的文件类型

文件类型包含列表指定了爬网程序应在索引中添加或排除的文件类型。有关详细信息,请参阅定义爬网规则和文件类型 中的文件类型部分。

日志记录

查询日志

查询日志中记录的信息包括:

  • 所使用的查询术语。

  • 搜索查询是否返回了搜索结果。

  • 从搜索结果查看的页。

此搜索使用情况数据有益于了解用户使用搜索的情况以及用户要寻找的信息。该数据可帮助您找到改进用户搜索体验的方法。

爬网日志

爬网日志记录有关爬网内容状态的信息,其中包含了内容索引中每个项目的当前状态。您可以浏览并筛选爬网日志项以查看错误和警告等信息,这可以帮助您跟踪是否已将内容成功添加到索引。有关详细信息,请参阅使用爬网日志

网站级别搜索可管理性

大部分搜索体验都是在 SSP 级别进行管理的,但仍有某些设置可以在网站级别进行,包括:

  • 搜索范围

  • 关键字和最佳匹配

通过网站级别设置,网站管理员可以配置搜索用户体验,而不会对配置为使用同一 SSP 的其他网站的搜索体验造成负面影响。

搜索范围

如前面所述,搜索范围是根据该范围内各个项目的共有元素分组在一起的项目组,用户可使用它来扩大或缩小搜索的范围。SSP 级别的搜索范围称为共享范围。网站级别也可以使用搜索范围。在网站级别创建的搜索范围只有在创建搜索范围的网站以及首要网站内的子网站中才是可见的。

在网站级别管理搜索范围时,您可以创建并配置范围显示组。显示组按照搜索范围组在网站上的显示方式来组织搜索范围组。例如,如果 SSP 管理员在 SSP 级别创建了一个共享范围,并且您要在搜索框 Web 部件的范围下拉列表中显示该共享范围,那么您需要将新的共享范围添加到网站的搜索下拉列表显示组。有关如何操作的详细信息,请参阅如何:在搜索框和高级搜索 Web 部件中显示搜索范围

关键字和最佳匹配

关键字是网站管理员标识为重点的单词或短语。借助关键字,可在初始结果页上显示其他信息和建议的链接,特定单词或词组的搜索结果中可能不会显示这些信息。有关详细信息,请参阅管理关键字