挖掘模型(Analysis Services - 数据挖掘)

本节介绍了数据挖掘模型的基本体系结构,概述了数据挖掘模型的属性,并说明了创建和处理挖掘模型的方式。

挖掘模型体系结构

定义挖掘模型

挖掘模型属性

挖掘模型列

处理挖掘模型

查看和查询挖掘模型

挖掘模型体系结构

数据挖掘模型从挖掘结构中获取数据,然后使用数据挖掘算法分析这些数据。挖掘结构和挖掘模型是单独的对象。挖掘结构存储定义数据源的信息。挖掘模型存储通过数据的统计处理而得到的信息,例如发现的模式,即分析结果。

在处理并分析挖掘结构所提供的数据之前,挖掘模型一直为空。在处理挖掘模型之后,该模型将包含元数据、结果和指回到挖掘结构的绑定。

模型包含元数据、模式和绑定

元数据指定模型的名称和存储模型的服务器以及模型的定义,包括生成模型时所使用的挖掘结构中的列的列表、处理模型时应用的可选筛选器的定义以及用于分析数据的算法。列、筛选器和算法的选择会极大地影响分析结果。例如,如果使用相同的数据创建聚类分析模型和决策树模型,两个模型的模型内容可能大不相同,因为这两个模型使用不同的算法和筛选器。有关详细信息,请参阅挖掘模型内容(Analysis Services - 数据挖掘)

模型中存储的结果因算法而异,但可以包括模式、项集、规则和公式。这些结果可用于进行预测。

模型中存储的绑定指回到挖掘结构中缓存的数据。如果已在结构中缓存数据,但在处理后未清除这些数据,则使用这些绑定可以从结果钻取到支持这些结果的事例。但是,实际数据存储在结构缓存中,而不是模型中。

[返回页首]

定义数据挖掘模型

您可以在下面的步骤创建一个数据挖掘模型:

  • 创建基础挖掘结构。

  • 选择一种算法。

  • 指定模型列和用法。

  • (可选)设置参数以微调算法所执行的处理。

  • 处理模型。

Analysis Services 提供下列可帮助您管理挖掘模型的工具:

  • 数据挖掘向导可帮助您创建结构和相关挖掘模型。这是最简单的使用方法。该向导自动创建所需的挖掘结构,并帮助您配置重要设置。

  • DMX CREATE MODEL 语句可用于定义模型。所需结构将作为过程的一部分自动创建;因此,不能利用该方法重用现有结构。如果您已确切知道要创建哪种模型,请使用此方法。

  • DMX ALTER STRUCTURE ADD MODEL 语句可用于向现有结构中添加新的挖掘模型如果要基于相同数据集试验不同模型,请使用此方法。

还可以通过编程方式、使用 AMO 或 XML/A 或者使用 Excel 数据挖掘客户端等其他客户端创建挖掘模型。有关更多信息,请参见下列主题:

分析管理对象 (AMO)

Analysis Services 脚本语言简介

数据挖掘扩展插件 (DMX) 参考

[返回页首]

挖掘模型属性

每个挖掘模型都具有用于定义该模型及其元数据的属性。这些属性可能包括名称、说明、上次处理模型的日期、对模型的权限以及针对用于定型的数据的任何筛选器。

每个挖掘模型还具有派生自挖掘结构且说明该模型使用的数据列的属性。如果列为嵌套表,则该列还可以应用单独的筛选器。

此外,每个挖掘模型还包含两个特殊属性:AlgorithmUsage

  • Algorithm 属性 指定创建模型所使用的算法。可用的算法取决于您所使用的访问接口。有关随 SQL Server Analysis Services 一起提供的算法的列表,请参阅数据挖掘算法(Analysis Services – 数据挖掘)。Algorithm 属性应用于挖掘模型,并且对于每个模型,只能设置该属性一次。以后您可以更改算法,但如果挖掘模型中的某些列不受您所选算法的支持,则这些列可能会无效。此外,在进行更改后,务必重新处理相应模型。

  • **Usage 属性   **定义模型使用每个列的方式。您可以将列用法定义为 Input、Predict、Predict Only 或 Key。Usage 属性应用于挖掘模型的各个列,且必须为模型中包含的每个列分别设置此属性。如果结构包含在模型中不使用的列,则用法设置为 Ignore。

创建挖掘模型后,您可以更改挖掘模型属性的值。但是,只要进行了更改(甚至包括对挖掘模型名称的更改),就需要重新处理模型。重新处理模型之后,可能会显示不同的结果。

[返回页首]

挖掘模型列

如挖掘结构一样,挖掘模型也包含列。可以选择要在模型中使用挖掘结构的哪些列。除使用基础挖掘结构中的列以外,您还可以创建挖掘结构列的副本,然后对其进行重命名或更改其用法。

根据选择的算法,挖掘结构中的某些列可能与模型不兼容,或者可能导致不良结果。应认真审查结构中的数据,并在模型中仅包含对分析有用的列。如果您认为不应当使用某个列,不需要从挖掘结构或挖掘模型中删除该列;您只需对该列设置一个标志,指定在生成模型时应忽略该列。这表示该列将保留在挖掘结构中,但不会在挖掘模型中使用;但是,如果启用了从模型到挖掘结构的钻取,则可以在以后从该列中检索信息。

在创建模型之后,可以进行添加或删除列等更改,或者更改模型的名称。但是,任何更改(甚至包括仅模型元数据的更改)后都需要重新处理模型。

有关详细信息,请参阅 挖掘结构列挖掘模型列

[返回页首]

处理挖掘模型

数据挖掘模型在处理之前是一个空对象。处理模型时,结构缓存的数据将通过筛选器进行传递(如果已在模型中定义了筛选器),并通过算法进行分析。算法确定数据中的规则和模式,然后使用这些规则和模式填充模型。有关如何使用算法创建挖掘模型的详细信息,请参阅数据挖掘算法(Analysis Services – 数据挖掘)

处理挖掘模型之后,挖掘模型还会存储有关分析结果的信息。有关在挖掘模型中存储的数据种类的详细信息,请参阅挖掘模型内容(Analysis Services - 数据挖掘)

[返回页首]

查看和查询挖掘模型

处理模型之后,您可以使用 Business Intelligence Development Studio 和 SQL Server Management Studio 中提供的自定义查看器来浏览此模型。有关 Analysis Services 中的自定义查看器的详细信息,请参阅查看数据挖掘模型

还可以针对挖掘模型创建查询以进行预测或检索由模型创建的模型元数据或模式。使用数据挖掘扩展插件 (DMX) 创建查询。有关可针对数据挖掘模型使用的不同查询类型的信息,请参阅查询数据挖掘模型(Analysis Services – 数据挖掘)