索引统计信息
更新日期: 2006 年 12 月 12 日
SQL Server 2005 允许创建有关列中值的分布情况的统计信息。查询优化器使用这些统计信息并通过估计使用索引评估查询的开销来确定最佳查询计划。
创建统计信息后,数据库引擎对列值(根据这些值创建统计信息)进行排序,并根据这些值(最多 200 个,按间隔分隔开)创建一个“直方图”**。直方图指定有多少行精确匹配每个间隔值,有多少行在间隔范围内,以及间隔中值的密度大小或重复值的发生率。
SQL Server 2005 引入了对 char、varchar、varchar(max)、nchar、nvarchar、nvarchar(max)、text 和 ntext 列创建的统计信息收集的其他信息。这些信息称为“字符串摘要”**,可以帮助查询优化器估计字符串模式中查询谓词的选择性。查询中有 LIKE 条件时,使用字符串摘要可以更准确地估计结果集大小,并不断优化查询计划。这些条件包括诸如 WHERE ProductName LIKE '%Bike'
和 WHERE Name LIKE '[CS]heryl'
之类的条件。
注意: |
---|
如果列样本摘要的大小超过了数据库引擎可以维护的范围,则不对字符串摘要信息进行维护。例如,如果统计信息是使用 WITH FULLSCAN 对具有 85,000 行的表中唯一的 varchar(80) 列(每个字符串中有 80 个字符,字符串之间几乎没有相似性)创建的,则不对这些统计信息的字符串摘要进行维护。若要确定是否为特定的统计信息对象存储了字符串摘要,请使用 DBCC SHOW_STATISTICS (Transact-SQL)。 |
统计信息自动功能工作方式
创建索引时,查询优化器自动存储有关索引列的统计信息。另外,当 AUTO_CREATE_STATISTICS 数据库选项设置为 ON(默认值)时,数据库引擎自动为没有用于谓词的索引的列创建统计信息。
随着列中数据发生变化,索引和列的统计信息可能会过时,从而导致查询优化器选择的查询处理方法不是最佳的。例如,如果创建一个包含一个索引列和 1,000 行数据的表,每一行在索引列中的值都是唯一的,则查询优化器将把该索引列视为收集查询数据的好方法。如果更新列中的数据后存在许多重复值,则该列不再是用于查询的理想候选列。但是,查询优化器仍然根据索引的过时分布统计信息(基于更新前的数据),将其视为好的候选列。
注意: |
---|
在使用 SQL Server Management Studio 以图形方式显示查询的执行计划时,过时或缺少的统计信息将予以警告显示(表名称以红色文本显示)。有关详细信息,请参阅显示图形执行计划 (SQL Server Management Studio)。另外,使用 SQL Server Profiler 监视 Missing Column Statistics 事件类可以指明何时缺少统计信息。有关详细信息,请参阅 Errors and Warnings 事件类别(数据库引擎)。 |
当 AUTO_UPDATE_STATISTICS 数据库选项设置为 ON(默认值)时,查询优化器会在表中的数据发生变化时自动定期更新这些统计信息。每当查询执行计划中使用的统计信息没有通过针对当前统计信息的测试时就会启动统计信息更新。采样是在各个数据页上随机进行的,取自表或统计信息所需列的最小非聚集索引。从磁盘读取一个数据页后,该数据页上的所有行都被用来更新统计信息。常规情况是:在大约有 20% 的数据行发生变化时更新统计信息。但是,查询优化器始终确保采样的行数尽量少。对于小于 8 MB 的表,则始终进行完整扫描来收集统计信息。
采样数据(而不是分析所有数据)可以将统计信息自动更新的开销降至最低。在某些情况下,统计采样无法获得表中数据的精确特征。可以使用 UPDATE STATISTICS 语句的 SAMPLE 子句和 FULLSCAN 子句,控制按逐个表的方式手动更新统计信息时采样的数据量。FULLSCAN 子句指定扫描表中的所有数据来收集统计信息,而 SAMPLE 子句用来指定采样的行数百分比或采样的行数。
统计信息异步更新
启动更新过期统计信息的查询必须等待那些统计信息更新,之后才能编译并返回结果集。这会导致不可预知的查询响应时间,并可能导致应用程序因过长超时而失败。
在 SQL Server 2005 中,数据库选项 AUTO_UPDATE_STATISTICS_ASYNC 提供了统计信息异步更新功能。当此选项设置为 ON 时,查询不等待统计信息更新,即可进行编译。而过期的统计信息置于队列中,由后台进程中的工作线程来更新。查询和任何其他并发查询都通过使用现有的过期统计信息立即编译。由于不存在等待更新后的统计信息的延迟,因此查询响应时间可预测;但是过期的统计信息可能导致查询优化器选择低效的查询计划。在更新后的统计信息就绪后启动的查询将使用那些统计信息。这可能会导致重新编译缓存的计划(取决于较旧的统计信息版本)。如果在同一个显式用户事务中出现某些数据定义语言 (DDL) 语句(例如,CREATE、ALTER 和 DROP 语句),则无法更新异步统计信息。
AUTO_UPDATE_STATISTICS_ASYNC 选项设置于数据库级别,并确定用于数据库中所有统计信息的更新方法。它只适用于统计信息更新,而无法用于以异步方式创建统计信息。只有将 AUTO_UPDATE_STATISTICS 设置为 ON 时,将此选项设置为 ON 才有效。默认情况下,AUTO_UPDATE_STATISTICS_ASYNC 选项设置为 OFF。有关设置此选项的详细信息,请参阅 ALTER DATABASE (Transact-SQL)。
在将数据库设置为 SINGLE_USER 之前,应验证 AUTO_UPDATE_STATISTICS_ASYNC 选项设置为 OFF。设置为 ON 时,用于更新统计信息的后台线程将与数据库建立连接,您将无法以单用户模式访问数据库。如果此选项设置为 ON,请执行以下任务:
- 将 AUTO_UPDATE_STATISTICS_ASYNC 设置为 OFF。
- 通过查询 sys.dm_exec_background_job_queue 动态管理视图来检查活动的异步统计信息作业。
- 如果存在活动的作业,可以允许作业完成或通过使用 KILL STATS JOB 来手动终止这些作业。
最佳实践注意事项
如果您的应用程序出现以下情况,应考虑将 AUTO_UPDATE_STATISTICS_ASYNC 选项设置为 ON。
- 遇到由一个或多个等待更新后的统计信息的查询导致的客户端请求超时。
- 请求可预测查询响应时间,即使存在偶尔运行执行因过期统计信息导致的低效查询计划的查询的情况。
查看异步更新统计信息属性
若要查看 AUTO_UPDATE_STATISTICS_ASYNC 选项的 ON 或 OFF 状态,请从 sys.databases 目录视图中选择 is_auto_update_stats_async_on 列。有关详细信息,请参阅 sys.databases (Transact-SQL)。
若要查看统计信息是否已经置于队列中等待更新或正在更新,请使用 sys.dm_exec_background_job_queue 动态管理视图。统计信息中,列 object_id1 为表或视图 ID,列 object_id2 为统计信息 ID。sys.dm_exec_background_job_queue_stats 动态管理视图用于查看所有后台作业队列的聚合统计信息,例如等待执行的作业请求数、失败的请求数以及以前提交的请求的平均执行时间。
禁用统计信息自动功能
可以按照以下方式针对特定列或索引禁用统计信息自动生成功能。
- 使用 sp_autostats 系统存储过程。
- 使用 CREATE INDEX 语句的 STATISTICS_NORECOMPUTE 子句。
- 使用 UPDATE STATISTICS 语句的 NORECOMPUTE 子句。
- 使用 CREATE STATISTICS 语句的 NORECOMPUTE 子句。
- 使用 ALTER DATABASE 语句将 AUTO_CREATE_STATISTICS 和 AUTO_UPDATE_STATISTICS 数据库选项设置为 OFF。有关详细信息,请参阅设置数据库选项。
如果指示数据库引擎不要自动维护统计信息,则必须手动更新统计信息。
注意: |
---|
除非指定了 NORECOMPUTE 子句,否则 UPDATE STATISTICS 语句将重新启用统计信息自动更新功能。 |
手动创建与更新统计信息
还可以使用系统存储过程 sp_createstats 以一个语句对当前数据库中所有用户表的适于统计的列创建统计信息。可以使用 CREATE STATISTICS 语句对特定表或视图列创建统计信息,并使用 UPDATE STATISTICS 语句更新统计信息。可以对与索引无关的表或视图创建的最大统计信息数为 2000。对于任何可以作为索引键的列或列的组合,都可以创建统计信息,但以下情况除外:
- 可以指定大型对象类型列(xml 除外)。可以指定 varchar(max)、nvarchar(max)、varbinary(max)、image、text 和 ntext 类型。
- 允许的组合列值最大大小可以超过 900 字节的限制(对索引键值强制实施该限制)。
如果不再需要保留和维护为一个列生成的统计信息,可以删除这些统计信息。
手动创建统计信息时可以创建包含多个列密度的统计信息。这些是列组合的平均重复数。例如,一个查询包含子句 WHERE a = 7 and b = 9
。
对两列一起(a
和 b
)手动创建统计信息,可以使数据库引擎更好地估计查询,因为统计信息还包含 a
列和 b
列组合的平均非重复值数。
对列创建统计信息
CREATE STATISTICS (Transact-SQL)
对所有用户表中所有适于统计的列创建统计信息
手动更新统计信息
UPDATE STATISTICS (Transact-SQL)
查看表的统计信息
DBCC SHOW_STATISTICS (Transact-SQL)
删除列的统计信息
DROP STATISTICS (Transact-SQL)
将数据库升级至 SQL Server 2005 后使用统计信息
将数据库从早期版本的 SQL Server 升级至 SQL Server 2005 后,早期版本的所有统计信息都被视为过时。因此在第一次使用时,按照 AUTO_UPDATE_STATISTICS 数据库选项,符合更新条件的统计信息通过使用默认的采样速率来更新。此功能作用非常突出,通常用户不必执行任何操作。但在下列极少数情况下,此功能可导致统计信息不太准确:如果统计信息在早期版本的 SQL Server 中是使用 FULLSCAN 或其他高采样速率手动计算的;如果抽样表大于 8 MB,并且数据分发不是随机进行的。实际上,使用 AUTO_UPDATE_STATISTICS 执行操作时,对于大于 8 MB 的表的 FULLSCAN 统计信息,采样速率总是会降低。只在升级至新版本的 SQL Server 后的早期阶段才会执行统计信息初始更新。
将统计信息升级至 SQL Server 2005 格式的好处在于,采用特定采样速率获得的 SQL Server 2005 统计信息的质量通常比那些在 SQL Server 2000 和更早版本中获得的统计信息的质量高。另外,如前所述,SQL Server 2005 为字符列创建特殊的字符串摘要统计信息。有关 SQL Server 2005 中统计信息的详细信息,请参阅此 Microsoft 网站。
最佳实践注意事项
在大多数情况下,在升级数据库后,不必执行有关统计信息的任何特殊操作。但是,如果有一个对性能要求较高的大型数据库,建议升级后使用 RESAMPLE 选项运行 sp_updatestats (Transact-SQL)。这将保留早期的采样速率,并将所有统计信息更新至最新的格式。注意,在索引创建过程中创建的统计信息是使用 FULLSCAN 采样速率创建的。由于使用了 AUTO_UPDATE_STATISTICS,这些统计信息和其他 FULLSCAN 统计信息在更新时使用默认的采样速率。如果您不想通过运行 sp_updatestats 来更新所有统计信息,请考虑在数据库升级后使用 UPDATE STATISTICS 有选择地更新有关索引的统计信息和其他采用 FULLSCAN 采样速率获得的 FULLSCAN 统计信息。
请参阅
概念
其他资源
CREATE INDEX (Transact-SQL)
查询优化
sp_autostats (Transact-SQL)
帮助和信息
更改历史记录
发布日期 | 历史记录 |
---|---|
2006 年 12 月 12 日 |
|
2005 年 12 月 5 日 |
|