有关SQL server connection Keep Alive 的FAQ(3)
这个是SQL Server Keep Alive FAQ文章的最后一篇。
问题1:为什么我在客户端设置了KeepAlive值,但是我使用SQL server management studio 测试的时候,该值总是不起作用?
[答]目前市场上主流的数据库访问技术有ODBC,OLEDB,SQL native client 和 SQLclient。其中SQLclient是.NET里面使用的托管provider。目前SQL Server configuration manager里面提供的keepalive设置是针对SQL native client 的:
也就是说, 该值只对使用SQL Native Client 来访问数据库的程序有效。SQLcmd.exe是使用SQL native client来访问SQL server的一个命令行工具,所以您可以使用SQLCmd来测试上面的keepalive值。注意修改keepalive值后,你需要退出SQLcmd重新运行它才能使用新值。我在几组机器测试了几组不同的keepalive值,SQLcmd程序的TCP连接都很好按照设置的值发出keepalive网络包。注意你需要使用TCP连接服务器来测试。 我使用下面的连接串以保证使用TCP 连接:
SQLcmd -E -STCP:mycomputer\SQL2012,55890
(机器名:mycomputer,实例名:SQL2012,端口号 55890)
我使用network monitor 3.4捕获keepalive包如下图:
上图中深蓝高亮的是我挑出的由服务器TCP连接发给SQLcmd的keepalive包,每个包间隔30秒(时间间隔可以看time offset前后相减即可)。而上图间隔7秒的是SQLcmd的TCP连接发出的keepalive包。我测试中使用SQL server configuration manager设置了native client 的keepalive为7秒。从上面图也印证了服务器端的TCP连接和客户端的TCP连接各自发送自己的keepalive包,相互不影响。
注意, SQL Server native client的keepalive值存放在下面注册表里面:
HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\MSSQLServer\Client\SNIx.0\tcp\Property2
HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\MSSQLServer\Client\SNIx.0\tcp\Property3
那么SQL server management studio (ssms.exe)是使用.NET managed的SQLclient,所以上面针对native client的设置对SQLclient无效。SQL server management studio 使用了 hard-coded的30秒值,无法修改。
问题2. ODBC,SQL OLEDB,SQL native client和SQLClient的TCP keepalive缺省时间都是多少?在哪里可以设置?
[答]缺省值都是30秒。
可以修改如下注册表值来设置ODBC 和SQL OLEDB的keepalive值:
HKLM\SOFTWARE\Microsoft\MSSQLServer\Client\SuperSocketNetLib\Tcp ==> KeepAliveTime : DWORD : <dwValue>
HKLM\SOFTWARE\Microsoft\MSSQLServer\Client\SuperSocketNetLib\Tcp ==> KeepAliveInterval : DWORD : <dwValue>
注意如果是x64的机器,在上面运行32位的ODBC/SQL OLEDB程序,则需要修改如下注册表:
HKEY_LOCAL_MACHINE\SOFTWARE\Wow6432Node\Microsoft\MSSQLServer\Client\SuperSocketNetLib\TCP
对于SQLserver native client 和SQL server 的keep alive设置,可以在SQL server configuration manager 修改,具体请参考请参考FAQ (1)和FAQ (2)或问题1。
对于SQL client,需要在使用sqlclient的应用程序里面使用代码设置。
问题3:服务器端如果网线被拔掉,这对于那些已经存在的TCP连接会有什么影响?SQL server会马上关闭连接么?如果拔掉网线然后马上又插回去呢?
[答]这样问题复杂一些。当网线拔掉的时候,网卡首先获知该事件。Windows 2003以及后面的操作系统都实现了media sense 媒体感知功能。操作系统收到网卡发来的media sense 的断线(disconnect)事件后,如果在DisconnectDampInterval(一般是5-10秒)的时间内,网线连接还没有恢复,那么就会发送信息给侦听该网卡IP的连接。那么所有监听该IP的上层应用程序如SQL server 就会得到disconnect的事件,然后就会进行相应的动作如kill connection, rollback事务等。
具体点来说,SQL server 的网络IO是通过IOCP (IOCompletionPort)实现的。 SQL server在后台有几个专门的线程侦听该端口。这些线程调用GetQueuedCompletionStatus()函数得到网络数据状态,然后调用相应的callback函数(如ReadHandler函数)来做具体的数据处理。当网线断的时候,操作系统过了DisconnectDampInterval时间后,GetQueuedCompletionStatus函数就会得到disconnect信息,而callback函数readhandler就被调用来读取数据但实际上是读到disconnect的网络断事件。SQL server 得知该disconnect事件后,就生成一个task,该task就是做kill session的任务,把事务会滚,把连接(connection)关掉。
所以说,如果你在很快的时间内(几秒),拔掉网线马上插回来,那么SQL server的TCP连接(connection)会保持不会被关闭。
你或许会问,media sense功能如何disable呢?具体可以参考如下命令:
netsh interface ipv4 set global dhcpmediasense=disabled
netsh interface ipv6 set global dhcpmediasense=disabled
如何察看这些设置的命令如下:
netsh interface ipv4 show global
netsh interface ipv6 show global
回到keepalive。 如果SQL Server服务器的TCP的keepalive设置时间很短,小于DisconnectDampInterval -5时间值,那么SQL server会先于操作系统得知连接断线的状态而采取相应的动作。实际中不建议过短的keepalive值。
问题4:DisconnectDampInterval在哪里可以修改?有没有media sense的更多的信息?
[答]可以参考如下WinCE的文档:在
https://msdn.microsoft.com/en-US/library/ee486075(v=WinEmbedded.60).aspx
ConnectDampingInterval specifies the amount of time, in seconds, by which TCP/IP will delay any action in response to a Media Sense connect event.
DisconnectDampInterval specifies the amount of time, in seconds, by which TCP/IP will delay any action in response to a Media Sense disconnect event.
在非CE平台上该定义依然有效,不过,缺省值是5~10秒。可以修改如下注册表修改该值:
HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\services\Tcpip\Parameters
DisconnectDampInterval
ConnectDampInterval
这两个参数有最大最小值限制, Min = 5 seconds,Max = 10 seconds。
问题5:如下图SQL server的网络协议TCP的属性页为何没有keep alive interval选项?
[答]SQL server的网络协议TCP的keep alive interval是不能修改的,注册表也无法修改. SQL server源代码里面写定了1秒的时间间隔.
问题6:我的应用程序如何才能捕获keepalive机制侦测到的网络问题?
[答] 对于用户程序,你需要调用ExecuteSQL或类似的方法才能获知connection的真实状态. 如下面例子所示:
using (SqlConnection connection = new SqlConnection())
{
connection.ConnectionString ="Data Source=TCP:cn-simon-w7\\sql2012,55890;Initial Catalog=test;Integrated Security=true;pooling=false";
SqlCommand cmd = new SqlCommand();
cmd.CommandText = "select * from t";
cmd.Connection = connection;
cmd.CommandTimeout = 0;
try
{
connection.Open();
cmd.ExecuteNonQuery();
}
catch (Exception ex)
{
//do your work here for this exception
MessageBox.Show(ex.Message);
};
}
我做了小测试步骤如下:
1) 想办法阻塞 “select * from t”使得它不返回结果而处于等待状态。
2) 然后拔掉服务器网络线。
3) 然后过一会,我的catch语句捕获了错误:
你其实可以对ex对象做更多的处理,请参看有关编程文档,此处不多描述。