產(chǎn)品分類+
什么是TCP心跳機(jī)制
很多應(yīng)用層協(xié)議都有HeartBeat機(jī)制,通常是客戶端每隔一小段時(shí)間向服務(wù)器發(fā)送一個(gè)數(shù)據(jù)包,通知服務(wù)器自己仍然在線,并傳輸一些可能必要的數(shù)據(jù)。使用心跳包的典型協(xié)議是IM,比如QQ/MSN/飛信等協(xié)議。
心跳包之所以叫心跳包是因?yàn)椋核裥奶粯用扛艄潭〞r(shí)間發(fā)一次,以此來(lái)告訴服務(wù)器,這個(gè)客戶端還活著。事實(shí)上這是為了保持長(zhǎng)連接,至于這個(gè)包的內(nèi)容,是沒(méi)有什么特別規(guī)定的,不過(guò)一般都是很小的包,或者只包含包頭的一個(gè)空包。
在TCP的機(jī)制里面,本身是存在有心跳包的機(jī)制的,也就是TCP的選項(xiàng):SO_KEEPALIVE。系統(tǒng)默認(rèn)是設(shè)置的2小時(shí)的心跳頻率。但是它檢查不到機(jī)器斷電、網(wǎng)線拔出、防火墻這些斷線。而且邏輯層處理斷線可能也不是那么好處理。一般,如果只是用于保活還是可以的。
心跳包一般來(lái)說(shuō)都是在邏輯層發(fā)送空的echo包來(lái)實(shí)現(xiàn)的。下一個(gè)定時(shí)器,在一定時(shí)間間隔下發(fā)送一個(gè)空包給客戶端,然后客戶端反饋一個(gè)同樣的空包回來(lái),服務(wù)器如果在一定時(shí)間內(nèi)收不到客戶端發(fā)送過(guò)來(lái)的反饋包,那就只有認(rèn)定說(shuō)掉線了。
其實(shí),要判定掉線,只需要send或者recv一下,如果結(jié)果為零,則為掉線。但是,在長(zhǎng)連接下,有可能很長(zhǎng)一段時(shí)間都沒(méi)有數(shù)據(jù)往來(lái)。理論上說(shuō),這個(gè)連接是一直保持連接的,但是實(shí)際情況中,如果中間節(jié)點(diǎn)出現(xiàn)什么故障是難以知道的。更要命的是,有的節(jié)點(diǎn)(防火墻)會(huì)自動(dòng)把一定時(shí)間之內(nèi)沒(méi)有數(shù)據(jù)交互的連接給斷掉。在這個(gè)時(shí)候,就需要我們的心跳包了,用于維持長(zhǎng)連接,保活。
在獲知了斷線之后,服務(wù)器邏輯可能需要做一些事情,比如斷線后的數(shù)據(jù)清理呀,重新連接呀……當(dāng)然,這個(gè)自然是要由邏輯層根據(jù)需求去做了。
總的來(lái)說(shuō),心跳包主要也就是用于長(zhǎng)連接的保活和斷線處理。一般的應(yīng)用下,判定時(shí)間在30-40秒比較不錯(cuò)。如果實(shí)在要求高,那就在6-9秒。

心跳包的發(fā)送,通常有兩種技術(shù)
方法1:應(yīng)用層自己實(shí)現(xiàn)的心跳包
由應(yīng)用程序自己發(fā)送心跳包來(lái)檢測(cè)連接是否正常,大致的方法是:服務(wù)器在一個(gè) Timer事件中定時(shí) 向客戶端發(fā)送一個(gè)短小精悍的數(shù)據(jù)包,然后啟動(dòng)一個(gè)低級(jí)別的線程,在該線程中不斷檢測(cè)客戶端的回應(yīng), 如果在一定時(shí)間內(nèi)沒(méi)有收到客戶端的回應(yīng),即認(rèn)為客戶端已經(jīng)掉線;同樣,如果客戶端在一定時(shí)間內(nèi)沒(méi) 有收到服務(wù)器的心跳包,則認(rèn)為連接不可用。
方法2:TCP的KeepAlive保活機(jī)制
因?yàn)橐紤]到一個(gè)服務(wù)器通常會(huì)連接多個(gè)客戶端,因此由用戶在應(yīng)用層自己實(shí)現(xiàn)心跳包,代碼較多 且稍顯復(fù)雜,而利用TCP/IP協(xié)議層為內(nèi)置的KeepAlive功能來(lái)實(shí)現(xiàn)心跳功能則簡(jiǎn)單得多。 不論是服務(wù)端還是客戶端,一方開(kāi)啟KeepAlive功能后,就會(huì)自動(dòng)在規(guī)定時(shí)間內(nèi)向?qū)Ψ桨l(fā)送心跳包, 而另一方在收到心跳包后就會(huì)自動(dòng)回復(fù),以告訴對(duì)方我仍然在線。 因?yàn)殚_(kāi)啟KeepAlive功能需要消耗額外的寬帶和流量,所以TCP協(xié)議層默認(rèn)并不開(kāi)啟KeepAlive功 能,盡管這微不足道,但在按流量計(jì)費(fèi)的環(huán)境下增加了費(fèi)用,另一方面,KeepAlive設(shè)置不合理時(shí)可能會(huì) 因?yàn)槎虝旱木W(wǎng)絡(luò)波動(dòng)而斷開(kāi)健康的TCP連接。并且,默認(rèn)的KeepAlive超時(shí)需要7,200,000 MilliSeconds, 即2小時(shí),探測(cè)次數(shù)為5次。對(duì)于很多服務(wù)端應(yīng)用程序來(lái)說(shuō),2小時(shí)的空閑時(shí)間太長(zhǎng)。
因此,我們需要手工開(kāi)啟KeepAlive功能并設(shè)置合理的KeepAlive參數(shù)。 心跳檢測(cè)步驟:
1客戶端每隔一個(gè)時(shí)間間隔發(fā)生一個(gè)探測(cè)包給服務(wù)器
2客戶端發(fā)包時(shí)啟動(dòng)一個(gè)超時(shí)定時(shí)器
3服務(wù)器端接收到檢測(cè)包,應(yīng)該回應(yīng)一個(gè)包
4如果客戶機(jī)收到服務(wù)器的應(yīng)答包,則說(shuō)明服務(wù)器正常,刪除超時(shí)定時(shí)器
5如果客戶端的超時(shí)定時(shí)器超時(shí),依然沒(méi)有收到應(yīng)答包,則說(shuō)明服務(wù)器掛了

























