跳到主要內容

Wicket - Websocket disconnection handling

Problem

造成Websocket突然斷線的原因很多,像是網路不穩定或是閒置過久遭server或是browser中斷連線等,都有可能導致接下來的工作不正常。因此我們需要方法去處理Websocket連線中斷的情況。本篇文章分享我們有使用過的解決方式,供大家參考。

How to?

我們Web框架使用Apache Wicket(6.22),而Server是Jetty(9.3.9)。我們最早使用的解法是在server side判斷連線狀態,但這並非百分之百的解決方式,所以最近改使用client side的解法。除此之外,ping&pong也是一種解決方法,但由於Wicket本身不支援,且套用send message去實作較複雜,因此不在本篇文章討論範圍內。

Handle On Server Side

我們在Server Side根據user request做處理,假如user request對應的Websocket連線已中斷,那我們就會透過AjaxRequestTarget送一個reload給client:

public class WebSocketCheckListener extends AbstractRequestCycleListener {
 
	@Override
	public void onRequestHandlerScheduled(RequestCycle cycle, IRequestHandler handler) {
		if (!(handler instanceof AjaxRequestTarget))
			return;
 
		AjaxRequestTarget target = (AjaxRequestTarget) handler;
		Page page = target.getPage();
 
		Application application = Application.get();
 
		IWebSocketSettings webSocketSettings = IWebSocketSettings.Holder.get(application);
		IWebSocketConnectionRegistry webSocketConnectionRegistry = webSocketSettings.getConnectionRegistry();
 
		IKey key = new PageIdKey(page.getPageId());
		IWebSocketConnection conn = webSocketConnectionRegistry.getConnection(application, page.getSession().getId(), key);
 
		if (conn == null || !conn.isOpen()) {
			target.appendJavaScript("location.reload()");
		}
	}
}

這做法很簡單,但server無法百分之百的偵測到連線中斷。我們就曾經在會議中,於切換完ip的電腦繼續使用我們的web;但由於Websocket斷線而造成後來的畫面無法正常顯示。因此我們開始考慮client side的作法。

Handle On Client Side

Wicket Websocket client的api可以參考link。在callback的event中,我們會希望發生網路問題或者是Websocket中斷時,closed與error的event會被呼叫,而我們也只需要處理這兩種訊息;然而經過我實際在chrome、firefox、ie11上,分別對client、server做網路連線中斷相關測試後,發現事與願違。

舉例來說,在我將server網路線拔除再插回去時,不會有任何事件發生,直到client發送訊息給server後,才會發生closed event。面對這樣問題,我就需要透過send message來偵測Websocket是否斷線。

首先讓我們處理最簡單的部分,error event。目前只會發生在網路有問題的情況,因此處理很簡單,就是重新連線。在這裡我使用了一個名為isWSConnected的變數,是用來區別websocketed是否已處於連線的狀態: (假如我可以改Wicket的js,我不會想這麼做)

Wicket.Event.subscribe("/websocket/error", function(jqEvent) {
	isWSConnected = false;
	Wicket.WebSocket.close();
	Wicket.WebSocket.createDefaultConnection();
});

在成功建立連線後,我們server會給client發送訊息,因此針對message event我們會將isWSConnected設為true;假如你把isWSConnected設定放在open event中,有可能Websocket會是處於連線中的狀態:

Wicket.Event.subscribe("/websocket/message", function(jqEvent, message) {
	isWSConnected = true;
	// handle message
});

closed event的部分我最後再說明,請讓我先說明連線偵測的部分。由於我們的操作都是屬於ajax的request,且偵測做在client有請求時才發送會比定時發送有效率;因此我們將這個檢查放在ajax請求前的事件中,主要做以下幾件事情:

  1. 連線關閉時,重新建立連線;此時Wicket.WebSocket.INSTANCE未被初始化。
  2. 假如Wicket.WebSocket.INSTANCE有被初始化,但isWSConnected為false,代表正在建立連線中。我們會略過偵測動作。
  3. 最後是透過Wicket.WebSocket.send發送訊息給server,以確認網路狀態。詳細內容後面說明。

Wicket.Event.subscribe('/ajax/call/beforeSend', function(jqEvent, attributes, jqXHR, errorThrown, textStatus) {
	if( !Wicket.WebSocket.INSTANCE ){
		Wicket.WebSocket.createDefaultConnection();
	} else {
		if( !isWSConnected ) {
			console.log('websocket is connecting..');
			return;
		}
 
		try {
			Wicket.WebSocket.send('ping');
			_lastSendPing = new Date();
		} catch(e) {
			console.log(e.messsage);
			Wicket.WebSocket.close();
			Wicket.WebSocket.createDefaultConnection();
		}
	}
});

Wicket.WebSocket.send後,有可能會發生closed,也有可能會發生error,也有可能會拋例外;這時大家可能會問: 為何你closed event不直接像其它案例一樣,重新建立連線就好? 這是由於我們希望使用者在一段時間沒任何操作後,會自動登出系統;然而重新建立連線的動作,是會延展session時間而導致不會timeout,因此我們僅在使用者有操作後的closed event才會重新建立連線。最後就是對closed event的處理:

Wicket.Event.subscribe("/websocket/closed", function(jqEvent) {
	isWSConnected = false;
	Wicket.WebSocket.close();
	if( !_lastSendPing ) {
		return;
	}
 
	var isPingExpired = (new Date()- _lastSendPing) >= 10*1000;
	_lastSendPing = null;
	if( isPingExpired ){
		return;
	}
 
	Wicket.WebSocket.createDefaultConnection();
});

這裡搭配偵測斷線的動作,假如在send message後的10秒內發生closed,就會重新連線。這裡使用Date而不用Boolean是考慮到send message正常,但因其它原因closed時,flag為true而做了非預期的重新連線。假如send message能夠做成callback method,會比較理想,否則使用我目前的方法實做會較容易。

希望以上內容對大家有幫助。

Reference

留言

這個網誌中的熱門文章

解決RobotFramework從3.1.2升級到3.2.2之後,Choose File突然會整個Hand住的問題

考慮到自動測試環境的維護,我們很久以前就使用java去執行robot framework。前陣子開始處理從3.1.2升級到3.2.2的事情,主要先把明確的runtime語法錯誤與deprecate item處理好,這部分內容可以參考: link 。 直到最近才發現,透過SeleniumLibrary執行Choose File去上傳檔案的動作,會導致測試案例timeout。本篇文章主要分享心路歷程與解決方法,我也送了一條issue給robot framework: link 。 我的環境如下: RobotFramework: 3.2.2 Selenium: 3.141.0 SeleniumLibrary: 3.3.1 Remote Selenium Version: selenium-server-standalone-3.141.59 首先並非所有Choose File的動作都會hang住,有些測試案例是可以執行的,但是上傳一個作業系統ISO檔案一定會發生問題。後來我透過wireshark去比對新舊版本的上傳動作,因為我使用 Remote Selenium ,所以Selenium會先把檔案透過REST API發送到Remote Selenium Server上。從下圖我們可以發現,在3.2.2的最後一個TCP封包,比3.1.2大概少了500個bytes。 於是就開始了我trace code之路。包含SeleniumLibrary產生要送給Remote Selenium Server的request內容,還有HTTP Content-Length的計算,我都確認過沒有問題。 最後發現問題是出在socket API的使用上,就是下圖的這支code: 最後發現可能因為開始使用nio的方式送資料,但沒處理到尚未送完的資料內容,而導致發生問題。加一個loop去做計算就可以解決了。 最後我有把解法提供給robot framework官方,在他們出新的版本之前,我是將改完的_socket.py放在我們自己的Lib底下,好讓我們測試可以正常進行。(shutil.py應該也是為了解某個bug而產生的樣子..)

Show NIC selection when setting the network command with the device option

 Problem  在answer file中設定網卡名稱後,安裝時會停在以下畫面: 所使用的command參數如下: network --onboot = yes --bootproto =dhcp --ipv6 =auto --device =eth1 Diagnostic Result 這樣的參數,以前試驗過是可以安裝完成的。因此在發生這個問題後,我檢查了它的debug console: 從console得知,eth1可能是沒有連接網路線或者是網路太慢而導致的問題。後來和Ivy再三確認,有問題的是有接網路線的網卡,且問題是發生在activate階段: Solution 我想既然有retry應該就有次數或者timeout限制,因此發現在Anaconda的說明文件中( link ),有提到dhcptimeout這個boot參數。看了一些人的使用範例,應該是可以直接串在isolinux.cfg中,如下: default linux ksdevice = link ip =dhcp ks =cdrom: / ks.cfg dhcptimeout = 90 然而我在RHEL/CentOS 6.7與6.8試驗後都無效。 因此我就拿了顯示的錯誤字串,問問Google大師,想找一下Anaconda source code來看一下。最後找到別人根據Anaconda code修改的版本: link ,關鍵在於setupIfaceStruct函式中的setupIfaceStruct與readNetConfig: setupIfaceStruct: 會在dhcp時設定dhcptimeout。 readNetConfig: 在writeEnabledNetInfo將timeout寫入dhclient config中;在wait_for_iface_activation內會根據timeout做retry。 再來從log與code可以得知,它讀取的檔案是answer file而不是boot command line。因此我接下來的測試,就是在answer file的network command上加入dhcptimeout: network --onboot = yes --bootproto =dhcp --ipv6 =auto --device =eth1 --...

Robot Framework - Evaluate該怎麼用?

Evaluate該怎麼用? 前言 Builtin的RobotFramework Library提供了Evaluate Keyword。它所提供的功能是「執行Python描述句」。但實際上到底有什麼用途呢?原本我僅僅拿來將string轉為int的功用,經過一些查詢與試驗,我將心得整理給大家。 Builtin Builtin的function可以參考Library Doc for Evaluate。我以有使用過的function做說明。 數字轉換 Python提供了int、long、float與complex等function讓你可以將字串轉為數字,也可以透過它們做四則運算。首先以字串轉數字為例,我將8設於${num_str}中,再透過Evaluate+int轉為數字。這裡必須注意的是: 「int()中放變數必須以單引號'括起」。否則,假如你設定的數字為08,在轉換int時會出現Syntax Error。 ${num_str} | Set Variable | 8 ${num} | Evaluate | int('${num_str}') 其中int與long的第二個參數為base,這是根據你的input所決定: Comment | num = 9 ${num} | Evaluate | int('11', 8) Comment | num = 11 ${num} | Evaluate | int('11', 10) Comment | num = 17 ${num} | Evaluate | int('11', 16) 其它還有像bin、oct、hex,可以將整數轉為2、8、16進位。 運算 四則運算: 直接將運算子加上即可: ${num} | Evaluate | int('${hour}')*60 + int('${min}') 指數: 可以用pow。以下面兩個例子來說,第一個是2的3次方為8,第二個是2的3次方再mod 7為1。需注意的是: 「傳入值必須是數字不可為字串」。 ${num} | Evaluate | pow(2,3) ${num} | Evaluate | pow(2,3,7) 取最大最小值: 使用max/min,可以選擇丟一個array的方式...