當前位置:才華齋>計算機>php語言>

php中死鎖問題剖析

php語言 閱讀(6.85K)

導語:什麼是php死鎖呢?如何看待php死鎖問題呢?下面是小編給大家提供的php中死鎖問題剖析,大家可以參考閱讀,更多詳情請關注應屆畢業生考試網。

php中死鎖問題剖析

  發現問題

近期發現線上很多機器的磁碟空間報警, 且日誌檔案已經清理,但是磁碟空間沒有釋放。通過ps aux | grep php-cgi 發現, 很多程序的啟動時間在幾天到幾周甚至幾個月之前。我們線上的php-cgi都有最大執行次數的。一般在1天內都會重啟一次。初步結論,這些cgi程序有問題。

通過lsof -p [pid] 發現, 啟動時間很久的cgi程序中打開了一些日誌檔案控制代碼,並且沒有關閉。這些日誌檔案在檔案系統中已經刪除了。但是控制代碼沒關閉,導致磁碟空間沒有釋放。到此,磁碟空間異常的問題基本確定。是由於cgi沒有關閉檔案控制代碼造成的。

進一步分析程序, strace -p [pid], 發現所有異常的程序都阻塞與 fmutex 狀態。換句話所,異常的cgi程序死鎖了。程序死鎖導致開啟的檔案控制代碼沒有關閉,所以導致磁碟空間異常。

  為什麼cgi程序會死鎖呢?

  什麼是死鎖

學過作業系統的通同學,都瞭解多執行緒的概念。在多執行緒中訪問公共資源,需要對資源加鎖。訪問結束後,釋放鎖。如果沒有釋放鎖,那麼下一個執行緒來獲取資源的時候就會永遠都無法獲取資源的鎖,於是這個執行緒死鎖了。那麼CGI是多執行緒的公共資源訪問導致的死鎖嗎? 答案是NO。

1. CGI 是單執行緒程序,通過ps 就能看到。(程序狀態 Sl的才是多執行緒程序)。

2. 即使是多執行緒的,死鎖發生在PHP的shutdown過程中呼叫glibc 中time 函式的位置,不是php模組造成的.。而glibc 中的time相關函式是執行緒安全的,不會產生死鎖。

  那是什麼導致的死鎖呢?

通過分析linux中死鎖產生的機制,發現除了多執行緒會產生死鎖外,訊號處理函式同樣會產生死鎖。那麼cgi是由於訊號處理導致的死鎖嗎?在這之前介紹一個感念。

  函式的可重入性與訊號安全

函式可重入是指,無論第幾次進入該函式,函式都能正常執行並返回結果。那麼執行緒安全函式是可重入的嗎?答案是NO。 執行緒安全函式,在第一次訪問公共資源時,會獲取全域性鎖。如果函式沒有執行完成,鎖還沒釋放,此時程序被中斷。那麼在中斷處理函式中,再次訪問該函式,就會產生死鎖。那麼什麼樣的函式才可以在中斷處理函式中訪問呢? 除了沒有使用全域性鎖的函式,還有一些signal safe的系統呼叫可以使用。呼叫任何其他的非signal safe的函式都會產生不可預知的後果(比如 死鎖)。 詳見 man signal。在分析死鎖的原因前,我們先看看cgi執行的流程,分析其中有沒有產生死鎖的可能。

  PHP-CGI的執行流程

Glibc中的時間函式使用到了全域性鎖,保證函式的執行緒安全,但沒有保證訊號安全(signal safe)。經過之前的分析,我們初步懷疑死鎖是由於PHP-CGI程序接收到了一個訊號,然後在signal handle中執行了非signal safe的函式。主流程在中斷前,正在執行glibc中的時間函式。在函式獲取的鎖沒釋放前,進入中斷流程。而中斷過程中又訪問了glibc中的時間函式。於是導致了死鎖。

  PHP-CGI的執行流程,如下圖所示:

進一步分析發現,所有死鎖的cgi程序的sapi_global中都記錄了一個錯誤資訊

“Max execution timeout of 60 seconds exceeded”.

60s 是我們php-cgi中設定執行超時。所以我們確認了,cig在執行過程中的確產生了超時異常,然後由於longjmp進入了shutdown過程。在shutdown過程中訪問了glibc中的時間函式。導致了死鎖。

void zend_set_timeout(long seconds)

{

TSRMLS_FETCH();

EG(timeout_seconds) = seconds;

if(!seconds) {

return;

}

……

setitimer(ITIMER_PROF, &t_r, NULL);

signal(SIGPROF, zend_timeout); // 此處會呼叫zend異常處理函式

sigemptyset(&sigset);

sigaddset(&sigset, SIGPROF);

……

}

通過gdb除錯發現,所有PHP-CGI都阻塞在zend_request_shutdown中。zend_request_shutdown會呼叫使用者自定義的php指令碼中實現的shutdown函式。如果CGI執行超市,那麼定時器會產生SIGPROF訊號使執行流程中斷。如果此時指令碼剛好處於呼叫時間函式的狀態,且還沒有釋放鎖資源。然後執行流程進入了 timeout 函式,繼續跳轉到zend_request_shutdown。此時如果自定義的shutdown函式中訪問了時間函式。就會產生死鎖。我們從程式碼中找到了證據:

register_shutdown_function ('SimpleWebSvc:: shutdown’);

我們在php程式碼中使用qalarm系統,qalarm系統會在cgi執行結束(shutdown)的時候,注入一個鉤子函式,來分析cgi執行是否正常,如果不正常,則傳送報警資訊。而剛好qalarm的報警處理函式中訪問了時間函式。於是就有一定的概率產生死鎖。

  結論

通過上面的分析,我們找到了cgi死鎖產生的原因,是應為在signal handler中使用了非signal safe的函式,導致了死鎖。

  解決辦法

去掉或簡化qalarm註冊到shutdown中的鉤子函式。避免不安全的函式呼叫。