當前位置:才華齋>計算機>php語言>

php抓取https的內容的程式碼

php語言 閱讀(2.05W)

大家有時候需要獲取https網頁的內容,下面得方法,可以參考下。就跟隨本站小編一起去了解下吧,想了解更多相關資訊請持續關注我們應屆畢業生考試網!

php抓取https的內容的程式碼

直接用file_get_contents,會報錯;

  複製程式碼 程式碼如下:

$url = (");

file_get_contents($url);

錯誤:

Warning: file_get_contents() [-get-contents]: failed to open stream: No such file or directory in D:wampwwwgrabber_ on line 3

用curl的方式是可以的:

  複製程式碼 程式碼如下:

$url = ();

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL,$url);

curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);

curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);

$result = curl_exec($ch);

print_r($result);

?>

重點是以下兩句:

  複製程式碼 程式碼如下:

curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);

curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);

如對本文有疑問,請提交到交流社群,廣大熱心網友會為你解答!! 點選進入社群

為方便說明,先上程式碼吧

複製程式碼 程式碼如下:

/**

* curl POST

*

* @param string url

* @param array 資料

* @param int 請求超時時間

* @param bool HTTPS時是否進行嚴格認證

* @return string

*/

function curlPost($url, $data = array(), $timeout = 30, $CA = true){

$cacert = getcwd() . '/'; //CA根證書

$SSL = substr($url, 0, 8) == "https://" ? true : false;

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL, $url);

curl_setopt($ch, CURLOPT_TIMEOUT, $timeout);

curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout-2);

if ($SSL && $CA) {

curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, true); // 只信任CA頒佈的證書

curl_setopt($ch, CURLOPT_CAINFO, $cacert); // CA根證書(用來驗證的網站證書是否是CA頒佈)

curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 2); // 檢查證書中是否設定域名,並且是否與提供的主機名匹配

} else if ($SSL && !$CA) {

curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false); // 信任任何證書

curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 1); // 檢查證書中是否設定域名

}

curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);

curl_setopt($ch, CURLOPT_HTTPHEADER, array('Expect:')); //避免data資料過長問題

curl_setopt($ch, CURLOPT_POST, true);

curl_setopt($ch, CURLOPT_POSTFIELDS, $data);

//curl_setopt($ch, CURLOPT_POSTFIELDS, http_build_query($data)); //data with URLEncode

$ret = curl_exec($ch);

//var_dump(curl_error($ch)); //檢視報錯資訊

curl_close($ch);

return $ret;

}

如果URL地址是https打頭,那就走SSL,否則就走普通的HTTP協議。

是否走HTTPS的話就安全了嗎?其實SSL也有不同的驗證程度。

例如需不需要驗證證書中的公用名呢?(BTW:公用名(Common Name)一般來講就是填寫你將要申請SSL證書的域名 (domain)或子域名(sub domain)。)

  需要驗證主機名嗎?

是任何證書都信任呢還是隻信任CA頒佈的呢?

(我擦嘞,電池快沒點了,只撿關鍵地兒說了 - -|||)

如果網站SSL證書買的是CA的(通常比較貴),那麼訪問時可以使用比較嚴格的認證,即:

複製程式碼 程式碼如下:

curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, true); // 只信任CA頒佈的.證書

curl_setopt($ch, CURLOPT_CAINFO, $cacert); // CA根證書(用來驗證的網站證書是否是CA頒佈)

curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 2); // 檢查證書中是否設定域名,並且是否與提供的主機名匹配

如果網站的證書是自己生成的,或者是網上的小機構申請的,那麼訪問時如果使用嚴格認證則不會通過,直接返回false。(對了,返回false時可以列印curl_error($ch)檢視具體錯誤資訊。)此時可以根據情況通過降低驗證程度來保證正常訪問,例如:

  複製程式碼 程式碼如下:

curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false); // 信任任何證書

curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 1); // 檢查證書中是否設定域名(為0也可以,就是連域名存在與否都不驗證了)

平時我們使用瀏覽器訪問各個https網站時,有時會遇到證書不受信的提示,其實就是因為這些網站的證書不是正規CA機構頒佈的。

市面上各種瀏覽器中都內建了CA根證書列表資訊,訪問有CA頒佈證書的網站時,會根據根證書驗證這些網站的證書,所以就不會有這個提示了。

關於CA根證書檔案,其實就是包含了各個主要CA機構的公鑰證書,用來驗證網站的證書是否是這些機構頒發的。

這裡的這個檔案是來源於mozilla的原始碼樹,又轉換成PEM格式證書檔案。(大家可以到這裡下載現成的)

最後說一個和SSL無關的東西:

  複製程式碼 程式碼如下:

curl_setopt($ch, CURLOPT_HTTPHEADER, array('Expect:'));

這個主要是為了解決POST時資料過長問題