昨天面试,让写一个小脚本,抓取http://www.newegg.com.cn相关产品的数据。以下是笔者的实现思路。

笔者要从以下两方面入手分析:

1. 如何提交数据
      首先是接受数据表单所在的页面,一般都是首页。其次,分析表单是通过POST还是GET提交数据,新蛋使用的是GET提交数据。最后,如果使用的是GET方法,那么需要找到参数所附的URL是什么,新蛋的是http://www.newegg.com.cn/Product/ProductSearchAdvanced.aspx

2. 返回数据的结构
      根据查看返回的源代码,笔者认为,新蛋返回的数据结构比较清晰。比如,产品列表块儿就有id标识,而产品标题使用h3标识,这些都方便了DOM解析。

      经过笔者简单分析,用不到POST传递参数,那么FOPEN()/cURL/SOCKET均可实现数据抓取(三者区别笔者会在后续的博文中详述),这里采用cURL技术;而数据的处理,可以使用正则表达式和DOM类来实现,由于数据结构清晰,使用DOM类足够,正则表达式同样可以做到,但是效率不高(关于正则表达式的使用,笔者会在后续的博文中详述),这里不采用。

编码实现

1. 功能实现用到的函数
Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
 
/**
 * 抓取web数据,并以UTF-8格式返回结果
 */
function catchWebPage($url){
$curl	= curl_init($url);
curl_setopt($curl, CURLOPT_FAILONERROR,1);
curl_setopt($curl, CURLOPT_FOLLOWLOCATION,1);
curl_setopt($curl, CURLOPT_RETURNTRANSFER,1);
curl_setopt($curl, CURLOPT_TIMEOUT,10);
curl_setopt($curl, CURLOPT_BINARYTRANSFER,1);
$r		= curl_exec($curl);
curl_close($curl);
 
$r	= iconv('gb2312','utf-8',$r);
//$r	= mb_convert_encoding($r, 'utf-8','gb2312');
$r	= str_replace('<meta http-equiv="Content-Type" content="text/html; charset=gb2312">','',$r);
$r	= str_replace('<head>','</head><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8">',$r);
return $r;
}
 
/**
 * 统计出页面数量
 */
function catchProductPages($r) {
$dom	= new DOMDocument();
@$dom->loadHTML($r);
$pages	= $dom->getElementsByTagName('em');
foreach($pages as $page) {
	$pageNo	= $page->nodeValue;
}
$pageNo	= substr($pageNo,1);
return $pageNo;
$dom->saveHTML();
}
 
/**
 * 使用DOM树方式处理并展示抓取结果
 */
function displayProduct($r) {
$dom	= new DOMDocument();
@$dom->loadHTML($r);
$pages	= $dom->getElementsByTagName('em');
foreach($pages as $page) {
	$pageNo	= $page->nodeValue;
}
$pageNo	= substr($pageNo,1);
$products	= $dom->getElementById('products');
$productlist	= $products->getElementsByTagName('dl');
foreach($productlist as $product){
	$productName	= $product->getElementsByTagName('dd')->item(1)->getElementsByTagName('h3')->item(0)->nodeValue;
	$productInfos	= $product->getElementsByTagName('dd')->item(1)->getElementsByTagName('ul')->item(0)->getElementsByTagName('li');
	$productImage	= $product->getElementsByTagName('dd')->item(0)->getElementsByTagName('img')->item(0)->getAttribute('src');
	$productPrice	= $product->getElementsByTagName('dd')->item(1)->getElementsByTagName('ul')->item(1)->getElementsByTagName('li')->item(1)->nodeValue;
	echo "<p style='clear:both;border-bottom:1px #ccc solid;height:100px;'>",'<span style="float:right;margin-left:20px;">',$productPrice,"</span>","<img src="$productImage" style="float:left;"/>";	
	echo $productName,'<br /><br />';
	foreach($productInfos as $productInfo) {
		echo '<span style="margin:auto 10px;">',$productInfo->nodeValue,'</span>';
	}
	echo '</p>';
}
$dom->saveHTML();
}
</meta></head></meta>

2. 数据提交表单

Code:

1
2
3
4
5
6
7
8
9
10
11
<form method="post" action="&lt;?=strip_tags($_SERVER['PHP_SELF']) ?&gt;">
<select name="brand">
<option value="sony">Sony</option>
<option value="canon">Canon</option>
</select>
<select name="product">
	<option value="数码相机">数码相机</option>
	<option value="笔记本">笔记本</option>
</select>
<input type="submit" value="submit" />
</form>

3. 函数调用

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
 
$brand	= $_POST['brand'];
$proName= $_POST['product'];
 
$keyWord	= urlencode(iconv('utf-8','gb2312',$proName));
$keyWord	= $brand.'+'.$keyWord;
$url	= "http://www.newegg.com.cn/Product/ProductSearchAdvanced.aspx?keyWord={$keyWord}";
 
$r	= catchWebPage($url);
displayProduct($r);
$pageAll	= catchProductPages($r);
for($i=2; $i< =$pageAll; $i++) {
	$urlTemp	= $url.'&pageIndex='.$i;
	$r		= catchWebPage($urlTemp);
	displayProduct($r);
}

      在使用DOM类时需要注意编码问题。新蛋网页是GB2312,cURL抓取后同样是GB2312,而DOM类默认只处理UTF-8格式编码。所以,使用cURL抓取后要转码。这部分可以参考Fwolf’s Blog《DOMDocument->loadHTML()处理中文的一点问题》,有很好解决方案。

      另外一个问题就是,curl默认只抓取当前页返回的数据,要想抓取所有数据,就需要获得页数,循环抓取每个分页的数据。具体可以参考第三部分代码。