昨天面试,让写一个小脚本,抓取http://www.newegg.com.cn相关产品的数据。以下是笔者的实现思路。
笔者要从以下两方面入手分析:
1. 如何提交数据
首先是接受数据表单所在的页面,一般都是首页。其次,分析表单是通过POST还是GET提交数据,新蛋使用的是GET提交数据。最后,如果使用的是GET方法,那么需要找到参数所附的URL是什么,新蛋的是http://www.newegg.com.cn/Product/ProductSearchAdvanced.aspx。
2. 返回数据的结构
根据查看返回的源代码,笔者认为,新蛋返回的数据结构比较清晰。比如,产品列表块儿就有id标识,而产品标题使用h3标识,这些都方便了DOM解析。
经过笔者简单分析,用不到POST传递参数,那么FOPEN()/cURL/SOCKET均可实现数据抓取(三者区别笔者会在后续的博文中详述),这里采用cURL技术;而数据的处理,可以使用正则表达式和DOM类来实现,由于数据结构清晰,使用DOM类足够,正则表达式同样可以做到,但是效率不高(关于正则表达式的使用,笔者会在后续的博文中详述),这里不采用。
编码实现
1. 功能实现用到的函数
Code:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 | /** * 抓取web数据,并以UTF-8格式返回结果 */ function catchWebPage($url){ $curl = curl_init($url); curl_setopt($curl, CURLOPT_FAILONERROR,1); curl_setopt($curl, CURLOPT_FOLLOWLOCATION,1); curl_setopt($curl, CURLOPT_RETURNTRANSFER,1); curl_setopt($curl, CURLOPT_TIMEOUT,10); curl_setopt($curl, CURLOPT_BINARYTRANSFER,1); $r = curl_exec($curl); curl_close($curl); $r = iconv('gb2312','utf-8',$r); //$r = mb_convert_encoding($r, 'utf-8','gb2312'); $r = str_replace('<meta http-equiv="Content-Type" content="text/html; charset=gb2312">','',$r); $r = str_replace('<head>','</head><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8">',$r); return $r; } /** * 统计出页面数量 */ function catchProductPages($r) { $dom = new DOMDocument(); @$dom->loadHTML($r); $pages = $dom->getElementsByTagName('em'); foreach($pages as $page) { $pageNo = $page->nodeValue; } $pageNo = substr($pageNo,1); return $pageNo; $dom->saveHTML(); } /** * 使用DOM树方式处理并展示抓取结果 */ function displayProduct($r) { $dom = new DOMDocument(); @$dom->loadHTML($r); $pages = $dom->getElementsByTagName('em'); foreach($pages as $page) { $pageNo = $page->nodeValue; } $pageNo = substr($pageNo,1); $products = $dom->getElementById('products'); $productlist = $products->getElementsByTagName('dl'); foreach($productlist as $product){ $productName = $product->getElementsByTagName('dd')->item(1)->getElementsByTagName('h3')->item(0)->nodeValue; $productInfos = $product->getElementsByTagName('dd')->item(1)->getElementsByTagName('ul')->item(0)->getElementsByTagName('li'); $productImage = $product->getElementsByTagName('dd')->item(0)->getElementsByTagName('img')->item(0)->getAttribute('src'); $productPrice = $product->getElementsByTagName('dd')->item(1)->getElementsByTagName('ul')->item(1)->getElementsByTagName('li')->item(1)->nodeValue; echo "<p style='clear:both;border-bottom:1px #ccc solid;height:100px;'>",'<span style="float:right;margin-left:20px;">',$productPrice,"</span>","<img src="$productImage" style="float:left;"/>"; echo $productName,'<br /><br />'; foreach($productInfos as $productInfo) { echo '<span style="margin:auto 10px;">',$productInfo->nodeValue,'</span>'; } echo '</p>'; } $dom->saveHTML(); } </meta></head></meta> |
2. 数据提交表单
Code:
1 2 3 4 5 6 7 8 9 10 11 | <form method="post" action="<?=strip_tags($_SERVER['PHP_SELF']) ?>"> <select name="brand"> <option value="sony">Sony</option> <option value="canon">Canon</option> </select> <select name="product"> <option value="数码相机">数码相机</option> <option value="笔记本">笔记本</option> </select> <input type="submit" value="submit" /> </form> |
3. 函数调用
Code:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 | $brand = $_POST['brand']; $proName= $_POST['product']; $keyWord = urlencode(iconv('utf-8','gb2312',$proName)); $keyWord = $brand.'+'.$keyWord; $url = "http://www.newegg.com.cn/Product/ProductSearchAdvanced.aspx?keyWord={$keyWord}"; $r = catchWebPage($url); displayProduct($r); $pageAll = catchProductPages($r); for($i=2; $i< =$pageAll; $i++) { $urlTemp = $url.'&pageIndex='.$i; $r = catchWebPage($urlTemp); displayProduct($r); } |
在使用DOM类时需要注意编码问题。新蛋网页是GB2312,cURL抓取后同样是GB2312,而DOM类默认只处理UTF-8格式编码。所以,使用cURL抓取后要转码。这部分可以参考Fwolf’s Blog《DOMDocument->loadHTML()处理中文的一点问题》,有很好解决方案。
另外一个问题就是,curl默认只抓取当前页返回的数据,要想抓取所有数据,就需要获得页数,循环抓取每个分页的数据。具体可以参考第三部分代码。
十一月 28th, 2009 on 10:17 上午
挺有意思的, 前天给一个客户做产品宣讲的时候, 刚好他们也是要抓取newegg, 就用MetaSeeker工具包给他们整了一下
十二月 20th, 2009 on 2:34 上午
hello everybody
I am glad to found in google this place
big ass