使用Python的Scrapy框架编写web爬虫的简单示例 - 哈喽比特

852次阅读 | 发布于6年以前

在这个教材中,我们假定你已经安装了Scrapy。假如你没有安装,你可以参考这个安装指南。

我们将会用开放目录项目(dmoz)作为我们例子去抓取。

这个教材将会带你走过下面这几个方面:

```
创造一个新的Scrapy项目
```
定义您将提取的Item
编写一个蜘蛛去抓取网站并提取Items。
编写一个Item Pipeline用来存储提出出来的Items

Scrapy由Python写成。假如你刚刚接触Python这门语言,你可能想要了解这门语言起,怎么最好的利用这门语言。假如你已经熟悉其它类似的语言,想要快速地学习Python,我们推荐这种深入方式学习Python。假如你是新手,想从开始使用Python学习,可以尝试去看看非程序员Python资源列表。

创造一个项目

在你要抓取之前,首先要建立一个新的Scrapy项目。然后进去你的存放代码目录,执行如下命令。


    scrapy startproject tutorial

它将会创建如下的向导目录:

复制代码 代码如下:

tutorial/
scrapy.cfg
tutorial/
init.py
items.py
pipelines.py
settings.py
spiders/
init.py
...

这是一些基本信息:

```
scrapy.cfg: 项目的配置文件。
```
tutorial/: 项目的python模块, 在这里稍后你将会导入你的代码。
tutorial/items.py: 项目items文件。
tutorial/pipelines.py: 项目管道文件。
tutorial/settings.py: 项目配置文件。
tutorial/spiders/: 你将要放入你的spider到这个目录中。

定义我们的Item

Items是装载我们抓取数据的容器。它们工作像简单的Python字典,它提供更多的保护,比如对未定义的字段提供填充功能防止出错。

它们通过创建scrapy.item.Item类来声明并定义它们的属性作为scrapy.item.Field 对象,就像是一个对象关系映射(假如你不熟悉ORMs,你将会看见它是一个简单的任务).

我们将需要的item模块化,来控制从demoz.org网站获取的数据,比如我们将要去抓取网站的名字,url和描述信息。我们定义这三种属性的域。我们编辑items.py文件,它在向导目录中。我们Item类看起来像这样。


    from scrapy.item import Item, Field

    class DmozItem(Item):
     title = Field()
     link = Field()
     desc = Field()

这个看起来复杂的,但是定义这些item能让你用其他Scrapy组件的时候知道你的item到底是什么

我们第一个Spider

Spiders是用户写的类,它用来去抓取一个网站的信息(或者一组网站) 。
我们定义一个初始化的URLs列表去下载,如何跟踪链接,如何去解析这些页面的内容去提取 items.创建一个Spider,你必须是scrapy.spider.BaseSpider的子类, 并定义三个主要的,强制性的属性。

[名字](http://doc.scrapy.org/en/0.16/topics/spiders.html#scrapy.spider.BaseSpider.name): Spider的标识. 它必须是唯一的, 那就是说,你不能在不同的Spiders中设置相同的名字。

[开始链接](http://doc.scrapy.org/en/0.16/topics/spiders.html#scrapy.spider.BaseSpider.start_urls):Spider将会去爬这些URLs的列表。所以刚开始的下载页面将要包含在这些列表中。其他子URL将会从这些起始URL中继承性生成。

[parse() ](http://doc.scrapy.org/en/0.16/topics/spiders.html#scrapy.spider.BaseSpider.parse)是spider的一个方法, 调用时候传入从每一个URL传回的[Response](http://doc.scrapy.org/en/0.16/topics/request-response.html#scrapy.http.Response)对象作为参数。response是方法的唯一参数。

这个方法负责解析response数据和提出抓取的数据(作为抓取的items),跟踪URLs

parse()方法负责处理response和返回抓取数据(作为Item对象) 和跟踪更多的URLs(作为request的对象)

这是我们的第一个Spider的代码;它保存在moz/spiders文件夹中,被命名为dmoz_spider.py：


    from scrapy.spider import BaseSpider

    class DmozSpider(BaseSpider):
     name = "dmoz"
     allowed_domains = ["dmoz.org"]
     start_urls = [
      "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
      "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
     ]

     def parse(self, response):
      filename = response.url.split("/")[-2]
      open(filename, 'wb').write(response.body)

爬

为了使你的spider工作, 到项目的顶级目录让后运行:


    scrapy crawl dmoz

crawl dmoz命令使spider去爬dmoz.org网站的信息。你将会得到如下类似的信息:


    2008-08-20 03:51:13-0300 [scrapy] INFO: Started project: dmoz
    2008-08-20 03:51:13-0300 [tutorial] INFO: Enabled extensions: ...
    2008-08-20 03:51:13-0300 [tutorial] INFO: Enabled downloader middlewares: ...
    2008-08-20 03:51:13-0300 [tutorial] INFO: Enabled spider middlewares: ...
    2008-08-20 03:51:13-0300 [tutorial] INFO: Enabled item pipelines: ...
    2008-08-20 03:51:14-0300 [dmoz] INFO: Spider opened
    2008-08-20 03:51:14-0300 [dmoz] DEBUG: Crawled <http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/> (referer: <None>)
    2008-08-20 03:51:14-0300 [dmoz] DEBUG: Crawled <http://www.dmoz.org/Computers/Programming/Languages/Python/Books/> (referer: <None>)
    2008-08-20 03:51:14-0300 [dmoz] INFO: Spider closed (finished)

注意那些行包含[dmoz], 它和我们的spider相关。你能够看见每行初始化的URL日志信息。因为这些URLs是起始页面,所以他们没有引用referrers。所以在每行的末尾部门,你能看见(referer: ).

但是有趣的是,在我们的parse方法作用下,两个文件被创建: Books and Resources, 它保航两个URLs的内容
刚刚发生了什么事情?

Scrapy为每一个start_urls创建一个scrapy.http.Request对象,并将爬虫的parse 方法指定为回调函数。

这些Request首先被调度,然后被执行,之后通过parse()方法,将scrapy.http.Response对象被返回,结果也被反馈给爬虫。

提取Items
选择器介绍

我们有多种方式去提取网页中数据。Scrapy 使用的是XPath表达式,通常叫做XPath selectors。如果想了解更多关于选择器和提取数据的机制,可以看看如下教程XPath selectors documentation.

这里有一些表达式的例子和它们相关的含义:

/html/head/title: 选择<title>元素,在HTML文档的<head>元素里

/html/head/title/text(): 选择元素里面的文本</li> <li>//td: 选择所有的<td>元素</li> <li>//div[@class="mine"]: 选择所有的div元素里面class属性为mine的</li> </ul> <p>这里有许多的例子关于怎么使用XPath,可以说XPath表达式是非常强大的。如果你想要学习更多关于XPath,我们推荐如下教程<a href="http://www.w3schools.com/XPath/default.asp">this XPath tutorial</a>.</p> <p>为了更好使用XPaths, Scrapy提供了一个<a href="http://XPathSelector">XPathSelector</a>类,它有两种方式, <a href="http://doc.scrapy.org/en/0.16/topics/selectors.html#scrapy.selector.HtmlXPathSelector">HtmlXPathSelector</a>(HTML相关数据)和<a href="http://doc.scrapy.org/en/0.16/topics/selectors.html#scrapy.selector.XmlXPathSelector">XmlXPathSelector</a>(XML相关数据)。如果你想使用它们,你必须实例化一个<a href="http://doc.scrapy.org/en/0.16/topics/request-response.html#scrapy.http.Response">Response</a>对象.</p> <p>你能够把selectors作为对象,它代表文件结构中的节点。所以,第1个实例的节点相当于root节点,或者称为整个文档的节点。</p> <p>选择器有三种方法(点击方法你能够看见完整的API文档)。</p> <ul> <li> <pre><code>[select()](http://doc.scrapy.org/en/0.16/topics/selectors.html#scrapy.selector.XPathSelector.select): 返回选择器的列表,每一个select表示一个xpath表达式选择的节点。</code></pre> </li> <li><a href="http://doc.scrapy.org/en/0.16/topics/selectors.html#scrapy.selector.XPathSelector.extract">extract()</a>: 返回一个unicode字符串 ,该字符串XPath选择器返回的数据。</li> <li><a href="http://doc.scrapy.org/en/0.16/topics/selectors.html#scrapy.selector.XPathSelector.re">re()</a> : 返回unicode字符串列表,字符串作为参数由正则表达式提取出来。</li> </ul> <p><strong>在Shell里面使用选择器</strong></p> <p>为了更加形象的使用选择器,我们将会使用<a href="http://doc.scrapy.org/en/0.16/topics/shell.html#topics-shell">Scrapy shell</a>,它同时需要你的系统安装IPython (一个扩展的Python控制台)。</p> <p>如果使用shell,你必须到项目的顶级目录上,让后运行如下命令:</p> <p>scrapy shell http://www.dmoz.org/Computers/Programming/Languages/Python/Books/</p> <p>shell将会显示如下的信息</p> <pre><code> [ ... Scrapy log here ... ] [s] Available Scrapy objects: [s] 2010-08-19 21:45:59-0300 [default] INFO: Spider closed (finished) [s] hxs <HtmlXPathSelector (http://www.dmoz.org/Computers/Programming/Languages/Python/Books/) xpath=None> [s] item Item() [s] request <GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/> [s] response <200 http://www.dmoz.org/Computers/Programming/Languages/Python/Books/> [s] spider <BaseSpider 'default' at 0x1b6c2d0> [s] xxs <XmlXPathSelector (http://www.dmoz.org/Computers/Programming/Languages/Python/Books/) xpath=None> [s] Useful shortcuts: [s] shelp() Print this help [s] fetch(req_or_url) Fetch a new request or URL and update shell objects [s] view(response) View response in a browser In [1]: </code></pre> <p>当shell装载之后,你将会得到一个response的本地变量。所以你输入reponse.body,你能够看见response的body部分或者你能够输入response.headers,你能够看见reponse.headers部分。</p> <p>shell同样实例化了两个选择器,一个是HTML(在hvx变量里),一个是XML(在xxs变量里)。所以我们尝试怎么使用它们:</p> <pre><code> In [1]: hxs.select('//title') Out[1]: [<HtmlXPathSelector (title) xpath=//title>] In [2]: hxs.select('//title').extract() Out[2]: [u'<title>Open Directory - Computers: Programming: Languages: Python: Books</title>'] In [3]: hxs.select('//title/text()') Out[3]: [<HtmlXPathSelector (text) xpath=//title/text()>] In [4]: hxs.select('//title/text()').extract() Out[4]: [u'Open Directory - Computers: Programming: Languages: Python: Books'] In [5]: hxs.select('//title/text()').re('(\w+):') Out[5]: [u'Computers', u'Programming', u'Languages', u'Python'] </code></pre> <p><strong>提取数据Extracting the data</strong></p> <p>现在我们开始尝试在这几个页面里提取真正的信息。</p> <p>你能够在控制台里面输入response.body,检查源代码里面的XPaths是否与预期相同。然而,检查原始的HTML代码是一件非常枯燥乏味的事情。假如你想让你的工作变的简单,你使用Firefox扩展的插件例如Firebug来做这项任务。更多关于介绍信息请看<a href="http://doc.scrapy.org/en/0.16/topics/firebug.html#topics-firebug">Using Firebug for scraping</a>和<a href="http://doc.scrapy.org/en/0.16/topics/firefox.html#topics-firefox">Using Firefox for scraping</a>。</p> <p>当你检查了页面源代码之后,你将会发现页面的信息放在一个<ul>元素里面,事实上,确切地说是第二个<ul>元素。</p> <p>所以我们选择每一个<li>元素使用如下的代码： </p> <pre><code> hxs.select('//ul/li') </code></pre> <p>网站的描述信息可以使用如下代码: </p> <pre><code> hxs.select('//ul/li/text()').extract() </code></pre> <p>网站的标题: </p> <pre><code> hxs.select('//ul/li/a/text()').extract() </code></pre> <p>网站的链接: </p> <pre><code> hxs.select('//ul/li/a/@href').extract() </code></pre> <p>如前所述，每个select()调用返回一个selectors列表，所以我们可以结合select()去挖掘更深的节点。我们将会用到这些特性，所以: </p> <pre><code> sites = hxs.select('//ul/li') for site in sites: title = site.select('a/text()').extract() link = site.select('a/@href').extract() desc = site.select('text()').extract() print title, link, desc Note </code></pre> <p>如果想了解更多的嵌套选择器,可以参考<a href="http://doc.scrapy.org/en/0.16/topics/selectors.html#topics-selectors-nesting-selectors">Nesting selectors</a>和<a href="http://doc.scrapy.org/en/0.16/topics/selectors.html#topics-selectors-relative-xpaths">Working with relative XPaths</a>相关的<a href="http://doc.scrapy.org/en/0.16/topics/selectors.html#topics-selectors">Selectors</a>文档<br /> 将代码添加到我们spider中:</p> <pre><code> from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector class DmozSpider(BaseSpider): name = "dmoz" allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" ] def parse(self, response): hxs = HtmlXPathSelector(response) sites = hxs.select('//ul/li') for site in sites: title = site.select('a/text()').extract() link = site.select('a/@href').extract() desc = site.select('text()').extract() print title, link, desc </code></pre> <p>现在我们再次抓取dmoz.org，你将看到站点在输出中被打印，运行命令: </p> <pre><code> scrapy crawl dmoz </code></pre> <p><strong>使用我们的 item</strong></p> <p><a href="http://doc.scrapy.org/en/0.16/topics/items.html#scrapy.item.Item">Item</a>对象是自定义python字典;使用标准字典类似的语法,你能够访问它们的字段(就是以前我们定义的属性) </p> <pre><code> >>> item = DmozItem() >>> item['title'] = 'Example title' >>> item['title'] 'Example title' </code></pre> <p>Spiders希望将抓取的数据放在 Item对象里。所以,为了返回我们抓取的数据,最终的代码要如下这么写 :</p> <pre><code> from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from tutorial.items import DmozItem class DmozSpider(BaseSpider): name = "dmoz" allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" ] def parse(self, response): hxs = HtmlXPathSelector(response) sites = hxs.select('//ul/li') items = [] for site in sites: item = DmozItem() item['title'] = site.select('a/text()').extract() item['link'] = site.select('a/@href').extract() item['desc'] = site.select('text()').extract() items.append(item) return items </code></pre> <p><strong>Note<br /> </strong></p> <p>你能够找到完整功能的spider在dirbot项目里,同样你可以访问https://github.com/scrapy/dirbot</p> <p>现在重新抓取dmoz.org网站:</p> <pre><code> [dmoz] DEBUG: Scraped from <200 http://www.dmoz.org/Computers/Programming/Languages/Python/Books/> {'desc': [u' - By David Mertz; Addison Wesley. Book in progress, full text, ASCII format. Asks for feedback. [author website, Gnosis Software, Inc.\n], 'link': [u'http://gnosis.cx/TPiP/'], 'title': [u'Text Processing in Python']} [dmoz] DEBUG: Scraped from <200 http://www.dmoz.org/Computers/Programming/Languages/Python/Books/> {'desc': [u' - By Sean McGrath; Prentice Hall PTR, 2000, ISBN 0130211192, has CD-ROM. Methods to build XML applications fast, Python tutorial, DOM and SAX, new Pyxie open source XML processing library. [Prentice Hall PTR]\n'], 'link': [u'http://www.informit.com/store/product.aspx?isbn=0130211192'], 'title': [u'XML Processing with Python']} </code></pre> <p><strong><br /> 存储抓取的数据</strong></p> <p>最简单的方式去存储抓取的数据是使用<a href="http://doc.scrapy.org/en/0.16/topics/feed-exports.html#topics-feed-exports">Feed exports</a>,使用如下的命令:</p> <pre><code> scrapy crawl dmoz -o items.json -t json </code></pre> <p>它将会产生一个items.json文件,它包含所有抓取的items(序列化的<a href="http://en.wikipedia.org/wiki/JSON">JSON</a>)。</p> <p>在一些小的项目里(例如我们的教程中),那就足够啦。然而,假如你想要执行更多复杂的抓取items,你能够写一个 <a href="http://doc.scrapy.org/en/0.16/topics/item-pipeline.html#topics-item-pipeline">Item Pipeline</a>。因为在项目创建的时候，一个专门用于Item Pipelines的占位符文件已经随着项目一起被建立，目录在tutorial/pipelines.py。如果你只需要存取这些抓取后的items的话，就不需要去实现任何的条目管道。 </p> </div> </div> <div class="blockgap"></div> </div> <div class="blockgap"></div> <script> let url = window.location.href; function onWxReadyForShareArticle(){ let obj = { title: decodeURI(articleTitle), desc: decodeURI(articleSummary), link: window.location.href, imgUrl: "https://oss-cn-hangzhou.aliyuncs.com/codingsky/cdn/img/2024-02-01/89778da8387748299364fa73ad54f9a9", // 分享图标 success: function () { //console.log("update share success"); } }; wx.updateAppMessageShareData(obj); } /* function wechatShareArticle(){ //let data = {url:"https://hellobit.com.cn/doc/2024/1/29/1039.html"}; let data = { url : window.location.href }; postJsonV2(getUserToken(),"/api/tbs/v1/wxsdk/jssdk", data, function(code, data){ if(code != 200){ //console.log("get sign error,", code, data); return; } if(data.code != 0){ //console.log("get sign error, biz error ", data); return; } let appid = data.data.appid; let noncestr = data.data.noncestr; let timestamp = data.data.timestamp; let signature = data.data.signature; // get nonceStr, signature wx.config({ debug: false, // 开启调试模式,调用的所有api的返回值会在客户端alert出来，若要查看传入的参数，可以在pc端打开，参数信息会通过log打出，仅在pc端时才会打印。 appId: appid, // 必填，公众号的唯一标识 timestamp: timestamp, // 必填，生成签名的时间戳 nonceStr: noncestr, // 必填，生成签名的随机串 signature: signature,// 必填，签名 jsApiList: ['updateAppMessageShareData'] // 必填，需要使用的JS接口列表 }); wx.ready(function(){ onWxReadyForShareArticle(); }); wx.error(function(res){ if(console.error){ //console.error(res); } }); }); }*/ </script>  <div class="mcontainer" style="margin-top: 10px;margin-bottom:0px;padding-top:10px;padding-bottom:10px;background-color:rgb(48, 60, 66);color:#fff;"> <div class="row" style="text-align:center;"> <p style="margin:0px;padding:0px;" class="mfont_1">Copyright© 2013-2020</p> <p style="margin:0px;padding:0px;" class="mfont_1">All Rights Reserved <a href="https://beian.miit.gov.cn">京ICP备2023019179号-8</a></p> </div> </div> <script> window.onload = function(){ hljs.highlightAll(); /*if(typeof wechatShareArticle === "function"){ wechatShareArticle(); }*/ }; document.addEventListener('DOMContentLoaded', () => { // Get all "navbar-burger" elements const $navbarBurgers = Array.prototype.slice.call(document.querySelectorAll('.navbar-burger'), 0); // Add a click event on each of them $navbarBurgers.forEach( el => { el.addEventListener('click', () => { // Get the target from the "data-target" attribute const target = el.dataset.target; const $target = document.getElementById(target); // Toggle the "is-active" class on both the "navbar-burger" and the "navbar-menu" el.classList.toggle('is-active'); $target.classList.toggle('is-active'); }); }); }); </script>  <script type="text/javascript" src="//cpro.baidustatic.com/cpro/ui/c.js" async="async" defer="defer" ></script>  <script> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?713c92a31aa12d55b910e2065c7cda9d"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> <script> /*var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?e066867ae5a323a82641e57db7e7c914"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })();*/ </script> <script> (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })(); </script>   <script async src="https://www.googletagmanager.com/gtag/js?id=G-2VE3RBLF6N"></script> <script> window.dataLayer = window.dataLayer || []; function gtag(){dataLayer.push(arguments);} gtag('js', new Date()); gtag('config', 'G-2VE3RBLF6N'); </script> </body> </html>