使用Python编写爬虫的基本模块及框架使用指南 - 哈喽比特

1122次阅读 | 发布于6年以前

基本模块
python爬虫，web spider。爬取网站获取网页数据，并进行分析提取。

基本模块使用的是 urllib，urllib2，re，等模块

基本用法，例子：

（1）进行基本GET请求，获取网页html


    #!coding=utf-8
    import urllib
    import urllib2

    url = 'http://www.baidu.com/'
    # 获取请求
    request = urllib2.Request(url)
    try:
      # 根据request，得到返回response
      response = urllib2.urlopen(request)
    except urllib2.HTTPError, e:
      if hasattr(e, 'reason'):
        print e.reason
    # 读取response的body
    html = response.read()
    # 读取response的headers
    headers = response.info()

（2）表单提交


    #!coding=utf-8
    import urllib2
    import urllib

    post_url = ''

    post_data = urllib.urlencode({
      'username': 'username',
      'password': 'password',
    })

    post_headers = {
      'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:31.0) Gecko/20100101 Firefox/31.0',
    }

    request = urllib2.Request(
      url=post_url,
      data=post_data,
      headers=post_headers,
    )

    response = urllib2.urlopen(request)

    html = response.read()

(3)


    #!coding=utf-8

    import urllib2
    import re

    page_num = 1
    url = 'http://tieba.baidu.com/p/3238280985?see_lz=1&pn;='+str(page_num)
    myPage = urllib2.urlopen(url).read().decode('gbk')

    myRe = re.compile(r'class="d_post_content j_d_post_content ">(.*?)</div>', re.DOTALL)
    items = myRe.findall(myPage)

    f = open('baidu.txt', 'a+')

    import sys
    reload(sys)
    sys.setdefaultencoding('utf-8')

    i = 0
    texts = []
    for item in items:
      i += 1
      print i
      text = item.replace('<br>', '')
      text.replace('\n', '').replace(' ', '') + '\n'
      print text
      f.write(text)

    f.close()

(4)


    #coding:utf-8
    '''
      模拟登陆163邮箱并下载邮件内容

    '''
    import urllib
    import urllib2
    import cookielib
    import re
    import time
    import json

    class Email163:
      header = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}
      user = ''
      cookie = None
      sid = None
      mailBaseUrl='http://twebmail.mail.163.com'

      def __init__(self):
        self.cookie = cookielib.CookieJar()
        cookiePro = urllib2.HTTPCookieProcessor(self.cookie)
        urllib2.install_opener(urllib2.build_opener(cookiePro))

      def login(self,user,pwd):
        '''
          登录
        '''
        postdata = urllib.urlencode({
            'username':user,
            'password':pwd,
            'type':1
          })
        #注意版本不同，登录URL也不同
        req = urllib2.Request(
            url='https://ssl.mail.163.com/entry/coremail/fcg/ntesdoor2?funcid=loginone&language;=-1&passtype;=1&iframe;=1&product;=mail163&from;=web&df;=email163&race;=-2_45_-2_hz&module;=&uid;='+user+'&style;=10&net;=t&skinid;=null',
            data=postdata,
            headers=self.header,
          )
        res = str(urllib2.urlopen(req).read())
        #print res
        patt = re.compile('sid=([^"]+)',re.I)
        patt = patt.search(res)

        uname = user.split('@')[0]
        self.user = user
        if patt:
          self.sid = patt.group(1).strip()
          #print self.sid
          print '%s Login Successful.....'%(uname)
        else:
          print '%s Login failed....'%(uname)


      def getInBox(self):
        '''
          获取邮箱列表
        '''
        print '\nGet mail lists.....\n'
        sid = self.sid
        url = self.mailBaseUrl+'/jy3/list/list.do?sid='+sid+'&fid;=1&fr;=folder'
        res = urllib2.urlopen(url).read()
        #获取邮件列表
        mailList = []
        patt = re.compile('<div\s+class="tdLike Ibx_Td_From"[^>]+>.*?href="([^"]+)"[^>]+>(.*?)<\/a>.*?<div\s+class="tdLike Ibx_Td_Subject"[^>]+>.*?href="[^>]+>(.*?)<\/a>',re.I|re.S)
        patt = patt.findall(res)
        if patt==None:
          return mailList

        for i in patt:
          line = {
              'from':i[1].decode('utf8'),
               'url':self.mailBaseUrl+i[0],
               'subject':i[2].decode('utf8')
               }
          mailList.append(line)

        return mailList


      def getMailMsg(self,url):
        '''
          下载邮件内容
        '''
        content=''
        print '\n Download.....%s\n'%(url)
        res = urllib2.urlopen(url).read()

        patt = re.compile('contentURL:"([^"]+)"',re.I)
        patt = patt.search(res)
        if patt==None:
          return content
        url = '%s%s'%(self.mailBaseUrl,patt.group(1))
        time.sleep(1)
        res = urllib2.urlopen(url).read()
        Djson = json.JSONDecoder(encoding='utf8')
        jsonRes = Djson.decode(res)
        if 'resultVar' in jsonRes:
          content = Djson.decode(res)['resultVar']
        time.sleep(3)
        return content


    '''
      Demon
    '''
    #初始化
    mail163 = Email163()
    #登录
    mail163.login('lpe234@163.com','944898186')
    time.sleep(2)

    #获取收件箱
    elist = mail163.getInBox()

    #获取邮件内容
    for i in elist:
      print '主题：%s  来自：%s 内容：\n%s'%(i['subject'].encode('utf8'),i['from'].encode('utf8'),mail163.getMailMsg(i['url']).encode('utf8'))

（５）需要登陆的情况


    #1 cookie的处理

    import urllib2, cookielib
    cookie_support= urllib2.HTTPCookieProcessor(cookielib.CookieJar())
    opener = urllib2.build_opener(cookie_support, urllib2.HTTPHandler)
    urllib2.install_opener(opener)
    content = urllib2.urlopen('http://XXXX').read()

    #2 用代理和cookie

    opener = urllib2.build_opener(proxy_support, cookie_support, urllib2.HTTPHandler)

    #3 表单的处理

    import urllib
    postdata=urllib.urlencode({
      'username':'XXXXX',
      'password':'XXXXX',
      'continueURI':'http://www.verycd.com/',
      'fk':fk,
      'login_submit':'登录'
    })

    req = urllib2.Request(
      url = 'http://secure.verycd.com/signin/*/http://www.verycd.com/',
      data = postdata
    )
    result = urllib2.urlopen(req).read()

    #4 伪装成浏览器访问

    headers = {
      'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'
    }
    req = urllib2.Request(
      url = 'http://secure.verycd.com/signin/*/http://www.verycd.com/',
      data = postdata,
      headers = headers
    )

    #5 反"反盗链"

    headers = {
      'Referer':'http://www.cnbeta.com/articles'
    }

（６）多线程


    from threading import Thread
    from Queue import Queue
    from time import sleep
    #q是任务队列
    #NUM是并发线程总数
    #JOBS是有多少任务
    q = Queue()
    NUM = 2
    JOBS = 10
    #具体的处理函数，负责处理单个任务
    def do_somthing_using(arguments):
      print arguments
    #这个是工作进程，负责不断从队列取数据并处理
    def working():
      while True:
        arguments = q.get()
        do_somthing_using(arguments)
        sleep(1)
        q.task_done()
    #fork NUM个线程等待队列
    for i in range(NUM):
      t = Thread(target=working)
      t.setDaemon(True)
      t.start()
    #把JOBS排入队列
    for i in range(JOBS):
      q.put(i)
    #等待所有JOBS完成
    q.join()

scrapy框架
Scrapy框架，Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

刚开始学习这个框架。不太好评论。只是感觉这个框架有些Java的感觉，需要太多的其他模块的支持。

（一）创建 scrapy 项目


    # 使用 scrapy startproject scrapy_test
    ├── scrapy_test
    │  ├── scrapy.cfg
    │  └── scrapy_test
    │    ├── __init__.py
    │    ├── items.py
    │    ├── pipelines.py
    │    ├── settings.py
    │    └── spiders
    │      ├── __init__.py
    # 进行创建 scrapy 项目

（二）说明

scrapy.cfg: 项目配置文件
items.py: 需要提取的数据结构定义文件
pipelines.py:管道定义，用来对items里面提取的数据做进一步处理，如保存等
settings.py: 爬虫配置文件
spiders: 放置spider的目录
（三）依赖包

依赖包比较麻烦。


    # python-dev 包的安装
    apt-get install python-dev

    # twisted, w3lib, six, queuelib, cssselect， libxslt

    pip install w3lib
    pip install twisted
    pip install lxml
    apt-get install libxml2-dev libxslt-dev 
    apt-get install python-lxml
    pip install cssselect 
    pip install pyOpenSSL 
    sudo pip install service_identity

    # 安装好之后，便可使用 scrapy startproject test 进行创建项目

（四）抓取实例。
（1）创建scrapy项目


    dizzy@dizzy-pc:~/Python/spit$ scrapy startproject itzhaopin
    New Scrapy project 'itzhaopin' created in:
      /home/dizzy/Python/spit/itzhaopin

    You can start your first spider with:
      cd itzhaopin
      scrapy genspider example example.com
    dizzy@dizzy-pc:~/Python/spit$ 

    dizzy@dizzy-pc:~/Python/spit$ cd itzhaopin
    dizzy@dizzy-pc:~/Python/spit/itzhaopin$ tree
    .
    ├── itzhaopin
    │  ├── __init__.py
    │  ├── items.py
    │  ├── pipelines.py
    │  ├── settings.py
    │  └── spiders
    │    └── __init__.py
    └── scrapy.cfg

    # scrapy.cfg: 项http://my.oschina.net/lpe234/admin/new-blog目配置文件
    # items.py: 需要提取的数据结构定义文件
    # pipelines.py:管道定义，用来对items里面提取的数据做进一步处理，如保存等
    # settings.py: 爬虫配置文件
    # spiders: 放置spider的目录

    （2）定义要抓取的数据结构 items.py


    from scrapy.item import Item, Field
    # 定义我们要抓取的数据
    class TencentItem(Item):
      name = Field() # 职位名称
      catalog = Field() # 职位类别
      workLocation = Field() # 工作地点
      recruitNumber = Field() # 招聘人数
      detailLink = Field() # 职位详情链接
      publishTime = Field() # 发布时间

(3)实现Spider类

Spider是继承自 scarpy.contrib.spiders.CrawlSpider 的Python类，有3个必须定义的成员。
name : 名称，spider的标识。
start_urls : 一个url列表，spider从这些网页开始抓取
parse() : 一个方法。当start_urls里面的网页抓取下来之后需要调用这个方法来解析网页内容，同时需要返回下一个需要抓取的网页，或者返回items列表。

在spiders目录下面新建一个spider，tencent_spider.py ：


    #coding=utf-8

    from scrapy.spider import BaseSpider


    class DmozSpider(BaseSpider):
      name = 'dmoz'
      allowed_domains = ['dmoz.org']
      start_urls = [
        'http://www.dmoz.org/Computers/Programming/Languages/Python/Books/',
        'http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/'
      ]

      def parse(self, response):
        filename = response.url.split('/')[-2]
        open(filename, 'wb').write(response.info)

这个简单一些。使用scrapy crawl dmoz # 即可运行spider