1075次阅读 | 发布于6年以前

除了C/C++以外，我也接触过不少流行的语言，PHP、java、javascript、python，其中python可以说是操作起来最方便，缺点最少的语言了。

前几天想写爬虫，后来跟朋友商量了一下，决定过几天再一起写。爬虫里重要的一部分是抓取页面中的链接，我在这里简单的实现一下。

首先我们需要用到一个开源的模块，requests。这不是python自带的模块，需要从网上下载、解压与安装：

复制代码 代码如下:

windows用户直接点击下载。解压后再本地使用命令python setup.py install安装即可。 https://github.com/kennethreitz/requests/zipball/master

这个模块的文档我也正在慢慢翻译，翻译完了就给大家传上来（英文版先发在附件里）。就像它的说明里面说的那样，built for human beings,为人类而设计。使用它很方便，自己看文档。最简单的，requests.get()就是发送一个get请求。

代码如下：

复制代码 代码如下:

coding:utf-8

import re
import requests

获取网页内容

r = requests.get('http://www.163.com')
data = r.text

link_list =re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')" ,data)
for url in link_list:
print url