972次阅读 | 发布于6年以前

好了，废话少说，我们先看看几个示例吧

一、打开一个网页获取所有的内容

复制代码 代码如下:

from urllib import urlopen
doc = urlopen("http://www.baidu.com").read()
print doc

二、获取Http头

复制代码 代码如下:

from urllib import urlopen
doc = urlopen("http://www.baidu.com")
print doc.info()
print doc.info().getheader('Content-Type')

三、使用代理

1. 查看环境变量

复制代码 代码如下:

print ""n".join(["%s=%s" % (k, v) for k, v in os.environ.items()])
print os.getenv("http_proxy")

2. 设置环境变量

复制代码 代码如下:

import os
os.putenv("http_proxy", "http://proxyaddr:")

3. 使用代理

复制代码 代码如下:

Use http://www.someproxy.com:3128 for http proxying

proxies = {'http': 'http://www.someproxy.com:3128'}
filehandle = urllib.urlopen(some_url, proxies=proxies)

Don't use any proxies

filehandle = urllib.urlopen(some_url, proxies={})

filehandle = urllib.urlopen(some_url, proxies=None)
filehandle = urllib.urlopen(some_url)