python网络编程学习笔记(七)：HTML和XHTML解析(HTMLParser、BeautifulSoup) - 哈喽比特

576次阅读 | 发布于6年以前

一、利用HTMLParser进行网页解析
具体HTMLParser官方文档可参考http://docs.python.org/library/htmlparser.html#HTMLParser.HTMLParser

1、从一个简单的解析例子开始
例1：
test1.html文件内容如下：

复制代码 代码如下:

XHTML 与 HTML 4.01 标准没有太多的不同 i love you

下面是能够列出title和body的程序示例：

复制代码 代码如下:

@小五义：

HTMLParser示例

import HTMLParser
class TitleParser(HTMLParser.HTMLParser):
def init(self):
self.taglevels=[]
self.handledtags=['title','body'] #提出标签
self.processing=None
HTMLParser.HTMLParser.init(self)
def handle_starttag(self,tag,attrs):
if tag in self.handledtags:
self.data=''
self.processing=tag
def handle_data(self,data):
if self.processing:
self.data +=data
def handle_endtag(self,tag):
if tag==self.processing:
print str(tag)+':'+str(tp.gettitle())
self.processing=None
def gettitle(self):
return self.data
fd=open('test1.html')
tp=TitleParser()
tp.feed(fd.read())

运行结果如下：
title: XHTML 与 HTML 4.01 标准没有太多的不同
body:
i love you
程序定义了一个TitleParser类，它是HTMLParser类的子孙。HTMLParser的feed方法将接收数据，并通过定义的HTMLParser对象对数据进行相应的解析。其中handle_starttag、handle_endtag判断起始和终止tag，handle_data检查是否取得数据，如果self.processing不为None，那么就取得数据。

2、解决html实体问题
（HTML 中有用的字符实体）
（1）实体名称
当与到HTML中的实体问题时，上面的例子就无法实现，如这里将test1.html的代码改为：
例2：

复制代码 代码如下:

XHTML 与" HTML 4.01 "标准没有太多的不同 i love you×

利用上面的例子进行分析，其结果是：
title: XHTML 与 HTML 4.01 标准没有太多的不同
body:
i love you
实体完全消失了。这是因为当出现实体的时候，HTMLParser调用了handle_entityref()方法，因为代码中没有定义这个方法，所以就什么都没有做。经过修改后，如下：

复制代码 代码如下:

@小五义：

HTMLParser示例：解决实体问题

from htmlentitydefs import entitydefs
import HTMLParser
class TitleParser(HTMLParser.HTMLParser):
def init(self):
self.taglevels=[]
self.handledtags=['title','body']
self.processing=None
HTMLParser.HTMLParser.init(self)
def handle_starttag(self,tag,attrs):
if tag in self.handledtags:
self.data=''
self.processing=tag
def handle_data(self,data):
if self.processing:
self.data +=data
def handle_endtag(self,tag):
if tag==self.processing:
print str(tag)+':'+str(tp.gettitle())
self.processing=None
def handle_entityref(self,name):
if entitydefs.has_key(name):
self.handle_data(entitydefs[name])
else:
self.handle_data('&'+name+';')
def gettitle(self):
return self.data
fd=open('test1.html')
tp=TitleParser()
tp.feed(fd.read())

运行结果为：
title: XHTML 与" HTML 4.01 "标准没有太多的不同
body:
i love you×
这里就把所有的实体显示出来了。

（2）实体编码
例3：

复制代码 代码如下:

XHTML 与" HTML 4.01 "标准没有太多的不同 i love÷ you×

如果利用例2的代码执行后结果为：

title: XHTML 与" HTML 4.01 "标准没有太多的不同
body:
i love you×
结果中÷ 对应的÷没有显示出来。
添加handle_charref（）进行处理，具体代码如下：

复制代码 代码如下:

@小五义：

HTMLParser示例：解决实体问题

def handle_charref(self,name):   
    try:   
        charnum=int(name)   
    except ValueError:   
        return   
    if charnum<1 or charnum>255:   
        return   
    self.handle_data(chr(charnum)) 

def gettitle(self):   
    return self.data

fd=open('test1.html')
tp=TitleParser()
tp.feed(fd.read())