readability能获取大部份网页的主要内容,这个算法很cool,学习了一下,就写了个python版的实现,之前找过python版的实现,但都是比较老的基于0.4的,现在都1.7.1了
写了之后就有人给我要这个代码,放github给大家用吧
https://github.com/kingwkb/readabilityreadability能获取大部份网页的主要内容,这个算法很cool,学习了一下,就写了个python版的实现,之前找过python版的实现,但都是比较老的基于0.4的,现在都1.7.1了
写了之后就有人给我要这个代码,放github给大家用吧
https://github.com/kingwkb/readability
博主是否可以开发php。有个小东西,php开发,可以付费。
你好.我无法正常调试你的程序
异常
File “H:\Django\Spider\readability.py”, line 106, in grabArticle
s = elem.renderContents(encoding=None)
TypeError: ‘NoneType’ object is not callable
我采用的是
#from BeautifulSoup import BeautifulSoup
from bs4 import BeautifulSoup
我不知BeautifulSoup是哪个版本…
敬请期告.
默认使用BeautifulSoup 3,应该4也是没问题的。
博主的这个很酷,测试了一下,获取的还不错,不错新闻类页面有些还不太好。
现在准备使用readability的api来做。
博主你好,试用了你的这个Readability的Python实现,感觉很不错。但是有一点不是很明白,__init__()中的url和input是否存在设计上的重复?感觉只提供一个URL即可,不知道input是出于什么打算,还望回复,谢谢。