readability的python实现

readability能获取大部份网页的主要内容,这个算法很cool,学习了一下,就写了个python版的实现,之前找过python版的实现,但都是比较老的基于0.4的,现在都1.7.1了

写了之后就有人给我要这个代码,放github给大家用吧

https://github.com/kingwkb/readability

demo: http://yanghao.org/tools/readability

This entry was posted in Python and tagged . Bookmark the permalink.

5 Responses to readability的python实现

  1. android vpn says:

    博主是否可以开发php。有个小东西,php开发,可以付费。

  2. yodfz says:

    你好.我无法正常调试你的程序
    异常
    File “H:\Django\Spider\readability.py”, line 106, in grabArticle
    s = elem.renderContents(encoding=None)
    TypeError: ‘NoneType’ object is not callable

    我采用的是
    #from BeautifulSoup import BeautifulSoup
    from bs4 import BeautifulSoup
    我不知BeautifulSoup是哪个版本…

    敬请期告.

  3. 博主的这个很酷,测试了一下,获取的还不错,不错新闻类页面有些还不太好。
    现在准备使用readability的api来做。

  4. Jerry says:

    博主你好,试用了你的这个Readability的Python实现,感觉很不错。但是有一点不是很明白,__init__()中的url和input是否存在设计上的重复?感觉只提供一个URL即可,不知道input是出于什么打算,还望回复,谢谢。

发表评论

电子邮件地址不会被公开。 必填项已用 * 标注

*

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>