我想念的美丽浓汤,Python 包 HTML 抓取操作。还有任何其他 HTML 抓取操作应该关注我的包吗?Python 不要求,实际上感兴趣关于其他语言的听力。

到目前为止故事︰

2008-09-20 15:00:47
问题评论:

只需添加一些︰ Ruby: nokogiri Perl: HTML::Parser

已更正的链接︰ meta.stackexchange.com/questions/10261/...

(相关)最佳的方法来分析 HTML

@ucefkh-我已经更新为指向 github repo;)

这是一个非常有效的问题,完全可行的一个响应。我理解这些规则,但我不同意的问题,如这些应关闭。

回答:

Ruby 的世界上最美丽的浓汤等于是 why_the_lucky_stiff 的Hpricot.

从互联网 why_the_lucky_stiff 的消失后,此链接已被否决。

这就是︰ wiki.github.com/hpricot/hpricot

这些天 Ruby 的朋友们已经切换到Nokogiri的抓取操作。

在.NET 世界中,我将建议 HTML 灵活性包。不靠近一样 (如 HTMLSQL),上面的选项中有一些简单但非常灵活。它可让您的 maniuplate 低劣的 HTML 那样好正确的 XML,以便节点可以使用 XPATH 或只是 itereate。

http://www.codeplex.com/htmlagilitypack

它和它的组合 linq 不似乎更像 HTMLSQL?

用它,和它的组合 SharpQuery 变得就像 jQuery 一样 !code.google.com/p/sharp-query

@Mark︰ 啊很好的提示,谢谢 !

HTML 的灵活性包无法正确结构数量我试了 HTML 文档的 DOM。

BeautifulSoup 是去获得 HTML 抓取操作的捷径。我以前的工作我做大量的抓取操作,我想我知道关于 BeautifulSoup 开始时。它就像 DOM 更有用的选项,更 pythonic。如果您想尝试红宝石他们移植 BeautifulSoup 调用 RubyfulSoup,但它还没有在一段已更新。

其他有用的工具是 HTMLParser 或 sgmllib。SGMLParser 标准的 Python 库的一部分。这些工作通过调用方法,每当进入/退出标记和遇到的 html 文本。它们像 Expat 如果你熟悉的。如果您要分析非常大的文件,并创建 DOM 树将是漫长而昂贵,这些库将非常有用。

正则表达式不是非常必要的。BeautifulSoup 处理正则表达式,因此如果需要能源,可以利用它存在。我之所以说采用 BeautifulSoup,除非您需要速度和更小的内存需求量。如果您在 Python 中找到一个更好的 HTML 分析器,请让我知道。

我发现HTMLSQL是 screenscrape 以十分简单的方式。确切地说需要分钟才能与它的结果。

是像超级直观的查询︰

SELECT title from img WHERE $class == 'userpic'

现在是采取相同的方法的某些其他备选方案。

注意,这是一个 PHP 库

您可以让我知道它采用相同的方法的其他替代方案?

Python lxml库作为 Pythonic 的 libxml2 和 libxslt 库绑定。我喜欢特别的 XPath 支持和好的打印内存中 XML 结构。此外,它还支持分析断裂的 HTML。并且我并不认为可以找到其他 Python 库/绑定,比 lxml 分析 XML。

内容来源于Stack Overflow Options for HTML scraping? [closed]
请输入您的翻译

Options for HTML scraping? [closed]

确认取消