pull/17/head
yihua.huang 12 years ago
parent 2b3554c152
commit 0a2b9137fc

@ -9,10 +9,6 @@ webmagic的发起源于工作中的需要其定位是帮助开发者更便捷
webmagic的功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化)开发者可以便捷的使用xpath和正则表达式进行链接和内容的提取只需编写少量代码即可完成一个定制爬虫。
#### 请注意
webmagic正处于开发阶段目前还没有稳定版本。欢迎开发者参与到webmagic的试用和修改中来。 **如果只是想以外部jar包的方式引用webmagic并进行自己的业务开发建议你等待webmagic的第一个稳定版本。**
###特色###
* ####垂直爬虫####

@ -8,10 +8,8 @@ Release Notes
增加下载的重试机制支持gzip支持自定义UA/cookie。
增加jquery形式的CSS Selector API可以通过`page.getHtml().$("div.body")`形式抽取元素。
完善了文档,架构说明:[webmagic的设计机制及原理-如何开发一个Java爬虫](http://my.oschina.net/flashsword/blog/145796)Javadoc[http://code4craft.github.io/webmagic/docs](http://code4craft.github.io/webmagic/docs)。
增加多线程抓取功能,只需在初始化的时候指定线程数即可。
增加jquery形式的CSS Selector API可以通过`page.getHtml().$("div.body")`形式抽取元素。
完善了文档,架构说明:[webmagic的设计机制及原理-如何开发一个Java爬虫](http://my.oschina.net/flashsword/blog/145796)Javadoc[http://code4craft.github.io/webmagic/docs](http://code4craft.github.io/webmagic/docs)。
Loading…
Cancel
Save