update user-manual

pull/88/head^2
yihua.huang 11 years ago
parent 2e496402dc
commit 43b79f284a

@ -1,5 +1,5 @@
webmagic使用手册
------
========
>webmagic是一个开源的Java垂直爬虫框架目标是简化爬虫的开发流程让开发者专注于逻辑功能的开发。webmagic的核心非常简单但是覆盖爬虫的整个流程也是很好的学习爬虫开发的材料。
>web爬虫是一种技术webmagic致力于将这种技术的实现成本降低但是出于对资源提供者的尊重webmagic不会做反封锁的事情包括验证码破解、代理切换、自动登录等。
@ -16,8 +16,9 @@ webmagic使用手册
<div style="page-break-after:always"></div>
--------
## 快速开始
## 下载及安装
### 使用maven
@ -66,9 +67,11 @@ webmagic还包含两个可用的扩展包因为这两个包都依赖了比较
在**bin/lib**目录下有项目依赖的所有jar包直接在IDE里import即可。
### 第一个爬虫
--------
#### 定制PageProcessor
## 第一个爬虫
### 定制PageProcessor
PageProcessor是webmagic-core的一部分定制一个PageProcessor即可实现自己的爬虫逻辑。以下是抓取osc博客的一段代码
@ -141,6 +144,9 @@ webmagic-extension包括了注解方式编写爬虫的方法只需基于一
<div style="page-break-after:always"></div>
--------
## 详细介绍
## webmagic-core
@ -325,6 +331,8 @@ webmagic目前不支持持久化到数据库但是结合其他工具持久
<div style="page-break-after:always"></div>
-----
## webmagic-extension
webmagic-extension是为了开发爬虫更方便而实现的一些功能模块。这些功能完全基于webmagic-core的框架包括注解形式编写爬虫、分页、分布式等功能。

Loading…
Cancel
Save