diff --git a/webmagic-selenium/src/test/java/us/codecraft/webmagic/samples/HuabanProcessor.java b/webmagic-selenium/src/test/java/us/codecraft/webmagic/samples/HuabanProcessor.java index 1696a3f9..fcfb068e 100644 --- a/webmagic-selenium/src/test/java/us/codecraft/webmagic/samples/HuabanProcessor.java +++ b/webmagic-selenium/src/test/java/us/codecraft/webmagic/samples/HuabanProcessor.java @@ -22,7 +22,7 @@ public class HuabanProcessor implements PageProcessor { public void process(Page page) { page.addTargetRequests(page.getHtml().links().regex("http://huaban\\.com/.*").all()); if (page.getUrl().toString().contains("pins")) { - page.putField("img", page.getHtml().xpath("//div[@id='pin_img']/img/@src").toString()); + page.putField("img", page.getHtml().xpath("//div[@id='pin_img']/a/img/@src").toString()); } else { page.getResultItems().setSkip(true); } @@ -31,15 +31,16 @@ public class HuabanProcessor implements PageProcessor { @Override public Site getSite() { if (site == null) { - site = Site.me().setDomain("huaban.com").addStartUrl("http://huaban.com/").setSleepTime(0); + site = Site.me().setDomain("huaban.com").setSleepTime(0); } return site; } public static void main(String[] args) { Spider.create(new HuabanProcessor()).thread(5) - .pipeline(new FilePipeline("/data/webmagic/test/")) - .downloader(new SeleniumDownloader("/Users/yihua/Downloads/chromedriver")) + .addPipeline(new FilePipeline("/data/webmagic/test/")) + .setDownloader(new SeleniumDownloader("/Users/yihua/Downloads/chromedriver")) + .addUrl("http://huaban.com/") .runAsync(); } } diff --git a/zh_docs/user-manual-new.md b/zh_docs/user-manual-new.md index 537f8fce..229c9a6e 100644 --- a/zh_docs/user-manual-new.md +++ b/zh_docs/user-manual-new.md @@ -45,7 +45,7 @@ WebMagic使用slf4j-log4j12作为slf4j的实现.如果你自己定制了slf4j的 在**lib**目录下,有项目依赖的所有jar包,直接在IDE里,将这些jar添加到Libraries即可。 - + ### 1.3 第一个项目 @@ -154,6 +154,8 @@ Intellij Idea默认自带Maven支持,import项目时选择Maven项目即可。  +
+ ## 3. 基本的爬虫 ### 3.1 抽取内容(xpath, regex, css selector, jsonpath)