Update FileCacheQueueScheduler.java

在使用过程中发现urls.txt文件存在重复URL的情况,经跟踪源代码,发现初始化加载文件后,读取所有的url放入一集合中,但是之后添加待抓取URL时并未判断是否已存在该集合中(即文件中)了,故导致文件中重复URL的情况.故据此对源码做了修改,还请作者审阅.
pull/157/head
zhugw 11 years ago
parent 147401ce5e
commit 1db940a088

@ -145,6 +145,8 @@ public class FileCacheQueueScheduler extends DuplicateRemovedScheduler implement
if (!inited.get()) {
init(task);
}
if(urls.contains(request.getUrl())) //已存在此URL 表示已抓取过 跳过
return;
queue.add(request);
fileUrlWriter.println(request.getUrl());
}

Loading…
Cancel
Save