博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Nutch 1.4 运行爬虫索引网站时报错。
阅读量:6125 次
发布时间:2019-06-21

本文共 977 字,大约阅读时间需要 3 分钟。

命令如下:

Administrator@f523540 ~$ cd  /cygdrive/d/nutch/apache-nutch-1.4-bin/runtime/local/Administrator@f523540 /cygdrive/d/nutch/apache-nutch-1.4-bin/runtime/local$ ./bin/nutch crawl urls -dir crawl -topN 5  -depth 3cygpath: can't convert empty pathsolrUrl is not set, indexing will be skipped...crawl started in: crawlrootUrlDir = urlsthreads = 10depth = 3solrUrl=nulltopN = 5Injector: starting at 2012-06-17 13:47:45Injector: crawlDb: crawl/crawldbInjector: urlDir: urlsInjector: Converting injected urls to crawl db entries.Exception in thread "main" java.io.IOException: Job failed!        at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)        at org.apache.nutch.crawl.Injector.inject(Injector.java:217)        at org.apache.nutch.crawl.Crawl.run(Crawl.java:127)        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)        at org.apache.nutch.crawl.Crawl.main(Crawl.java:55)

 环境:cygwin  windows xp  java 1.6   nutch 1.4。不知道哪位有没有遇到过此问题,期待您的回答! 

转载地址:http://hefua.baihongyu.com/

你可能感兴趣的文章
tomcat jdbc连接池的suspect、abandon操作解析
查看>>
MySQL登录
查看>>
Scala下Play框架学习笔记(Body parsers)
查看>>
mysql权限管理
查看>>
老虞要学GoLang-为什么会学习GoLang
查看>>
利用estools修改javascript源代码
查看>>
Redis构建分布式锁
查看>>
实现javascript下的模块组织
查看>>
制作思维导图的建议
查看>>
Linux中nfs网络文件共享
查看>>
free
查看>>
PHP环境下在SAE中使用Kindeditor操作Stroge
查看>>
JUNIPER SRX dynamic ***配置实验
查看>>
whenever
查看>>
大数据模块开发之数据采集
查看>>
SAP系统参数设置
查看>>
ubuntu下安装wine1.4
查看>>
nginx负载均衡实现https
查看>>
入门一班20181016 正则
查看>>
springmvc整个dubbo
查看>>