虎妞软件出品的一款万能文章采集软件,可以只需输入关键字就能采集各种网页和新闻,还可以采集指定列表页(栏目页)的文章。整体革新版,功能超级强大,全方面优化和增强,支持全球语言文章采集
两大采集功能:【关键词采集】和【列表页采集】,其中【列表页采集】有文章地址采集、单篇文章采集,批量文章采集 3 个子功能,按顺序进行操作就能采集成功。【列表页采集】也就是采集指定网站文章的功能非常简单,只需要稍微设置(不需要复杂的规则),就能批量采集目标网站的文章了。如需伪原创,请在软件盒子或到官网搜索《全文翻译精灵》,支持转译伪原创,也就是英译中,再中译英,就叫转译。还有《JSON解析助手增强版》,用于采集文章地址或提取正文。
功能特点:
1. 依托于水淼软件独家万能正文识别智能算法,可实现任何网页正文自动提取准确率95%以上。
2. 只需输入关键词,就能采集到微信文章、今日头条、一点资讯、百度新闻和网页、搜狗新闻和网页、360新闻和网页、谷歌新闻和网页、必应新闻和网页、雅虎新闻和网页;可批量关键词全自动采集。
3. 可定向采集指定网站栏目列表下的所有文章(如百度经验、百度贴吧),智能化匹配,无需编写复杂规则。
4. 文章转译功能,可对采集好的文章,将其翻译到英文再翻译回中文,实现翻译伪原创,支持谷歌和有道翻译。
5. 史上最简单最智能文章采集器,更多特点一试就知!
正文提取功能:
正文提取:基于水淼自主研发的正文识别智能算法,能在互联网纷繁复杂的网页中尽可能准确地提取出正文内容。
大多数网站的文章正文可以自动识别,如果识别不了,则:
可以使用精确标签(精确的网页标签头)提取正文,如 <div class=”text”>
还可以使用头尾标记来提取正文,即给出正文开始内容和结束内容
还可以使用JSON路径取值的方式提取正文,现代网站很多都采用JSON数据返回正文。
以上多种正文提取手段,足以应对几乎所有网站的正文提取。
【精确标签】(精确的网页标签头)特别说明::
请使用win10自带的Edge浏览器或谷歌浏览器,鼠标右键单击正文的开始位置弹出菜单,单击审查元素(或检查)菜单项,然后定位正文的代码段,将该代码段的标签头复制。
如代码段:<div class=”text”>正文部分</div>,则复制<div class=”text”>
如代码段:<div class=”text test2 test3″ data=”123″>正文部分</div>,也可以省略为<div class=”text”>,或<div data=”123″>
多个标签可以使用“|”隔开,如 <div id=”content”>|<div class=”text”>|<p class=”sm”>
其它提示:
1、本软件是重构全新版本,与之前软件类似,操作差不多,但整体功能革新,采集数量更多,性能更优,支持搜索时间,代理,多线程,多国语言。
2、关键词采集可以附带搜索引擎参数,就跟网页里输入关键词搜索一样,如指定网站则输入”关键词 site:baijia.baidu.com”,网址必须包含bbs则输入“关键词 inurl:bbs.”,
3、验证前清空Cookies:如果验证不正常,可以选中本选项尝试,会在打开浏览器前自动删除旧的Cookies文件;如果还不行,可以再鼠标右击(不是左击)【开始采集】按钮进行无Cookies采集尝试。
4、如果验证频繁,可能ip已被锁定,需酌情设置间隔秒、设置线程数为1个或更换IP,实在不行只能等第二天再试。
关于验证:
1、搜狗系:目前搜狗网页、搜狗新闻、搜狗移动、微信,均支持自动验证。需要去验证平台注册自动验证账号填入软件,充值10元可以验证1000次。其它搜索引擎只能手动验证。
2、360系:360移动只要设置间隔3秒以上,就基本不会有验证,出现验证的话完成即可继续;360网页至少要设置5秒间隔,否则很容易出现验证,有时候验证很变态,验证了又验证,无法继续采集。这时候就只能使用代理来尝试了。
3、必应系:暂时没发现验证,必应国际版会在第一页时弹出验证窗口,那是为了获得Cookies,不是真的验证,软件会自动关闭的,可以不用理会。
4、谷歌系:没采集几页就会发生验证,而且谷歌似乎能识别到软件内置浏览器,验证通不过。必须使用代理。
总而言之,目前最好用的就是百度网页和搜狗网页,百度移动和搜狗移动似乎也不错。
评论(0)