新动力软件 点击图片与新动力在线客服务交谈 http://www.netnewpower.info/
新动力SEO 首页新动力SEO 软件产品新动力SEO 技术服务新动力SEO 软件下载新动力SEO 购买新动力SEO 帮助
用户中心新动力SEO 用户中心
注意!我们唯一的官方网站是:http://www.netnewpower.info/ 购买时候请看清楚软件最新版本!Since 2010
公司动态
产品
服务
下载
购买
帮助
外链雷达之邪恶蜘蛛LinkDance 使用说明与技巧
更新时间:2013-05-14

“邪恶蜘蛛LinkDance”是AhrefsRadar外链雷达的一个最新模块,是挖掘外链资源的利器,摈弃了以前从搜索引擎或ahrefs_com抓取外链资源的模式,因而不再需要代理IP或者AH付费账户。

“邪恶蜘蛛LinkDance”的核心原理就是模拟GOOGLE/BAIDU/YAHOO搜索引擎蜘蛛,以一小批种子外链网址为起点爬行,通过横向和纵向(或为广度与深度)的不断扩展爬行,以种子外链网址为基础不断发现新的相关站点与URL,而爬行的途中,依据我们配置规则,实时地保存下好的可用的外链资源URL,规则越丰富,得到的外链资源精度越高。

虽然原理上最终可以爬遍整个互联网,实际使用中,则因为种子外链网址选取的不同,大家得到的外链资源也很大程度不同,这个正好符合了我们需要不同外链资源的初衷。



使用说明与技巧:

1、种子外链网址
可以选一批发布成功的页面网址,如CC XR ZP等发布成功的结果URL;
邪恶蜘蛛会以种子外链网页为基础无限爬下去;

2、不继续往下爬的URL特征
就是说抓到的URL包含这种特征时候,我们直接放弃,不保存也不再往下爬了
比如某些大站如163网易,你不想让蜘蛛去爬的,就写一条.163.com就可以;
我们内置了一批,你可以再根据自己需要扩展;

3、结果不得包含的URL特征
这个和2中提到的URL特征都是排除式的,不一样的是这里的URL特征排除不是阻止继续往下爬,而是不保存为结果;
这个可以选择启用或不启用;
建议启用;

4、结果必须包含的URL特征
这个就和3中相反了,符合这个列表的某条URL特征的,我们才要保存;
3和4综合编辑规则,可以很大程度得到直接是很好的外链资源;我们内置了一批,可以自己再根据需要扩展;
这个也可以选择启用或不启用;
建议启用;

5、去重复类型
这个针对保存结果来说的;
1)按URL去重复,选择这个,同时“每站点爬行页面数”设置一个比较大的值,就可以依据导入的种子外链资源地址进行同站点外链资源扩展;

2)按域名去重复,选择这个,就是一个站点只保留一个结果,同时“每站点爬行页面数”设置一个比较小的值,就可以快速爬更多的站,获取更多符合的外链资源;

相关的说明也可以同时参考第11点!

6、结果保存到
就是选一个用于保存结果的TXT文件,比如:D:\LinkDance结果-20130510.txt;

7、爬行策略
这个是设置蜘蛛的爬行算法,有广度优先算法(BFS)和深度优先算法(DFS);

什么是广度优先算法?

广度优先是指蜘蛛在一个页面上发现多个链接时,不是顺着一个链接一直向前,而是把页面上所有第一层链接都爬一遍,然后再沿着第二层页面上发现的链接爬向第三层页面。



如上图所示,蜘蛛从A页面顺着链接爬行到A1,B1,C1页面,直到A页面上的所有链接都爬行完,然后再从A1页面发现的下一层链接,爬行到A2,A3,A4......页面。

什么是深度优先算法?

深度优先指的是蜘蛛沿着发现的链接一直向前爬行,直到前面再也没有其他链接,然后返回到第一个页面,沿着另一个链接再一直往前爬行。



如上图所示,蜘蛛跟踪链接,从A页面爬行到A1,A2,A3,A4,到A4页面后,已经没有其他链接可以跟踪就返回A页面,顺着页面上的另一个链接,爬行到B1,B2,B3,B4。在深度优先策略中,蜘蛛一直爬到无法再向前,才返回爬另一条线。

8、爬行深度
从理论上说,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,都能爬完整个互联网。 
在实际工作中,蜘蛛的带宽资源、时间都不是无限的,也不可能爬完所有页面。实际上最大的搜索引擎也只是爬行和收录了互联网的一小部分。 因此我们有必要设置一个合理的爬行深度(或为爬行级数) 。

9、爬行超时时间(单位:秒)
就是在抓取/爬行页面的时候如果超过这个设置时间,我们就自动放弃掉,避免不必要的时间等待,比如:5(秒);

10、爬行间隔时间(单位:秒)
这个间隔时间与线程数综合设置,可以有效降低CPU负荷,根据自己电脑配置以及运行情况,综合设置;
比如:CPU T2390 我测试时候设置:爬行间隔时间2秒+线程数200 运行比较流畅,看自己的情况;

11、每站点爬行的页面数
1)如果是要获取更多不同站点的
为避免爬某些大站浪费时间,可以设置适当小点比
如:10-100
同时去重复类型要选择“去域名重复”,这样可以尽快让蜘蛛去爬更多不同的站点,发现更多有效外链资源,效率提升很高;

2)如果只是想拓展与种子外链资源同站点的外链资源
那么设置一个你需要的值,比如:10000,同时去重复类型要选择“按URL去重复”,那么就可以把一些可以发布的站的全站或大部分页面地址都抓来作为外链资源,相当于你可以做全站链接;

12、线程数
经过我们和一些老客户的测试来看,机器性能比较普通的如:
CPU:Intel(R) Pentium(R) Dual CPU T2390 @ 1.86GHZ
RAM:3GB
开100线程,可以流畅运行 CPU 20%-30%;开200线程,CPU 40%-50%;

运行中的线程调节办法:暂停->调节线程数->继续

13、多开
邪恶蜘蛛LinkDance可以一机多开,每个副本用一组大概1-2W的种子。

CPU:I7
RAM:16GB
开200线程,轻松流畅,可以多开甚至;
开500线程,CPU稳定在15-20%;

线程并不是越高越好,要综合看自己的带宽、机器性能自行调整线程数,长时间流畅运行才是最高效的;

常见问题更新:

1、点了暂停和停止为什么要过一段时间再生效?
因为这里是做了线程安全结束策略,如果某个页面已经抓会来了正在分析、保存URL,那么要等处理完再暂停或停止掉,因此需要几秒到1分钟左右时间的延迟。

SEO软件 关于我们  |   联系我们  |   代理加盟  |   诚聘英才  |   官方公告
54.162.199.125 CCBot/2.0 (http://commoncrawl.org/faq/)
金山通过金山  瑞星通过瑞星  卡巴通过卡巴  NOD通过NOD32  360通过360  小红伞通过小红伞  无插件无插件  Win7兼容Win2000/WinXP/Win2003/Vista/Win7兼容/64位兼容 
Copyright © 2010-2013 新动力软件. All Rights Reserved. 全国服务热线:4006679500 业务QQ:189879691 189879692
新动力 SEO软件
在线客服