一般来说,百度蜘蛛的爬取在门户网站是广度优先,比如百度贴吧首页标题要优于兴吧首页标题,兴吧首页标题要优于帖子首页一楼;
当抓取高质量网页的时候则是深度优先。而且不是所有帖子都能抓取,能抓到60%已经很好,正常在40%左右。如果网页链接处于四层以下就比较难抓取了,比如
https://tieba.baidu.com/p/3012199269中tieba.baidu.com算一层p/3012199269算一层,以此类推,四层以下基本不可能抓到。
蜘蛛是从首页一层层往下走的,因此地址链越短,被它抓到的可能性越大。比较显著的是百度知道、360问答,会在后面详细说明。
另外,我们为什么
坚决提倡标题带有张艺兴字样,那是因为首页有
百度快照功能,相当于图书馆中每本书的索引。但张艺兴吧及很多吧的百度快照消失了,考虑应该是标题内容重复的地方太多所致。
百度蜘蛛喜欢原创文字,越是与众不同标新立异越喜欢。
对图片、视频、flash全都无法解析,所以发这些内容前应加上文字,说明内容情况。说明和视频图片等应放在同一楼层,且不能千篇一律,否则它会认为你没有更新。
还有一种说法就是从网站首页开始点击,无论走哪条线,点击四次能到达的网页百度蜘蛛可见,否则不可见。也就是说贴吧标题页数太靠后也不行。
当地址层次结构比较明晰,内容丰富,原创文字多,带有关键词及其关联词内容较多,点击回复量又很大时,这个关联词就比较容易搜出来。例如张艺兴治愈天使这个关键词,帖子里有很多楼都带有张艺兴、治愈天使字样,并且点击量回复量都很高,关键词密度也不算大,那么这个帖子在用户搜索张艺兴治愈天使的时候就很容易上去。这样上去的帖子多了,这个关键词关联的内容也就容易上去。