1)网页之间不要有断链,博客之类网站设计时很容易留下断链,长时间不更新的用户,从首页是怎么都点不过去的,人点不过去,搜索引擎也就爬不过去,一个解决办法是象黄页网站一样加用户名索引页。
2)google处理网页链接的办法,由起始网页收集三次链接(不含起始网页)的全部网页,集中处理这些网页的所有链接,静态页的相对链接不加次,但是跳转和重写都要计成两次(如果A到B时B经过了一次跳转,那么这次跳转要消耗掉一次,这次路径只再走一步),所有网页链接排序,按起始网页重要程度分配线程进行处理,如果处理能力不足,跳步处理(按他们自己说法,是按一个哈希表做跳步)。跳步处理链接把对应网页写到一起处理,把每对body视为一个网页计数。知道google处理网页的办法,我们就找到了很多网页没被收集的原因,链接需要重算(不含静态相对地址)的地址因为被计了两次,所以难以与互链网页形成回路,被收集的次数很小了,当线程分配不足时,链接可能就在跳步的时候跳过去了,另外,在排序的时候,问号由于被程序当做宏,可能会导致页码:[1] [2] [3] [4] [5] [6] 第5页、共6页 |