经验说不上多少,只要不是瑞数,kmai,指纹等一些,还是能成功完成项目。能实现了两种抓取模式,一种是全网抓取,一种是整站抓取, 为了不 Python GIL 锁成为效率的羁绊,选择了效率恐怖的多进程加协程做为并发模型,并自学GO语言,能为不用的项目选择合适的解决方案。 为了不 IP 被 ban,实现了一个代理模块,每一个30分钟从代理网站上抓取新的代理 IP, 为了不爬虫奔溃致使状态丢失,实现了一个爬虫状态的备份机制,每10分钟备份一次, 为了不爬虫陷入某个网站没法自拔,遂实现了爬虫爬行深度的功能,可以自造造轮子实现一个了 URL 正规化的模块, 实现了一个 URL 类似性断定模块,减小对类似的 URL 进行抓取,提升效率。