有这样一群人,他们租用上百台或更多服务器用于搭建网站,但并不自己维护网站内容,而是在服务器上安装镜像软件,实时采集其他网站的数据,克隆为自己所用,省去了海量的内容维护工作。被采集的网站,除了站长辛苦更新的内容被抄袭外,还可能出现被搜索引擎降权的情况。对于这种镜像网站的行为,管理员除了谴责,别无他法。因为这些服务器都位于香港或国外,不需要ICP备案,查不出网站主体。
然而这不是最严重的,最严重的是很多时候网站管理员并不知道自己的网站已经被镜像克隆了!一般要到镜像网站在搜索引擎有权重,已经影响源站排名的时候(例如镜像网站和源站争抢相同关键词的排名),管理员才可能发现。之所以说可能,因为很多站长并不经常检查网站关键词在搜索引擎的排名情况。
也就是说,最难的不是如何处理被镜像克隆,而是如何及时发现网站被镜像克隆。
首先,我们研究如何处理网站被镜像克隆。
采集人员为了利益最大化,一般都会在每台服务器部署上千个网站。为了节省服务器资源,不会存储每个网站的数据到磁盘,而是访问时实时采集。因此我们只需要拦截采集服务器访问网站就可以解决镜像克隆问题。高明的采集者,会让采集服务器的访问IP和采集IP使用不同的IP,因此不能直接拦截采集服务器的访问IP,而是需要找出采集IP。方法很简单,先在自己的网站开启Webserver日志(IIS日志、Apache日志、Nginx日志),然后在镜像网站域名访问一个特殊的文件(例如:http://镜像网站域名/dfwfg235tcs.html),此时采集软件会同步请求你的网站,产生一条http://你的域名/dfwfg235tcs.html的日志,我们只需要找到这条日志,找出其中的客户端IP,这个就是采集IP,阻止此IP访问就能成功解决镜像克隆问题。
然而这个方法有2个缺陷:
1、 对使用了CDN的网站无效。因为获取到的客户端IP都是CDN节点的IP,一旦拦截,很多用户就不能访问网站了。
2、 如果采集者更换了采集IP,需要按上述方法重新找出采集IP。而采集者往往拥有海量IP可更换,处理起来非常耗时耗力。
对于上述的2个问题,以及如何及时发现网站已经被镜像克隆,有完美的解决方法吗?
答案是有的!下面我们继续分析。
采集者为了提升采集成功率,往往会在采集时加上蜘蛛标签,冒充搜索引擎爬虫进行采集,让管理员不敢拉黑采集IP。(大部分网站都依赖搜索引擎,对于搜索引擎爬虫皆奉若上宾,岂敢拦截)
因此我们可以对带蜘蛛标签的访问进行判断,判断客户端IP是真假蜘蛛。如果是假蜘蛛,立即拦截,这样就轻松解决频繁更换采集IP和无法及时知晓网站已被镜像克隆的问题了。
如果你想通过分析网站日志来找出并拦截采集IP,我建议你放弃。首先你得有丰富的蜘蛛IP库。其次针对使用了CDN的网站无效,因为Webserver无法穿透CDN。
因此必须使用第三方安全软件才能实现,推荐使用《护卫神.防入侵系统》,其“伪蜘蛛防护”模块(如下图一)专门用于拦截假蜘蛛,内置丰富的蜘蛛IP库,同时支持CDN穿透,使用了CDN的网站也能有效捕获采集IP。至于如何及时发现网站被镜像克隆,已经不重要了,冒充蜘蛛访问的一律被拦截,自然没法再镜像克隆了。
(图一:护卫神伪蜘蛛防护)
拦截效果如下图二。
(图二:护卫神拦截假蜘蛛访问)