随便聊聊最近的行动的……起因

发表于1年前 修改于1年前

目录:

  • 一、背景:和谐之风
  • 二、网络爬虫与它的天敌:边缘标记(针对用户推送和谐内容)
  • 三、道高一尺魔高一丈:词频这个拦路虎
  • 四、结语


摘要(太长不看):

为了应对和谐之风,避免被墙,站子做了很多的努力。比如,为了防网络爬虫,站子把“边缘”类文字只对注册用户开放,不对游客开放,避免被爬虫直接抓取、使网站登上“和谐列表”。不遵守边缘标记使用的用户,对站子安全的危害非常大。

但是,“边缘”标记并不能让站子一劳永逸地摆脱和谐危机。因为事实上,只要身处墙内的用户能够看、正在看的信息,服务运营商和“有关|部门”就都能看到。通常,小网站能蒙混过关。然而,一旦某些在“和谐列表”上的词汇过高的频率出现在网站的主页以及目录页面,程序就很容易识别,给网站带来巨大的安全隐患。

面对现状,我们的要求是:

  • 边缘标记——凡是边缘必须打
  • 目录页面——标题、简介、章节名,必须干净体面
  • 文案——可以委婉
  • 正文——可以开车

请咸鱼们务必遵守站内规范,保持目录页面信息的干净和谐体面,我们有默契地。。。咳


正文(啰里八嗦):

一、背景:和谐之风

今天想跟大家聊一聊,一个关于“墙”,关于“老大哥”,关于“关键词”,关于“和谐”的话题,同时也是给大家解释一下,为什么会有最近的审查行动?我们的目标又是什么?尽量用大白话跟大家讲一讲这一切背后的思考。站长业余编程,半路出家,基础知识多有缺失,如有错漏跪求指出。

当今的中文互联网上有一只举世闻名的和谐怪兽。其所盯之网站,所触之数据,经常说没就没,哪怕是当服务器处于“墙外”的时候,也时有惨剧听闻。其实,数据并不是真的没有了,仍然安安全全地呆在服务器里。被拦截的,只是墙内用户从服务器上获取数据的过程。可如果身处墙内的朋友看不见、搜不到、登不上,网站也就变成了海外专区,对一个中文网站来讲,失去百分之97%的用户,跟死了也差不多。

那么这个和谐怪兽它到底怎么发现猎物的呢?这要归功与一种叫做“网络爬虫/网络机器人”的小程序。这些程序体积小、威力强,它们通过超链接,从一个网站跑到另一个网站,从一个页面跳转到另一个页面,把站上特定的数据收集起来,报告给它的主人。一些大的搜索引擎,比如谷歌,就会释放很多的网络爬虫。和谐怪同样利用它实现监察目的。

废文网近期遇到了多少爬虫呢:



不同的爬虫访问次数占用带宽最后访问
含有“spider”名字的未知爬虫 16,684401.99 MB14 May 2018 - 07:03
谷歌爬虫11,518109.68 MB14 May 2018 - 07:07
名字中含有’bot’和“_+:,.;/\-”之内字符的爬虫7,33744.37 MB14 May 2018 - 07:05
不知名的爬虫(特征是客户名字段为空)1,38281.81 MB14 May 2018 - 07:06
名字中含有’crawl'的爬虫7864.34 MB 14 May 2018 - 00:11
使用nix工具,很有可能是爬虫 76115.77 MB14 May 2018 - 00:20
Alexa网站排名爬虫52412.93 MB14 May 2018 - 01:27
必应预览爬虫586.46 MB14 May 2018 - 00:34
谷歌预览爬虫16715.47 KB14 May 2018 - 03:18

以上是一天内来过的,看着还不少哈,著名的谷歌,Alexa,必应,都派了小家伙们过来。


二、网络爬虫与它的天敌:边缘标记(针对用户推送和谐内容)

是不是很危险?其实网络爬虫这种东西呢,要防范也并非没有办法。很简单,如果我们不把内容提供给爬虫,只提供给真实用户——比如说,只提供给用邮箱和指定邀请码注册的朋友呢?

这个方法行之有效。我们的“边缘”标记,除了不想让未成年人误入,另一个,也是最主要的原因,就是为了防范网络爬虫对数据的搜刮。我们将所有打上边缘标签的内容,只提供给真正的用户。如果爬虫不能提供它是一个真实用户的证明,它就不能得到相关数据——大部分的爬虫,假如不是为了某个网站专门编写,对此就无计可施啦。

而一个反例呢,就是把包括敏感信息之内的所有信息,不加筛选,完全公开提供给所有的访问者。某著名粉红网站,就有一个巨大的安全漏洞:它上面,所有回帖人的ip地址都明文暴露在外,无论是谁,只要使用最简单的html编辑器,就可以看到这些信息,许多著名的瓜就是这么产生的。

因此,凡是属于本站边缘范畴的文章,必须打上边缘标记。这是真切的生存需求,我们必须对此严格要求。


三、魔高一尺道高一丈:“词频”这个拦路虎

然而,是不是只要打了边缘标记,就能高枕无忧了呢?难道其他被封网站这么愚蠢,不知道只将数据交给真实用户?听说某原动物名后植物名的著名网站也有“限制级”的分级呀!它们照样卡得不得了!

唉,这就要从特殊的国|情说起了。由于信息传播的原理,从国内某房间的一台普通电脑,到大洋彼岸的服务器,这中间有许多道“门”,每一道门,都可以对数据进行直接的解读,包括各大互联网服务提供商,也包括各个国家的有关部门。假如一个小区有五百户住户,其中有一人是废文的用户,今天上网浏览了20M的数据,那这20M数据,不多不少,都混合在这个小区出出入入的所有互联网数据里,都能够被提供小区网络服务的服务商(比如电信),以及相关部门看到(他们想的话)。哪怕打了边缘tag,只要读者能看到,别人就能看到;而如果读者看不到——网站存在的意义也就没有了。

也许你会想,海量数据,也是最好的保护伞呀,大海捞针,又怎么能发现我们网站有敏感内容呢?这当然不是靠肉眼排查,而是靠一些计算机程序来实现的。一个很简单的做法,就是通过查看一个特殊的敏感词汇列表,排查词频,看是否有某个网站,频繁、密集、固定地提供这个列表上的数据,比如说啦,“NP”,“性爱”,甚至“维尼熊”……

由于一些特殊理由,很显然,不同类型的词汇表,它受到关注的强度也是不一样的。比如说维尼熊的真名咳咳,这就肯定是在最高强度监察列表上面。其他时评相关词汇亦然。小站人小力薄,兴趣之源毕竟是文学相关,因此本站无法承载纯时评内容的备份、发布,哪怕打上边缘,也是力所不能及,希望咸鱼们能够理解。

那么居于时评之下的呢,就是和谐之风覆盖的另一套词汇表了。不知道各位有没有去帮助页面的最下面,看过我们的违禁词列表,它可以简单看作那个真正的、不断刷新的和谐词汇表的一个小小的侧影。可以推断,每一次“有关部|门”发现废文上这类单词出现的“词频”超过了随机字词组合所能达到的频率,它就离危险更进一步。尽管我们用程序禁止了许多单词直接出现在标题与简介里,但是人类的语言系统多么复杂,真正的违禁词列表又完全不公开,还经常变化……于是,这个列表远不能包含所有上榜了的违禁词。

那么,怎么才能合理减少某些词汇的“词频”呢?这其实也有技巧。网站不同于书本,一本普通图书的不同页,被翻阅的次数所差无几。但对于网站来讲,不同页面被访问的次数迥异,其中,作为目录索引页的地方,收到的点击,可以是网页点击中位数的几千、几万倍。比如说,上个月网站主页的访问量是28万次,登陆页面的访问量是21万次,文库目录的访问量是12万次,而单独某书本目录的访问量只不过几百次左右,每一个章节的访问量则只有几十、十几次。

也就是说,同样一个敏感词,如果出现在主页上,会贡献28万次的词频;出现在书本目录上,会贡献几百次的词频;出现在正文里,就只贡献十几次词频。

对策一目了然:我们必须尽量减少敏感词在索引页面出现的概率。索引层级越高,对敏感词的管理越应该严格

我们将所有的信息按照点击频率进行排序,是这样的:

点击频率排行:主页上出现的标题、简介>文库/论坛目录页上会出现的标题、简介、章节名>>书本章节目录上出现的文案、章节简介>>章节正文中出现的正文、注释(作者有话说)。

很显然,排名靠前的这些信息,我们必须要求它们非常“干净”,才能尽最大可能躲避和谐怪的侵扰。

怎么变得干净呢?敏感词的识别还有其规律,那就是,越是不常见的、特殊的、没有其他含义的词语组合,越容易被识别;词语的长度越长、越特征明显,越容易被识别。那反过来,一个常用而且行之有效的方法,是采用分隔符、特殊字符、约定俗成的词、谐音、联想,将字符串变得看似不那么像敏感词

然而这个方法治标不治本。假如一个索引页上都是“车车车”,“肉肉肉”,“和|谐”……同志们,程序再笨,也不至于那么笨,程序通过互联网海量的数据每天进行学习,各位能一眼看懂的一些最常见的组合,程序也能够学会识别,一旦这些词频超过某个范畴,具有重复的特征,同样具有危险。当然,谐音和联想在这里面,相对来讲稍微又安全一些些,只要大家不要跟风抄袭创意,或许能够取得暂时胜利——然而,个人用户的帖子有一定比例躲过去,网站可就没那么容易了。因此,越靠近目录索引,越不能抱有侥幸心理,宁可小心谨慎,不可过分灵活。

另一个常用但是本站暂时无法使用的方法,是将一些文字使用图片的效果来呈现——因为程序对文字的识别能力,大大优于对文字、视频、音频的识别能力。比如微博上,大家都知道,文字发不出来的东西,发图片能发出来。但这个方法一是会增加服务器的带宽负荷,二来显示效果不尽如人意(字对不齐),三来难以实现对手机和电脑的同步适应,因此我们暂时不考虑全面使用图片来规避。

总之,基于以上的现实情况,我们的规则是:

  • 边缘标记——凡是边缘必须打。
  • 目录页面——所有文章,无论边缘与否,标题、简介、章节名,必须干净体面,不光违禁词,什么擦边都不行。
  • 文案——边缘文的文案,可以委婉、谐音,请发挥你的想象力,切忌跟风,推陈出新
  • 正文——可以开车,请自由地。。。


四、结语

以上是我们所有规则制定的逻辑。我们禁止边缘相关的信息出现在未登录用户的界面和主页上,要求标题、简介、章节名不能有任何擦边和谐,要求文案、章节简介适度和谐(谐音、文雅、看着体面),而对正文的要求非常宽松,都是仔细考量,出于安全考虑和最大限度保障作者自由度的想法,制定的,实在是逼不得已,不是没事找事。

其实小站开站一天,就有一天被封的危险。人少的时候,这个危险倒不大,但随着站子人数逐渐变多,前来访问的爬虫越来越频繁,在搜索引擎上出现的次数越来越多,网站所冒的风险也越来越大。却仍有用户不理解我们的苦心,不尊重我们的警告,反复一再将信息公开在外……如今无可奈何,只能进行费时费力的手工排查,还请咸鱼们多多理解,加以配合,让站子静悄悄地活得久一点。

6940/17/0  下载