题记:有些好奇心是没有社会责任感的,而我有很多这样的好奇心。做这个评测的时候我颇有种因为好奇而扒人硬盘一般的罪恶感。提醒一些跟我有同样好奇心的朋友,这个软件,能不装的还是尽量不要试。我可以用虚拟系统来测试这东西,出问题也不会对机器造成影响,但是一般机器如果因为试这样一个软件而受到伤害的话我觉得是很不值得的。另外我也不想因此而增加在他们的黑名单,毕竟这个软件至少将侵犯很多人上网的自由1年。
驴爸这个东西在法律和道德上的判断,我想大家都已经讨论得很多。我现在搬出驴爸,也不是为了再顺势谴责一下谁谁谁,纯粹只是很好奇驴爸对日漫的图片识别率到什么程度而已。
很谨慎地弄了一个下午,本想驴爸肯定会死得很惨,结果却大大出乎我的意料之外:驴爸的图形识别系统比想像中的要好。…这是怎么一回事?先让把我的整个评测过程摊出来吧。
首先说一下我做这个测试的几个基本原则:
==
2.同样的,
为了避免驴爸把这写网址上传最后惊动那条名字里有个火字的长城(的可能性),我并没有直接在P家上测试,而是
把所有测试图片下载下来然后在本机的IIS上运行。这也就是为什么这次测试的样本这么少而却那么耗时间。另外不必担心结果会有差异,实验表明,驴爸对localhost是同样起作用的。
==
3.对这些图片的作者,我是十分敬重的,我的价值观不允许我直接转载他们的图片。同时不想让这里被某些不明来路的家伙认为是不良网站。不过你可以看到这些图片的缩略图。另外我还会把这些图片的链接放进我最后统计的excel文件里面,再提供txt的链接列表。
==
4.其实上面已经说够了,这只是凑够四条,不对,是四项,这样看起来比较威风。xD。
安装驴爸 ——- 配置好IIS ——- 确认软件在起作用
正如某个网站所说,驴爸的有型之处在于安装过程是不需要选择安装路径的,绝大部分文件直接扔进c:\windows和c:\windows\system32……这看上去简直就像…打住。界面是这个样。很口爱,xD
驴爸的口爱界面…
配置好IIS之后,我先把驴爸设置成这样:首先不需要黑名单,要不然很麻烦;然后图片数目有多大设置多大,因为这个数字太小了会让页面被屏蔽的几率变高;最后把关浏览器的选项关掉,不然我没法一次测试多个图片…
设置看下图:
驴爸设置
接下来用两张图片确认了驴爸的图片拦截功能在运行。看下图,a.jpg是一张av截图,b.jpg则是windows自带的壁纸,很明显图片识别生效了,127.0.0.1的服务器没道理会有传输问题对吧?
这可不是数据传输的问题
那么下一步就是找测试样本了。
我在这里大致说明一下我选的样本:首先这些样本都是基本功比较扎实的,所以可以避免因为走形而导致无法识别的问题xD。开玩笑。
ID1-5是即使你想意淫也几乎没有机会的纯洁图,不过有一两张图的色调比较偏黄,这是我想看一下是否如网上所说黄色调的图片比较容易被拦截。
==
6-10的图则是全年龄但却比较容易产生遐想的图。
==
中间5张是色调跟一般的色情照片走得比较远的图,包括一些黑白,和一些色调单一的。不过这部分的图比较难找,所以从原计划的10张斩成现在的五张。
==
其中16-20是衣物覆盖率比较高的R-18图。
21-25是衣物覆盖率比较低的R-18图。
这25张图的url你可以在这个txt文件里面找到,但我就不直接链接过去了。注意,这些图可能会让你身体感到不适或情绪不安,我不为你承担这些风险。另外小孩请自觉退散。点击下面看缩略图。
测试页面
因为没有网页编辑工具,所以一切从简。从index有到test1~test3的页面链接,第一页显示ID1-10的图片,第二页11-15,第三页16-25。大概这样子。
测试当然是选用跟一切国内网络系统兼容得最完美的IE6.0了xD。
源码(无视W3C标准)
网页外观
测试结果
正如这文章开头的时候所说的,测试结果让我很是惊讶。测试结果的原始统计数据可以在这个表格里面看到。在我所测试的25个日漫风格样本的范围内分析下来是这样的:
各个过滤等级下的结果完全没有区别。连小小的误差都没有,不过不排除是因为我的样本基数太小。通过多次刷新和改变图片地址确认过,这跟缓存没有关系。
==
没有误杀。这点足够他们骄傲上一阵子了。虽然网上流传的很多咖啡猫的图被杀掉的消息,但是起码我这边的10张正常图,只有7号图是被block的,而这张7号打的擦边球,直接看成是色情也不算太过分,所以我认为这不算误杀。
==
对黑白图和某些色调无能为力。别的可能说是认不出来也情有可原,但是12认不出来的话只能说是对黑白图的识别能力很有限了。不过15能识别出来应该算是意料之中的吧?
==
跟预计一样覆盖率低的比覆盖率高的识别率要高一些,
对正常的R-18图识别率是一半。我觉得这个数字还是挺了不起的,记住我的样本是日漫风格的图片……我想有一些不能识别是因为光影(21),一些则是因为肤色的块有太多遮断(22,20)
==
并不是大块黄色就会拦截。一些网站说大面积的黄色很容易被拦截,我认为这个说法很误导人。
测试结果表明完整的接近某些部分人形的肤色块会更容易让图片被驴爸拦截。要实际验证这一点倒是不难,不过我想直接问开发者会比较方便…
统计结果截图
从这个结果看来,其实这个驴爸对日式漫画的兼容性还算是不错的……
如果有闲而且有心情的话,我可能还会继续做这个测试。我想样本去到100张左右的时候,这个测试结果才开始有些说服力。只是抓图和记录资料实在很麻烦…
在表格里面你可能会看到,我还把每张图的tags抓下来了。我想如果有合适的工具的话,统计一下每个tag被拦截的几率或许会更有意思,xD。不过对excel来说这貌似是一个不可能的任务?
各种题外话
在这次的测试结束了之后,我还顺手抓了另外一张图片。(谨慎起见,图片马赛克一下)
马赛克过的神秘图片c
很可惜,成功显示出来了。
(关于这张图片我想知道的人都知道什么回事,不知道的人用中国最著名的那个广场的拼音在英文谷歌上面找找也能了解个大概。我是个很犬儒的人,不想自家有什么关键字。)
接下来我顺手看了一下驴爸里面的日志记录。实际上不需要觉得自己每一条url请求都被记录是很出奇的事。就我所知,我大学的时候的校园网,就是每一个ip每一个帐号的每条url都能够在学校的服务器里面查到的。这软件只是把原来就有的情况恶化了一些而已。
这里的意外收获是发现他们居然把阿马逊列入黑名单。这是为何?
然后感觉里边关于关键字的记录倒是比较有趣,这也许是下一个可以测来玩玩的内容。不过可能需要断网后访问127.0.0.1呢。
最后,每3分钟1次的定时截图很恶心。只要机子开着就会自动截,暂时没看到关闭这个功能的选项。如果硬要扯无情践踏孩子的隐私的功能的话,这算是一个。不过我们有那么些理由相信,4000万买来这产品应该不会是为了这个目的。
追加参考资料,密歇根大学的J教授(笑)写的分析。
http://www.cse.umich.edu/~jhalderm/pub/gd/
这里面解答了我的一些疑问,如果想知道驴爸是怎么个山寨软件的话,这篇文章值得一读。不过是英文。