中国网/中国发展门户网讯 (记者 王振红) 近日,中国科学院自动化研究所曾毅研究员课题组在Cell Press细胞出版社旗下期刊Patterns上发表了一篇题为“Challenging Deep Learning Models with Image Distortion based on the Abutting Grating Illusion”的新研究。他们基于人类和生物视觉系统中广泛存在的幻觉轮廓现象启发,提出了一种将机器学习视觉数据集转换成幻觉轮廓样本的方法,量化测量了当前的深度学习模型对幻觉轮廓识别能力,实验结果证明从经典的到最先进的深度神经网络都难以像人一样具有较好的幻觉轮廓识别能力。
此项研究提出了系统性生成幻觉轮廓样本的方法。将视觉认知和机器学习数据集结合,实现了对神经网络幻觉轮廓感知能力的量化。测试了大量公开的预训练神经网络模型,发现幻觉轮廓感知较好的模型展现出了计算神经科学理论预言的端点激活现象。
神经网络和深度学习模型在过去十年中看似取得巨大成功,在许多给定的视觉任务中在指定方面超过了人类表现。然而,神经网络的性能仍然会随着各种图像扭曲和损坏而降低。一个非常极端的例子是对抗攻击,通过在图片上施加人眼难以察觉的微扰,能够使神经网络模型彻底失效。而人类的视觉系统在这些问题上具有高度鲁棒性,说明深度学习与生物视觉系统相比仍然存在根本性缺陷。
此项研究主要研究了深度学习对交错光栅幻觉的识别能力。交错光栅幻觉是一个经典的幻觉轮廓现象,位移的光栅会在没有亮度对比的情况下诱发出虚假的边缘和形状。标准的交错光栅错觉能够让人类在实际上没有物理边界的情况下感知到中间的垂直线。交错光栅错觉被广泛应用于生理学研究中,以探索幻觉轮廓的生物视觉处理。深度学习模型的幻觉轮廓感知相关研究相对较少,目前仅有几篇相关论文。研究深度学习模型对幻觉轮廓感知的鲁棒性比图像干扰鲁棒性更加复杂,主要障碍是幻觉轮廓的样本有限。大多数研究分析的幻觉轮廓都是在先前的心理学文献中手动设计的。这些测试图片无法直接与深度学习模型训练的任务相匹配,同时由于数量很少,无法形成一个有相对规模的测试集,很难以机器学习的方式去衡量深度学习模型的幻觉轮廓感知能力。
中国科学院自动化研究所曾毅研究员负责的类脑认知智能研究组提出了一种名为交错光栅扭曲(Abutting Grating Distortion)的图像干扰方法,作为量化神经网络模型幻觉轮廓感知能力的工具。该方法可直接应用于具有外部轮廓而没有纹理信息的剪影图像,从而系统性地生成大量幻觉轮廓图像。这项研究将这一方法应用于手写数字MNIST数据集和物体的剪影图像(16-class-ImageNet silhouettes)上,并且通过插值增强图像的清晰度,从而生成对人眼具有更强幻觉效应的测试集图像。
研究结果表明,大多数预训练模型的表现接近随机。另外可以观测到当交错光栅之间的距离较小时,存在一些模型的结果与其他模型的分布有较显著的差别。最终这项研究发现使用深度增强(DeepAugment)技术训练的模型相比其他模型能够显著增强模型对交错光栅扭曲数据集的识别。
同时这项研究也招募了24名人类受试者,从而评估不同的参数设置下,人类的幻觉轮廓感知能力以及其对数字和图像识别的影响。这项研究发现即使是当前最先进的深度学习算法在交错光栅效应的识别上也与人类水平相距甚远。
实验中的所有深度神经网络模型无论是否被训练,使用了什么方式训练,在maxpool层都产生了神经动力学层面的沿着幻觉轮廓的激活。然而即使如此,这一神经动力学层面的激活并没有能够帮助到深度神经网络最终在行为学层面识别出幻觉轮廓。而唯一拥有相对好的幻觉轮廓感知能力的深度增强模型,则表现出了端点激活效应(endstopping property),这一效应是其他模型没有表现出来的。这揭示了未来突破这个问题重点在于端点激活和幻觉轮廓的关系。
图 类似端点激活神经元的现象和理论预言的拓扑结构
论文第一作者中科院自动化所类脑认知智能课题组范津宇说:“这项研究结合了认知科学和人工智能,提出了将传统机器视觉数据集转换成认知科学中的交错光栅幻觉图像,首次对大量的公开预训练神经网络模型的幻觉轮廓感知能力进行量化测量,并且从神经元动力学角度和行为学两个角度检验深度学习和神经网络模型对幻觉轮廓的感知。”
论文通讯作者中科院自动化所类脑认知智能课题组负责人曾毅研究员说:“我们认为这项研究最大的特点是从认知科学的角度检验和部分重新审视了当前看似成功的人工神经网络模型,并且证明人工神经网络模型与人脑视觉处理过程仍然存在着很大差距,这还只是人工智能与人类认知显著距离的冰山一角。大脑运作的机理和智能的本质将继续启发人工智能,特别是神经网络的研究。如想从本质上取得突破,人工智能需要借鉴并受自然演化、脑与心智的启发,建立智能的理论体系,这样的人工智能才会有长远的未来。”