您好,欢迎来到 中国大学生在线

【重理工智库】解读深度学习,一个公式足矣!

2017年03月21日 14:25:35 来源: 重庆理工大学 作者: 字号:TT

1.什么是深度学习

根据百度百科,深度学习是含多隐层的多层感知器的一种结构,它通过组合低层次特征形成更抽象的高层次特征(Representation),以发现数据的分布式特征表示。更通俗的说:神经网络的每一层,都是线性变换和非线性运算单元的组合,多层神经网络就是多个非线性函数的叠加,层数太少的网络难以描述输入与输出之间的复杂关系,因此更深层次的网络就随之出现了。其实,除了深度神经网络之外,还需要一套训练和优化网络的方法,它们共同构成了深度学习技术。深度学习的原理并不神奇,正所谓书读百遍,其义自见,深度学习的关键就是足够的参数、数据和计算能力。

图1 图像识别任务中的深度神经网络结构

2.深度学习前世今生

之所以被称为深度学习,是因为传统神经网络(图2)方法都是浅层学习。深度学习是传统神经网络的继续发展,最早可追溯到上世纪四五十年代。1943年,科学家 Warren McCulloch和 Walter Pitts 第一次提出将神经网络作为一个计算模型的理论。1957年,康内尔大学教授 Frank Rosenblatt提出的"感知器" (Perceptron),第一个用算法来精确定义神经网络,也是第一个具有自组织自学习能力的数学模型。然而传统的感知器用梯度下降法难以充分训练,其计算量和神经元数目的平方成正比,当神经元数目增多,庞大的计算量是当时的硬件承受不了的,神经网络的发展因此进入了停滞期。1986年7月Hinton 和 David Rumelhart在《Nature》杂志上发表论文,"Learning Representations by Back-propagating errors",提出了反向传播算法,把网络训练的运算量下降到只和神经元数目本身成正比,神经网络的研究开始复苏。不幸的是,九十年代末,神经网络研究又遇到困境,除了计算速度的因素,反向传播算法也遇到了梯度消失问题(vanishing gradient problem),导致其很容易限于局部最优解。与此同时,支持向量机(SVM)技术在图像分类和语音识别方面的成功,使得神经网络的研究重新陷入低潮。学术界也视神经网络为瘟疫,只有Geoffrey Hinton仍在苦苦坚守。鉴于传统神经网络的身份,Hinton将其改名为深度学习(Deep Learning)直到2006年Hindon发表论文"A fast algorithm for deep belief nets",大幅降低了传统神经网络的计算开销,并提出了网络链接权重初始化的有效方法。再加上2007年 Nvidia 推出了 CUDA 的 GPU 编程接口,其运行速度和传统双核 CPU 相比,可达快70倍的速度。从此,深度学习迎来了春天,无论在语音识别、自然语言处理,还是在图像处理、行为识别,甚至是自动驾驶和棋类比赛的人机对抗中都取得了巨大的成功。

图2 传统神经网络结构示意图

3.深度学习的理论依据

心理学领域研究表明,大脑对事物和概念的记忆,不是存储在某个单一的地点,而是分布式地,存在于一个巨大的神经元的网络里。自始至终,机器学习的研究总是力图模拟人的思维及信息加工方式,分布式表征 (Distributed Representation),是神经网络研究的一个核心思想。概念和神经元是多对多的关系:一个概念可以用多个神经元共同定义表达,同时一个神经元也可以参与多个不同概念的表达。例如一棵 “大树”用分布式地表达,一个神经元代表大小,一个神经元代表颜色,第三个神经元代表树的类别。三个神经元同时激活就能准确描述需要表达的物体。分布式表征存储效率高,线性增加的神经元数目就可以表达指数级增加的不同概念,且即使局部出现硬件故障,信息的表达不会受到根本性破坏。

1981年,David Hubel和Torsten Wiesel由于其初级视觉皮层理论而获得了诺贝尔医学奖,他们发现人的视觉系统的信息处理是分级的。如图3所示,从视网膜(Retina)出发,经过低级的V1区提取边缘特征,到V2区的基本形状或目标的局部,再到高层的整个目标,最终到更高层的前额叶皮层进行分类判断,即人脑视觉系统中高层的特征是低层特征的组合,而从低层到高层的特征表达是逐层抽象和概念化的过程,即越来越能表现语义或者意图。

深度学习(Deep Learning)就是以分布式表征和初级视觉皮层理论为依据,通过组合低层特征(分布式表征)形成更加抽象的高层特征。例如,在人脸识别领域(图4),深度学习算法从原始图像去学习得到一个低层次表达(如边缘检测器、小波滤波器等),并在这些低层次表达的基础上,通过线性或者非线性组合,来获得一个高层次的表达(人脸)。不仅图像存在这个规律,声音也是类似的,研究人员从某个声音库中通过算法自动发现了20种基本的声音结构,其余的声音都可以由这20种基本结构来合成。

图3 人脑的视觉处理系统

图4 视觉的分层处理结构

4.深度学习的优势及典型应用

虽然当前的深度神经网络还不能完全模拟人脑,况且当前对人脑的研究还是冰山一角。但它保留了生物神经元连接的非线性、分布式、并行计算、自适应、自组织等精髓,在实际应用中表现出泛化性能好,可端到端处理,任务完成效果棒等优点。

在语音识别领域,2009年,Hinton把深度神经网络介绍给做语音识别的学者们。随后在2010年,语音识别就产生了巨大突破,仅仅把传统的混合高斯模型(GMM)替换成了深度神经网络(DNN),识别错误率一下降低近20%。搜狗、百度和科大讯飞三家公司2016年11月几乎在同一时段宣布了安静环境各自中文语音在线识别准确率达到了 97%;而在饭店等嘈杂环境下,百度使用上万小时语音进行网络调参,使用近 10 万小时语音进行产品发布时的网络训练,可以实现81%的辨识准确率。结果远好于同样环境下,其他商业版语音识别API(包括Bing、Google以及Wit.AI等)的最高65%的识别率。随着识别率的进一步提高,基于深度学习的语音识别将会成为人类与计算机交互的新方式,Apple的Siri、各大输入法及导航中的语音输入均是其典型应用。

图5 基于深度学习的语音识别

在图像处理方面,ILSVRC(ImageNet Large Scale Visual Recognition Challenge)竞赛结果是最有说服力的。ILSVRC是基于ImageNet图像数据库的国际计算机视觉识别竞赛。在ImageNet图像数据集中包含1.2亿的图片、1000类不同的目标。ILSVRC2016的目标定位及识别任务中,需要对150000张图片中的目标进行定位和识别,最终冠军团队基于深度学习技术(图4),得到的目标定位及识别准确率分别超过92%及97%。这一结果甚至超出了人类的定位和识别水平,各大搜索引擎的以图搜图使用的关键技术就是基于深度学习的图像处理。

在棋类竞赛领域,2016年3月的人机大战中,AlphaGo最终以4:1战胜了围棋世界冠军、职业九段选手李世石。AlphaGo基于深度学习技术,背后主要的方法是 Value Networks(价值网络)和 Policy Networks(策略网络),其中 Value Networks 评估棋盘位置,Policy Networks 选择下棋步法。通过将 Value Networks、Policy Networks 与蒙特卡罗树搜索结合起来,AlphaGo 达到了专业围棋水准。

图6 人机大战

除此以外,其他的典型应用还包括人机交互、行为识别、视频摘要与检索、自然语言处理、文本理解等。深度学习的应用领域如此广泛,这里无法一一列举。可以这样说,越是复杂的领域,深度学习的威力越大。

用个简单公式进行总结,即:深度学习=超多参数模型+大数据+最优化+高计算能力。深度学习属于人工智能的范畴,它解决问题越来越像人类的思维方式,也具备了一定的学习能力。基于深度学习的人工智能会对人类造成威胁吗?这种担心大可不必,目前的深度学习框架并不完美,它只是简单模仿人脑的信息加工机制,离最终所谓的智能也还差得很远,况且目前认知神经科学领域对大脑的研究才大海之中一滴而已。或许当人类彻底弄明白大脑的神经机制之日,就是人工智能对人类构成威胁之时。尽管如此,深度学习之风已势不可挡,很多以前用传统计算方法无法完成的特定任务领域,深度学习可以达到人类级别的表现。

[责任编辑:刘宇宏]

深度学习 大数据 最优化

我要评论( 网友评论仅供其表达个人看法,并不表明本站同意其观点或证实其描述。)
用户名: 快速登录

全部评论0条)

关于我们 共建单位 联系方式