迄今为止有关人工智能最难读也最全面的爆料(2)

　　每年的 ImageNet 竞赛鼓励该领域的人在计算机识别和自动标记图片上进行比赛，并衡量他们的进展。这些系统首先使用被正确标记的图片集进行训练，然后挑战标记之前没见过的测试图片。在后续的研讨会上，优胜者会分享并讨论他们的技术。

　　2010 年获胜的系统可以正确标记 72% 的图片(人类平均有 95% 的准确率)。2012 年，多伦多大学的 Geoff Hinton 带领的团队实现了 85% 的准确率，这要归功于一项叫「深度学习」的新技术。这带来了一种长远快速的改进，在2015 年的 ImageNet 竞赛上，一个深度学习系统以 96% 的准确率第一次超过了人类。

　　2012 年的成果被认为是一项突破，但 Yoshua Bengio 说，他们依靠的是「结合以前已经有了的东西。」Yoshua Bengio 是蒙特利尔大学的计算机科学家，他与 Hinto 以及另外几个人被称为深度学习的先驱。大体上，这项技术使用了大量的计算和训练数据，对来自人工智能发展初期的一个旧思路进行改进，这个旧思路也就是人工神经网络(ANN)——这是生物学启发的人工神经元(脑细胞)网络。

　　在生物大脑中，每个神经元都能被其它神经元触发，将输出的信号馈送给另一个神经元，而且此神经元的输出也能继续触发其它神经元。一个简单的 ANN 网络有一个输入神经元层，在这里数据被馈送进网络中;还有一个输出层输出结果，中间可能还会有三两个隐藏层对信息进行处理。(实际中，ANN 网络全部在软件中模拟。)网络中的每一个神经元都有一系列的「权重」和一个「激活函数」控制着输出的信号发射。

　　训练一个神经网络涉及到对神经元权重的调整，以便一个给定的输入产生期望的输出。ANN 在 20 世纪 90 年代早些时候就已经实现了一些有用的结果，例如识别手写数字。但在完成更为复杂的任务上，ANN 陷入了困境。

　　在过去的十几年中，新技术的出现和对激活函数的一种简单调整使得训练深度网络变得可行。同时，互联网的兴起产生了数十亿可用于目标训练的文档、图片、视频数据。这所有的一切都需要大量的数字操作能力，而 2009 年左右当几个人工智能研究团体意识到个人计算机和视频游戏机上用于生成精致画面的 GPU 也同样适用于运行深度学习算法之后，计算能力也不再是个问题了。

　　斯坦福大学由吴恩达带领的一个人工智能团队发现 GPU 能够几百倍地加速深度学习系统。然后，训练一个四层的神经网络突然就变得很快了，由之前需要花费几周的时间变成了不到一天时间。GPU 生产商 NVIDIA 的老总黄仁勋说这是一个令人高兴的对称：GPU 这一游戏工作者用于为游戏玩家构建幻想世界的芯片也能用于帮助计算机通过深度学习理解真实世界。

　　ImageNet 的结果显示了深度学习的能力。突然间，深度学习就获得了关注——不只是在人工智能界，而是在整个科技产业界内!深度学习系统因此变得更加的强大：20 或 30层的网络变得很常见，微软的研究人员曾建立过 152 层的网络。更深层的网络能进行更高水平的抽象并产生更好的结果，事实证明这些网络擅长解决众多领域的难题。

　　「让人们激动的是这一领域的一种学习方法：深度学习，能够应用于众多不同的领域，」谷歌机器智能研究部门负责人、如今负责搜索引擎的 John Giannandrea 表示，谷歌正在使用深度学习提升其网页搜索结果的质量、理解智能手机端的口语指令、帮助人们在他们的照片中搜索特定的图片、推荐电子邮件的自动回复、改善网页的翻译服务，并且帮助它们的自动驾驶汽车理解周围环境。

　　学习如何学习

　　深度学习有很多不同的方式。最普遍使用的是「监督学习(supervised learning)」，这项技术能使用标记样本集训练系统。例如，过滤垃圾邮件：收集出邮件信息样本的大数据集，每一个都标上「垃圾邮件」或者「非垃圾邮件」。一个深度学习系统能够使用这些数据集进行训练，重复的进行样本训练进而调整神经网络内的权重，提高评定垃圾邮件的准确率。

　　这一方法的巨大优点是不需要人类专家写出规则列表，也不需要程序员用代码编写这些规则，系统能直接从有标签的数据中进行学习。

　　使用有标签数据训练系统也被用于图片分类、语音识别、信用卡交易欺诈侦测、垃圾和恶意软件识别以及广告定位，所有这些应用领域中的正确答案都可通过之前的大量案例获得。Facebook 能在你上传一张照片后识别、标记照片里你的朋友和家人，它们近期还发布了一个能够为盲人描述照片中的内容(比如两个人、微笑、太阳眼镜、户外、水等)的系统。有大量的数据可用于监督学习，吴恩达先生说，这一科技的应用已经使现在的金融服务领域、计算安全领域和销售领域的公司将自己重新标记为了人工智能公司。

　　另一项技术是无监督学习(unsupervised learning)，其通过将网络暴露在大量样本中来对网络进行训练，但不会告诉它要寻求什么模式。相反，该网络学习识别相似样本的特征和聚类，从而揭示数据中的隐藏分组、连接和模式。

　　无监督学习能在你不知道会是什么样的情况下被用于事物搜索：例如，监控网络中反常的通信模式，那可能代表着网络攻击;或检查大量的保险声明以检测新类型的诈骗方式。

　　一个经典的案例：2011 年当吴恩达在谷歌工作时，他领导的一个名为谷歌大脑(Google Brain)项目中的一个大型的无监督学习系统本是用于在千部无标记 YouTube 视频中发现共同模式。一天，吴恩达的一个博士生给了他一个惊喜。吴恩达回忆说「我记得他把我叫道他的电脑前说，『看这个』」，电脑屏幕上是一个毛茸茸的面孔，从数千的样本中发现的模式。系统发现了猫。

　　强化学习位于监督学习和无监督学习之间，它涉及到训练一个神经网络与只以奖励作为偶然的反馈的环境进行交互。本质上，训练涉及到调整网络的权重，从而获得能带来更高奖励的搜索策略。DeepMind 是这个领域的专家。2015 年 2 月，它们在 Nature 上发表的一篇论文描述了一个能够学习玩 49 种经典的 Atari 视频游戏的强化学习系统，它只使用屏幕上的像素和游戏分数作为输入，输出则连接到一个虚拟的控制器上。这个系统从头学起玩游戏，最终在其中 29 种游戏中达到或超过了人类水平。

　　把系统游戏化