AlphaGo 早已击败围棋冠军,计算机视觉还是 3 岁的“智力”

658次阅读  |  发布于4年以前

理论与实践不断证明,人类视觉神经非常复杂,计算机视觉实现并非易事。计算机视觉研究从上世纪 50 年代兴起之后,也历经了狂欢、冷静,又重新燃起希望的阶段。

本篇编译整理自计算机视觉相关文章,介绍计算机视觉各阶段的理论支撑与外部舆论变化。

最早的人工智能想象

大多数人都认为,是现代人创造了人工智能的概念,实际上远古祖先也提出了思考型机器人的理论。

大约3000年前,荷马描述了火神赫菲斯托斯(Hephaestus)的故事。赫菲斯托斯用黄金塑造了机械侍女,并赋予她们理性和学习能力。在无人驾驶汽车问世之前的几个世纪,古希腊作家阿波罗纽斯(Apollonius)用想象力创造了塔洛斯(Talos),这是一个青铜自动机,负责保卫克里特岛。

但这些历史性的叙述并不能准确描述当今正在开发的人工智能的种类。因为尽管现在大多数人工智能程序无法将其目标任务之外的知识概括化,但是对于本身给定的预期,他们已经达到或超过人类水平。

人的视觉与计算机视觉

人类视觉系统非常特别,超过50%的神经组织直接或间接地与视觉有关,其中超过66%的神经活动仅为处理视觉。今天人们对视觉、知觉的了解大部分来自1950年代和1960年代对猫进行的神经生理学研究。

上世纪50年代初期,哈佛医学院的两位神经科学家 David Hubel 和 Torsten Wiesel 在猫的视觉皮层上进行了一项实验。通过研究神经元对各种刺激的反应,两位科学家观察到,人类的视觉是分级的。神经元检测简单的特征,例如边缘,然后输入更复杂的特征,如形状,最后再输入更复杂的视觉表示。基于这些知识,计算机科学家就可以专注于以数字形式重建人类神经结构。

早期乐观

人工智能领域成立于1956年在达特茅斯学院举行的夏季研讨会上,来自不同领域的科学家们聚集在一起,以阐明并发展关于“思维机器”的观点。

1960年代,大学开始认真进行计算机视觉研究,并将该项目视为人工智能的奠基石。

麻省理工学院的神经科学家戴维·马尔(David Marr)在70年代出版了一本《VISION》,汇集了一些方法,作出了可检测的预测,提供解决神经科学问题的框架,并激发一代年轻科学家研究大脑及计算。该书提出了一种用于研究生物视觉系统的计算范例,并介绍信息处理系统的三个不同分析层次概念,即计算理论层次、表示形式和算法层次、以及实现层次。他们分别指向:计算的目标是什么;解决问题、实现目标的陈述与流程;这些表示和过程的物理实例化,例如如何在神经元中完成特定任务。这三个层次划分的意义是,研究者从视觉系统的宏观表示出发进行思考,而不是查看如单个神经元式的微观实体。

Marr 建立了视觉表示框架,任何视觉系统感知到的强度,都是四个主要因素的函数:几何形状,意指形状和相对位置;可见表面的反射率和绝对吸附特性,即物理特性;照明,即光源;相机,包含光学。

早期研究人员对相关领域的未来非常乐观,并提倡把人工智能作为一种可以改变世界的技术。一些人预测,一代人的时间内就会创造出像人类一样聪明的机器,这种炒作为研究人员赢得了数百万美元的公共和私人资金,研究中心在全球涌现。但是由于接下里的发展未能达到人们的高预期,国际上的人工智能开发工作受到了限制。

AI 视觉的冬天

研究人员以极大的乐观度,将公众的期望提高到了令人难以置信的高度,却未能体会到他们为自己设定的挑战的难度。当研究人员承诺的预期未能达成时,这个研究领域遭到了猛烈的批评,和严重的财务挫折。

早期的计算资源在技术上无法跟上科学家提出的复杂问题,即使是最令人印象深刻的项目也只能解决微不足道的问题。此外,大多数研究人员都是在孤立的小组内工作,缺乏比较有意义的,可以推进该领域科学进展的方式。

有一则故事可以反映当时研究人员的美好预期、以及预期落空后他们自身及和外界的失落与嘲讽。

1966年,美国计算机科学家、麻省理工学院 AI 实验室联合创始人马文·明斯基(Marvin Minsky)获得了暑期津贴,聘请了一年级的本科生杰拉尔德·苏斯曼(Gerald Sussman),让他花费整个夏天的时间把一台摄像机与计算机连接起来,并让计算机描述它看到了什么。“不用说,苏斯曼没有在截止日期前完成,”Motion Metrics 的机器学习开发人员 Hooman Shariati 曾说,“在接下来的四十年中,视觉成为人工智能领域最困难、最令人沮丧的挑战之一。正如机器视觉专家贝特霍尔德·霍恩(Berthold Horn)曾经指出的那样,苏斯曼选择不再在视觉领域工作。”

到70年代中期,政府和公司对人工智能失去了信心,行业资金枯竭。数学家詹姆斯·莱特希尔(James Lighthill)1973年发表了一篇论文,批评早期人工智能研究,这为后来英国政府撤回对该领域的支持奠定了研究基础。

随后的这段时间被称为“人工智能的冬天”。虽然20世纪80年代和90年代研究还在继续,也有过一些小规模的复兴,但人工智能基本上被被归入了科幻小说的范畴,严肃的计算机科学家都避免使用这个词。

卷积神经网络出现与多伦多大学的突破

随着互联网成为主流,计算机科学家有了可以访问更多数据的权限。计算机硬件在继续改进,成本则在下降。80年代到90年代,基本神经网络和算法得到改进。

1998年,Bengio、Le Cun、Bottou 和 Haffner 在一篇论文中首次介绍了第一个卷积神经网络 LeNet-5,能够分类手写数字。

卷积神经网络可以做到平移不变形,即使对象的外观发生某种方式的变化,也可以识别出对象。卷积神经网络通过监督学习和反向传播对输入到卷积网络中的数据做训练,并反复、自我校正。和同样可以做反向传播的深度神经网络相比,卷积神经网络的特殊之处在于神经元之间的链接结构和独特的隐藏架构的方式,这是由人类视觉皮层内部的视觉数据处理机制启发得来的。此外,CNN 中的图层按照宽度、高度和深度三个维度进行组织。

卷积网络最重要的属性之一就是,不管有多少层,整个 CNN 系统仅由两个部分组成:特征提取和分类。通过对特定特征的选择,以及通过前馈链接增加空间不变性,这也是人工视觉系统如 CNN 非常独特的原因。

(视觉皮层和卷积神经网络有许多相似)

深度神经网络研究应用也有进步,并且使人们信心大增。2012年,人工智能在 ImageNet 大规模视觉识别挑战(ILSVRC)上取得突破。

ILSVRC 是一个年度图像分类比赛,研究团队在给定的数据集上做视觉识别任务,评估算法准确性。2010年和2011年,ILSVRC 获奖者的错误率一直在26%左右。2012年,来自多伦多大学的团队带来一个名为 AlexNet 的深度神经网络,实现了16.4%的错误率。在接下来的几年中,ILSRVC 的错误率下降到了几个百分点。

基于 AI 的计算机视觉的未来

当下,人们已经知道,视觉能力是人类承担的生物学生最复杂的任务之一,对计算机视觉的研究和预期也更加贴近世界。同时,基于对人类视觉能力了解的深入,计算机视觉研究人员也在不断更新算法和理论。

CNN 已经广泛用于需要处理视觉和空间信息的系统中。但随着人工智能需要解决更高级的问题,对计算和电力资源的增长需求成为 CNN 最突出的问题之一。研究人员的注意力也在逐渐转向尖峰神经网络 SNN,这是一种新型的 ANN ,受大脑神经动力学的启发,具有事件驱动,快速推理和省电的特性,也被认为是第三代神经网络。

接下来 SNN 要优化解决的一个问题是视觉注意 VA 与智力。人类可分散的注意力使得人能同时执行多个任务,注意力转移可以使人快速访问新信息。视觉注意力研究的核心目标是要使处理的视觉信息量最少,以解决复杂的高级任务,例如对象识别。

计算机视觉任务主要涉及处理静态图像,人类眼睛在检测到场景变化向大脑传递信息——这是一个事件,生物视觉系统的这一关键特性允许将注意力选择性地集中在场景的显著部分上,从而大量减少需要处理的信息量。

假设针对一张人在草地上打高尔夫的图像。传统的传感器中,数据以帧的形式传输,图像上的所有内容都要经过处理,而重要的信息是人的运动,以及带动的球杆和球的运动。这时,基于事件的传感器并不会读取每个像素并且以恒定速率发送帧,而是在检测到像素局部亮度变化是,从每个像素异步发送数据包或事件,从而减少计算、传输的数据和功耗。

研究人员认为,CNN 非常适合静态图像中的对象识别,但它缺乏动态特性来处理基于事件的传感器的实时数据集。因此,SNN 被寄予厚望。

现在人工智能已经无缝集成到日常生活的多方面。研究人员表示,近年来,人工智能在许多研究领域都取得了巨大的成功。像 AlphaGo 这样的游戏系统已经使用强化学习来自学,助听器使用深度学习算法过滤掉环境噪音,这些技术甚至为自然语言处理与翻译、对象识别以及模式匹配系统提供了动力,我们已经对谷歌、亚马逊、iTunes 等提供的类似服务习以为常。这种趋势也丝毫没有放慢的迹象,人们可以用计算机自动化执行许多小的重复性任务以节省时间。

尽管人工智能领域取得了令人难以置信的进步,但计算机视觉的应用仍有很长的路要走,因为距离计算机可以像人类一样地去解释图像还需要很长时间。就像文章开头提到的那样,AlphaGo 早已击败了人类围棋冠军,计算机视觉的识图能力仅相当于一个3岁的小孩。

参考链接:

推荐文章

刘强东夫妇:“移民美国”传言被驳斥

京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。

博主曝三大运营商,将集体采购百万台华为Mate60系列

日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。

ASML CEO警告:出口管制不是可行做法,不要“逼迫中国大陆创新”

据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。

抖音中长视频App青桃更名抖音精选,字节再发力对抗B站

今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。

威马CDO:中国每百户家庭仅17户有车

日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。

研究发现维生素 C 等抗氧化剂会刺激癌症生长和转移

近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。

苹果据称正引入3D打印技术,用以生产智能手表的钢质底盘

据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。

千万级抖音网红秀才账号被封禁

9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...

亚马逊股东起诉公司和贝索斯,称其在购买卫星发射服务时忽视了 SpaceX

9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。

苹果上线AppsbyApple网站,以推广自家应用程序

据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。

特斯拉美国降价引发投资者不满:“这是短期麻醉剂”

特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。

光刻机巨头阿斯麦:拿到许可,继续对华出口

据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。

马斯克与库克首次隔空合作:为苹果提供卫星服务

近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。

𝕏(推特)调整隐私政策,可拿用户发布的信息训练 AI 模型

据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。

荣耀CEO谈华为手机回归:替老同事们高兴,对行业也是好事

9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。

AI操控无人机能力超越人类冠军

《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。

AI生成的蘑菇科普书存在可致命错误

近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。

社交媒体平台𝕏计划收集用户生物识别数据与工作教育经历

社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”

国产扫地机器人热销欧洲,国产割草机器人抢占欧洲草坪

2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。

罗永浩吐槽iPhone15和14不会有区别,除了序列号变了

罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。

Copyright© 2013-2020

All Rights Reserved 京ICP备2023019179号-8