2019年十大精彩AI学术论文盘点

867次阅读  |  发布于5年以前

当然,这一年有许多论文都具有显著的学术价值,下面总结出的只是冰山一角。如果你觉得还有哪些论文是同样值得被回顾的,欢迎在评论区留言和我们讨论。

除此之外,我们还准备了一篇“2019 年十大新奇论文”,总结了这一年中尤其新颖有趣、甚至出格招致批评的论文。

2019 年精彩学术论文 Top10(按首字母排序)

A Style-Based Generator Architecture for Generative Adversarial Networks ( CVPR 2019 )

一个基于风格的GAN生成器架构

作者:NVIDIA 实验室 Tero Karras, Samuli Laine, Timo Aila

推荐理由:StyleGAN 无疑是 2019 年最热门的 GAN 网络模型。在 StyleGAN 之前,GAN 的相关研究已经遇到了条件式生成困难、单纯增加模型大小的收益有限、无法生成逼真的高分辨率图像等等多种困境,StyleGAN 就冲破了这个瓶颈,在生成控制的可控制性、不同属性的互相搭配、高分辨率高清晰度(且具备一致性)方面都带来了大幅进步。为此,StyleGAN 获得了 CVPR 2019 最佳论文荣誉提名奖。

StyleGAN 在网络上引发了大量讨论,它惊人的人脸生成效果不仅折服了吃瓜群众,也吸引了很多人撰写自己的实现并开放 demo 供所有人尝试,包括生成人脸(thispersondoesnotexist.com)、生成猫(thiscatsondoesnotexist.com)、生成二次元妹子(thiswaifudoesnotexist.net)、生成房间照片(thisairbnbdoesnotexist.com)的模型。

就在近期,包括论文原作者在内的 NVIDIA 实验室研究人员们发表了 StyleGAN2 论文(Analyzing and Improving the Image Quality of StyleGAN,arxiv.org/abs/1912.04958),针对性地修正了 StyleGAN 生成的图像中的缺陷等问题、提高了图像中元素的一致性,从而把图像生成质量带到了新的高峰。

论文地址:StyleGAN arxiv.org/abs/1812.04948,StyleGAN2 arxiv.org/abs/1912.04958

代码开源:https://github.com/NVlabs/stylegan2

Bridging the Gap between Training and Inference for Neural Machine Translation ( ACL 2019 )

弥补神经机器翻译模型训练和推理之间的缺口

作者:中科院计算所智能信息处理重点实验室,中国科学院大学,微信 AI 模式识别中心,伍斯特理工学院,华为诺亚方舟实验室

推荐理由:神经机器翻译模型的训练方式是给定上下文,预测某一些被掩模的词,但推理过程(真正的翻译过程)是需要从零生成整个句子。这种偏差问题其实在序列到序列转换任务中长期普遍存在。这篇论文就研究了这种偏差,并探讨如何弥补这种偏差。

作者们提出的解决方案是,生成条件在“基于参考文本中的词”和“解码器自己的输出中预选择词”两种之间切换,论文的实验做得非常完善,结果令人信服。根据 ACL 2019 论文奖评选委员会的意见,这种方法适用于当前的纯学习训练范式,也能为规划采样带来改进;而且,这不仅可能影响本来针对的机器翻译任务的未来研究和应用,也能用来普遍地改进其它的序列到序列转换模型。这篇论文也被选为 ACL 2019 最佳论文。

论文地址:https://arxiv.org/abs/1906.02448

Grandmaster Level in StarCraft II Using Multi-agent Reinforcement Learning ( Nature )

通过多智能体强化学习在星际2中达到“Grandmaster”段位

作者:DeepMind Oriol Vinyals、Demis Hassabis、Chris Apps & David Silver 等

推荐理由:2019 年 1 月,DeepMind 开发的星际 2 AI“AlphaStar”首次亮相就击败了人类职业选手。虽然当时的比赛规则明显对 AI 方有利,但我们已经感受到了 AI 并不是靠操作速度、而主要是靠优秀的策略取得胜利的。后来,在公平规则的、基于星际 2 天梯的大规模人机 1v1 比赛中,AlphaStar 继续发挥出了优秀的表现,取得了“Grandmaster”段位,大概为所有活跃玩家的前 0.15%。这也成为了 AlphaStar 论文发表在《Nature》杂志 2019 年 10 月刊所需要的最后一个实验。

AI 在游戏中胜过人类当然不是第一次了,不过 DeepMind 开发 AlphaStar 并不仅仅(和其它游戏 AI 一样)使用了大量的计算能力,他们使用的群体强化学习(群体进化、保留多种不同策略)等设计也改善了通常强化学习做法的问题,提高了智能体在复杂环境中的表现。不完全信息、高维连续行动空间的长序列建模问题的解决方案日趋成熟。

论文地址:https://www.nature.com/articles/s41586-019-1724-z (开放阅读版 https://storage.googleapis.com/deepmind-media/research/alphastar/AlphaStar_unformatted.pdf

详细介绍:https://www.leiPhone.com/news/201901/aDDh5MOlOsU22WvK.html

Learning the Depths of Moving People by Watching Frozen People ( CVPR 2019 )

通过观察静止的人学习预测移动的人的深度

作者:谷歌 AI 研究院 Zhengqi Li, Tali Dekel, Forrester Cole, Richard Tucker, Noah Snavely, Ce Liu, William T. Freeman

推荐理由:这篇论文要解决的任务“从单个摄像头估计运动物体的深度”乍看上去是无法完成的。这篇论文用了很巧妙的方法,一方面,作者们把 YouTube 上用户们自己上传的“时间静止”视频作为数据集,它们提供了海量的、天然的、带有人物的三维空间回放,经过传统方法还原之后就可以作为标注数据,免去了采集之苦。这实际上提醒我们,除了用传统众包方法专门收集数据集之外,网络上还有许多公开数据经过处理以后也可以成为很有价值的训练数据集。

另一方面,在用深度模型学习空间常识、学习预测深度的同时,作者们还增加了额外的结构让网络能够提取临近的帧之间的变化信息,提高了网络处理运动物体的能力。最终效果是,只需要单个摄像头视角的输入,模型就可以输出稳定、高准确率的三维深度预测,对于运动的物体也有很好效果。这篇论文也获得了 CVPR 2019 最佳论文荣誉提名奖。

论文地址:https://arxiv.org/abs/1904.11111

详细介绍:https://www.leiphone.com/news/201905/comu6TnFl5ejaAG1.html

代码开源:https://github.com/google/mannequinchallenge

The Lottery Ticket Hypothesis:Finding Sparse, Trainable Neural Networks ( ICLR 2019 )

彩票假说:找到稀疏、可训练的神经网络

作者:MIT 计算机科学与人工智能实验室 Jonathan Frankle, Michael Carbin

推荐理由:作为缩小网络体积、降低运算资源需求的技术路线,网络稀疏化和知识蒸馏一起得到了越来越多的关注。目前最常用的稀疏化方法是先训练一个大网络然后剪枝,稀疏的网络也可以得到和稠密网络差不多的性能。

既然稀疏的网络可以有和稠密网络差不多的性能,这篇论文里作者们就提出一个大胆的假设,看作是想要的稀疏网络本来就在稠密网络里,我们只需要把它找出来就可以 —— 更具体地,如果从随机初始化的网络随机做 n 次迭代可以得到训练好的稠密网络,从随机初始化的网络里做类似数目的迭代也可以找到表现差不多的稀疏网络。只不过,找到那个稀疏网络非常依赖好的初始值,而想在随机出好的初始值简直就像抽彩票。这就是论文核心的“彩票假说”。

作者们设计了算法确认“是否抽到了好的号码”,也用一系列实验验证了假说、展示了好的初始值的重要性。甚至,从好的初始值出发得到的稀疏网络可以得到比稠密网络更好的表现。这篇论文获得了 ICLR 2019 的最佳论文奖。

大胆的“彩票假说”立刻引发了激烈讨论。作者们做了后续研究发表了 Stabilizing the Lottery Ticket Hypothesis(arxiv.org/abs/1903.01611);Uber AI 实验室发表了一篇论文 Deconstructing Lottery Tickets: Zeros, Signs, and the Supermask(arxiv.org/abs/1905.01067)介绍了他们对这个现象的深入探究结果,揭示了“彩票假说”在碰运气之外的合理性;论文 Sparse Networks from Scratch: Faster Training without Losing Performance(arxiv.org/abs/1907.04840)也紧接着提出“彩票假设”之类的稀疏网络生成方式计算代价太高,他们的新方法可以直接从稀疏的网络结构开始训练,对计算资源需求更少、训练更快,并达到和稠密网络相近的表现;FB 田渊栋组也发表了 One ticket to win them all: generalizing lottery ticket initializations across datasets and optimizers(arxiv.org/abs/1906.02773)并被 NeurIPS 2019 接收。

论文地址:https://arxiv.org/abs/1803.03635

详细介绍:https://www.leiphone.com/news/201905/ZwDWnaSGZHDveLiO.html

代码开源:https://github.com/google-research/lottery-ticket-hypothesis

On the Variance of the Adaptive Learning Rate and Beyond

关于自适应学习率的变化以及更多

作者:UIUC Liyuan Liu、韩家炜,微软研究院 高剑峰 等

推荐理由:这篇来自韩家炜团队的论文研究了深度学习中的变差管理。在神经网络的训练中,Adam、RMSProp 等为了提升效果而加入了自适应动量的优化器都需要一个预热阶段,不然在训练刚刚启动的时候就很容易陷入不好的、可能有问题的局部最优,而这篇论文中提出的 RAdam 能为优化器提供好的初始值。借助一个动态整流器,RAdam 可以根据变差大小来调整 Adam 优化器中的自适应动量,并且可以提供一个高效的自动预热过程;这些都可以针对当前的数据集运行,从而为深度神经网络的训练提供一个扎实的开头。

同一时期还有另一篇研究改进优化过程的论文《LookAhead optimizer: k steps forward, 1 step back》(arxiv.org/abs/1907.08610),它的核心思路是维持两套权重,并在两者之间进行内插,可以说是,它允许更快的那一组权重“向前看”(也就是探索),同时更慢的那一组权重可以留在后面,带来更好的长期稳定性。这种做法带来的效果就是降低了训练过程中的变差,就“减少了超参数调节的工作量”,同时“在许多不同的深度学习任务中都有更快的收敛速度、最小的计算开销”(根据论文作者自己的介绍)。

这两篇论文不仅都对神经网络的优化过程提出了有效改进,而且两者还可以共同使用。这些成果都既增进了我们对神经网络损失空间的理解,还是非常有效的工具。

论文地址:https://arxiv.org/abs/1908.03265

代码开源:https://github.com/LiyuanLucasLiu/RAdam(RAdam),https://github.com/lonePatient/lookahead_pytorch/blob/master/(LookAhead)

详细介绍:RAdam 和 LookAhead 可以合二为一 https://www.leiphone.com/news/201908/SAFF4ESD8CCXaCxM.html

Reasoning-RCNN: Unifying Adaptive Global Reasoning Into Large-Scale Object Detection ( CVPR 2019 )

Reasoning-RCNN: 在大规模目标检测中应用统一的自适应全局推理

作者:华为诺亚方舟实验室,中山大学

推荐理由:随着目标识别的规模越来越大、粒度越来越细,类别不平衡、遮挡、分类模糊性、物体尺度差异性等等问题越来越明显。我们很容易想到,人类视觉识别能力中的一个重要环节是“基于常识的推理”,比如辨认出了 A 物被 B 物遮挡之后,对这两个物体的识别都能更准确。这篇论文就把这种思想融入到了 RCNN 模型中,作者们为模型设计了显式的常识知识,并且用基于类别的知识图把图像中物体的语义知识表示出来。

一方面,在感知模型中加入常识、加入基础的推理能力是构建“视觉智能”的趋势;另一方面,其它研究者虽然在更早的研究里就提出过“从图像的目标识别生成关系图”,但是关系图生成了以后有什么作用呢,这篇论文就展示了,可以用图进一步改善目标识别任务本身的表现。

除此之外,作者们还做了许多改进,让模型更适应大规模物体识别、增强阶段之间的联系、优化识别效果。最终,模型的 mAP 在多个数据集上都有大幅提高。作者们的方法比较轻量,可以用在各种目标识别主干网络上,也可以集成各种不同的知识来源。

论文地址:http://openaccess.thecvf.com/content_CVPR_2019/html/Xu_Reasoning-RCNN_Unifying_Adaptive_Global_Reasoning_Into_Large-Scale_Object_Detection_CVPR_2019_paper.html

代码开源:https://github.com/chanyn/Reasoning-RCNN

Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning ( ICML 2019 )

在多智能体强化学习中把社交影响作为固有动机

作者:MIT,DeepMind,普林斯顿大学

推荐理由:随着多智能体强化学习研究越来越多,为智能体设计/让智能体学会行动协调和信息交换成了一个重要课题。这篇论文中作者们的着力点就是在多智能体环境下,让智能体从其他智能体身上学会固有的社交动机。他们的方法是,如果一个智能体能影响其他智能体、让它们在协同和沟通方面都有更好的表现,那就奖励它。更具体地,作者们在论文中展示了,如果一个智能体让其他智能体的行为发生了较大的改变,那奖励它就更有可能鼓励不同的智能体之间有更多的共同信息交换。这样的机制会让智能体形成归纳偏倚,更有意愿学会协同运动,即便这些智能体都是各自独立地训练的。并且影响力的奖励是使用一种分布式的方式来计算的,能够有效解决突发通信的问题。这篇论文获得了 ICML 2019 最佳论文荣誉提名。

同期还有另一篇来自 Facebook AI 研究院的论文 Learning Existing Social Conventions via Observationally Augmented Self-Play (arxiv.org/abs/1806.10071)从另一个角度设计了协调机制:在加入一个团体之前,新的智能体要通过观察和重放机制学习这个团地当前的行为模式(人类角度的“风俗习惯”),让自己能够融入,避免加入团体之后它的策略无法得到奖励(即便在无合作的竞争性环境下可以得到奖励)。不过大概还是前一篇学会固有社交动机更高明一点?相比之下它可是明明白白地促进了智能体都变得更协调、更主动沟通啊(笑)。

论文地址:https://arxiv.org/abs/1810.08647

Weight Agnostic Neural Networks

权重无关的神经网络

作者:谷歌 AI Adam Gaier 和 David Ha

推荐理由:现代的神经网络研究都有一个固定的模式,固定网络架构,通过优化寻找好的连接权重(训练)。这种惯例也引发了一些讨论,“如果我们把网络结构看作先验,把连接权重看作学到的知识”,那么我们能在多大程度上把知识以结构(先验)的形式集成在模型中呢?以及这样做是好还是坏呢?

这篇论文就是一次直接的探索,网络的训练过程不是为了寻找权重,而是在相对固定且随机的权重下寻找更好的网络结构。对于集成了好的先验的网络结构,即便网络中所有的权重都统一且随机的也能有好的表现;在此基础上如果能允许分别优化不同的权重,网络的表现就可以更上一层楼。这种方式找到的先验知识也会以网络结构的形式直接体现出来,有更好的可解释性。

如果说“固定网络结构,寻找权重”和“固定权重、寻找网络结构”分别就像“气宗”与“剑宗”,那么现在双方终于都登场了,我们可以期待未来有更多的好戏上演。

论文地址:https://arxiv.org/abs/1906.04358

详细介绍:https://www.leiphone.com/news/201906/wMjVvtWT2fr8PcxP.html

代码开源:https://weightagnostic.github.io/

XLNet: Generalized Autoregressive Pretraining for Language Understanding

XLNet:用于语言理解的通用自回归预训练

作者:CMU,谷歌 AI

推荐理由:基于 BERT 的改进模型很多,XLNet 是其中非常成功的一个。XLNet 的改进重点在于,1,用基于输入顺序置换的新的掩模方式替代 BERT 的掩模+双向预测(这种机制设计使得 BERT 更像是文本降噪模型,而在生成任务中表现不佳),2,使用了 token 内容和 token 位置分离的双流自注意力机制,3,采用了和改进 2 匹配的新的掩模方式。这些设计让 XLNet 兼具了序列生成能力(类似传统语言模型)和上下文信息参考能力。

再加上选用更大的训练数据集、用更适应长序列的 Transformer-XL 作为主干网络、训练方式对掩模的利用率更高、允许部分预测训练等改进,可以说 XLNet 相对于 BERT 的技术改进是从头到尾的,在作者们测试的所有任务中都取得了比 BERT 更好的表现也是情理之中(虽然有一些任务中提升并不大)。

XLNet 这样的模型出现代表着 NLP 预训练模型越发成熟,适应的下游任务越来越多、表现越来越好;也代表着一个统一的模型架构就有可能解决各种不同的 NLP 任务。

论文地址:https://arxiv.org/abs/1906.08237

代码开源:https://github.com/zihangdai/xlnet

除此之外,以下这 10 篇论文也曾在我们的候选列表里,它们各突出之处,我们列举如下:

推荐文章

刘强东夫妇:“移民美国”传言被驳斥

京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。

博主曝三大运营商,将集体采购百万台华为Mate60系列

日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。

ASML CEO警告:出口管制不是可行做法,不要“逼迫中国大陆创新”

据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。

抖音中长视频App青桃更名抖音精选,字节再发力对抗B站

今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。

威马CDO:中国每百户家庭仅17户有车

日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。

研究发现维生素 C 等抗氧化剂会刺激癌症生长和转移

近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。

苹果据称正引入3D打印技术,用以生产智能手表的钢质底盘

据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。

千万级抖音网红秀才账号被封禁

9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...

亚马逊股东起诉公司和贝索斯,称其在购买卫星发射服务时忽视了 SpaceX

9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。

苹果上线AppsbyApple网站,以推广自家应用程序

据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。

特斯拉美国降价引发投资者不满:“这是短期麻醉剂”

特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。

光刻机巨头阿斯麦:拿到许可,继续对华出口

据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。

马斯克与库克首次隔空合作:为苹果提供卫星服务

近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。

𝕏(推特)调整隐私政策,可拿用户发布的信息训练 AI 模型

据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。

荣耀CEO谈华为手机回归:替老同事们高兴,对行业也是好事

9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。

AI操控无人机能力超越人类冠军

《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。

AI生成的蘑菇科普书存在可致命错误

近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。

社交媒体平台𝕏计划收集用户生物识别数据与工作教育经历

社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”

国产扫地机器人热销欧洲,国产割草机器人抢占欧洲草坪

2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。

罗永浩吐槽iPhone15和14不会有区别,除了序列号变了

罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。

Copyright© 2013-2020

All Rights Reserved 京ICP备2023019179号-8