数据结构论坛

注册

 

发新话题 回复该主题

谷歌大脑2017总结JeffDean执 [复制链接]

1#

李杉维金编译自GoogleBlog量子位出品

谷歌AISeniorFellow、谷歌大脑负责人JeffDean,按照惯例,今天开始发布年度的谷歌大脑年度总结。

在这份已经发布的总结中,JeffDean回顾了谷歌大脑团队过去一年的核心研究,以及在多个AI领域的研究进展。

JeffDean还把相关研究的论文等一并附上,堪称良心之作,值得收藏。

以下是最新发布的总结全文,浅色文字为量子位注释:

作为谷歌整体人工智能计划的一部分,谷歌大脑团队致力于通过研究和系统工程,提升人工智能的技术水平。我们去年分享了年的工作总结。从那以后,我们在提升机器智能这个长期研究项目上继续取得进展,并与谷歌和Alphabet的多个团队合作,使用我们的研究成果来改善人们的生活。

我们将为年撰写两篇总结文章,这是第一篇,包括我们的一些基础研究工作,以及关于开源软件、数据集和机器学习的新硬件的更新。第二篇文章的重点是探讨我们针对机器学习能产生巨大影响的领域展开的深入研究,如医疗、机器人和一些基础科学领域,以及我们在创造性、公平和包容等方面所作的工作,并让你更加深入地了解我们。

核心研究

我们团队的一个研究重点是促进我们的理解力和提高我们解决机器学习领域新问题的能力。以下是我们去年研究的几大主题。

AutoML

自动化机器学习的目标是开发各种技术,让计算机自动解决新的机器学习问题,而不需要人类机器学习专家逐一干预。如果我们有朝一日真的能有真正的智能系统,这就是我们所需的基本能力。

我们开发了利用强化学习和进化算法设计神经网络体系结构的新方法。

AutoML在去年5月的GoogleI/O开发者大会上首次正式发布。这个新方法意在让让神经网络去设计神经网络,谷歌希望能借AutoML来促进深度学习开发者规模的扩张,让设计神经网络的人,从供不应求的PhD,变成成千上万的普通工程师。

在AutoML中,一个主控的神经网络可以提出一个“子”模型架构,并用特定的任务来训练这个子模型,评估它的性能,然后,主控收到反馈,并根据反馈来改进下一个提出的子模型。

这个过程,简单来说就是:生成新架构-测试-提供反馈供主控网络学习。在重复上千次后,主控网络学会了哪些架构能够在已知验证集上得到更高的准确率。

将此项工作扩展到ImageNet最新分类和检测结果中,并展示了如何自动学习新的优化算法和有效的激活函数。我们正积极与我们的云人工智能团队合作,将这项技术提供给谷歌客户使用,并继续在多方面推动该研究。

去年11月,谷歌对AutoML进行了升级。此前AutoML能设计出与人类设计的神经网络同等水平的小型神经网络,但始终被限制在CIFAR-10和PennTreebank等小型数据集上。

为了让这种方法应用到ImageNet中,研究人员对AutoML做了两点调整,方便更容易地处理大型数据集。

相关论文:

NeuralOptimizerSearchwithReinforcementLearning>SearchingforActivationFunctions语音理解和生成

另一个主题是开发新技术,提高我们的计算系统在理解和生成人类语音方面的能力,包括我们与谷歌语音团队合作为一个端到端语音识别方法开发了一系列改进措施,把谷歌语音识别系统的相对词错误率降低了16%。这项工作有一个好处,那就是需要融合很多独立的研究线索。

相关论文:

State-of-the-artSpeechRecognitionWithSequence-to-SequenceModels>MinimumWordErrorRateTrainingforAttention-basedSequence-to-SequenceModels>Multi-DialectSpeechRecognitionWithASingleSequence-To-SequenceModel>MultilingualSpeechRecognitionWithASingleEnd-To-EndModel>ImprovingthePerformanceofOnlineNeuralTransducerModele>MonotonicChunkwiseAttention>LearningHardAlignmentswithVariationalInference>NoNeedforaLexicon?EvaluatingtheValueofthePronunciationLexicainEnd-to-EndModels>Ananalysisofincorporatinganexternallanguagemodelintoasequence-to-sequencemodel

△Listen-Attend-Spell端到端语音识别模型的部件

我们还和谷歌机器感知团队合作,开发了一种进行文字到语音生成的新方法:Tacotron2。这种新方法极大地改进了所生成语音的效果,模型达到的平均意见分(MOS)达到4.53,而你在有声书里听到的那些专业人类播音员,MOS也只有4.58,以前,计算机合成语音的最佳成绩是4.34。

Tacotron2合成音频试听:

△Tacotron2模型架构

新的机器学习算法和方法

我们继续开发新颖的机器学习算法和方法,包括对capsules的研究(在执行视觉任务时,明确地寻找激活功能协议,以此作为一种评估不同噪声假设的方法)。

相关报道:Hinton的Capsule论文终于公开

相关论文:

DynamicRoutingbetweenCapsules>sparsely-gatedmixturesofexperts(这能实现仍然具有计算效率的大型模型)。

在这个研究中,新的神经网络层只需要很小的计算能力提升,便能高效地提升模型的能力。

相关论文:

OutrageouslyLargeNeuralNetworksheSparsely-GatedMixture-of-ExpertsLayer>hypernetworks(使用一个模型的权重来生成另一个模型的权重)。

相关论文:

HYPERNETWORKS>新型多模模型(使用相同模型执行音频、视觉和文本输入等多任务学习)。

相关报道:一个神经网络学习一切!

相关论文:

OneModelToLearnThemAll>基于注意力的机制(代替卷积和循环模型)。

相关论文:

AttentionisAllYouNeed>符号和非符号学习优化方法。

相关论文:

NeuralOptimizerSearchwithReinforcementLearning>LearnedOptimizersthatScaleandGeneralize>一项通过离散变量反向传播的技术。

相关论文:

CategoricalReparameterizationwithGumbel-Softmax>以及对强化学习算法的一些改进。

相关论文:

BridgingtheGapBetweenValueandPolicyBasedReinforcementLearning计算机系统的机器学习

在计算机系统中用机器学习取代传统的启发式应用也是我们非常感兴趣的方向。我们已经展示了如何使用强化学习在把计算机图像映射到一组计算设备上的时候制定位置决策,效果比人类专家还好。

相关论文:

BridgingtheGapBetweenValueandPolicyBasedReinforcementLearning>我们与谷歌研究院的其他同事共同在“TheCaseforLearnedIndexStructures”中展示,神经网络不仅比传统的数据结构(B-树、哈希表和Bloom过滤器)更快,而且也小得多。我们认为,我们只是掌握了在核心计算系统中使用机器学习的皮毛。

相关报道:如何构建未来的机器学习芯片

相关论文:

TheCaseforLearnedIndexStructures隐私和安全

机器学习及其与安全与隐私的交互仍是我们研究的重点。在ICLR的一篇得奖论文中,我们展示了机器学习技术可以用于提供不同的隐私保障方式。

相关论文:

Semi-supervisedKnowledgeTransferforDeepLearningfromPrivateTrainingData>我们还继续调查了对抗样例的特性,包括在现实世界中展示对抗样例,以及如何在训练过程中规模化使用对抗样例,使模型更适用于对抗样例。

相关论文:

Adversarialexamplesinthephysicalworld>AdversarialMachineLearningatScale理解机器学习系统

虽然通过机器学习技术得到了漂亮的结果,但更重要的是理解机器学习在什么时候能发挥作用,什么时候无效。

在另一篇ICLR最佳论文中,我们展示了,当前机器学习理论框架无法解释深度学习方法取得的出色结果。

相关论文:

Understandingdeeplearningrequiresrethinkinggeneralization>我们还展示了,通过优化方法发现的最小值“平坦度”并不像最初想象中与良好的泛化方法密切相关。为了更好地理解深度框架中训练如何推进,我们发布了一系列分析随机矩阵的论文,因为这是大多数训练方法的出发点。

相关论文:

Nonlinearrandommatrixtheoryfordeeplearning>理解深度学习的另一个重要途径是更好地衡量性能。我们在最近一项研究中比较了多种GAN方法,展示了良好的实验设计和统计严格性的重要性。许多GAN方法很热门,被用于增强生成模型,但实际上并没有带来性能优化。我们希望这项研究能给其他研究员带来范例,帮助他们展开健壮性更好的实验性研究。

我们正在开发能对机器学习系统进行更好表达的方法。去年3月,通过与OpenAI、DeepMind和YCResearch等公司和机构合作,我们推出了新的开放科学在线杂志Distill,致力于支持人类对机器学习的理解。这份在线杂志的文章提供了清晰的机器学习概念,以及出色的交互式可视化工具。在推出第一年中,Distill发布了多篇有启发性的文章,旨在帮助人们了解机器学习的各种内部原理。我们期待年能带来更多内容。

△特征可视化

△如何有效地使用t-SNE

用于机器学习研究的开放数据集

MNIST、CIFAR-10、ImageNet、SVHN和WMD等开放数据集快速推动了机器学习的研究进展。我们团队和谷歌研究院一起,在过去一年里一直积极探索开放有趣的新数据集,用于开源机器学习领域的研究。我们提供了规模更大的有标签数据集,其中包括:

YouTube-8M:大于万个YouTube视频,被标注为个不同类别>YouTube-BoundingBoxes:来自21万个YouTube视频的万个边界框>SpeechCommandsDataset:数千名讲话者说出的简短命令>AudioSet:万个10秒钟YouTube短视频,用个不同声音事件去标记>AtomicVisualActions(AVA):5.7万个视频片段中的21万个动作标签>OpenImages:万张获得知识共享许可的图片,被标记为个类别>OpenImageswithBoundingBoxes:个类别的万边界框

△YouTube-BoundingBoxes数据集示例

TensorFlow和开源软件

△TensorFlow全球用户分布

在团队历史上,我们开发了一些工具,帮助我们在谷歌的多种产品中开展机器学习研究,部署机器学习系统。

年11月,我们开源了第二代机器学习框架TensorFlow,希望让机器学习界从我们的投入中受益。2月份,我们发布了TensorFlow1.0。11月份,我们又发布了1.4版本,加入了以下重要内容:用于交互式非典型编程的EagerExecution、针对TensorFlow程序优化的编译器XLA,以及用于移动和嵌入式设备的轻量级解决方案TensorFlowLite。

预编译的TensorFlow二进制文件已在多个国家被下载了多万次,GitHub上的源代码已有超过1名贡献者。

2月份,我们举办了首届TensorFlow开发者峰会,超过人来到山景城现场参会,全球有6多人观看了在线直播,包括35个国家的超过85场本地观看活动。所有演讲记录了下来,主题包括新特性,使用TensorFlow的新技术,以及对低级TensorFlow抽象的详细描述。

TensorFlow开发者峰会演讲视频:

分享 转发
TOP
发新话题 回复该主题