让AI自行调整超参数,Google Brain的新优化器着火了,适应不同的任务

SEO优化 0 来源:老K模板网 收藏

萧起源于洞飞寺

量子比特|公众号

还在为如何为优化器调整更好的参数而苦恼吗?

现在, Brain提出了一个新的优化器VeLO,它不需要手动调整任何超参数,你就完成了。

与其他人类设计的算法(如Adam等)不同,VeLO完全基于AI构建,可以很好地适应各种不同的任务。

当然,效果也更好。该论文的作者之一Lucas Beyer将VeLO与其他具有类似性能的“重型”参数调谐优化器进行了比较:

有网友在优化器中看到了一丝进步:

在亚当之后,有很多优化器,但它们都表现得非常不成功。此优化器可能确实性能更好。

那么,这个基于AI的优化器是如何构建的呢?

VeLO究竟是如何建造的?

优化器是神经网络训练过程的重要组成部分。

△ 神经网络训练过程,来源狼

但是人工智能模型

应用如此广泛,用于训练AI模型的优化器还是人为设计的,听起来有些不合理。

所以谷歌大脑的研究人员有一个妻子:为什么不使用人工智能来做一个优化器呢?

在设计上,优化器的原理是基于元学习的思想谷歌优化,即从相关任务中学习经验,帮助学习目标任务。

与迁移学习相比,元学习强调元知识的获取,元知识是一类任务上的一种常识,可以推广到更多的任务。

基于这一思路谷歌优化,VeLO还吸收梯度并自动输出参数更新,无需任何超参数调优,适应各种需要优化的任务。

在架构方面,AI优化器整体由LSTM(长短期记忆网络)和超网络MLP(多层感知器)组成。

每个 LSTM 负责设置多个 MLP 的参数,每个 LSTM 通过全局上下文信息相互协作。

在训练方面,AI优化器采用元训练方法,以参数值和梯度为输入,输出需要更新的参数。

经过 4,000 TPU 月的

培训(TPU 运行 4,000 个月)并结合各种优化任务的优势,VeLO 终于诞生了。

优于手动参数调整优化器

结果表明,VeLO比目前存在的一系列优化器更快地加速83个任务。

其中 y 轴是

加速度的放大倍数与亚当相比,x轴是任务的比例。

结果表明,VeLO 不仅比不需要调整超参数的优化器效果更好,甚至比一些经过精心调优超参数的优化器还要好:

与”

经典的老大哥“亚当,VeLO在所有任务上训练得更快,超过50%的任务比亚当快4倍以上,调整学习率,在超过14%的任务中,VeLO学习率甚至快了16倍。

在 6 类学习任务(数据集 + 对应模型)的优化效果方面,VeLO 在 5 种任务中的表现优于 Adam:

值得一提的是,这次 VeLO 也部署在 JAX 中,看来 真的在推广这个新框架。

巴特,有网友认为训练VeLO需要4000个TPU月,计算成本太大:

虽然这一进展很重要,但它甚至接近赶上 GPT-3 的训练量。

目前VeLO已经开源,有兴趣的合作伙伴可以尝试这个新的AI优化器。

还有一件事

前段时间,一位哈佛博士生提出了一个有趣的想法,得到了很多人的赞同:

更多论文的作者也应该披露他们在论文中的工作,就像学分一样。

卡尔是生物统计学领域的博士生,作者的贡献在生物论文中很常见,但以前在人工智能论文中很少见。

现在,

这篇 Brain论文的作者也做了同样的事情,很明显是谁写了这篇论文,谁构建了框架:

不知道未来会不会成为机器学习圈(手动狗头)的新趋势。

地址:///

树/主///

论文地址:/

abs/2211.09760

参考链接:

[1]///

[2]//从零到元到元#afeb

[3]/s/wg—

完—

@Qubit ·跟踪 AI 技术和产品的新发展

深受感动的朋友,欢迎大家一致同意、关注、分享三连❤三


免责声明:1.凡本站注明“来源:XXX(非老K模板网)”的作品,均转载自其它媒体,所载的文章、图片、音频视频文件等资料的版权归版权所有人所有,如有侵权,请联系laokcms#126.com处理;2.凡本站转载内容仅代表作者本人观点,与老K模板网无关。
0 条评论

网友留言