512颗GPU、10万亿参数!阿里达摩院发布全球大AI预训练模型能耗仅为1%
2021-11-08 20:22 来源:快科技 阅读量:6852
日前,阿里巴巴达摩院公布了多模态大模型M6的最新发展,其参数已从万亿跃升至10万亿,成为全球最大的AI预训练模型。
作为一个通用的AI模型,M6具有多模态,多任务能力,尤其擅长设计,写作,问答,在电子商务,制造业,文艺,科研等领域有着广泛的应用前景。
与传统AI相比,大模型拥有数百倍的Neuron 数量,认知,创造力也占优,一般认为是未来的基本模型。
可是,大模型的计算成本相当高,例如,训练1750亿参数语言大模型GPT—3所需的能耗可以使汽车在地球和月球之间来回行驶。
今年5月,达摩院M6团队通过专家并行策略和优化技术,将万亿级模型能耗降低80%以上,效率提升近11倍。
10月,M6再次突破行业极限,使用512个GPU,10天内训练出10万亿个可用级别的模型与去年发布的大型车型GPT—3相比,M6实现了同样的参数规模,但能耗仅为1%
另一方面,当AI大模型扩展到1000亿甚至更多参数的超大规模时,很难放在一台机器上。。因此达摩院在阿里巴巴云PAI自研Whale框架上搭建了MoE模型,最终通过更细粒度的CPU卸载技术,将10万亿个参数放入512 GPU:
自研鲸鱼框架:
自主开发的Whale分布式深度学习训练框架,为数据并行,模型并行,流水线并行,混合并行等多种并行模型设计了统一的架构,让用户只需增加几行API调用就能实现丰富的分布式并行策略。
专家并行策略:
在鲸鱼架构中实现专家混合的并行策略它在扩展模型容量,提高模型效果的基础上,FLOPs不显著增加每秒浮点运算次数,从而实现高效训练大规模模型的目的
CPU卸载创新技术:
在自主开发的分布式框架Whale中,通过更细粒度的CPU卸载解决了放下有限资源极限规模的问题,通过灵活选择卸载的模型层,进一步提高了GPU利用率。
此外,针对训练效率的问题,M6团队设计了伪到实机制,即利用训练好的共享参数模型对大模型进行初始化,进一步将收敛效率提高7倍,解决了大模型训练速度慢的问题。
如果没有这个机制,只需要6%就能在预训练中达到同样的损失与之前的万亿模型相比,训练样本量仅为40%
作为国内首个商业化的大型多模态模型,M6已经应用于40多个场景,日通话量上亿。
今年大机型首次支持双11,应用包括但不限于:
——M6为犀牛智慧品牌设计的服装已在淘宝上线,
—凭借流畅的写作技巧,M6正在为天猫虚拟主播写剧本,
——依托多模态理解能力,M6正在提升淘宝,支付宝等平台的搜索和内容认知准确率。
未来,M6将积极探索与科学应用相结合,通过AI为科学充分利用大模型的潜力,加强M6与国产芯片的软硬件融合研究。11月8日,阿里巴巴达摩院公布了多模态模型M6的最新进展,其参数从万亿跃升至10万亿,远超此前谷歌,微软发布的万亿级模型,成为全球最大的AI预训练模型。
目前达摩院和阿里巴巴云已经推出M6服务平台,为大模型的培训和应用提供完整的工具,首次让大模型实现开箱即用,算法人员和普通用户都可以轻松使用该平台。
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。
为您推荐
精彩放送
热门文章
热文
-
北京先声智能科技有限公司前身为北京先声教育科技有限公司主营业务为教育领域提供B端服务
-
我们始终坚持将长期服务国家养老投资需求作为公司(中欧基金)战略方向之一
-
什么值得买联手天猫宝藏新品牌二度合作助力新锐品牌C位出道更广泛地传播品牌理念和价值观
-
用户购买一加9RT原神限定礼盒可获得《原神》物品兑换码内容如下
-
消息称三星和SK海力士计划在向美国提供数据时省略详细信息芯片短缺成为半导体行业的主旋律
-
温氏股份:预计年底完全成本降至8.7元/斤左右逐步回归正常9月份大概7.8元/斤
-
三只松鼠公布了公司2021年第三季度业绩报告
-
进博观察:低碳绿色发展蔚然成风中国“双碳”进程加速推进
-
首次置业者可以考虑购买月薪162倍的房子
-
34个单位成立了未成年人保护小组孩子无人看管