僅用480塊GPU跑出萬億參數(shù)！阿里達摩院發(fā)布全球首個“低碳版”巨模型M6

發(fā)布時間：2021-06-28 點擊：864

6月25日，阿里巴巴達摩院發(fā)布“低碳版”巨模型M6，在全球范圍內(nèi)首次大幅降低了萬億參數(shù)超大模型訓練能耗，更加符合業(yè)界對低碳、高效訓練AI大模型的迫切需求。通過一系列突破性的技術(shù)創(chuàng)新，達摩院團隊僅使用480卡GPU，即訓練出了規(guī)模達人類神經(jīng)元10倍的萬億參數(shù)多模態(tài)大模型M6，與英偉達、谷歌等海外公司實現(xiàn)萬億參數(shù)規(guī)模相比，能耗降低超八成、效率提升近11倍。

大模型將成下一代人工智能基礎(chǔ)設(shè)施，在AI圈內(nèi)已成共識。與生物體神經(jīng)元越多往往越聰明類似，參數(shù)規(guī)模越大的AI模型，往往擁有更高的智慧上限，訓練大模型或?qū)⒆屓祟愒谔剿魍ㄓ萌斯ぶ悄苌细M一步。然而，大模型算力成本也相當高昂，很大程度阻礙了學界、工業(yè)界對大模型潛力的深入研究。

針對這一難題，達摩院聯(lián)合阿里云機器學習PAI平臺、EFLOPS計算集群等團隊改進了MOE（Mixture-of-Experts）框架，創(chuàng)造性地通過專家并行策略，大大擴增了單個模型的承載容量。同時，通過加速線性代數(shù)、混合精度訓練、半精度通信等優(yōu)化技術(shù)，達摩院團隊大幅提升了萬億模型訓練速度，且在效果接近無損的前提下有效降低了所需計算資源。

相比此前英偉達使用3072 A100 GPU實現(xiàn)萬億參數(shù)、谷歌使用2048 TPU實現(xiàn)1.6萬億參數(shù)大模型，此次達摩院僅使用480卡V100 32G GPU就實現(xiàn)了萬億模型M6，節(jié)省算力資源超80%，且訓練效率提升近11倍。

同時，達摩院此次發(fā)布的M6巨模型，成為國內(nèi)首個實現(xiàn)商業(yè)化落地的多模態(tài)大模型。M6擁有超越傳統(tǒng)AI的認知和創(chuàng)造能力，擅長繪畫、寫作、問答，在電商、制造業(yè)、文學藝術(shù)等諸多領(lǐng)域擁有廣泛應(yīng)用前景。

據(jù)了解，經(jīng)過一段時間的試用，M6將作為AI助理設(shè)計師正式上崗阿里新制造平臺犀牛智造，通過結(jié)合潮流趨勢進行快速設(shè)計、試穿效果模擬，有望大幅縮短快時尚新款服飾設(shè)計周期。M6還已應(yīng)用于支付寶、淘寶等平臺，參與跨模態(tài)搜索、文案撰寫、圖片設(shè)計等工作。

達摩院資深算法專家楊紅霞表示，“接下來，M6團隊將繼續(xù)把低碳AI做到極致，推進應(yīng)用進一步落地，并探索對通用大模型的理論研究。”

今年以來，阿里在超大規(guī)模預(yù)訓練模型領(lǐng)域?qū)页龀晒?。除發(fā)布多模態(tài)巨模型M6外，阿里巴巴達摩院近期還發(fā)布了中文社區(qū)領(lǐng)先的語言大模型PLUG，實現(xiàn)了在AI大模型底層技術(shù)及應(yīng)用上的深入布局。

來源：中國電子報

上一篇：提速數(shù)字化！工信部開展百萬工業(yè)App培育行動

下一篇：剛剛出爐的《數(shù)據(jù)安全法》透露了哪些重要信息？

返回上一級

善良的妺妺hd高清中文,欧美日韩精品一区二区在线观看 ,欧美无人区码一码二码三码的区别,女人是男人的未来1分59分有厚的

僅用480塊GPU跑出萬億參數(shù)！阿里達摩院發(fā)布全球首個“低碳版”巨模型M6

僅用480塊GPU跑出萬億參數(shù)！阿里達摩院發(fā)布全球首個“低碳版”巨模型M6