发布日期:2024-11-05 18:57 点击次数:185
埃隆·马斯克言行若一东京热种子,开源了他家的大模子Glock。与其他基于Transformer架构的大模子比较,Glock有何私有之处呢?本文将深刻解析Glock的架构遐想,并与其他模子进行比较。
一、Glock的积木块:MOE架构通盘的大模子皆构建于Transformer架构之上,Glock也不例外。在代码的1292行,界说了一个Transformer模块。
Glock的中枢在于其混杂内行(Mixture of Experts,MOE)架构。Glock使用了八内行两活跃的MOE模子,与之前开源的Mistral AI的八内行七活跃的7B模子近似,GPT-4的架构臆度也与此近似。
这意味着在每个Transformer层中,唯有两个内行会被激活进行盘算推算东京热种子,从而显赫裁减了盘算推算本钱。
二、参数限制与层数对比Glock的八内行两活跃MOE架构堆叠了64层,均为MOE模块。比较之下,GPT-4堆叠了96层,参数目达到了惊东说念主的3140亿。
三、深刻Glock的Transformer模块从数据进口的词镶嵌层开动,Glock的词汇量为32072。镶嵌层的目的是将词调遣为高维向量,Glock将每个词调遣为一个6144维的向量。
之后,数据参增多头防备力机制。Glock使用了48头防备力,将6144维的向量切分为48份,每份128维。
夏娃的诱惑为了省俭算力和普及速率,唯有查询向量(Q)被切分为48头,键向量(K)和值向量(V)则被分红六组,每组分享八个头进行自防备力盘算推算。多头防备力机制之后是密集的前馈神经网罗,将荫藏层限制放大八倍,达到8乘以6144的限制,参数目大幅增加。Glock单次最多不错惩办8192个token,这意味着一次惩办8192乘以6144个数字的弘大数据流。
四、Glock的开源与往日预测以上便是马斯克开源大模子Glock的总体框架解析。尽管开源,但马斯克仍然可能靠近品评:不开源被谴责“卡脖子”,开源后又可能被诟病“数据惩办时势不当”。
接下来将进行实质部署测试东京热种子,评估Glock的出产智力。