发布时间:2026-01-01
浏览次数:0
-flash属于美团龙猫智能体体系里的关键部分,担任着从任务执行到系统协同的能力提升。本文会从架构设计开始,再到能力演进,最后到落地场景,系统剖析-flash的技术逻辑以及产品价值,为理解企业级智能体的构建途径提供参考范例。
由美团团队所开发的Flash,是一个有着5600亿参数的混合专家语言模型,这个语言模型致力于达成计算效率以及高级代理能力,它的核心创新涵盖了:
零计算专家(Zero -)可达成动态计算预算分配,按上下文需求激活一百八十六亿至三百一十三亿参数(均值二百七十亿),借此优化资源利用。快捷连接MoE(-,ScMoE),拓宽计算 - 通信重叠窗口,大幅提升推理效率及吞吐量。
-\ Flash运用全面的大模型扩展框架,将超参数迁移、模型增长初始化汇聚,搭配多管齐下的稳定性套件以及确定性计算,以此达成稳定且可重现的训练。它在30天内达成了超20万亿Token的训练量,其推理速度超越100 TPS,每百万输出Token的成本是0.70美元。经由大规模预训练、有针对性的中训以及后训(涵盖推理、代码与指令,且借助合成数据和工具使用任务),-\ Flash培育出了代理智能。
- Flash身为并非思维类型的基础模型,于众多顶尖模型里展现出极高的竞争力,特别是在代理任务方面表现优异。 - Flash的模型检查点进行了开源,以此推动社区研究。
一、主要贡献
为使得大型语言模型也就是LLM的发展速度加快,从而证明了模型规模以及计算资源扩展具备有效性codejock 16,-Flash致力于推动语言模型的前沿发展,其途径是通过计算效率和代理能力这两个协同方向 。
整体表现:
-可扩展架构设计、训练策略以及基础设施协同作用,促使 Flash 达成了高训练吞吐量与低推理延迟。模型于 30 天内完成了 20 万亿 Token 的预训练,其可用性高达 98.48%。推理部署效率超越了 H800 上的 100 TPS,每百万输出 Token 的成本为 0.7 美元。
评估结果:
针对 -Flash,在 -V2 里得分是 86.5,于另一处是 39.5,在 τ2 - Bench 上得分 67.7,其在通用领域、编码以及代理工具使用方面呈现出强大的能力。为了缓解现有开源基准测试的潜在污染情况,团队构建了两个新基准:一个是(模拟真实人机交互评估多轮指令遵循能力),另一个是(利用真实商业场景评估解决复杂现实任务的能力),-Flash 在这些基准上面都有着出色的表现。
二、架构
Flash运用了一种新奇的MoE架构,有着两项关键创新,一项是,另一项也是 。
1.零计算专家 (Zero- )
莫埃块里头有那种能进行零计算的专家,它让令牌依据自身上下文的重要程度,去动态地耗费可以变化的计算资源,靠着自适应的专家偏差来把控平均计算负载。
2.快捷连接 MoE (- MoE)
每个层都集成了两个多头潜在注意力块,还集成了多个异构前馈网络块,从第一个多头潜在注意力块的输出直接到混合专家块的快捷连接被采用了。
显著的系统级效率提升:
三、 预训练
-Flash 的预训练遵循三阶段课程:
阶段1:进行通用预训练codejock 16,在大约20万亿Token之上开展训练,序列长度设定为8192,以此来构建稳健的基础模型。
阶段2,进行推理和编码增强,通过使用数万亿数据,来进一步增强推理能力,以及编码能力 。
阶段3,长上下文扩展,借助于在长上下文语料库之上进行训练,把上下文长度予以扩展,使之变为128k 。
训练稳定性数据净化 ()
对于全部的训练数据,展开严格的净化操作,借助 13 - gram 重叠以及语义相似性的检测(运用 BGE - m3 嵌入方式),以此来防止基准测试集的数据出现泄露的情况。
评估
在通用任务方面,Flash基础模型表现出色,在通用推理上出色,在数学推理方面也出色,在编码方面同样出色,它与-V3.1 Base、Llama-4- Base以及Kimi-K2 Base等最先进的开源MoE模型相比,参数效率更高,性能具有竞争力,甚至更优 。
四、后训练
传统的多阶段后训练框架被Flash采用,目的在于提高模型于编码任务、代理工具使用务而言的表现,以及复杂推理、通用能力方面的表现。
多代理数据合成框架五、训练基础设施
训练基础设施的核心设计原则是可扩展性和精确性。
六、推理与部署
- Flash运用模型跟系统协同设计,极大地提升了吞吐量,还降低了延迟。
定制内核七、结论
- Flash 是依照 5600 亿进行参数设置,属于 MoE 类型的模型,其核心创新涵盖以下这些方面:
感知上下文的动态计算规则,以及快捷连通的混合专家引擎,于训练与推理进程里达成高效能。保障稳定且大规模训练的整合举措。历经多阶段锤炼以培育-Flash代理本领的训练规程,使之能够应对那些存有反复推理需求以及环境交互要求的繁杂任务。
- Flash 被发布成开源模型,其目的在于推动对高效 MoE 架构的研究,推动高质量数据策略的研究,推动代理模型开发的研究,进而促进大型语言模型的社区创新。
如有侵权请联系删除!
Copyright © 2023 江苏优软数字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服务提供商
13262879759
微信二维码