Kimi发布最强代码模型K2.6，领先GPT-5

发布时间：2026-05-10

浏览次数：0

智东西于4月21日进行报道指出，就在昨夜，Kimi把旗舰模型K2.6正式予以发布，并且还进行了开源操作，该模型带来了它迄今为止最为强大的代码能力，以及长程任务执行能力和Agent集群能力。

根据官方公布的多项基准测试，在博士级难度的“人类最后的考试”（’s Last Exam）里，位于其中的Kimi K2.6取得了54.0%的得分，凭借该得分排名第一；在评估Agent深度检索能力的测试当中，K2.6获得了92.5%的高分，此高分大幅领先GPT - 5.4以及3.1 Pro，并且小幅超过Opus 4.6。除此之外，在考察真实软件工程能力的SWE - Bench Pro这一关里，K2.6以58.6%的成绩领先所有闭源模型。

与此同时，K2.6于通用智能方面，展现出了综合竞争力，在编程能力方面，也展现出了综合竞争力，在视觉理解能力方面，同样展现出了综合竞争力。

然而，就数据的具体细节而言，K2.6在某些维度方面还是存在着能够进行追赶的空间。在SWE - bench多语言测试当中，K2.6稍微比Opus 4.6以及3.1 Pro要差一些；并且在复杂工具调度任务里，K2.6虽说比Opus 4.6和3.1 Pro更具优势，可是依旧处在GPT - 5.4的后面。除此之外，在与V等视觉测试中，K2.6的表现跟GPT - 5.4相比较起来，同样还是存在着一定的差距。

总体来看，K2.6于跨模态推理方面，表现得稳健，在工具调用方面，所呈现态势也是稳健的，于长程任务执行这一方面，同样展现出稳健的状态，在多项能力之上codejock 16，已然达到或者是接近顶尖闭源模型的水平。

在近期这段时间，国内外大模型赛道在近期表现得动作极为频繁。上周五的时候，发布了新一代旗舰模型Opus 4.7 ，昨天，阿里发布了其下一代旗舰模型的早期预览版Qwen3.6 - Max - ，而行业最为期待的“开源猛兽”V4也有希望在本周之内降临。这一波国内外旗舰模型的集体“上桌”行为，意味着大模型格局的洗牌时刻很快就要到来。

新一代K2.6能够连续编码13小时时长，处理超过4000行复杂代码数量，支持多语言前后端开发工作，通过图像与视频生成工具深度融合方式，实现专业级Web应用复刻以及视觉焦点设计达成，官方示例表明，K2.6可使复杂图像跟视频素材转化为可运行前端代码内容，复刻经典网页或者动画交互场景情形。

（待插入官方案例的视频）

并且，Kimi K2.6极大地强化了Agent自主执行能力，K2.6所驱动的Agent集群架构能够支持300个子Agent并行达成4000个协作步骤，达成更大规模并行化，跟K2.5相比任务完成度以及交付质量明显提高。在囊括了多种复杂端到端任务的Kimi内部代码评测基准Kimi Code Bench里，K2.6的成绩相较于K2.5提高了大约20%。

于、那样的主动式Agent框架里，K2.6能够持续地自主运行，时长可达到5天了。其内部进行的Claw Bench测试表明些，K2.6所含有着得的综合性能相较于K2.5而言有着提增了10%，它在只是单次的运行之际就能够单独地完成，从文档一直到网页、PPT以及表格的，多种产物的端对末端的交付情况了。

在国外，从事开发工作的人员对于 K2.6 给出的反馈同样是极为踊跃的。有这样一些开展开发活动的人员表示，运用 K2.6 去开展网页以及前端交互设计这项工作，“所获得的体验是相当棒的，几乎可以说是当前这个阶段里最为出色的”，并且能够以轻松的状态去处理代码、图像、视频以及动画素材。

还有用户表示，使用这个模型去制作前端效果的话，会“令人惊叹”，当下，在同类工具之中，它可能是最强的体验。

与此同时，有另外一名开发者留意并察觉到，针对模型而言，其BF16权重上传的相应数量达到595GB，并且该开发者觉得，此状况在开源生态当中具有相当强大的竞争力。

在API这方面，K2.6保持分级计费模式，不过跟K2.5比，价格有显著上涨。详细来讲，K2.6每百万Token的输入价格，在缓存未命中时是6.5元，相较于K2.5的4元，上涨了大概62.5%；缓存命中时的输入价格是1.1元，比之前的0.7元也有提高；输出价格从21元提升到了27元。在窗口容量方面，K2.6给出了262,144 Token的上下文窗口支持。

当前，Kimi Agent模式当中已经内置了数量多达上百个的官方所推荐的技能，其能够支持创建以及调用Skill。Agent集群可以进行调度，不同技能特长的Agent会展开互补协作，把搜索、深度研究、文档分析以及长文创作等能力组合到一起，以此来完成复杂任务。

与此同时，Kimi团队还在对“Claw群组”这个方向展开探索，目前正处于小范围测试的阶段。

首先，Kimi K2.6已经上线在kimi.com、还有最新版Kimi应用、以及Kimi API和Kimi Code编程助手这里，所有用户能够马上加以使用。其次，智东西开展了一回实测，我们是在K2.6模式这个情形下完成了两个多模态创意案例。

快速体验：kimi.com

使用Kimi API：

你提供的内容似乎并不是一个完整的、可理解的句子呀，请你提供正确的句子以便我按照要求进行改写。

开源地址：

Face: https://.co//Kimi-K2.6

一、手搓3D沙盒游戏、精绘体素鹈鹕，K2.6一手实测

我们进行了两个具挑战性的创意实测，旨在直观验证K2.6的多模态与代码生成能力，是在K2.6的模式之下进行的。

第一个体验案例是要求K2.6制作一个3D横版格斗游戏。

提示词：制作一款单文件 HTML 的 3D 横版格斗游戏，场景是一座被霸天虎入侵之后变得破败不堪的城市地图，此时城市处于被霸天虎入侵后的破败状态，敌人是类人型赛博坦机器人带有武器后坐力效果展示，采用低多边形的风格且带有卡通美学特征。游戏开始之际，玩家处在街道之上，街道周围存在着建筑废墟；游戏过程当中应当含有能够被击倒的细节物品，像有汽车、树木、石块以及瓦砾与自动售货机。玩家准许选择 5 种属于擎天柱阵营的角色参与游戏codejock 16，而且要与 5 种霸天虎变种敌人展开战斗，这些敌人会持续不断地生成，游戏是无限时间时长的沙盒模式。

有实测得到的结果表明，K2.6于游戏逻辑以及元素还原方面展现出出色的表现，提示词里所要求的汽车、废墟等环境元素均有不错的呈现，5种擎天柱阵营角色也按照约定出现了。

然而，存在这样一个状况，在对于空间坐标的理解这一方面，出现了好像是提示词遭受污染的问题，因为其属于“3D横版”类型，所以最终玩家所操控的角色其移动的方式转变成为了上下方向的移动，并非是横版游戏里通常会出现的左右方向的移动。

另一个体验实例，是开展一项创作，创作的内容为，一个呈现“骑自行车的鹈鹕”情景的，3D像素风格的艺术作品。

依据提示词来创作，制作出一个3D像素艺术作品，作品内容是一只正在骑自行车的鹈鹕，要尽可能把场景描绘得相当细致，留意主体模型上的每一处小细节，与此同时也要兼顾周围环境的细节，在一个HTML代码块当中展开制作，把代码编写得足够出色，以此来展现你的水平超越其他作品，我给予你充分的创作自由，让你尽情施展。

（待插入体验视频）

K2.6所生成的画面称得上是相当精美，它给出了日景以及夜景这两种环境供人选择，并且还支持手动去调节骑行速度。鹈鹕的身体结构，还有其骑行姿态，显得自然又合理，自行车的车架、链条、座椅等方面的细节，同样是非常完整。然而在处于运动状态时，鹈鹕脚部的踩踏动作，跟脚踏板的物理运动轨迹，存在着不同步的情况，这并不符合物理常识。

从整体上来说，其对多模态的理解，和前端代码输出的相互结合，已然实现了相对较为出众的达成程度，有着相当不错的完成效果。

二、连续编码13小时，长程编码能力有所突破

长程编码能力是此次K2.6最核心的突破之一。

在面对实实在在的软件工程挑战之时，K2.6显露出了强硬的泛化以及推理能力，包括在多种不同编程语言比如 Rust、Go等的情况下，还有在复杂任务场景当中，均能够实现稳定输出。

Kimi官方也提供了两个端到端长程推理场景。

在场景一里头，K2.6成功于Mac本地进行了Qwen3.5 - 0.8B模型的下载以及部署，并且借助相对小众的Zig语言跨语言达成并优化了模型推理。在历经超过12小时的不间断运行时，K2.6历经了14轮迭代，调用工具超过4000次，把吞吐量从大约15 /s提升至193 /s，最终达成了比LM快20%的推理速度。

场景二里，K2.6做到了对开源金融撮合引擎 - core的重构工作，该引擎有8年历程，它精确改动了4000多行代码的同时，精心剖析CPU及内存分配火焰图来找出隐蔽瓶颈在哪里，果敢把核心线程拓扑结构从4ME + 2RE优化成2ME + 1RE，经过13小时的持续作业，在引擎性能差不多到极限的状况下，峰值吞吐量仍旧大幅度提高了133%。

除了后端优化，K2.6还进化了由代码驱动的设计能力。

K2.6的Agent藉由对图像以及视频生成工具予以融合，可依据视觉素材生成风格极为统一的专业级Web应用，能构建处于视觉焦点显著突出状态的首屏区（Hero），且达成各类交互元素以及丰富的滚动触发等动效。

（待插入官方视频）

在专门用于前端开发设计评测的标准Kimi Bench里，Kimi K2.6 Agent跟AI的3.1 Pro进行了比较测试，测试呈现这样结果，即在用户评审当中，有47.5%的人觉得Kimi K2.6的生成效果更出色，31.4%的人则认为3.1 Pro更具优势，21.1%的人觉得二者表现差不多。

K2.6 Agent同样对基础的后端数据库模块予以支持，比如说，在生成网页期间，将表单信息收集的功能嵌入进去。

三、300个Agent集群大协同，持久自主运行5天无干预

“Agent集群”架构，此次迎来全面升级了，它是由K2.6驱动的，目前最多能够支持300个子Agent并行去完成4000个协作步骤，这种集群架构，可以调度具备不同技能特长的Agent进行互补协作，在单次运行当中能独立完成从文档到网页，还有PPT以及表格的多产物端到端交付。

例如，当面临全球100个半导体标的情形之下，Agent集群有能力独立自主地去设计，并且执行5套量化策略，把麦肯锡那种风格的逻辑转变成能够被复用的技能，最终交出详尽的建模表格以及整套汇报演示文档。

（待插入官方视频）

于学术范畴之内，Agent集群可把一篇有着海量视觉方面数据的具备超高质量属性的天体物理类论文，转变为篇幅长达7000字的研究报告，转化成数量多达2万多条的结构化数据，还能生成14张属于天文级别的图表。

（待插入官方视频）

另外，K2.6对于、Agent之类的主动式Agent框架的协同能力，也有了十分明显的增强。这种工作流需要AI摆脱传统的对话交互，以在后台长期存在的形式，主动去管理计划并且协调跨平台操作。

Kimi RL基础设施团队借助基于K2.6的Agent得以运转5天的自主运行，该Agent承担着监控、故障响应以及系统运维的职责，展现出其上下文维持能力、多线程任务处理能力，还有从接收告警直至彻底解决的全流程执行能力。

（待插入官方视频）

四、办公能力精进，Agent模式内置上百个Skill

在实用性得以落地的这一方面，Kimi Agent模式当中已经内置了数量达到上百个的官方所推荐的技能，举例说就是由内部专家所精心打造的投研技能包，其可以使得用户通过一键操作进而生成具备专业排版样式的的公司一页纸，或者是深度研报。

为了把创建门槛给降低下来，K2.6推出了一项名为“文档转技能”的功能，若用户上传高质量文档，Kimi就能理解其中的结构与风格基因所在，进而自动生成专属的、可以复用的文档创建技能。

需要留意的点是，Kimi团队在此次还推出了关于“Claw群组”的预告，该模式当前正处于小范围的内测阶段，此一方向意在突破“人机单线交互”的界限，把人类与各种各样能够全天候运行的Agent放置于同一个办公群组当中。

处于Claw群组生态当中，用户能够接入那来自任意设备，且由任何供应商所提供，运行着任何模型的全天候Agent，并且每个Agent自身携带专属工具包，具备特定技能，还有记忆上下文。

不论部署于本地的笔记本电脑，还是移动设备，又或是云端实例，这些形态各异的Agent，皆可进入同一个协同办公群组。

K2.6会充当“群组协调者”，依据Agent的技能画像，结合可用工具，动态匹配任务，达成能力的最优配置。

在某个Agent遭遇故障或者处于停滞状态之际，协调者能够检测出中断情况，会自动去重新分配任务或者生成子任务，并且针对Agent交付物的整个生命周期，也就是从启动开始，历经验证阶段，直至完成此过程，进行主动式的管理。

结语：开源再迎强者，K2.6或将成为“Agent新标杆”

K2.6发布了，并且开源了，这既表明Kimi在代码能力方面、长程任务执行方面以及Agent协作上又一次拉开了差距，还为开发者社区提供了那种能够直接落地的多模态工具。它凭借支持前端复刻、能支持后端集成、支持长程编码以及多Agent协作，把复杂任务的实现门槛又进一步给降低了，使得专业级Web应用场景、学术分析场景以及量化策略等之类的场景可以快速实现。

在开源环境里，这类有高性能、具备多模态、能够被复用的Agent能力，也许意味着行业迈入一个全新的时期。

能够预见到，伴随着K2.6 Agent模式以及Claw群组进一步地去进行推广，开源社区在多模态智能体实现落地、复杂任务达成自动化以及跨平台开展协作方面将会迎来更多的具有创新性的机会，并且K2.6也将会成为下一个阶段开源生态当中的一个重要的参考标杆。

如有侵权请联系删除！

TAGS：

上一篇：Sketch软件介绍：用Google表格和AI做出真实图表

下一篇：Sublime Text 3出现乱码？试试这几个方法

返回列表

诚信、勤奋、创新、卓越

13262879759

行业动态

Kimi发布最强代码模型K2.6，领先GPT-5

联系我们