发布时间:2025-09-02
浏览次数:0
原创 杨泽华(玄飏) 阿里云云原生
2025年07月29日 18:03 浙江
简介
Cloud
集中研究 生态关键构成部分 ,透彻阐释 在智能运算支持中的工艺革新,包含对多用户环境隔离的监控、对图形处理器集合效能的监测以及事件触发式数据传输路线的规划,借助无干扰式信息收集、智慧化初步处理和动态调整资源分配的体系,打造适用于云化人工智能应用的整体可监控设施,彻底刷新在处理大量数据且系统组件多样化的情形下对可监控程度的要求标准。
一、 生态中的
Cloud
AI Agent 技术架构里,可观测性是关键支柱,它借助即时收集模型交互过程、资源使用情况、系统运行状况等重要信息,为智能体的效能提升、风险防范及问题排查给予参考支持。它能够对动态管理以及任务队列调度等核心环节进行可视化监督,同时,它还通过监测重要信息的传递路径和异常操作,是确保人工智能系统可靠运行和不断发展的核心支撑。
龙-sweet,源自阿里云的开源项目,属于人工智能时代的高性能、低成本可观测数据采集工具,致力于协助众多公司,以高效且经济的方式,更便捷地获取并运用符合标准规范的数据,依据既定模型构建完善的可观测系统。
套件具备以下独特的优势:
而 是 的中心枢纽,是 的主要信息获取装置,它拥有三大关键作用:
在 组件中的位置可以用下图来概括:
二、 核心优势
Cloud
之所以可以在 组件中承担重任,是因为其拥有诸多核心优势。
这是一款性能优异、运行稳固且能够灵活配置的数据采集设备,旨在助力实现新一代的可观测性方案设计。我们的目标是:开发出市场上最出色的“一体化可观测 Agent”与“全程可观测”体系。
该项目由阿里云可观测性团队开源,继承了卓越的日志收集和处理功能,并实现了全方位的功能改进与拓展。它已从原先仅支持单一日志模式,转变为能够整合可观测数据采集、本地计算以及服务发现等多种功能的综合体系。凭借其强大的数据连接能力,卓越的处理性能,极高的稳定度,灵活的编程接口,完善的监管机制,天然的云平台兼容性,以及有效的用户隔离措施,能够充分满足智能计算服务在数据监测收集与初步加工方面的应用要求。
遥测数据,无限边界
坚持集成化的构思,专门负责全部的收集任务,通过一个 Agent 来完成 Logs 等信息的获取、加工、转发以及传输等任务。着重增强了 数据抓取性能,全面应用 eBPF( )技术达成非侵入式的数据获取,给予直接的指标数据收集途径,实现名副其实的监测。
遵循共享、互通的理念,主动采纳包括 在内的开源规范;此外,兼容 以及 等多种开源平台。作为可监控的基础设施,持续增强跨不同系统环境的适配性,并着力达成对主流操作系统平台的广泛且全面的支撑。
K8s 拥有一直以来的关键功能。众所周知,在可观测性方面,K8s 元数据,例如 Pod 信息等,对于可观测性分析通常具有决定性作用。通过标准 CRI API 和 Pod 的基础定义进行交互,能够实现 K8s 中各类元数据信息的获取,从而在不干扰系统运行的情况下完成 K8s 元信息的采集工作。
性能可靠,无懈可击
始终把采集性能的极致追求和可靠性放在重要位置,这是践行长期主义理念的依据。具体体现在性能、资源消耗、稳定性的不断改进上。
编程管道,无与伦比
借助 SPL 和多语言 两项技术支持,搭建了周密的编程架构,赋予了高效的数据加工功能。各个引擎之间能够互通有无,借助多样的搭配方式达成所需的运算效能。
用户可依据个人情况,自由挑选适用的编程方案。若注重运行速度,宜选用本地执行模块;若关注功能完备,需应对复杂信息,适宜选用 SPL 架构。若侧重简易的个性化开发,可选配附加组件,通过特定方式实现编码。
配置管理,无忧无虑
分布式智能计算服务的生产环境错综复杂,要管理成千上万节点的配置接入非常困难,这特别暴露了行业内缺少一套统一且高效的监管准则的情况。为了解决这个难题,社群研发并实施了一套完备的 Agent 控制方案。这套方案致力于为各种来源和结构的 Agent 创造一个标准化、能够互相配合的平台,以此推动配置管理的自动化进程。
这项根据该管理约定开发的服务,能够管理所有符合该约定的代理,大幅增强了广域网络化系统中配置规范的统一程度、即时响应能力和记录可查性。作为一种可监测代理的管理工具,它具备以下作用:
行业对比
在可观测范围内,Bit、 以及 都是广受认可的可观测数据采集工具。其中, 以其紧凑高效的设计闻名,性能表现突出; 依托 CNCF,利用 理念打造了完善的生态系统;而 在 支持下,借助 和 VRL 的结合,为数据管理开辟了新途径。它专注于记录日志环境,凭借不断优化指标监测等方式,显著增强了信息获取的完备性;凭借卓越的性能表现、稳固运行状态、高度适应性和可定制特性intellij idea golang plugin,形成了核心功能上的独特性;此外,借助强大的管理机制,实现了海量数据收集配置的有效调控。具体内容请参见表格,其中标示为绿色的部分即为优势所在。
三、智算场景可观测需求、调整与实践
Cloud
智算服务可观测需求与挑战
先前我们了解到,容器技术作为云原生体系的一部分,已转变为支持人工智能运算的核心设施。当前,人工智能任务的数量正经历快速增加,尤其是大型模型的参数规模从十亿单位提升到万亿单位,这一转变导致训练活动的范围急剧扩大。范围的增加不仅使得集群的费用大幅增加,同时也对系统的可靠性形成了威胁。普遍存在的问题包括:
必须立即创建基于可观测数据的云化智能计算服务体系intellij idea golang plugin,该体系要能应对当前难题。针对智能计算服务系统的层级结构,可观测机制也相应地划分为三个部分,分别是基础设施层云资源的监控、容器层容器的监控,以及平台层模型训练和推理的监控。
在打造适配智能运算平台的监控机制时,核心任务是契合云化人工智能设施的特性,完成可监控信息的精准获取与初步加工。此环节遭遇的突出难题有:
集群的弹性伸缩能力很强,工作任务经常增加或减少,运行时间没有固定规律,访问量时常出现急剧变化,支持多个用户共同使用
所以,急需一种高效的可观测工具,专门用于云原生智能计算环境,这个工具必须能同时完成数据采集和预处理工作,拥有广泛的数据获取范围和多样化的数据处理方式;它还应具备出色的伸缩性能;运行效率高、资源消耗少、运行稳定且可靠;能够兼容多种租赁模式;管理控制力强,操作简便。
正巧,这款产品同时拥有可观测数据采集和预处理功能,能够实现强大的弹性伸缩,具备高性能,成本低廉,支持多租户管理,运行稳定可靠。接下来,我们详细说明如何应对这些挑战。
智算服务 实践
这款高性能工具用于采集和处理可观测数据,在智算集群环境下,主要有几种不同的运行方式,具体包括以下几种模式
分布式指标采集
由于计算服务系统构造繁杂且形态各异,必须对诸多核心效能参数实施监察。这些参数既包含底层设施状况,也涉及上层应用表现,并且以特定格式对外发布数据通道。比如针对运算单元配置的 Node ,针对图形处理器状态的 DCGM ,针对整体集成的 kube-state- ,针对学习机制的 、 等多种情形。
能够原生兼容直接获取所公开的各个参数,运用 -Slave 的多体复制采集体制。
利用智算服务获取的指标数据,能够借助可视化面板来观察 GPU 的使用程度,也能识别出损坏的显卡情况。针对处理能力强的应用,可以迅速找出跨多个集群和显卡的 AI 训练所面临的阻碍,从而有助于增强 GPU 等资源的利用效率。
分布式日志采集
在智算集群日志收集的情境中,依照工作需要设置了多样的安装模式。
分布式训练和推理服务部署都具备显著的伸缩能力,能够充分满足伸缩和多用户共享的需求
容器筛选与隔离措施:依据容器环境背景资料,赋予筛选容器功能,既能确保采集过程的独立,也能降低无谓的资源消耗。元数据关联机制:借助容器背景资料及环境变量,赋予在记录中充实 K8s 元数据功能。采集路径探查
数据处理方案:容器上下文关联与数据处理
在人工智能运算应用领域,为了充分发掘信息资源的利用潜力,一般要将大规模计算平台的运行记录、分布式训练过程文档以及推理服务活动文档迅速收集并传送至后台数据解析系统,然后依据这些资料执行多种信息扩充措施。分布式训练日志必须包含容器标识、Pod标签、命名空间和节点详情,以便实现跨容器AI任务的有效追踪与改进;推理服务为提升对访问数据等信息的解析效率,必须对日志执行字段统一化处理,并且要关联容器背景信息。
依靠卓越的运算性能,能够对导入的信息,结合 K8s 的相关资料;此外,借助 SPL 及多语种插件式运算核心,可以给予多变的数据操作组织方法,有助于应对各种复杂的数据形态。
如下是一些典型的日志处理场景:
eBPF 采集
分布式训练体系中,众多处理单元互相配合,旨在提升模型学习进度。不过,现实运用环节,整体运作效果或会因诸多因素而不稳定,例如传输环节的迟滞、传输通道的局限以及处理能力的不足等,这些因素都可能造成学习速率的起伏乃至降低。借助 eBPF 手段,在智能计算平台开展非侵入式网络观察,借助即时记录并解析数据流,能够探明系统网络构造,有助于迅速锁定问题节点,从而增强整体模型学习成效。
自身可观测
基础配置的稳固程度至关重要,这一点无需多言。运行环境往往变幻莫测,为此,必须强化对自身运行状况的监控能力,以便在庞大的系统中迅速察觉数据收集的异常或性能的瓶颈。
四、探索数据采集的未来
Cloud
今后,要始终秉持长远眼光开展各项工作,着力构建核心优势,从而满足人工智能快速发展带来的挑战。
我们借助 C++ 编译、体系结构改进、内存管理、数据暂存等手段,得以让它的运作表现更加出色,运行状态更加可靠。
借助强化捕获功能,深度融合 eBPF 技术,补充系统运行数据收集功能,可打造出性能更优的集成化代理工具。
我们将持续开展多项改进工作,使系统运行更加自动化,表现更为智能,从而为人工智能时代提供更优质的支持。
它既是辅助手段,也是搭建智能运算根基的核心,用户能够通过 进行体验、加入 的各项计划,共同合作,借助可监控性促成人工智能前景的革新。
如有侵权请联系删除!
Copyright © 2023 江苏优软数字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服务提供商
13262879759
微信二维码