codejock 16 OpML 2019 即将举办，聚焦机器学习生产周期管理

发布时间：2025-06-29

浏览次数：0

OpML 2019，全名为2019年机器学习生产生命周期管理国际会议，定于2019年5月20日在美国加州圣克拉拉市举行。此次会议旨在为科研工作者和产业界人士搭建一个交流与合作的平台，致力于解决机器学习生产生命周期管理领域面临的普遍挑战，并推动具有影响力的研究成果和前沿解决方案的诞生。

本文挑选了在arXiv平台上提前发布的两篇文章进行深入剖析。鉴于会议规定，文章需在会议开幕（5月20日）之后方可对外公布，因此现阶段外界所能接触到的资料仅限于这两篇。本文将重点对这两篇文章进行详尽探讨：，。

MPP：Model

TonY：An for Jobs

论文 1：MPP：Model

此文献可从arxiv.org的pdf版块中获取，具体链接为https://arxiv.org/pdf/1902.08638.pdf。

1）作者简介：

本文作者均出自（https://www..com），该公司致力于协助工业领域在生产环境中应用机器学习技术。其主打产品是一款专为工业界量身打造的软件，旨在辅助用户在生产流程中运用和管理机器学习算法。用户可轻松导入已编写的机器学习算法，实现数据连接，并在算法可能遭遇问题时及时发出警报。内置的控制系统具备算法自我更新及依据相关规则进行筛选的功能。鉴于此，业界迫切需要一种能够识别机器学习系统运行效能的算法，而本文所阐述的正是这样一项算法。鉴于该算法属于公司产品，文中未提供源代码的下载链接。

2）文章背景介绍：

机器学习模型在工业领域得到了广泛的应用。通常情况下，研发人员会选用多个模型来对某一工业问题进行预测，并从中挑选出表现最为出色的模型投入生产使用。但需注意的是，机器学习模型的表现优劣往往取决于训练数据以及生产过程中所收集到的数据。由于模型的泛化能力各异，面对不同的数据输入，其预测效果也会有所差异。因此，在工业生产中，我们面临诸多挑战，包括挑选恰当的模型、预测模型是否可能失效，以及评估模型的精确程度。

在生产过程中，数据常因外部环境变动而迅速调整，这使得某一时刻最适宜的工业生产机器学习模型必须持续更新。若依赖人工操作这一更新过程，则会显得繁复、笨拙且效率低下，因此，采用自动化算法进行更新更为理想。此外，工业生产中的数据通常缺乏标注，这就导致传统的通过对比预测结果与标注来评估机器学习模型准确度的方法不再适用。本文所推崇的MPP（模型）算法，能够有效应对这一生产过程中的具体问题。

3）文章概述：

文章探讨了MPP算法在监测产业中运用机器学习模型算法准确度方面的应用，同时对预测的准确度进行评分。这一预测过程涵盖了分类与回归两个环节，其核心评分指标为准确率和RMSE误差值。MPP算法以原机器学习算法的误差数据作为训练基准，旨在评估生产过程中所使用的机器学习算法是否仍保持准确的效果。研究结果表明，MPP算法在预测方面展现出较高的准确性。因此，MPP算法具备阻止灾难性预测结果出现的巨大潜力，同时它还能协助数据科学家们对生产数据进行深入的剖析。

4）文章详解：

在2013年，有人提出了一个方法，即利用一个模型来评估另一个模型的准确性，具体做法是运用随机森林对另一个随机森林在特定情境下的匹配度进行预测。到了2014年，et. al.在其著作中提出了一个基于共型预测因子（）的框架，用于衡量机器学习算法的置信水平。2019年，相关研究者们提出了评估训练集与测试集数据规律性差异的指标。这些研究成果为本篇论文中MPP算法的构建打下了坚实的基础。

工作原理：

MPP算法的训练数据集主要由以下部分构成：一是源自原始机器学习算法的预测误差数据。原算法在训练集上执行学习，而在测试集上执行预测，随后计算与实际标签的偏差，这些偏差信息随后被用作MPP算法的标签。MPP算法所使用的特征不仅限于原机器学习算法的特征，还包括原算法预测的概率以及原机器学习模型的相关参数，如随机森林中的树的数量等。MPP模型对两类问题进行了预测，分别是分类问题和回归问题。在处理分类问题时，MPP会给出二值结果，即分类正确（标记为1）或错误（标记为0）。至于回归问题，该算法设定了一个阈值，只要预测值在原始机器学习算法的标签值加减ε的范围内，便判定为准确（标记为1），否则判定为不准确（标记为0）。阀值计算依赖于Null model，该模型由随机生成的样本构成。在这些样本中，部分样本依据样本分布确定，而另一部分则加入了随机生成的变量。通过这种设计，Null model能够在参数不明确的情况下，模拟出一个随机的进程。

算法效果：

该文通过多个数据集对MPP算法的性能进行了评估，相关测试数据详见表1和表2。其中，表1详细呈现了MPP算法在分类任务上的表现，表格的第一列“Error”记录了传统机器学习算法的分类错误率，第二列则列出了MPP算法预测的错误率，第三列则对比了这两种错误率之间的差异。观察表格数据可知，MPP算法在若干数据集上展现出卓越的预测能力，并能够较为精确地评估机器学习模型的错误率。

本文所引用的数据集包括以下几部分：Yelp、（此处省略具体数据集名称）、（此处省略具体数据集名称）以及（此处省略具体数据集名称）。其中，来自文献的数据集收集自30名年龄在19至48岁之间的腕式智能手机用户，他们在日常生活中的活动数据由手机内置的惯性传感器进行记录。这些活动数据涵盖了站立、就坐、平躺、行走、上楼、下楼等多种行为。记录的原始数据涵盖了重力加速度、身体加速度以及身体角速度等多个方面，通过对这些数据进行特征映射，数据集得以识别并区分人类活动的类型。Yelp 提供的数据集系公开资源，面向机器学习领域的实验研究。该数据集囊括了 Yelp 网站上的图片和用户评价的文字内容，但对于图片和评价的具体分类细节，原文并未进行详细阐述。该数据集来源于，其数据由Barry于1996年从1994年的人口普查资料中筛选，涵盖了16至100岁人群的年龄、职业类别、教育水平等详细信息，旨在预测个体的年薪是否超过50k。该数据集的来源是，它收集了位于北科罗拉多州的卢瑟福国家公园内的森林覆盖类型信息，该区域的森林遭受的人为干扰相对较少。该数据集选取了森林中30米×30米的区块，其覆盖范围和种类由美国森林服务部的资源信息系统负责确定。其中，特征变量涵盖了是否为野生区域、土壤类型等多个方面。这些数据主要来源于美国地理普查局（USGS）以及美国森林服务部。数据来源明确，所涉及的数据集涵盖了英语中的26个大写字母的黑白图像，这些图像采用了20种不同的字体进行设计，并且每种字体都经过随机扭曲处理，最终生成了20000个独一无二的图像数据。这些特征数据涵盖了1至15个不同的指标，用以衡量图像的统计动量以及边的数量等特征，研究的目标是准确识别出图像所代表的英文字母。

表 1：MPP 在分类问题上的效能（摘自原文）

在研究回归问题的效果方面，文中同样进行了深入分析，相关结果详见表 2。对于绝大多数数据集（不包括某些特定数据集），MPP 算法展现出了较强的预测能力。文中涉及的回归问题数据集种类繁多，涵盖了诸如 Songs、Blog、以及 Video 等多个领域。数据集来源于，其中包含了用户在上的评论内容，其目的是预测在状态发布后 H 小时内可能收到的评论数量。而 Songs 数据集亦由获取，内容涵盖自 1922 年至 2011 年间商业歌曲的音频特性，旨在预测歌曲的发布年份。该数据集来源于，它通过分析博客的文字内容来预估评论数量。数据集源自，借助软件模拟的涡轮数据，可以预测涡轮的维修需求。Video数据集来自，它通过视频特征数据来推算转码所需时间，且无需提供解码器类型。

表 2: MPP 在回归问题上的效能（摘自原文）

5）文章亮点：

6）分析师见解：

首先，文章提到了原算法与MPP预测的误差值；然而，它并未深入阐述这一误差幅度对工业系统可能产生的影响；此外，并未明确指出具体误差范围，该范围足以导致工业流程出现异常。在表一展示的分类误差数据中，采用了数据集进行测试，误差值已升至0.15。然而，关于这一误差是否偏高，文中并未进行详细阐述，仅提供了相关数值。显然，若要判断何种误差程度可被接受，则需要补充大量详细信息，并依托强有力的理论支撑。鉴于文章篇幅有限，未能对此进行深入探讨，这也是可以理解的。

其次，文中并未对所使用训练数据的量级进行详尽的阐述。加之，工业领域的数据集也可能相当庞大，而关于MPP算法对数据规模敏感度的具体描述，文章中并未给出。

第三点，该文提出的算法在工业领域中的应用，相当于一个预警系统的雏形。这个预警系统的作用，就是在机器学习算法得出错误预测结果之前codejock 16，提前发出警报。若要实现该功能，算法的运行效率至关重要；目前尚不清楚MPP算法是否能在机器学习算法产生错误预测之前发出警报；观察训练难度，MPP算法的复杂度可能与原有机器学习算法相仿；若MPP算法在速度上无法占据优势，那么它很难胜任预警器的角色。

第四点，关于如何挑选MPP算法的输入特征，文中并未进行深入探讨；只是简单列举了一些可能作为特征的数值。至于MPP算法究竟使用了哪些特征以获得理想效果，文中同样缺乏详细论述。

当然可以理解，鉴于文章性质为会议文献，篇幅受到一定限制，并且目前研究这一理念尚处于初步阶段，因此未能进行深入的探讨。若能有更多研究在上述四个方面展开分析，无疑将更加有利于对该项创新技术的全面理解。

论文 2：TonY：An for Jobs

此文档可通过该网址获取：https://arxiv.org/pdf/1904.01631.pdf，请点击链接进行查阅。

1）作者简介：

codejock 16_ MPP算法应用分析 _OpML2019 机器学习模型性能预测

作者群体均源自领英公司。这家公司是全球最大的职业社交网络，提供包括人脉拓展、职位匹配、信息发布等功能。领英汇聚了6.1亿用户，用户遍布全球200多个国家和地区。由此，其数据库规模庞大，数据处理难度较高，且必须采用并行计算技术。

2）文章背景介绍：

在过去的数十年里，随着网络数据的海量累积，计算机技术迈入了大数据时代。在这一时代，传统的大数据处理系统，诸如、Spark等，已经具备了处理PB级别数据的能力，并支持其在机器学习中的应用。公司的众多网站功能均依赖于机器学习算法的支撑，诸如好友推荐（您可能认识）、职位推荐（工作）、新闻资讯（新闻推送）以及学习建议（学习推荐）。这些算法所依托的数据量已累积至相当庞大的规模。简而言之，单一机器处理数据时，其计算能力受限于自身存储容量，因此单机难以完成 PB 级别的数据处理任务。为了进行大规模的数据训练，我们必须将数据分置于多台设备之中，实现并行处理。

众多机器学习框架均配备了支持并行计算的接口，然而，用户需在每台主机上分别复制程序代码、配置环境变量，并启动训练程序。这一繁琐的操作流程随之带来了一系列的挑战：

本文为了应对这些挑战和不足，特别研发了开源系统TonY，该系统是一个协调器，它能够与集群调度器进行交互，负责启动并管理分布式训练任务。

3）文章概述：

TonY（运行于YARN之上）是一款由特定团队研发的分布式机器学习任务调度器，它有效地解决了分布式计算过程中普遍存在的诸如资源分配不均、配置繁琐等难题。

4）文章详解：

TonY 架构：

TonY系统由两部分构成，一部分是用于向调度程序提交作业的客户端，另一部分是在调度程序内部运行的应用程序。用户通过客户端提交他们的机器学习项目，随后TonY的调度程序负责分配所需资源、配置设置，并采用分布式模式启动这些项目。客户端的接口设计为通用型，这使得用户能够将项目提交给多个不同的调度程序。无需用户对算法进行更新或向客户端推送代码，调度程序便能自主调整配置并完成资源重新分配。作为基础阶段的算法实施，本研究选用了YARN和分布式技术来运行本项任务，它们是业界广泛应用的数据处理手段。图一详细描绘了TonY程序的结构。

图 1: TonY 的架构

TonY 客户端：

TonY 提供的客户端是用于管理分布式机器学习项目的库，用户需将所需资源信息录入 XML 文件中，诸如参数服务器实例的数目、每个实例所需的内存大小以及 GPU 的数量。此外，用户还有权限调整基础调配程序的设置，指定机器学习程序的路径、镜像以及集群上运行的虚拟环境等。

TonY 集群应用：

TonY客户端会将用户输入的配置、程序以及虚拟环境打包，并提交给集群调度器处理。调度器会依据具体需求，配置相应的GPU或CPU容器。在这些容器中，任务执行器负责分配端口并与调度器进行交互。调度器在收集到所有任务执行器的信息后，会设定全局集群参数，并将这些参数发送给各个执行器。随后，调度器便开始执行任务。执行器负责监控任务执行情况，并在任务完成后向调度器提供反馈。在此期间，用户界面会将进展情况传达给用户。一旦任务出现故障，TonY系统将自动终止剩余任务，并对容器进行重置，恢复配置，并从故障点重新启动模型训练。

5）文章亮点：

6）分析师见解：

文章中并未提供代码的链接，因此对于算法的具体实现部分，我们无法进行过多的评价。然而，我们可以合理推测，由像那样的大企业所编写的代码应当是性能卓越的。至于这个系统在实际操作中的便利性，则需在推广之后，由广大用户的使用体验来给出反馈。

该系统目前正处于不断升级的状态，升级后的系统将具备搜集项目性能与资源使用效率数据的能力，并在用户界面中进行综合分析，进而提供优化性能和提升资源使用效率的配置建议。一旦此功能得以实现，我们有望看到更多用户开始采用TonY进行项目管理。不过，该调度系统能否实现商业化普及，还需依赖于更广泛的宣传以及性能的持续提升。

分析师简介：这位学者目前在剑桥大学攻读人工智能专业博士学位，其研究重点在于人工智能优化算法的突破。他是一位活跃在人工智能研究领域的探索者，始终怀揣着小队长的精神，对这个世界充满好奇，对人工智能抱有积极乐观的态度，并致力于与同仁们共同开拓这一充满活力的研究领域。

第一篇论文引用：

采用某种方法对……进行建模，并分析了……模型，该研究发表在2013年的第11期，卷号为53，页码为2837至2850。

Shen-Ho与Vovk共同为编写了相关内容，并由位于美国加利福尼亚州圣何塞的Inc.公司出版，出版日期为2014年的1月。

Lior，Shah，Yakov ，Drew以及Nisha共同撰写，题目为“ for ...”，该研究发表于arXiv预印本平台，编号为1902.02808，并于2019年发布。

Luca Oneto、Ghio、Parra以及Jorge L. Reyes-Ortiz共同撰写了一篇论文，该论文探讨了利用智能技术对人类进行研究的方案。该研究发表在2013年的 and ESANN会议上，具体页码为1至15页。

Yelp网站，访问链接为https://www.yelp.com/，成立于2013年。

Ronny与Barry共同研究，专注于UCI学习领域。他们的研究成果可参考以下链接：https://.ics.uci.edu/ml//+, 发表于1996年。

Jock A.，Denis J. Dean以及W. UCI，于1998年发布了相关内容。可访问链接：https:// .ics.uci.edu/ml//（http://.ics.uci.edu/ml//）。

David J. Slate，来自加州大学欧文分校（UCI），相关资料可访问其官方网站：https://ics.uci.edu/ml/，发布于1991年。

Singh所著的论文，发表在2016年的《V16》期刊上，涉及了相关领域的研究。

T. -. UCI 数据库，网址为 http://ics.uci.edu/ml/，发布于2011年。

K. Buza在2014年发表的论文中，针对博客、数据以及相关领域进行了深入研究，相关内容详见于第145至152页。

Luca Oneto、Ghio、Savio等人共同撰写，基于海军领域的相关研究，发表在《En-》期刊上，针对该主题进行了深入探讨，具体内容可参考文献编号（–（–）：–），发表于2014年。

T. Haile, H. S. 和 J. J. 研究了视频加载中的时间问题。该成果发表在2014年7月的《IEEE国际多媒体与 Expo（ICME）》会议上codejock 16，论文编号为1至6页。

如有侵权请联系删除！

TAGS：

上一篇：生物信息学数据分析成热点，这些常用分析软件值得关注

下一篇：sketch master 清明节邂逅春游季，iPad与Apple Pencil助你轻绘春日美景

返回列表

诚信、勤奋、创新、卓越

13262879759

行业动态

codejock 16 OpML 2019 即将举办，聚焦机器学习生产周期管理

联系我们