Netflix 推出“模型生命周期图”,扩展企业级机器学习

Netflix 概述了一种用于管理企业级机器学习系统的、基于图的架构,并阐述了其内部的“模型生命周期图”如何映射数据集、模型、特征、评估、工作流和生产系统之间的关系。随着机器学习系统互联程度的日益提高,这种方法符合行业的广泛发展趋势——转向以元数据为中心的机器学习平台,可以提升可发现性、治理能力和复用性。

在最近的一篇工程博文中,Netflix 的工程师们描述了当组织在多个团队中积累了大量数据集、特征、管道、实验和已经部署的模型后,传统的机器学习工具将变得越来越难以管理。该公司认为,在规模化运行时,了解模型的来源、其所依赖的上游数据集,以及变更在下游系统中的传播方式,已经成为一项重大的运维挑战。Netflix 提出的解决方案是一个面向图的系统,它将机器学习资产及其关系视为首要的基础设施关注点。

Netflix 推出“模型生命周期图”,扩展企业级机器学习

图片来源:Netflix

模型生命周期图将机器学习实体表示为相互连接的节点和关系,而不是孤立的管道阶段。据 Netflix 介绍,这些图模型能够建模数据集、特征、模型、评估、工作流和生产服务之间的依赖关系,使工程师能够追溯血统关系,更好地理解变更对运营的影响。该系统还旨在提高可发现性,使团队能够定位可重用的机器学习资产,检查模型在整个组织中的构建和使用情况。

Netflix 推出“模型生命周期图”,扩展企业级机器学习

图片来源:Netflix

Netflix 工程师认为,图结构特别适合机器学习系统建模,因为机器学习资产很少是孤立存在的。一个模型可能依赖于多个数据集、衍生特征、评估工作流以及下游生产服务,而这些要素都会随着时间的推移独立演变。与传统上面向管道的机器学习基础设施视图相比,将这些关系表示为可遍历的图连接,能让团队更有效地进行影响分析、血统链检查和可复用组件的识别。

在内部, Netflix 将该架构视推动机器学习“普惠化”这一更广泛举措的一部分。该公司表示,与其将机器学习知识集中在专业平台团队手中,该图结构能够实现一种更自主的服务模式,让工程师和数据科学家能够独立发现数据集、理解依赖关系并复用现有组件。该博文指出,此举既能减少重复工作,又能提高所有权、治理及运营背景的透明度。

该架构反映了业界向以元数据为中心的机器学习和数据平台发展的趋势。类似的概念已经出现在诸如 LinkedIn DataHub 这样的系统中——该系统将数据集、数据管道和所有权元数据之间的关系建模为图结构——以及聚焦数据血统的项目中,例如 OpenLineage。随着机器学习部署在整个组织内的扩展,Uber 的 Michelangelo ML 平台也强调了集中式生命周期管理、特征复用和可重现性。

这种方法也与 Spotify Backstage 等内部开发门户体现出来的发展趋势相类似。在这些平台上,工程团队越来越多地采用基于图的表示方法来建模服务、基础设施、所有权以及运维元数据之间的关系。

尽管许多近期的 AI 工作流强调快速实验、自主工具和轻量级协调,但 Netflix 的“模型生命周期图”却将重点放在了可追溯性、依赖关系映射和组织级可视化上。这种设计表明,随着机器学习系统日益深入地嵌入到企业软件栈的各个层面,组织可能会越来越多地将元数据、血统追踪和生命周期治理视为核心的架构要求,而非次要的运营关注点。