⚡ News

SageMaker 特征存储升级:精细权限控制与 Iceberg 降本

SageMaker 特征存储升级:精细权限控制与 Iceberg 降本

Amazon SageMaker Feature Store 是一款专门构建的全托管机器学习(ML)特征库,旨在存储、共享和管理机器学习模型的特征。目前,该服务已支持 Apache Iceberg 表格式、流式导入、可扩展的批量导入,以及通过 AWS Lake Formation 实现的精细访问控制。

随着企业将机器学习平台从实验阶段扩展到生产环境,两个运营挑战随之而来。首先是在不增加繁琐手动操作的前提下,如何确保敏感特征数据的访问安全;其次是在高频流式工作负载产生海量 Apache Iceberg 元数据时,如何保持存储成本的可预测性。例如,某零售分析团队发现,其基于 Apache Iceberg 的离线特征存储在不到一年的时间里,就累积了超过 50 TB 的元数据文件,从而产生了高昂且超出预期的 Amazon S3 存储费用。与此同时,各行业的架构团队也表示,他们需要一种能在特征组创建时自动生效、由 Lake Formation 强制执行的访问控制,而不是事后进行重复的手动配置。

为了解决这些痛点,亚马逊云科技宣布在 SageMaker Python SDK v3.8.0 中推出三项全新功能:

第一,原生 AWS Lake Formation 集成:在特征组创建期间(或针对现有特征组)直接向 Lake Formation 注册离线存储,以强制执行列级、行级和细胞级的精细访问控制,无需任何手动的 Lake Formation 配置。

第二,新增 Apache Iceberg 表属性控制:在创建特征组或对现有特征组进行配置时,可自定义控制元数据保留和快照生命周期策略,防止元数据无序累积并显著降低存储成本。

第三,SageMaker Python SDK v3 对 Feature Store 的全面支持:现代化的 SDK v3.8.0 将全套 Feature Store 功能引入到了一个更模块化、更快速、更轻量级的包中。

要在您的环境中体验这些新功能,需要满足以下前提条件:拥有创建 Amazon SageMaker AI 资源的 AWS 账户权限;拥有可访问 Amazon S3、AWS Glue 和 AWS Lake Formation 的 SageMaker AI 执行角色;安装 SageMaker Python SDK v3.8.0 或更高版本(可使用命令 pip install --upgrade "sagemaker>=3.8.0" 进行升级);若要使用 Lake Formation 集成,账户中需至少配置一名 Data Lake 管理员,Feature Store 会在激活访问控制前进行验证。

【AgentUpdate 深度解析】在当前 AI Agent 向多模态、长期记忆和自主决策演进的过程中,“特征(Feature)”不仅是传统机器学习的输入,更是 AI Agent 进行上下文检索、实时状态感知和个性化记忆提取的核心底座。然而,企业级 Agent 的落地一直面临着“安全合规”与“存储成本”的双重掣肘。SageMaker Feature Store 此次升级原生集成 AWS Lake Formation,提供了行/列/细胞级别的超细粒度访问控制,为构建具备严格安全边界、支持多租户隔离的 Enterprise Agent 扫清了数据合规障碍。同时,针对 Apache Iceberg 元数据积压的降本优化,直接锁定了大规模实时 Agent 系统在长期运行中高额的 S3 隐性账单。随着 Agent 逐步从实验走向万级并发的生产环境,这种将安全和成本治理内聚到 Feature Store 基础设施层面的设计,将成为推动 Agent 生态走向成熟的必然范式。

↗ 阅读原文