⚡ News

亚马逊 SageMaker Feature Store 升级:支持 Lake Formation 与 Iceberg 自动治理

亚马逊 SageMaker Feature Store 升级:支持 Lake Formation 与 Iceberg 自动治理

Amazon SageMaker Feature Store 是一个全托管、专门构建的存储库,用于存储、共享和管理机器学习(ML)模型的特征。目前,该服务已支持 Apache Iceberg 表格式、流式摄取、可扩展的批量摄取,以及通过 AWS Lake Formation 实现的细粒度访问控制。

随着组织将机器学习平台从实验阶段扩展到生产阶段,两个运营挑战凸显出来。首先是在不为每个新特征组引入手动开销的情况下,确保对敏感特征数据的访问安全。其次是当高频流式工作负载产生不断增长的 Apache Iceberg 元数据量时,如何保持存储成本的可预测性。例如,某零售分析团队发现,其基于 Apache Iceberg 的离线存储在不到一年的时间内积累了超过 50 TB 的元数据文件,导致了巨额且意外的 Amazon S3 费用。同时,各行业的架构团队反馈,他们需要在创建特征组时自动强制执行 Lake Formation 的访问控制,而不是作为事后需要重复手动配置的任务。

今天,我们宣布在 SageMaker Python SDK v3.8.0 中推出三项新功能来应对这些挑战:

1. **原生 AWS Lake Formation 集成**:在创建特征组期间或为现有特征组将离线存储注册到 Lake Formation,以强制执行列级、行级和单元格级访问控制。无需手动进行 Lake Formation 设置。

2. **新增 Apache Iceberg 表属性**:在创建特征组或在现有特征组上控制元数据保留和快照生命周期策略,以防止元数据堆积并降低存储成本。

3. **SageMaker Python SDK v3 支持**:现代化的 SDK v3.8.0 将全套 Feature Store 功能(包括这些新特性)整合到一个模块化、更快、更轻量级的包中。

若要体验这些功能,您需要具备具备创建 SageMaker 资源权限的 AWS 账户,拥有 S3、Glue 和 Lake Formation 访问权限的执行角色,并安装 SageMaker Python SDK v3.8.0 或更高版本(pip install --upgrade "sagemaker>=3.8.0")。对于 Lake Formation 集成,账户中需至少配置一名数据湖管理员。

↗ 阅读原文