2025年,当生成式AI和智能体AI席卷全球时,数据基础设施正在经历一场“悄然变革”。在RE:Invent网站上,网易科技等与Mai-Lan Tomsen Bukovec进行了深入对话。他是亚马逊云技术公司的技术副总裁,负责监督数据和分析业务。麦兰的判断清晰而直接。数据世界正在从“数据湖”走向“数据海”,真正决定人工智能上限的不再只是计算能力,而是所有数据是否都能以可承受的成本进行矢量化、理解和使用。他领导专注于 Amazon S3 产品的全球技术和服务团队。资料显示,Amazon S3(简单存储服务)是亚马逊云技术提供的对象存储服务。 Mrit 用于在云中以几乎无限可扩展的方式存储和访问各种数据。它是世界上使用最广泛的数据存储基础设施之一。在谈话一开始,麦兰就提到了一个形象的比喻——“数据海”。他表示,索尼在今年的会议上提出这个概念,是因为其业务长期以来都是基于数据的。从游戏到娱乐,所有行业都充斥着数据。事实上,如果你想追溯传统数据存储的演变。第一个是日志、图片、视频、PDF等非结构化数据,这也是最初的Amazon S3标准场景。大约五年前,表格数据快速增长,客户开始在对象存储之上构建集成的数据湖和数据仓库。此时,亚马逊云技术推出了Amazon S3表,使其兼容各种Iceberg分析引擎。在亚马逊的云技术体系中,iceberg已经成为S3数据湖事实上的标准表格式,广泛应用于仓湖集成、实时分析、AI数据管道等领域。在麦兰看来,这就是“数据湖开发”的过程。“数据海洋”:各种结构化、半结构化、非结构化数据统一沉积在同一个底层,通过表结构和管理能力逐步“重组”。真正将数据海洋推向新阶段的是向量化。“向量是AI的语言。”麦兰强调,通过嵌入模型,源数据如果是表格、日志、PDF,都可以转换成向量。此时,引擎不再只看数据据介绍,亚马逊云技术推出的矢量存储可以在单个索引中容纳2亿个矢量;单个“矢量存储桶”可以支持数十万亿维的矢量级数据;可以在数百毫秒的响应时间内完成语义检索和混合搜索;与使用系列的专业矢量数据库相比,成本可以节省90%。客户案例来说明这一变化的价值。他告诉网易科技,宝马集团拥有20pb级的数据链路,涵盖制造、工程、销售等数据类型。使用将向量与 SQL 过滤相结合的混合搜索,他们可以提出以前在结构化表和文档中无法想象的问题,例如“找出上个月某个模型的某个部分发生了什么”。再比如,社交和内容公司Mixi希望为所有用户的照片建立语义索引,让用户可以直接询问:“帮我找到我儿子和女儿的照片”,并进一步触发个性化打印推荐。过去,此类场景只能依靠人工标注。现在,可以通过向量在图像内容的尺度上进行相似性提取。麦兰认为,这些案例背后的本质是这些向量首次赋予企业将“所有历史资产”带入的能力。AI 视觉而不是“精选的几个数据集”。然而,让数据“可见”只是第一步。如何让每个人都“买得起”?麦兰进一步介绍,亚马逊云技术在Amazon S3中实现的智能分层(intelligent-tiering)本质上是“自动成本优化”,即如果某类数据在30天内没有被访问,价格就会自动降低;如果90天内没有访问,价格将进一步降低;客户无需手动迁移“冷数据”,只需将存储类别设置为智能分层即可。他透露,自 2019 年以来,这一机制已自动为客户节省了超过 60 亿美元的存储成本。从更长远的角度来看,麦兰认为,当数以百万计的智能体24/7运行时,真正的瓶颈不是模型,而是能否为它们提供低成本、可扩展、长期记忆的超大规模数据层。这就是“数据“海上基地”以及他和他的团队所探索的方向。(作者/鼎西)本文来自网易科技报道,更多资讯和深度内容请关注我们。