AWS年會|資料變AI語言 化作無邊數據海洋
原文刊於信報財經新聞「CEO AI⎹ EJ Tech」
在人工智能(AI)時代,雲端儲存海量數據,在科技界掀起巨浪。亞馬遜網絡服務(AWS)技術副總裁布科維奇(Mai-Lan Tomsen Bukovec)在re:Invent年會接受本報訪問,指資料世界已從一個個孤立的「資料湖」(Data Lake),進化成無邊無際的「資料海洋」(Data Ocean)。推動這場巨變的核心,正是AWS今年正式推出的S3 Vector功能,實現讓「每一筆資料都能被AI理解」。
S3 Vector大削向量化成本
現時居於北京的布科維奇,是企業AI領域15位頂尖人物之一,並榮登AI 100及Cloudverse 100榜。她用筆在白板介紹,向量(Vector)是AI的通用語言,任何圖片、影片、文件、表格,都能透過「嵌入模型」轉成向量,捕捉真正的語意。過去由於成本高昂,企業只能向量化不到0.1%資料。如今S3 Vector把成本削減最高90%,讓「把全部資料向量化」變得經濟可行。
布科維奇預言在未來18至24個月內,將出現數億個24小時運行的AI代理(AI Agent),它們不會睡覺休假,需要一個極大規模,且極便宜的資料底層。
針對AI生成資料污染,她嚴正警告,「千萬不要污染自己的資料海洋」,使用亞馬遜Bedrock平台時,會自動加上AI生成的標記。不用Bedrock的客戶,也應在Apache Iceberg的元數據(Metadata),或於Iceberg表格自行標記,確保資料血統乾淨。
倡標記生成內容 免污染素材
為方便存放8K影片與百億參數模型,布科維奇提到,S3單一物件上限從5TB提升到50TB。只有S3這種「超大規模+超低成本」的資料海洋,才能支撐AI代理時代的到來。關於AI泡沫論,她回應指AWS所有基建投資,完全跟隨客戶真實需求,背後超過50%的Bedrock運算,已跑在自研的Graviton晶片;S3底層也使用自研Nitro系統,強調效率而非盲目擴張。
相關文章:
支持EJ Tech
如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們。
















