Don't Miss

大數據變革在數據本身（車品覺）

By StartupBeat on May 27, 2015

本文作者車品覺，為阿里巴巴集團副總裁、數據委員會會長、中國計算數學學會理事，為《信報》撰寫專欄「全民大數據」

大數據公司最大的痛苦是什麼？不是沒有數據，而是有太多數據。各種各樣包括結構性和非結構性的數據從四面八方而來，但哪些有用？如何挑選？才是最難。

有一次，我在美國碰巧遇到谷歌的前數據部門主管，他跟我說了一件他覺得很痛苦的事：提出數據需求的人，往往70%的情況並沒有使用所獲提供的數據。他為此非常生氣，便質問業務方：「為什麼你們老問我要數據，結果卻不用？」業務方回答：「是的，因為我用了之後才知道這些數據沒有用。」對於一個每天都要準備數據的人來說，這好比你是一家餐廳的老闆，廚師每天為你準備很多菜卻只用一小部分材料。所以，我從事大數據行業一直有個夢想：如果有一天可以把數據的處理自動化，該多好！

創新方法自動清洗準備

說起數據處理的自動化，不得不提一家在數據領域有突破創新的公司Paxata，它是美國少有接地氣的自助型數據開發（data preparation）平台。這家公司的專注領域令人興奮，因為目前市場上幾乎所有的數據分析，包括BI軟件和創新都聚焦在解決數據分析的算法、視覺化、模型等等的自動化，卻忽略了一個事實：現實工作中，數據科學家和分析師首先需要花費80%、甚至更多的時間在數據清洗和準備。Paxata採用機器學習的創新方法解決data preparation。其功能如下：

一、讀取數據：讀取任何形式的數據，自動解析和識別數據的類型及數據的意義；

二、數據探索：通過人機交互的形式，幫助用戶主動發現數據質量問題。比如提供全文搜尋、數據品質熱力圖、發現規律，來發現數據中的錯誤、重複、稀疏、缺失等問題；

三、數據清洗和修改：Paxata平台的核心是語義融合和機器學習引擎。該引擎基於算法智能識別並進行數據變換以改善數據；

除了上述功能，Paxata還能夠通過人機交互的形式完成數據合併、發布、改進、分享、安全控制等數據準備的所有環節。其中一個有趣的功能是數據富集（data enrichment），能基於第三方數據庫建議用戶增加更多的變量以提升挖掘價值，並自動完成數據的轉化。他山之石可以攻玉，同類公司所關注的變量及挖掘路徑可以互相借鑑。

Paxata採用機器學習的創新方法解決data preparation（官網截圖）

今天大數據之所以說起來容易、做起來難，主要是因為兩個問題，其一是數據的易用性，其二是數據處理的成本。因此，底層數據處理的自動化將愈加重要。我們需要將使用數據的經驗數據化，並把這些經驗轉化為其他公司對自己數據的理解和使用能力。

或許在不久的將來，我們就會發現只要我們對某一領域使用數據的經驗有足夠的沉澱，哪怕給我一堆毫無關係的數據，我也能根據數據經驗庫，告訴你我從中看到了什麼。世界日新月異，變化之快令人咋舌，我們數據人也只有不斷顛覆自己使用數據的能力，才能找出大數據未來的方向。

支持EJ Tech

如欲投稿、報料，發布新聞稿或採訪通知，按這裏聯絡我們。

featureslider 大數據

Tweet

Pin It

Related Posts

數碼港ABC中心｜助企業智能轉型一站式平台涵蓋AI大數據網安

數碼港ABC中心｜助企業智能轉型一站式平台涵蓋AI大數據網安

浪潮卓數｜大數據轉型重標註可供訓練

浪潮卓數｜大數據轉型重標註可供訓練

新加坡智慧國重視人文精神（鄧淑明博士）

新加坡智慧國重視人文精神（鄧淑明博士）

Assembly｜AI客製化廣告助精準營銷 Assembly藉大數據命中目標客

Assembly｜AI客製化廣告助精準營銷 Assembly藉大數據命中目標客

Latest News

「龍蝦」網安風險啟示（鄧淑明博士）
早前拜讀《信報》高天佑專欄〈龍蝦搭雞棚泛濫釀成災〉一文，其中提到「現時很多熱烈『養龍蝦』的民眾，全情投入趕潮流，卻未必具備足夠的專業知識及保安意識」，筆者對此深有同感，更認為這正是個災難預警。

Posted April 2, 2026

0

AI眼鏡｜Meta推AI近視眼鏡 3892元起
Facebook母公司Meta推出首款有近視度數的人工智能（AI）智能眼鏡，名為Ray-Ban Meta Blayzer Optics（Gen 2）及Ray-Ban Meta Scriber Optics（Gen 2），現已在網站開放預購，入場價499美元（約3892港元）起。

Posted April 2, 2026

0

Gmail改名｜谷歌准美Gmail用戶改賬號
谷歌（Google）電郵服務Gmail面世22周年，相信不少人在註冊時錯用名稱，即使後悔莫及，卻不得繼續不使用。

Posted April 2, 2026

0

OpenClaw｜內地預警「龍蝦」代申專利風險
國家知識產權局的政務微信公眾賬號，日前發布《關於使用OpenClaw等智能體撰寫專利申請文件的風險提示》，指出人工智能代理（AI Agent，或稱智能體）工具容易引發的嚴重安全風險。

Posted April 2, 2026

0

量子危機｜量子電腦9分鐘破解虛幣鑰匙
美國科技巨擘谷歌（Google）日前發布技術白皮書，探討量子技術進展如何威脅加密貨幣安全。

Posted April 2, 2026

0

Claude Code洩代碼｜核心功能遭「換殼」難以究責
Claude Code內部程式碼意外洩出，整個開發者圈子徹底沸騰。Claude開發商Anthropic試圖透過美國《數碼千禧年版權法》投訴，希望封死所有外洩的Claude源碼倉庫。

Posted April 2, 2026

0

Claude Code洩代碼｜自爆運作細節未發布模型曝光 Anthropic上市前重創
美國人工智能（AI）科企Anthropic在愚人節前夕爆出人為失誤，洩漏終端機代理工具Claude Code的內部AI程式碼。

Posted April 2, 2026

0

POPULAR POSTS

AI用途調查｜美民眾僅13%放心坐自駕的士

 戴智能眼鏡上庭礙司法公正（郝本尼）

科技的錯｜人臉識別出錯美婦枉囚半年

 Claude Code洩代碼｜自爆運作細節未發布模型曝光 Anthropic上市前重創

 AI眼鏡｜Meta推AI近視眼鏡 3892元起

 馬斯克「痛苦」預言時代試煉（方保僑）

半年速成AI工程師｜入行年薪百萬 20歲科企CEO教路每月自學進程

 Agent Smith｜谷歌版「龍蝦」內部測試大熱

 AI趨勢｜美八成民眾不願AI當上司

 Gmail改名｜谷歌准美Gmail用戶改賬號

成為 EJ Tech 會員

接收最新創科資訊

Click here to unsubscribe

大數據變革在數據本身（車品覺）

創新方法自動清洗準備

更多車品覺文章：

支持EJ Tech

Related Posts

Latest News

POPULAR POSTS

成為 EJ Tech 會員