大數據變革在數據本身(車品覺)
大數據公司最大的痛苦是什麼?不是沒有數據,而是有太多數據。各種各樣包括結構性和非結構性的數據從四面八方而來,但哪些有用?如何挑選?才是最難。
有一次,我在美國碰巧遇到谷歌的前數據部門主管,他跟我說了一件他覺得很痛苦的事:提出數據需求的人,往往70%的情況並沒有使用所獲提供的數據。他為此非常生氣,便質問業務方:「為什麼你們老問我要數據,結果卻不用?」業務方回答:「是的,因為我用了之後才知道這些數據沒有用。」對於一個每天都要準備數據的人來說,這好比你是一家餐廳的老闆,廚師每天為你準備很多菜卻只用一小部分材料。所以,我從事大數據行業一直有個夢想:如果有一天可以把數據的處理自動化,該多好!
創新方法自動清洗準備
說起數據處理的自動化,不得不提一家在數據領域有突破創新的公司Paxata,它是美國少有接地氣的自助型數據開發 (data preparation)平台。這家公司的專注領域令人興奮,因為目前市場上幾乎所有的數據分析,包括BI軟件和創新都聚焦在解決數據分析的算法、視覺化、模型等等的自動化,卻忽略了一個事實:現實工作中,數據科學家和分析師首先需要花費80%、甚至更多的時間在數據清洗和準備。Paxata採用機器學習的創新方法解決data preparation。其功能如下:
一、讀取數據:讀取任何形式的數據,自動解析和識別數據的類型及數據的意義;
二、數據探索:通過人機交互的形式,幫助用戶主動發現數據質量問題。比如提供全文搜尋、數據品質熱力圖、發現規律,來發現數據中的錯誤、重複、稀疏、缺失等問題;
三、數據清洗和修改:Paxata平台的核心是語義融合和機器學習引擎。該引擎基於算法智能識別並進行數據變換以改善數據;
除了上述功能,Paxata還能夠通過人機交互的形式完成數據合併、發布、改進、分享、安全控制等數據準備的所有環節。其中一個有趣的功能是數據富集(data enrichment),能基於第三方數據庫建議用戶增加更多的變量以提升挖掘價值,並自動完成數據的轉化。他山之石可以攻玉,同類公司所關注的變量及挖掘路徑可以互相借鑑。
今天大數據之所以說起來容易、做起來難,主要是因為兩個問題,其一是數據的易用性,其二是數據處理的成本。因此,底層數據處理的自動化將愈加重要。我們需要將使用數據的經驗數據化,並把這些經驗轉化為其他公司對自己數據的理解和使用能力。
或許在不久的將來,我們就會發現只要我們對某一領域使用數據的經驗有足夠的沉澱,哪怕給我一堆毫無關係的數據,我也能根據數據經驗庫,告訴你我從中看到了什麼。世界日新月異,變化之快令人咋舌,我們數據人也只有不斷顛覆自己使用數據的能力,才能找出大數據未來的方向。
更多車品覺文章:
支持EJ Tech
如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們。
Related Posts
Latest News
-
AI圖像辨識革命(林國誠)
近年來,人工智能(AI)快速進步持續改變我們的生活方式,其中最新突破來自OpenAI的o3模型。這款全新模型引入圖像分析能力,尤其是「看圖辨位」功能的推出,瞬間成為科技界焦點。
- Posted May 2, 2025
- 0
-
新發明|世界幣在美國加快支付應用
由美企OpenAI行政總裁阿爾特曼(Sam Altman)共同創立的科技公司Tools for Humanity,周五於美國三藩市舉行At Last發布會,首次介紹流動掃描裝置Orb Mini,其外形恍如一部智能手機,正面有兩個大型傳感器,用於讀取用戶眼球數據,旨在區分人類及人工智能(AI)代理。
- Posted May 2, 2025
- 0
-
AI大戰|Perplexity登陸WhatsApp 香港可用
美國人工智能(AI)初創Perplexity宣布,旗下聊天機械人登陸即時通訊軟件WhatsApp。該公司聯合創辦人兼行政總裁斯里尼瓦斯(Aravind Srinivas)在社交媒體X表示,「現在你可直接從WhatsApp使用Perplexity。答案、來源、影像生成。更多功能即將推出!」
- Posted May 2, 2025
- 0
-
打牌機械人|內地機械人懂思考識打麻將
內地靈初智能科技公司(PsiBot)展示一款機械人,利用自主研發的分層端對端VLA+強化學習演算法模型Psi-R1,結合類人推理方式與強化學習框架,實現超過30分鐘的CoAT(Chain of Action Thought)思維系統,驗證三重複合交互能力,即人機交互、機機交互、機環境交互,能夠即場自主思考,出牌、碰牌及自摸食糊。
- Posted May 2, 2025
- 0
-
o3及o4-mini現「幻覺」頻率飆
ChatGPT開發商OpenAI早前推出新一代人工智能(AI)大型語言模型(LLM)o3及o4-mini,在編程、數學推理等任務表現卓越,被稱為該企至今最強模型。
- Posted May 2, 2025
- 0
-
朱克伯格料AGI願景 智能爆發將降臨
Meta行政總裁朱克伯格在一小時的訪問提到,所有在行業領先的人工智能(AI)實驗室,包括 Meta、Anthropic及OpenAI等,都在追求AGI或超級智能(Superintelligence),從而讓每人都能擁有超人能力的工具,帶來巨大的經濟及社會效益。
- Posted May 2, 2025
- 0
-
智能交通新紀元(湛家揚博士)
在上篇文章中,我們探討了人工智能(AI)如何重塑產業與日常生活,並走訪騰訊(00700)、華為、百度(09888)等,見證這些科技巨頭在遊戲開發、智慧城市建設、AI技術及數據應用等創新突破。
- Posted May 2, 2025
- 0