獨家直擊|AWS同步研發晶片軟件 加快迭代 獨家直擊得州實驗室 逐一測試台積電矽晶圓
原文刊於信報財經新聞「CEO AI⎹ EJ Tech」
數據中心算力離不開晶片,亞馬遜(Amazon)旗下安納普爾納實驗室(Annapurna Labs),專門為亞馬遜網絡服務(AWS)設計各款自家晶片,本報獲邀為本港媒體獨家參觀奧斯汀這座實驗室,見證各種晶片開發過程;而實驗室成功秘訣,在於設計晶片時同步開發軟件,加快迭代。
安納普爾納實驗室於2011年成立,名稱源自喜馬拉雅山脈第十高峰「安納普爾納峰」,公司在2015年獲亞馬遜收購。據本報記者現場所見,實驗室由多個工作站組成,工程師身邊布滿線纜,利用工具組裝電路板,以專用顯微鏡觀察晶片組件,為晶片、伺服器等各層級測試。
實驗室負責人克里斯多福金(Kristopher King)介紹,當製造商台積電送來首批矽晶圓後,員工將逐一測試每顆裸晶(Die),確保運作後才開始量產及封裝。同時,團隊也會做失效分析、反覆測試、實驗及偵錯。他把晶片與記憶體比喻為兩座城市,所謂「訊號完整性」(Signal Integrity)測試,就是在檢查兩座城市間的道路品質,例如沿途有否坑洞、雙線還是四線行車等。
特製防震桌 保護測量過程
克里斯多福金續稱,客製化晶片投入全量產之前,通常不需要極多次的實體晶片迭代。因為團隊在設計初期,就使用Synopsis等電子設計自動化(EDA)工具,採取大量的軟件模型模擬。實驗室測試目的是,必須確保裸晶運作正常,才會放入昂貴的封裝中。裸晶封裝後再有一輪測試,確認封裝與裸晶結合後,能否共同正常運作,之後才移入伺服器系統運作。
由於晶片接腳間距極小,即使大樓或牆壁有微小震動,都會干擾測量過程。為此,團隊度身設計一張防震保護桌,自此才能成功量測數值。若要在封裝上,使用微探針(Microprobes)對準微小金屬點,必須透過顯微鏡,極之小心地手動調整旋鈕。光是設定就要花上半天;且微探針極其昂貴,一旦弄壞就報銷。工程師在工作站一側,以顯微鏡對電路板人手焊接,在偵錯過程改變線路或外接導線。
AI自動化編程 供人員審查
另外,晶片會被施加極端的電力負載,稱為電力錘(Power Hammer),以觀察晶片在極限負載的反應與穩定性。同時,研究人員利用人工智能(AI)模型,自動化編程設計與測試,例如在開發環境工具Kiro輸入規格後,再調用自家後台的Trainium晶片算力,自動編寫程式及協助測試晶片。工具運行後,工程師會審查內部訊號變化,偵錯與微調後,再交由Kiro重新生成,迭代循環更加高效。
在實驗室另一個角落,擺放多部伺服器滑板機架(Sleds)。有別於記憶體及Nitro卡維持氣冷,核心運算晶片發熱量極大,故採用液體冷卻設計。總括而言,實驗室的成功秘訣,除了擁有一群熱情工程師,也在於系統優先的思維模式,即是首先設計整個系統,同時結合垂直整合流程。克里斯多福金指出,在設計晶片時,也同步開發軟件,目標是快速迭代、及早發現問題,並加以改進。
採訪、撰文、攝影:邱敏聰.美國得州奧斯汀
人工智能必讀好書

書名:Unchecked AI: The Looming Dangers Of A World Outpaced by Technology
作者:A Litchford Jones
簡介:在科技進步的靜謐時刻,人類正站在變革的懸崖邊。本書不僅是對人工智能的學術探索,更是一次警告及警醒。
支持EJ Tech
如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們。























