Don't Miss
DeepSeek新光學技術|有效壓縮長文本
By 信報財經新聞 on October 24, 2025
原文刊於信報財經新聞「CEO AI⎹ EJ Tech」
內地科企深度求索(DeepSeek,DS)日前發布最新研究成果,開源旗下一項光學字符識別(OCR)技術,但它實際是「醉翁之意不在酒」,非但希望協助處理文件,更是打算探索如何突破人工智能(AI)記憶樽頸。
OCR減少使用詞元
OCR指讓電腦把掃描圖檔的影像,轉回可以進行編輯的文字格式。傳統OCR主要依託不同的模組,分階段進行預處理、檢測、辨識、後處理等任務。
到近年OCR開始AI化,改用視覺語言模型(VLM)合併處理,但若文件太長或版面太複雜,VLM需理解大量上下文關聯,導致耗費詞元(Token),時間大增。
為克服此難題,DeepSeek研發兩項解碼器:一是負責視覺特徵提取與壓縮的DeepEncoder,可以有效控制記憶體和詞元壓縮;二是提供文本重建的DeepSeek3B專家模型,推理時啟用5.7億參數,就能得到30億參數規模的表達能力。OmniDocBench基準測試中,DeepSeek模型明顯節省更多Token。
更重要的是,DeepSeek提出開創性的「上下文光學壓縮」(COC)方案,旨在利用OCR技術,解決大型語言模型(LLM)處理長文本的運算負擔。當中模擬人類記憶的遺忘機制,透過多層次壓縮來減少Token用量,首先把文本渲染為視覺資訊,並且依照進程逐步縮小,需要時才解壓還原。
實驗顯示,DeepSeek方案於不同壓縮規模下,可達致6.7倍至19.7倍的壓縮比率,而準確度則介乎59.1%到98.5%之間,證明模型大致仍能理解還原文本,也讓外界普遍對COC前景抱有正面期望。
支持EJ Tech
如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們。



















