10月21日消息,據媒體報道,DeepSeek在GitHub上開源了其最新研究成果——DeepSeek-OCR模型。
據介紹,DeepSeek-OCR的參數量約為3B,是研究團隊對“光學二維映射壓縮”技術在長文本上下文處理中可行性的首次探索。

該模型核心由DeepEncoder與DeepSeek3B-MoE-A570M解碼器構成:DeepEncoder能夠在高分辨率輸入條件下保持低激活狀態,實現高壓縮比并生成適量的視覺token;解碼器則負責將這些視覺token準確轉化為文本信息。
實驗數據顯示,當文本token數量控制在視覺token的10倍以內(壓縮率<10 x )時,OCR識別精度可達97%;即使壓縮率提升至20×,模型準確率仍能維持在60%左右。
研究團隊表示,這一成果為長上下文壓縮技術以及大語言模型的記憶與遺忘機制研究提供了新的思路與方向。