蘋果正在研發名為Manzano的新圖像模型,旨在兼具圖像理解和圖像生成能力。目前Manzano尚未發布,僅有一篇預印本論文和部分低分辨率圖像樣例。蘋果表示,大多數開源模型在圖像處理上存在取舍,而Manzano采用混合圖像分詞器,其共享編碼器可輸出連續標記和離散標記,減少任務沖突。Manzano整體架構包括混合分詞器、統一語言模型和獨立圖像解碼器,解碼器有三個版本,支持不同分辨率。訓練使用大量圖像文本樣本,內部測試顯示其在文字密集型任務中表現優異,性能隨規模提升而改善。蘋果認為Manzano是有力替代方案,但目前其基礎模型仍落后于行業領先者,未來版本需進一步驗證。