大語言模型(LLM)不僅在推動(dòng)通用自然語言處理方面發(fā)揮了關(guān)鍵作用,更重要的是,它們已成為支撐多種下游應(yīng)用如推薦、分類和檢索的核心引擎。盡管 LLM 具有廣泛的適用性,但在下游任務(wù)中高效部署仍面臨重大挑戰(zhàn)。隨著模型規(guī)模的急劇擴(kuò)大,這些挑戰(zhàn)被進(jìn)一步放大,尤其是在資源受限的設(shè)備上(如智能手機(jī)),內(nèi)存占用和計(jì)算開銷都變得極其昂貴。
為應(yīng)對(duì)這些問題,近期研究提出了極低比特(extreme low-bit)LLM,例如使用 1.58 比特(即三值 {-1, 0, 1})表示的 BitNet。這種方法旨在顯著降低內(nèi)存占用并加速推理,從而為 LLM 在下游應(yīng)用中的高效部署提供一條可行途徑。
然而,要讓 1.58 比特的 BitNet 在下游任務(wù)中達(dá)到與高精度模型相媲美的準(zhǔn)確率,通常需要從零開始在大規(guī)模語料上進(jìn)行預(yù)訓(xùn)練,這會(huì)帶來巨大的計(jì)算和能耗成本。
如圖 1 所示,直接對(duì)已有的全精度 LLM 進(jìn)行 1.58 比特量化感知訓(xùn)練(Quantization-Aware Training, QAT)時(shí),在特定下游任務(wù)上的訓(xùn)練過程往往不穩(wěn)定,難以保持原有的性能,并表現(xiàn)出較差的可擴(kuò)展性:當(dāng)模型規(guī)模從 0.6B 增大到 4B 時(shí),相對(duì)于全精度基線的性能差距從 13.9 擴(kuò)大到 15.3。

這一現(xiàn)象凸顯出:迫切需要專門為 1.58 比特 BitNet 設(shè)計(jì)的更有效的量化感知訓(xùn)練方法。
在本研究中,來自微軟的研究者聚焦于將已有的 LLM 微調(diào)至 1.58 比特以適配特定下游任務(wù),同時(shí)保持與全精度模型相當(dāng)?shù)男阅堋榇耍疚奶岢隽?BitDistill(BitNet Distillation)—— 一種具備良好可擴(kuò)展性的量化感知訓(xùn)練(QAT)框架,旨在彌合極端 1.58 比特量化與實(shí)際部署之間的性能差距。
在四個(gè)基準(zhǔn)任務(wù)及多種模型規(guī)模上的大量實(shí)驗(yàn)表明,BitDistill 具有出色的可擴(kuò)展性,其下游任務(wù)性能可與全精度基線持平。同時(shí),如圖 1 所示,BitDistill 在 CPU 上實(shí)現(xiàn)了 10 倍的內(nèi)存節(jié)省和 2.65 倍的推理加速,顯著改善了延遲、吞吐量、內(nèi)存效率和能耗,使其特別適合部署在資源受限的硬件平臺(tái)上。