多模態(tài)圖片檢索是計(jì)算機(jī)視覺和多模態(tài)機(jī)器學(xué)習(xí)領(lǐng)域很重要的一個(gè)任務(wù)。現(xiàn)在大家做多模態(tài)圖片檢索一般會(huì)用 CLIP/SigLIP 這種視覺語(yǔ)言大模型,因?yàn)樗麄兘?jīng)過了大規(guī)模的預(yù)訓(xùn)練,所以 zero-shot 的能力比較強(qiáng)。
牛津 VGG ,港大,上交大團(tuán)隊(duì)這篇論文旨在提供一種方法,能夠用學(xué)術(shù)界的資源來增強(qiáng)視覺語(yǔ)言大模型的預(yù)訓(xùn)練 (Enhance Language-Image Pre-training),使得其可以更好地用于文字 - 圖片檢索。這篇論文被 IEEE 國(guó)際基于內(nèi)容的多媒體索引大會(huì)(IEEE International Conference on Content-Based Multimedia Indexing)接受,并被評(píng)選為最佳論文提名,大會(huì)近期在愛爾蘭都柏林召開。
