Scaling Pre-training to One Hundred Billion Data for Vision Language Models

Xiao Wang, Ibrahim Alabdulmohsin, Daniel Salz, Zhe Li, Keran Rong, Xiaohua Zhai

Keywords: Multimodal Learning