Findings Poster Sun, Jun 7, 2026 • 6:30 AM – 8:00 AM PDT ExHall A 269

DocSLM: A Small Vision-Language Model for Long Multimodal Document Understanding

Tanveer Hannan, Dimitrios Mallios, Parth Pathak, Faegheh Sardari, Thomas Seidl, Gedas Bertasius, Mohsen Fayyaz, Sunando Sengupta

Keywords: Vision, Language, and Reasoning