Findings Poster Sun, Jun 7, 2026 • 6:30 AM – 8:00 AM PDT ExHall A 278

MASS: Motion-Aware Spatial–temporal Grounding for Physics Reasoning and Comprehension in Vision-Language Models

Xiyang Wu, Zongxia Li, Jihui Jin, Gouthaman KV, Vishnu Raj, Nilotpal Sinha, Jingxi Chen, Fan Du, Dinesh Manocha

Keywords: Vision, Language, and Reasoning