Findings Poster Sat, Jun 6, 2026 • 6:30 AM – 8:00 AM PDT ExHall A 27

VoxFace: Streaming Audio-Visual Synthesis via Relay-Style Multi-Token Prediction for Interactive Conversation

Junwen Xiong, Chuanyue Li, Peng Zhang

Keywords: Humans: Face, Body, Pose, Gesture, Movement