CVPR 2026 Sunday 06/7

Timezone: America/Denver

Full Schedule Wed 6/3 Thu 6/4 Fri 6/5 Sat 6/6 Sun 6/7

Poster

Findings Poster Session 3

7:30 AM - 9:00 AM

318 Events in this session

Advancing Open-Set Detection and Segmentation via Disentangled Representations

Haokang Zhang, Yuchen Guan, Runxi Cheng, Yujiu Yang

Disrupting Positional Encoding for Effective Open Set Recognition

Yu Wang, Jiabo Xie, Yucan Zhou, Junxian Mu, Qinghua Hu, Pengfei Zhu

ODOV: Benchmark the Open-Domain Open-Vocabulary Object Detection

Yupeng Zhang, Ruize Han, Fangnan Zhou, Wei Feng, Liang Wan

Leave No Stone Unturned: Uncovering Holistic Audio-Visual Intrinsic Coherence for Deepfake Detection

Jielun Peng, Yabin Wang, Yaqi Li, Long Kong, Xiaopeng Hong

Region-Aware Hierarchical Sub-Feature Alignment for Robust EEG-Based Visual Decoding

Yanan Zhu, Ziwei Xiang, Jiamin Wu, Jinyang Guo, Hongyuan Zhang, Chunfeng Song, Hongjian Fang, Yufei Guo, Xianglong Liu

Super Sparse DETR：YOLO-Competitive Convergence and Acceleration

Hebao Zhu

Bi-Level Optimization for Single Domain Generalization

Marzi Heidari, Hanping Zhang, Hao Yan, Yuhong Guo

SA-Matching DETR: A Lightweight Transformer Detector with Enhanced Scale Adaptive Matching

Chengshan Yang, Pengnian Zhang, Jinjing Zhao

Asymmetric Collaborative Distillation for Asymmetric Image Retrieval

Yi Xie, Huaidong Zhang, Xuandi Luo, Yan Zhou, Shengfeng He

OKGraph: Online Knowledge Graph Probing for Open-vocabulary Recognition

Junhui Yin, Zhizhen Cai, Puze Wang, Guanzhou Ke, Jianhua Yang, Man Zhang, Qiang Zhang, Shengfeng He

Large Multimodal Models as General In-Context Classifiers

Marco Garosi, Matteo Farina, Alessandro Conti, Massimiliano Mancini, Elisa Ricci

Indexing Multimodal Language Models for Large-scale Image Retrieval

Bahey Tharwat, Giorgos Kordopatis-Zilos, Pavel Suma, Ian Reid, Giorgos Tolias

EvoPrompt-ReID: A Bilevel Optimization Framework for Prompt-Encoder Co-evolution in Image Re-Identification

Yuanlin He, Zhenchuan Wang, Jun Chen, Yingying He, Jiabao Wang, Weiwen Wang, Kun Xu, zijin zhou, Xiaoxiao Wang, Mingju chen, Tingting Liu, Zhisong Pan

Leveraging Arbitrary Data Sources for AI-Generated Image Detection Without Sacrificing Generalization

Qinghui He, Haifeng Zhang, Xiuli Bi, Bo Liu, Chi-Man Pun, Bin Xiao

OmniGCD: Abstracting Generalized Category Discovery for Modality Agnosticism

Jordan Shipard, Arnold Wiliem, Kien Nguyen Thanh, Wei Xiang, Clinton Fookes

PTAD: Pose and Texture Agnostic Anomaly Detection

Wei Zhuo, Jianen Xiang, Miaomiao Liu, Huajun Lu

Mitigating the ID–OOD Tradeoff in Open-Set Test-Time Adaptation

Wenjie Zhao, Jia Li, Xin Dong, Yapeng Tian, Yu Xiang, Yunhui Guo

Towards Universal Open-Set Visual Font Recognition Via Augmented Synthetic Similarity

Peicheng Zhou, Shancheng Fang, Chenhui Jin, Bowei Pu, Hongtao Xie

VR-CLIP: Visual Refinement of CLIP for Zero-Shot Semantic Segmentation

Haitao Jiang, Xu Li, Yuanyang Cao, Ying Zhang, Jianji Wang

Exploring Hierarchical Consistency and Unbiased Objectness for Open-Vocabulary Object Detection

Sanghoon Lee, Geon Lee, Hyekang Park, Bumsub Ham

Once for All: An End-to-End Paradigm for VLM-Based Domain-Generalized Object Detection

Peng Zhang, Xiang Yuan, Cong Li, Junwei Han, Gong Cheng

SoREL: Soft-Label Refurbishment with Ensemble Learning for Noisy Long-Tailed Classification

Jun Wei Hsieh, Ying-Hsuan Wu, Yi-Kuan Hsieh, Xin Li, Kuan-Chuan Peng, Ming-Ching Chang

Unsupervised Graph Partitioning Framework for Background Suppression in Multi-Query Vehicle Re-Identification

Yichun Hu, Zixuan Hu, Ling-Yu Duan

Revisiting Real-Time Detection Transformer with Efficient Encoder Design

Jiannan Huang, Aditya Kane, Fengzhe Zhou, Yunchao Wei, Humphrey Shi

PASR: Pose-Aware 3D Shape Retrieval from Occluded Single Views

Jiaxin Shi, Guofeng Zhang, Wufei Ma, Naifu Liang, Adam Kortylewski, Alan Yuille

Ninja Codes: Neurally Generated Fiducial Markers for Stealthy 6-DoF Tracking

Yuichiro Takeuchi, Yusuke Imoto, Shunya Kato

DetRefiner: Model-Agnostic Detection Refinement with Feature Fusion Transformer

Soichiro Okazaki, Tatsuya Sasaki, Hiroki Ohashi

SpHOR: A Representation Learning Perspective on Open-set Recognition for Identifying Unknown Classes in Deep Neural Networks

Thiru Thillai Nadarasar Bahavan, Sachith Seneviratne, Saman Halgamuge

Complexity of Linear Regions in Self-supervised Deep ReLU Networks

Mufhumudzi Muthivhi, Terence L. van Zyl

Decoupled Sub-Feature Uncertainty Modeling for Robust Multimodal Representation Learning

Aoqiang Zhu, Min Hu, Yan Xing, Yiming Tang

Pre-trained Models Can Count (Almost): Exploring Quantitative Structure in Visual Representations

Toshimichi Aota, Akinori Hashimoto, Naoto Sekizuka, Takayuki Okatani

A-SelecT: Automatic Timestep Selection for Diffusion Transformer Representation Learning

Changyu Liu, James Chenhao Liang, Wenhao Yang, Yiming Cui, Jinghao Yang, Tianyang Wang, Qifan Wang, Dongfang Liu, Cheng Han

HyperFM: A Efficient Hyperspectral Foundation Model with Spectral Grouping

Zahid Hassan Tushar, Sanjay Purushotham

Seeing Through Fog: Towards Fog-Invariant Action Recognition

Enqi Liu, Liyuan Pan, Zhi Gao, Lingzhi Li, Qing Li

Reversing the Flow: Generation-to-Understanding Synergy in Large Multimodal Models

Yujun Tong, Dongliang Chang, Zijin Yin, Xintong Liu, Yuanchen Fang, Zhanyu Ma

FedAR: Attribute-Guided Representation Learning for Heterogeneous Federated Learning

Mengjie Li, Liu Yang, Qi Shen

ZeroDiff++: Balancing Semantic Diffusion Dynamics for Robust Zero-Shot Learning

Qin Li, Qi Li, Limei Liu, Junfeng Yang, Han Peng

Equivariant Unsupervised Object Detection with Learnable Riesz Transform and Composite Spatial Transformers

Sayan Kumar Chaki, Thierry Fournel, Rémi Emonet

MART: Mechanism-disentanglement Anchor-Routed Training for Learning with Open-World Noisy Data

Changhui Hu, Bhalaji Nagarajan, Ricardo Marques, Petia Radeva

Online Interpretable Matrix Decomposition for Large-Scale Streaming Data

Muhammad A. A. Abdelgawad, Abdelrahman B. M. Eldaly, Meng Xinmin, Peng Jing, Abdurrashid Ibrahim Sanka, Ray C.C. Cheung, Hong Yan

Object-Centric Vision Token Pruning for Vision Language Models

Guangyuan Li, Rongzhen Zhao, Jinhong Deng, Yanbo Wang, Joni Pajarinen

BrainStack: Neuro-MoE with Functionally Guided Expert Routing for EEG-Based Language Decoding

Ziyi Zhao, Jinzhao Zhou, Xiaowei Jiang, Beining Cao, Wenhao Ma, Yang Shen, Ren Li, Yu-Kai Wang, Chin-teng Lin

BiomedHELIX : HiErarchical-Local Interaction eXploration for Biomedical Vision-Language Models

Ziheng Zhu, Yuncheng Guo, Jie Xu, Xiaodong Gu

From Fewer Samples to Fewer Bits: Reframing Dataset Distillation as Joint Optimization of Precision and Compactness

My H. Dinh, Aditya Sant, Akshay Malhotra, Keya Patani, Shahab Hamidi-Rad

Seeing Helps Reasoning in Language Models

Yulu Gan, Kaiya Ivy Zhao, Tomaso Poggio, Phillip Isola

Layer Embedding Deep Fusion Graph Neural Network

Taihua Xu, Genhao Tian, Jicong Fan, Xibei Yang, Qinghua Zhang, Yun Cui

From Horizontal to Rotated: Cross-View Object Geo-Localization with Orientation Awareness

Chenlin Fu, Ao Gong, Xingtao Ling, Yingying Zhu

LinkedOut: Linking World Knowledge Representation Out of Video LLM for Next-Generation Video Recommendation

Haichao Zhang, Yao Lu, Lichen Wang, Yunzhe Li, Daiwei Chen, Yunpeng Xu, Yun Fu

Learning to Reason: Targeted Knowledge Discovery and Fuzzy Logic Update for Robust Image Recognition

Gurucharan Srinivas, Joshua Niemeijer, Frank Köster

GaussFiller: Unleashing VLM-Expert Guidance for 3D Scene Completion with 3D Gaussian Splatting

Yuhan Ping, Cheng Lin, Yuan Liu, Zhiyang Dou, Jia Pan, Wenping Wang

GEODE: Geometry-Guided Discrete Diffusion for Open-Vocabulary 3D Scene Graph Generation

Changqun Feng, Wangxiandi Yin, Xin Hu, Lei Zhao, Dongyang Zhang, Tao He

Map2Thought: Explicit 3D Spatial Reasoning via Metric Cognitive Maps

Xiangjun Gao, Zhensong Zhang, Dave Zhenyu Chen, Songcen Xu, Long Quan, Eduardo Pérez-Pellitero, Youngkyoon Jang

SCP: Spatial Causal Prediction in Video

Yanguang Zhao, Jie Yang, Shengqiong Wu, Shutong Hu, Hongbo Qiu, Yu Wang, Guijia Zhang, Tan Kai Ze, Hao Fei, Chia-Wen Lin, Mong-Li Lee, Wynne Hsu

SpatialDreamer: Incentivizing Spatial Reasoning via Active Mental Imagery

Meng Cao, Xingyu Li, Xue Liu, Ian Reid, Xiaodan Liang

Entropy-Constrained Information Optimal Transport for Multi-View Geo-Localization

Xiaoxi Yang, Bo Sun, Yisheng An, Ganchao Liu

Revisiting Image Manipulation Localization under Realistic Manipulation Scenarios

Xuekang Zhu, Ji-Zhe Zhou, Kaiwen Feng, Chenfan Qu, Xiwen Wang, Yunfei Wang, Liting Zhou, Jian Liu

Learning to Wander: Improving the Global Image Geolocation Ability of LMMs via Actionable Reasoning

Yushuo Zheng, Huiyu Duan, Zicheng Zhang, Xiaohong Liu, Xiongkuo Min

CADRNet: Cognitively-Inspired Active Vision for 3D Reasoning Segmentation via Differentiable Rendering

Zai Yang Yu, Changshuo Wang, Yuan Shi, Linjun Sun, Shu Wei, Tingran Wang, Wangyu Wu, Yanjie Li, Weijun Li

Direct Language Embedding Enables Gaussian Splatting for Large Scenes

Zhida Li, Jianqiao Zhu, Hejin Huang, Yipeng Qin, Sibei Yang, Guanbin Li

CogNet: Multi-Agent Collaborative Reasoning and Verification for Salient Object Ranking

Zhenyu Wu, Tengfei Shi, Xuehao Wang, Ming Li, Chenglizhao Chen, Wenfeng Song, Aimin Hao

MPerS: Dynamic MLLM MixExperts Perception-Guided Remote Sensing Scene Segmentation

Ziyi Wang, Xianping Ma, Ziyao Wang, Hongyang Zhang, Man On Pun

Towards Generalization of Scene Text Tampering Localization via Causal Invariance

Huiru Shao, Bin Dong, Kaizhu Huang, Xiaowei Huang, Qiufeng Wang

Background-Compensated Audio-Visual Semantic Modulation Framework for Audio-Visual Event Localization

Chao Sun, Junbo Zhang, Chuanbo Zhu, Mingjun Huang, Bo Du

POMA-3D: The Point Map Way to 3D Scene Understanding

Ye Mao, Weixun Luo, Ranran Huang, Junpeng Jing, Krystian Mikolajczyk

Gazemo: Mimicking Human Saccades via Foveal-Peripheral Feature Modeling for Lightweight Semantic Segmentation

Mian Muhammad Naeem Abid, Radu Timofte

MoonSeg3R: Monocular Online Zero-Shot Segment Anything in 3D with Reconstructive Foundation Priors

Zhipeng Du, Duolikun Danier, Jan Eric Lenssen, Hakan Bilen

AuralSAM2: Enabling SAM2 Hear Through Pyramid Audio-Visual Feature Prompting

Yuyuan Liu, Yuanhong Chen, Chong Wang, Junlin Han, Junde Wu, Can Peng, Jingkun Chen, Yu Tian, Gustavo Carneiro

PrAda: Few-Shot Visual Adaptation for Text-Prompted Segmentation

Gabriele Rosi, Fabio Cermelli, Carlo Masone, Barbara Caputo

SAGE: Shape-Adapting Gated Experts for Adaptive Histopathology Image Segmentation

Gia Huy Thai, Hoang-Nguyen Vu, Anh-Minh Phan, Quang-Thinh Ly, Thi-Ngoc-Truc Nguyen, Nhat Ho

Prompt-driven Small Object Instance Segmentation in Earth Observation

Chenhao Wang, Yingrui Ji, Yu Meng, Yunjian Zhang, Yao Zhu

OV-Stitcher: A Global Context-Aware Framework for Training-Free Open Vocabulary Semantic Segmentation

Seungjae Moon, Seunghyun Oh, Youngmin Ro

SCOPE: Scene-Contextualized Incremental Few-Shot 3D Segmentation

Vishal Thengane, Zhaochong An, Tianjin Huang, Son Lam Phung, Abdesselam Bouzerdoum, Lu Yin, Na Zhao, Xiatian Zhu

Towards Complete Activation: Foreground-Background Multi-Perspective Guided Cross-Support for Few-Shot Segmentation

Yi Yang, Qiang Jiao, Mengrui Shi, Qiang Zhang

MHMamba: Multi-Head Mamba for 3D Brain Tumor Segmentation

Hanjun Tao, Hua Wang, Fan Zhang

ROSE: Retrieval-Oriented Segmentation Enhancement

Song Tang, Guangquan Jie, Henghui Ding, Yu-Gang Jiang

ConInfer: Context-Aware Inference for Training-Free Open-Vocabulary Remote Sensing Segmentation

Wenyang Chen, Zhanxuan Hu, Yaping Zhang, Hailong Ning, Yonghang Tai

Unify the Views: View-Consistent Prototype Learning for Few-Shot Segmentation

Hongli Liu, Yu Wang, Shengjie Zhao

Autoregressive Universal Video Segmentation Model

Miran Heo, Sukjun Hwang, Min-Hung Chen, Yu-Chiang Frank Wang, Albert Gu, Seon Joo Kim, Ryo Hachiuma

FCL-COD: Weakly Supervised Camouflaged Object Detection with Frequency-aware and Contrastive Learning

Jingchen Ni, Quan Zhang, Dan Jiang, Keyu Lv, Ke Zhang, Chun Yuan

Counterfactual Segmentation Reasoning: Diagnosing and Mitigating Pixel-Grounding Hallucination

Xinzhuo Li, Adheesh Juvekar, Jiaxun Zhang, Xingyou Liu, Muntasir Wahed, Kiet A. Nguyen, Yifan Shen, Tianjiao Yu, Ismini Lourentzou

Weakly-Supervised Referring Video Object Segmentation Through Text Supervision

Miaojing Shi, Jun Huang, Zijie Yue, Hanli Wang

TALENT: Target-Aware Efficient Tuning for Referring Image Segmentation

Shuo Jin, Siyue Yu, Bingfeng Zhang, Chao Yao, Meiqin Liu, Jimin Xiao

DeepDP-TGMM: Amortized Non-Parametric Clustering for Hyperspherical Self-Supervised Representations

Cyril Kana Tepakbong, Kévin Bouchard, Julien Maitre

Proto-SaGa: Prototype-based 3D Scene Segmentation with Semantic-aware Gaussian Grouping

Youngmin Oh, Changjae Oh, Bumsub Ham

RecycleLoRA: Rank-Revealing QR-Based Dual-LoRA Subspace Adaptation for Domain Generalized Semantic Segmentation

Chanseul Cho, Seokju Yun, Jaesung Jun, Seungjae Moon, Youngmin Ro

Instruction-Focus-Prompt：Semantics-Driven Structural Prompts for Universal SAM Segmentation

Shuqi Xia, Guangze Shi, Jiarui Cao, Aoyuan Shi, Meilin Liu, Xiaoyi Zhang, Yujie Wang, Xueyu Liu, Cai Zhao, Ziyuan He, Yongfei Wu, Mingqiang Wei

Continual Alignment for SAM: Rethinking Foundation Models for Medical Image Segmentation in Continual Learning

Jiayi Wang, Wei Dai, Haoyu Wang, Sihan Yang, Haixia Bi, Jian Sun

VirPro: Visual-Referred Probabilistic Prompt Learning for Weakly-Supervised Monocular 3D Detection

Chupeng Liu, Jiyong Rao, Shangquan Sun, Runkai Zhao, Weidong Cai

A Single Pixel is All You Need: Weakly Supervised Medical Image Segmentation using Discrete Denoising Diffusion Models

Mehmet Demirel, Christos Kyrkou

AdaMeta: Adaptive Meta-Learning with Dynamic Task Relational Inference for Few-shot learning

Xingyu Yang, Yidan Ma, Hanzhang Qu, Jianfu Cao

NRFP: A Noise-Robust Feature Plugin for Source-Free Domain Adaptation

Huanxin Zou, Zhize Wu, Yue Jiang, Jijian Zhou, Zhiwei Xu, Teng Li, Jianhua Shu, Fan Cheng

Label-Agnostic Category Discovery

Yuwei Bian, Shidong Wang, Chunming Li, Haofeng Zhang

Learning from Label Proportion with Dual-Proportion Constraints

Tianhao Ma, Ximing Li, Changchun Li, Renchu Guan

Test-Time Distillation for Continual Model Adaptation

Xiao Chen, Jiazhen Huang, Zhiming Liu, Qinting Jiang, Fanding Huang, Jingyan Jiang, Zhi Wang

Another BRIXEL in the Wall: Towards Cheaper Dense Features

Alexander Lappe, Martin A. Giese

Task-Specific Knowledge Improves Generalization: A Logits-Based Framework for Continual Learning of Vision-Language Models

Sijie Wang, Yingying Zhu

DARN: Dynamic Adaptive Regularization Networks for Efficient and Robust Foundation Model Adaptation

Dhenenjay Yadav, Rohan Sawai

Training-Free Uncertainty-guided Logit Adjustment for Few-Shot Class-Incremental Learning

Sungwon Woo, Dongjun Hwang, Shiwon Kim, Junsuk Choe, Jongho Nang

Model Merging on Loss Landscapes: A Geometric Perspective

Juanwu Lu, Anand Bhaskar, Brian Axelrod, Ekaterina Tolstaya, Tristan Emrich

DGD: Density Gradient-guided Diffusion for Long-Tailed Clustering

Xulun Ye, Yuanyuan Deng, Kun Zhou

DGP: Dynamic Gradient Projection for Task-Adaptive Continual Learning

Qier Meng, Cheng Deng

Bootstrap Your Own Classifier: Your Pretrained Vision Models are Secretly Strong Continual Learners

Yizheng Gong, Xiaoyang Wang, Siyue Yu, Waleed Al-Nuaimy, Jimin Xiao

Memory-efficient Continual Learning with Prototypical Exemplar Condensation

M.-Duong Nguyen, Thien-Thanh Dao, Le-Tuan Nguyen, Dung D. Le, Kok-Seng Wong

Continual Adaptation of Vision Foundational Models for Semantic Segmentation in Adverse Weather

Nikhil Kumar Jangamreddy, Mahsa Baktashmotlagh, Chetan Arora

ReMem: A Dynamic Memory Evolution Detector for Zero-Shot Anomaly Detection

Ling Yi, Zhe Chen, Gaochang Wu, Jinliang Ding, Xiaojie Wang, Zhaolong Ning

CurrMix: Curriculum-Enhanced MixUp for Long-Tailed Visual Recognition

Zhongquan Jian, Yanhao Chen, Bingbing Hu, Wenhan Lv, Shaopan Wang, Jipeng Wu, Junfeng Yao, Yang Lu, Qingqiang Wu

Class-Aware Drift Compensation for Non-Uniform Semantic Shift in Continual Learning

Fankang Xu, Lu Jin, Yanpeng Sun, Shiyu Xuan, Zechao Li

Onboarding Without Forgetting: Hypernetwork Personalization with Data-Free Replay for Personalized Federated Learning

Thinh Nguyen, Le Huy Khiem, Van-Tuan Tran, Khoa D Doan, Nitesh V. Chawla, Kok-Seng Wong

FedNPC: Stochastic Noise-driven Post-hoc Classifier Calibration Method for Federated Long-tailed Learning

Jintong Gao, He Zhao, Yibo Yang, Dandan Guo

Learning Multi-Modal Prototypes for Cross-Domain Few-Shot Object Detection

Wanqi Wang, Jingcai Guo, Yuxiang Cai, Zhi Chen

MuSCM: Mutual Spatial Correlation Mapping for Class Incremental Detection Transformer

Jian Zhong, Yifan Jiao, Xi Shao, Bing-Kun Bao

AFCL: Achieving Spatio-Temporal Invariance to Data Heterogeneity in Federated Continual Learning

Jianheng Tang, Jingyu He, Kejia Fan, Run He, Jingchao Wang, Anfeng Liu, Houbing Herbert Song, Leye Wang, Zhanxing Zhu, Huiping Zhuang, Yunhuai Liu

SAGA: Semantic Anchor-Guided Alignment for Multi-Source Domain Adaptive Object Detection

Yongchao Feng, Ziyue Huang, Jinqing Zhang, Wenrui Cai, Qingjie Liu

DEED: Dual-Channel Enhanced Ensemble Distillation for Uncertainty-Aware Recognition

Yang Yang, Kai Xu, Junyao Hou, Miao Zhang, Xiang Li, Zhenghua Chen, Yingxue Gao, Min Wu

Wake the Sleeping Weights: Sparsely-Activated Continual Test-Time Adaptation for Medical Image Segmentation

Jianhang Ji, Zhiming Cheng, Jianxiang Zhao, Bingtao Ma, Hao Chen, Yuhan Gao, Lian Zhang, Zuobin Ying, Shuai Wang

Dynamic Pseudo-Label Assignment and Consistent Prototypical Learning for Few-Shot Class-Incremental Learning

Zhilong Mao, Hang Zhang, Yanmin Li, Lihua Liu, Jibing Wu, Mao Wang

Hold-One-Shot-Out (HOSO) for Validation-Free Few-Shot CLIP Adapters

Chris Vorster, Mayug Maniparambil, Noel O'Connor, Noel Murphy, Derek Molloy

Learning through Creation: A Hash-Free Framework for On-the-Fly Category Discovery

Bohan Zhang, Weidong Tang, Zhixiang Chi, Yi Jin, Zhenbo Li, Yang Wang, Yanan Wu

Frequency-Guided Iterative Bi-directional Exchange Network for Cross-Domain Few-Shot Segmentation

Yadang Chen, Qi Liu, Guoqing Zhang, Le Sun, Yuhui Zheng

Revisiting Prototype Rehearsal for Exemplar-Free Continual Learning: Manifold-Aware Boundary Sampling with Adaptive Class-Balanced Loss

Hongye Xu, Bartosz Krawczyk

SCOPE: Spatially Ordered Continual Learning for 3D Segmentation

Wenhao Xu, Huaidong Zhang, Weipeng Zhang, Qianle Zhang, Shengfeng He

Learning to Propose Pose for Category-Agnostic Objects via Joint Refinement with Co-Matching Supervision

Junjie Chen, Zezheng Liu, Runxiang Liu, Yuming Fang, Yifan Zuo, Jiebin Yan

Is Prompt Selection Necessary for Task-Free Online Continual Learning?

Seoyoung Park, Haemin Lee, Hankook Lee

ReConText3D: Replay-based Continual Text-to-3D Generation

Muhammad Ahmed Ullah Khan, Muhammad Haris Bin Amir, Didier Stricker, Muhammad Zeshan Afzal

Now You See It, Now You Don't: Instant Concept Erasure for Safe Text-to-Image and Video Generation

Shristi Das Biswas, Arani Roy, Kaushik Roy

ECOC-IL: Robust and Efficient Label LDP for Imbalanced Learning

Mengyang Li, Ou Wu

Safe Codebook: Token-Level Moderation for Safer Visual Autoregressive Generation

Jiaxuan Zhang, Qianqian Xu, Peisong Wen, Siran Dai, Yang Liu, Qingming Huang

Towards Universal and Lightweight Coverless Image Steganography with Multimodal Large Language Models Assistance

Jia Li, Zhankai Li, Yongqiang Yu, Xuehu Yan, Yuliang Lu

A Visual Semantic Adaptive Watermark Grounded by Prefix-Tuning for Large Vision-Language Model

Qi Zheng, Shuliang Liu, Yu Huang, Sihang Jia, Jungang Li, Lyuhao Chen, Junhao Chen, Hanqian Li, Aiwei Liu, Yibo Yan, Xuming Hu

TriGuard-FL: A User-Centric Trust Triad in Federated Learning via Auditable Data, Verifiable Contributions, and Antidote-Driven Mitigation

K Naveen Kumar, Mohsen Guizani

Assessing the Reliability of Image Quality Metrics and Mitigating Quality Bias in Generative Models

Hoin Jung, Shenyu Lu, De Wang, Xiaoqian Wang

Efficient Unlearning through Maximizing Relearning Convergence Delay

Khoa Tran, Simon S. Woo

Robust Continual Unlearning against Knowledge Erosion and Forgetting Reversal

Eun-Ju Park, Youjin Shin, Simon S. Woo

Memorization In Stable Diffusion Is Unexpectedly Driven by CLIP Embeddings

Bumjun Kim, Albert No

RAZOR: Ratio-Aware Layer Editing for Targeted Unlearning in Vision Transformers and Diffusion Models

Ravi Ranjan, Utkarsh Grover, Xiaomin Lin, Agoritsa Polyzou

FedOrtho: Efficient Federated Unlearning Via Orthogonal Convolution and Adaptive Soft Pruning

Qinghui Gong, Xue Yang, Xunlei Chen, Jinshan Lai, Hua Meng, Xiaohu Tang

Improving Synthesized Image Detection by Disentangling Generator-Shared and Generator-Specific Image Artifacts

Yongqi Yang, Yuke Li, Heng Huang, Zhihui Li, Bo Du, Yu Wu

PLR-Gate: Real-Time Gradient Privacy Assessment and Gated Transmission for Secure Federated Learning

Tao Huang, Jiayang Meng, Hong Chen, Chen Hou, Guolong Zheng, Xu Yang

A Unified Privacy-Utility Framework for Collaborative Inference via Randomized Smoothing

Shiwei Ding, Lan Zhang, Zhenlin Wang, Xiaoyong Yuan

Verify Claimed Text-to-Image Models Via Boundary-Aware Prompt Optimization

Zidong Zhao, Yihao Huang, Qing Guo, Tianlin Li, Anran Li, Kailong Wang, Jin Song Dong, Geguang Pu

Towards Robust Content Watermarking Against Removal and Forgery Attacks

Yifan Zhu, Yihan Wang, Xiao-Shan Gao

Revisiting Model Inversion Evaluation: From Misleading Standards to Reliable Privacy Assessment

Sy-Tuyen Ho, Koh Jun Hao, Ngoc-Bao Nguyen, Alexander Binder, Ngai-Man Cheung

CBDC: Clean Bias Direction Construction for Unsupervised Debiasing in Vision-Language Models

DoYoung Kim, SungJoon Hwang, Byung-Joon Lee, Joohyeon Lee, Jee-Hyong Lee

Erased, But Not Forgotten: Erased Rectified Flow Transformers Still Remain Unsafe Under Concept Attack

Nanxiang Jiang, Zhaoxin Fan, Enhan Kang, Daiheng Gao, Yun Zhou, Yanxia Chang, Zheng Zhu, Yeying Jin, Wenjun Wu

Leveraging Unlabeled Data from Unknown Sources via Dual-Path Guidance for Deepfake Face Detection

Zhiqiang Yang, Renshuai Tao, Chunjie Zhang, Guodong Yang, Xiaolong Zheng, Yao Zhao

SEM: Sparse Embedding Modulation for Post-Hoc Debiasing of Vision-Language Models

Quentin Guimard, Federico Bartsch, Simone Caldarella, Rahaf Aljundi, Elisa Ricci, Massimiliano Mancini

When Agents Steer Human Perception: How AI-Selected Images Can Convertly Alter Disagreements

Chi Zhang, Yulang Gao, Jiachen Zou, Chen Wei, Quanying Liu

UniShield: An Adaptive Multi-Agent Framework for Unified Forgery Image Detection and Localization

Qing Huang, Zhipei Xu, Xuanyu Zhang, Xiangyu Yu, Jian Zhang

On the Group Disparities Arising from Machine Unlearning

Zijie Pan, Zuobin Ying, Yajie Wang, Liehuang Zhu, Wanlei Zhou

Count What Repeats: Period-Adaptive Multi-Scale Consistency for Self-Supervised Repetitive Action Counting

Shizhao Gao, Jun Li, Qiming Li

Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation

Zhe Huang, Hao Wen, Aiming Hao, Bingze Song, Meiqi Wu, Jiahong Wu, Xiangxiang Chu, Sheng Lu, Haoqian Wang

ConfDiff: Confidence-Guided Representation Diffusion for Video Moment Retrieval

Haiming Zhao, Tai Wang

Evolutionary Multi-Agent Collaboration for Real-World Video Face Restoration

Bowen Tang, Tao Wang, Miao Zhang, Xin Yu, Jinwei Chen, Bo Li, Kaihao Zhang

STS-Mixer: Spatio-Temporal-Spectral Mixer for 4D Point Cloud Video Understanding

Wenhao Li, Xueying Jiang, Gongjie Zhang, Xiaoqin Zhang, Ling Shao, Shijian Lu

HiVid-Narrator: Hierarchical Video Narrative Generation with Scene-Primed ASR-anchored Compression

Haoxuan Li, Mengyan Li, Junjun Zheng

D^2-STX: Decoupling Spatial-Temporal Cross-Attention for Dual-branch Repetitive Action Counting

Xiaoai Wang, Hang Wang, Yan Liu, Huan Hu, Bruce X.B. Yu

Group-DINOmics: Incorporating People Dynamics into DINO for Self-supervised Group Activity Feature Learning

Ryuki Tezuka, Chihiro Nakatani, Norimichi Ukita

Mamba-VMR: Multimodal Query Augmentation Via Generated Videos for Precise Temporal Grounding

Yunzhuo Sun, Xinyue Liu, Yanyang Li, Nanding Wu, Linlin Zong, Xianchao Zhang, Wenxin Liang

VideoThinker: Building Agentic VideoLLMs with LLM-Guided Tool Reasoning

Chenglin Li, Qianglong Chen, Feng Han, Yikun Wang, Xingxi Yin, Yan Gong, Ruilin Li, Yin Zhang, Jiaqi Wang

TP^2-DETR: Unlocking Deformable DETR for Zero-Shot Temporal Action Proposal Generation with Temporal Feature Pyramids

Ya-Yun Cheng, Kan Tippayamontri, Chih-Yuan Yang, Jane Yung-jen Hsu

QENN: A Quantum Entanglement-Inspired Neural Network for Interaction and Relationship Prediction in Story Videos

Zijun Xu, Zhengqian Wu, Chunjie Zhang, Zhongyuan Wang, Chunxia Xiao, Chao Liang

FineGrade: A Rule-Consistent Scoring Framework for Fine‑Grained Action Quality Assessment

Yicong Li, Howard Leung

One Identity, Many Roles: Multimodal Entity Coreference for Enhanced Video Situation Recognition

Balaji Darur, Amanmeet Garg, Makarand Tapaswi

REBA: Residual Mixture-of-Experts and Bidirectional Video–Text Alignment for Better Fine-grained Weakly Supervised Video Anomaly Detection

Chengxi Chu, Nurul Japar, Chee Kau Lim

ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding

Hosu Lee, Junho Kim, Hyunjun Kim, Yong Man Ro

VIDEOP2R: Video Understanding from Perception to Reasoning

Yifan Jiang, Yueying Wang, Rui Zhao, Toufiq Parag, Zhimin Chen, Zhenyu Liao, Jayakrishnan Unnikrishnan

Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination

Yolo Yunlong Tang, Daiki Shimada, Hang Hua, Chao Huang, Jing Bi, Rogerio Feris, Chenliang Xu

ForestPrune: High-ratio Visual Token Compression for Video Multimodal Large Language Models Via Spatial-Temporal Forest Modeling

Shaobo Ju, Baiyang Song, Tao Chen, Jiapeng Zhang, Qiong Wu, Chao Chang, Huaixi Wang, Yiyi Zhou, Rongrong Ji

HARP: Hierarchical Adaptive Ranking with Probabilistic Modeling for Skill Determination

Hui Yu, Xiao Ke, Zhihong Zeng, Huangbiao Xu, Huanqi Wu

STORM: End-to-End Referring Multi-Object Tracking in Videos

Zijia Lu, Jingru Yi, Jue Wang, Yuxiao Chen, Junwen Chen, Xinyu Li, Davide Modolo

Extending Segment Anything Model 2 to Multi-Object Tracking by Optimizing Hierarchical Trajectory Memory

Cheng-Yen Yang, Hsiang-Wei Huang, Kuang-Ming Chen, Kunjun Li, Jenq-Neng Hwang

NCSTR: Node-Centric Decoupled Spatio-Temporal Reasoning for Video-based Human Pose Estimation

Quang Dang Huynh, Xuefei Yin, Andrew Busch, Hugo G. Espinosa, Alan Wee-Chung Liew, Matthew T.O. Worsey, Yanming Zhu

MOSSTrack : Modality-Specific Spatio-Temporal Context Learning for RGB-T Tracking

Yisong Liu, He Yao, Junlong Cheng, Yujie Lu, Junqi Bai, Min Zhu

Temporally Consistent Long-Term Memory for 3D Single Object Tracking

Jaejoon Yoo, SuBeen Lee, Yerim Jeon, Miso Lee, Jae-Pil Heo

DM^3T: Harmonizing Modalities via Diffusion for Multi-Object Tracking

Weiran Li, Yeqiang Liu, Yijie Wei, Mina Han, Qiannan Guo, Zhenbo Li

IRDINO: Adapting DINOv3 with Second-Order Motion Awareness for Moving Infrared Small Target Detection

Qian Xu, Shuaipeng Fan, Fei Gao, Mingjin Zhang

SemanticMoments: Training-Free Motion Similarity via Third Moment Features

Saar Huberman, Kfir Goldberg, Or Patashnik, Sagie Benaim, Ron Mokady

TAPNext++: What’s Next for Tracking Any Point (TAP)?

Sebastian Jung, Artem Zholus, Martin Sundermeyer, Carl Doersch, Ross Goroshin, David Joseph Tan, Sarath Chandar, Rudolph Triebel, Federico Tombari

ARGS: Auto-Regressive Gaussian Splatting via Parallel Progressive Next-Scale Prediction

Quanyuan Ruan, Kewei Shi, Jiabao Lei, Xifeng Gao, Xiaoguang Han

100Editor: 100+ Views per Batch and Minute-Scale View-Consistent 3D Editing

Cunqi Wu, Peng Zhou, Jie Qin, Qi Tian

DIAMOND-SSS: Diffusion-Augmented Multi-View Optimization for Data-efficient SubSurface Scattering

Guillermo Figueroa Araneda, Iris Dania Jimenez, Florian Hofherr, Manny Ko, Hector Andrade-Loarca, Daniel Cremers

Reason-SVG: Enhancing Structured Reasoning for Vector Graphics Generation with Reinforcement Learning

Ximing Xing, Ziteng Xue, Yandong Guan, Jing Zhang, Dong Xu, Qian Yu

Harmonized Multi-Layer Text-to-Image Generation with Generative Priors

Yusuf Dalva, Yijun Li, Qing Liu, Nanxuan Zhao, Jianming Zhang, Zhe Lin, Pinar Yanardag

StabiGS: Video Stabilization through Rendering-Aware Trajectory Optimization in 3DGS-Reconstructed Scenes

Souheib Ben Mabrouk, Jean-Emmanuel Deschaud, Eva Coupeté, Thomas Derbanne, Nicolas Rahmouni

More Traces Better: Unified Artifact Modeling for Generalizable and Robust AI-generated Image Detection

Ruiqi Liu, Xiaolei Lv, Zhiyuan Yan, Yi Han, Boyi Sun, Bo Li, Jun Gao, Lubin Weng, Yan Wang, Shu Wu

Predicting Gene Expression in Spatially Resolved Transcriptomics Across Samples Through Probabilistic Fusion of Hierarchical Histology and Spatial Information

Yinbo Liu, Qi Wu, Keyang Ye, Xiao He, Tian Tian

Don't Let the Information Slip Away

Taozhe Li, Guansu Wang, Bo Yu, Yiming Liu, Wei Sun

FraQAT: Quantization Aware Training with Fractional Bits

Luca Morreale, Alberto Gil C P Ramos, Malcolm Chadwick, Mehdi Noroozi, Ruchika Chavhan, Abhinav Mehrotra

MAGIC: Few-Shot Mask-Guided Anomaly Inpainting with Prompt Perturbation, Spatially Adaptive Guidance, and Context Awareness

JaeHyuck Choi, Minjun Kim, Je Hyeong Hong

Video Inspector: An Agentic-RL Framework and Benchmark for Human-Aligned Generative Video Evaluation

Jacey Somers, Harrison Zale, Janine Mason, Tina Walker, Eddie Quinn, Felix Lewis, Gavin Wright, Yvonne Young, Charles Sullivan, Wayne Carter, Julian Foster

From Pixels to Nucleotides: End-to-End Token-Based Video Compression for DNA Storage

Cihan Ruan, Lebin Zhou, Bingqing Zhao, Rongduo Han, Qiming Yuan, Chenchen Zhu, Linyi Han, Liang Yang, Wei Wang, Wei Jiang, Nam Ling

CoPS: Conditional Prompt Synthesis for Zero-Shot Anomaly Detection

Qiyu Chen, Zhen Qu, Wei Luo, Haiming Yao, Yunkang Cao, Yuxin Jiang, Yinan Duan, Huiyuan Luo, Chengkan Lv, Zhengtao Zhang

PSIM: Perceptual Similarity Index Measure

Md Eimran Hossain Eimon, Hari Kalva

UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding

Shuquan Lian, Yuhang Wu, Jia Ma, Yifan Ding, Zihan Song, Bingqi Chen, Xiawu Zheng, Hui Li, Rongrong Ji

Beyond Static Artifacts: A Forensic Benchmark for Video Deepfake Reasoning in Vision Language Models

Zheyuan Gu, Qingsong Zhao, Yusong Wang, Zhaohong Huang, Xinqi Li, Chen Yuan, Jiawei Shao, Chi Zhang, Xuelong Li

GreenPlanner: Practical Floorplan Layout Generation via an Energy-Aware and Function-Feasible Generative Framework

Pengyu Zeng, Yuqin Dai, Jun Yin, Jing Zhong, Ziyang Han, Chaoyang Shi, ZhanXiang Jin, Maowei Jiang, Yuxing Han, Shuai Lu

Dual-Stage Parameter-Efficient Fine-Tuning for Consistent Spatial and Temporal Representation

Junhao Xia, Chaoyang Zhang, Yecheng Zhang, Chengyang Zhou, Zhichang Wang, Bochun Liu, Dongshuo Yin

WideEye: Achieving Wide Field-of-view Traffic Video Analytics With Dynamic Orientation Adaptation

Z. Jonny Kong, Sibendu Paul, Y. Charlie Hu

Restore-R1: Efficient Image Restoration Agents via Reinforcement Learning with Multimodal LLM Perceptual Feedback

Jianglin Lu, Yuanwei Wu, Ziyi Zhao, Hongcheng Wang, Felix Jimenez, Abrar Majeedi, Yun Fu

Pose-dIVE: Pose-Diversified Augmentation for Person Re-Identification

Inès Hyeonsu Kim, Woojeong Jin, Soowon Son, Junyoung Seo, Seokju Cho, JeongYeol Baek, Byeongwon Lee, JoungBin Lee, Seungryong Kim

Adaptive Reinforcement for Open-ended Medical Reasoning via Semantic-Guided Reward Collapse Mitigation

Yizhou Liu, Dingkang Yang, Zizhi Chen, Minghao Han, Xukun Zhang, Keliang Liu, Jingwei Wei, Lihua Zhang

BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation

Zihao Zhu, Ruotong Wang, Siwei Lyu, Min Zhang, Baoyuan Wu

IEA: Amateur-Friendly Conversational Image Editing Agent via Three Stages of Multitask Alignment

Zichen Zhu, Yuheng Sun, Mingxuan Zhu, Wenjie Ma, Situo Zhang, Zhexiang Wang, Ziyue Yang, Danyang Zhang, Kunyao Lan, Zihan Zhao, Dingye Liu, Siqi Xiang, Lu Chen, Kai Yu

QuPAINT: Physics-Aware Instruction Tuning Approach to Quantum Material Discovery

Xuan Bac Nguyen, Hoang-Quan Nguyen, Sankalp Pandey, Tim Faltermeier, Nicholas Borys, Hugh Churchill, Khoa Luu

CLIPtone-GO: Geometry‐Aware, Gradient-Orthogonalized Text-Guided Color Tone Adjustment

Satyam Merothiya, Chanda Grover Kamra, Indra Deep Mastan

Generative Digital Twins: Vision-Language Simulation Models for Executable Industrial Systems

YuChe Hsu, AnJui Wang, TsaiChing Ni, YuanFu Yang

Exploiting the Source-Asymmetry Confidence Gap for Generalizable AI-Generated Image Detection

Ziyang Zheng, Weiyan Chen, Yao Xiao, Zijie Cao, Dongyu Zhang, Pengxu Wei

CineMatte: Background Matting for Virtual Production and Beyond

Yuanjian He, Chen Zhang, Fasheng Chen, Jiangbo Cao

GATE: Gaussian-Attentive Transformer for Uncertainty-Aware Age Estimation

Chaewon Lee, JunHyeok Heo, Chang-Su Kim

GRAFT: Graph-Based Affordance Transfer via Part Correspondence

Mengying Lin, Utkarsh Mishra, Ajay Mandlekar, Danfei Xu

Face Time Traveller : Travel Through Ages Without Losing Identity

Purbayan Kar, Ayush Ghadiya, Vishal Chudasama, Pankaj Wasnik, C.V. Jawahar

KGGAT: Knowledge-Guided Graph Attention Network for Multi-Label Image Classification

Christine Dewi, Dhananjay R Thiruvady, Nayyar Zaidi

IntentEdit: Multi-Agent Reasoning for Intent-Driven Complex Image Editing

Yuxuan Zhang, Shijia Huang, Liwei Wang

Gen-n-Val: Agentic Image Data Generation and Validation

Jing-En Huang, I-Sheng Fang, Tzuhsuan Huang, Yu-Lun Liu, Chih-Yu Wang, Jun-Cheng Chen

SignReasoner: Compositional Reasoning for Complex Traffic Sign Understanding Via Functional Structure Units

Ruibin Wang, Zhenyu Lin, Xinhai Zhao

DARTS: Distance-Aware Robust Training for Selective Classification

A. Q. M. Sazzad Sayyed, Nathaniel D. Bastian, Francesco Restuccia

Modulate-and-Map: Crossmodal Feature Mapping with Cross-View Modulation for 3D Anomaly Detection

Alex Costanzino, Pierluigi Zama Ramirez, Giuseppe Lisanti, Luigi Di Stefano

PestVL-Net: Enabling Multimodal Pest Learning Via Fine-grained Vision-Language Interaction

Xueheng Li, Tao Hu, Ke Cao, Runsheng Qi, Huixin Zhang, Rui Li, Jie Zhang, Chengjun Xie

Plug-and-Play Dynamic In-context Learning with Stochastic Regularization for Screen Content Image Super-Resolution

Yuexin Wang, Xiaolei Wang, Guangliang Cheng, Huihui Bai, Tammam Tillo, Jimin Xiao

EscherNet++: A Scalable Multi-View Framework for Amodal Completion, Novel View Synthesis and Feed-Forward 3D Reconstruction

Xinan Zhang, Muhammad Zubair Irshad, Anthony Yezzi, Yi-Chang Tsai, Zsolt Kira

Human-Intervention Segmentation via Federated Intent Embedding and Multi-Mask Recommendation

Yeongsu Kim, Seo-Yeon Choi, Kyungsu Lee

Di3PO - Diptych Diffusion DPO for Targeted Improvements in Image Generation

Sanjana Reddy, Ishaan Malhi, Sally Ma, Praneet Dutta

Robust Image Self-Recovery against Tampering using Watermark Generation with Pixel Shuffling

Minyoung Kim, Paul Hongsuck Seo

Learning to Select, Learning to Judge: Active Preference Alignment for Mars Terrain Segmentation

JunJie Li, Miyu Li, Jiawei Wang, Yu Liu, Yumei Wang

Attention Never Lie: Visual Attention Defocus Reveals and Rectifies Hallucinations in MLLMs

Chenxi Zhao, Yan Zhou, Jufeng Yang

Organizing Unstructured Image Collections using Natural Language

Mingxuan Liu, Zhun Zhong, Jun Li, Gianni Franchi, Subhankar Roy, Elisa Ricci

Thinking with Blueprints: Assisting Vision–Language Models in Spatial Reasoning via Structured Object Representation

Weijian Ma, Shizhao Sun, Tianyu Yu, Ruiyu Wang, Tat-Seng Chua, Jiang Bian

Mitigating Object Hallucinations in LVLMs via Attention Imbalance Rectification

Han Sun, Qin Li, Peixin Wang, Min Zhang

Efficient3D : A Unified Framework for Adaptive and Debiased Token Reduction in 3D MLLMs

Yuhui Lin, Siyue Yu, Yuxing Yang, Guangliang Cheng, Jimin Xiao

HiViS: Hiding Visual Tokens from the Drafter for Speculative Decoding in Vision-Language Models

Zhinan Xie, Peisong Wang, Shuang Qiu, Jian Cheng

Visual Funnel: Resolving Contextual Blindness in Multimodal Large Language Models

Woojun Jung, Jaehoon Go, Mingyu Jeon, Sunjae Yoon, Junyeong Kim

Video Parallel Scaling: Aggregating Diverse Frame Subsets for VideoLLMs

Hyungjin Chung, Hyelin Nam, Jiyeon Kim, Hyojun Go, Byeongjun Park, Junho Kim, Joonseok Lee, Seongsu Ha, Byung-Hoon Kim

Reasoning for Mobile User Experience with Multimodal LLMs: Task, Benchmark, and Approach

Ruichao Mao, Zhou Fang, Teng Guo, Hao Yang, Yaping Li, Shaohua Peng, Maji Huang, Xiaoyu Lin, Shuoyang Liu, Xuepeng Li, Yuyu Zhang, Hai Rao

Visual Reasoning Through Tool-Supervised Reinforcement Learning

Qihua Dong, Gozde Sahin, Pei Wang, Zhaowei Cai, Robik Shrestha, Hao Yang, Davide Modolo

VSI: Visual–Subtitle Integration for Keyframe Selection to Enhance Long Video Understanding

Jianxiang He, Meisheng Hong, Jungang Li, Weiyu Guo, Xuming Hu, Hui Xiong

ProGAL-VLA: Grounded Alignment through Prospective Reasoning in Vision-Language-Action Models

Nastaran Darabi, Amit Ranjan Trivedi

Myopia Rectification: KV Cache Pruning for MLLMs Via Dynamic Attention Subsidy and Token Reclamation

Jiedong Zhuang, Lu Lu, Ming Dai, Jian Chen, Qiang Liu, Haoji Hu

NaiLIA: Multimodal Nail Design Retrieval Based on Dense Intent Descriptions and Palette Queries

Kanon Amemiya, Daichi Yashima, Kei Katsumata, Takumi Komatsu, Ryosuke Korekata, Seitaro Otsuki, Komei Sugiura

Logical Consistency Optimization for Few-Shot Weakly Supervised Video Anomaly Detection

Hantao Zheng, Ning Han, Yawen Zeng, Hegui Zhu, Hao Chen

VEGAS: Mitigating Hallucinations in Large Vision-Language Models via Vision-Encoder Attention Guided Adaptive Steering

Zihu Wang, Boxun Xu, Yuxuan Xia, Peng Li

COOPER: A Unified Model for Cooperative Perception and Reasoning in Spatial Intelligence

Zefeng Zhang, Xiangzhao Hao, Hengzhu Tang, Zhenyu Zhang, Jiawei Sheng, Xiaodong Li, Zhenyang Li, Li Gao, Daiting Shi, Dawei Yin, Tingwen Liu

CoVCR: Bridging Visual Narrative Gaps via Context Generation for Robust Commonsense Reasoning

Xinyu Li, Shiliang Sun

MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling

Sicong Leng, Jing Wang, Jiaxi Li, Hao Zhang, Zhiqiang Hu, Boqiang Zhang, Yuming Jiang, Hang Zhang, Xin Li, Deli Zhao, Wei Lu, Yu Rong, Aixin Sun, Shijian Lu

Active Video Perception: Iterative Evidence Seeking for Agentic Long Video Understanding

Ziyang Wang, Honglu Zhou, Shijie Wang, Junnan Li, Caiming Xiong, Silvio Savarese, Mohit Bansal, Michael S. Ryoo, Juan Carlos Niebles

VoQA: Visual-only Question Answering

Jianing An, Luyang Jiang, Jie Luo, Wenjun Wu, Lei Huang

Benchmarking Vision-Language Models under Contradictory Virtual Content Attacks in Augmented Reality

Yanming Xiu, Zhengyuan Jiang, Neil Zhenqiang Gong, Maria Gorlatova

Language-Augmented Semantic Priors for B-Spline Surface Fitting

Yunzhong Lou, Yusheng Luo, Jiahao Li, Yu Song, Xiangdong Zhou

Flash-Unified: A Training-Free and Task-Aware Acceleration Framework for Native Unified Models

Junlong Ke, Zichen Wen, Boxue Yang, Yantai Yang, Xuyang Liu, Chenfei Liao, Zhaorun Chen, Shaobo Wang, Linfeng Zhang

Trajectory-Diversity-Driven Robust Vision-and-Language Navigation

Jiangyang Li, Cong Wan, SongLin Dong, Chenhao Ding, Qiang Wang, Zhiheng Ma, Yihong Gong

V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning

Zixu Cheng, Jian Hu, Ziquan Liu, Chenyang Si, Wei Li, Shaogang Gong

Distilling Counterfactual Reasoning from Language to Vision: Causal Graph-Guided Post-Training for Video Understanding

Yuefei Chen, Jiang Liu, Xiaodong Lin, Ruixiang Tang

Exploring Physics-aware Video Generation through Reinforcement Learning with Autoregressive Tokens

Wang Lin, Liyu Jia, Wentao Hu, Kaihang Pan, Zhongqi Yue, Fengda Zhang, Wei Zhao, Jingyuan Chen, Fei Wu, Hanwang Zhang

Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark

Ziyu Guo, Xinyan Chen, Renrui Zhang, Ruichuan An, Yu Qi, Dongzhi Jiang, Xiangtai Li, Manyuan Zhang, Hongsheng Li, Pheng-Ann Heng

Overthinking Causes Hallucination: Tracing Confounder Propagation in Vision Language Models

Abin Shoby, Ta Duc Huy, Tuan Dung Nguyen, Minh Khoi Ho, Qi Chen, Anton van den Hengel, Phi Le Nguyen, Johan W. Verjans, Vu Minh Hieu Phan

GDP: Graph-Based Dynamic Personalization for Multimodal Large Language Models

Cong Ray, Xiangwen Deng, Feice Huang, ZhengXian Wu, Shen'ao Jiang, Peng Jiao, Zhifang Liu, Haoqian Wang

AnyExperts: On-Demand Expert Allocation for Multimodal Language Models with Mixture of Experts

Yuting Gao, Lan Wang, Hengyuan Zhao, Linjiang Huang, Si Liu, Qingpei Guo

Scaling Spatial Reasoning in MLLMs through Programmatic Data Synthesis

Helu Zhi, Jingjing Huang, Wang Xu, Yangbin Xu, Yibin Huang, Wanyue Zhang, Baoyang Jiang, Shirui Deng, Liang Zhu, FangFang Li, Tiejun Zhao, Yankai Lin, Yuan Yao

Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space

Chengzhi Liu, Yuzhe Yang, Yue Fan, Qingyue Wei, Sheng Liu, Xin Eric Wang

RVLF: A Reinforcing Vision–Language Framework for Gloss-Free Sign Language Translation

Zhi Rao, Yucheng Zhou, Benjia Zhou, Yiqing Huang, Sergio Escalera, Jun Wan

Weaver: End-to-End Agentic System Training for Video Interleaved Reasoning

Yudi Shi, Shangzhe Di, Qirui Chen, Qinian Wang, Jiayin Cai, Xiaolong Jiang, Yao Hu, Weidi Xie

AITP: Traffic Accident Responsibility Allocation via Multimodal Large Language Models

Zijin Zhou, Songan Zhang

Grounding Hierarchical Vision-Language-Action Models Through Explicit Language-Action Alignment

Theodor Wulff, Federico Tavella, Rahul Singh Maharjan, Manith Adikari, Angelo Cangelosi

Fine-Grained Visual Prompt and Region Self-Distillation for Retrieval-Augmented VQA

Yujie Wang, Hu Zhang, Jiye Liang, Zhiqiang Wang, Hongye Tan, Ru Li

RADSeg: Unleashing Parameter and Compute Efficient Zero-Shot Open-Vocabulary Segmentation Using Agglomerative Models

Omar Alama, Darshil Jariwala, Avigyan Bhattacharya, Seungchan Kim, Wenshan Wang, Sebastian Scherer

Modality-Aware Bit Allocation for Mixed-Precision Quantization of Vision-Language Models

Xi Zhang, Hanwei Zhu, Jiamang Wang, Xiaolin Wu, Weisi Lin

Switch-KD: Visual-Switch Knowledge Distillation for Vision-Language Models

Haoyi Sun, Xiaoxiao Wang, Ning Mao, Qian Wang, Lifu Mu, Wen Zheng, Tao Wei, Wei Chen

Analyzing and Enhancing Visual Learning in LLM-based Radiology Report Generation

Zailong Chen, Peng Gao, Johan Barthelemy, Luping Zhou, Lei Wang

DocSLM: A Small Vision-Language Model for Long Multimodal Document Understanding

Tanveer Hannan, Dimitrios Mallios, Parth Pathak, Faegheh Sardari, Thomas Seidl, Gedas Bertasius, Mohsen Fayyaz, Sunando Sengupta

EchoTrail-GUI: Building Actionable Memory for GUI Agents via Critic-Guided Self-Exploration

Runze Li, Yuwen Zhai, Bo Xu, Liwu Xu, Nian Shi, Wei Zhang, Ran Lin, Liang Wang

Semantic Guided Feature Disentanglement and Reconstruction for Domain Adaptive Object Detection

Xiaowei Zhao, Zhide Liu, Yuqing Ma, Xianglong Liu

Dual-Modality Anchor-Guided Filtering for Test-Time Prompt Tuning

Jungwon Choi, Eunwoo Kim

Towards Efficient Multimodal Unified Reasoning Model via Model Merging

Qixiang Yin, Huanjin Yao, Jianghao Chen, Jiaxing Huang, Zhicheng Zhao, Fei Su

DeepSketcher: Internalizing Visual Manipulation for Multimodal Reasoning

Chi Zhang, Haibo Qiu, Qiming Zhang, Zhixiong Zeng, Lin Ma, Jing Zhang

Can Textual Reasoning Improve the Performance of MLLMs on Fine-Grained Visual Classification?

Jie Zhu, Yiyang Su, Xiaoming Liu

VRSA: Jailbreaking Multimodal Large Language Models through Visual Reasoning Sequential Attack

Shiji Zhao, Shukun Xiong, Yao Huang, Jin Yan, Zhenyu Wu, Jiyang Guan, Ranjie Duan, Jialing Tao, Hui Xue, Xingxing Wei

StreamEQA: Towards Streaming Video Understanding for Embodied Scenarios

Yifei Wang, Zhenkai Li, Tianwen Qian, Huanran Zheng, Zheng Wang, Yuqian Fu, Xiaoling Wang

MASS: Motion-Aware Spatial–temporal Grounding for Physics Reasoning and Comprehension in Vision-Language Models

Xiyang Wu, Zongxia Li, Jihui Jin, Gouthaman KV, Vishnu Raj, Nilotpal Sinha, Jingxi Chen, Fan Du, Dinesh Manocha

Beyond Syntax: Action Semantics Learning for App Agents

Bohan Tang, Dezhao Luo, Jianheng Liu, Jingxuan Chen, Shaogang Gong, Jianye Hao, Jun Wang, Kun Shao

Learning to Select Visual In-Context Demonstrations

Eugene Lee, Yu-Chi Lin, Jiajie Diao

CheXmix: Unified Generative Pretraining for Vision Language Models in Medical Imaging

Ashwin Kumar, Robbie Holland, Corey Barrett, Jangwon Kim, Maya Varma, Zhihong Chen, Yunhe Gao, Greg Zaharchuk, Tara Taghavi, Krishnaram Kenthapadi, Akshay Chaudhari

Mull-Tokens: Modality-Agnostic Latent Thinking

Arijit Ray, Ahmed Abdelkader, Chengzhi Mao, Bryan A. Plummer, Kate Saenko, Ranjay Krishna, Leonidas Guibas, Wen-Sheng Chu

SPHINX: A Synthetic Environment for Visual Perception and Reasoning

Md Tanvirul Alam, Saksham Aggarwal, Justin Yang Chae, Nidhi Rastogi

It’s Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models

Jaeha Choi, Jin Won Lee, Siwoo You, Jangho Lee

Uncertainty-Guided Graph Formulation via MWIS for Token Pruning in LVLMs

Jouwon Song, Sohyeon Kim, Kyeongbo Kong

From Alignment to Reason: Multi-Agent Debate for Tactical Badminton Video Retrieval

Yi-Xiang Zhang, Yu-Shuen Wang

Distilling Out-of-Distribution Knowledge from Large Language Models for CLIP Generalization

Qiji Ma, Chuanguang Yang, Zhulin An, Libo Huang, Erhu Zhao, Yuqi Li, Yongjun Xu

Multimodal Reasoning with Explicit Reasoning Patterns and Rewards

Han Qiu, Sheng Jin, Zhongrong Zuo, Ziyue Wang, Qi She, Ling Shao, Shijian Lu

VRAG-DFD: Verifiable Retrieval-Augmentation for MLLM-based Deepfake Detection

Hui Han, Shunli Wang, Yandan Zhao, Taiping Yao, Shouhong Ding

MIRA: Multimodal Iterative Reasoning Agent for Image Editing

Ziyun Zeng, Hang Hua, Jiebo Luo

Mitigating Visual Context Degradation in Large Multimodal Models: A Training-Free Decoupled Agentic Framework

Hongrui Jia, Chaoya Jiang, Shikun Zhang, Wei Ye

CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images

Chengqi Duan, Kaiyue Sun, Rongyao Fang, Manyuan Zhang, Yan Feng, Ying Luo, Yufang Liu, Ke Wang, Peng Pei, Xunliang Cai, Hongsheng Li, Yi Ma, Xihui Liu

Do All Individual Layers Help? An Empirical Study of Task-Interfering Layers in Vision-Language Model

Zhiming Liu, Yujie Wei, Lei Feng, Xiu Su, Xiaobo Xia, Weili Guan, Zeke Xie, Shuo Yang

Recursive Think-Answer Process for LLMs and VLMs

Byung-Kwan Lee, Youngchae Chee, Yong Man Ro

GenSRL: Generative Spatiotemporal Representation Learning for Ophthalmic Prognosis Prediction

Wanyu Zhang, Yanzhao Shi, Chengxin Zheng, Hua Wang, Jianing Wang, Yue Zhang, Xiaobing Yu, Xiaodan Zhang

Ramen: Robust Test-Time Adaptation of Vision-Language Models with Active Sample Selection

Wenxuan Bao, Yanjun Zhao, Xiyuan Yang, Jingrui He

LED: LLM Enhanced Open-Vocabulary Object Detection without Human Curated Data Generation

Yang Zhou, Shiyu Zhao, Yuxiao Chen, Zhenting Wang, Can Jin, Mingyu Zhao, Dimitris N. Metaxas

VSAS-Bench: Real-Time Evaluation of Visual Streaming Assistant Models

Pavan Kumar Anasosalu Vasu, Cem Koc, Fartash Faghri, Chun-Liang Li, Bo Feng, Zhengfeng Lai, Meng Cao, Oncel Tuzel, Hadi Pouransari

Mitigating Vision-Text Order Bias in Vision-Language Model

Weilin Gan, Yifan Song, Zhuocheng Yu, Sujian Li

MARS-RL: Enhancing Multi-Agent RAG Systems for Multi-Modal Documents via Strategic Reasoning with Reinforcement Learning

Zhongyu Wang, Pengbo Liu

Beyond Single Object: Learning 3D Relations with Large Language Models

Kohsuke Ide, Ryousuke Yamada, Yue Qiu, Xianzheng Ma, Yoshihiro Fukuhara, Hirokatsu Kataoka, Yutaka Satoh

CarePilot: A Multi-Agent Framework for Long-Horizon Computer Task Automation in Healthcare

Akash Ghosh, Tajamul Ashraf, Rishu Kumar Singh, Numan Saeed, Sriparna Saha, Xiuying Chen, Salman Khan

Attention-Space Contrastive Guidance for Efficient Hallucination Mitigation in LVLMs

Yujin Jo, Sangyoon Bae, Taesup Kim

UnrealSpace: Analyzing Spatial Understanding and Reasoning in Controllable Simulation

Wufei Ma, Sky Cen, Jianzhi Shen, Rex Lee, León Begiristain, Yan Zhuang, Jiawei Peng, Zhifei Yu, Tianao Song, Xinyuan Qi, Tianmin Shu, Adam Kortylewski, Alan Yuille

Frequency-Modulated Visual Restoration for Matryoshka Large Multimodal Models

Qingtao Pan, Zhihao Dou, Shuo Li

Learning When to Look: A Disentangled Curriculum for Strategic Perception in Multimodal Reasoning

Siqi Yang, Zilve Gao, Haibo Qiu, Fanfan Liu, Peng Shi, Zhixiong Zeng, Qingmin Liao, Lin Ma

Hierarchical Textual Knowledge for Enhanced Image Clustering

Yijie Zhong, Yunfan Gao, Weipeng Jiang, Haofen Wang

Are Multimodal Large Language Models Ready for Omnidirectional Spatial Reasoning?

Zihao Dongfang, Xu Zheng, Ziqiao Weng, Yuanhuiyi Lyu, Danda Pani Paudel, Luc Van Gool, Kailun Yang, Xuming Hu

Entropy-Based Visual Re-perception Inference for Multimodal Models

Jia Liufu, Qiangyu Yan, Zhehan Kan, Wenming Yang, Hailin Hu, Xinghao Chen, Borui Jiang

VACoT: Rethinking Visual Data Augmentation with VLMs

Zhengzhuo Xu, Chong Sun, SiNan Du, Chen Li, Jing Lyu, Chun Yuan

Open World Image Aesthetic Assessment

Mingxiang Liao, Tianren Ma, Xijin Zhang

coDrawAgents: A Multi-Agent Dialogue Framework for Compositional Image Generation

Chunhan Li, Qifeng Wu, Jia-Hui Pan, Ka-Hei Hui, Jingyu Hu, Yuming Jiang, Bin Sheng, Xihui Liu, Wenjuan Gong, Zhengzhe Liu

PosterGen: Aesthetic-Aware Multi-Modal Paper-to-Poster Generation Via Multi-Agent LLMs

Zhilin Zhang, Xiang Zhang, Jiaqi Wei, Yiwei Xu, Chenyu You

Euclid’s Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks

Shijie Lian, Changti Wu, Laurence Tianruo Yang, Hang Yuan, Bin Yu, Lei Zhang, Kai Chen

Why MLLMs Struggle to Determine Object Orientations

Anju Gopinath, Nikhil Krishnaswamy, Bruce Draper

VADE: Variance-Aware Dynamic Sampling via Online Sample-Level Difficulty Estimation for Multimodal Reinforcement Learning

Zengjie Hu, Jiantao Qiu, Tianyi Bai, Haojin Yang, Binhang Yuan, Qi Jing, Conghui He, Wentao Zhang

Less is More: Token-Efficient Video-QA via Adaptive Frame-Pruning and Semantic Graph Integration

Shaoguang Wang, Weiyu Guo, Ziyang Chen, Yijie Xu, Xuming Hu, Hui Xiong

Alleviating Hallucinations in Large Vision-Language Models via Decoding-Time Perturbation Adaptation

Jiaqi Bai, Hongcheng Guo, Jiaheng Liu, Zhibo Zhou, Jian Yang, Feiran Huang

RISE: Enhancing VLM Image Annotation with Self-Supervised Reasoning

Suhang Hu, Wei Hu, Yuhang Su, Fan Zhang

Go to Event Page

Registration

Oral Session 5A: Dynamic Perception

9:00 AM - 10:15 AM

6 Events in this session

Evidential Neural Radiance Fields

Ruxiao Duan ⋅ Alex Wong

Global-Aware Edge Prioritization for Pose Graph Initialization

Tong Wei ⋅ Giorgos Tolias ⋅ Jiri Matas ⋅ Daniel Barath

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

Christopher Clark ⋅ Jieyu Zhang ⋅ Zixian Ma ⋅ Jae Sung Park ⋅ Rohun Tripathi ⋅ Sangho Lee ⋅ Reza Salehi ⋅ Jason Ren ⋅ Chris Dongjoo Kim ⋅ Yinuo Yang ⋅ Vincent Shao ⋅ Yue Yang ⋅ Weikai Huang ⋅ Ziqi Gao ⋅ Taira Anderson ⋅ Jianrui Zhang ⋅ Jitesh Jain ⋅ George Stoica ⋅ Ali Farhadi ⋅ Ranjay Krishna

Optical Flow Matching: Reframing Optical Flow as Continuous Transport Dynamics

Ao Luo ⋅ XIN LI ⋅ Fan Yang ⋅ Yuezun Li ⋅ Zhaoquan Yuan ⋅ SHAN ZHAO ⋅ Bing Su ⋅ Xiao WU

SEATrack: Simple, Efficient, and Adaptive Multimodal Tracker

Junbin Su ⋅ Ziteng Xue ⋅ Shihui Zhang ⋅ Kun Chen ⋅ Weiming Hu ⋅ Zhipeng Zhang

U^2Flow: Uncertainty-Aware Unsupervised Optical Flow Estimation

Xunpei Sun ⋅ Wenwei Lin ⋅ Yi Chang ⋅ Gang Chen

Go to Event Page

Oral

Oral Session 5B: Generalization and Adaptation

9:00 AM - 10:15 AM

6 Events in this session

AToken: A Unified Tokenizer for Vision

Jiasen Lu ⋅ Liangchen Song ⋅ Mingze Xu ⋅ Byeongjoo Ahn ⋅ Yanjun Wang ⋅ Chen Chen ⋅ Afshin Dehghan ⋅ Yinfei Yang

Confusion-Aware Spectral Regularizer for Long-Tailed Recognition

Ziquan Zhu ⋅ Gaojie Jin ⋅ Hanruo Zhu ⋅ Si-Yuan Lu ⋅ Yunxiao Zhang ⋅ ZEYU FU ⋅ Ronghui Mu ⋅ Guoqiang Zhang ⋅ Zhao Sun ⋅ Yuhang Xia ⋅ Jiaxing Shang ⋅ Xiang Li ⋅ Lu Liu ⋅ Tianjin Huang

Learning Latent Concepts for Detecting Out-of-Distribution Objects

Ting Peng ⋅ Junhao Dong ⋅ Yew-Soon Ong

Learning Like Humans: Analogical Concept Learning for Generalized Category Discovery

Jizhou Han ⋅ Chenhao Ding ⋅ Yuhang He ⋅ Qiang Wang ⋅ Shaokun Wang ⋅ SongLin Dong ⋅ Yihong Gong

Understanding and Enforcing Weight Disentanglement in Task Arithmetic

Shangge Liu ⋅ Yuehan Yin ⋅ Lei Wang ⋅ Qi Fan ⋅ Yinghuan Shi ⋅ Wenbin Li ⋅ Yang Gao ⋅ Dacheng Tao

Understanding Task Transfer in Vision-Language Models

Bhuvan Sachdeva ⋅ Karan Uppal ⋅ Abhinav Java ⋅ Vineeth Balasubramanian

Go to Event Page

Oral

Oral Session 5C: Geometry and Robotics

9:00 AM - 10:15 AM

6 Events in this session

AT-VLA: Adaptive Tactile Injection for Enhanced Feedback Reaction in Vision-Language-Action Models

Xiaoqi Li ⋅ Muhe Cai ⋅ Jiadong Xu ⋅ Juan Zhu ⋅ Hongwei Fan ⋅ Yan Shen ⋅ Guangrui Ren ⋅ Hao Dong

Learning Diffeomorphism for Medical Image Registration with Time-Embedded Architectures Using Semigroup Regularization

Mohammadjavad Matinkia ⋅ Nilanjan Ray

QuadSync: Quadrifocal Tensor Synchronization via Tucker Decomposition

Daniel Miao ⋅ Gilad Lerman ⋅ Joe Kileel

SocialNav: Training Human-Inspired Foundation Model for Socially-Aware Embodied Navigation

Ziyi Chen ⋅ Yingnan Guo ⋅ Zedong Chu ⋅ Minghua Luo ⋅ Yanfen Shen ⋅ Mingchao Sun ⋅ Junjun Hu ⋅ Shichao Xie ⋅ Yang Kuan ⋅ Pei Shi ⋅ Zhining Gu ⋅ Lu Liu ⋅ Honglin Han ⋅ Xiaolong Wu ⋅ Mu Xu ⋅ Yu Zhang

Structural Action Transformer for 3D Dexterous Manipulation

Xiaohan Lei ⋅ Min Wang ⋅ Bohong Weng ⋅ Wengang Zhou ⋅ Houqiang Li

TESO: Online Tracking of Essential Matrix by Stochastic Optimization

Jaroslav Moravec ⋅ Radim Sara ⋅ Akihiro Sugimoto

Go to Event Page

Oral

Oral Session 5D: Human-Centric Modeling & Lighting

9:00 AM - 10:15 AM

6 Events in this session

BoostSLT: Boosting Sign Language Translation via a Plug-and-Play Diffusion-Based Semantic Enhancer

Changzhou Han ⋅ Wanlun Ma ⋅ XI TANG ⋅ Kun Hu ⋅ Sheng Wen ⋅ Yang Xiang

ImmerIris: A Large-Scale Dataset and Benchmark for Off-Axis and Unconstrained Iris Recognition in Immersive Applications

Yuxi Mi ⋅ Qiuyang Yuan ⋅ Zhizhou Zhong ⋅ Xuan Zhao ⋅ Jiaogen Zhou ⋅ Fubao Zhu ⋅ Jihong Guan ⋅ Shuigeng Zhou

OLATverse: A Large-scale Real-world Object Dataset with Precise Lighting Control

Xilong Zhou ⋅ Jianchun Chen ⋅ Pramod Rao ⋅ Timo Teufel ⋅ Linjie Lyu ⋅ Tigran Minasian ⋅ Oleksandr Sotnychenko ⋅ Xiaoxiao Long ⋅ Marc Habermann ⋅ Christian Theobalt

OpenDance: Multimodal Controllable 3D Dance Generation with Large-scale Internet Data

Jinlu Zhang ⋅ Zixi Kang ⋅ Libin Liu ⋅ Jianlong Chang ⋅ Qi Tian ⋅ Feng Gao ⋅ Yizhou Wang

POLAR: A Portrait OLAT Dataset and Generative Framework for Illumination-Aware Face Modeling

Zhuo Chen ⋅ Chengqun Yang ⋅ Zhuo Su ⋅ Zheng Lv ⋅ Jingnan Gao ⋅ Xiaoyuan Zhang ⋅ Xiaokang Yang ⋅ Yichao Yan

Relightable Holoported Characters: Capturing and Relighting Dynamic Human Performance from Sparse Views

Kunwar Maheep Singh ⋅ Jianchun Chen ⋅ Vladislav Golyanik ⋅ Stephan Garbin ⋅ Thabo Beeler ⋅ Rishabh Dabral ⋅ Marc Habermann ⋅ Christian Theobalt

Go to Event Page

Invited Talk

Scaling Laws vs. Neural Laws: Toward More Natural Artificial Vision

Thomas Serre

10:30 AM - 11:30 AM

The remarkable progress of modern computer vision has been propelled by the relentless logic of scaling laws: bigger models, more data, more compute, predictably better performance. On benchmarks like ImageNet, deep networks now match or even surpass human accuracy. Yet beneath these headline results, the alignment with human vision is fragile: on deceptively simple probes from the cognitive sciences, even the largest models drop to near-chance, and on ImageNet itself, models that reach human accuracy do so by strikingly different visual strategies — a divergence that, troublingly, widens with scale.

In this plenary, I will argue that the path to more natural artificial vision lies not in pushing scaling laws further, but in a deeper engagement with the neural laws of biological vision: developmental principles that shape how brains learn to see, and architectural constraints that impose strong inductive biases on cortical processing. I will share recent work from my lab on two such laws. On the learning side, I will present preliminary evidence that pairing the right learning objectives with naturalistic video — sequences of object transformations like those the developing brain encounters — can pull deep networks toward markedly more human-like visual strategies. On the architectural side, I will show how recent advances in state space models can scale cortical recurrent feedback into a brain-inspired alternative to transformer self-attention, one that closes the gap on cognitive probes where transformers fail, and on ImageNet traces more favorable scaling laws than transformers.

Together, these results point toward a future in which scaling laws and neural laws are in agreement rather than in tension, and in which computer vision, in dialogue with the brain sciences, helps build AI systems that are not only more capable but more aligned with the kind of intelligence we ultimately seek to understand and emulate.

... more

Speaker Bio

Dr. Serre is a Professor of Cognitive and Psychological Sciences as well as Computer Science. He received his Ph.D. in Neuroscience from MIT in 2006 and his M.Sc. in Electrical Engineering and Computer Science from Télécom Bretagne in France in 2000. His research focuses on understanding the neural computations that support visual perception, and it has been featured in various media outlets, including the BBC, The Economist, New Scientist, Scientific American, Technology Review, and Slashdot. Dr. Serre serves as the Faculty Director of the Center for Computation and Visualization and the Associate Director of the Center for Computational Brain Science. He is also an affiliate of the Carney Institute for Brain Science and the Data Science Institute at Brown University. Additionally, he holds an International Chair in Artificial Intelligence at the Artificial and Natural Intelligence Toulouse Institute in France. He has actively participated as an area chair and senior program committee member for prestigious machine learning and computer vision conferences, such as AAAI, CVPR, ICML, ICLR, and NeurIPS. Dr. Serre is a Neuroscience section editor for the journal PLOS Computational Biology. He has received several awards, including the NSF Early Career Award, DARPA’s Young Faculty Award, and the Director's Award. Along with his team, he was awarded the 2021 PAMI Helmholtz Prize and the 2022 PAMI Mark Everingham Prize for their work on human action recognition.

... more

Session

Art Exhibition

Luba Elliott

11:45 AM - 3:00 PM

The Art Gallery presents 84 works in video format alongside 24 individual installations:

Sun Chuanqi & Yuhan Wang, Dream Brush (2026)
Mingyong Cheng The Silhouette Seeker (2026)
Myungin Lee & Noah Bissell & Ethan Paley & Amanda Wang Sensorium Arc: AI Agent System for Oceanic Data Exploration and Interactive Eco-Art (2025)
Nick Oh & Alex Park artefact(s): LeNet-1 (2026)
Nicolas Romano Techno-juggling (2026)
Shih-Chieh Su PASTEL (2026)
Uttam Grandhi Cubic Visions (2026)
Yalin Wang Stellar Pathfinding (2025)
Veronika Szücs & Maximilian Noichl, The Thousand Names of Macskusz (2026)
Yamin Xu No.5 (2026)
Rundong Luo, Shadow Art From Everyday Objects (2026)
Apolinário Passos, GlitchBox (2025)
Zhanpei Fang, Stanford Bunny (2026)
Matt DesLauriers Synthetic Gestures (2026)
Aastha Valecha, Afterglow (2026)
Anthony Luo, Introducing 16047 38 2898 (2026)
Daniel Ambrosi, Schynige Platte ‘Stratamorphic Dream’ (2026)
Garrett Lynch IRL & Frédérique Santune, Image/Object (2026)
Marco Zaccaria Di Fraia, Virtual Water (2026)
William Latham & Stephen Todd & Dylan Banarse, Half Way to Butterflies. Mutator and Gemini Research and Art Software (2025)
Tom White, Synesthetic Visions (2026)
Ioannis Siglidis, IIRd, or why data can't tell its own narrative (2026)
Anna Borou Yu & Jiajian Min & Qingyun Liu, Interdependent Visibility (2025)
Avital Meshi & Dorte Bjerre Jensen Rest! (2026)

... more

Session

Art Gallery Tour with Curator and Artists

Luba Elliott

11:45 AM - 12:15 PM

The curator of the CVPR Art Gallery, Luba Elliott, and participating artists will walk through the installations and select video works.

... more

Demonstration

Demos Session 5

11:45 AM - 1:45 PM

FOVEA: Flexible Ontology Visual Event Analyzer
Aaron Steven White
Rapid 3D Object Annotation through In-Situ Geometric Grounding
Narges Honarvar Nazari
EMMA: Extracting Multiple Physical Parameters from Multimodal Data
Farhat Shaikh, Ayan Banerjee, Sandeep Gupta
SparkVSR: Interactive Video Super-Resolution via Sparse Keyframe Propagation
Jiongze Yu, Xiangbo Gao, Pooja Verlani, Akshay Gadde, Yilin Wang, Balu Adsumilli, Zhengzhong Tu
Occlusion Aware 3D Scene Control in Text-to-Image Generation
Vaibhav Agrawal, Rishubh Parihar, Pradhaan S Bhat, Ravi Kiran S, Venkatesh Babu R
Authenticating Matryoshka Nesting Dolls via Zero-Shot 3D Completion
Yulia Kumar, Srotriyo Sengupta

... more

Poster

Poster Session 5 & Exhibit Hall

11:45 AM - 1:45 PM

704 Events in this session

Evidential Neural Radiance Fields

Ruxiao Duan ⋅ Alex Wong

Global-Aware Edge Prioritization for Pose Graph Initialization

Tong Wei ⋅ Giorgos Tolias ⋅ Jiri Matas ⋅ Daniel Barath

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

Optical Flow Matching: Reframing Optical Flow as Continuous Transport Dynamics

Ao Luo ⋅ XIN LI ⋅ Fan Yang ⋅ Yuezun Li ⋅ Zhaoquan Yuan ⋅ SHAN ZHAO ⋅ Bing Su ⋅ Xiao WU

SEATrack: Simple, Efficient, and Adaptive Multimodal Tracker

Junbin Su ⋅ Ziteng Xue ⋅ Shihui Zhang ⋅ Kun Chen ⋅ Weiming Hu ⋅ Zhipeng Zhang

U^2Flow: Uncertainty-Aware Unsupervised Optical Flow Estimation

Xunpei Sun ⋅ Wenwei Lin ⋅ Yi Chang ⋅ Gang Chen

AToken: A Unified Tokenizer for Vision

Jiasen Lu ⋅ Liangchen Song ⋅ Mingze Xu ⋅ Byeongjoo Ahn ⋅ Yanjun Wang ⋅ Chen Chen ⋅ Afshin Dehghan ⋅ Yinfei Yang

Confusion-Aware Spectral Regularizer for Long-Tailed Recognition

Learning Latent Concepts for Detecting Out-of-Distribution Objects

Ting Peng ⋅ Junhao Dong ⋅ Yew-Soon Ong

Learning Like Humans: Analogical Concept Learning for Generalized Category Discovery

Jizhou Han ⋅ Chenhao Ding ⋅ Yuhang He ⋅ Qiang Wang ⋅ Shaokun Wang ⋅ SongLin Dong ⋅ Yihong Gong

Understanding and Enforcing Weight Disentanglement in Task Arithmetic

Shangge Liu ⋅ Yuehan Yin ⋅ Lei Wang ⋅ Qi Fan ⋅ Yinghuan Shi ⋅ Wenbin Li ⋅ Yang Gao ⋅ Dacheng Tao

Understanding Task Transfer in Vision-Language Models

Bhuvan Sachdeva ⋅ Karan Uppal ⋅ Abhinav Java ⋅ Vineeth Balasubramanian

AT-VLA: Adaptive Tactile Injection for Enhanced Feedback Reaction in Vision-Language-Action Models

Xiaoqi Li ⋅ Muhe Cai ⋅ Jiadong Xu ⋅ Juan Zhu ⋅ Hongwei Fan ⋅ Yan Shen ⋅ Guangrui Ren ⋅ Hao Dong

Learning Diffeomorphism for Medical Image Registration with Time-Embedded Architectures Using Semigroup Regularization

Mohammadjavad Matinkia ⋅ Nilanjan Ray

QuadSync: Quadrifocal Tensor Synchronization via Tucker Decomposition

Daniel Miao ⋅ Gilad Lerman ⋅ Joe Kileel

SocialNav: Training Human-Inspired Foundation Model for Socially-Aware Embodied Navigation

Structural Action Transformer for 3D Dexterous Manipulation

Xiaohan Lei ⋅ Min Wang ⋅ Bohong Weng ⋅ Wengang Zhou ⋅ Houqiang Li

TESO: Online Tracking of Essential Matrix by Stochastic Optimization

Jaroslav Moravec ⋅ Radim Sara ⋅ Akihiro Sugimoto

BoostSLT: Boosting Sign Language Translation via a Plug-and-Play Diffusion-Based Semantic Enhancer

Changzhou Han ⋅ Wanlun Ma ⋅ XI TANG ⋅ Kun Hu ⋅ Sheng Wen ⋅ Yang Xiang

ImmerIris: A Large-Scale Dataset and Benchmark for Off-Axis and Unconstrained Iris Recognition in Immersive Applications

Yuxi Mi ⋅ Qiuyang Yuan ⋅ Zhizhou Zhong ⋅ Xuan Zhao ⋅ Jiaogen Zhou ⋅ Fubao Zhu ⋅ Jihong Guan ⋅ Shuigeng Zhou

OLATverse: A Large-scale Real-world Object Dataset with Precise Lighting Control

Xilong Zhou ⋅ Jianchun Chen ⋅ Pramod Rao ⋅ Timo Teufel ⋅ Linjie Lyu ⋅ Tigran Minasian ⋅ Oleksandr Sotnychenko ⋅ Xiaoxiao Long ⋅ Marc Habermann ⋅ Christian Theobalt

OpenDance: Multimodal Controllable 3D Dance Generation with Large-scale Internet Data

Jinlu Zhang ⋅ Zixi Kang ⋅ Libin Liu ⋅ Jianlong Chang ⋅ Qi Tian ⋅ Feng Gao ⋅ Yizhou Wang

POLAR: A Portrait OLAT Dataset and Generative Framework for Illumination-Aware Face Modeling

Zhuo Chen ⋅ Chengqun Yang ⋅ Zhuo Su ⋅ Zheng Lv ⋅ Jingnan Gao ⋅ Xiaoyuan Zhang ⋅ Xiaokang Yang ⋅ Yichao Yan

Relightable Holoported Characters: Capturing and Relighting Dynamic Human Performance from Sparse Views

Kunwar Maheep Singh ⋅ Jianchun Chen ⋅ Vladislav Golyanik ⋅ Stephan Garbin ⋅ Thabo Beeler ⋅ Rishabh Dabral ⋅ Marc Habermann ⋅ Christian Theobalt

Scaling View Synthesis Transformers

Evan Kim ⋅ Hyunwoo Ryu ⋅ Thomas W. Mitchel ⋅ Vincent Sitzmann

WildPose: A Unified Framework for Robust Pose Estimation in the Wild

Jianhao Zheng ⋅ Liyuan Zhu ⋅ Zihan Zhu ⋅ Iro Armeni

MoRe: Motion-aware Feed-forward 4D Reconstruction Transformer

Juntong Fang ⋅ Zequn Chen ⋅ Weiqi Zhang ⋅ Donglin Di ⋅ Xuancheng Zhang ⋅ Chengmin Yang ⋅ Yu-Shen Liu

Revisiting Monocular SLAM with Spatio-Temporal Scene Modeling

Valter Piedade ⋅ Lalit Manam ⋅ Masashi Yamazaki ⋅ Pedro Miraldo

Minimal Constraint Relaxation for Multiview Autocalibration

Norio Kosaka ⋅ Timothy Duff ⋅ Tomas Pajdla

Motion 3-to-4: 3D Motion Reconstruction for 4D Synthesis

hongyuan chen ⋅ Xingyu Chen ⋅ Zexiang Xu ⋅ Anpei Chen

GGPT: Geometry-Grounded Point Transformer

Yutong Chen ⋅ Yiming Wang ⋅ Xucong Zhang ⋅ Sergey Prokudin ⋅ Siyu Tang

MERG3R: A Divide-and-Conquer Approach to Large-Scale Neural Visual Geometry

Leo Kaixuan Cheng ⋅ Abdus Shaikh ⋅ Ruofan Liang ⋅ Zhijie Wu ⋅ Yushi Guan ⋅ Nandita Vijaykumar

Unlocking the Power of Critical Factors for 3D Visual Geometry Estimation

Guangkai Xu ⋅ Hua Geng ⋅ Huanyi Zheng ⋅ Songyi Yin ⋅ Yanlong Sun ⋅ Hao Chen ⋅ Chunhua Shen

KV-Tracker: Real-Time Pose Tracking with Transformers

Marwan Taher ⋅ Ignacio Alzugaray ⋅ Kirill Mazur ⋅ Xin Kong ⋅ Andrew J. Davison

InstructMix2Mix: Consistent Sparse-View Editing Through Multi-View Model Personalization

Daniel Gilo ⋅ Or Litany

From Rays to Projections: Better Inputs for Feed-Forward View Synthesis

Zirui Wu ⋅ Zeren Jiang ⋅ Martin R. Oswald ⋅ Jie Song

SLARM: Streaming and Language-Aligned Reconstruction Model for Dynamic Scenes

ZhiCheng Qiu ⋅ Jiarui Meng ⋅ Tong-an Luo ⋅ Yican Huang ⋅ Xuan Feng ⋅ Xuanfu Li ⋅ Zhan Xu

Parallel Rigidity Matters for Bundle Adjustment

Lalit Manam ⋅ Venu Madhav Govindu

Simple but Effective Triplet-Based Compression Strategies for Compact Visual Localization

Torsten Sattler ⋅ Zuzana Kukelova

VIAFormer: Voxel-Image Alignment Transformer for High-Fidelity Voxel Refinement

Tiancheng Fang ⋅ Bowen Pan ⋅ Lingxi Chen ⋅ Jiangjing Lyu ⋅ Chengfei Lv ⋅ Chaoyue Niu ⋅ Fan Wu

Mining Attribute Subspaces for Efficient Fine-tuning of 3D Foundation Models

Yu Jiang ⋅ Hanwen Jiang ⋅ Ahmed Abdelkader ⋅ Wen-Sheng Chu ⋅ Brandon Y. Feng ⋅ Zhangyang Wang ⋅ Qixing Huang

DualPrim: Compact 3D Reconstruction with Positive and Negative Primitives

Xiaoxu Meng ⋅ Zhongmin Chen ⋅ Bo Yang ⋅ Weikai Chen ⋅ Weixiao Liu ⋅ Lin Gao

StyleGallery: Training-free and Semantic-aware Personalized Style Transfer from Arbitrary Image References

Boyu He ⋅ Yunfan Ye ⋅ Chang Liu ⋅ Weishang Wu ⋅ FANG LIU ⋅ Zhiping Cai

DynFusion: Rethinking Condition Fusion for Adaptive Multi-Conditional Text-to-Image Generation

Zheng Fang ⋅ Lichuan Xiang ⋅ Xu Cai ⋅ Bing Wang ⋅ Bo Yang ⋅ Hongkai Wen

Agentic Retoucher for Text-To-Image Generation

Shaocheng Shen ⋅ Jianfeng Liang ⋅ Chunlei Cai ⋅ Cong Geng ⋅ Huiyu Duan ⋅ Xiaoyun Zhang ⋅ Qiang Hu ⋅ Guangtao Zhai

StyleDoctor: Towards Specialist Reward Model for Style-centric Generation Tasks

Xilin He ⋅ Xiaole Xian ⋅ Xiangyu Yue ⋅ Muhammad Haris Khan

SwitchCraft: Training-Free Multi-Event Video Generation with Attention Controls

Qianxun Xu ⋅ Chenxi Song ⋅ Yujun Cai ⋅ Chi Zhang

Premier: Personalized Preference Modulation with Learnable User Embedding in Text-to-Image Generation

Zihao Wang ⋅ Yuxiang Wei ⋅ Xinpeng Zhou ⋅ Tianyu Zhang ⋅ Tao Liang ⋅ Yalong Bai ⋅ Hongzhi Zhang ⋅ Wangmeng Zuo

Paper2Figure: A Multi-Agent Collaborative System for Figure Generation Towards Academic Research Paper

Siwei Han ⋅ Haonian Ji ⋅ Siyang Xin ⋅ Juanquan Shi ⋅ Shi Qiu ⋅ Xinyu Ye ⋅ Peng Xia ⋅ Jiaqi Liu ⋅ Zhaorun Chen ⋅ Yiyang Zhou ⋅ Linjie Li ⋅ Lijuan Wang ⋅ Huaxiu Yao

Adapting In-context Generation for Enhanced Composed Image Retrieval

Haiwen Li ⋅ Zining Chen ⋅ Delong Liu ⋅ Zhaohui Hou ⋅ Zhicheng Zhao ⋅ Fei Su

Transition Models: Rethinking the Generative Learning Objective

ZiDong Wang ⋅ Yiyuan Zhang ⋅ Xiaoyu Yue ⋅ Xiangyu Yue ⋅ Yangguang Li ⋅ Wanli Ouyang ⋅ Lei Bai

Rethinking Glyph Spatial Information in Font Generation

Peng Su ⋅ Xi Yang

StreamDiT: Real-Time Streaming Text-to-Video Generation

Akio Kodaira ⋅ Tingbo Hou ⋅ Ji Hou ⋅ Markos Georgopoulos ⋅ Felix Juefei-Xu ⋅ Masayoshi Tomizuka ⋅ Yue Zhao

ChArtist: Generating Pictorial Charts with Unified Spatial and Subject Control

Shishi Xiao ⋅ Tongyu Zhou ⋅ David H. Laidlaw ⋅ Gromit Yeuk-Yin Chan

Camera Control for Text-to-Image Generation via Learning Viewpoint Tokens

Xinxuan Lu ⋅ Charless Fowlkes ⋅ Alex Berg

3D Space as a Scratchpad for Editable Text-to-Image Generation

Oindrila Saha ⋅ Vojtech Krs ⋅ Radomir Mech ⋅ Subhransu Maji ⋅ Matheus Gadelha ⋅ Kevin Blackburn-Matzen

Aligning Multi-Character Narrative Image Generation with Multi-Aspect Human Preferences

Ziyi Gao ⋅ Zhipeng Wei ⋅ Jingjing Chen ⋅ Stewart Tan ⋅ Hao li ⋅ Yi-Ping Phoebe Chen

FoleyDirector: Directing Temporal Controllable Video-to-Audio Generation via Fine-Grained Temporal Scripts

You Li ⋅ Dewei Zhou ⋅ Fan Ma ⋅ Fu Li ⋅ Dongliang He ⋅ Yi Yang

DCoAR: Deep Concept Injection into Unified Autoregressive Models for Personalized Text-to-Image Generation

Fangtai Wu ⋅ Mushui Liu ⋅ Weijie He ⋅ Zhao Wang ⋅ Yunlong Yu

DreamOmni2: Multimodal Instruction-based Generation and Editing

Bin Xia ⋅ Bohao Peng ⋅ Yuechen Zhang ⋅ Junjia Huang ⋅ Jiyang Liu ⋅ Jingyao Li ⋅ Haoru Tan ⋅ WU Sitong ⋅ Chengyao Wang ⋅ Yitong Wang ⋅ Bei Yu ⋅ Jiaya Jia

AutoDebias: An Automated Framework for Detecting and Mitigating Backdoor Biases in Text-to-Image Models

Hongyi Cai ⋅ HONGYI CAI ⋅ MingKang Dong ⋅ Muxin Pu ⋅ Moayad Aloqaily ⋅ jie li ⋅ Xinfeng Li ⋅ Jialie Shen ⋅ Meikang Qiu ⋅ Qingsong Wen

PosterIQ: A Design Perspective Benchmark for Poster Understanding and Generation

Yuheng Feng ⋅ Wen Zhang ⋅ Haodong Duan ⋅ Xingxing Zou

IVAAN: Instance-level Vision-Language Alignment via Attribute-Guided Text Prompts Generation for Nuclei Analysis

Jaehoon Jeong ⋅ Yi Hu ⋅ Soopil Kim ⋅ Jongseong Jang ⋅ Soonyoung Lee ⋅ Sang Hyun Park

IsoCLIP: Decomposing CLIP Projectors for Efficient Intra-modal Alignment

Simone Magistri ⋅ Dipam Goswami ⋅ Marco Mistretta ⋅ Bartłomiej Twardowski ⋅ Joost van de Weijer ⋅ Andrew Bagdanov

TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment

Bingyi Cao ⋅ Koert Chen ⋅ Kevis-kokitsi Maninis ⋅ Kaifeng Chen ⋅ Arjun Karpur ⋅ Ye Xia ⋅ Sahil Dua ⋅ Tanmaya Dabral ⋅ Guangxing Han ⋅ Bohyung Han ⋅ Joshua Ainslie ⋅ Alex Bewley ⋅ Mithun Jacob ⋅ René Wagner ⋅ Washington Ramos ⋅ Krzysztof Choromanski ⋅ Mojtaba Seyedhosseini ⋅ Howard Zhou ⋅ André Araujo

BioVITA: Biological Dataset, Model, and Benchmark for Visual-Textual-Acoustic Alignment

Risa Shinoda ⋅ Kaede Shiohara ⋅ Nakamasa Inoue ⋅ Kuniaki Saito ⋅ Hiroaki Santo ⋅ Fumio Okura

Boosting Visual Reprogramming for CLIP with Dual Granularity Alignment

Jiayang Wu ⋅ Xinyang Chen ⋅ Ke Lv ⋅ Weili Guan

Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning

Tingyu Li ⋅ Zheng Sun ⋅ Jingxuan Wei ⋅ Conghui He ⋅ Lijun Wu ⋅ Cheng Tan

UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in RL

Rui Tian ⋅ Mingfei Gao ⋅ Haiming Gang ⋅ Jiasen Lu ⋅ Zhe Gan ⋅ Yinfei Yang ⋅ Zuxuan Wu ⋅ Afshin Dehghan

PolySLGen: Online Multimodal Speaking-Listening Reaction Generation in Polyadic Interaction

Zhi-Yi Lin ⋅ Thomas Markhorst ⋅ Jouh Yeong Chew ⋅ Xucong Zhang

Label What Matters: Modality-Balanced and Difficulty-Aware Multimodal Active Learning

Yuqiao Zeng ⋅ Xu Wang ⋅ Tengfei Liang ⋅ Yiqing Hao ⋅ Yi Jin ⋅ Hui Yu

Unified Personalized Understanding, Generating and Editing

Yu Zhong ⋅ Tianwei Lin ⋅ Ruike Zhu ⋅ Yuqian Yuan ⋅ Haoyu Zheng ⋅ Liang Liang ⋅ Wenqiao Zhang ⋅ Feifei Shao ⋅ Haoyuan Li ⋅ Wanggui He ⋅ Hao Jiang ⋅ Yueting Zhuang

MSRL: Scaling Generative Multimodal Reward Modeling via Multi-Stage Reinforcement Learning

Chenglong Wang ⋅ Yifu Huo ⋅ Yang Gan ⋅ Qiaozhi He ⋅ Qi Meng ⋅ Bei Li ⋅ Yan Wang ⋅ Junfu Liu ⋅ Tianjua Zhou ⋅ JingBo Zhu ⋅ Tong Xiao

Towards Uncertainty-aware Unsupervised Domain Adaptation for Videos and Time-Series with Causal Optimal Transport

Khushboo Mishra ⋅ Varun Trivedi ⋅ Tanima Dutta

Foundation Model Priors Enhance Object Focus in Feature Space for Source-Free Object Detection

Sairam Rebbapragada ⋅ Rishabh Lalla ⋅ Aveen Dayal ⋅ Tejal Kulkarni ⋅ Anuj Lalla ⋅ Vineeth Balasubramanian ⋅ Muhammad Haris Khan

Decision Boundary-aware Generation for Long-tailed Learning

jiacheng yang ⋅ Ruichi Zhang ⋅ Chikai Shang ⋅ Mengke Li ⋅ Xinyi Shang ⋅ Junlong Gao ⋅ Yonggang Zhang ⋅ Yang Lu

Towards Stable Federated Continual Test-Time Adaptation in Wild World

Liwen Wang ⋅ Xingbo Dong ⋅ Yi Liao ⋅ Zhe Jin

HyCal: A Training-Free Prototype Calibration Method for Cross-Discipline Few-Shot Class-Incremental Learning

Eunju Lee ⋅ MiHyeon Kim ⋅ Junehyoung Kwon ⋅ Yoonji Lee ⋅ JiHyun Kim ⋅ Soojin Jang ⋅ YoungBin Kim

ACE-Merging: Data-Free Model Merging with Adaptive Covariance Estimation

Bo Xu ⋅ Haotian Wu ⋅ Hehai Lin ⋅ Weiquan Huang ⋅ Beier Zhu ⋅ Yao Shu ⋅ Chengwei Qin

CHIPS: Efficient CLIP Adaptation via Curvature-aware Hybrid Influence-based Data Selection

Xinlin Zhuang ⋅ Yichen Li ⋅ Xiwei Liu ⋅ Haolin Yang ⋅ Yifan Lu ⋅ Ziyun Zou ⋅ Yulong Li ⋅ Huifa Li ⋅ Dongliang Chen ⋅ Qinglei Wang ⋅ Weiyang Liu ⋅ Ying Qian ⋅ Jiangming Shi ⋅ Imran Razzak

Addressing Exacerbated Attention Sink for Source-Free Cross-Domain Few-Shot Learning

Shuai Yi ⋅ Yixiong Zou ⋅ Yuhua Li ⋅ Ruixuan Li

Depth Hypothesis Guided Iterative Refinement for Event–Image Monocular Depth Estimation

Daikun Liu ⋅ Teng Wang ⋅ Changyin Sun

High-Quality and Efficient Turbulence Mitigation with Events

Xiaoran Zhang ⋅ Jian Ding ⋅ Yuxing Duan ⋅ Haoyue Liu ⋅ Gang Chen ⋅ Yi Chang ⋅ Luxin Yan

Tracking through Severe Occlusion via Event-Derived Transient Cues

Hao Dong ⋅ Yujin Liu ⋅ Haoyue Liu ⋅ Zhenyu Wang ⋅ Shihan Peng ⋅ Zhiwei Shi ⋅ Yi Chang ⋅ Luxin Yan

FastEventDGS: Deformable Gaussian Splatting for Fast Dynamic Scenes from a Single Event Camera

Zijia Dai ⋅ Nico Messikommer ⋅ Rong Zou ⋅ Nikola Zubic ⋅ Davide Scaramuzza ⋅ Laurent Kneip

Event-Based Motion Deblurring Using Task-Oriented 3D Gaussian Event Representations

Shengdong Xue ⋅ Haoxiang Ma ⋅ Hao Chen ⋅ Zhen Yang ⋅ Yongjian Deng

From Corners to Fiducial Tags: Revisiting Checkerboard Calibration for Event Cameras

Taehun Ryu ⋅ Changwoo Kang ⋅ Kyungdon Joo

Extending Embodied Question Answering from Perception to Decision

Xicheng Gong ⋅ Qiwei Li ⋅ Peiran Xu ⋅ Yadong Mu

Dejavu: Towards Experience Feedback Learning for Embodied Intelligence

Shaokai Wu ⋅ Yanbiao Ji ⋅ Qiuchang Li ⋅ Zhiyi Zhang ⋅ Qichen He ⋅ Wenyuan XIE ⋅ Guodong Zhang ⋅ Bayram Bayramli ⋅ Yue Ding ⋅ Hongtao Lu

Demo2Tutorial: From Human Experience to Multimodal Software Tutorials

Zechen Bai ⋅ Zhiheng Chen ⋅ Yiqi Lin ⋅ Kevin Qinghong Lin ⋅ Difei Gao ⋅ Xiangwu Guo ⋅ Xin Wang ⋅ Mike Zheng Shou

MaskDexGrasp: Generative Masked Modeling for Part-Aware Dexterous Grasp Synthesis

Binghui Zuo ⋅ Lin Zhou ⋅ Haoxuan Xu ⋅ Jianan Yan ⋅ ZhiPeng Yu ⋅ Zekai Liu ⋅ Yangang Wang

Predict Before You Explore: Predictive Planning with Specialized Memory for Embodied Question Answering

Bowen Yuan ⋅ Sisi You ⋅ Bing-Kun Bao

VideoWeaver: Multimodal Multi-View Video-to-Video Transfer for Embodied Agents

George Eskandar ⋅ Fengyi Shen ⋅ Mohammad Altillawi ⋅ Dong Chen ⋅ Yang Bai ⋅ Liudi Yang ⋅ Ziyuan Liu

MindPower: Enabling Theory-of-Mind Reasoning in VLM-based Embodied Agents

Ruoxuan Zhang ⋅ Qiyun Zheng ⋅ Zhiyu Zhou ⋅ Ziqi Liao ⋅ Siyu Wu ⋅ Jian-Yu Jiang-Lin ⋅ Bin Wen ⋅ Hongxia Xie ⋅ Jianlong Fu ⋅ Wen-Huang Cheng

Align While Search: Belief-Guided Exploratory Inference for World-Grounded Embodied Agents

Seohui Bae ⋅ Jeonghye Kim ⋅ Youngchul Sung ⋅ Woohyung Lim

Rethinking Intermediate Representation for VLM-based Robot Manipulation

Weiliang Tang ⋅ Jialin Gao ⋅ Jia-Hui Pan ⋅ Gang Wang ⋅ Li Erran Li ⋅ Yun-Hui Liu ⋅ Mingyu Ding ⋅ Pheng-Ann Heng ⋅ Chi-Wing Fu

Dexterous World Models

Byungjun Kim ⋅ Taeksoo Kim ⋅ Junyoung Lee ⋅ Hanbyul Joo

FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-and-Language Navigation

Jing Zuo ⋅ Lingzhou Mu ⋅ Fan Jiang ⋅ Chengcheng Ma ⋅ Mu Xu ⋅ Yonggang Qi

UniLight: A Unified Representation for Lighting

Zitian Zhang ⋅ Iliyan Georgiev ⋅ Michael Fischer ⋅ Yannick Hold-Geoffroy ⋅ Jean-François Lalonde ⋅ Valentin Deschaintre

MICo-150K: A Comprehensive Dataset Advancing Multi-Image Composition

Xinyu Wei ⋅ Kangrui Cen ⋅ Hongyang Wei ⋅ Zhen Guo ⋅ Bairui Li ⋅ Zeqing Wang ⋅ Jinrui Zhang ⋅ Lei Zhang

Upsample Anything: A Simple and Hard to Beat Baseline for Feature Upsampling

Minseok Seo ⋅ Mark Hamilton ⋅ Changick Kim

Hist2Style: Histogram-Guided Stylization with Bilateral Grids

Dekel Galor ⋅ Adam Pikielny ⋅ Zhoutong Zhang ⋅ Ke Wang ⋅ Laura Waller ⋅ Jiawen Chen ⋅ Ilya Chugunov

Harmonic Canvas: Inversion-Free Editing for Visually-Guided Music Style Transfer

Yue Lei ⋅ Siqi Yang ⋅ Ting Zhong ⋅ Fan Zhou

How to Take a Memorable Picture? Empowering Users with Actionable Feedback

Francesco Laiti ⋅ Davide Talon ⋅ Jacopo Staiano ⋅ Elisa Ricci

UniEdit-I: Training-free Image Editing for Unified VLM via Iterative Understanding, Editing and Verifying

Bai Chengyu ⋅ Jintao Chen ⋅ Xiang Bai ⋅ Yilong Chen ⋅ Qi She ⋅ Ming Lu ⋅ Shanghang Zhang

SCIEval: Evaluating and Benchmarking the Faithfulness of Scientific Image Generation and Interpretation with Large Multimodal Models

Guanghui Ye ⋅ Huan Zhao ⋅ Zhixue Zhao ⋅ Tengfei Ma ⋅ Kehan Wang ⋅ Steffen Eger ⋅ Zhihua Jiang

GeoRelight: Learning Joint Geometrical Reconstruction and Relighting with Flexible Multi-Modal Diffusion Transformers

Yuxuan Xue ⋅ Ruofan Liang ⋅ Egor Zakharov ⋅ Timur Bagautdinov ⋅ Chen Cao ⋅ Giljoo Nam ⋅ Shunsuke Saito ⋅ Gerard Pons-Moll ⋅ Javier Romero

HAD: Hallucination-Aware Diffusion Priors for 3D Reconstruction

Xi Liu ⋅ Weiwei Sun ⋅ Joe Ren ⋅ Christopher Broaddus ⋅ Siyu Huang ⋅ Laurent Guigues

Catalyst4D: High-Fidelity 3D-to-4D Scene Editing via Dynamic Propagation

Shifeng Chen ⋅ Yihui Li ⋅ Jun Liao ⋅ Hongyu Yang ⋅ Di Huang

ReFlow: Self-correction Motion Learning for Dynamic Scene Reconstruction

Yanzhe Liang ⋅ Ruijie Zhu ⋅ Hanzhi Chang ⋅ Zhuoyuan Li ⋅ Jiahao Lu ⋅ Tianzhu Zhang

Semantic Foam: Unifying Spatial and Semantic Scene Decomposition

Amr Sharafeldin ⋅ Aryan Mikaeili ⋅ Thomas Walker ⋅ Shrisudhan Govindarajan ⋅ Daniel Rebain ⋅ Kwang Moo Yi ⋅ Andrea Tagliasacchi

NVGS: Neural Visibility for Occlusion Culling in 3D Gaussian Splatting

Brent Zoomers ⋅ Florian Hahlbohm ⋅ Joni Vanherck ⋅ Lode Jorissen ⋅ Marcus Magnor ⋅ Nick Michiels

NeAR: Coupled Neural Asset–Renderer Stack

Hong Li ⋅ Chongjie Ye ⋅ Houyuan Chen ⋅ Weiqing Xiao ⋅ Ziyang Yan ⋅ Lixing Xiao ⋅ Zhaoxi Chen ⋅ Jianfeng XIANG ⋅ Shaocong Xu ⋅ Xuhui Liu ⋅ Yikai Wang ⋅ Baochang Zhang ⋅ Xiaoguang Han ⋅ Jiaolong Yang ⋅ Hao Zhao

Thermal is Always Wild: Characterizing and Addressing Challenges in Thermal-Only Novel View Synthesis

M. Kerem Aydin ⋅ Vishwanath Saragadam ⋅ Emma Alexander

PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis

chunji lv ⋅ Zequn Chen ⋅ Donglin Di ⋅ Weinan Zhang ⋅ Hao Li ⋅ Wei Chen ⋅ Yinjie Lei ⋅ Changsheng Li

Life-IQA: Boosting Blind Image Quality Assessment through GCN-enhanced Layer Interaction and MoE-based Feature Decoupling

Tang Long ⋅ Huiyu Duan ⋅ Guoquan Zheng ⋅ Jianbo Zhang ⋅ Jie Hao ⋅ Liang Yuan

TM-BSN: Triangular-Masked Blind-Spot Network for Real-World Self-Supervised Image Denoising

Junyoung Park ⋅ Youngjin Oh ⋅ Nam Ik Cho

Multinex: Lightweight Low-light Image Enhancement via Multi-prior Retinex

Alexandru Brateanu ⋅ Tingting Mu ⋅ Codruta O. Ancuti ⋅ Cosmin Ancuti

Beyond Ground-Truth: Leveraging Image Quality Priors for Real-World Image Restoration

Fengyang Xiao ⋅ Peng Hu ⋅ Lei Xu ⋅ XingE Guo ⋅ Guanyi Qin ⋅ Yuqi Shen ⋅ Chengyu Fang ⋅ Rihan Zhang ⋅ Chunming He ⋅ Sina Farsiu

ExpoCM: Exposure-Aware One-Step Generative Single-Image HDR Reconstruction

Aoyu Liu ⋅ Zhen Liu ⋅ Ziyi Wang ⋅ Dian Chen ⋅ Bing Zeng ⋅ Shuaicheng Liu

Physically-Grounded Turbulence Mitigation with Frame-Shared Degradation Parameters

Dongxin Xie ⋅ Yan Huang ⋅ Yong Xu ⋅ Hui Ji

Convexity-Aware Noise Calibration: A Self-Supervised Framework for Noise-Level-Unknown Image Denoising

Zhan Wang ⋅ Wang Leiquan ⋅ Chunlei Wu ⋅ Yu Meng

UCMNet: Uncertainty-Aware Context Memory Network for Under-Display Camera Image Restoration

DAEHYUN KIM ⋅ Youngmin Kim ⋅ Yoon Ju Oh ⋅ Tae Hyun Kim

Beyond the Ground Truth: Enhanced Supervision for Image Restoration

Donghun Ryou ⋅ Inju Ha ⋅ Sanghyeok Chu ⋅ Bohyung Han

ShiftLUT: Spatial Shift Enhanced Look-Up Tables for Efficient Image Restoration

ZENG XIAOLONG ⋅ Yitong Yu ⋅ Shiyao Xiong ⋅ Jinhua Hao ⋅ Ming Sun ⋅ Chao Zhou ⋅ Bin Wang

Bilevel Layer-Positioning LoRA for Real Image Dehazing

Yan Zhang ⋅ Long Ma ⋅ Yuxin Feng ⋅ Zhe Huang ⋅ Fan Zhou ⋅ Zhuo Su

SD-FSMIS: Adapting Stable Diffusion for Few-Shot Medical Image Segmentation

Meihua Li ⋅ Yang Zhang ⋅ Weizhao He ⋅ Hu Qu ⋅ Yisong Li

GeoSemba: Reconstructing State Space Model for Cross Paradigm Representation in Medical Image Segmentation

Xutao Sun ⋅ Jiarui Li ⋅ Junwen Liu ⋅ Yonggong Ren

SHAPE: Structure-aware Hierarchical Unsupervised Domain Adaptation with Plausibility Evaluation for Medical Image Segmentation

Linkuan Zhou ⋅ Yinghao Xia ⋅ Yufei Shen ⋅ Xiangyu Li ⋅ Wenjie Du ⋅ Cong Cong ⋅ leyi wei ⋅ Ran Su ⋅ Qiangguo Jin

Delving Aleatoric Uncertainty in Medical Image Segmentation via Vision Foundation Models

Ruiyang Li ⋅ Fang Liu ⋅ Licheng Jiao ⋅ Xinglin Xie ⋅ Jiayao Hao ⋅ Shuo Li ⋅ Xu Liu ⋅ Jingyi yang ⋅ Lingling Li ⋅ Puhua Chen ⋅ Wenping Ma

Revisiting 2D Foundation Models for Scalable 3D Medical Image Classification

Han Liu ⋅ Bogdan Georgescu ⋅ Yanbo Zhang ⋅ Youngjin Yoo ⋅ Michael Baumgartner ⋅ Riqiang Gao ⋅ Jianing Wang ⋅ Gengyan Zhao ⋅ Eli Gibson ⋅ Dorin Comaniciu ⋅ Sasa Grbic

Focus on Background: Exploring SAM's Potential in Few-shot Medical Image Segmentation with Background-centric Prompting

Yuntian Bo ⋅ Yazhou Zhu ⋅ Piotr Koniusz ⋅ Haofeng Zhang

Simple-ViLMedSAM: Simple Text Prompts Meet Vision-Language Models for Medical Image Segmentation

Chengcan Qian ⋅ Dong Nie ⋅ Geng Chen ⋅ Daoqiang Zhang ⋅ Xuyun Wen

NeuroSeg Meets DINOv3: Transferring 2D Self-Supervised Visual Priors to 3D Neuron Segmentation via DINOv3 Initialization

Yik San Cheng ⋅ Runkai Zhao ⋅ Weidong Cai

Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models

Yuanbo Li ⋅ Tianyang Xu ⋅ Cong Hu ⋅ Tao Zhou ⋅ Xiao-Jun Wu ⋅ Josef Kittler

TINA: Text-Free Inversion Attack for Unlearned Text-to-Image Diffusion Models

Qianlong Xiang ⋅ Miao Zhang ⋅ Haoyu Zhang ⋅ Kun Wang ⋅ Junhui Hou ⋅ Liqiang Nie

Jailbreaking Vision-Language Models via Dissonance-Guided Suffix Optimization and Image–Phrase Injection

Jiacheng Pi ⋅ Zhiguo Yang ⋅ Xingxing Huang ⋅ Dongsheng Xu ⋅ Ruizhi Zhong ⋅ Wenjie Ruan

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

Feiran Li ⋅ Qianqian Xu ⋅ Shilong Bao ⋅ Zhiyong Yang ⋅ Xilin Zhao ⋅ Xiaochun Cao ⋅ Qingming Huang

VCP-Attack: Visual-Contrastive Projection for Transferable Black-Box Targeted Attacks on Large Vision-Language Models

Jiawei Zhao ⋅ Minjie Du ⋅ Zihan Qin ⋅ Zhuoran Wang ⋅ Lizhe Xie ⋅ Yining Hu

Adapter Shield: A Unified Framework with Built-in Authentication for Preventing Unauthorized Zero-Shot Image-to-Image Generation

Jun Jia ⋅ Hongyi Miao ⋅ Yingjie Zhou ⋅ Wangqiu Zhou ⋅ Jianbo Zhang ⋅ Linhan Cao ⋅ Dandan Zhu ⋅ Hua Yang ⋅ Xiongkuo Min ⋅ Wei Sun ⋅ Guangtao Zhai

LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models

Guolei Huang ⋅ Qinzhi Peng ⋅ Gan Xu ⋅ Yao Huang ⋅ Yuxuan Lu ⋅ Yongjun Shen

Transform to Transfer: Boosting Adversarial Attack Transferability on Vision-Language Pre-training Models

Yang Li ⋅ Jia-Li Yin ⋅ Luojun Lin ⋅ Wei Lin

Mask to Align, Weight to Disambiguate: Reliable Unsupervised Cross-Modal Hashing with Masked-Weight Contrast

Fan Yang ⋅ Yuanzhi Zhao ⋅ Haimei Zhao ⋅ Yudong Zhao ⋅ Haikun Xu

Reliable Clustering Number Estimation for Contrastive Multi-View Clustering

Zhengzhong Zhu ⋅ Pei Zhou ⋅ Lanxi Bai ⋅ Li Cheng ⋅ Jia Nie ⋅ Shiquan min ⋅ Jiangping Zhu

Pushing the Frontier of Audiovisual Perception with Large-Scale Multimodal Correspondence Learning

Apoorv Vyas ⋅ Heng-Jui Chang ⋅ Cheng-Fu Yang ⋅ Po-Yao Huang ⋅ Luya Gao ⋅ Julius Richter ⋅ Sanyuan Chen ⋅ Matthew Le ⋅ Piotr Dollár ⋅ Christoph Feichtenhofer ⋅ Ann Lee ⋅ Wei-Ning Hsu

Enhance-then-Balance Modality Collaboration for Robust Multimodal Sentiment Analysis

Kang He ⋅ Yuzhe Ding ⋅ Xinrong Wang ⋅ Fei Li ⋅ Chong Teng ⋅ Donghong Ji

SonoWorld: From One Image to a 3D Audio-Visual Scene

Derong Jin ⋅ Xiyi Chen ⋅ Ming C. Lin ⋅ Ruohan Gao

MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping

yushi Huang ⋅ Zining Wang ⋅ Zhihang Yuan ⋅ Yifu Ding ⋅ RUIHAO GONG ⋅ Jinyang Guo ⋅ Xianglong Liu ⋅ Jun Zhang

EXOTIC: External Vision-driven Incomplete Multi-view Classification

Shilin Xu ⋅ Dezhong Peng ⋅ Zhenwen Ren ⋅ Yuan Sun

Easy2Hard: From Partially to Fully Unmatched Modalities as Negative Samples in Contrastive Learning

Zhicheng Yang ⋅ Yichen Liu ⋅ Chang Ge ⋅ Xiaopeng Jiang

OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation

Han Li ⋅ Xinyu Peng ⋅ Yaoming Wang ⋅ Zelin Peng ⋅ Xin Chen ⋅ Rongxiang Weng ⋅ Jingang Wang ⋅ Xunliang Cai ⋅ Wenrui Dai ⋅ Hongkai Xiong

BALM: A Model-Agnostic Framework for Balanced Multimodal Learning under Imbalanced Missing Rates

Phuong-Anh Nguyen ⋅ Tien Anh Pham ⋅ Duc-Trong Le ⋅ Van Nguyen

UniT: Unified Multimodal Chain-of-Thought Test-time Scaling

Leon Liangyu Chen ⋅ Haoyu Ma ⋅ Zhipeng Fan ⋅ Ziqi Huang ⋅ Animesh Sinha ⋅ Xiaoliang Dai ⋅ Jialiang Wang ⋅ Zecheng He ⋅ Jianwei Yang ⋅ Chunyuan Li ⋅ Junzhe Sun ⋅ Chu Wang ⋅ Serena Yeung ⋅ Felix Juefei-Xu

Multi-modal Test-time Adaptation via Adaptive Probabilistic Gaussian Calibration

Jinglin Xu ⋅ Yi Li ⋅ Chuxiong Sun ⋅ Xiao Xu ⋅ Jiangmeng Li ⋅ Fanjiang Xu

Information-Theoretic Decomposition for Multimodal Interaction Learning

Zequn Yang ⋅ Yake Wei ⋅ HaoTian Ni ⋅ Zhihao Xu ⋅ Di Hu

Is the Modality Gap a Bug or a Feature? A Robustness Perspective

Rhea Chowers ⋅ Oshri Naparstek ⋅ Udi Barzelay ⋅ Yair Weiss

Omni-Fake: Benchmarking Unified Multimodal Social Media Deepfake Detection

Tianxiao Li ⋅ Zhenglin Huang ⋅ Haiquan Wen ⋅ Yiwei He ⋅ Xinze Li ⋅ BINGYU ZHU ⋅ WUHUI DUAN ⋅ Congang CHEN ⋅ ZEYU FU ⋅ Yi Dong ⋅ Baoyuan Wu ⋅ Xiangtai Li ⋅ Guangliang Cheng

MUST: Modality-Specific Representation-Aware Transformer for Diffusion-Enhanced Survival Prediction with Missing Modality

Kyungwon Kim ⋅ Dosik Hwang

VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction

SiNan Du ⋅ JiaHao Guo ⋅ Bo Li ⋅ Shuhao Cui ⋅ Zhengzhuo Xu ⋅ Yifu Luo ⋅ Yongxian Wei ⋅ Kun Gai ⋅ Xinggang Wang ⋅ Kai Wu ⋅ Chun Yuan

MOS: Mitigating Optical-SAR Modality Gap for Cross-Modal Ship Re-Identification

Yujian Zhao ⋅ Hankun Liu ⋅ Guanglin Niu

SeD-UD: An Influence-Driven and Hierarchically-Decoupled Information Bottleneck for Multimodal Intent Recognition

Qin Li ⋅ Wenbo Zhang ⋅ Limei Liu ⋅ Han Peng ⋅ Junfeng Yang ⋅ Guanying Xu

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

Wall Kim ⋅ Chaeyoung Song ⋅ Hanul Kim

LacTokGen: Latent Consistency Tokenizer for 1024-pixel Image Generation by 256 Tokens

Qingsong Xie ⋅ Luyuan Zhang ⋅ Zhao Zhang ⋅ Siyuan Li ⋅ Zhe Huang ⋅ Zhenyu Yang ⋅ Haonan Lu

FlowSteer: Guiding Few-Step Image Synthesis with Authentic Trajectories

Lei Ke ⋅ Hubery Yin ⋅ Gongye Liu ⋅ Zhengyao Lv ⋅ Jingcai Guo ⋅ Chen Li ⋅ Wenhan Luo ⋅ Yujiu Yang ⋅ Jing LYU

Visual Autoregressive Modeling via Next Focus Prediction

Xiaofan Li ⋅ Chenming Wu ⋅ Yanpeng Sun ⋅ Jiaming Zhou ⋅ Delin Qu ⋅ Yansong Qu ⋅ Weihao Bo ⋅ Haibao Yu ⋅ Dingkang Liang

Semantic Context Matters: Improving Conditioning for Autoregressive Models

Dongyang Jin ⋅ Ryan Xu ⋅ Jianhao Zeng ⋅ Rui Lan ⋅ Yancheng Bai ⋅ Lei Sun ⋅ Xiangxiang Chu

TempoMaster: Efficient Long Video Generation via Next-Frame-Rate Prediction

Yukuo Ma ⋅ Cong Liu ⋅ Junke Wang ⋅ Junqi Liu ⋅ Haibin Huang ⋅ Zuxuan Wu ⋅ Chi Zhang ⋅ Xuelong Li

FlashIn: Fast and Accurate Image Inversion for Real-time Image Editing

Guangzhi Wang

EasyV2V: A High-quality Instruction-based Video Editing Framework

Jinjie Mai ⋅ Chaoyang Wang ⋅ Gordon Guocheng Qian ⋅ Willi Menapace ⋅ Sergey Tulyakov ⋅ Bernard Ghanem ⋅ Peter Wonka ⋅ Ashkan Mirzaei

One Algorithm to Align Them All

Boyi Pang ⋅ Savva Ignatyev ⋅ Vladimir Ippolitov ⋅ Ramil Khafizov ⋅ Yurii Melnik ⋅ Oleg Voynov ⋅ Maksim Nakhodnov ⋅ Aibek Alanov ⋅ Xiaopeng Fan ⋅ Peter Wonka ⋅ Evgeny Burnaev

VGA-Bench: A Unified Benchmark and Multi-Model Framework for Video Aesthetics and Generation Quality Evaluation

Longteng Jiang ⋅ DanDan Zheng ⋅ Qianqian Qiao ⋅ Heng Huang ⋅ Huaye Wang ⋅ Yihang Bo ⋅ Bao Peng ⋅ Jingdong Chen ⋅ JUN ZHOU ⋅ Xin Jin

Improved Mean Flows: On the Challenges of Fastforward Generative Models

ZHENGYANG GENG ⋅ Yiyang Lu ⋅ Zongze Wu ⋅ Eli Shechtman ⋅ Zico Kolter ⋅ Kaiming He

SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation

Shuai Tan ⋅ Biao Gong ⋅ Yujie Wei ⋅ Shiwei Zhang ⋅ Zhuoxin Liu ⋅ Ke Ma ⋅ Yan Wang ⋅ Kecheng Zheng ⋅ Xing Zhu ⋅ Yujun Shen ⋅ Hengshuang Zhao

Match-and-Fuse: Consistent Generation from Unstructured Image Sets

Kate Feingold ⋅ Omri Kaduri ⋅ Tali Dekel

Mixture of Style Experts for Diverse Image Stylization

Shihao Zhu ⋅ Ziheng Ouyang ⋅ Yijia Kang ⋅ Qilong Wang ⋅ Mi Zhou ⋅ Bo Li ⋅ Mingming Cheng ⋅ Qibin Hou

Mirai: Autoregressive Visual Generation Needs Foresight

Yonghao Yu ⋅ Lang Huang ⋅ Zerun Wang ⋅ Runyi Li ⋅ Toshihiko Yamasaki

Align Images Before You Generate

Shihua Zhang ⋅ Qiuhong Shen ⋅ Xinchao Wang

Bridging the Perception Gap in Image Super-Resolution Evaluation

Shaolin Su ⋅ Josep M. ⋅ Danna Xue ⋅ David Serrano-Lozano ⋅ Lei Sun ⋅ Javier Vazquez-Corral

Time-Aware One Step Diffusion Network for Real-World Image Super-Resolution

Tianyi Zhang ⋅ Zheng-Peng Duan ⋅ Chunle Guo ⋅ Peng-Tao Jiang ⋅ Bo Li ⋅ Mingming Cheng ⋅ Chongyi Li

Restore Text First, Enhance Image Later: Two-Stage Scene Text Image Super-Resolution with Glyph Structure Guidance

Minxing Luo ⋅ Linlong Fan ⋅ Qiushi Wang ⋅ Ge Wu ⋅ Yiyan Luo ⋅ Yuhang Yu ⋅ Jinwei Chen ⋅ Yaxing Wang ⋅ Qingnan Fan ⋅ Jian Yang

IAFMNet: Information-Aware Feature Modulation for Efficient Super-Resolution

Junwei Xu ⋅ Mengzu Liu ⋅ Zhenyu Wang ⋅ Fangfang Wu ⋅ Sijia Wu ⋅ Tao Huang ⋅ Weisheng Dong

Physics-Consistent Diffusion for Efficient Fluid Super-Resolution via Multiscale Residual Correction

Zhihao LI ⋅ Shengwei Dong ⋅ Chuang Yi ⋅ Junxuan Gao ⋅ Zhilu Lai ⋅ Zhiqiang Liu ⋅ Wei Wang ⋅ Guangtao Zhang

Bridging Fidelity-Reality with Controllable One-Step Diffusion for Image Super-Resolution

Hao Chen ⋅ Junyang Chen ⋅ Jinshan Pan ⋅ Jiangxin Dong

Omni-Supervised Motion Editing: Balancing Change and Invariance through Positive-Negative Learning

Zhenwu Shi ⋅ Jingyu Gong ⋅ Peiwei Wang ⋅ Xingzan Wang ⋅ Tianwen Qian ⋅ Wenxi Li ⋅ Yuan Fang ⋅ Jiao Xie ⋅ Lizhuang Ma ⋅ Shaohui Lin

FaceCam: Portrait Video Camera Control via Scale-Aware Conditioning

Weijie Lyu ⋅ Ming-Hsuan Yang ⋅ ZHIXIN SHU

Cross-Axis Feature Fusion with Joint-Wise Motion Difference Prediction for Text-Based 3D Human Motion Editing

Gyojin Han ⋅ Junmo Kim

MotionMaster: Generalizable Text-Driven Motion Generation and Editing

Nan Jiang ⋅ yunhao li ⋅ Lexi Pang ⋅ Zimo He ⋅ Siyuan Huang ⋅ Yixin Zhu

OpenT2M: No-frill Motion Generation with Open-source, Large-scale, High-quality Data

Bin Cao ⋅ Sipeng Zheng ⋅ Hao Luo ⋅ Boyuan Li ⋅ Jing Liu ⋅ Zongqing Lu

Towards Decompositional Human Motion Generation with Energy-Based Diffusion Models

Jianrong Zhang ⋅ Hehe Fan ⋅ Yi Yang

PAMotion: Physics-Aware Motion Generation for Full-Body Interaction with Multiple Objects

Yan Di ⋅ Yuheng Li ⋅ Yaoxing Wang ⋅ Mengge Liu ⋅ Shan Gao ⋅ Xiangyang Ji

Sketch2Colab: Sketch-Conditioned Multi-Human Animation via Controllable Flow Distillation

Divyanshu Daiya ⋅ Aniket Bera

ViHOI: Human-Object Interaction Synthesis with Visual Priors

Songjin Cai ⋅ Linjie Zhong ⋅ Ling Guo ⋅ Changxing Ding

CLEP: Contrastive Language-Pose Pretraining

Sen Jia ⋅ Huayu Wang ⋅ Hsiang-Wei Huang ⋅ Zhaochong An ⋅ Jenq-Neng Hwang ⋅ Huaping Zhang ⋅ Lei Li

OpenFS: Multi-Hand-Capable Fingerspelling Recognition with Implicit Signing-Hand Detection and Frame-Wise Letter-Conditioned Synthesis

Junuk Cha ⋅ Jihyeon Kim ⋅ Han-Mu Park

ARMFlow: AutoRegressive MeanFlow for Online 3D Human Reaction Generation

Zichen Geng ⋅ Zeeshan Hayder ⋅ Wei Liu ⋅ Hesheng Wang ⋅ Ajmal Mian

InterPhys: Physics-aware Human Motion Synthesis in a Dynamic Scene

Chaoyue Xing ⋅ Wei Mao ⋅ Miaomiao Liu

Beyond Mimicry: Learning Whole-Body Human-Humanoid Interaction from Human-Human Demonstrations

Wei-Jin Huang ⋅ Yue-Yi Zhang ⋅ Yi-Lin Wei ⋅ Zhi-Wei Xia ⋅ Juantao Tan ⋅ Yuanming Li ⋅ Zhilin Zhao ⋅ Wei-Shi Zheng

PHAC: Promptable Human Amodal Completion

Seung Young ⋅ Ju Yong Chang

CoordSpeaker: Exploiting Gesture Captioning for Coordinated Caption-Empowered Co-Speech Gesture Generation

Fengyi Fang ⋅ Sicheng Yang ⋅ Wenming Yang

IntrinsicWeather: Controllable Weather Editing in Intrinsic Space

Yixin Zhu ⋅ Zuo-Liang Zhu ⋅ Jian Yang ⋅ Milos Hasan ⋅ Jin Xie ⋅ Beibei Wang

Outlier-Robust Diffusion Solvers for Inverse Problems

Yang Zheng ⋅ Jiahua Liu ⋅ Tongyao Pang ⋅ Wen Li ⋅ Zhaoqiang Liu

Beyond Fixed Formulas: Data-Driven Linear Predictor for Efficient Diffusion Models

Zhirong Shen ⋅ Rui Huang ⋅ Jiacheng Liu ⋅ Chang Zou ⋅ Peiliang Cai ⋅ Shikang Zheng ⋅ zhengyi shi ⋅ Liang Feng ⋅ Linfeng Zhang

ReasonX: MLLM-Guided Intrinsic Image Decomposition

Alara Dirik ⋅ Tuanfeng Wang ⋅ Duygu Ceylan ⋅ Stefanos Zafeiriou ⋅ Anna Frühstück

Diff-SemiER: Transparency-Aware Adaptive Fusion Diffusion Model with Generative Prior for Semi-Transparent Eyeglasses Removal

Jiahao Li ⋅ Shiqi Yin ⋅ Zhenxiang Lian ⋅ jingtao guo

KLIP: Localized Distribution Shift Detection via KL-Divergence with Diffusion Priors in Inverse Problems

Alireza Kheirandish ⋅ Jihoon Hong ⋅ Sara Fridovich-Keil

Elucidating the Design Space of Arbitrary-Noise-Based Diffusion Models

Xingyu Qiu ⋅ Mengying Yang ⋅ Xinghua Ma ⋅ Dong Liang ⋅ Fanding Li ⋅ Gongning Luo ⋅ wei wang ⋅ Kuanquan Wang ⋅ Shuo Li

Taming Generative Diffusion Model for Task-Oriented Infrared Imaging

Tengyu Ma ⋅ Zhilong Dai ⋅ Yubo Diao ⋅ Guanming An ⋅ Long Ma ⋅ Jinyuan Liu ⋅ Risheng Liu

Attention, May I Have Your Decision? Localizing Generative Choices in Diffusion Models

Katarzyna Zaleska ⋅ Łukasz Popek ⋅ Monika Wysoczańska ⋅ Kamil Deja

RxnCaption: Reformulating Reaction Diagram Parsing as Visual Prompt Guided Captioning

Jiahe Song ⋅ Chuang Wang ⋅ Bowen Jiang ⋅ Yinfan Wang ⋅ Hao Zheng ⋅ Xingjian Wei ⋅ Chengjin Liu ⋅ Rui Nie ⋅ Junyuan Gao ⋅ Jiaxing Sun ⋅ Yubin Wang ⋅ Lijun Wu ⋅ Zhenhua Huang ⋅ Jiang Wu ⋅ Qian Yu ⋅ Conghui He

More than the Sum: Panorama-Language Models for Adverse Omni-Scenes

Weijia Fan ⋅ Ruiping Liu ⋅ Jiale Wei ⋅ Yufan Chen ⋅ Junwei Zheng ⋅ Zichao Zeng ⋅ Jiaming Zhang ⋅ Qiufu Li ⋅ Linlin Shen ⋅ Rainer Stiefelhagen

DiGraphHal-Bench: Evaluating Multimodal Large Language Models on Complex Directed Graphs

Yixin Fan ⋅ He Zhao ⋅ Yuxin Hou ⋅ Changhua Zhou ⋅ Zihao Liu ⋅ Peng Wang ⋅ Lu ChengLong ⋅ Xu Zhang ⋅ Wei Wang

SEA-Vision: A Multilingual Benchmark for Comprehensive Document and Scene Text Understanding in Southeast Asia

Pengfei Yue ⋅ Xingran Zhao ⋅ Juntao Chen ⋅ Peng Hou ⋅ Wang Longchao ⋅ Jianghang Lin ⋅ Shengchuan Zhang ⋅ Anxiang Zeng ⋅ Liujuan Cao

Time Blindness: Why Video-Language Models Can’t See What Humans Can?

Ujjwal Upadhyay ⋅ Mukul Ranjan ⋅ Zhiqiang Shen ⋅ Mohamed Elhoseiny

Spot The Ball: A Benchmark for Visual Social Inference

Neha Balamurugan ⋅ Sarah Wu ⋅ Cristobal Eyzaguirre ⋅ Tobias Gerstenberg

MM-SeR: Multimodal Self-Refinement for Lightweight Image Captioning

Junha Song ⋅ Yongsik Jo ⋅ So Yeon Min ⋅ Quanting Xie ⋅ Taehwan Kim ⋅ Yonatan Bisk ⋅ Jaegul Choo

E-comIQ-ZH: A Human-Aligned Dataset and Benchmark for Fine-Grained Evaluation of E-commerce Posters with Chain-of-Thought

Meiqi Sun ⋅ mingyu Li ⋅ Junxiong Zhu

GeoWorld: Geometric World Models

Zeyu Zhang ⋅ Danning Li ⋅ Ian Reid ⋅ Richard Hartley

ORD: Object-Relation Decoupling for Generalized 3D Visual Grounding

Ronggang Huang ⋅ FanSen Meng ⋅ Huaidong Zhang ⋅ Xuemiao Xu

Benchmarking PhD-Level Coding in 3D Geometric Computer Vision

Wenyi Li ⋅ Renkai Luo ⋅ Yue Yu ⋅ Huan-ang Gao ⋅ Mingju Gao ⋅ Li Yuan ⋅ Chaoyou Fu ⋅ Hao Zhao

MonoVLM: Monocular 3D Visual Grounding with Vision Language Models

Huaizhi Qu ⋅ Hossein Nourkhiz Mahjoub ⋅ Vaishnav Tadiparthi ⋅ Kwonjoon Lee ⋅ Tianlong Chen

Curvature-Aware Captioning: Leveraging Geodesic Attention for 3D Scene Understanding

Ziyao He ⋅ Yingjie Liu ⋅ Zhang Yangrui ⋅ Mingsong Chen ⋅ Xuan Tang ⋅ Xian Wei

SPREAD: Spatial-Physical REasoning via geometry Aware Diffusion

Minzhang Li ⋅ Kuixiang Shao ⋅ xuebing li ⋅ Yuyang Jiao ⋅ Yinuo Bai ⋅ Hengan Zhou ⋅ Sixian Shen ⋅ Jiayuan Gu ⋅ Jingyi Yu

ExtrinSplat: Decoupling Geometry and Semantics for Open-Vocabulary Understanding in 3D Gaussian Splatting

Jiayu Ding ⋅ Xinpeng Liu ⋅ Zhiyi Pan ⋅ Shiqiang Long ⋅ Ge Li

SpatialScore: Towards Comprehensive Evaluation for Spatial Intelligence

Haoning Wu ⋅ Xiao Huang ⋅ Yaohui Chen ⋅ Ya Zhang ⋅ Yanfeng Wang ⋅ Weidi Xie

4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

Chiao-An Yang ⋅ Ryo Hachiuma ⋅ Sifei Liu ⋅ Subhashree Radhakrishnan ⋅ Raymond A. Yeh ⋅ Yu-Chiang Frank Wang ⋅ Min-Hung Chen

VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction

Zhiwen Fan ⋅ Jian Zhang ⋅ Renjie Li ⋅ Junge Zhang ⋅ Runjin Chen ⋅ Hezhen Hu ⋅ Kevin Wang ⋅ Peihao Wang ⋅ Huaizhi Qu ⋅ Shijie Zhou ⋅ Dilin Wang ⋅ Zhicheng Yan ⋅ Hongyu Xu ⋅ Justin Theiss ⋅ Tianlong Chen ⋅ Jiachen Li ⋅ Zhengzhong Tu ⋅ Zhangyang Wang ⋅ Rakesh Ranjan

Merge3D: Efficient 3D Multimodal LLMs via Joint 2D-3D Token Merging

Tianbo Pan ⋅ Xingyi Yang ⋅ Xinchao Wang

Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models

Runsen Xu ⋅ Weiyao Wang ⋅ Hao Tang ⋅ Xingyu Chen ⋅ Xiaodong Wang ⋅ Fu-Jen Chu ⋅ Matt Feiszli ⋅ Kevin J Liang

LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

Yunze Man ⋅ Shihao Wang ⋅ Guowen Zhang ⋅ Johan Bjorck ⋅ Liang-Yan Gui ⋅ Jim Fan ⋅ Jan Kautz ⋅ Yu-Xiong Wang ⋅ Zhiding Yu

Quota-Calibrated Fine-Grained Alignment with Context-Aware Marginals for Text-based Person Retrieval

Dongsheng Li ⋅ Xinyuan Guo ⋅ Huijie Zhang ⋅ Pingting Hao ⋅ Qiushi Xia

Evo-Retriever: LLM-Guided Curriculum Evolution with Viewpoint-Pathway Collaboration for Multimodal Document Retrieval

Li Weiqing ⋅ Jinyue Guo ⋅ Yaqi Wang ⋅ HAIYANG XIAO ⋅ Yuewei Zhang ⋅ Guohua Liu ⋅ Hao Henry Wang

Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models

Hulingxiao He ⋅ Zhi Tan ⋅ Yuxin Peng

FAAR: Efficient Frequency-Aware Multi-Task Fine-Tuning via Automatic Rank Selection

Maxime Fontana ⋅ Michael Spratling ⋅ Miaojing Shi

Model Merging in the Essential Subspace

Longhua Li ⋅ Lei Qi ⋅ Qi Tian ⋅ Xin Geng

Beyond Semantic Search: Towards Referential Anchoring in Composed Image Retrieval

Yuxin Yang ⋅ Yinan Zhou ⋅ Yuxin Chen ⋅ Ziqi Zhang ⋅ Zongyang Ma ⋅ Chunfeng Yuan ⋅ Bing Li ⋅ Jun Gao ⋅ Weiming Hu

SAVE: Speech-Aware Video Representation Learning for Video-Text Retrieval

Ruixiang Zhao ⋅ Zhihao Xu ⋅ Bangxiang Lan ⋅ Zijie Xin ⋅ Jingyu Liu ⋅ Xirong Li

MarkushGrapher-2: End-to-end Multimodal Recognition of Chemical Structures

Tim Strohmeyer ⋅ Lucas Morin ⋅ Gerhard Ingmar Meijer ⋅ Valery Weber ⋅ Ahmed Nassar ⋅ Peter Staar

Progressive Cross-Modal Causal Intervention for Long-Term Action Recognition

Shaowu Xu ⋅ Xibin Jia ⋅ Chao Fan ⋅ Junyu Gao ⋅ Jing Chang ⋅ Qianmei Sun

EthoCLIP: Ontology-Enhanced Video-Language Pretraining for Animal Behavior Understanding

Yinuo Jing ⋅ Jinyan Wu ⋅ Zixi Yang ⋅ Kongming Liang ⋅ Xiatian Zhu ⋅ Zhanyu Ma

TrajTok: Learning Trajectory Tokens Enhances Video Understanding

Chenhao Zheng ⋅ Jieyu Zhang ⋅ Jianing Zhang ⋅ Weikai Huang ⋅ Ashutosh Kumar ⋅ Quan Kong ⋅ Oncel Tuzel ⋅ Chun-Liang Li ⋅ Ranjay Krishna

Streaming Video Instruction Tuning

Jiaer Xia ⋅ Peixian Chen ⋅ Mengdan Zhang ⋅ Xing Sun ⋅ Kaiyang Zhou

VidPrism: Heterogeneous Mixture of Experts for Image-to-Video Transfer

Rui Lin ⋅ Chuanming Wang ⋅ Huadong Ma

ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning in Instructional Videos

Luigi Seminara ⋅ Davide Moltisanti ⋅ Antonino Furnari

From Static to Dynamic: Exploring Self-supervised Image-to-Video Representation Transfer Learning

Yang Liu ⋅ Qianqian Xu ⋅ Peisong Wen ⋅ Siran Dai ⋅ Xilin Zhao ⋅ Qingming Huang

Learnable Motion-Focused Tokenization for Effective and Efficient Video Unsupervised Domain Adaptation

Tzu Ling Liu ⋅ Ian Stavness ⋅ Mrigank Rochan

FluxMem: Adaptive Hierarchical Memory for Streaming Video Understanding

Yiweng Xie ⋅ Bo He ⋅ Junke Wang ⋅ Xiangyu Zheng ⋅ Ziyi Ye ⋅ Zuxuan Wu

Learning Transferable Temporal Primitives for Video Reasoning via Synthetic Videos

Sontao Jiang ⋅ Sibo Song ⋅ Chenyi Zhou ⋅ Yuan Wang ⋅ Ruizhe Chen ⋅ Tongkun Guan ⋅ Ruilin Luo ⋅ Yan Zhang ⋅ Zhihang Tang ⋅ Yuchong Sun ⋅ Hang Zhang ⋅ Zhibo Yang ⋅ Shuai Bai ⋅ Junyang Lin ⋅ Zuozhu Liu

Video Panels for Long Video Understanding

Lars Doorenbos ⋅ Federico Spurio ⋅ Jürgen Gall

Gaze Target Estimation Anywhere with Concepts

Xu Cao ⋅ Houze Yang ⋅ Vipin Gunda ⋅ Zhongyi Zhou ⋅ Tianyu Xu ⋅ Adarsh Kowdle ⋅ Inki Kim ⋅ James M.

Select, Hypothesize and Verify: Towards Verified Neuron Concept Interpretation

ZeBin Ji ⋅ Yang Hu ⋅ Xiuli Bi ⋅ Bo Liu ⋅ Bin Xiao

Finding Distributed Object-Centric Properties in Self-Supervised Transformers

Samyak Rawlekar ⋅ Amitabh Swain ⋅ Yujun Cai ⋅ Yiwei Wang ⋅ Ming-Hsuan Yang ⋅ Narendra Ahuja

Explaining CLIP Zero-shot Predictions Through Concepts

Onat Ozdemir ⋅ Anders Christensen ⋅ Stephan Alaniz ⋅ Zeynep Akata ⋅ Emre Akbas

See Through the Noise: Improving Domain Generalization in Gaze Estimation

Yanming Peng ⋅ Shijing Wang ⋅ Yaping Huang ⋅ Yi Tian

Mechanisms of Object Localization in Vision–Language Models

Timothy Schaumlöffel ⋅ Martina G. Vilas ⋅ Gemma Roig

mmWaveFlow: Unified Enhancement and Generation of mmWave Human Point Clouds

Chang Su ⋅ Beihong Jin ⋅ Qiwen Shi ⋅ Zhi Wang

From Feature Learning to Spectral Basis Learning: A Unifying and Flexible Framework for Efficient and Robust Shape Matching

Feifan Luo ⋅ Hongyang Chen

Topology-aware Feature Propagation for Unsupervised Non-rigid Point Cloud Correspondence

Haozhe Chen ⋅ Rui Li ⋅ 正宝王 ⋅ Xinhao Zhu ⋅ Linjie Li ⋅ Tianyu Xiong ⋅ Xuan Ouyang ⋅ Jiaqi Yang

BEV-SLD: Self-Supervised Scene Landmark Detection for Global Localization with LiDAR Bird’s-Eye View Images

David Skuddis ⋅ Vincent Ress ⋅ Wei Zhang ⋅ Vincent Ofosu Nyako ⋅ Norbert Haala

SAG-GNN: Semantic-Aware Guided GNN for Descriptor-Free 2D-3D Matching

Shihua Zhang ⋅ Tianhao Xu ⋅ Zizhuo Li ⋅ Qing Ma ⋅ Jiayi Ma

LiREC-Net: A Target-Free and Learning-Based Network for LiDAR, RGB, and Event Calibration

Aditya Ranjan Dash ⋅ Ramy Battrawy ⋅ René Schuster ⋅ Didier Stricker

GM-R^2: Generative Matching Learning for Unsupervised Geometric Representation and Registration

Haobo Jiang ⋅ Liang Yu ⋅ Jianmin Zheng

4D Local Modeling Toward Dynamic Global Perception for Ambiguity-free Rotation-Invariant Point Cloud Analysis

JIAXUN GUO ⋅ Wentao Fan ⋅ Manar Amayri ⋅ Nizar Bouguila

PointNSP: Autoregressive 3D Point Cloud Generation with Next-Scale Level-of-Detail Prediction

Ziqiao Meng ⋅ Qichao Wang ⋅ Zhiyang Dou ⋅ Zixing Song ⋅ Zhipeng Zhou ⋅ Irwin King ⋅ Peilin Zhao

MORE-STEM: Long-Short MemOry REcall and Spatio-TEmporal Consistency Model for Query-Driven 3D/4D Point Cloud Segmentation

Chade Li ⋅ Haida Feng ⋅ Pengju Zhang ⋅ Yihong Wu

Low-Rank Test-Time Training for Pre-Trained Point Cloud Models

Ouyangzi Ye ⋅ Feifei Shao ⋅ Kexin Li ⋅ Yawei Luo ⋅ Zikai Song ⋅ Ping Liu ⋅ Fengda Zhang ⋅ Hongwei Wang ⋅ Jun Xiao

STAR: Test-Time Adaptation Can Enhance Universal Prompt Learning for Vision-Language Models

Yiwei Fu ⋅ Hui Wan ⋅ Xiao Luo ⋅ Minghua Deng

Exploring Visual Pretraining for Learning Language Intelligence

Zhonghan Zhao ⋅ Yiming Zhang ⋅ Wenwei Zhang ⋅ Haiteng Zhao ⋅ Xingguang Wei ⋅ Zhangwei Gao ⋅ Kuikun Liu ⋅ Yuzhe Gu ⋅ Size Wu ⋅ Haian Huang ⋅ Jianfei Gao ⋅ haijun Lv ⋅ Demin Song ⋅ Yunhua Zhou ⋅ Qipeng Guo ⋅ Gaoang Wang ⋅ Kai Chen

VL-Eraser: Vacuum Distillation for Machine Unlearning in Vision-Language Models

Yili Wang ⋅ Lu Dai ⋅ Tairan Huang ⋅ Yijie Xu ⋅ Hui Xiong

DeAR: Fine-Grained VLM Adaptation by Decomposing Attention Head Roles

Yiming Ma ⋅ Hongkun Yang ⋅ Lionel Z. Wang ⋅ BIN CHEN ⋅ Weizhi Xian ⋅ Jianzhi Teng

SynCLIP: Synonym-Coherent Language-Image Pretraining for Robust Open-Vocabulary Dense Perception

Mingjie Xie ⋅ Guangjun He ⋅ Dongli Xu ⋅ Youtian Lin ⋅ Hongjue Li ⋅ Pengming Feng ⋅ Jian Guan ⋅ Yue Deng

MODIX: A Training-Free Multimodal Information-Driven Positional Index Scaling for Vision-Language Models

Ruoxiang Huang ⋅ Zhen Yuan

VisMem: Latent Vision Memory Unlocks Potential of Vision-Language Models

Xinlei Yu ⋅ Chengming Xu ⋅ Guibin Zhang ⋅ Zhangquan Chen ⋅ Yudong Zhang ⋅ Yongbo He ⋅ Peng-Tao Jiang ⋅ Jiangning Zhang ⋅ Xiaobin Hu ⋅ Shuicheng Yan

ORION: ORthonormal Text Encoding for Universal VLM AdaptatION

Omprakash Chakraborty ⋅ Jose Dolz ⋅ Ismail Ben Ayed

CASPA: Graph-Structured Concept Anchors for Modality-Agnostic Adaptation in Vision–Language Models

Abhiroop Chatterjee ⋅ Susmita Ghosh ⋅ Ashish Ghosh ⋅ Emmett Ientilucci

Mirror Illusion Art

Xiaopei Zhu ⋅ Zeyuan Li ⋅ Jun Zhu ⋅ Xiaolin Hu

HOG-Layout: Hierarchical 3D Scene Generation, Optimization and Editing via Vision-Language Models

Haiyan Jiang ⋅ Deyu Zhang ⋅ dongdong weng ⋅ Weitao Song ⋅ Henry Been-Lirn Duh

Towards Human-Like Robot Handwriting via Contour-Aware Generation

Yutao Qin ⋅ Gang Dai ⋅ Yifan Zhang ⋅ Youwei Han ⋅ Qisheng He ⋅ Shuangping Huang

MajutsuCity: Language-driven Aesthetic-adaptive City Generation with Controllable 3D Assets and Layouts

Zilong Huang ⋅ Jun He ⋅ Xiaobin Huang ⋅ Ziyi Xiong ⋅ Yang Luo ⋅ Junyan Ye ⋅ Weijia Li ⋅ Yiping Chen ⋅ Ting Han

VectorArk: Learning Practical Image Vectorization with Rounded Polygon Representation

Tarun Gehlaut ⋅ Difan Liu ⋅ Charu Bansal ⋅ Krutik Malani ⋅ Souymodip Chakraborty ⋅ Ankit Phogat ⋅ Matthew Fisher ⋅ Vineet Batra

OctoT2I: A Self-Evolving Agentic Text-to-Image Router

Jiang Xu ⋅ Bin Chen ⋅ Gehui Li ⋅ Yule Duan ⋅ Ronggang Wang ⋅ Jian Zhang

LottieGPT: Tokenizing Vector Animation for Autoregressive Generation

Junhao Chen ⋅ Gao Kejun ⋅ Yuehan Cui ⋅ Mingze Sun ⋅ Mingjin Chen ⋅ Shaohui Wang ⋅ Xiaoxiao Long ⋅ Fei Ma ⋅ Qi Tian ⋅ Hao Zhao ⋅ Ruqi Huang

SEA: Evaluating Sketch Abstraction Efficiency via Element-level Commonsense Visual Question Answering

Jiho Park ⋅ Sieun Choi ⋅ Jaeyoon Seo ⋅ Minho Sohn ⋅ Yeana Kim ⋅ Jihie Kim

Selective Amnesia using Contrastive Subnet Erasure for Class Level Unlearning in Vision Models

Vishal Pramanik ⋅ Maisha Maliha ⋅ Susmit Jha ⋅ Alvaro Velasquez ⋅ Olivera Kotevska ⋅ Sumit Jha

A Closed-Form Solution for Debiasing Vision-Language Models with Utility Guarantees Across Modalities and Tasks

Tangzheng Lian ⋅ Guanyu Hu ⋅ Yijing Ren ⋅ Dimitrios Kollias ⋅ Oya Celiktutan

Rank-Guided Pseudo-Bias Learning for Robust Black-Box Adaptation

Rajeev Ranjan Dwivedi ⋅ Anshuman Dangwal ⋅ Vinod Kurmi

Diagnosing and Repairing Unsafe Channels in Vision-Language Models via Causal Discovery and Dual-Modal Safety Subspace Projection

Jinhu Fu ⋅ Yihang Lou ⋅ Qingyi Si ⋅ Shudong Zhang ⋅ Sen Su

WaTeRFlow: Watermark Temporal Robustness via Flow Consistency

Utae Jeong ⋅ Sumin In ⋅ Hyunju Ryu ⋅ Jaewan Choi ⋅ Feng Yang ⋅ Jongheon Jeong ⋅ Seungryong Kim ⋅ Sangpil Kim

DSO: Direct Steering Optimization for Bias Mitigation

Lucas Monteiro Paes ⋅ Nivedha Sivakumar ⋅ Yinong Oliver Wang ⋅ Masha Fedzechkina ⋅ Barry-John Theobald ⋅ Luca Zappella ⋅ Nicholas Apostoloff

SWIFT: Sliding Window Reconstruction for Few-Shot Training-Free Generated Video Attribution

Chao Wang ⋅ Zijin Yang ⋅ Yaofei Wang ⋅ Yuang Qi ⋅ Weiming Zhang ⋅ Nenghai Yu ⋅ Kejiang Chen

SineProject: Machine Unlearning for Stable Vision-Language Alignment

Arpit Garg ⋅ Hemanth Saratchandran ⋅ Simon Lucey

HiLoRA: Hierarchical Low-Rank Adaptation for Personalized Federated Learning

Zihao Peng ⋅ Nan Zou ⋅ Jiandian Zeng ⋅ Guo Li ⋅ Ke Chen ⋅ Boyuan Li ⋅ Tian Wang

OS-Fed: One Snapshot Is All You Need

Xuwei Qian ⋅ Jinghui Zhang ⋅ Yuchuan Tan ⋅ Wenbo Huang ⋅ Zhen Wu ⋅ Shen Zhou ⋅ LiSha Gao ⋅ Ding Ding ⋅ Fang Dong

FedAlign: Differentially Private Distribution Alignment for Non-IID Federated Learning

Peng Wu ⋅ Jiapeng Zhang ⋅ Yingjie Song ⋅ Xiong Xiao ⋅ Zhuo Tang

Guiding Diffusion Models with Fine-Grained Conditions and Semantics-Preserving Sampling for One-Shot Federated Learning

Xiaojun Deng ⋅ Tianchi Liao ⋅ Zhiyuan Liu ⋅ Chuan Chen ⋅ Zibin Zheng

Personalized Federated Training of Diffusion Models with Privacy Guarantees

Kumar Kshitij Patel ⋅ Bingqing Jiang ⋅ A F M Mahfuzul Kabir ⋅ Weitong Zhang ⋅ Difan Zou ⋅ Lingxiao Wang

FedRAC: Rolling Submodel Allocation for Collaborative Fairness in Federated Learning

Zihui Wang ⋅ Yuhang Fu ⋅ Mengmeng Du ⋅ Zhimin Yuan ⋅ Yachen Liu ⋅ Weisheng Liao ⋅ Kaiyu Wang ⋅ Zheng Wang

Understanding Temporal Logic Consistency in Video-Language Models through Cross-Modal Attention Discriminability

Chengzhi Li ⋅ Heyan Huang ⋅ Ping Jian ⋅ Zhen Yang ⋅ Yaning Tian ⋅ Zhongbin Guo

Small Object, Great Challenge: A Benchmark for Small Object Visual Grounding

Wenqi Jia ⋅ Ruifan Li ⋅ Pengyue Lin ⋅ Fangxiang Feng ⋅ Zhanyu Ma ⋅ Xiaojie Wang

UFVideo: Towards Unified Fine-Grained Video Cooperative Understanding with Large Language Models

Hewen Pan ⋅ Cong Wei ⋅ Dashuang Liang ⋅ Zepeng Huang ⋅ Pengfei Gao ⋅ Ziqi Zhou ⋅ Lulu Xue ⋅ Pengfei Yan ⋅ Xiaoming Wei ⋅ Minghui Li ⋅ Shengshan Hu

ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding

Daichi Yashima ⋅ Shuhei Kurita ⋅ Yusuke Oda ⋅ Komei Sugiura

CaST-Bench: Benchmarking Causal Chain-Grounded Spatio-Temporal Reasoning for Video Question Answering

Mingfang Zhang ⋅ Jingjing Pan ⋅ Ashutosh Kumar ⋅ Rajat Saini ⋅ Mustafa Erdogan ⋅ Hsuan-Kung Yang ⋅ Caixin Kang ⋅ Yifei Huang ⋅ Yoichi Sato ⋅ Quan Kong

HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos

Tingting Han ⋅ Xinsong Tao ⋅ Yufei Yin ⋅ Min Tan ⋅ Sicheng Zhao ⋅ Zhou Yu

Scaling the Long Video Understanding of Multimodal Large Language Models via Visual Memory Mechanism

Tao Chen ⋅ Kun Zhang ⋅ Qiong Wu ⋅ Xiao Chen ⋅ Chao Chang ⋅ Xiaoshuai Sun ⋅ Yiyi Zhou ⋅ Rongrong Ji

Hybrid Token Compression for Vision-Language Models

jusheng zhang ⋅ Xiaoyang Guo ⋅ Kaitong Cai ⋅ Qinhan Lv ⋅ Yijia Fan ⋅ Wenhao Chai ⋅ Jian Wang ⋅ Keze Wang

Focus, Don’t Prune: Identifying Instruction-Relevant Regions for Information-Rich Image Understanding

Mincheol Kwon ⋅ MINSEUNG LEE ⋅ Seonga Choi ⋅ Miso Choi ⋅ Kyeongjin Oh ⋅ Hyunyoung Lee ⋅ Cheonyoung Park ⋅ Yongho Song ⋅ Seunghyun Park ⋅ Jinkyu Kim

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Yahong Wang ⋅ Juncheng Wu ⋅ Zhangkai Ni ⋅ Longzhen Yang ⋅ Yihang Liu ⋅ Chengmei Yang ⋅ Ying Wen ⋅ Lianghua He ⋅ Xianfeng Tang ⋅ Hui Liu ⋅ Yuyin Zhou

VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions

Adrian Bulat ⋅ Alberto Baldrati ⋅ Ioannis Maniadis Metaxas ⋅ Yassine Ouali ⋅ Georgios Tzimiropoulos

BiGain: Unified Token Compression for Joint Generation and Classification

Jiacheng Liu ⋅ Shengkun Tang ⋅ Jiacheng Cui ⋅ Dongkuan Xu ⋅ Zhiqiang Shen

Hi-Lo Prune: Look at What You'll Lose before Pruning with Hierarchical Token Selection

Zixun Sun ⋅ Yubo Dong ⋅ Hehe Fan ⋅ Yi Yang

VLM-Pruner: Buffering for Spatial Sparsity in an Efficient VLM Centrifugal Token Pruning Paradigm

Zhenkai Wu ⋅ Xiaowen Ma ⋅ ZHENLIANG NI ⋅ Dengming Zhang ⋅ Han Shu ⋅ Xin Jiang ⋅ Xinghao Chen

Bridge: Basis-Driven Causal Inference Marries VFMs for Domain Generalization

Mingbo Hong ⋅ Feng Liu ⋅ Caroline Gevaert ⋅ George Vosselman ⋅ Hao Cheng

In Pursuit of Pixel Supervision for Visual Pre-training

Lihe Yang ⋅ Shang-Wen Li ⋅ Yang Li ⋅ Xinjie Lei ⋅ Dong Wang ⋅ Abdelrahman Mohamed ⋅ Saining Xie ⋅ Hengshuang Zhao ⋅ Kaiming He ⋅ Hu Xu

GaussianMatch: Semi-Supervised Regression with Pseudo-Label Filtering via Multi-View Gaussian Consistency

Yin Wang ⋅ Hao Lu ⋅ Zixuan Wang ⋅ Zhen Qin ⋅ Li Kuang ⋅ Mengchu Zhou ⋅ Shuiguang Deng

TAR: Token-Aware Refinement for Fine-grained Generalized Category Discovery

XingYu Yang ⋅ Yu Zhang ⋅ Siya Mi ⋅ Xiu-Shen Wei

Semantic Noise Reduction via Teacher-Guided Dual-Path Audio-Visual Representation Learning

Linge Wang ⋅ Yingying Chen ⋅ Bingke Zhu ⋅ Lu Zhou ⋅ Jinqiao Wang

The Universal Normal Embedding

Chen Tasker ⋅ Roy Betser ⋅ Eyal Gofer ⋅ Meir Yossef Levi ⋅ Guy Gilboa

Bypassing the Transport Plan: Dynamic Reweighting for Out-of-Distribution Detection with Optimal Transport

Yang Xiao ⋅ Weiming Liu ⋅ Jun Dan ⋅ Tengyue Xu ⋅ Fan Wang ⋅ Hua Yu ⋅ Junhao Dong ⋅ Jiao Liu ⋅ Shunjie Dong ⋅ Lianyong Qi

Cross-domain Dual-stream Feature Disentanglement for Brain Disorder Prediction with Sparsely Labeled PET

Huabin Wang ⋅ Xinyu Chen ⋅ Yuan Zhou ⋅ Fei Liu

Debiased Sample Selection for Learning with Noisy Labels

Weiran Pan ⋅ Wei Wei ⋅ Wenfeng xie

Driving on Registers

Ellington Kirby ⋅ Alexandre Boulch ⋅ Yihong Xu ⋅ Yuan Yin ⋅ Gilles Puy ⋅ Éloi Zablocki ⋅ Andrei Bursuc ⋅ Spyros Gidaris ⋅ Renaud Marlet ⋅ Florent Bartoccioni ⋅ Anh Quan Cao ⋅ Nermin Samet ⋅ Vu Vu ⋅ Matthieu Cord

Open-Ended Instruction Realization with LLM-Enabled Multi-Planner Scheduling in Autonomous Vehicles

Jiawei Liu ⋅ Xun Gong ⋅ Fen Fang ⋅ Muli Yang ⋅ Bohao Qu ⋅ Yunfeng hu ⋅ Hong Chen ⋅ Xulei Yang ⋅ Qing Guo

EE-RL: Vision Language Guided Reinforcement Learning with Explorer and Expert model for End-to-End Autonomous Driving

Xiaolong Li ⋅ Lan Yang ⋅ Ruyang Li ⋅ Shan Fang ⋅ Yang Liu ⋅ Xiangmo Zhao

Sensor2Sensor: Cross-Embodiment Sensor Conversion for Autonomous Driving

Jiahao Wang ⋅ Bo Sun ⋅ Yijing Bai ⋅ Vincent Casser ⋅ Songyou Peng ⋅ Zehao Zhu ⋅ Meng-Li Shih ⋅ Xander Masotto ⋅ Shih-Yang Su ⋅ Kanaad Parvate ⋅ Tiancheng Ge ⋅ Linn Bieske ⋅ Dragomir Anguelov ⋅ Mingxing Tan ⋅ Chiyu “Max” Jiang

SHARP: Short-Window Streaming for Accurate and Robust Prediction in Motion Forecasting

Alexander Prutsch ⋅ Christian Fruhwirth-Reisinger ⋅ David Schinagl ⋅ Horst Possegger

DriveCombo: Benchmarking Compositional Traffic Rule Reasoning in Autonomous Driving

Enhui Ma ⋅ Jiahuan Zhang ⋅ Guantian Zheng ⋅ Tao Tang ⋅ Shengbo Eben Li ⋅ Yuhang Lu ⋅ xia zhou ⋅ Xueyang Zhang ⋅ Yifei Zhan ⋅ Kun Zhan ⋅ Zhihui Hao ⋅ XianPeng Lang ⋅ Kaicheng Yu

CausalVAD: De-confounding End-to-End Autonomous Driving via Causal Intervention

Jiacheng Tang ⋅ Zhiyuan Zhou ⋅ Zhuolin He ⋅ Jia Zhang ⋅ Kai Zhang ⋅ Jian Pu

Reliable Policy Transfer for Safety-Aware End-to-End Driving with Deep Reinforcement Learning

Uddin Md. Borhan ⋅ Arif Raza ⋅ Zhiliang Lin ⋅ Lu Wang ⋅ Jianqiang Li ⋅ Jie Chen

Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos

Matthew Strong ⋅ Wei-Jer Chang ⋅ Quentin HERAU ⋅ Jiezhi Yang ⋅ Yihan Hu ⋅ Chensheng Peng ⋅ Wei Zhan

WhisperNet: A Scalable Solution for Bandwidth-Efficient Collaboration

Gong Chen ⋅ Chaokun Zhang ⋅ Xinyan Zhao

Efficient Equivariant Transformer for Self-Driving Agent Modeling

Scott Xu ⋅ Dian Chen ⋅ Kelvin Wong ⋅ Chris Zhang ⋅ Kion Fallah ⋅ Raquel Urtasun

Generalizable Co-Salient Object Detection via Mixed Content-Style Modulation

Guanting Guo ⋅ Shenglong Hu ⋅ Kaihua Zhang ⋅ Guangcan Liu ⋅ Min Xia

Saliency-Driven Token Merging for Vision Transformers

Weiying Xie ⋅ Xiaoyu Chen ⋅ Xin Zhang ⋅ Chenhe Hao ⋅ Jitao Ma ⋅ Yunsong Li ⋅ Leyuan Fang

RISE: Single Static Radar-based Indoor Scene Understanding

Kaichen Zhou ⋅ Laura Dodds ⋅ Sayed Saad Afzal ⋅ Fadel Adib

Mixture-of-Experts based Feature Decoupling for Open Vocabulary Scene Graph Generation

Yiming Li ⋅ Sisi You ⋅ Bing-Kun Bao

TF-SSD: A Strong Pipeline via Synergic Mask Filter for Training-free Co-salient Object Detection

Zhijin He ⋅ Shuo Jin ⋅ Siyue Yu ⋅ Shuwei Wu ⋅ Bingfeng Zhang ⋅ Li Yu ⋅ Jimin Xiao

Denoise and Align: Towards Source-Free UDA for Robust Panoramic Semantic Segmentation

Yaowen Chang ⋅ Zhen Cao ⋅ Xu Zheng ⋅ Xiaoxin Mi ⋅ Zhen Dong

SPOT: Spatiotemporal Prompt Optimization for Motion-Stabilized MLLM-Guided Video Segmentation

Jiayi Fan ⋅ Zheyun Qin ⋅ Xiaoming Xi ⋅ Xiushan Nie ⋅ Yilong Yin

Changes in Real Time: Online Scene Change Detection with Multi-View Fusion

Chamuditha Jayanga Galappaththige ⋅ Jason Lai ⋅ Lloyd Windrim ⋅ Donald Dansereau ⋅ Niko Suenderhauf ⋅ Dimity Miller

Subspace Alignment for CLIP-based Continual Learning via Canonical Correlation Analysis

Huan Zhang ⋅ Shuyu Dong ⋅ Yujin Zheng ⋅ Dingwen Wang ⋅ Shenghua Fan ⋅ Fan Lyu

DGS: Dual Gradient and Semantic-Shift Guided Low-Rank Adaptation for Class Incremental Learning

KAI LI ⋅ Jiafeng Li ⋅ Lianghua He ⋅ Ying Wen

Dynamic Magic: Unleashing Restricted Knowledge for Lifelong Person Re-Identification

Jinjia Peng ⋅ Jican Tan ⋅ Jiazuo Yu ⋅ Zeze Tao ⋅ Huibing Wang

Which Concepts to Forget and How to Refuse? Decomposing Concepts for Continual Unlearning in Large Vision-Language Models

Hyundong Jin ⋅ Dongyoon Han ⋅ Eunwoo Kim

Temporal Imbalance of Positive and Negative Supervision in Class-Incremental Learning

Jinge Ma ⋅ Fengqing Zhu

Forging a Dynamic Memory: Retrieval-Guided Continual Learning for Generalist Medical Foundation Models

Zizhi Chen ⋅ Yizhen Gao ⋅ Minghao Han ⋅ Yizhou Liu ⋅ Zhaoyu Chen ⋅ Dingkang Yang ⋅ Lihua Zhang

Dance Across Shifts: Forward-Facilitation Continual Test-Time Adaptation through Dynamic Style Bridging

Zhilin Zhu ⋅ Yabin Wang ⋅ Zhiheng Ma ⋅ Yaguang Song ⋅ Yaowei Wang ⋅ Xiaopeng Hong

Few-Shot Hybrid Incremental Learning: Continually Learning under Data Scarcity and Task Uncertainty

Yan Li ⋅ Yuzhu Shi ⋅ Kan Zhou ⋅ Shu Zhang ⋅ Diqi He ⋅ Dingwen Zhang ⋅ Junwei Han

High-Fidelity Mobile Avatars with Pruned Local Blendshapes

Youyi Zhan ⋅ He Wang ⋅ Tianjia Shao ⋅ Kun Zhou

PhysSkin: Real-Time and Generalizable Physics-Based Animation via Self-Supervised Neural Skinning

Yuanhang Lei ⋅ Tao Cheng ⋅ Xingxuan Li ⋅ Boming Zhao ⋅ Siyuan Huang ⋅ Ruizhen Hu ⋅ Peter Yichen Chen ⋅ Hujun Bao ⋅ Zhaopeng Cui

Bridging Privacy and Provenance: Traceable Virtual Identity Generation

Xianhan Zeng ⋅ Xiaoxiao Hu ⋅ Sheng Li ⋅ Zhenxing Qian ⋅ Xinpeng Zhang

PortraitDirector: A Hierarchical Disentanglement Framework for Controllable and Real-time Facial Reenactment

Chaonan Ji ⋅ Jinwei Qi ⋅ Sheng Xu ⋅ Peng Zhang ⋅ Bang Zhang

Dynamic Label Noise Suppression with Optimal Teacher Pool for Facial Expression Recognition

Yuzhuang Yang ⋅ Xiaolin Tian ⋅ Qigong Sun

MimicTalker: A Multimodal Interactive and Memory-Enhanced Framework for Real-Time Dyadic 3D Head Generation

Yinuo Wang ⋅ Yanbo Fan ⋅ Xuan Wang ⋅ Boyao Zhou ⋅ Yu Guo ⋅ Yujun Shen ⋅ Fei Wang

DecoVLN: Decoupling Observation, Reasoning, and Correction for Vision-and-Language Navigation

zihao xin ⋅ Wentong Li ⋅ Yixuan Jiang ⋅ Bin Wang ⋅ Runmin Cong ⋅ Jie Qin ⋅ Shengjun Huang

HybridDriveVLA: Vision-Language-Action Model with Visual CoT reasoning and ToT Evaluation for Autonomous Driving

Yipene Cedric Francois Bassole ⋅ Sungwoo Kim ⋅ Jiwoo Jung ⋅ Yunsick Sung

NavForesee: A Unified Vision-Language World Model for Hierarchical Planning and Dual-Horizon Navigation Prediction

Fei Liu ⋅ Shichao Xie ⋅ Minghua Luo ⋅ Zedong Chu ⋅ Junjun Hu ⋅ Xiaolong Wu ⋅ Mu Xu

LookasideVLN: Direction-Aware Aerial Vision-and-Language Navigation

Yuwei Ning ⋅ Ganlong Zhao ⋅ Yipeng Qin ⋅ Si Liu ⋅ Yang Liu ⋅ Liang Lin ⋅ Guanbin Li

MAPS: Preserving Vision-Language Representations via Module-Wise Proximity Scheduling for Better Vision-Language-Action Generalization

Chengyue Huang ⋅ Mellon M. Zhang ⋅ Robert Azarcon ⋅ Glen Chou ⋅ Zsolt Kira

D3D-VLP: Dynamic 3D Vision-Language-Planning Model for Embodied Grounding and Navigation

Zihan Wang ⋅ Seungjun Lee ⋅ Guangzhao Dai ⋅ Gim Hee Lee

FreeForm: Reduced-Order Deformable Simulation from Particle-Based Skinning Eigenmodes

Donglai Xiang ⋅ Vismay Modi ⋅ Rishit Dagli ⋅ Ty Trusty ⋅ Gilles Daviet ⋅ Anka Chen ⋅ Nicholas Sharp ⋅ David I. W. Levin

GeoDiff4D: Geometry-Aware Diffusion for 4D Head Avatar Reconstruction

Chao Xu ⋅ Xiaochen Zhao ⋅ xiang deng ⋅ Jingxiang Sun ⋅ Donglin Di ⋅ Zhuo Su ⋅ Yebin Liu

4DEquine: Disentangling Motion and Appearance for 4D Equine Reconstruction from Monocular Video

Jin Lyu ⋅ Liang An ⋅ Pujin Cheng ⋅ Yebin Liu ⋅ Xiaoying Tang

PhysHO: Physics-Based Dynamic 3D Gaussian Human and Object from Monocular Video

Suyi Jiang ⋅ Gim Hee Lee

ProgressiveAvatars: Progressive Animatable 3D Gaussian Avatars

Kaiwen Song ⋅ Jinkai Cui ⋅ Juyong Zhang

ZINA: Multimodal Fine-grained Hallucination Detection and Editing

Yuiga Wada ⋅ Kazuki Matsuda ⋅ Komei Sugiura ⋅ Graham Neubig

Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

Shan Wang ⋅ Maying Shen ⋅ Nadine Chang ⋅ Chuong Nguyen ⋅ Hongdong Li ⋅ Jose M. Alvarez

HalluGen: Synthesizing Realistic and Controllable Hallucinations for Evaluating Image Restoration

Seunghoi Kim ⋅ Henry F. J. Tregidgo ⋅ Chen Jin ⋅ Matteo Figini ⋅ Daniel C. Alexander

KVSmooth: Mitigating Hallucination in Multi-modal Large Language Models through Key-Value Smoothing

Siyu Jiang ⋅ Feiyang Chen ⋅ Xiaojin Zhang ⋅ Kun He

ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Video Understanding

Hao Lu ⋅ Jiahao Wang ⋅ Yaolun Zhang ⋅ Ruohui Wang ⋅ Xuanyu Zheng ⋅ Yepeng Tang ⋅ Dahua Lin ⋅ Lewei Lu

Tell Model Where to Look: Mitigating Hallucinations in MLLMs by Vision-Guided Attention

Jianfei Zhao ⋅ Feng Zhang ⋅ Xin Sun ⋅ Chong Feng ⋅ Zhixing Tan

Circular-DPO: Aligning Multi-Stage 3D Generative Models via Preference Feedback Loop

Zejian Li ⋅ Jiarui Ma ⋅ Han Xu ⋅ Weiting Zheng ⋅ Yangrui Zhu ⋅ Chenye Meng ⋅ Pei Chen ⋅ Ling Yang ⋅ Zhiyuan Yang ⋅ Changyuan Yang ⋅ Guang Yang ⋅ Immanuel Koh ⋅ Lingyun Sun

Cloning Deterministic Worlds: The Critical Role of Latent Geometry in Long-Horizon World Models

Zaishuo Xia ⋅ Yukuan Lu ⋅ Xinyi Li ⋅ Yifan Xu ⋅ Yubei Chen

PrITTI: Primitive-based Generation of Controllable and Editable 3D Semantic Urban Scenes

Christina Ourania Tze ⋅ Daniel Dauner ⋅ Yiyi Liao ⋅ Dzmitry Tsishkou ⋅ Andreas Geiger

CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

Lingen Li ⋅ Guangzhi Wang ⋅ Xiaoyu Li ⋅ Zhaoyang Zhang ⋅ Qi Dou ⋅ Jinwei Gu ⋅ Tianfan Xue ⋅ Ying Shan

ExPose: Reinforcing Video Generation Models for Extreme Pose Estimation

Youngho Yoon ⋅ Wonjune Cho ⋅ Hyunho Ha ⋅ Sujung Kim ⋅ Kuk-Jin Yoon

Choreographing a World of Dynamic Objects

Yanzhe Lyu ⋅ Chen Geng ⋅ Karthik Dharmarajan ⋅ Yunzhi Zhang ⋅ Hadi Alzayer ⋅ Shangzhe Wu ⋅ Jiajun Wu

SounDiT: Geo-Contextual Soundscape-to-Landscape Generation

Junbo Wang ⋅ Haofeng Tan ⋅ Bowen Liao ⋅ Albert Jiang ⋅ Teng Fei ⋅ Qixing Huang ⋅ Bing Zhou ⋅ Zhengzhong Tu ⋅ Shan Ye ⋅ Yuhao Kang

Vista4D: Video Reshooting with 4D Point Clouds

Kuan Heng Lin ⋅ Zhizheng Liu ⋅ Pablo Salamanca ⋅ Yash Kant ⋅ Ryan Burgert ⋅ Yuancheng Xu ⋅ Koichi Namekata ⋅ Yiwei Zhao ⋅ Bolei Zhou ⋅ Micah Goldblum ⋅ Paul Debevec ⋅ Ning Yu

CamDirector: Towards Long-Term Coherent Video Trajectory Editing

Kejia Yin ⋅ Zhihao Shi ⋅ Weilin Wan ⋅ Yuhongze Zhou ⋅ YUANHAO YU ⋅ Xinxin Zuo ⋅ Qiang Sun ⋅ Juwei Lu

Elastic3D: Controllable Stereo Video Conversion with Guided Latent Decoding

Nando Metzger ⋅ Prune Truong ⋅ Goutam Bhat ⋅ Konrad Schindler ⋅ Federico Tombari

Decoupling Bias, Aligning Distributions: Synergistic Fairness Optimization for Deepfake Detection

Feng Ding ⋅ Wenhui Yi ⋅ Yunpeng Zhou ⋅ Xinan He ⋅ Hong Rao ⋅ Shu Hu

Target-Aware Invertible Encoder with Reconstruction Guidance for Infrared Small Target Detection

Shule Yan ⋅ Zetian Zhang ⋅ Xiao Ma ⋅ Zexuan Ji

BDNet:Bio-Inspired Dual-Backbone Small Object Detection Network

Wenchao Guan ⋅ Chuan Lin ⋅ Sihan Huang ⋅ Xiongzhen Wang ⋅ Xintao Pang

ElasticFormer: Detecting Objects in HRW Shots via Elastic Computing Vision Transformer

Wenxi Li ⋅ Jingchen Huang ⋅ Chenyang Lyu ⋅ Moran Liu ⋅ Haozhe Lin ⋅ Guiguang Ding ⋅ Yuchen Guo

RGB-Event based Pedestrian Attribute Recognition: A Benchmark Dataset and An Asymmetric RWKV Fusion Framework

Xiao Wang ⋅ Haiyang Wang ⋅ Shiao Wang ⋅ Qiang Chen ⋅ Jiandong Jin ⋅ Haoyu Song ⋅ Bo Jiang ⋅ Chenglong Li

FusionAgent: A Multimodal Agent with Dynamic Model Selection for Human Recognition

Jie Zhu ⋅ Xiao Guo ⋅ Yiyang Su ⋅ Anil Kumar Jain ⋅ Xiaoming Liu

Free-Grained Hierarchical Visual Recognition

Seulki Park ⋅ Zilin Wang ⋅ Stella X. Yu

URICA: A Uniformity Region Affine Identifier Capture Algorithm for Arbitrary Region Retrieval in Pathology Images

Ri Su ⋅ Zhao CHEN ⋅ Caleb Chen Cao ⋅ Lei Chen

Online Data Curation for Object Detection via Marginal Contributions to Dataset-level Average Precision

Zitang Sun ⋅ Masakazu Yoshimura ⋅ Junji Otsuka ⋅ Atsushi Irie ⋅ Takeshi Ohashi

DetAny4D: Detect Anything 4D Temporally in a Streaming RGB Video

Jiawei Hou ⋅ Shenghao Zhang ⋅ Can Wang ⋅ Zheng Gu ⋅ Yonggen Ling ⋅ Taiping Zeng ⋅ Xiangyang Xue ⋅ Jingbo Zhang

Follow the Saliency: Supervised Saliency for Retrieval-augmented Dense Video Captioning

Seung hee Choi ⋅ minju Jeon ⋅ Hyunwoo Oh ⋅ Jihwan Lee ⋅ Dong-Jin Kim

Video-CoE: Reinforcing Video Event Prediction via Chain of Events

Qile Su ⋅ Jing Tang ⋅ Rui Chen ⋅ Lei Sun ⋅ Xiangxiang Chu

VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice

Shuming Liu ⋅ Mingchen Zhuge ⋅ Changsheng Zhao ⋅ Jun Chen ⋅ Lemeng Wu ⋅ Zechun Liu ⋅ Chenchen Zhu ⋅ zhipeng cai ⋅ Chong Zhou ⋅ Haozhe Liu ⋅ Ernie Chang ⋅ Saksham Suri ⋅ Hongyu Xu ⋅ Qi Qian ⋅ Wei Wen ⋅ Balakrishnan Varadarajan ⋅ Zhuang Liu ⋅ Hu Xu ⋅ Florian Bordes ⋅ Raghuraman Krishnamoorthi ⋅ Bernard Ghanem ⋅ Vikas Chandra ⋅ Yunyang Xiong

VRR-QA: Visual Relational Reasoning in Videos Beyond Explicit Cues

Sirnam Swetha ⋅ Rohit Gupta ⋅ Parth Parag Kulkarni ⋅ David G. ⋅ Jeffrey A. Chan-Santiago ⋅ Nyle Siddiqui ⋅ Joseph Fioresi ⋅ Mubarak Shah

Question-guided Visual Compression with Memory Feedback for Long-Term Video Understanding

Sosuke Yamao ⋅ Natsuki Miyahara ⋅ Yuankai Qi ⋅ Shun Takeuchi

CURVE: A Benchmark for Cultural and Multilingual Long Video Reasoning

Darshan Singh S ⋅ Arsha Nagrani ⋅ Kawshik Manikantan ⋅ Harman Singh ⋅ Dinesh Tewari ⋅ Tobias Weyand ⋅ Cordelia Schmid ⋅ Anelia Angelova ⋅ Shachi Dave

SVBench: Evaluation of Video Generation Models on Social Reasoning

Wenshuo Peng ⋅ Gongxuan Wang ⋅ Tianmeng Yang ⋅ Chuanhao Li ⋅ Xiaojie Xu ⋅ Hui He ⋅ Kaipeng Zhang

Hierarchical Long Video Understanding with Audiovisual Entity Cohesion and Agentic Search

Xinlei Yin ⋅ Xiulian Peng ⋅ Xiao Li ⋅ Zhiwei Xiong ⋅ Yan Lu

LifeEval: A Multimodal Benchmark for Assistive AI in Egocentric Daily Life Tasks

Hengjian Gao ⋅ Kaiwei Zhang ⋅ Shibo Wang ⋅ Mingjie Chen ⋅ Qihang Cao ⋅ Xianfeng Wang ⋅ Yucheng Zhu ⋅ Xiongkuo Min ⋅ Wei Sun ⋅ Dandan Zhu ⋅ Guangtao Zhai

Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning

Haoji Zhang ⋅ Xin Gu ⋅ Jiawen Li ⋅ Chixiang Ma ⋅ Sule Bai ⋅ Chubin Zhang ⋅ bowen zhang ⋅ zhichao zhou ⋅ Dongliang He ⋅ Yansong Tang

Attention Surgery: An Efficient Recipe to Linearize Your Video Diffusion Transformer

Mohsen Ghafoorian ⋅ Denis Korzhenkov ⋅ Amir Habibian

YOSE: You Only Select Essential Tokens for Efficient DiT-based Video Object Removal

wu chenyang ⋅ Lina Lei ⋅ Fan Li ⋅ Chunle Guo ⋅ Dehong Kong ⋅ Xinran Qin ⋅ Zhixin Wang ⋅ Mingming Cheng ⋅ Chongyi Li

CADC: Content Adaptive Diffusion-Based Generative Image Compression

Xihua Sheng ⋅ lingyu ZHU ⋅ Tianyu Zhang ⋅ Dong Liu ⋅ Shiqi Wang ⋅ Jing Wang

FG-Portrait: 3D Flow Guided Editable Portrait Animation

Yating Xu ⋅ Yunqi Miao ⋅ Evangelos Ververas ⋅ Jiankang Deng ⋅ Jifei Song

ResCa: Residual Caching for Diffusion Transformers Acceleration

Haipeng Fang ⋅ Yu Li ⋅ Fan Tang ⋅ Yixing Lu ⋅ Juan Cao ⋅ Sheng Tang

IP-Adapter Is All You Need: Towards Fine-Tuning-Free Diffusion-Based Talking Face Generation

Hao Wu ⋅ Xiangyang Luo ⋅ Hao Wang ⋅ Jiawei Zhang ⋅ Yi Zhang ⋅ Jinwei Wang

SRA 2: Variational Autoencoder Self-Representation Alignment for Efficient Diffusion Training

Mengmeng Wang ⋅ Dengyang Jiang ⋅ Liuzhuozheng Li ⋅ Yucheng Lin ⋅ Guojiang Shen ⋅ Xiangjie Kong ⋅ Yong Liu ⋅ Guang Dai ⋅ Jingdong Wang

InnoAds-Composer: Efficient Condition Composition for E-Commerce Poster Generation

Yuxin Qin ⋅ Ke Cao ⋅ Haowei Liu ⋅ Ao Ma ⋅ Fengheng Li ⋅ Honghe Zhu ⋅ Zheng Zhang ⋅ Run Ling ⋅ Wei Feng ⋅ Xuanhua He ⋅ Zhanjie Zhang ⋅ Zhen Guo ⋅ Haoyi Bian ⋅ Jingjing Lv ⋅ Junjie Shen ⋅ Ching Law

Multi-Patch Global-to-Local Transformer Architecture For Efficient Flow Matching and Diffusion Model

Minh Quan Dao ⋅ Dimitris Metaxas

SODA: Sensitivity-Oriented Dynamic Acceleration for Diffusion Transformer

Tong Shao ⋅ Yusen Fu ⋅ Guoying Sun ⋅ Jingde Kong ⋅ Zhuotao Tian ⋅ Jingyong Su

DSERT-RoLL: Robust Multi-Modal Perception for Diverse Driving Conditions with Stereo Event-RGB-Thermal Cameras, 4D Radar, and Dual-LiDAR

Hoonhee Cho ⋅ Jae-Young Kang ⋅ Yuhwan Jeong ⋅ Yunseo Yang ⋅ Wonyoung Lee ⋅ Youngho Kim ⋅ Kuk-Jin Yoon

A Semantically Disentangled Unified Model for Multi-category 3D Anomaly Detection

SuYeon Kim ⋅ Wongyu Lee ⋅ MyeongAh Cho

ReManNet: A Riemannian Manifold Network for Monocular 3D Lane Detection

Chengzhi Hong ⋅ Bijun Li

PanDA: Unsupervised Domain Adaptation for Multimodal 3D Panoptic Segmentation in Autonomous Driving

Yining Pan ⋅ Shijie Li ⋅ Yuchen Wu ⋅ Xulei Yang ⋅ Na Zhao

STUR3D: Spatio-Temporal Unified Representation Learning for 3D Object Detection

Huijie Fan ⋅ Pengrui huang ⋅ Qiang Wang ⋅ Baojie Fan ⋅ Jiahua Dong ⋅ Liangqiong Qu

Exploring 6D Object Pose Estimation with Deformation

Zhiqiang Liu ⋅ Rui Song ⋅ Duanmu Chuangqi ⋅ Jiaojiao Li ⋅ David Ferstl ⋅ Yinlin Hu

SearchAD: Large-Scale Rare Image Retrieval Dataset for Autonomous Driving

Felix Embacher ⋅ Jonas Uhrig ⋅ Marius Cordts ⋅ Markus Enzweiler

Improving Vision-language Models with Perception-centric Process Reward Models

Yingqian Min ⋅ Kun Zhou ⋅ Yifan Li ⋅ Yuhuan Wu ⋅ Han Peng ⋅ Yifan Du ⋅ Wayne Xin Zhao ⋅ Min Yang ⋅ Ji-Rong Wen

X-PCR: A Benchmark for Cross-modality Progressive Clinical Reasoning in Ophthalmic Diagnosis

Gui Wang ⋅ Zehao Zhong ⋅ YongSong Zhou ⋅ Yudong Li ⋅ Ende Wu ⋅ Wooi Ping Cheah ⋅ Rong Qu ⋅ Jianfeng Ren ⋅ Linlin Shen

Better, Stronger, Faster: Tackling the Trilemma in MLLM-based Segmentation with Simultaneous Textual Mask Prediction

Jiazhen Liu ⋅ Mingkuan Feng ⋅ Long Chen

PhysInOne: Visual Physics Learning and Reasoning in One Suite

Siyuan Zhou ⋅ Hejun Wang ⋅ Hu Cheng ⋅ Jinxi Li ⋅ Dongsheng Wang ⋅ Junwei Jiang ⋅ Yixiao Jin ⋅ Jiayue Huang ⋅ Shiwei Mao ⋅ Shangjia Liu ⋅ Yafei Yang ⋅ Hongkang Song ⋅ Shenxing Wei ⋅ Zihui Zhang ⋅ DataTeam vLAR ⋅ Bing Wang ⋅ Zhihua Wang ⋅ Chuhang Zou ⋅ Bo Yang

AviaSafe: A Physics-Informed Data-Driven Model for Aviation Safety–Critical Cloud Forecasts

ZIJIAN ZHU ⋅ Huang Qiusheng ⋅ Anboyu Guo ⋅ Xiaohui Zhong ⋅ Hao li

TTRV: Test-Time Reinforcement Learning for Vision Language Models

Akshit Singh ⋅ Shyam Marjit ⋅ Wei Lin ⋅ Paul Gavrikov ⋅ Serena Yeung ⋅ Hilde Kuehne ⋅ Rogerio Feris ⋅ Sivan Doveh ⋅ James Glass ⋅ M. Jehanzeb Mirza

Reading or Reasoning? Format Decoupled Reinforcement Learning for Document OCR

Yufeng Zhong ⋅ Lei Chen ⋅ Zhixiong Zeng ⋅ Xuanle Zhao ⋅ Deyang Jiang ⋅ Liming Zheng ⋅ Jing Huang ⋅ Haibo Qiu ⋅ Peng Shi ⋅ Siqi Yang ⋅ Lin Ma

QUANTIPHY: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models

Puyin Li ⋅ Tiange Xiang ⋅ Ella Mao ⋅ Shirley Wei ⋅ Xinye Chen ⋅ Adnan Masood ⋅ Li Fei-Fei ⋅ Ehsan Adeli

VisRes Bench: On Evaluating the Visual Reasoning Capabilities of VLMs

Brigitta Malagurski Törtei ⋅ Yasser Dahou ⋅ Ngoc Dung Huynh ⋅ Wamiq Reyaz Para ⋅ Phúc H. Lê Khắc ⋅ Ankit Singh ⋅ Sofian Chaybouti ⋅ Sanath Narayan

TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition

JUNYUAN ZHANG ⋅ Bin Wang ⋅ Qintong Zhang ⋅ Fan Wu ⋅ Zichen Wen ⋅ Jialin Lu ⋅ Junjie Shan ⋅ Ziqi Zhao ⋅ Shuya Yang ⋅ Ziling Wang ⋅ Ziyang Miao ⋅ Huaping Zhong ⋅ Yuhang Zang ⋅ Xiaoyi Dong ⋅ Ka-Ho Chow ⋅ Conghui He

Urban-GS: A Unified 3D Gaussian Splatting Framework for Compact and High-Fidelity Aerial-to-Street Reconstruction

Meng Wang ⋅ Changqun Xia ⋅ Yuze Wang ⋅ Junyi Wang ⋅ Wantong Duan ⋅ Xinxiong Xie ⋅ Yue Qi

Generalizable Sparse-View 3D Reconstruction from Unconstrained Images

Vinayak Gupta ⋅ Chih-Hao Lin ⋅ Shenlong Wang ⋅ Anand Bhattad ⋅ Jia-Bin Huang

RemedyGS: Defend 3D Gaussian Splatting Against Computation Cost Attacks

Yanping LI ⋅ Zhening Liu ⋅ Zijian Li ⋅ Zehong Lin ⋅ Jun Zhang

SparseCam4D: Spatio-Temporally Consistent 4D Reconstruction from Sparse Cameras

Weihong Pan ⋅ XiaoYu Zhang ⋅ Zhuang Zhang ⋅ Zhichao Ye ⋅ Nan Wang ⋅ Haomin Liu ⋅ Guofeng Zhang

IDESplat: Iterative Depth Probability Estimation for Generalizable 3D Gaussian Splatting

Wei Long ⋅ Haifeng Wu ⋅ SHIYIN JIANG ⋅ Jinhua Zhang ⋅ Xinchun Ji ⋅ Shuhang Gu

GS^2: Graph-based Spatial Distribution Optimization for Compact 3D Gaussian Splatting

Xianben Yang ⋅ Tao Wang ⋅ Yuxuan Li ⋅ Yi Jin ⋅ Haibin Ling

OnlinePG: Online Open-Vocabulary Panoptic Mapping with 3D Gaussian Splatting

Hongjia Zhai ⋅ Qi Zhang ⋅ Xiaokun Pan ⋅ Xiyu Zhang ⋅ Yitong Dong ⋅ Huaqi Zhang ⋅ Dan Xu ⋅ Guofeng Zhang

Uni3R: Unified 3D Reconstruction and Semantic Understanding via Generalizable Gaussian Splatting from Unposed Multi-View Images

Xiangyu Sun ⋅ Haoyi Jiang ⋅ Liu Liu ⋅ Seungtae Nam ⋅ Gyeongjin Kang ⋅ Xinjie wang ⋅ Wei Sui ⋅ Zhizhong Su ⋅ Wenyu Liu ⋅ Xinggang Wang ⋅ Eunbyung Park

Learning Explicit Continuous Motion Representation for Dynamic Gaussian Splatting from Monocular Videos

Xuankai Zhang ⋅ Junjin Xiao ⋅ Shangwei Huang ⋅ Wei-Shi Zheng ⋅ Qing Zhang

MLLMSplat: A 2D MLLM-Powered Framework for 3D Gaussian Splatting Understanding, Generation, and Editing

Jingqiao Xiu ⋅ Can Wang ⋅ Dong Xu

Dropping Anchor and Spherical Harmonics for Sparse-view Gaussian Splatting

Shuangkang Fang ⋅ I-Chao Shen ⋅ Xuanyang Zhang ⋅ Zesheng Wang ⋅ Yufeng Wang ⋅ Wenrui Ding ⋅ Gang Yu ⋅ Takeo Igarashi

RAP: Fast Feedforward Rendering-Free Attribute-Guided Primitive Importance Score Prediction for Efficient 3D Gaussian Splatting Processing

Kaifa Yang ⋅ Qi Yang ⋅ Yiling Xu ⋅ Zhu Li

Plug-and-Play PDE Optimization for 3D Gaussian Splatting: Toward High-Quality Rendering and Reconstruction

Yifan Mo ⋅ Youcheng Cai ⋅ Ligang Liu

PointGS: Semantic-Consistent Unsupervised 3D Point Cloud Segmentation with 3D Gaussian Splatting

Yixiao Song ⋅ Qingyong Li ⋅ Wen Wang ⋅ Zhicheng Yan

Scene Grounding in the Wild

Tamir Cohen ⋅ Leo Segre ⋅ Shay Shomer-Chai ⋅ Shai Avidan ⋅ Hadar Averbuch-Elor

Flow4DGS-SLAM: Optical Flow-Guided 4D Gaussian Splatting SLAM

Yunsong Wang ⋅ Gim Hee Lee

Revisiting 3D Reconstruction Kernels as Low-Pass Filters

Shengjun Zhang ⋅ Min Chen ⋅ Yibo Wei ⋅ Mingyu Dong ⋅ Yueqi Duan

SR3R: Rethinking Super-Resolution 3D Reconstruction With Feed-Forward Gaussian Splatting

Xiang Feng ⋅ Xiangbo Wang ⋅ Tieshi Zhong ⋅ Chengkai Wang ⋅ Yiting Zhao ⋅ Tianxiang Xu ⋅ Zhenzhong Kuang ⋅ Feiwei Qin ⋅ Xuefei Yin ⋅ Yanming Zhu

GP-4DGS: Probabilistic 4D Gaussian Splatting from Monocular Video via Variational Gaussian Processes

Mijeong Kim ⋅ Jungtaek Kim ⋅ Bohyung Han

VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models

Soumya Suvra Ghosal ⋅ Youngeun Kim ⋅ Zhuowei Li ⋅ Ritwick Chaudhry ⋅ Linghan Xu ⋅ Hongjing Zhang ⋅ Jakub Zablocki ⋅ Yifan Xing ⋅ Qin ZHANG

IPR-1: Interactive Physical Reasoner

Mingyu Zhang ⋅ lifeng zhuo ⋅ Tianxi Tan ⋅ Guocan Xie ⋅ Xian Nie ⋅ Yan Li ⋅ Renjie Zhao ⋅ Zizhu He ⋅ Ziyu Wang ⋅ Jiting Cai ⋅ Yonglu Li

VIRO: Robust and Efficient Neuro-Symbolic Reasoning with Verification for Referring Expression Comprehension

Hyejin Park ⋅ Junhyuk Kwon ⋅ Suha Kwak ⋅ Jungseul Ok

Fuel Gauge: Estimating Chain-of-Thought Length Ahead of Time in Large Multimodal Models

Yuedong Yang ⋅ Xiwen Wei ⋅ Mustafa Munir ⋅ Radu Marculescu

Thinking in Dynamics: How Multimodal Large Language Models Perceive, Track, and Reason Dynamics in Physical 4D World

Yuzhi Huang ⋅ Kairun Wen ⋅ Rongxin Gao ⋅ Dongxuan Liu ⋅ Yibin Lou ⋅ Jie Wu ⋅ Jing Xu ⋅ Jian Zhang ⋅ Zheng Yang ⋅ yunlong lin ⋅ Chenxin Li ⋅ Panwang Pan ⋅ Junbin Lu ⋅ Jingyan Jiang ⋅ Xinghao Ding ⋅ Yue Huang ⋅ Zhi Wang

Latent Implicit Visual Reasoning

Kelvin Li ⋅ Chuyi Shang ⋅ Leonid Karlinsky ⋅ Rogerio Feris ⋅ Trevor Darrell ⋅ Roei Herzig

Thinking with Programming Vision: Towards a Unified View for Thinking with Images

Zirun Guo ⋅ Minjie Hong ⋅ Feng Zhang ⋅ Kai Jia ⋅ Tao Jin

AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs

Lidong Lu ⋅ Guo Chen ⋅ Wei Zhu ⋅ Zhiqi Li ⋅ Yicheng Liu ⋅ Tong Lu

All Roads Lead to Rome: Incentivizing Divergent Thinking in Vision-Language Models

Xinyu Tian ⋅ Shu Zou ⋅ Zhaoyuan Yang ⋅ Mengqi He ⋅ Peter Henry Tu ⋅ Jing Zhang

See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning

Shuoshuo Zhang ⋅ Yizhen Zhang ⋅ JINGJING FU ⋅ Lei Song ⋅ Jiang Bian ⋅ Yujiu Yang ⋅ Rui Wang

Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokens

Zeyuan Yang ⋅ Xueyang Yu ⋅ Delin Chen ⋅ Maohao Shen ⋅ Chuang Gan

ReaGEN: Adaptive Generation of Structured Chains-of-Thought for Efficient Multimodal Reasoning

Ruiqing Tian ⋅ Mohan Sai Singamsetti ⋅ Di Niu ⋅ Bahador Rashidi

Breaking the Regional Perception Bottleneck of Multimodal Large Language Models via External Reasoning Framework

Jinrong Zhang ⋅ Zhaoyang Xu ⋅ Xusheng He ⋅ Xinrui Li ⋅ Na Zheng ⋅ Jianlong Wu

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

Tongkun Guan ⋅ Zhibo Yang ⋅ Jianqiang Wan ⋅ Mingkun Yang ⋅ Zhentao Guo ⋅ Zijian Hu ⋅ Ruilin Luo ⋅ Ruizhe Chen ⋅ Sontao Jiang ⋅ Peng Wang ⋅ Wei Shen ⋅ Junyang Lin ⋅ Xiaokang Yang

TableMix: Enhancing Multimodal Table Reasoning in MLLMs from a Data-Centric Perspective

Chaohu Liu ⋅ Shida Wang ⋅ Yubo Wang ⋅ Linli Xu

Harnessing Chain-of-Thought Reasoning in Multimodal Large Language Models for Face Anti-Spoofing

Honglu Zhang ⋅ Zhiqin Fang ⋅ Ningning Zhao ⋅ Saihui Hou ⋅ Long Ma ⋅ Renwang Pei ⋅ Zhaofeng He

Grounded Chain-of-Thought for Multimodal Large Language Models

Qiong Wu ⋅ Xiangcong Yang ⋅ Yiyi Zhou ⋅ Chenxin Fang ⋅ Baiyang Song ⋅ Xiaoshuai Sun ⋅ Rongrong Ji

LS-ViT: Least-Squares Hessian Based Block Reconstruction for Low-Bit Post-Training Quantization of Vision Transformers

Hyunha Hwang ⋅ Xuan Truong Nguyen ⋅ Hyuk-Jae Lee

SegMo: Co-Designing Content-Aware Sparsity and Locally-Cohesive Segment Parallelism for Efficient VLM Inference

Haojuan Li ⋅ Ruohan Tang ⋅ Dongzhou Cheng ⋅ Zongpu Zhang ⋅ Jian Li ⋅ Jiaqi Wang

Rethinking Asymmetric Quantization: Hidden Symmetry in Vision Model Weights

Masafumi Mori ⋅ Shinya Gongyo ⋅ Mitsuru Ambai

Compressed-Domain-Aware Online Video Super-Resolution

Yuhang Wang ⋅ Hai Li ⋅ Shujuan Hou ⋅ Zhetao Dong ⋅ Xiaoyao Yang

CAR-SAM: Cross-Attention Reconstruction for Post-Training Quantization of the Segment Anything Model

Houji Wen ⋅ Jiangyong Yu ⋅ Dawei Yang ⋅ Jun Li

Is Bin Generation Indispensable? A Bin-Generation-Free Dataset Quantization via Semantic Perspective

Maijie Deng ⋅ Yuhua Li ⋅ Yixiong Zou ⋅ Yao Wu ⋅ Chenru Ma

High Resolution Neural Video Coding with Bi-directional Confidence-Guided Reference Information Modeling

Feng Ye ⋅ Kai Zhang ⋅ Li zhang ⋅ Chuanmin Jia

Distributed Image Compression with Multimodal Side Information at Extremely Low Bitrates

Guojun Xu ⋅ Mingyang Zhang ⋅ Jianwen Xiang ⋅ Cheng Tan ⋅ Yanchao Yang ⋅ Junwei Zhou

Task-Aware Image Signal Processor for Advanced Visual Perception

CHEN KAI ⋅ Jin Xiao ⋅ Leheng Zhang ⋅ Kexuan Shi ⋅ Shuhang Gu

Enhancing Video Vision Language Model with Hippocampal Sensing

Xu Cao

VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation

Juhye Park ⋅ Wooju Lee ⋅ Dasol Hong ⋅ Changki Sung ⋅ Youngwoo Seo ⋅ DongWan Kang ⋅ Hyun Myung

WRIVINDER: Towards Spatial Intelligence for Geo-locating Ground Images onto Satellite Imagery

Chandrakanth Gudavalli ⋅ Tajuddin Manhar Mohammed ⋅ Abhay Yadav ⋅ Ananth Vishnu Bhaskar ⋅ Hardik Prajapati ⋅ Cheng Peng ⋅ Rama Chellappa ⋅ Shivkumar Chandrasekaran ⋅ B.S. Manjunath

SoPE: Spherical Coordinate-Based Positional Embedding for Enhancing Spatial Perception of 3D LVLMs

Koonting Yip ⋅ Qiyan Zhao ⋅ Wenhao Yu ⋅ Liangyu Yuan ⋅ Mingkai LI ⋅ Xiaofeng Zhang ⋅ Jianmin Ji ⋅ Yanyong Zhang ⋅ Qing Jiang ⋅ Ka-Veng Yuen

RHO: Robust Holistic OSM-Based Metric Cross-View Geo-Localization

Junwei Zheng ⋅ Ruize Dai ⋅ Ruiping Liu ⋅ Zichao Zeng ⋅ Yufan Chen ⋅ Fangjinhua Wang ⋅ Kunyu Peng ⋅ Kailun Yang ⋅ Jiaming Zhang ⋅ Rainer Stiefelhagen

EfficientVPR: Toward Efficient Visual Place Recognition via Scene-Aware Prompt Tuning and Adaptive Feature Enhancement

Wenjing Tang ⋅ Chuanguang Yang ⋅ Zhulin An ⋅ Libo Huang ⋅ boyu diao ⋅ Yongjun Xu

Universal Guideline-Driven Image Clustering via a Hybrid LLM Agent

Wenliang Zhong ⋅ Rob Barton ⋅ Lucas Goncalves ⋅ Kushal Kumar ⋅ Feng Jiang ⋅ Hehuan Ma ⋅ Yuzhi Guo ⋅ Vidit Bansal ⋅ Karim Bouyarmane ⋅ Junzhou Huang

ReLaX: Reasoning with Latent Exploration for Large Reasoning Models

Shimin Zhang ⋅ Xianwei Chen ⋅ Yufan Shen ⋅ Ziyuan Ye ⋅ Jibin Wu

VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning

Boyu Chen ⋅ Zikang Wang ⋅ Zhengrong Yue ⋅ Kainan Yan ⋅ Chenyun Yu ⋅ Yi Huang ⋅ Zijun Liu ⋅ Yafei Wen ⋅ Xiaoxin Chen ⋅ Yang Liu ⋅ Peng Li ⋅ Yali Wang

Think, Then Verify: A Hypothesis–Verification Multi-Agent Framework for Long Video Understanding

Zheng Wang ⋅ Haoran Chen ⋅ Haoxuan Qin ⋅ Zhipeng Wei ⋅ Tianwen Qian ⋅ Cong Bai

Reinforce to Learn, Elect to Reason: A Dual Paradigm for Video Reasoning

Songyuan Yang ⋅ Weijiang Yu ⋅ Jilin Ma ⋅ Ziyu Liu ⋅ Guijian Tang ⋅ Wenjing Yang ⋅ Huibin Tan ⋅ Nong Xiao

Graph-to-Frame RAG: Visual-Space Knowledge Fusion for Training-Free and Auditable Video Reasoning

Songyuan Yang ⋅ Weijiang Yu ⋅ Ziyu Liu ⋅ Guijian Tang ⋅ Wenjing Yang ⋅ Huibin Tan ⋅ Nong Xiao

LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling

Zuhao Yang ⋅ Sudong Wang ⋅ Kaichen Zhang ⋅ Keming Wu ⋅ Sicong Leng ⋅ Yifan Zhang ⋅ Bo Li ⋅ Chengwei Qin ⋅ Shijian Lu ⋅ Xingxuan Li ⋅ Lidong Bing

Multi-Modal Image Fusion via Intervention-Stable Feature Learning

Xue Wang ⋅ Zheng Guan ⋅ Wenhua Qian ⋅ Chengchao Wang ⋅ Runzhuo MA

ReCoFuse: Ultra-Robust Image Fusion via Restorative Multi-Modal Diffusion Reciprocal Coupling

HAO ZHANG ⋅ Shuhan Yang ⋅ Linfeng Tang ⋅ Xunpeng Yi ⋅ Jiayi Ma

Degradation-Robust Fusion: An Efficient Degradation-Aware Diffusion Framework for Multimodal Image Fusion in Arbitrary Degradation Scenarios

Yu Shi ⋅ Yu Liu ⋅ Zhong-Cheng Wu ⋅ Juan Cheng ⋅ Huafeng Li ⋅ Xun Chen

DF^2-VB: Dual-level Fuzzy Fusion with View-specific Boosting for Multi-view Multi-label Classification

Yuena Lin ⋅ Haichun Cai ⋅ Yi Shan ⋅ Hao Wei ⋅ Yongjian Deng ⋅ Zhen Yang ⋅ Gengyu Lyu

UniFusion: A Unified Image Fusion Framework with Robust Representation and Source-Aware Preservation

Xingyuan Li ⋅ Songcheng Du ⋅ Yang Zou ⋅ HaoYuan Xu ⋅ Zhiying Jiang ⋅ Jinyuan Liu

Self-guided Semantic Inspection for Zero-Shot Composed Image Retrieval

Jingjing Zhang ⋅ Lei Zhang ⋅ Zheren Fu ⋅ Bo Hu ⋅ Zhendong Mao

G-MIXER: Geodesic Mixup-based Implicit Semantic Expansion and Explicit Semantic Re-ranking for Zero-Shot Composed Image Retrieval

jiyoung lim ⋅ Heejae Yang ⋅ Jee-Hyong Lee

No Hard Negatives Required: Concept Centric Learning Leads to Compositionality without Degrading Zero-shot Capabilities of Contrastive Models

Hai X. Pham ⋅ David T. ⋅ Ricardo Guerrero ⋅ Brais Martinez

MUSE: Harnessing Precise and Diverse Semantics for Few-Shot Whole Slide Image Classification

Jiahao Xu ⋅ Sheng Huang ⋅ Xin Zhang ⋅ Zhixiong Nan ⋅ Jiajun Dong ⋅ Nankun Mu

Pointing at Parts: Training-Free Few-Shot Grounding in Multimodal LLMs

Shiang-Feng Tsai ⋅ Yuan-Hong Liao ⋅ Jin-Cheng Jhang ⋅ Nan Qiao ⋅ Min Sun

Graph Attention Prototypical Network for Robust Few-Shot Classification

Tingyun Liu ⋅ Licheng Liu ⋅ Qibin Zhang ⋅ Qiying Feng ⋅ C.L.Philip Chen

Mitigating The Distribution Shift of Diffusion-based Dataset Distillation

Yue Xu ⋅ Chenyu Hu ⋅ Pengyu An ⋅ Yonglu Li

EVLF: Early Vision-Language Fusion for Generative Dataset Distillation

WENQI CAI ⋅ Yawen Zou ⋅ Guang Li ⋅ Chunzhi Gu ⋅ Chao Zhang

Fixed Anchors Are Not Enough: Dynamic Retrieval and Persistent Homology for Dataset Distillation

Muquan Li ⋅ Hang Gou ⋅ Yingyi Ma ⋅ Rongzheng Wang ⋅ Ke Qin ⋅ Tao He

Flow Map Distillation Without Data

Shangyuan Tong ⋅ Nanye Ma ⋅ Saining Xie ⋅ Tommi Jaakkola

F^2HDR: Two-Stage HDR Video Reconstruction via Flow Adapter and Physical Motion Modeling

Huanjing Yue ⋅ Dawei Li ⋅ Shaoxiong Tu ⋅ Jingyu Yang

Learning Latent Transmission and Glare Maps for Lens Veiling Glare Removal

Xiaolong Qian ⋅ Qi Jiang ⋅ Lei Sun ⋅ Zongxi Yu ⋅ Kailun Yang ⋅ Peixuan Wu ⋅ Jiacheng Zhou ⋅ Yao Gao ⋅ Yaoguang Ma ⋅ Ming-Hsuan Yang ⋅ Kaiwei Wang

Inter-Photon-Limited Videography

Andrew Xie ⋅ Dongyu Du ⋅ Sotiris Nousias ⋅ David B. Lindell ⋅ Kiriakos N. Kutulakos

A Bit is All You Need! Efficient Video Capture via Single Bit Imaging

Kanchana Vaishnavi Gandikota ⋅ Michael Moeller ⋅ Andreas Kolb ⋅ Bhaskar Choubey ⋅ Paramanand Chandramouli

From Events to Clarity: The Event-Guided Diffusion Framework for Dehazing

Ling Wang ⋅ Yunfan Lu ⋅ Wenzong Ma ⋅ Huizai Yao ⋅ Pengteng Li ⋅ Hui Xiong

Electromagnetic Inverse Scattering from a Single Transmitter

Yizhe Cheng ⋅ Chunxun Tian ⋅ Haoru Wang ⋅ Wentao Zhu ⋅ Xiaoxuan Ma ⋅ Yizhou Wang

Statistical Characteristic-Guided Denoising for Rapid High-Resolution Transmission Electron Microscopy Imaging

Hesong Li ⋅ Ziqi Wu ⋅ Ruiwen Shao ⋅ Ying Fu

Physics-Guided Multistep Deformation Reversal for Ancient Bamboo Slip Restoration

Qianqian Tang ⋅ Jinchi Zhu ⋅ Xiaolu Zhou ⋅ Yongchao Xu

cryoSENSE: Compressive Sensing Enables High-throughput Microscopy with Sparse and Generative Priors on the Protein Cryo-EM Image Manifold

Zain Shabeeb ⋅ Daniel Saeedi ⋅ Darin Tsui ⋅ Vida Jamali ⋅ Amirali Aghazadeh

SGDE: Self-supervised Geometry Degradation Estimation Framework for Coded Aperture Compressive Spectral Imaging

Yuqiao He ⋅ Xiaoyan LIU ⋅ Jianxu Mao ⋅ Yaonan Wang ⋅ Hui Zhang ⋅ Lizhu Liu ⋅ Yurong Chen ⋅ Wenbin He

Factorized Context Aggregation for Robust Cancer Risk Estimation via Soft Re-Ranked Retrieval and Hierarchical Anchors

Puria Azadi Moghadam ⋅ Ali Khajegili Mirabadi ⋅ Behnam Maneshgar ⋅ Hossein Farahani ⋅ Ali Bashashati

UniMERNet: A Universal Network for Real-World Mathematical Expression Recognition

Zhuangcheng Gu ⋅ Guang Liang ⋅ Bin Wang ⋅ Zhiyuan Zhao ⋅ Qintong Zhang ⋅ Weijia Li ⋅ Chao Xu ⋅ Bo Zhang ⋅ Botian Shi ⋅ Jiang Wu ⋅ Wentao Zhang ⋅ Conghui He

GeneVAR: Causal MeanFlow for Autoregressive Gene-to-WSI Tile Synthesis

Jianwei Zhao ⋅ Fan Yang ⋅ XIN LI ⋅ Qiang Zhai ⋅ Ao Luo ⋅ Ziqi Ren ⋅ Zhicheng Jiao ⋅ Hong Cheng

Depth Any Endoscopy: Towards Self-Supervised Generalizable Depth Estimation in Monocular Endoscopy

Shuwei Shao ⋅ Kejin Zhu ⋅ Shixing Ma ⋅ Xinzhe Du ⋅ Baochang Zhang ⋅ Zhe Min

RoSAMDepth: Robust Self-supervised Depth Estimation Leveraging Segment Anything Model

Xuanang Gao ⋅ Ning Zhiwei ⋅ Gengming Zhang ⋅ Jiaxi Cao ⋅ Runze Yang ⋅ Zhonglong Zheng ⋅ JIE YANG ⋅ Rong Xiao ⋅ Wei Liu

AdaSFormer: Adaptive Serialized Transformers for Monocular Semantic Scene Completion from Indoor Environments

xuzhi wang ⋅ Xinran Wu ⋅ Song Wang ⋅ Lingdong Kong ⋅ Ziping Zhao

Dark3R: Learning Structure from Motion in the Dark

Andrew Y. Guo ⋅ Anagh Malik ⋅ SaiKiran Tedla ⋅ Yutong Dai ⋅ Yiqian Qin ⋅ Zach Salehe ⋅ Benjamin Attal ⋅ Sotiris Nousias ⋅ Kiriakos N. Kutulakos ⋅ David B. Lindell

What Makes Good Synthetic Training Data for Zero-Shot Stereo Matching?

David Yan ⋅ Alexander Raistrick ⋅ Jia Deng

TR2M: Transferring Monocular Relative Depth to Metric Depth with Language Descriptions and Dual-Level Scale-Oriented Contrast

Beilei Cui ⋅ Yiming Huang ⋅ Long Bai ⋅ Hongliang Ren

Iris: Integrating Language into Diffusion-based Monocular Depth Estimation

Ziyao Zeng ⋅ Jingcheng Ni ⋅ Daniel Wang ⋅ Patrick Rim ⋅ Younjoon Chung ⋅ Fengyu Yang ⋅ Byung-Woo Hong ⋅ Alex Wong

Ov3R: Open-Vocabulary Semantic 3D Reconstruction from RGB Videos

ZIREN GONG ⋅ Xiaohan Li ⋅ Fabio Tosi ⋅ Jiawei Han ⋅ Stefano Mattoccia ⋅ Jianfei Cai ⋅ Matteo Poggi

M3DLayout: A Multi-Source Dataset of 3D Indoor Layouts and Structured Descriptions for 3D Generation

Yiheng Zhang ⋅ Zhuojiang Cai ⋅ Mingdao Wang ⋅ Meitong Guo ⋅ Tianxiao Li ⋅ Li Lin ⋅ Yuwang Wang

UniPart: Part-Level 3D Generation with Unified 3D Geom–Seg Latents

Xufan He ⋅ Yushuang Wu ⋅ Xiaoyang Guo ⋅ Chongjie Ye ⋅ Jiaqing Zhou ⋅ Tianlei Hu ⋅ Xiaoguang Han ⋅ Dong Du

Photo3D: Advancing Photorealistic 3D Generation through Structure‑Aligned Detail Enhancement

Xinyue Liang ⋅ Zhiyuan Ma ⋅ Lingchen Sun ⋅ Yanjun Guo ⋅ Lei Zhang

Mesh-Pro: Asynchronous Advantage-guided Ranking Preference Optimization for Artist-style Quadrilateral Mesh Generation

Zhen Zhou ⋅ Jian Liu ⋅ Biwen Lei ⋅ Jing Xu ⋅ Haohan Weng ⋅ Yiling Zhu ⋅ Zhuo Chen ⋅ Junfeng Fan ⋅ Yunkai Ma ⋅ Dazhao Du ⋅ Song Guo ⋅ Fengshui Jing ⋅ Chunchao Guo

Order Matters: 3D Shape Generation from Sequential VR Sketches

Yizi Chen ⋅ Sidi Wu ⋅ Tianyi Xiao ⋅ Nina Wiedemann ⋅ Loic Landrieu

Think-Then-Generate: Structural Chain-of-Thought Reasoning for Consistent 3D Generation

Xinyue Liu ⋅ Jin Liu ⋅ Hongbo Wang ⋅ Ran He ⋅ Huaibo Huang

ArtLLM: Generating Articulated Assets via 3D LLM

Penghao Wang ⋅ Siyuan Xie ⋅ Jiawei Zhou ⋅ Xianghui Yang ⋅ Jingwei Huang ⋅ Chunchao Guo ⋅ Jiayuan Gu

PoseMaster: A Unified 3D Native Framework for Stylized Pose Generation

Hongyu Yan ⋅ Kunming Luo ⋅ Weiyu Li ⋅ Kaiyi Zhang ⋅ Yixun Liang ⋅ Jingwei Huang ⋅ Chunchao Guo ⋅ Ping Tan

2D-LFM: Lifting Foundation Model without 3D Supervision

Mosam Dabhi ⋅ Irhas Gill ⋅ László A. Jeni ⋅ Simon Lucey

ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion

Remy Sabathier ⋅ David Novotny ⋅ Niloy J. Mitra ⋅ Tom Monnier

4DWorldBench: A Comprehensive Evaluation Framework for 3D/4D World Generation Models

Yiting Lu ⋅ Wei Luo ⋅ Peiyan Tu ⋅ Haoran Li ⋅ Hanxin Zhu ⋅ Zihao Yu ⋅ Xingrui Wang ⋅ Xinyi Chen ⋅ Xinge Peng ⋅ Xin Li ⋅ Zhibo Chen

FabricGen: Microstructure-Aware Woven Fabric Generation

Yingjie Tang ⋅ Di Luo ⋅ Zixiong Wang ⋅ Xiaoli Ling ⋅ Jian Yang ⋅ Beibei Wang

Leveraging Verifier-Based Reinforcement Learning in Image Editing

Hanzhong Guo ⋅ Jie Wu ⋅ Jie Liu ⋅ Yu Gao ⋅ Zilyu Ye ⋅ Linxiao Yuan ⋅ Xionghui Wang ⋅ Yizhou Yu ⋅ Weilin Huang

PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling

Bowen Ping ⋅ Chengyou Jia ⋅ Minnan Luo ⋅ Changliang Xia ⋅ Xin Shen ⋅ Zhuohang Dang ⋅ Hangwei Qian

VIVA: VLM-Guided Instruction-Based Video Editing with Reward Optimization

Xiaoyan Cong ⋅ Haotian Yang ⋅ Angtian Wang ⋅ Yizhi Wang ⋅ Yiding Yang ⋅ Canyu Zhang ⋅ Chongyang Ma

MapReduce LoRA: Advancing the Pareto Front in Multi-Preference Optimization for Generative Models

Chieh-Yun Chen ⋅ Zhonghao Wang ⋅ Qi Chen ⋅ Zhifan Ye ⋅ Min Shi ⋅ Yue Zhao ⋅ Yinan Zhao ⋅ Hui Qu ⋅ Wei-An Lin ⋅ Yiru Shen ⋅ Ajinkya Kale ⋅ Irfan Essa ⋅ Humphrey Shi

Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation

Yunhong Lu ⋅ Yanhong Zeng ⋅ Haobo Li ⋅ Hao Ouyang ⋅ Qiuyu Wang ⋅ Ka Leong Cheng ⋅ Jiapeng Zhu ⋅ Hengyuan Cao ⋅ Zhipeng Zhang ⋅ Xing Zhu ⋅ Yujun Shen ⋅ Min Zhang

C^2FG: Control Classifier-Free Guidance via Score Discrepancy Analysis

Jiayang Gao ⋅ Tianyi Zheng ⋅ Jiayang Zou ⋅ Fengxiang Yang ⋅ Shice Liu ⋅ Luyao Fan ⋅ Zheyu Zhang ⋅ Hao Zhang ⋅ Jinwei Chen ⋅ Peng-Tao Jiang ⋅ Bo Li ⋅ Jia Wang

Learning What to Trust: Bayesian Prior-Guided Optimization for Visual Generation

Ruiying Liu ⋅ Yuanzhi Liang ⋅ Haibin Huang ⋅ Tianshu Yu ⋅ Chi Zhang

Unified Customized Generation by Disentangled Reward Modeling

Shaojin Wu ⋅ Mengqi Huang ⋅ Yufeng Cheng ⋅ wenxu wu ⋅ Jiahe Tian ⋅ Yiming Luo ⋅ Fei Ding ⋅ Qian HE

Region-Aware Instance Consistency Learning for Micro-Expression Recognition

Yaomin Cai ⋅ C.L.Philip Chen ⋅ Shiting Xu ⋅ Haiqi Liu ⋅ Tong Zhang

MPL: Match-guided Prototype Learning for Few-shot Action Recognition

Feng Yang ⋅ Jie Zhao ⋅ Fulin Luo ⋅ Anyong Qin ⋅ Tiecheng Song ⋅ Yue Zhao ⋅ CHENQIANG GAO ⋅ Junwei Han

LaDy: Lagrangian-Dynamic Informed Network for Skeleton-based Action Segmentation via Spatial-Temporal Modulation

Haoyu Ji ⋅ Xueting Liu ⋅ Yu Gao ⋅ Wenze Huang ⋅ Zhihao Yang ⋅ Weihong Ren ⋅ Zhiyong Wang ⋅ Honghai LIU

LA-Pose: Latent Action Pretraining Meets Pose Estimation

Zhengqing Wang ⋅ Saurabh Nair ⋅ Prajwal Chidananda ⋅ Pujith Kachana ⋅ Samuel Li ⋅ Matthew Brown ⋅ Yasutaka Furukawa

RAAS: LLM Agentic System Architecture Search with GRPO

Jiayi Yang ⋅ Guancheng Wan ⋅ Man Zhang ⋅ Mang Ye

Temporal Representation Enhancement (TRE): Learning to Forget Dominant Patterns for Enhanced Temporal Spiking Features

Wei Liu ⋅ Li Yang ⋅ Yufei Wang ⋅ Han Xiao ⋅ Boyu Cai ⋅ Weiming Hu

Chain-of-Models Pre-Training: Rethinking Training Acceleration of Vision Foundation Models

Jiawei Fan ⋅ Shigeng Wang ⋅ Chao Li ⋅ Xiaolong Liu ⋅ Anbang Yao

Unlocking Pre-trained Weights: Parameter Inheritance for Zero-Shot Initialization

Jiaze Xu ⋅ Shiyu Xia ⋅ Jiaqi Lv ⋅ Xin Geng

Deconstructing the Failure of Ideal Noise Correction: A Three-Pillar Diagnosis

Chen Feng ⋅ Zhuo ZHI ⋅ Zhao Huang ⋅ Jiawei Ge ⋅ Ling Xiao ⋅ Nicu Sebe ⋅ Georgios Tzimiropoulos ⋅ Ioannis Patras

Progressive Neural Architecture Generation

Caiyang Yu ⋅ Chen Huang ⋅ Yun Liu ⋅ Chenwei Tang ⋅ Wei Ju ⋅ Jiancheng Lv

A Unified Framework for Knowledge Transfer in Bidirectional Model Scaling

Jianlu Shen ⋅ Fu Feng ⋅ Jiaze Xu ⋅ Yucheng Xie ⋅ Jiaqi Lv ⋅ Xin Geng

When Do Models Actually Decide? Mapping the Layer-Wise Decision Timeline in Pretrained Neural Networks

Minhyeok Lee

Temporal Interaction in Spiking Transformers with Multi-Delay Mixer

Kexin Shi ⋅ Hanwen Liu ⋅ Zeyang Song ⋅ Yang Liu ⋅ Jieyuan Zhang ⋅ Shuai Wang ⋅ Jibin Wu ⋅ Malu Zhang ⋅ Yang Yang

Consensus vs. Controversy: Mapping the Decision Space Where Architectures Diverge

Minhyeok Lee

Sparsely Timing the Change: A Spiking Temporal Framework for Remote Sensing Interpretation

Shilong Li ⋅ Xiurui Xie ⋅ Qiugang Zhan ⋅ Luochao Wang ⋅ Yong Deng ⋅ Guisong Liu

ProSoftArena: Benchmarking Hierarchical Capabilities of Multi-modal Agents in Professional Software Environments

Jiaxin Ai ⋅ Yukang Feng ⋅ Fanrui Zhang ⋅ Jianwen Sun ⋅ Zizhen Li ⋅ Chuanhao Li ⋅ Yifan Chang ⋅ Wenxiao Wu ⋅ Ruoxi Wang ⋅ Mingliang Zhai ⋅ Kaipeng Zhang

BAMI: Training-Free Bias Mitigation in GUI Grounding

Borui Zhang ⋅ Bo Zhang ⋅ Bo Wang ⋅ Wenzhao Zheng ⋅ Yuhao Cheng ⋅ Liang Tang ⋅ Yiqiang Yan ⋅ Jie Zhou ⋅ Jiwen Lu

DRS-GUI: Dynamic Region Search for Training-Free GUI Grounding

Yichao Liu ⋅ Huawen Shen ⋅ Liu Yu ⋅ Shiyu Liu ⋅ Zeyu Chen ⋅ Yu ZHOU

Consistency Beyond Contrast: Enhancing Open-Vocabulary Object Detection Robustness via Contextual Consistency Learning

bozhao Li ⋅ Shaocong Wu ⋅ Tong Shao ⋅ Senqiao Yang ⋅ Qiben Shan ⋅ Zhuotao Tian ⋅ Jingyong Su

Thermal-Det: Language-Guided Cross-Modal Distillation for Open-Vocabulary Thermal Object Detection

Yasiru Ranasinghe ⋅ Elim Schenck ⋅ Florence Yellin ⋅ Shuowen Hu ⋅ Christopher Funk ⋅ Vishal M. Patel

Geometry-driven OOD Detectors Are Class-Incremental Learners

Wangwang Jia ⋅ Zijian Gao ⋅ Tianjiao Wan ⋅ Yuan Cao ⋅ Yong Dou ⋅ Kele Xu

Mind the Way You Select Negative Texts: Pursuing the Distance Consistency in OOD Detection with VLMs

Zhikang Xu ⋅ Qianqian Xu ⋅ Zitai Wang ⋅ Cong Hua ⋅ Sicong Li ⋅ Zhiyong Yang ⋅ Qingming Huang

Prompt-Free Unknown Label Generation for Open World Detection in Remote Sensing

Abdullah Azeem ⋅ Ruisheng Wang ⋅ Qingquan Li ⋅ Abubakar Siddique

Learning to Diversify and Focus: A Reinforcement Framework for Open-Vocabulary HOI Detection

Yongchao Xu ⋅ Jiawei Liu ⋅ Junfeng Wang ⋅ Sen Tao ⋅ Na Jiang ⋅ Zheng-Jun Zha

RINO: Rotation-Invariant Non-Rigid Correspondences

Maolin Gao ⋅ Shao Jie Hu-Chen ⋅ Congyue Deng ⋅ Riccardo Marin ⋅ Leonidas Guibas ⋅ Daniel Cremers

Hyperbolic Prototype Learning with Uncertainty-Aware Consistency for Continual Test-Time Segmentation

Siddhant Gole ⋅ Akash Pal ⋅ Amit Popat More ⋅ S Divakar Bhat ⋅ Subhasis Chaudhuri ⋅ Biplab Banerjee

DINO Eats CLIP: Adapting Beyond Knowns for Open-set 3D Object Retrieval

Xinwei He ⋅ Yansong Zheng ⋅ Qianru Han ⋅ Zhichuan Wang ⋅ Yuxuan Cai ⋅ Yang Zhou ⋅ Jingbo Xia ⋅ Yulong Wang ⋅ Jinhai Xiang ⋅ Xiang Bai

Leveraging Class Distributions in CLIP for Weakly Supervised Semantic Segmentation

Ziqian Yang ⋅ Xinqiao Zhao ⋅ Xiaolei Wang ⋅ Quan Zhang ⋅ Jimin Xiao

CompetitorFormer: Mitigating Query Conflicts for 3D Instance Segmentation via Competitive Strategy

wang duanchu ⋅ Junjie Yang ⋅ Haoran Gong ⋅ Jing Liu ⋅ Di Wang

D2Dewarp: Dual Dimensions Geometric Representation Learning Based Document Image Dewarping

Heng Li ⋅ Xiangping Wu ⋅ Qingcai Chen

Discover, Segment, and Select: A Progressive Mechanism for Zero-shot Camouflaged Object Segmentation

Yilong Yang ⋅ Jianxin Tian ⋅ Shengchuan Zhang ⋅ Liujuan Cao

D-Convexity: A Unified Differentiable Convex Shape Prior via Quasi-Concavity for Data-driven Image Segmentation

Shengzhe Chen ⋅ Hao Yan

Fast Reasoning Segmentation for Images and Videos

Yiqing Shen ⋅ Mathias Unberath

Structure-Aware Representation Distillation for Tiny-Dense Object Segmentation

Xuesong Liu ⋅ Anke Xu ⋅ Wenbo Cao ⋅ Emmett Ientilucci

CRFT: Consistent–Recurrent Feature Flow Transformer for Cross-Modal Image Registration

Xuecong Liu ⋅ Mengzhu Ding ⋅ Zixuan Sun ⋅ Zhang Li ⋅ Xichao Teng

FireScope: Wildfire Risk Raster Prediction With a Chain-of-Thought Oracle

Mario Markov ⋅ Stefan Ailuro ⋅ Luc Van Gool ⋅ Konrad Schindler ⋅ Danda Paudel

OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation

Henry Herzog ⋅ Favyen Bastani ⋅ Yawen Zhang ⋅ Gabriel Tseng ⋅ Joseph Redmon ⋅ Hadrien Sablon ⋅ Ryan Park ⋅ Jacob Morrison ⋅ Alexandra Buraczynski ⋅ Karen Farley ⋅ Josh Hansen ⋅ Andrew Howe ⋅ Patrick Alan Johnson ⋅ Mark Otterlee ⋅ Ted Schmitt ⋅ Hunter Pitelka ⋅ Stephen Daspit ⋅ Rachel Ratner ⋅ Christopher Wilhelm ⋅ Sebastian Wood ⋅ Mike Jacobi ⋅ Hannah Kerner ⋅ Evan Shelhamer ⋅ Ali Farhadi ⋅ Ranjay Krishna ⋅ Patrick Beukema

TESSERA: Temporal Embeddings of Surface Spectra for Earth Representation and Analysis

Zhengpeng Feng ⋅ Clement Atzberger ⋅ Sadiq Jaffer ⋅ Jovana Knezevic ⋅ Silja Sormunen ⋅ Robin Young ⋅ Madeline C. Lisaius ⋅ Markus Immitzer ⋅ Toby Jackson ⋅ James Ball ⋅ David A. Coomes ⋅ Anil Madhavapeddy ⋅ Andrew Blake ⋅ Srinivasan Keshav

Regulating Rather than Constraining: Adaptive Guidance for Complex Spectral Reconstruction in Pansharpening

Zhuwei Wen ⋅ Zimin Xia ⋅ He Chen ⋅ Linwei Yue ⋅ Xianwei Zheng

GeoMMBench and GeoMMAgent: Toward Expert-Level Multimodal Intelligence in Geoscience and Remote Sensing

Aoran Xiao ⋅ Shihao Cheng ⋅ Yonghao Xu ⋅ Yexian Ren ⋅ Hongruixuan Chen ⋅ Naoto Yokoya

Revisiting the Necessity of Full Accuracy: Weakly Supervised Object-Level Offset Correction for Misaligned Building Labels

Junda Xu ⋅ Yanmeng Liu ⋅ Xiangqiang Zeng ⋅ Jinrong Wu ⋅ Ying Qu ⋅ Libao Zhang

UniGeoSeg: Towards Unified Open-World Segmentation for Geospatial Scenes

Shuo Ni ⋅ Di Wang ⋅ He Chen ⋅ Haonan Guo ⋅ Ning Zhang ⋅ Jing Zhang

ZoomEarth: Active Perception for Ultra-High-Resolution Geospatial Vision-Language Tasks

Ruixun Liu ⋅ Bowen Fu ⋅ Jiayi Song ⋅ Kaiyu Li ⋅ Wanchen Li ⋅ Lanxuan Xue ⋅ Hui Qiao ⋅ Weizhan Zhang ⋅ Deyu Meng ⋅ Xiangyong Cao

Unleashing Stealthy Backdoor Pandemic by Infecting a Single Diffusion Model

Mohaiminul Al Nahian ⋅ Abeer Matar Almalky ⋅ Sabbir Ahmed ⋅ Abdullah Al Arafat ⋅ Mamshad Nayeem Rizve ⋅ Adnan Rakin Rakin

Taming the Long Tail: Rebalancing Adversarial Training via Adaptive Perturbation

Lilin Zhang ⋅ Yimo Guo ⋅ Yue Li ⋅ Jiancheng Shi ⋅ Xianggen Liu

Robustness Under Data Scarcity: Few-Shot Continual Adversarial Training for Evolving Threats

Wenxuan Wang ⋅ Chenglei Wang ⋅ Chengzhi Yan ⋅ Xuelin Qian ⋅ Yanning Zhang

Logit-Margin Repulsion for Backdoor Defense

Zhiguo Yang ⋅ Dongsheng Xu ⋅ Ruizhi Zhong ⋅ Jiacheng Pi ⋅ Xingxing Huang ⋅ Wenjie Ruan

Thermally Activated Dual-Modal Adversarial Clothing against AI Surveillance Systems

Jiahuan Long ⋅ Tingsong Jiang ⋅ Hanqing Liu ⋅ Chao Ma ⋅ Weien Zhou ⋅ Yang Yang ⋅ Wen Yao

Immunizing Models Against Harmful Long-Horizon Fine-Tuning via Contractive Optimization Dynamics

Najibul Haque Sarker ⋅ Zaber Ibn Abdul Hakim ⋅ Ali Asgarov ⋅ Chia-Wei Tang ⋅ Alvi Md Ishmam ⋅ Chris Thomas

Towards Stealthy and Effective Backdoor Attacks on Lane Detection: A Naturalistic Data Poisoning Approach

YIFAN LIAO ⋅ Yuxin Cao ⋅ Yedi Zhang ⋅ Wentao He ⋅ Yan XIAO ⋅ Xianglong Du ⋅ Zhiyong Huang ⋅ Jin Song Dong

Red-teaming Retrieval-Augmented Diffusion Models via Poisoning Knowledge Bases

Xinqi Lyu ⋅ Liu of second author ⋅ Dong Wang ⋅ Bin Xiao

Latent Diffusion Inversion Requires Understanding the Latent Space

Mingxing Rao ⋅ Bowen Qu ⋅ Daniel Moyer

Fractal Camouflage: A Bio-Inspired Approach for Multi-Scale Adversarial Attacks in the Infrared Domain

Chengyin Hu ⋅ Xin wang ⋅ Rui Qiu ⋅ Zhe Jia ⋅ Yingying Zhao ⋅ Kai Wang ⋅ Xu Kang ⋅ Yiwei Wei

EgoRoC: Towards Egocentric Robotic Control via Task-Agnostic Visual Alignment

Wei Feng ⋅ Chi Zhang ⋅ Nan Li ⋅ Qian Zhang ⋅ Qi Zhang ⋅ Mingyan Li

Describe Anything Anywhere At Any Moment

Nicolas Gorlo ⋅ Lukas Schmid ⋅ Luca Carlone

StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation

Mingyu Liu ⋅ Jiuhe Shu ⋅ Hui Chen ⋅ Zeju Li ⋅ Canyu Zhao ⋅ Jiange Yang ⋅ Shenyuan Gao ⋅ Hao Chen ⋅ Chunhua Shen

VLA Models Are More Generalizable Than You Think: Revisiting Physical and Spatial Modeling

weiqi li ⋅ Quande Zhang ⋅ ruifeng zhai ⋅ Liang Lin ⋅ Guangrun Wang

Action–Geometry Prediction with 3D Geometric Prior for Bimanual Manipulation

Chongyang Xu ⋅ Li Haipeng ⋅ Shen Cheng ⋅ Haoqiang Fan ⋅ Ziliang Feng ⋅ Shuaicheng Liu

Joint-Aligned Latent Action: Towards Scalable VLA Pretraining in the Wild

Hao Luo ⋅ Ye Wang ⋅ Wanpeng Zhang ⋅ Haoqi Yuan ⋅ Yicheng Feng ⋅ Haiweng Xu ⋅ Sipeng Zheng ⋅ Zongqing Lu

Rethinking Camera Choice: An Empirical Study on Fisheye Camera Properties in Robotic Manipulation

Han Xue ⋅ Nan Min ⋅ Xiaotong Liu ⋅ Wendi Chen ⋅ Fang Yuan ⋅ Jun Lv ⋅ Cewu Lu ⋅ Chuan Wen

INSIGHT Bench: Towards Grounded IN-SItu Guidance for Robotic ManipulaTion

Seonho Kim ⋅ Junhyeong Hong ⋅ Kyungjae Lee ⋅ Yoonseon Oh

MM-ACT: Learn from Multimodal Parallel Generation to Act

Haotian Liang ⋅ Xinyi Chen ⋅ Bin Wang ⋅ MingKang Chen ⋅ Yitian Liu ⋅ Yuhao Zhang ⋅ Zanxin Chen ⋅ Tianshuo Yang ⋅ Yilun Chen ⋅ Jiangmiao Pang ⋅ Dong Liu ⋅ Xiaokang Yang ⋅ Yao Mu ⋅ Wenqi Shao ⋅ Ping Luo

HQC-NBV: A Hybrid Quantum-Classical View Planning Approach

Xiaotong Yu ⋅ Chang Wen Chen

Motus: A Unified Latent Action World Model

Hongzhe Bi ⋅ Hengkai Tan ⋅ Shenghao Xie ⋅ Zeyuan Wang ⋅ Shuhe Huang ⋅ Haitian Liu ⋅ Ruowen Zhao ⋅ Yao Feng ⋅ Chendong Xiang ⋅ Yinze Rong ⋅ Hongyan Zhao ⋅ Hanyu Liu ⋅ Zhizhong Su ⋅ Lei Ma ⋅ Hang Su ⋅ Jun Zhu

SE(3)-Equivariance with Geometric and Topological Guidance for Category-Level Object Pose Estimation

Sheng Yu ⋅ Di-Hua Zhai ⋅ Yuanqing Xia

SPEAR-1: Scaling Beyond Robot Demonstrations via 3D Understanding

Nikolay Nikolov ⋅ Giuliano Albanese ⋅ Sombit Dey ⋅ Aleksandar Yanev ⋅ Luc Van Gool ⋅ Jan-Nico Zaech ⋅ Danda Paudel

Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation

Zaijing Li ⋅ Bing Hu ⋅ Rui Shao ⋅ Gongwei Chen ⋅ Dongmei Jiang ⋅ Pengwei Xie ⋅ Jianye Hao ⋅ Liqiang Nie

RoboTAG: End-to-end Robot Pose Estimation via Topological Alignment Graph

Yifan Liu ⋅ Fangneng Zhan ⋅ Wanhua Li ⋅ Haowen Sun ⋅ Katerina Fragkiadaki ⋅ Hanspeter Pfister

MVLM: Template-Free Tracking via Vision–Language Margin Confidence and Memory-Gated Tracking

Dae-Hyeon Park ⋅ Mina Baek ⋅ Jeong-Hun Ha ⋅ Chan-Seop Park ⋅ Jamshidjon Ganiev ⋅ Seung-Hwan Bae

Interactive Tracking: A Human-in-the-Loop Paradigm with Memory-Augmented Adaptation

Yuqing Huang ⋅ Guotian Zeng ⋅ Zhenqiao Yuan ⋅ Zhenyu He ⋅ Xin Li ⋅ Yaowei Wang ⋅ Ming-Hsuan Yang

VidEoMT: Your ViT is Secretly Also a Video Segmentation Model

Narges Norouzi ⋅ Idil Esen Zulfikar ⋅ Niccolò Cavagnero ⋅ Tommie Kerssies ⋅ Bastian Leibe ⋅ Gijs Dubbelman ⋅ Daan de Geus

Matching Every Pair to Track Every Point: PairFormer for All-Pairs Tracking and Video Trajectory Fields

Guangyang Wu ⋅ Youran Ding ⋅ Xinyu Che ⋅ BENYUAN SUN ⋅ Yi Yang ⋅ Xiaohong Liu

Boosting Self-Supervised Tracking with Contextual Prompts and Noise Learning

Yaozong Zheng ⋅ Qihua Liang ⋅ Bineng Zhong ⋅ Shuimu Zeng ⋅ Yuanliang Xue ⋅ Ning Li ⋅ Shuxiang Song

Progressive Multi-cue Alignment for Unaligned RGBT Tracking

Jiandong Jin ⋅ Chenglong Li ⋅ Hao Feng ⋅ Andong Lu ⋅ Lili Huang ⋅ Jin Tang

Real-Time Neural Video Compression with Unified Intra and Inter Coding

Hui Xiang ⋅ Yifan Bian ⋅ Li Li ⋅ Jingran Wu ⋅ Xianguo Zhang ⋅ Dong Liu

Adapting Lightweight Image-based Counting Models for Video Crowd Counting

Weibo Shu ⋅ Antoni B. Chan

Sparse Task Vector Mixup with Hypernetworks for Efficient Knowledge Transfer in Whole-Slide Image Prognosis

Pei Liu ⋅ xiangxiang Zeng ⋅ Tengfei Ma ⋅ Yucheng Xing ⋅ Xuanbai Ren ⋅ Yiping Liu

MedTVT-R1: A Multimodal LLM Empowering Medical Reasoning and Diagnosis

Yuting Zhang ⋅ Kaishen Yuan ⋅ Hao Lu ⋅ Yutao Yue ⋅ Jintai Chen ⋅ Kaishun Wu

MedKCO: Medical Vision-Language Pretraining via Knowledge-Driven Cognitive Orchestration

Chenran Zhang ⋅ Ruiqi Wu ⋅ Tao Zhou ⋅ Yi Zhou

Toward Generalizable Whole Brain Representations with High-Resolution Light-Sheet Data

Minyoung E. Kim ⋅ Dae Hee Yun ⋅ Aditi V. Patel ⋅ Madeline Hon ⋅ Webster Guan ⋅ Taegeon Lee ⋅ Brian Nguyen

CryoHype: Reconstructing a thousand cryo-EM structures with transformer-based hypernetworks

Jeffrey Gu ⋅ Minkyu Jeon ⋅ Ambri Ma ⋅ Serena Yeung ⋅ Ellen D. Zhong

GenTract: Generative Global Tractography

Alec Sargood ⋅ Lemuel Puglisi ⋅ Elinor Thompson ⋅ Mirco Musolesi ⋅ Daniel C. Alexander

LUMINA: A Multi-Vendor Mammography Benchmark with Energy Harmonization Protocol

Hongyi Pan ⋅ Gorkem Durak ⋅ Halil Ertugrul Aktas ⋅ Andrea M. Bejar ⋅ Baver Tutun ⋅ Emre Uysal ⋅ Ezgi Bülbül ⋅ Mehmet Faith Dogan ⋅ Berrin Erok ⋅ Berna Yildirim ⋅ Sukru Mehmet Erturk ⋅ Ulas Bagci

Virtual Immunohistochemistry Staining with Dual-Aligned Multi-Task Feature Guidance

Shigeng Xie ⋅ Hongming Xu ⋅ Guiyang Jiang ⋅ Tuomo Rossi ⋅ Tommi Kärkkäinen ⋅ Fengyu Cong

Can Natural Image Autoencoders Compactly Tokenize fMRI Volumes for Long-Range Dynamics Modeling?

Peter Yongho Kim ⋅ Juhyeon Park ⋅ Jungwoo Park ⋅ Jubin Choi ⋅ Jungwoo Seo ⋅ Jiook Cha ⋅ Taesup Moon

IEBGL:An Interpretability-Enhanced Brain Graph Learning Framework with LLM-Instructed Topology and Literature-Augmented Semantics

Yihang Duan ⋅ Shuo Huang ⋅ Lizhang Lizhang ⋅ Meiling Wang ⋅ Li Zhang

F^2-Assist: Multi-Phase Fetal Growth Forecast and Report Generation from Ultrasound Examination

Bin Pu ⋅ XUSHENG LIANG ⋅ Xinpeng Ding ⋅ Jinlin Wu ⋅ Zhen Lei ⋅ Shengli Li ⋅ Kenli Li ⋅ Jiawei Ma

Sparse Spectral LoRA: Routed Experts for Medical VLMs

Omid Nejatimanzari ⋅ Hojat Asgariandehkordi ⋅ Taha Koleilat ⋅ Yiming Xiao ⋅ Hassan Rivaz

SAT-RRG: LLM-Guided Self-Adaptive Training for Radiology Report Generation with Token-Level Push–Pull Optimization

YUNYI LIU ⋅ Yingshu Li ⋅ Tong Chen ⋅ Lingqiao Liu ⋅ Lei Wang ⋅ Luping Zhou

OralGPT-Plus: Learning to Use Visual Tools via Reinforcement Learning for Panoramic X-ray Analysis

Yuxuan Fan ⋅ JING HAO ⋅ Hong Chen ⋅ Jiahao Bao ⋅ Yihua Shao ⋅ Yuci Liang ⋅ Kuo Feng Hung ⋅ Hao Tang

Structural–Semantic Perception for Diffusion-Guided Temporal Forgery Localization

Ligong Cao ⋅ Yeting Guo ⋅ Haoang Chi

Forensic-Friendly Image Manipulation via Controllable Latent Diffusion

Hanyu Chen ⋅ Haiwei Wu ⋅ Jinyu Tian ⋅ Jianqing Li ⋅ Jiantao Zhou

IncreFA: Breaking the Static Wall of Generative Model Attribution

Haotian Qin ⋅ Dongliang Chang ⋅ Yueying Gao ⋅ Yuexuan Tan ⋅ Lei Chen ⋅ Zhanyu Ma

AVFakeBench: A Comprehensive Audio-Video Forgery Detection Benchmark for AV-LMMs

Shuhan Xia ⋅ Peipei Li ⋅ Xuannan Liu ⋅ Dongsen Zhang ⋅ Xinyu Guo ⋅ Zekun Li

Detecting Compressed AI-Generated Images via Phase Spectrum Robustness

Kai Li ⋅ Wenqi Ren ⋅ Wei Wang ⋅ Xiaochun Cao

Detect Any AI-Counterfeited Text Image

Chenfan Qu ⋅ Yiwu Zhong ⋅ Xuekang Zhu ⋅ Junchi Li ⋅ Changjiang Jiang ⋅ Jian liu ⋅ Lianwen Jin

DeepfakeImpact: A Two-Stage Benchmark with Real-World Impact in Deepfake Detection

Chaoyu Gong ⋅ Han Zhang ⋅ Siqiang Luo

Enhancing the Security of Visual Speaker Authentication Based on Dynamic Lip-Print Analysis

Yi He ⋅ Lei Yang ⋅ Bofan Chen ⋅ Shilin Wang

SimLBR: Learning to Detect Fake Images by Learning to Detect Real Images

Aayush Dhakal ⋅ Subash Khanal ⋅ Srikumar Sastry ⋅ Jacob Arndt ⋅ Philipe Ambrozio Dias ⋅ Dalton Lunga ⋅ Nathan Jacobs

Editprint: General Digital Image Forensics via Editing Fingerprint with Self-Augmentation Training

Haiwei Wu ⋅ Kemou Li ⋅ Yuanman Li ⋅ Jiantao Zhou

Detecting AI-Generated Forgeries via Iterative Manifold Deviation Amplification

Jiangling Zhang ⋅ Shuxuan Gao ⋅ Bofan Liu ⋅ Siqiang Feng ⋅ Jirui Huang ⋅ Yaxiong Chen ⋅ Ziyu Chen

Goldilocks Test Sets for Face Verification

Haiyu Wu ⋅ Sicong Tian ⋅ Aman Bhatta ⋅ Jacob Gutierrez ⋅ Grace Bezold ⋅ Genesis Argueta ⋅ Karl Ricanek ⋅ Michael C. King ⋅ Kevin W. Bowyer

Fine-VAD: Towards Fine-Grained Video Anomaly Detection via Progressive Cross-Granularity Learning

Menghao Zhang ⋅ Yiyan Zhu ⋅ Pengfei Ren ⋅ Haifeng Sun ⋅ Qi Qi ⋅ Zirui Zhuang ⋅ Huazheng Wang ⋅ Lei Zhang ⋅ Jianxin Liao ⋅ Jingyu Wang

DLVP-CLIP: Enhancing Fine-Grained Zero-Shot Anomaly Detection via Dynamic Local Visual Prompting

Gaowei Zhang ⋅ Lihe Zhang

MoECLIP: Patch-Specialized Experts for Zero-shot Anomaly Detection

Jun Yeong Park ⋅ JunYoung Seo ⋅ Minji Kang ⋅ Yu Rang Park

Alert-CLIP: Abnormality-aware Latent-Enhanced Representation Tuning of CLIP for Video Anomaly Detection

Yiyan Zhu ⋅ Menghao Zhang ⋅ Haifeng Sun ⋅ Pengfei Ren ⋅ Xianao Chu ⋅ Chenye Xu ⋅ Hong Tan ⋅ Jinghan Wang ⋅ Qi Qi ⋅ Jingyu Wang

AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors

Matic Fučka ⋅ Vitjan Zavrtanik ⋅ Danijel Skočaj

LayoutAD: Exploring Semantic-Geometric Misalignment Reasoning for Scene Layout Anomaly Detection

Zhichao Zeng ⋅ Jiasheng Zhang ⋅ Jiyun Sun ⋅ Jiangtao Cui ⋅ Xiaotian Qiao

Bidirectional Multimodal Prompt Learning with Scale-Aware Training for Few-Shot Multi-Class Anomaly Detection

Yujin Lee ⋅ Sewon Kim ⋅ Daeun Moon ⋅ Seoyoon Jang ⋅ Hyunsoo Yoon

GS-CLIP: Zero-shot 3D Anomaly Detection by Geometry-Aware Prompt and Synergistic View Representation Learning

Zehao Deng ⋅ An Liu ⋅ Yan Wang

TLMA: Mitigating the Impact of Weakly Labeled Information for Video Anomaly Detection

Rong Xu ⋅ Runqi Wang ⋅ Yingjun Zhang ⋅ Tao Tao ⋅ Xiaomeng Li ⋅ Liping Jing

Defect Cue-Preserved Structural Feature Refinement for Few-Shot Anomaly Detection

Le Jiang ⋅ Yan Huang ⋅ Zhen Xu ⋅ Yong Xu ⋅ Hau San Wong ⋅ Si Wu

Anomaly-Related Residual Fields for Cross-domain Anomaly Detection

Kewei Gao ⋅ Jiayi Xie ⋅ Zhengda Shen ⋅ Weijun Qin ⋅ Lingxiang Jia ⋅ Kejia Chen ⋅ Zunlei Feng ⋅ Yijun Bei

From Attraction to Equilibrium: Physics-Inspired Semantic Gravitons for Zero-Shot Anomaly Detection

Yuwen Pan ⋅ Yuan Wang ⋅ Shaohui Li ⋅ Zhi Li ⋅ Yu LIU ⋅ You He

Joint Learning of General and Diverse Patterns with Mixture of Memory Experts for Weakly-Supervised Video Anomaly Detection

Bo Sun ⋅ Junxi Chen ⋅ Zhe Wu ⋅ Feng Gao ⋅ Fan Yang ⋅ Li Su ⋅ Yaowei Wang

No Need For Real Anomaly: MLLM Empowered Zero-Shot Video Anomaly Detection

Zunkai Dai ⋅ Ke Li ⋅ JIAJIA LIU ⋅ Jie Yang ⋅ Yuanyuan Qiao

FB-CLIP: Fine-Grained Zero-Shot Anomaly Detection with Foreground-Background Disentanglement

Ming Hu ⋅ Yongsheng Huo ⋅ Mingyu Dou ⋅ Jianfu Yin ⋅ Peng Zhao ⋅ Yao Wang ⋅ Cong Hu ⋅ Bingliang Hu ⋅ Quan Wang

DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving

Zhuolin He ⋅ Jing Li ⋅ Guanghao Li ⋅ Xiaolei Chen ⋅ Jiacheng Tang ⋅ Siyang Zhang ⋅ Zhounan Jin ⋅ Feipeng Cai ⋅ Bin Li ⋅ Jian Pu ⋅ Jia Cai ⋅ Xiangyang Xue

GenieDrive: Towards Physics-Aware Driving World Model with 4D Occupancy Guided Video Generation

Zhenya Yang ⋅ Zhe Liu ⋅ Yuxiang Lu ⋅ Liping Hou ⋅ Chenxuan Miao ⋅ peng siyi ⋅ Bailan Feng ⋅ Xiang Bai ⋅ Hengshuang Zhao

Test-Time 3D Occupancy Prediction

Fengyi Zhang ⋅ Xiangyu Sun ⋅ Huitong Yang ⋅ Zheng Zhang ⋅ Zi Huang ⋅ Yadan Luo

Group Diffusion: Enhancing Image Generation by Unlocking Cross-Sample Collaboration

Sicheng Mo ⋅ Thao Nguyen ⋅ Richard Zhang ⋅ Nick Kolkin ⋅ Siddharth Srinivasan Iyer ⋅ Eli Shechtman ⋅ Krishna Kumar Singh ⋅ Yong Jae Lee ⋅ Bolei Zhou ⋅ Yuheng Li

Diffusion Mental Averages

Phonphrm Thawatdamrongkit ⋅ Sukit Seripanitkarn ⋅ Supasorn Suwajanakorn

dMLLM-TTS: Self-Verified and Efficient Test-Time Scaling for Diffusion Multi-Modal Large Language Models

Yi Xin ⋅ Siqi Luo ⋅ Tianxiang Xu ⋅ Qi Qin ⋅ Haoxing Chen ⋅ Kaiwen Zhu ⋅ Zhiwei Zhang ⋅ Yangfan He ⋅ Rongchao Zhang ⋅ Jinbin Bai ⋅ Shuo Cao ⋅ Bin Fu ⋅ Junjun He ⋅ Yihao Liu ⋅ Yuewen Cao ⋅ Xiaohong Liu

RegionRoute: Regional Style Transfer with Diffusion Model

Bowen Chen ⋅ Jake Zuena ⋅ Alan C. ⋅ Divya Kothandaraman

Low-Rank Residual Diffusion Models

Junfu Tan ⋅ Jiang Yuan

RDF-MIG: A Robust Diffusion Framework for Masked Image Generation to Augment Semantic Segmentation and Change Detection

Zian Cao ⋅ Wei Wei ⋅ QINGSHAN GAO ⋅ Yuanyuan Fu

TC-Padé: Trajectory-Consistent Padé Approximation for Diffusion Acceleration

Shaoxuan He ⋅ Benlei Cui ⋅ Bukun Huang ⋅ Zhizeng Ye ⋅ Yunyun Sun ⋅ Longtao Huang ⋅ Hui Xue ⋅ Yang Yang ⋅ Haiwen Hong ⋅ Jingqun Tang ⋅ Zhou Zhao

Bi-directional Autoregressive Diffusion for Large Complex Motion Interpolation

Yongrui Ma ⋅ Shijie Zhao ⋅ Mingde Yao ⋅ Junlin Li ⋅ Li zhang ⋅ Xiaohong Liu ⋅ Qi Dou ⋅ Jinwei Gu ⋅ Tianfan Xue

Guiding Token-Sparse Diffusion Models

Felix Krause ⋅ Stefan Andreas Baumann ⋅ Johannes Schusterbauer ⋅ Olga Grebenkova ⋅ Ming Gui ⋅ Vincent Tao Hu ⋅ Björn Ommer

Accelerating Diffusion-based Video Editing via Heterogeneous Caching: Beyond Full Computing at Sampled Denoising Timestep

Tianyi Liu ⋅ Ye Lu ⋅ Linfeng Zhang ⋅ Chen Cai ⋅ Jianjun Gao ⋅ Yi Wang ⋅ Kim-Hui Yap ⋅ Lap-Pui Chau

See and Fix the Flaws: Enabling VLMs and Diffusion Models to Comprehend Visual Artifacts via Agentic Data Synthesis

Jaehyun Park ⋅ Minyoung Ahn ⋅ Minkyu Kim ⋅ Jonghyun Lee ⋅ Jae-Gil Lee ⋅ Dongmin Park

High-Fidelity Virtual Try-On beyond Paired Data Scarcity via Diffusion-based Cycle-Consistent Learning

Jia Wu ⋅ Yijing Dai ⋅ Tingfeng Cao ⋅ Meiling Wu ⋅ Tao Luo ⋅ Jian Dong Zhang ⋅ Guangming Lu ⋅ Xiaoyi Zeng

Sampling-Aware Quantization for Diffusion Models

Qian Zeng ⋅ Jie Song ⋅ Yuanyu Wan ⋅ Huiqiong Wang ⋅ Mingli Song

CRAFT: Aligning Diffusion Models with Fine-Tuning Is Easier Than You Think

Zening Sun ⋅ Zhengpeng Xie ⋅ Lichen Bai ⋅ Shitong Shao ⋅ Shuo Yang ⋅ Zeke Xie

Scale Space Diffusion

Soumik Mukhopadhyay ⋅ Prateksha Udhayanan ⋅ Abhinav Shrivastava

Making Training-Free Diffusion Segmentors Scale with the Generative Power

Benyuan Meng ⋅ Qianqian Xu ⋅ Zitai Wang ⋅ Xiaochun Cao ⋅ Longtao Huang ⋅ Qingming Huang

Roots Beneath the Cut: Uncovering the Risk of Concept Recovery in Pruning-Based Unlearning for Diffusion Models

Ci Zhang ⋅ Zhaojun Ding ⋅ Chence Yang ⋅ Jun Liu ⋅ Xiaoming Zhai ⋅ Shaoyi Huang ⋅ Beiwen Li ⋅ Xiaolong Ma ⋅ Jin Lu ⋅ Geng Yuan

Few-Step Diffusion Sampling Through Instance-Aware Discretizations

Liangyu Yuan ⋅ Ruoyu Wang ⋅ Tong Zhao ⋅ Dingwen Fu ⋅ Mingkun Lei ⋅ Beier Zhu ⋅ Chi Zhang

SpeeDiff: Scalable Pixel-Anchored End-to-End Latent Diffusion Model

Bingliang Zhang ⋅ Wenda Chu ⋅ Yizhuo Li ⋅ Linjie Yang ⋅ Yisong Yue ⋅ Katherine L. Bouman ⋅ Yang Song ⋅ Qiushan Guo

Structure-to-Intensity Diffusion for Adverse-Weather LiDAR Generation

Peiyang Ni ⋅ Longyu Yang ⋅ Lu Zhang ⋅ Kuniaki Saito ⋅ Yap-Peng Tan ⋅ Fumin Shen ⋅ Heng Tao Shen ⋅ Xiaofeng Zhu ⋅ Ping Hu

Focal–General Diffusion Model with Semantic Consistent Guidance for Sign Language Production

Yiheng Yu ⋅ Sheng Liu ⋅ Yuan Feng ⋅ Zhelun Jin ⋅ Yining Jiang ⋅ Min Xu

Diffusion Probe: Generated Image Result Prediction Using CNN Probes

Bukun Huang ⋅ Benlei Cui ⋅ Zhizeng Ye ⋅ Xuemei Dong ⋅ Tuo Chen ⋅ Hui Xue ⋅ Dingkang Yang ⋅ Longtao Huang ⋅ Haiwen Hong ⋅ Jingqun Tang

Content-Aware Dynamic Patchification for Efficient Video Diffusion

Sheng Li ⋅ Connelly Barnes ⋅ Mamshad Nayeem Rizve ⋅ Hongwu Peng ⋅ Zhengang Li ⋅ Ohi Dibua ⋅ Alireza Ganjdanesh ⋅ Xulong Tang ⋅ Yan Kang ⋅ Yifan Gong

PixelRush: Ultra-Fast, Training-Free High-Resolution Image Generation via One-step Diffusion

Hong-Phuc Lai ⋅ Phong Nguyen ⋅ Anh Tran

Diffusion-Based sRGB Real Noise Generation via Prompt-Driven Noise Representation Learning

Jaekyun Ko ⋅ Dongjin Kim ⋅ Soomin Lee ⋅ Guanghui Wang ⋅ Tae Hyun Kim

Decoupled Residual Denoising Diffusion Models for Unified and Data Efficient Image-to-Image Translation

Ziyue Lin ⋅ Jiahe Hou ⋅ Xia Hongyu ⋅ Xinrui Xie ⋅ Feifei Wang ⋅ Yuyin Zhou ⋅ Wei Wang ⋅ Jiawei Liu ⋅ Liangqiong Qu

GROW: Watermark Generation with Progressive Guidance for Diffusion Models

Pengcheng Luo ⋅ Zexi Jia ⋅ Yijia Zhong ⋅ Jinchao Zhang ⋅ Jie Zhou

MotionV2V: Editing Motion in a Video

Ryan Burgert ⋅ Charles Herrmann ⋅ Forrester Cole ⋅ Michael Ryoo ⋅ Neal Wadhwa ⋅ Andrey Voynov ⋅ Nataniel Ruiz

Mind the Generative Details: Direct Localized Detail Preference Optimization for Video Diffusion Models

Zitong Huang ⋅ Kaidong Zhang ⋅ Yukang Ding ⋅ Chao Gao ⋅ Rui Ding ⋅ Ying Chen ⋅ Wangmeng Zuo

OrthoFuse: Training-free Riemannian Fusion of Orthogonal Style-Concept Adapters for Diffusion Models

Ali Aliev ⋅ Kamil Garifullin ⋅ Nikolay Yudin ⋅ Vera Soboleva ⋅ Alexander Molozhavenko ⋅ Ivan Oseledets ⋅ Aibek Alanov ⋅ Maxim Rakhuba

DreamStyle: A Unified Framework for Video Stylization

Mengtian Li ⋅ Jinshu Chen ⋅ Songtao Zhao ⋅ Wanquan Feng ⋅ Pengqi Tu ⋅ Qian HE

Diffusion Sampling Path Tells More: An Efficient Plug-and-Play Strategy for Sample Filtering

SIXIAN WANG ⋅ Zhiwei Tang ⋅ Tsung-Hui Chang

Designing Instance-Level Sampling Schedules via REINFORCE with James-Stein Shrinkage

Peiyu Yu ⋅ Suraj Kothawade ⋅ Sirui Xie ⋅ Ying Nian Wu ⋅ Hongliang Fei

Reward Sharpness-Aware Fine-Tuning for Diffusion Models

Kwanyoung Kim ⋅ Byeongsu Sim

DBMSolver: A Training-free Diffusion Bridge Sampler for High-Quality Image-to-Image Translation

SANKARSHANA VENUGOPAL ⋅ Mohammad Mostafavi ⋅ Jonghyun Choi

Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens

Yuqing Wang ⋅ Chuofan Ma ⋅ Zhijie Lin ⋅ Yao Teng ⋅ Lijun Yu ⋅ Shuai Wang ⋅ Jiaming Han ⋅ Jiashi Feng ⋅ Yi Jiang ⋅ Xihui Liu

TAP: A Token-Adaptive Predictor Framework for Training-Free Diffusion Acceleration

Haowei Zhu ⋅ Tingxuan Huang ⋅ XING WANG ⋅ Tianyu Zhao ⋅ Jiexi Wang ⋅ Weifeng Chen ⋅ Xurui Peng ⋅ Fangmin Chen ⋅ Junhai Yong ⋅ Bin Wang

Cross-modal Representation Learning for Diffusion-generated Image Detection

Tao Gong ⋅ Dayong Wang ⋅ Qi Chu ⋅ Bin Liu ⋅ Nenghai Yu

Sparse-LaViDa: Sparse Multimodal Discrete Diffusion Language Models

Shufan Li ⋅ Jiuxiang Gu ⋅ Kangning Liu ⋅ Zhe Lin ⋅ Zijun Wei ⋅ Aditya Grover ⋅ Jason Kuen

Back to Basics: Let Denoising Generative Models Denoise

Tianhong Li ⋅ Kaiming He

CaricHarmony: Contrastive Diffusion Paths for Identity-Preserving Caricature Synthesis

Dongyu Wang ⋅ Dar-Yen Chen ⋅ Yi-Zhe Song

DiP: Taming Diffusion Models in Pixel Space

Zhennan Chen ⋅ junwei zhu ⋅ Xu Chen ⋅ Jiangning Zhang ⋅ Xiaobin Hu ⋅ Hanzhen Zhao ⋅ Chengjie Wang ⋅ Jian Yang ⋅ Ying Tai

RAPID: Reusing Attention Sparsity with Inter-step Adaptation for Efficient Video Diffusion

Shangran Lin ⋅ Lu Lu ⋅ Jian Chen ⋅ Qiang Liu

Efﬁcient and Training-Free Single-Image Diffusion Models

Haojun Qiu ⋅ Kiriakos N. Kutulakos ⋅ David B. Lindell

Go to Event Page

Oral

Oral Session 6A: Geometric Learning

2:00 PM - 3:15 PM

5 Events in this session

Differentiable Laplacian Matrix Guided Superpixel Segmentation

Jeremy Juybari ⋅ Joshua Hamilton ⋅ Shuvra Das ⋅ Chaofan Chen ⋅ Andre Khalil ⋅ Yifeng Zhu

FILTR: Extracting Topological Features from Pretrained 3D Models

Louis Martinez ⋅ Maks Ovsjanikov

Learning Convex Decomposition via Feature Fields

Yuezhi Yang ⋅ Qixing Huang ⋅ Mikaela Angelina Uy ⋅ Nicholas Sharp

Learning Eigenstructures of Unstructured Data Manifolds

Roy Velich ⋅ Arkadi Piven ⋅ David Bensaid ⋅ Daniel Cremers ⋅ Thomas Dagès ⋅ Ron Kimmel

Mapping Networks

Lord Sen ⋅ Shyamapada Mukherjee

Go to Event Page

Oral

Oral Session 6B: Multimodal Reasoning

2:00 PM - 3:15 PM

5 Events in this session

CineBrain: A Large-Scale Multi-Modal Audiovisual Brain Dataset for Brain-Conditioned Video Generation

Jianxiong Gao ⋅ Yichang Liu ⋅ baofeng yang ⋅ Jianfeng Feng ⋅ Yanwei Fu

Spectrum from Defocus: Fast Spectral Imaging with Chromatic Focal Stack

M. Kerem Aydin ⋅ Yi-Chun Hung ⋅ Jaclyn Pytlarz ⋅ Qi Guo ⋅ Emma Alexander

SDTrack: A Baseline for Event-based Tracking via Spiking Neural Networks

Yimeng Shan ⋅ Zhenbang Ren ⋅ Haodi Wu ⋅ Wenjie Wei ⋅ Rui-Jie Zhu ⋅ Shuai Wang ⋅ Dehao Zhang ⋅ Yichen Xiao ⋅ Jieyuan Zhang ⋅ Kexin Shi ⋅ Jingzhinan Wang ⋅ Jason K. Eshraghian ⋅ Haicheng Qu ⋅ Malu Zhang

Thinking with Drafts: Speculative Temporal Reasoning for Efficient Long Video Understanding

Pengfei Hu ⋅ Meng Cao ⋅ Yingyao Wang ⋅ Yi Wang ⋅ Jiahua Dong ⋅ Jun Song ⋅ Cheng Yu ⋅ Bo Zheng ⋅ Xiaodan Liang

Wan-Weaver: Interleaved Multi-modal Generation via Decoupled Training

Jinbo Xing ⋅ Zeyinzi Jiang ⋅ Yuxiang Tuo ⋅ Chaojie Mao ⋅ Xiaotang Gai ⋅ Xi Chen ⋅ Jingfeng Zhang ⋅ Yulin Pan ⋅ Zhen Han ⋅ Jie Xiao ⋅ Keyu Yan ⋅ Chenwei Xie ⋅ Chongyang Zhong ⋅ Kai Zhu ⋅ Tong Shen ⋅ Lianghua Huang ⋅ Yu Liu ⋅ Yujiu Yang

Go to Event Page

Oral

Oral Session 6C: Medical Vision

2:00 PM - 3:15 PM

6 Events in this session

CURE: Curriculum-guided Multi-task Training for Reliable Anatomy Grounded Report Generation

Pablo Messina ⋅ Andrés Villa ⋅ Juan León Alcázar ⋅ Karen Sanchez ⋅ Carlos Hinojosa ⋅ Denis Parra ⋅ Alvaro Soto ⋅ Bernard Ghanem

DK-DDIL: Adaptive Knowledge Retention for Dynamic Domain-Incremental Learning in Medical Imaging

Yuxi Ma ⋅ Sujie Liu ⋅ Jing Yang ⋅ Jiacheng Wang ⋅ Yiping Chen ⋅ Baptiste Magnier ⋅ Liansheng Wang

Dual-level Adapter Boosting Prompt-free Curvilinear Structure Segmentation

Kai Zhu ⋅ Li Chen ⋅ Jun Cheng

LATA: Laplacian-Assisted Transductive Adaptation for Conformal Uncertainty in Medical VLMs

Behzad Bozorgtabar ⋅ Dwarikanath Mahapatra ⋅ Sudipta Roy ⋅ Muzammal Naseer ⋅ Imran Razzak ⋅ Zongyuan Ge

Medic-AD: Towards Medical Vision-Language Model's Clinical Intelligence

Woohyeon Park ⋅ Jaeik Kim ⋅ Sunghwan Steve Cho ⋅ Pa Hong ⋅ Wookyoung Jeong ⋅ Yoojin Nam ⋅ Namjoon Kim ⋅ Ginny Y. Wong ⋅ Ka Chun Cheung ⋅ Jaeyoung Do

SegMoTE: Token-Level Mixture of Experts for Medical Image Segmentation

Yujie Lu ⋅ Jingwen Li ⋅ Sibo Ju ⋅ Yanzhou Su ⋅ He Yao ⋅ Yisong Liu ⋅ Min Zhu ⋅ Junlong Cheng

Go to Event Page

Oral

Oral Session 6D: Large-Scale Neural Modeling

2:00 PM - 3:15 PM

5 Events in this session

Efficient Unrolled Networks for Large-Scale 3D Inverse Problems

Romain Vo ⋅ Julián Tachella

FedAdamom: Adaptive Momentum for Improved Generalization in Federated Optimization

Wenjie Hou ⋅ Tianxiang Chen ⋅ Feng Wang ⋅ Tiantong Wu ⋅ Zhiming Zheng ⋅ Shaoting Tang ⋅ Wei Yang Bryan Lim

SimScale: Learning to Drive via Real-World Simulation at Scale

Haochen Tian ⋅ Tianyu Li ⋅ Haochen Liu ⋅ Jiazhi Yang ⋅ Yihang Qiu ⋅ Guang Li ⋅ junli wang ⋅ Yinfeng Gao ⋅ Zhang Zhang ⋅ Liang Wang ⋅ Hangjun Ye ⋅ Long Chen ⋅ Hongyang Li

Texvent: Asynchronous Event Data Simulation via Text Prompt

Ruofei Wang ⋅ Peiqi Duan ⋅ Ka Chun Cheung ⋅ Simon See ⋅ Boxin Shi ⋅ Renjie Wan

WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World

Ao Liang ⋅ Lingdong Kong ⋅ Tianyi Yan ⋅ Hongsi Liu ⋅ Yu Yang ⋅ Ziqi Huang ⋅ Wei Yin ⋅ Jialong Zuo ⋅ Yixuan Hu ⋅ Dekai Zhu ⋅ Dongyue Lu ⋅ Youquan Liu ⋅ Guangfeng Jiang ⋅ Linfeng Li ⋅ Xiangtai Li ⋅ Long Zhuo ⋅ Lai Xing Ng ⋅ Benoit R. Cottereau ⋅ Changxin Gao ⋅ Liang Pan ⋅ Wei Tsang Ooi ⋅ Ziwei Liu

Go to Event Page

Poster

Poster Session 6

3:30 PM - 5:30 PM

704 Events in this session

Differentiable Laplacian Matrix Guided Superpixel Segmentation

Jeremy Juybari ⋅ Joshua Hamilton ⋅ Shuvra Das ⋅ Chaofan Chen ⋅ Andre Khalil ⋅ Yifeng Zhu

FILTR: Extracting Topological Features from Pretrained 3D Models

Louis Martinez ⋅ Maks Ovsjanikov

Learning Convex Decomposition via Feature Fields

Yuezhi Yang ⋅ Qixing Huang ⋅ Mikaela Angelina Uy ⋅ Nicholas Sharp

Learning Eigenstructures of Unstructured Data Manifolds

Roy Velich ⋅ Arkadi Piven ⋅ David Bensaid ⋅ Daniel Cremers ⋅ Thomas Dagès ⋅ Ron Kimmel

Mapping Networks

Lord Sen ⋅ Shyamapada Mukherjee

CineBrain: A Large-Scale Multi-Modal Audiovisual Brain Dataset for Brain-Conditioned Video Generation

Jianxiong Gao ⋅ Yichang Liu ⋅ baofeng yang ⋅ Jianfeng Feng ⋅ Yanwei Fu

Spectrum from Defocus: Fast Spectral Imaging with Chromatic Focal Stack

M. Kerem Aydin ⋅ Yi-Chun Hung ⋅ Jaclyn Pytlarz ⋅ Qi Guo ⋅ Emma Alexander

SDTrack: A Baseline for Event-based Tracking via Spiking Neural Networks

Thinking with Drafts: Speculative Temporal Reasoning for Efficient Long Video Understanding

Pengfei Hu ⋅ Meng Cao ⋅ Yingyao Wang ⋅ Yi Wang ⋅ Jiahua Dong ⋅ Jun Song ⋅ Cheng Yu ⋅ Bo Zheng ⋅ Xiaodan Liang

Wan-Weaver: Interleaved Multi-modal Generation via Decoupled Training

CURE: Curriculum-guided Multi-task Training for Reliable Anatomy Grounded Report Generation

Pablo Messina ⋅ Andrés Villa ⋅ Juan León Alcázar ⋅ Karen Sanchez ⋅ Carlos Hinojosa ⋅ Denis Parra ⋅ Alvaro Soto ⋅ Bernard Ghanem

DK-DDIL: Adaptive Knowledge Retention for Dynamic Domain-Incremental Learning in Medical Imaging

Yuxi Ma ⋅ Sujie Liu ⋅ Jing Yang ⋅ Jiacheng Wang ⋅ Yiping Chen ⋅ Baptiste Magnier ⋅ Liansheng Wang

Dual-level Adapter Boosting Prompt-free Curvilinear Structure Segmentation

Kai Zhu ⋅ Li Chen ⋅ Jun Cheng

LATA: Laplacian-Assisted Transductive Adaptation for Conformal Uncertainty in Medical VLMs

Behzad Bozorgtabar ⋅ Dwarikanath Mahapatra ⋅ Sudipta Roy ⋅ Muzammal Naseer ⋅ Imran Razzak ⋅ Zongyuan Ge

Medic-AD: Towards Medical Vision-Language Model's Clinical Intelligence

Woohyeon Park ⋅ Jaeik Kim ⋅ Sunghwan Steve Cho ⋅ Pa Hong ⋅ Wookyoung Jeong ⋅ Yoojin Nam ⋅ Namjoon Kim ⋅ Ginny Y. Wong ⋅ Ka Chun Cheung ⋅ Jaeyoung Do

SegMoTE: Token-Level Mixture of Experts for Medical Image Segmentation

Yujie Lu ⋅ Jingwen Li ⋅ Sibo Ju ⋅ Yanzhou Su ⋅ He Yao ⋅ Yisong Liu ⋅ Min Zhu ⋅ Junlong Cheng

Efficient Unrolled Networks for Large-Scale 3D Inverse Problems

Romain Vo ⋅ Julián Tachella

FedAdamom: Adaptive Momentum for Improved Generalization in Federated Optimization

Wenjie Hou ⋅ Tianxiang Chen ⋅ Feng Wang ⋅ Tiantong Wu ⋅ Zhiming Zheng ⋅ Shaoting Tang ⋅ Wei Yang Bryan Lim

SimScale: Learning to Drive via Real-World Simulation at Scale

Haochen Tian ⋅ Tianyu Li ⋅ Haochen Liu ⋅ Jiazhi Yang ⋅ Yihang Qiu ⋅ Guang Li ⋅ junli wang ⋅ Yinfeng Gao ⋅ Zhang Zhang ⋅ Liang Wang ⋅ Hangjun Ye ⋅ Long Chen ⋅ Hongyang Li

Texvent: Asynchronous Event Data Simulation via Text Prompt

Ruofei Wang ⋅ Peiqi Duan ⋅ Ka Chun Cheung ⋅ Simon See ⋅ Boxin Shi ⋅ Renjie Wan

WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World

BuildingGPT: Auto-Regressive Building Wireframe Reconstruction Model with Reinforcement Learning

Yuzhou Liu ⋅ Lingjie Zhu ⋅ Hanqiao Ye ⋅ Yujun Liu ⋅ Shangfeng Huang ⋅ Xiang Gao ⋅ Ruisheng Wang ⋅ Shuhan Shen

Emergent Extreme-View Geometry in 3D Foundation Models

Yiwen Zhang ⋅ Joseph Tung ⋅ Ruojin Cai ⋅ David Fouhey ⋅ Hadar Averbuch-Elor

LiteVGGT: Boosting Vanilla VGGT via Geometry-aware Cached Token Merging

Zhijian Shu ⋅ Cheng Lin ⋅ Tao Xie ⋅ Wei Yin ⋅ Ben Li ⋅ Zhiyuan Pu ⋅ Weize Li ⋅ Yao Yao ⋅ Xun Cao ⋅ Xiaoyang Guo ⋅ Xiaoxiao Long

LASER: Layer-wise Scale Alignment for Training-Free Streaming 4D Reconstruction

Tianye Ding ⋅ Yiming Xie ⋅ Yiqing Liang ⋅ Moitreya Chatterjee ⋅ Pedro Miraldo ⋅ Huaizu Jiang

PanoVGGT: Feed-Forward 3D Reconstruction from Panoramic Imagery

Yijing Guo ⋅ Mengjun Chao ⋅ Luo Wang ⋅ Tianyang Zhao ⋅ Haizhao Dai ⋅ Yingliang Zhang ⋅ Jingyi Yu ⋅ Yujiao Shi

Rascene: High-Fidelity 3D Scene Imaging with mmWave Communication Signals

Kunzhe Song ⋅ Geo Jie Zhou ⋅ Xiaoming Liu ⋅ Huacheng Zeng

VGG-T^3: Offline Feed-Forward 3D Reconstruction at Scale

Sven Elflein ⋅ Ruilong Li ⋅ Sérgio Agostinho ⋅ Žan Gojčič ⋅ Laura Leal-Taixe ⋅ Qunjie Zhou ⋅ Aljoša Ošep

SEA-Flow3D: Simplified, Efficient, and Accurate Scene Flow via Spatial Vector Sampling and Multi-scale Refinement

Han Ling ⋅ Quansen Sun ⋅ Yinghua Yao ⋅ Ivor Tsang ⋅ Yinghui Sun

OmniVGGT: Omni-Modality Driven Visual Geometry Grounded Transformer

Hao Li ⋅ Hao Li ⋅ Yalun Dai ⋅ Yushi Lan ⋅ Yihang Luo ⋅ Tianyu Qi ⋅ Zhengshen Zhang ⋅ Yufeng Zhan ⋅ Junfei Zhang ⋅ Wenchao Xu ⋅ Ziwei Liu

DROID-SLAM in the Wild

Moyang Li ⋅ Zihan Zhu ⋅ Marc Pollefeys ⋅ Daniel Barath

HeSS: Head Sensitivity Score for Sparsity Redistribution in VGGT

Yongsung Kim ⋅ Wooseok Song ⋅ Jaihyun Lew ⋅ Hun Hwangbo ⋅ Jaehoon Lee ⋅ Sungroh Yoon

Dense Metric Depth Completion from Sparse Direct Time-of-Flight Sensors

Hakyeong Kim ⋅ Ruicheng Wang ⋅ Chengtang Yao ⋅ Jiaolong Yang ⋅ Min H. Kim

Online3R: Online Learning for Consistent Sequential Reconstruction Based on Geometry Foundation Model

Shunkai Zhou ⋅ Zike Yan ⋅ fei xue ⋅ Dong Wu ⋅ Yuchen Deng ⋅ Hongbin Zha

Neu-PiG: Neural Preconditioned Grids for Fast Dynamic Surface Reconstruction on Long Sequences

Julian Kaltheuner ⋅ Hannah Dröge ⋅ Markus Plack ⋅ Patrick Stotko ⋅ Reinhard Klein

Learning 3D Reconstruction with Priors in Test Time

Lei Zhou ⋅ Haoyu Wu ⋅ Akshat Dave ⋅ Dimitris Samaras

ArchSym: Detecting 3D-Grounded Architectural Symmetries in the Wild

Hanyu Chen ⋅ Ruojin Cai ⋅ Steve Marschner ⋅ Noah Snavely

PointTPA: Dynamic Network Parameter Adaptation for 3D Scene Understanding

Siyuan Liu ⋅ Chaoqun Zheng ⋅ Xin Zhou ⋅ Tianrui Feng ⋅ Dingkang Liang ⋅ Xiang Bai

tttLRM: Test-Time Training for Long Context and Autoregressive 3D Reconstruction

Chen Wang ⋅ Hao Tan ⋅ Wang Yifan ⋅ Zhiqin Chen ⋅ Yuheng Liu ⋅ Kalyan Sunkavalli ⋅ Sai Bi ⋅ Lingjie Liu ⋅ Yiwei Hu

Hint2Gen: Bridging Understanding and Generation via Code-structured Hints

Yuanpeng Tu ⋅ Yunpeng Chen ⋅ Xi Chen ⋅ Liang Li ⋅ Hengshuang Zhao

Compositional Text-to-Image Generation Via Region-aware Bimodal Direct Preference Optimization

Zhuohan Liu ⋅ Wujian Peng ⋅ Yitong Chen ⋅ Zuxuan Wu

Learning by Analogy: A Causal Framework for Compositional Generalization

Lingjing Kong ⋅ Shaoan Xie ⋅ Yang Jiao ⋅ Yetian Chen ⋅ Yanhui Guo ⋅ Simone Shao ⋅ Yan Gao ⋅ Guangyi Chen ⋅ Kun Zhang

ID-Crafter: VLM-Grounded Online RL for Compositional Multi-Subject Video Generation

Panwang Pan ⋅ Jingjing Zhao ⋅ Yuchen Lin ⋅ Chenguo Lin ⋅ Chenxin Li ⋅ Hengyu Liu ⋅ Tingting Shen ⋅ Yadong Mu

GenColorBench: A Color Evaluation Benchmark for Text-to-Image Generation

Muhammad Atif Butt ⋅ Alexandra Gomez-Villa ⋅ Tao Wu ⋅ Javier Vazquez-Corral ⋅ Joost van de Weijer ⋅ Kai Wang

Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation

Chenxi Zhao ⋅ Chen Zhu ⋅ Xiaokun Feng ⋅ Aiming Hao ⋅ Jiashu Zhu ⋅ Jiachen Lei ⋅ Jiahong Wu ⋅ Xiangxiang Chu ⋅ Jufeng Yang

When Pretty Isn’t Useful: Investigating Why Modern Text-to-Image Models Fail as Reliable Training Data Generators

Krzysztof Adamkiewicz ⋅ Brian B. Moser ⋅ Stanislav Frolov ⋅ Tobias Christian Nauen ⋅ Federico Raue ⋅ Andreas Dengel

TempoControl: Temporal Attention Guidance for Text-to-Video Models

Shira Schiber ⋅ Ofir Lindenbaum ⋅ Idan Schwartz

Hear What Matters! Text-conditioned Selective Video-to-Audio Generation

Junwon Lee ⋅ Juhan Nam ⋅ Jiyoung Lee

MultiCrafter: High-Fidelity Multi-Subject Generation via Disentangled Attention and Identity-Aware Preference Alignment

Tao Wu ⋅ Yibo Jiang ⋅ Yehao Lu ⋅ Zhizhong Wang ⋅ Zeyi Huang ⋅ Zequn Qin ⋅ Xi Li

Resolving the Identity Crisis in Text-to-Image Generation

Shubhankar Borse ⋅ Farzad Farhadzadeh ⋅ Munawar Hayat ⋅ Fatih Porikli

DiffGraph: An Automated Agent-driven Model Merging Framework for In-the-Wild Text-to-Image Generation

Zhuoling Li ⋅ Hossein Rahmani ⋅ Jiarui Zhang ⋅ Yu Xue ⋅ Majid Mirmehdi ⋅ Jason Kuen ⋅ Jiuxiang Gu ⋅ Jun Liu

Gloria: Consistent Character Video Generation via Content Anchors

Yuhang Yang ⋅ Fan Zhang ⋅ Huaijin Pi ⋅ Ailing Zeng ⋅ Shuai Guo ⋅ Guowei Xu ⋅ Wei Zhai ⋅ Yang Cao ⋅ Zheng-Jun Zha

DreamShot: Personalized Storyboard Synthesis with Video Diffusion Prior

Junjia Huang ⋅ Binbin Yang ⋅ Pengxiang Yan ⋅ Jiyang Liu ⋅ Bin Xia ⋅ Zhao Wang ⋅ Yitong Wang ⋅ Liang Lin ⋅ Guanbin Li

M4V: Multimodal Mamba for Efficient Text-to-Video Generation

Jiancheng Huang ⋅ Gengwei Zhang ⋅ Zequn Jie ⋅ Siyu Jiao ⋅ Yinlong Qian ⋅ Ling Chen ⋅ Yunchao Wei ⋅ Lin Ma

Property-Informed Diffusion-Based Text-to-Microstructure Generation

Bingxuan Dai ⋅ Hongsong Wang ⋅ Jie Gui

DreamingComics: A Story Visualization Pipeline via Subject and Layout Customized Generation using Video Models

Patrick Kwon ⋅ Chen Chen

Mixture of States: Routing Token-Level Dynamics for Multimodal Generation

Haozhe Liu ⋅ Ding Liu ⋅ Mingchen Zhuge ⋅ Zijian Zhou ⋅ Tian Xie ⋅ Sen He ⋅ Yukang Yang ⋅ Shuming Liu ⋅ Yuren Cong ⋅ Jiadong Guo ⋅ Hongyu Xu ⋅ Ke Xu ⋅ Kam-Woh Ng ⋅ Juan C. Perez ⋅ Juan-Manuel Pérez-Rúa ⋅ Tao Xiang ⋅ Wei Liu ⋅ Shikun Liu ⋅ Jürgen Schmidhuber

HiCoGen: Hierarchical Compositional Text-to-Image Generation in Diffusion Models via Reinforcement Learning

Hongji Yang ⋅ Yucheng Zhou ⋅ Wencheng Han ⋅ Runzhou Tao ⋅ Zhongying Qiu ⋅ Jianfei Yang ⋅ Jianbing Shen

TherA: Thermal-Aware Visual-Language Prompting for Controllable RGB-to-Thermal Infrared Translation

Dong-Guw Lee ⋅ Tai Hyoung Rhee ⋅ Hyunsoo Jang ⋅ Young-Sik Shin ⋅ Ukcheol Shin ⋅ Ayoung Kim

See What I Mean: Aligning Vision and Language Representations for Video Fine-grained Object Understanding

Bo-Yuan Sun ⋅ Bowen Yin ⋅ Yuanming Li ⋅ Xihan Wei ⋅ Qibin Hou

CoV-Align: Efficient Fine-grained Cross-Modal Alignment with Cohesive Visual Semantics Priority

Hengqi Liu ⋅ Wanting Zhou ⋅ Longteng Kong ⋅ Fangxiang Feng ⋅ Lei Ren ⋅ Wei Chen ⋅ Xiaojie Wang

TDATR: Improving End-to-End Table Recognition via Table Detail-Aware Learning and Cell-Level Visual Alignment

Qin Chunxia ⋅ Chenyu Liu ⋅ Pengcheng Xia ⋅ Jun Du ⋅ Baocai Yin ⋅ Bing Yin ⋅ Cong Liu

A Mixed Diet Makes DINO An Omnivorous Vision Encoder

Rishabh Kabra ⋅ Maks Ovsjanikov ⋅ Drew A Hudson ⋅ Ye Xia ⋅ Skanda Koppula ⋅ André Araujo ⋅ Joao Carreira ⋅ Niloy J. Mitra

Uncertainty-guided Compositional Alignment with Part-to-Whole Semantic Representativeness in Hyperbolic Vision-Language Models

Hayeon Kim ⋅ Ji Ha Jang ⋅ Junghun James Kim ⋅ Se Young Chun

TaskForce: Cooperative Multi-agent Reinforcement Learning for Multi-task Optimization

Wonhyeok Choi ⋅ Kyumin Hwang ⋅ Jihun Park ⋅ Kyoungmin Lee ⋅ Seunghun Lee ⋅ Jaeyeul Kim ⋅ Minwoo Choi ⋅ Sunghoon Im

PhyCritic: Multimodal Critic Models for Physical AI

Tianyi Xiong ⋅ Shihao Wang ⋅ Guilin Liu ⋅ Yi Dong ⋅ Ming Li ⋅ Heng Huang ⋅ Jan Kautz ⋅ Zhiding Yu

R-C2: Cycle-Consistent Reinforcement Learning Improves Multimodal Reasoning

Zirui Zhang ⋅ Haoyu Dong ⋅ Kexin Pei ⋅ Chengzhi Mao

Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image

Yushi Hu ⋅ Reyhane Askari ⋅ Melissa Hall ⋅ Emily Dinan ⋅ Luke Zettlemoyer ⋅ Marjan Ghazvininejad

Unified Generation and Self-Verification for Vision-Language Models via Advantage Decoupled Preference Optimization

Xinyu Qiu ⋅ Heng Jia ⋅ Zhengwen Zeng ⋅ Shuheng Shen ⋅ Changhua Meng ⋅ Yi Yang ⋅ Linchao Zhu

Anchoring the Mind of Multimodal Reasoners: Cognitive Bias as a Vector for Jailbreak Attacks

Linhua Cong ⋅ Bingrui Sima ⋅ Kun He

InsCal: Calibrated Multi-Source Fully Test-Time Prompt Tuning for Object Detection

Xiaofan Que ⋅ Dingrong Wang ⋅ Xumin Liu ⋅ Qi Yu

Why Not Hyperparameter-Friendly Optimisation? A Monotonic Adaptive Norm Rescaling Approach For Long-Tailed Recognition

Shuo Zhang ⋅ Chenqi Li ⋅ Tingting Zhu

Decoupling Vision and Language: Codebook Anchored Visual Adaptation

Jason Wu ⋅ Tianchen Zhao ⋅ Chang Liu ⋅ Jiarui Cai ⋅ Zheng Zhang ⋅ Zhuowei Li ⋅ Aaditya Singh ⋅ Xiang Xu ⋅ Mani Srivastava ⋅ Jonathan Wu

MemFlow: A Lightweight Forward Memorizing Framework for Quick Domain Adaptive Feature Mapping

Jianming Lv ⋅ Chengjun Wang ⋅ Depin Liang ⋅ Qianli Ma ⋅ Wei Chen ⋅ Xueqi Cheng

Mind the Discriminability Trap in Source-Free Cross-domain Few-shot Learning

ZHENYU ZHANG ⋅ Yixiong Zou ⋅ Yuhua Li ⋅ Ruixuan Li ⋅ Guangyao Chen

Vision-Language Model Guided Source-Free Domain Adaptation via Optimal Transport

Shuo Han ⋅ Xu Tang ⋅ Jingjing Ma ⋅ Xiangrong Zhang

Masked Representation Modeling for Domain-Adaptive Segmentation

Wenlve Zhou ⋅ Zhiheng Zhou ⋅ Tiantao Xian ⋅ Yikui Zhai ⋅ Weibin Wu ⋅ Biyun MA

TaskIT: Memory-Efficient Fine-Tuning of Multi-LoRA LLMs via Cross-Task Importance Transfer

Cheng Fang ⋅ Zimu Zhou ⋅ Ke Ma ⋅ Bin Guo

ARES: Unifying Asymmetric RGB-Event Stereo for Probabilistic Scene Flow Estimation

Jie Long Lee ⋅ Gim Hee Lee

MER-Tracker: Towards High-Speed 3D Point Tracking via Multi-View Event-RGB Hybrid Cameras

Yiqian Chang ⋅ Qinghong Ye ⋅ Haoran Xu ⋅ Jianing Li ⋅ Dongyang Ma ⋅ Xuan Wang ⋅ Wei Zhang ⋅ Yonghong Tian ⋅ Peixi Peng

Moving Border Ownership for Event-based Motion Segmentation

Zhiyuan Hua ⋅ Cornelia Fermuller ⋅ Yiannis Aloimonos

TTAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

Jiaxiong Liu ⋅ Zhen Tan ⋅ Jinpu Zhang ⋅ Yi Zhou ⋅ Hui Shen ⋅ Xieyuanli Chen ⋅ Dewen Hu

EventHub: Data Factory for Generalizable Event-Based Stereo Networks without Active Sensors

Luca Bartolomei ⋅ Fabio Tosi ⋅ Matteo Poggi ⋅ Stefano Mattoccia ⋅ Guillermo Gallego

Seeing Motion Through Polarity for Event-based Action Recognition

Meiqi Cao ⋅ Jiachao Zhang ⋅ Xin Jiang ⋅ Rui Yan ⋅ Yazhou Yao ⋅ Zechao Li ⋅ Xiangbo Shu

Multi-Scale Gaussian-Language Map for Zero-shot Embodied Navigation and Reasoning

Sixian Zhang ⋅ Yiyao Wang ⋅ Xinhang Song ⋅ Keming Zhang ⋅ Zijian Xu ⋅ Shuqiang Jiang

Explore with Long-term Memory: A Benchmark and Multimodal LLM-based Reinforcement Learning Framework for Embodied Exploration

sen wang ⋅ Bangwei Liu ⋅ Zhenkun Gao ⋅ Lizhuang Ma ⋅ Xuhong Wang ⋅ Yuan Xie ⋅ Xin Tan

SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL

Siyi Chen ⋅ Mikaela Angelina Uy ⋅ Chan Hee Song ⋅ Faisal Ladhak ⋅ Adithya Murali ⋅ Qing Qu ⋅ Stan Birchfield ⋅ Valts Blukis ⋅ Jonathan Tremblay

TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size

Stefan Lionar ⋅ Gim Hee Lee

AREA3D: Active Reconstruction Agent with Unified Feed-Forward 3D Perception and Vision-Language Guidance

Tianling Xu ⋅ Shengzhe GAN ⋅ Leslie Gu ⋅ Yuelei Li ⋅ Fangneng Zhan ⋅ Hanspeter Pfister

Experience Transfer for Multimodal LLM Agents in Minecraft Game

Chenghao Li ⋅ Jun Liu ⋅ Songbo Zhang ⋅ HuaDong Jian ⋅ Hao Ni ⋅ LIK-HANG LEE ⋅ SUNG BAE BAE ⋅ Guoqing Wang ⋅ Yang Yang ⋅ Chaoning Zhang

MSGNav: Unleashing the Power of Multi-modal 3D Scene Graph for Zero-Shot Embodied Navigation

Xun Huang ⋅ Shijia Zhao ⋅ Yunxiang Wang ⋅ Xin Lu ⋅ Wanfa Zhang ⋅ Rongsheng Qu ⋅ Weixin Li ⋅ Yunhong Wang ⋅ Chenglu Wen

SaPaVe: Towards Active Perception and Manipulation in Vision-Language Action Models for Robotics

Mengzhen Liu ⋅ Enshen Zhou ⋅ Cheng Chi ⋅ Yi Han ⋅ Shanyu Rong ⋅ Liming Chen ⋅ Pengwei Wang ⋅ Zhongyuan Wang ⋅ Shanghang Zhang

MANSION: Multi-floor lANguage-to-3D Scene generatIOn for loNg-horizon tasks

Lirong Che ⋅ Shuo Wen ⋅ Huang Shan ⋅ wang chuang ⋅ yuzhe yang ⋅ Gregory Dudek ⋅ Chuang Wang ⋅ Jian Su

RealAppiance: Let High-fidelity Appliance Assets Controllable and Workable as Aligned Real Manauls

Yuzheng Gao ⋅ Yuxing Long ⋅ Lei Kang ⋅ Yuchong Guo ⋅ Ziyan Yu ⋅ Shangqing Mao ⋅ Jiyao Zhang ⋅ Ruihai Wu ⋅ Dongjiang Li ⋅ Hui Shen ⋅ Hao Dong

ForeAct: Steering Your VLA with Efficient Visual Foresight Planning

Zhuoyang Zhang ⋅ Shang Yang ⋅ Qinghao Hu ⋅ Luke J. Huang ⋅ James Hou ⋅ Yufei Sun ⋅ Yao Lu ⋅ Song Han

Affordance Field Intervention: Enabling VLAs to Escape Memory Traps in Robotic Manipulation

Siyu Xu ⋅ Zijian Wang ⋅ Yunke Wang ⋅ Chenghao Xia ⋅ Tao Huang ⋅ Chang Xu

MERIT: Multi-domain Efficient RAW Image Translation

Wenjun Huang ⋅ Shenghao Fu ⋅ Yian Jin ⋅ Yang Ni ⋅ Ziteng Cui ⋅ Hanning Chen ⋅ Yirui He ⋅ Yezi Liu ⋅ Sanggeon Yun ⋅ SungHeon Jeong ⋅ Ryozo Masukawa ⋅ William Youngwoo Chung ⋅ Mohsen Imani

Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing

Yusu Qian ⋅ Eli Bocek-Rivele ⋅ Liangchen Song ⋅ Jialing Tong ⋅ Yinfei Yang ⋅ Jiasen Lu ⋅ Wenze Hu ⋅ Zhe Gan

Probabilistic Prompt Adaptation for Unified Image Aesthetics and Quality Assessment

Takayuki Hara ⋅ Yuya Otsuka

EMMA: Concept Erasure Benchmark with Comprehensive Semantic Metrics and Diverse Categories

Lu Wei ⋅ Yuta Nakashima ⋅ Noa Garcia

Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity

Zhengyao Fang ⋅ Zexi Jia ⋅ Yijia Zhong ⋅ Pengcheng Luo ⋅ Jinchao Zhang ⋅ Guangming Lu ⋅ Jun Yu ⋅ Wenjie Pei

WiseEdit: Benchmarking Cognition- and Creativity-Informed Image Editing

Kaihang Pan ⋅ Weile Chen ⋅ Haiyi Qiu ⋅ Qifan Yu ⋅ Wendong Bu ⋅ zehan wang ⋅ Yun Zhu ⋅ Juncheng Li ⋅ Siliang Tang

UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits

Keming Ye ⋅ Zhipeng Huang ⋅ Canmiao Fu ⋅ Qingyang Liu ⋅ Jiani Cai ⋅ Zheqi Lv ⋅ Chen Li ⋅ Jing LYU ⋅ Zhou Zhao ⋅ Shengyu Zhang

Inter-Edit: First Benchmark for Interactive Instruction-Based Image Editing

Delong Liu ⋅ Haotian Hou ⋅ Zhaohui Hou ⋅ Zhiyuan Huang ⋅ Shihao Han ⋅ Mingjie Zhan ⋅ Zhicheng Zhao ⋅ Fei Su

PR-IQA: Partial-Reference Image Quality Assessment for Diffusion-Based Novel View Synthesis

Inseong Choi ⋅ Siwoo Lee ⋅ Seung-Hun Nam ⋅ Soohwan Song

LumiMotion: Improving Gaussian Relighting with Scene Dynamics

Joanna Kaleta ⋅ Piotr Wójcik ⋅ Kacper Marzol ⋅ Tomasz Trzciński ⋅ Kacper Kania ⋅ Marek Kowalski

Let it Snow! Animating 3D Gaussian Scenes with Dynamic Weather Effects via Physics-Guided Score Distillation

Gal Fiebelman ⋅ Hadar Averbuch-Elor ⋅ Sagie Benaim

iLRM: An Iterative Large 3D Reconstruction Model

Gyeongjin Kang ⋅ Seungtae Nam ⋅ Seung kwon Yang ⋅ Xiangyu Sun ⋅ Sameh Khamis ⋅ Abdelrahman Mohamed ⋅ Eunbyung Park

MVInverse: Feed-forward Multiview Inverse Rendering in Seconds

Xiangzuo Wu ⋅ Chengwei Ren ⋅ Jun Zhou ⋅ Xiu Li ⋅ Yuan Liu

From None to All: Self-Supervised 3D Reconstruction via Novel View Synthesis

Ranran Huang ⋅ Weixun Luo ⋅ Ye Mao ⋅ Krystian Mikolajczyk

MoRel: Long-Range Flicker-Free 4D Motion Modeling via Anchor Relay-based Bidirectioanl Blending with Hierarchical Densification

Sangwoon Kwak ⋅ Weeyoung Kwon ⋅ Jun Young Jeong ⋅ Geonho Kim ⋅ Won-Sik Cheong ⋅ Jihyong Oh

Multi-view Pyramid Transformer: Look Coarser to See Broader

Gyeongjin Kang ⋅ Seung kwon Yang ⋅ Seungtae Nam ⋅ Younggeun Lee ⋅ Jungwoo Kim ⋅ Eunbyung Park

CaT-GS: Efficient 3DGS Rendering for Large Scale Scenes via Inter-frame Caching and Tile Scheduling

TingJia Zhang ⋅ Bo Chen ⋅ Shengzhong Liu ⋅ Fan Wu ⋅ Guihai Chen

RL‑ScanIQA: Reinforcement-Learned Scanpaths for Blind 360° Image Quality Assessment

yujia wang ⋅ Yuyan Li ⋅ Jiuming Liu ⋅ Fang-Lue Zhang ⋅ Xinhu Zheng ⋅ Neil.A Dodgson

Benchmarking Endoscopic Surgical Image Restoration and Beyond

Jialun Pei ⋅ Diandian Guo ⋅ Donghui Yang ⋅ Zhixi Li ⋅ Yuxin Feng ⋅ Long Ma ⋅ Bo Du ⋅ Pheng-Ann Heng

SDUIE: Semi-Supervised Diffusion for Underwater Image Enhancement with Quant-Text Dual Control

Xiaofeng Cong ⋅ Yu-Xin Zhang ⋅ Hao Shen ⋅ Yeying Jin ⋅ Junming Hou ⋅ Jie Gui

HiDRA: Hierarchical Degradation Representation and Adaptation with Generative Priors for Enhancing Infrared Vision

Zihang Chen ⋅ Zhu Liu ⋅ Changbo Yan ⋅ Jinyuan Liu ⋅ Risheng Liu

BluRef: Unsupervised Image Deblurring with Dense-Matching References

Bang-Dang Pham ⋅ Anh Tran ⋅ Cuong Pham ⋅ Minh Nguyen Nguyen

Bi-Bridge: Bidirectional Diffusion Bridges for Low-Light Image Enhancement

Zeyu Hua ⋅ HUI LI ⋅ Yu Wang ⋅ Song Wang ⋅ Congchao Zhu ⋅ Caixia Zheng

UniLDiff: Unlocking the Power of Diffusion Priors for All-in-One Image Restoration

Zihan Cheng ⋅ Liangtai Zhou ⋅ Dian Chen ⋅ Ni Tang ⋅ Xiaotong Luo ⋅ Yuan Xie ⋅ Yanyun Qu

MatAnyone 2: Scaling Video Matting via a Learned Quality Evaluator

Peiqing Yang ⋅ Shangchen Zhou ⋅ Kai Hao ⋅ Qingyi Tao

SelfHVD: Self-Supervised Handheld Video Deblurring

Honglei Xu ⋅ Zhilu Zhang ⋅ Junjie Fan ⋅ Xiaohe Wu ⋅ Wangmeng Zuo

Spatio-Temporal Difference Guided Motion Deblurring with the Complementary Vision Sensor

Yapeng Meng ⋅ Lin Yang ⋅ Yuguo Chen ⋅ Xiangru Chen ⋅ Taoyi Wang ⋅ Lijian Wang ⋅ Zheyu Yang ⋅ Yihan Lin ⋅ Rong Zhao

Learning Where to Look and How to Judge: Resolution-agnostic Image Quality Assessment with Quality-aware Saliency

Hakan Emre Gedik ⋅ Shashank Gupta ⋅ Alan C.

Bridging RGB and Hematoxylin Components: An Interleaved Guidance and Fusion Framework for Point Supervised Nuclei Segmentation

Zihan Huan ⋅ Xipeng Pan ⋅ Hualong Zhang ⋅ Siyang Feng ⋅ Rushi Lan ⋅ Huadeng Wang ⋅ Haoxiang Lu ⋅ Zhenbing Liu

Virtual Nodes Guided Dynamic Graph Neural Network for Brain Tumor Segmentation with Missing Modalities

Sha Tao ⋅ Jiao PAN ⋅ Yu Guo ⋅ Chao Yao

VoxTell: Free-Text Promptable Universal 3D Medical Image Segmentation

Maximilian Rokuss ⋅ Moritz Langenberg ⋅ Yannick Kirchhoff ⋅ Fabian Isensee ⋅ Benjamin Hamm ⋅ Constantin Ulrich ⋅ Sebastian Regnery ⋅ Lukas Bauer ⋅ Efthimios Katsigiannopulos ⋅ Tobias Norajitra ⋅ Klaus Maier-Hein

Photo-Guided Tooth Segmentation on 3D Oral Scan Model

Shaojie Zhuang ⋅ Guangshun Wei ⋅ Jiangxin He ⋅ Yuanfeng Zhou

Breaking the Continuum: Discrete Distribution Learning for Structural MRI Reconstruction

Tianle Lyu ⋅ Mengjingcheng Mo ⋅ Ting Wen ⋅ Zhen Song ⋅ Zinan Xiong ⋅ Yanjie Zhu

Uni-Hema: Unified Model for Digital Hematopathology

Abdul Rehman ⋅ Iqra Rasool ⋅ Ayisha Imran ⋅ Mohsen Ali ⋅ Waqas Sultani

Post-training Feature Pruning for Fundus Images Classification

Van-Nguyen Pham ⋅ Duc-Tai Le ⋅ Junghyun Bum ⋅ Hyunseung Choo

Sketch2CT: Multimodal Diffusion for Structure-Aware 3D Medical Volume Generation

Delin An ⋅ Chaoli Wang

SafeLogo: Turning Your Logos into Jailbreak Shields via Micro-Regional Adversarial Training

Zhiyi Duan ⋅ Xiaoyue Zhang ⋅ Tianxing Man

Anti-I2V: Safeguarding your Photos from Malicious Image-to-video Generation

Hong Duc Vu ⋅ Anh Nguyen ⋅ Chi Tran ⋅ Anh Tran

UniGame: Turning a Unified Multimodal Model Into Its Own Adversary

Zhaolong Su ⋅ Wang Lu ⋅ Hao Chen ⋅ Yixuan Li ⋅ Jindong Wang

Hierarchically Robust Zero-shot Vision-language Models

Junhao Dong ⋅ Yifei Zhang ⋅ Hao Zhu ⋅ Yew-Soon Ong ⋅ Piotr Koniusz

Beyond Text Prompts: Precise Concept Erasure through Text–Image Collaboration

Jun Li ⋅ Lizhi Xiong ⋅ Ziqiang Li ⋅ Weiwei Jiang ⋅ Zhangjie Fu ⋅ Yong Li ⋅ Guo-Sen Xie

AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions

Zonghao Ying ⋅ Le Wang ⋅ Yisong Xiao ⋅ Jiakai Wang ⋅ Yuqing Ma ⋅ Jinyang Guo ⋅ Zhenfei Yin ⋅ Mingchuan Zhang ⋅ Aishan Liu ⋅ Xianglong Liu

ReMoE: Region-Mixture Experts for Adversarially-Robust Vision Transformers

Qinghao Zhong ⋅ Bingzhi Chen ⋅ Yishu Liu ⋅ Minhua Lu ⋅ Guangming Lu

TreeTeaming: Autonomous Red-Teaming of Vision-Language Models via Hierarchical Strategy Exploration

Chunxiao Li ⋅ Lijun Li ⋅ Jing Shao

SO-Bench: A Structural Output Evaluation of Multimodal LLM

Di Feng ⋅ Kaixin Ma ⋅ Feng Nan ⋅ Haofeng Chen ⋅ Bohan Zhai ⋅ David Griffiths ⋅ Mingfei Gao ⋅ Zhe Gan ⋅ Eshan Verma ⋅ Yinfei Yang ⋅ Zhifeng Chen ⋅ Afshin Dehghan

Chain-of-Thought Guided Multi-Modal Object Re-Identification

Ya Gao ⋅ Shihao Li ⋅ ZhaoJun Liu ⋅ AIHUA ZHENG ⋅ Chenglong Li ⋅ Jin Tang

When Lines Meet Textures: Spatial-Frequency Aligned Diffusion Features for Cross-Sparsity Correspondence

Mingrui Zhu ⋅ Fengzhi Wang ⋅ Xin Wei ⋅ Jun Wang ⋅ Nannan Wang ⋅ Xinbo Gao

CountGD++: Generalized Prompting for Open-World Counting

Niki Amini-Naieni ⋅ Andrew Zisserman

AudioStory: Generating Long-Form Narrative Audio with Large Language Models

Yuxin Guo ⋅ Teng Wang ⋅ Yuying Ge ⋅ Shijie Ma ⋅ Yixiao Ge ⋅ Wei Zou

Parameter-Efficient Adaptation for MLLMs via Implicit Modality Decomposition

Mingfang Zhang ⋅ Yunhong Wang ⋅ Lu Wang ⋅ Jiaxin Chen

Hyperbolic Gramian Volumes for Multimodal Alignment

Saiyang Na ⋅ Feng Jiang ⋅ Qifeng Zhou ⋅ Wenliang Zhong ⋅ Thao M. Dang ⋅ Yuzhi Guo ⋅ Hehuan Ma ⋅ Chunyuan Li ⋅ Weizhi An ⋅ Junzhou Huang

Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping

Tianxiang Du ⋅ Hulingxiao He ⋅ Yuxin Peng

AutoCut: End-to-end advertisement video editing based on multimodal discretization and controllable generation

Milton Zhou ⋅ Sizhong Qin ⋅ Yongzhi Li ⋅ Quan Chen ⋅ Peng Jiang

StableMTL: Repurposing Latent Diffusion Models for Multi-Task Learning from Partially Annotated Synthetic Datasets

Anh Quan Cao ⋅ Ivan Lopes ⋅ Raoul de Charette

CaReFlow: Cyclic Adaptive Rectified Flow for Multimodal Fusion

Sijie Mai ⋅ Shiqin Han

Lenses: Toward Polysemous Vision–Language Understanding

Hani Alomari ⋅ Ali Asgarov ⋅ Chris Thomas

CoRiM: Conflict-driven Risk Minimization for Dynamic Multimodal Fusion

shihao Zou ⋅ Wei Wei

Uncertainty-Aware Exploratory Direct Preference Optimization for Multimodal Large Language Models

Huatian Zhang ⋅ Zhendong Mao ⋅ Lei Zhang ⋅ Yongdong Zhang

CICA: Coupling Confidence-Aware Pretraining with Confidence-Informed Attention for Robust Multimodal Sentiment Analysis

Haoyu Jiang ⋅ Xiaoliang Chen ⋅ Duoqian Miao ⋅ Xiaolin Qin ⋅ Xianyong Li ⋅ Yajun Du

SAMTok: Representing Any Mask with Two Words

yikang zhou ⋅ Tao Zhang ⋅ Dengxian Gong ⋅ Yuanzheng Wu ⋅ Ye Tian ⋅ Haochen Wang ⋅ Haobo Yuan ⋅ Jiacong Wang ⋅ Lu Qi ⋅ Hao Fei ⋅ Shunping Ji ⋅ Anran Wang ⋅ Zhuochen Wang ⋅ Yujing Wang ⋅ Cheng CHEN ⋅ Xiangtai Li

Multi-Metric Representation Learning Strategy Based on Clustering for Fine-Grained Multimodal Sentiment Analysis

Yidan Wang ⋅ Zongheng Wang ⋅ Hongjie Xing ⋅ Chunguo Li ⋅ Xiaoxiao Liu

Cinematic Audio Source Separation Using Visual Cues

Kang Zhang ⋅ Suyeon Lee ⋅ Arda Senocak ⋅ Joon Chung

MMSD3.0: A Multi-Image Benchmark for Real-World Multimodal Sarcasm Detection

HAOCHEN ZHAO ⋅ Yuyao Kong ⋅ Yongxiu Xu ⋅ Gaopeng Gou ⋅ Hongbo Xu ⋅ Yubin Wang ⋅ Haoliang Zhang

Anchor-Guided Gradient Alignment for Incomplete Multimodal Learning

Zhi-Hao Guan ⋅ Longfei Huang ⋅ Yang Yang

PyraTok: Language-Aligned Pyramidal Tokenizer for Video Understanding and Generation

Onkar Susladkar ⋅ Tushar Prakash ⋅ Adheesh Juvekar ⋅ Kiet A. Nguyen ⋅ Dong-Hwan Jang ⋅ Inderjit S Dhillon ⋅ Ismini Lourentzou

VDE: Training-Free Accelerating Rectified Flow Model via Velocity Decomposition and Estimation

Junwen Tan ⋅ Jinglin Liang ⋅ Hongyuan Chen ⋅ Shuangping Huang

Kontinuous Kontext: Continuous Strength Control for Instruction-based Image Editing

Rishubh Parihar ⋅ Or Patashnik ⋅ Daniil Ostashev ⋅ R. Venkatesh Babu ⋅ Daniel Cohen-Or ⋅ Kuan-Chieh Jackson Wang

VideoCoF: Unified Video Editing with Temporal Reasoner

xiangpeng yang ⋅ Ji Xie ⋅ Yiyuan Yang ⋅ Yue Ma ⋅ Yan Huang ⋅ Min Xu ⋅ Qiang Wu

Progressive Supernet Training for Efficient Visual Autoregressive Modeling

Xiaoyue Chen ⋅ Yuling Shi ⋅ kaiyuan Li ⋅ Huandong Wang ⋅ Yong Li ⋅ Xiaodong Gu ⋅ Xinlei Chen ⋅ Mingbao Lin

CoT-Edit: Let CoT Guide Instruction Video Editing

Sen Liang ⋅ Fengbin Guan ⋅ Youliang Zhang ⋅ Xin Li ⋅ Zhibo Chen

Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset

Qingyan Bai ⋅ Qiuyu Wang ⋅ Hao Ouyang ⋅ Yue Yu ⋅ Hanlin Wang ⋅ Wen Wang ⋅ Ka Leong Cheng ⋅ Shuailei Ma ⋅ Yanhong Zeng ⋅ Zichen Liu ⋅ Yinghao Xu ⋅ Yujun Shen ⋅ Qifeng Chen

Test-Time Instance-Specific Parameter Composition: A New Paradigm for Adaptive Generative Modeling

Minh-Tuan Tran ⋅ Xuan-May Le ⋅ Quan Hung Tran ⋅ Mehrtash Harandi ⋅ Dinh Phung ⋅ Trung Le

Understanding, Accelerating, and Improving MeanFlow Training

Jin-Young Kim ⋅ Hyojun Go ⋅ Lea Bogensperger ⋅ Julius Erbach ⋅ Nikolai Kalischek ⋅ Federico Tombari ⋅ Konrad Schindler ⋅ Dominik Narnhofer

Meta-CoT: Enhancing Granularity and Generalization in Image Editing

Shiyi Zhang ⋅ YIJI CHENG ⋅ Tiankai Hang ⋅ Zijin Yin ⋅ Runze He ⋅ Yu Xu ⋅ Wenxun Dai ⋅ yunlong lin ⋅ Chunyu Wang ⋅ qinglin lu ⋅ Yansong Tang

Dual-Granularity Memory for Efficient Video Generation

Hongjun Wang ⋅ Lin Liu ⋅ Jianguo Li ⋅ Tao Lin

Unified Camera Positional Encoding for Controlled Video Generation

Cheng Zhang ⋅ Boying Li ⋅ Meng Wei ⋅ Yan-Pei Cao ⋅ Camilo Cruz Gambardella ⋅ Dinh Phung ⋅ Jianfei Cai

EditMGT: Unleashing Potentials of Masked Generative Transformers in Image Editing

Wei Chow ⋅ Linfeng Li ⋅ Lingdong Kong ⋅ Zefeng Li ⋅ Qi Xu ⋅ Hang Song ⋅ Tian Ye ⋅ Xian Wang ⋅ Jinbin Bai ⋅ Shilin Xu ⋅ Xiangtai Li ⋅ Junting Pan ⋅ Shaoteng Liu ⋅ Ran Zhou ⋅ Tianshu Yang ⋅ Songhua Liu

MU-GeNeRF: Multi-view Uncertainty-guided Generalizable Neural Radiance Fields for Distractor-aware Scene

wenjie mu ⋅ Zhan Li ⋅ Chuanzhou su ⋅ XUANYI SHEN ⋅ Ziniu Liu ⋅ Fan Lu ⋅ Yujian Mo ⋅ Junqiao Zhao ⋅ Tiantian Feng ⋅ chen ye ⋅ Guang Chen

PLACID: Identity-Preserving Multi-Object Compositing via Video Diffusion with Synthetic Trajectories

Gemma Canet Tarrés ⋅ Manel Baradad ⋅ Francesc Moreno-Noguer ⋅ Yumeng Li

Object-WIPER: Training-Free Object and Associated Effect Removal in Videos

Saksham Singh Kushwaha ⋅ Sayan Nag ⋅ Yapeng Tian ⋅ Kuldeep Kulkarni

Mobile-VTON: High-Fidelity On-Device Virtual Try-On

Zhenchen Wan ⋅ Ce Chen ⋅ Runqi Lin ⋅ Jiaxin Huang ⋅ Tianxi Chen ⋅ Yanwu Xu ⋅ Tongliang Liu ⋅ Mingming Gong

Progress by Pieces: Test-Time Scaling for Autoregressive Image Generation

Joonhyung Park ⋅ Hyeongwon Jang ⋅ Joowon Kim ⋅ Eunho Yang

Towards Robust Sequential Decomposition for Complex Image Editing

Zilai Zeng ⋅ Mingdeng Cao ⋅ Zijie Li ⋅ Xiaochen Lian ⋅ Yichun Shi ⋅ Peihao Zhu ⋅ Chen Sun ⋅ Peng Wang

Layer Consistency Matters: Elegant Latent Transition Discrepancy for Generalizable Synthetic Image Detection

Yawen Yang ⋅ Feng Li ⋅ Shuqi Kong ⋅ Yunfeng Diao ⋅ Xinjian Gao ⋅ Zenglin Shi ⋅ Meng Wang

Chain of Event-Centric Causal Thought for Physically Plausible Video Generation

Zixuan Wang ⋅ Yixin Hu ⋅ Haolan Wang ⋅ Feng Chen ⋅ Yan Liu ⋅ Wen Li ⋅ Yinjie Lei

LoL: Longer than Longer, Scaling Video Generation to Hour

Jiaxing Cui ⋅ Jie Wu ⋅ Ming Li ⋅ Tao Yang ⋅ Xiaojie Li ⋅ Rui Wang ⋅ Andrew Bai ⋅ Yuanhao Ban ⋅ Cho-Jui Hsieh

FlowMotion: Training-Free Flow Guidance for Video Motion Transfer

Zhen Wang ⋅ Youcan Xu ⋅ Jun Xiao ⋅ Long Chen

Learning Straight Flows: Variational Flow Matching for Efficient Generation

Chenrui Ma ⋅ Xi Xiao ⋅ Tianyang Wang ⋅ Xiao Wang ⋅ Yanning Shen

SIGMA: Selective-Interleaved Generation with Multi-Attribute Tokens

Xiaoyan Zhang ⋅ Zechen Bai ⋅ Haofan Wang ⋅ Yiren Song

DNF-SR: Dual-Input and Negative-Aware Feature Fine-Tuning for Real-World Image Super-Resolution

Shuhao Han ⋅ Wenjie Liao ⋅ Hayden Vance ⋅ Hang Dong ⋅ Rui Zhang ⋅ Chunle Guo ⋅ Chongyi Li

IFCSR: Inference-Free Fidelity-Realism Control for One-Step Diffusion-based Real-World Image Super-Resolution

Jonghee Back ⋅ Jongju Kim ⋅ Jeong-Uk Kim ⋅ Eunjin Kim ⋅ Minyong Jeon

Edge-Focused Super-Resolution for Omnidirectional Images with Spherical Geometric Augmentation

Shaolin Wang ⋅ Yuying Li ⋅ Lei Zhong ⋅ Shigang Li ⋅ Jianfeng Li

TUDSR: Twice Upsampling-Diffusion for Higher Super-Resolution

Zhiqiang Wu ⋅ Yitong Dong ⋅ Xian Wei

PS-SR: Pseudo-Single-Step Video Super-Resolution via Speculative Diffusion

Aiqiu Wu ⋅ Zhaofan Qiu ⋅ Ting Yao ⋅ Tao Mei

Disentangled Textual Priors for Diffusion-based Image Super-Resolution

Lei Jiang ⋅ Xin Liu ⋅ Xinze Tong ⋅ Zhiliang Li ⋅ Jie Liu ⋅ Jie Tang ⋅ Gangshan Wu

Remote Sensing Image Super-Resolution for Imbalanced Textures: A Texture-Aware Diffusion Framework

Enzhuo Zhang ⋅ Sijie Zhao ⋅ Dilxat Muhtar ⋅ Zhenshi Li ⋅ Xueliang Zhang ⋅ Pengfeng Xiao

Rethinking Diffusion Model-Based Video Super-Resolution: Leveraging Dense Guidance from Aligned Features

Jingyi Xu ⋅ Meisong Zheng ⋅ Ying Chen ⋅ Minglang Qiao ⋅ Xin Deng ⋅ Mai Xu

DreamSR: Towards Ultra-High-Resolution Image Super-Resolution via a Receptive-Field Enhanced Diffusion Transformer

Qingji Dong ⋅ Hang Dong ⋅ Mingqin Chen ⋅ Rui Zhang ⋅ Yitong Wang

FiDeSR: High-Fidelity and Detail-Preserving One-Step Diffusion Super-Resolution

Aro Kim ⋅ Myeongjin Jang ⋅ Chaewon Moon ⋅ Youngjin Shin ⋅ Jinwoo Jeong ⋅ Sang-hyo Park

STCDiT: Spatio-Temporally Consistent Diffusion Transformer for High-Quality Video Super-Resolution

Junyang Chen ⋅ Jiangxin Dong ⋅ Long Sun ⋅ Yixin Yang ⋅ Jinshan Pan

Towards Highly-Constrained Human Motion Generation with Retrieval-Guided Diffusion Noise Optimization

Hanchao Liu ⋅ Fang-Lue Zhang ⋅ Shining Zhang ⋅ Tai-Jiang Mu ⋅ Shi-Min Hu

Learning to Control Physically-simulated 3D Characters via Generating and Mimicking 2D Motions

Jianan Li ⋅ Xiao Chen ⋅ Tao Huang ⋅ Tien-Tsin Wong

Human Geometry Distribution for 3D Animation Generation

Xiangjun Tang ⋅ Biao Zhang ⋅ Peter Wonka

A Temporal and Content Co-Awareness Latent Diffusion for Controllable Hand Image Generation

Shuang Hao ⋅ Pengfei Ren ⋅ Haifeng Sun ⋅ Ting Pan ⋅ Qi Qi ⋅ Lei Zhang ⋅ Cong Liu ⋅ Jianxin Liao ⋅ Jingyu Wang

Superman: Unifying Skeleton and Vision for Human Motion Perception and Generation

Xinshun Wang ⋅ Peiming Li ⋅ Ziyi Wang ⋅ Zhongbin Fang ⋅ Zhichao Deng ⋅ Songtao Wu ⋅ Xiangtai Li ⋅ Mengyuan Liu

Learning to Assist: Physics-Grounded Human-Human Control via Multi-Agent Reinforcement Learning

Yuto Shibata ⋅ Kashu Yamazaki ⋅ Lalit Jayanti ⋅ Yoshimitsu Aoki ⋅ Mariko Isogawa ⋅ Katerina Fragkiadaki

Stability-Driven Motion Generation for Object-Guided Human-Human Co-Manipulation

Jiahao Xu ⋅ Xiaohan Yuan ⋅ Xingchen Wu ⋅ Chongyang Xu ⋅ Kun Li ⋅ Buzhen Huang

Causal Motion Diffusion Models for Autoregressive Motion Generation

Qing Yu ⋅ Akihisa Watanabe ⋅ Kent Fujiwara

Towards Storytelling Animations: Joint Synthesis of Human and Camera Motions

Boyuan Cheng ⋅ Yingjie Xi ⋅ Rui He ⋅ Jinhe Na ⋅ Ying Cao ⋅ Pengjie Wang ⋅ Jian Jun Zhang ⋅ Xiaosong Yang

MoLingo: Motion–Language Alignment for Text-to-Human Motion Generation

Yannan He ⋅ Garvita Tiwari ⋅ Xiaohan Zhang ⋅ Pankaj Bora ⋅ Tolga Birdal ⋅ Jan Lenssen ⋅ Gerard Pons-Moll

End-to-End Language-Action Model for Humanoid Whole Body Control

Yuxuan Wang ⋅ Haobin Jiang ⋅ Shiqing Yao ⋅ Ziluo Ding ⋅ Zongqing Lu

Toward Early Quality Assessment of Text-to-Image Diffusion Models

Huanlei Guo ⋅ Hongxin Wei ⋅ Bingyi Jing

CoD: A Diffusion Foundation Model for Image Compression

Zhaoyang Jia ⋅ Zihan Zheng ⋅ Naifu Xue ⋅ Jiahao Li ⋅ Bin Li ⋅ Zongyu Guo ⋅ Xiaoyi Zhang ⋅ Houqiang Li ⋅ Yan Lu

Diffusion MRI Transformer with a Diffusion Space Rotary Positional Embedding (D-RoPE)

Gustavo Chau Loo Kung ⋅ Mohammad H. Abbasi ⋅ Camila Blank ⋅ Juze Zhang ⋅ Alan Q. Wang ⋅ Sophie Ostmeier ⋅ Akshay Chaudhari ⋅ Kilian Pohl ⋅ Ehsan Adeli

Language-Guided One-Step Diffusion Model for Nighttime Flare Removal

Aoxiang Ning ⋅ Kailong Yu ⋅ Minglong Xue ⋅ Liyuan Pan ⋅ Jinhong He ⋅ Wenchao Yan ⋅ Mingliang Zhou ⋅ Yirui Wu

SpiralDiff: Spiral Diffusion with LoRA for RGB-to-RAW Conversion Across Cameras

Huanjing Yue ⋅ Shangbin Xie ⋅ Cong Cao ⋅ Qian Wu ⋅ Lei Zhang ⋅ Zhao Lei ⋅ Jingyu Yang

PnP-CM: Consistency Models as Plug-and-Play Priors for Inverse Problems

Merve Gulle ⋅ junno yun ⋅ Yasar Utku Alcalar ⋅ Mehmet Akcakaya

Landscape-Awareness for Geometric View Diffusion Model

Yan-Ting Chen ⋅ Hao-Wei Chen ⋅ Tsu-Ching Hsiao ⋅ Chun-Yi Lee

Otil: Accelerating Diffusion Model Inference via Communication-Efficient Multi-GPU Parallelism

Xin Li ⋅ Shujun Tian ⋅ Tao Lu ⋅ Han Bao ⋅ Zonghui Wang ⋅ Chen

REACH: Explicit Recovery Behavior for Diffusion Policies

zundong Ke ⋅ Junlin Chen ⋅ Jiayi Zhu ⋅ Kuanhao Xia ⋅ Jiayuan Gu ⋅ boyi zhao

OralGPT-Omni: A Versatile Dental Multimodal Large Language Model

JING HAO ⋅ Yuci Liang ⋅ Lizhuo Lin ⋅ Yuxuan Fan ⋅ Wenkai Zhou ⋅ Kaixin Guo ⋅ Zanting Ye ⋅ Yanpeng Sun ⋅ Xinyu Zhang ⋅ Yanqi Yang ⋅ Qiankun Li ⋅ Hao Tang ⋅ James Kit-Hon Tsoi ⋅ Linlin Shen ⋅ Kuo Feng Hung

CrossHOI-Bench: A Unified Benchmark for HOI Evaluation across Vision-Language Models and HOI-Specific Methods

Qinqian Lei ⋅ Bo Wang ⋅ Robby T. Tan

The LLM Bottleneck: Why Open-Source Vision LLMs Struggle with Hierarchical Visual Recognition

Yuwen Tan ⋅ Yuan Qing ⋅ Boqing Gong

Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench

Fenfen Lin ⋅ Yesheng Liu ⋅ Haiyu Xu ⋅ Yue Chen ⋅ Zheqi He ⋅ Mingxuan Zhao ⋅ Miguel Hu Chen ⋅ JG Yao ⋅ Xi Yang

KαLOS finds Consensus: A Meta-Algorithm for Evaluating Inter-Annotator Agreement in Complex Vision Tasks

David Tschirschwitz ⋅ Volker Rodehorst

Beyond Single Images: A Comprehensive Benchmark for Album-Level Vision-Language Understanding

Shawn Huang ⋅ Brian Price ⋅ Yifei Fan ⋅ Bryan Morse

LIBERO-Plus: A Progressive Robustness Benchmark for Visual-Language-Action Models

Senyu Fei ⋅ Siyin Wang ⋅ Junhao Shi ⋅ Zihao Dai ⋅ Jikun Cai ⋅ Pengfang Qian ⋅ Li Ji ⋅ Xinzhe He ⋅ Shiduo Zhang ⋅ Zhaoye Fei ⋅ Jinlan Fu ⋅ Jingjing Gong ⋅ Xipeng Qiu

Scenes as Tokens: Multi-Scale Normal Distributions Transform Tokenizer for General 3D Vision–Language Understanding

Yutao Tang ⋅ Cheng Zhao ⋅ Gaurav Mittal ⋅ Rohith Kukkala ⋅ Rama Chellappa ⋅ Cheng Peng ⋅ Mei Chen

LangRef3DGS: Natural Language-Guided 3D Referential Segmentation from Partial Observations via 3D Gaussian Splatting

xulun ye ⋅ Qin Zhang ⋅ Kun Zhou

Hear you are: Teaching LLMs Spatial Reasoning with Vision and Spatial Sound

Hyeonggon Ryu ⋅ Joon Chung ⋅ David Harwath

EgoMind: Activating Spatial Cognition through Linguistic Reasoning in MLLMs

Zhenghao Chen ⋅ Huiqun Wang ⋅ Di Huang

SAQN: Semantic-based Adaptive Query Network for 3D Referring Expression Segmentation

Jiale Huang ⋅ Shangfei Wang

EagleVision: A Dual-Stage Framework with BEV-grounding-based Chain-of-Thought for Spatial Intelligence

Jiaxu Wan ⋅ Xu Wang ⋅ Mengwei Xie ⋅ Hang Zhang ⋅ Mu Xu ⋅ Yang Han ⋅ Ding Yuan ⋅ Hong Zhang ⋅ Yifan Yang

Abstract 3D Perception for Spatial Intelligence in Vision-Language Models

Yifan Liu ⋅ Fangneng Zhan ⋅ Kaichen Zhou ⋅ Yilun Du ⋅ Paul Pu Liang ⋅ Hanspeter Pfister

PV-Ground: Text-Guided Point-Voxel Interaction for 3D Visual Grounding

Junpeng Shang ⋅ Feifei Shao ⋅ Jun Xiao ⋅ Lin Li ⋅ Hongwei Wang ⋅ Dongfang Ma

Masking Matters: Unlocking the Spatial Reasoning Capabilities of LLMs for 3D Scene-Language Understanding

Yerim Jeon ⋅ Miso Lee ⋅ WonJun Moon ⋅ Jae-Pil Heo

SpatialStack: Layered Geometry-Language Fusion for 3D VLM Spatial Reasoning

Jian Zhang ⋅ Shijie Zhou ⋅ Bangya LIU ⋅ Achuta Kadambi ⋅ Zhiwen Fan

Geometrically-Constrained Agent for Spatial Reasoning

Zeren Chen ⋅ Xiaoya Lu ⋅ Zhijie Zheng ⋅ Pengrui Li ⋅ Lehan He ⋅ Yijin Zhou ⋅ Jing Shao ⋅ Bohan Zhuang ⋅ Lu Sheng

PARSE: Part-Aware Relational Spatial Modeling

Yinuo Bai ⋅ Peijun Xu ⋅ Kuixiang Shao ⋅ Yuyang Jiao ⋅ Jingxuan Zhang ⋅ Kaixin Yao ⋅ Jiayuan Gu ⋅ Jingyi Yu

R4: Retrieval-Augmented Reasoning for Vision-Language Models in 4D Spatio-Temporal Space

Tin Stribor Sohn ⋅ Maximilian Dillitzer ⋅ Jason J. Corso ⋅ Eric Sax

MCHDoc: A Comprehensive Benchmark for Reading Multi-Carrier Chinese Historical Documents

YiJun Sheng ⋅ Shipeng Zhu ⋅ Ruijia Zuo ⋅ Na Nie ⋅ Hui Xue

Cross-modal Fuzzy Alignment Network for Text-Aerial Person Retrieval and A Large-scale Benchmark

Yifei Deng ⋅ Chenglong Li ⋅ YUYANG ZHANG ⋅ Guyue Hu ⋅ Jin Tang

CodeMMR: Bridging Natural Language, Code, and Image for Unified Retrieval

Jiahui Geng ⋅ Qing Li ⋅ Fengyu Cai ⋅ Fakhri Karray

DiT-Distill: Open-Set Fine-Grained Retrieval via Generative Curriculum Knowledge

Xin Jiang ⋅ Hao Tang ⋅ Meiqi Cao ⋅ Junyao Gao ⋅ Fei Shen ⋅ Zechao Li

ReCALL: Recalibrating Capability Degradation for MLLM-based Composed Image Retrieval

tianyu yang ⋅ ChenWei He ⋅ xiangzhao hao ⋅ Tianyue Wang ⋅ Jiarui Guo ⋅ Haiyun Guo ⋅ Leigang Qu ⋅ Jinqiao Wang ⋅ Tat-seng Chua

Love Me, Love My Label: Rethinking the Role of Labels in Prompt Retrieval for Visual In-Context Learning

Tianci Luo ⋅ Haohao Pan ⋅ Jinpeng Wang ⋅ Niu Lian ⋅ Xinrui Chen ⋅ Bin Chen ⋅ Shu-Tao Xia ⋅ Chun Yuan

Rethinking BCE Loss for Multi-Label Image Recognition with Fine-Tuning

Ao Zhou ⋅ Zhiwei Jiang ⋅ Zifeng Cheng ⋅ Cong Wang ⋅ Yafeng Yin ⋅ Shufan Yang ⋅ Qing Gu

CAST: Context-Aware Dynamic Latent Space Transformation for Interactive Text-to-Image Retrieval

Xuanzuo Lin ⋅ Min Zhang ⋅ Daizong Liu ⋅ Zhiwen Zuo ⋅ Xun Yang ⋅ Changting Lin ⋅ Xun Wang ⋅ Jianfeng Dong

PriVi: Towards a General-Purpose Video Model for Primate Behavior in the Wild

Felix B. Mueller ⋅ Jan F. Meier ⋅ Timo Lüddecke ⋅ Richard Vogg ⋅ Roger L. Freixanet ⋅ Valentin Hassler ⋅ Tiffany Bosshard ⋅ Elif Karakoc ⋅ William O'Hearn ⋅ Sofia M. Pereira ⋅ Sandro Sehner ⋅ Kaja Wierucka ⋅ Judith Burkart ⋅ Claudia Fichtel ⋅ Julia Fischer ⋅ Alexander Gail ⋅ Catherine Hobaiter ⋅ Julia Ostner ⋅ Liran Samuni ⋅ Oliver Schülke ⋅ Neda Shahidi ⋅ Erin G. Wessling ⋅ Alexander S. Ecker

Seeing Conversations: Communication Context Identification in Egocentric Video

Tobias Dorszewski ⋅ Jens Hjortkjær

Interactive Episodic Memory with User Feedback

Nikesh Subedi ⋅ Loris Bazzani ⋅ Ziad Al-Halah

Seeing without Pixels: Perception from Camera Trajectories

Zihui Xue ⋅ Kristen Grauman ⋅ Dima Damen ⋅ Andrew Zisserman ⋅ Tengda Han

PFGNet: A Fully Convolutional Frequency-Guided Peripheral Gating Network for Efficient Spatiotemporal Predictive Learning

Xinyong Cai ⋅ Changbin Sun ⋅ Yong Wang ⋅ Hongyu Yang ⋅ Yuankai Wu

Minerva-Ego: Spatiotemporal Hints for Egocentric Video Understanding

Arsha Nagrani ⋅ Jasper Uijlings ⋅ Shyamal Buch ⋅ Tobias Weyand ⋅ Sudheendra Vijayanarasimhan ⋅ Bo Hu ⋅ Ramin Mehran ⋅ David A. Ross ⋅ Cordelia Schmid

StreamRAG: Enhancing Real-Time Video Understanding with Retrieval Augmentation

Junlin Xie ⋅ Quanlong Zheng ⋅ Ruifei Zhang ⋅ Kuo Wang ⋅ Yanhao Zhang ⋅ Jinguo Luo ⋅ Haonan Lu ⋅ Xiang Wan ⋅ Guanbin Li

ViKey: Enhancing Temporal Understanding in Videos via Visual Prompting

Yeonkyung Lee ⋅ Dayun Ju ⋅ Youngmin Kim ⋅ Seil Kang ⋅ Seong Jae Hwang

SkillSight: Efficient First-Person Skill Assessment with Gaze

Chi Hsuan Wu ⋅ Kumar Ashutosh ⋅ Kristen Grauman

BriMA: Bridged Modality Adaptation for Multi-Modal Continual Action Quality Assessment

Kanglei Zhou ⋅ Chang Li ⋅ Qingyi Pan ⋅ Liyuan Wang

Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO

JUNHAO CHENG ⋅ Liang Hou ⋅ Xin Tao ⋅ Jing Liao

MedLIME: A Distribution-Aligned and Evidence-Supported Framework for Medical Saliency Explanations

Raghav Magazine ⋅ Xingjian Li ⋅ Min Xu

Inside-Out: Measuring Generalization in Vision Transformers Through Inner Workings

Yunxiang Peng ⋅ Mengmeng Ma ⋅ Ziyu Yao ⋅ Xi Peng

Language Models Can Explain Visual Features via Steering

Javier Ferrando ⋅ Enrique Lopez-Cuena ⋅ Pablo Agustin Martin-Torres ⋅ Daniel Hinjos ⋅ Anna Arias Duart ⋅ Dario Garcia-Gasulla

Making the Classification Explanation Faithful to the Confidence Score

Jian-Xun Mi ⋅ Lu Pan ⋅ Weisheng Li

Intrinsic Concept Extraction Based on Compositional Interpretability

Hanyu Shi ⋅ Hong Tao ⋅ Guoheng Huang ⋅ Jianbin Jiang ⋅ Xuhang Chen ⋅ Chi-Man Pun ⋅ Shanhu Wang ⋅ Pan Pan

Attribution-Guided Model Rectification of Unreliable Neural Network Behaviors

Peiyu Yang ⋅ Naveed Akhtar ⋅ Jiantong Jiang ⋅ Ajmal Mian

Measuring the (Un)Faithfulness of Concept-Based Explanations

Shubham Kumar ⋅ Narendra Ahuja

Deformation-based In-Context Learning for Point Cloud Understanding

Chengxing Lin ⋅ Jinhong Deng ⋅ Yinjie Lei ⋅ Wen Li

ELiC: Efficient LiDAR Geometry Compression via Cross-Bit-depth Feature Propagation and Bag-of-Encoders

Junsik Kim ⋅ Gun Bang ⋅ Soowoong Kim

ESAM++: Efficient Online 3D Perception on the Edge

Qin Liu ⋅ Lavisha Aggarwal ⋅ Saptarashmi Bandyopadhyay ⋅ Vikas Bahirwani ⋅ Marc Niethammer ⋅ Ehsan Adeli ⋅ Andrea Colaco

DualReg: Dual-Space Filtering and Reinforcement for Rigid Registration

Jiayi Li ⋅ Yuxin Yao ⋅ Qiuhang Lu ⋅ Juyong Zhang

Hg-I2P: Bridging Modalities for Generalizable Image-to-Point-Cloud Registration via Heterogeneous Graphs

Pei An ⋅ Junfeng Ding ⋅ Jiaqi Yang ⋅ Yulong Wang ⋅ Jie Ma ⋅ Liangliang Nan

Rethinking 2D-3D Registration: A Novel Network for High-Value Zone Selection and Representation Consistency Alignment

Zhixin Cheng ⋅ Bohao Liao ⋅ Jiacheng Deng ⋅ Xiaotian Yin ⋅ Xinjun Li ⋅ Yujia Chen ⋅ Baoqun Yin ⋅ Tianzhu Zhang

Adaptive 3D Perception for Small Aerial Targets Under Sparse Sampling via Reinforcement Learning

Shenghai Yuan ⋅ Yihan Wei ⋅ Jason Yee ⋅ Zhuoran Qiao ⋅ boyang lou ⋅ Enwen Hu

3D sans 3D Scans: Scalable Pre-training from Video-Generated Point Clouds

Ryousuke Yamada ⋅ Kohsuke Ide ⋅ Yoshihiro Fukuhara ⋅ Hirokatsu Kataoka ⋅ Gilles Puy ⋅ Andrei Bursuc ⋅ Yuki M Asano

StreamVLO: Streaming Visual–LiDAR Odometry with Cumulative Drift Compensation

Mengmeng Liu ⋅ Jiuming Liu ⋅ Michael Ying Yang ⋅ Chaokang Jiang ⋅ Jiangtao Li ⋅ Yunpeng Zhang ⋅ Hesheng Wang ⋅ Francesco Nex ⋅ Hao Cheng

Mamba Learns in Context: Structure-Aware Domain Generalization for Multi-Task Point Cloud Understanding

Jincen Jiang ⋅ Qianyu Zhou ⋅ Yuhang Li ⋅ Kui Su ⋅ Meili Wang ⋅ Jian Chang ⋅ Jian Jun Zhang ⋅ Xuequan Lu

Routing on Demand: DSNet for Efficient Progressive Point Cloud Denoising

Xiaoqian Cheng ⋅ Dong Xiao ⋅ Husen Li ⋅ Zheng Liu ⋅ Renjie Chen

Hyper-PCN: Hypergraph-Based Point Cloud Completion via High-Order Correlation Modeling

Linfei Li ⋅ Pei Tan ⋅ Siqi Li ⋅ Changqing Zou ⋅ Yue Gao

Towards Calibrating Prompt Tuning of Vision- Language Models

Ashshak Sharifdeen ⋅ Fahad Shamshad ⋅ Muhammad Akhtar Munir ⋅ Abhishek Basu ⋅ Mohamed Ismithdeen ⋅ Jeyapriyan Jeyamohan ⋅ Chathurika Silva ⋅ Karthik Nandakumar ⋅ Muhammad Haris Khan

DEVA: Fine-tuning Multimodal Large Language Models for Visual Perception Tasks

Debasmit Das ⋅ Munawar Hayat ⋅ Fatih Porikli

LOREAL: Mitigating Low-Resolution Challenges in Vision-Language Models with Attribute-driven Prompt Self-Distillation

Xucong Wang ⋅ Pengkun Wang ⋅ Zhe Zhao ⋅ Liheng Yu ⋅ Rui Mao ⋅ Yang Wang

OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning

Yanqing Liu ⋅ Xianhang li ⋅ Letian Zhang ⋅ Zirui Wang ⋅ Zeyu Zheng ⋅ Yuyin Zhou ⋅ Cihang Xie

Language-guided Frequency Modulation for Large Vision-Language Models

Shuyi Ouyang ⋅ Gongfan Fang ⋅ Xinyin Ma ⋅ Yen-Wei Chen ⋅ Lanfen Lin ⋅ Xinchao Wang

TANGO: Text-Anchored Guided Optimization for Robust Fine-tuning Vision-Language Models under Label Noise

Tengfei Ma ⋅ Weiran Pan ⋅ Wei Wei

Cluster-Wise Spatio-Temporal Masking for Efficient Video-Language Pretraining

Weijun Zhuang ⋅ Yuqing Huang ⋅ Weikang Meng ⋅ Xin Li ⋅ Ming Liu ⋅ Xiaopeng Hong ⋅ Yaowei Wang ⋅ Wangmeng Zuo

Reconstructing CLIP for Open-Vocabulary Dense Perception

Yajie Liu ⋅ Jinjin Zhang ⋅ Qingjie Liu ⋅ Di Huang

DPL: Decoupled Prototype Learning for Enhancing Robustness of Vision–Language Transformers to Missing Modalities

Jueqing Lu ⋅ Yuanyuan Qi ⋅ Xiaohao Yang ⋅ Shuaicheng Niu ⋅ Fucai Ke ⋅ Shujie Zhou ⋅ Wei Tan ⋅ Jionghao Lin ⋅ Wray Buntine ⋅ Hamid Rezatofighi ⋅ Lan Du

BrepVGAE: Variational Graph Autoencoder with Unified Latent Representation for B-rep

Hao Guo ⋅ Liyuan Deng ⋅ Yongkang Dai ⋅ Ruohan Wang ⋅ Jiahao Li ⋅ Yunpeng Bai ⋅ Yilei Shi

NeuROK: Generative 4D Neural Object Kinematics

Chen Geng ⋅ Guangzhao He ⋅ Yue Gao ⋅ Yunzhi Zhang ⋅ Shangzhe Wu ⋅ Jiajun Wu

BrickNet: Graph-Backed Generative Brick Assembly

Peter Kulits ⋅ Cordelia Schmid

Unified Vector Floorplan Generation via Markup Representation

Kaede Shiohara ⋅ Toshihiko Yamasaki

CME-CAD: Heterogeneous Collaborative Multi-Expert Reinforcement Learning for CAD Code Generation

Ke Niu ⋅ Haiyang Yu ⋅ Zhuofan Chen ⋅ Zhengtao Yao ⋅ Weitao Jia ⋅ Xiaodong Ge ⋅ Jingqun Tang ⋅ Benlei Cui ⋅ Bin Li ⋅ Xiangyang Xue

Robo-SGG: Exploiting Layout-Oriented Normalization and Restitution Can Improve Robust Scene Graph Generation

Changsheng Lv ⋅ Zijian Fu ⋅ Mengshi Qi

OmniLottie: Generating Vector Animations via Parameterized Lottie Tokens

Yiying Yang ⋅ Wei Cheng ⋅ Sijin Chen ⋅ Honghao Fu ⋅ Xianfang Zeng ⋅ Yujun Cai ⋅ Gang Yu ⋅ Xingjun Ma

EpiAgent: An Agent-Centric System for Ancient Inscription Restoration

Shipeng Zhu ⋅ Ang Chen ⋅ Na Nie ⋅ Pengfei Fang ⋅ Min-Ling Zhang ⋅ Hui Xue

The Invisible Gorilla Effect in Out-of-distribution Detection

Harry Anthony ⋅ Ziyun Liang ⋅ Hermione Warr ⋅ Konstantinos Kamnitsas

Interpretable Debiasing of Vision-Language Models for Social Fairness

Na Min An ⋅ Yoonna Jang ⋅ Yusuke Hirota ⋅ Ryo Hachiuma ⋅ Isabelle Augenstein ⋅ Hyunjung Shim

Image-based Outlier Synthesis With Training Data

Sudarshan Regmi

SALMUBench: A Benchmark for Sensitive Association-Level Multimodal Unlearning

Cai Selvas-Sala ⋅ Lei Kang ⋅ Lluis Gomez

Scaling Test-Time Robustness of Vision-Language Models via Self-Critical Inference Framework

Kaihua Tang ⋅ JIAXIN QI ⋅ Jinli Ou ⋅ Yuhua Zheng ⋅ Jianqiang Huang

When Understanding Becomes a Risk: Authenticity and Safety Risks in the Emerging Image Generation Paradigm

Ye Leng ⋅ Junjie Chu ⋅ Mingjie Li ⋅ Chenhao Lin ⋅ Chao Shen ⋅ Michael Backes ⋅ Yun Shen ⋅ Yang Zhang

IrisFP: Adversarial-Example-based Model Fingerprinting with Enhanced Uniqueness and Robustness

Ziye Geng ⋅ Guang Yang ⋅ Yihang Chen ⋅ Changqing Luo

Mark4D: Temporally-Consistent Watermarking for 4D Gaussian Splatting

Jaejin Lee ⋅ Minjae Jeong ⋅ Joonhyuk Park ⋅ Yechan Hwang ⋅ Seunghun Baek ⋅ Won Hwa Kim

Machine Unlearning via Adaptive Gradient Reweighting and Multi-stage Objective Optimization

Juxin Lu ⋅ Haoyu Shi ⋅ Mengyao Wang ⋅ Huaiwen Zhang

Taming Noise-Induced Prototype Degradation for Privacy-Preserving Personalized Federated Fine-Tuning

Yuhua Wang ⋅ Qinnan Zhang ⋅ Xiaodong Li ⋅ Huan Zhang ⋅ Yifan Sun ⋅ Wangjie Qiu ⋅ Hainan Zhang ⋅ Yongxin Tong ⋅ Zhiming Zheng

FedMOP: Achieving Enhanced Privacy and Performance in Federated Learning via Momentum Orthogonal Projection

Yunlong Zhao ⋅ Xiaoheng Deng ⋅ Hongyan Xu ⋅ Zhuohua Qiu ⋅ Xiaowen Hu ⋅ Shan You ⋅ Yi Chen ⋅ Chang Xu ⋅ Xiu Su

HFedATM: Hierarchical Federated Domain Generalization via Optimal Transport and Regularized Mean Aggregation

Thinh Nguyen ⋅ Le Trung Phan ⋅ Binh Nguyen ⋅ Khoa D Doan ⋅ KOK SENG WONG

Single-Round Scalable Analytic Federated Learning

Alan T. L. Bacellar ⋅ Mustafa Munir ⋅ Felipe M.G. França ⋅ Priscila Machado Vieira Lima ⋅ Radu Marculescu ⋅ Lizy Kurian John

Controllable Federated Prompt Learning at Test Time

Rui Zhu ⋅ Liang Bai ⋅ Yanming Guo ⋅ Yirun Ruan ⋅ Tianyuan Yu ⋅ Zhihe Lu

FedRE: A Representation Entanglement Framework for Model-Heterogeneous Federated Learning

Yuan Yao ⋅ Lixu Wang ⋅ Jiaqi Wu ⋅ Jin Song ⋅ Simin Chen ⋅ Zehua Wang ⋅ Zijian Tian ⋅ Wei Chen ⋅ Huixia Li ⋅ Xiaoxiao Li

Conversational Image Segmentation: Grounding Abstract Concepts with Scalable Supervision

Aadarsh Sahoo ⋅ Georgia Gkioxari

Spatial Matters: Position-Guided 3D Referring Expression Segmentation

Yabing Wang ⋅ Zhuotao Tian ⋅ Le Wang ⋅ Zheng Qin ⋅ Sanping Zhou

Long-RVOS: A Comprehensive Benchmark for Long-term Referring Video Object Segmentation

Tianming Liang ⋅ Haichao Jiang ⋅ Yuting Yang ⋅ Chaolei Tan ⋅ Shuai Li ⋅ Wei-Shi Zheng ⋅ Jian-Fang Hu

Refer-Agent: A Collaborative Multi-Agent System with Reasoning and Reflection for Referring Video Object Segmentation

Haichao Jiang ⋅ Tianming Liang ⋅ Wei-Shi Zheng ⋅ Jian-Fang Hu

CaptionFormer: Unified Segmentation, Tracking, and Captioning for Spatio-Temporal Objects

Gabriel Fiastre ⋅ Antoine Yang ⋅ Cordelia Schmid

TransPrune: Token Transition Pruning for Efficient Large Vision-Language Model

Ao Li ⋅ Yuxiang Duan ⋅ Jinghui Zhang ⋅ Congbo Ma ⋅ Yutong Xie ⋅ Gustavo Carneiro ⋅ Mohammad Yaqub ⋅ Hu Wang

QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models

Jingxuan Zhang ⋅ Yun-Ta Hsieh ⋅ Zhongwei Wan ⋅ Haokun Lin ⋅ Xin Wang ⋅ Ziqi Wang ⋅ Yingtie Lei ⋅ Mi Zhang

Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

Yaoxin Yang ⋅ Peng Ye ⋅ Xudong Tan ⋅ Chongjun Tu ⋅ Maosen Zhao ⋅ Jia Hao ⋅ Tao Chen

Collaborative Multi-Mode Pruning for Vision-Language Models

Zimeng Wu ⋅ Yunhong Wang ⋅ Donghao Wang ⋅ Jiaxin Chen

ZOO-Prune: Training-Free Token Pruning via Zeroth-Order Gradient Estimation in Vision-Language Models

Youngeun Kim ⋅ Youjia Zhang ⋅ Huiling Liu ⋅ Aecheon Jung ⋅ Sunwoo Lee ⋅ Sungeun Hong

HAWK: Head Importance-Aware Visual Token Pruning in Multimodal Models

Qihui Zhu ⋅ Tao Zhang ⋅ yuchen wang ⋅ Shuangwu chen ⋅ Xiaobin Tan ⋅ Jian Yang ⋅ Yang Liu ⋅ Yinfei Pan

CORE: Compact Object-centric REpresentations as a New Paradigm for Token Merging in LVLMs

Jingyu Lei ⋅ Gaoang Wang ⋅ Der-Horng Lee

Imbalanced View Contribution Evaluation and Refinement for Deep Incomplete Multi-View Clustering

Taichun Zhou ⋅ Zhibin Dong ⋅ Hao Tan ⋅ Siwei Wang ⋅ Xinwang Liu ⋅ En Zhu ⋅ Di Hu ⋅ Tianrui Liu ⋅ chuankun Li ⋅ Kunlun He

Multi-Hierarchical Contrastive Spectral Fusion for Multi-View Clustering

Bing Cai ⋅ Xiaoli Wang ⋅ Gui-Fu Lu ⋅ Zechao Li

SECOS: Semantic Capture for Rigorous Classification in Open-World Semi-Supervised Learning

Hezhao Liu ⋅ jiacheng yang ⋅ Junlong Gao ⋅ Mengke Li ⋅ Yiqun Zhang ⋅ Shreyank Gowda Gowda ⋅ Yang Lu

Multi-Modal Representation Learning via Semi-Supervised Rate Reduction for Generalized Category Discovery

Wei He ⋅ Xianghan Meng ⋅ Zhiyuan Huang ⋅ Xianbiao Qi ⋅ Rong Xiao ⋅ CHUNGUANG LI

TimeBridge: Self-Supervised Video Representation Learning via Start-End Joint Embedding and In-Between Frame Prediction

Qin Wang ⋅ Abigail Morrison ⋅ Hanno Scharr ⋅ Kai Krajsek

Mitigating Instance Entanglement in Instance-Dependent Partial Label Learning

Rui Zhao ⋅ Bin Shi ⋅ Kai Sun ⋅ Bo Dong

Residual Connections Harm Generative Representation Learning

Xiao Zhang ⋅ Ruoxi Jiang ⋅ William Gao ⋅ Rebecca Willet ⋅ Michael Maire

Neural Mixture Density Processes

yi ding ⋅ Qi Tao ⋅ Xingxing Liang ⋅ Longfei Zhang ⋅ Yiqin Lv ⋅ weitao song ⋅ Fangjie Yang ⋅ Qi Wang ⋅ Guangquan Cheng

Large-scale Robust Enhanced Ensemble Clustering via Outlier Decoupling

Jiaxuan Xu ⋅ Lei Duan ⋅ Xinye Wang ⋅ Liang Du

DriveLaW: Unifying Planning and Video Generation in a Latent Driving World

Tianze Xia ⋅ Yongkang Li ⋅ Lijun Zhou ⋅ Jingfeng Yao ⋅ Kaixin Xiong ⋅ Haiyang Sun ⋅ Bing Wang ⋅ Kun Ma ⋅ Guang Chen ⋅ Hangjun Ye ⋅ Wenyu Liu ⋅ Xinggang Wang

DLWM: Dual Latent World Models enable Holistic Gaussian-centric Pre-training in Autonomous Driving

Yiyao Zhu ⋅ Ying Xue ⋅ Haiming Zhang ⋅ Guangfeng Jiang ⋅ Wending Zhou ⋅ Xu Yan ⋅ Jiantao Gao ⋅ Yingjie CAI ⋅ Bingbing Liu ⋅ Zhen Li ⋅ Shaojie Shen

Latent Chain-of-Thought World Modeling for End-to-End Driving

Shuhan Tan ⋅ Kashyap Chitta ⋅ Yuxiao Chen ⋅ Thomas Tian ⋅ Yurong You ⋅ Yan Wang ⋅ Wenjie Luo ⋅ Yulong Cao ⋅ Philipp Krähenbühl ⋅ Marco Pavone ⋅ Boris Ivanovic

RLFTSim: Realistic and Controllable Multi-Agent Traffic Simulation via Reinforcement Learning Fine-Tuning

Ehsan Ahmadi ⋅ Hunter Schofield ⋅ Behzad Khamidehi ⋅ Fazel Arasteh ⋅ Jinjun Shan ⋅ Lili Mou ⋅ Dongfeng Bai ⋅ Kasra Rezaee

TrafficAlign: Aligning Large Language Models for Traffic Scenario Generation

Zhi Tu ⋅ Liangkun Niu ⋅ Tianyi Zhang

Failure Modes for Deep Learning–Based Online Mapping: How to Measure and Address Them

Michael Hubbertz ⋅ Qi Han ⋅ Tobias Meisen

Linking Modality Isolation in Heterogeneous Collaborative Perception

Changxing Liu ⋅ Zichen Chao ⋅ Siheng Chen

LEAD: Minimizing Learner-Expert Asymmetry in End-to-End Driving

Long Nguyen ⋅ Micha Fauth ⋅ Bernhard Jaeger ⋅ Daniel Dauner ⋅ Maximilian Igl ⋅ Andreas Geiger ⋅ Kashyap Chitta

DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance

Shreedhar Govil ⋅ Didier Stricker ⋅ Jason Rambach

Diffusion Forcing Planner: History-Annealed Planning with Time-Dependent Guidance for Autonomous Driving

Zehan Zhang ⋅ Yaoyi Li ⋅ Neng Zhang ⋅ Jia Cai

DIMOS: Disentangling Instance-level Moving Object Segmentation

Hongxiang HUANG ⋅ Hongwei Ren ⋅ Xiaopeng LIN ⋅ Yulong Huang ⋅ Zeke Xie ⋅ Bojun Cheng

EvObj: Learning Evolving Object-centric Representations for 3D Instance Segmentation without Scene Supervision

Jiahao Chen ⋅ Zihui Zhang ⋅ Yafei Yang ⋅ Jinxi Li ⋅ Shenxing Wei ⋅ Zhixuan Sun ⋅ Bo Yang

Live Interactive Training for Video Segmentation

Xinyu Yang ⋅ Haozheng Yu ⋅ Yihong Sun ⋅ Bharath Hariharan ⋅ Jennifer J. Sun

Robust Promptable Video Object Segmentation

Sohyun Lee ⋅ Yeho Gwon ⋅ Lukas Hoyer ⋅ Konrad Schindler ⋅ Christos Sakaridis ⋅ Suha Kwak

Scene-VLM: Multimodal Video Scene Segmentation via Vision-Language Models

Nimrod Berman ⋅ Adam Botach ⋅ Emanuel Ben-Baruch ⋅ Shunit Haviv Hakimi ⋅ Asaf Gendler ⋅ Ilan Naiman ⋅ Erez Yosef ⋅ Igor Kviatkovsky

Concept-Aware LoRA for Domain-Aligned Segmentation Dataset Generation

Minho Park ⋅ Sunghyun Park ⋅ Jungsoo Lee ⋅ Hyojin Park ⋅ Kyuwoong Hwang ⋅ Fatih Porikli ⋅ Jaegul Choo ⋅ Sungha Choi

BEV-CAR: Enhancing Monocular Bird’s Eye View Segmentation with Context-Aware Rasterization

Yixin Xiong ⋅ Ke Wang ⋅ Tongtong Cheng ⋅ Chunhui Liu ⋅ Kai Liu

Exploring the Underwater World Segmentation without Extra Training

Bingyu Li ⋅ Tao Huo ⋅ Da Zhang ⋅ Zhiyuan Zhao ⋅ Junyu Gao ⋅ Xuelong Li

Learning from Oblivion: Predicting Knowledge-Overflowed Weights via Retrodiction of Forgetting

Jinhyeok Jang ⋅ Jaehong Kim ⋅ Jung Uk Kim

Cross-Architecture Adaptation: Cloud-Edge Continual Test-Time Adaptation with Dynamic Sampling and Heterogeneous Distillation

Zirui Xu ⋅ Xianhang Chu ⋅ Jiahao Li ⋅ Xu Yang ⋅ Cheng Deng

Towards Dynamic Modality Alignment in Multimodal Continual Learning

Jiayao Tan ⋅ Fan Lyu ⋅ Tianle Liu ⋅ Fuyuan Hu ⋅ Wei Feng

ϕ-DPO: Fairness Direct Preference Optimization Approach to Continual Learning in Large Multimodal Models

Thanh-Dat Truong ⋅ Huu-Thien Tran ⋅ Jackson Cothren ⋅ Bhiksha Raj ⋅ Khoa Luu

Incremental Object Detection via Future-Aware Decoupled Cross-Head Distillation

Chenfeng Yin ⋅ De Cheng ⋅ Wenlong Luo ⋅ Mingyue Zeng ⋅ Shizhou Zhang ⋅ Nannan Wang ⋅ Xinbo Gao

Smart Replay: Adaptive Scheduling of Memory Rehearsal for Computational Resource-Aware Incremental Learning

Jianting CHEN ⋅ Dianzhi Yu ⋅ Irwin King

ReBaPL: Repulsive Bayesian Prompt Learning

Yassir Bendou ⋅ Omar Ezzahir ⋅ Remove middle name Fernandes ⋅ Gabriel Mahuas ⋅ Victoria Shevchenko ⋅ Mike Gartrell

Spectral Mixture-of-Experts for Continual Learning

Chen Yin ⋅ Xingbo Dong ⋅ Xuelin Shen ⋅ Zhe Jin

ActAvatar: Temporally-Aware Precise Action Control for Talking Avatars

Ziqiao Peng ⋅ Yi Chen ⋅ Yifeng Ma ⋅ Guozhen Zhang ⋅ Zhiyao Sun ⋅ Zixiang Zhou ⋅ Youliang Zhang ⋅ zhengguang zhou ⋅ Zhaoxin Fan ⋅ Hongyan Liu ⋅ Yuan Zhou ⋅ qinglin lu ⋅ Jun He

ViBES: A Conversational Agent with Behaviorally-Intelligent 3D Virtual Body

Juze Zhang ⋅ Changan Chen ⋅ Xin Chen ⋅ Heng Yu ⋅ Tiange Xiang ⋅ Ali Khan ⋅ Shrinidhi K. Lakshmikanth ⋅ Ehsan Adeli

DeX-Portrait: Disentangled and Expressive Portrait Animation via Explicit and Latent Motion Representations

Yuxiang Shi ⋅ Zhe Li ⋅ Yanwen Wang ⋅ Hao Zhu ⋅ Xun Cao ⋅ Ligang Liu

SketchFaceGS: Real-Time Sketch-Driven Face Editing and Generation with Gaussian Splatting

Bo Li ⋅ Jiahao Kang ⋅ Yubo Ma ⋅ Feng-Lin Liu ⋅ Bin Liu ⋅ Fang-Lue Zhang ⋅ Lin Gao

MIBURI: Towards Expressive Interactive Gesture Synthesis

M. Hamza Mughal ⋅ Rishabh Dabral ⋅ Vera Demberg ⋅ Christian Theobalt

Personalized Image Descriptions from Attention Sequences

Ruoyu Xue ⋅ Hieu Le ⋅ Jingyi Xu ⋅ Sounak Mondal ⋅ Abe Leite ⋅ Gregory Zelinsky ⋅ Minh Nguyen Nguyen ⋅ Dimitris Samaras

GA-VLN: Geometry-Aware BEV Representation for Efficient Vision-Language Navigation

Jiahao Yang ⋅ Zihan Wang ⋅ Xiangyang Li ⋅ Xing Zhu ⋅ Yujun Shen ⋅ Yinghao Xu ⋅ Shuqiang Jiang

IMAIA: Interactive Maps AI Assistant for Travel Planning and Geo-Spatial Intelligence

Jieren Deng ⋅ Zhizhang Hu ⋅ Ziyan He ⋅ Aleksandar Cvetkovic ⋅ Pak Kiu Chung ⋅ Dragomir Yankov ⋅ Chiqun Zhang

OctoNav: Towards Generalist Embodied Navigation

Chen Gao ⋅ Liankai Jin ⋅ Xingyu Peng ⋅ Jiazhao Zhang ⋅ Yue Deng ⋅ Annan Li ⋅ He Wang ⋅ Si Liu

WalkGPT: Grounded Vision–Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation

Rafi Ibn Sultan ⋅ Hui Zhu ⋅ Xiangyu Zhou ⋅ Chengyin Li ⋅ Prashant Khanduri ⋅ Marco Brocanelli ⋅ Dongxiao Zhu

SpaceDrive: Infusing Spatial Awareness into VLM-based Autonomous Driving

Peizheng Li ⋅ Zhenghao Zhang ⋅ David Holtz ⋅ Hang Yu ⋅ Yutong Yang ⋅ Yuzhi Lai ⋅ Rui Song ⋅ Andreas Geiger ⋅ Andreas Zell

SMAP: Semantic Route Planning with Map-Grounded Multimodal Alignment

Wenjie Zhang ⋅ Chen Yang ⋅ Xin Lu ⋅ Zhen Wang ⋅ Yue Liu ⋅ Bobo Xi ⋅ Pengbo Zhang

IDperturb: Enhancing Variation in Synthetic Face Generation via Angular Perturbations

Fadi Boutros ⋅ Eduarda Caldeira ⋅ Tahar Chettaoui ⋅ Naser Damer

Fresco: Frequency–Spatial Consistent Optimization for Fine-Grained Head Avatar Modeling

shikun zhang ⋅ Yong Li ⋅ Yiqun Wang ⋅ Qiuhong Ke ⋅ Cunjian Chen

Motion-Aware Animatable Gaussian Avatars Deblurring

Muyao Niu ⋅ Yifan Zhan ⋅ Qingtian Zhu ⋅ Zhuoxiao Li ⋅ Wei Wang ⋅ Zhihang Zhong ⋅ Xiao Sun ⋅ Yinqiang Zheng

ELITE: Efficient Gaussian Head Avatar from a Monocular Video via Learned Initialization and Test-time Generative Adaptation

Kim Youwang ⋅ Lee Hyoseok ⋅ Park Subin ⋅ Gerard Pons-Moll ⋅ Tae-Hyun Oh

Multi-view Consistent 3D Gaussian Head Avatars 'without' Multi-view Generation

Aviral Chharia ⋅ Fernando De la Torre

MAD: Modality-Adaptive Decoding for Mitigating Cross-Modal Hallucinations in Multimodal Large Language Models

Sang Yun Chung ⋅ Se Yeon Kim ⋅ Youngchae Chee ⋅ Yong Man Ro

Cross-Modal Attention Calibration for LVLM Hallucination Mitigation

Jiaming Li ⋅ Jiacheng Zhang ⋅ Zequn Jie ⋅ Lin Ma ⋅ Ming Li ⋅ Xiaonan Luo ⋅ Guanbin Li

3D-VCD: Hallucination Mitigation in 3D-LLM Embodied Agents through Visual Contrastive Decoding

Makanjuola Ogunleye ⋅ Eman Abdelrahman ⋅ Ismini Lourentzou

Exposing and Evaluating Hallucinations for GUI Grounding

Zicheng Zhang ⋅ Hongyi Jing ⋅ Rui Lv ⋅ Shuo Fang ⋅ Shiai Zhu ⋅ Junying Wang ⋅ Chunyi Li ⋅ Xiaohong Liu ⋅ Chenguang Ma ⋅ Guangtao Zhai

Understanding and Mitigating Hallucinations in Multimodal Chain-of-Thought Models

Ji Ma ⋅ Wei Suo ⋅ Peng Wang ⋅ Yanning Zhang

Beyond the Global Scores: Fine-Grained Token Grounding as a Robust Detector of LVLM Hallucinations

Tuan Dung Nguyen ⋅ Minh Khoi Ho ⋅ Qi Chen ⋅ Yutong Xie ⋅ Cam-Tu Nguyen ⋅ Minh Khoi Nguyen ⋅ Dang Huy Pham Nguyen ⋅ Anton van den Hengel ⋅ Johan Verjans ⋅ Le Nguyen ⋅ Vu Minh Hieu Phan

StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation

Ke Xing ⋅ longfei li ⋅ Yuyang Yin ⋅ Hanwen Liang ⋅ Guixun Luo ⋅ Chen Fang ⋅ Jue Wang ⋅ Konstantinos N. Plataniotis ⋅ Xiaojie Jin ⋅ Yao Zhao ⋅ Yunchao Wei

Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-Rollout

Hidir Yesiltepe ⋅ Tuna Han Salih Meral ⋅ Adil Kaan Akan ⋅ Kaan Oktay ⋅ Pinar Yanardag

AniMimic: Imitating 3D Animation from Video Priors

Tianyi Xie ⋅ Yunuo Chen ⋅ Yaowei Guo ⋅ Yin Yang ⋅ Bolei Zhou ⋅ Demetri Terzopoulos ⋅ Ying Jiang ⋅ Chenfanfu Jiang

VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control

Sixiao Zheng ⋅ Minghao Yin ⋅ Wenbo Hu ⋅ Xiaoyu Li ⋅ Ying Shan ⋅ Yanwei Fu

ScenDi: 3D-to-2D Scene Diffusion Cascades for Urban Generation

Hanlei Guo ⋅ Jiahao Shao ⋅ Xinya Chen ⋅ Xiyang Tan ⋅ Sheng Miao ⋅ Yujun Shen ⋅ Yiyi Liao

MotionCrafter: Dense Geometry and Motion Reconstruction with a 4D VAE

Ruijie Zhu ⋅ Jiahao Lu ⋅ Wenbo Hu ⋅ Xiaoguang Han ⋅ Jianfei Cai ⋅ Ying Shan ⋅ Chuanxia Zheng

GeodesicNVS: Probability Density Geodesic Flow Matching for Novel View Synthesis

Xuqin Wang ⋅ Tao Wu ⋅ Yanfeng Zhang ⋅ Lu Liu ⋅ mingwei Sun ⋅ Yongliang Wang ⋅ Niclas Zeller ⋅ Daniel Cremers

WorldStereo: Bridging Controllable Video Generation and Scene Reconstruction via 3D Geometric Memories

Yisu Zhang ⋅ Chenjie Cao ⋅ Tengfei Wang ⋅ Xuhui Zuo ⋅ Junta Wu ⋅ Jianke Zhu ⋅ Chunchao Guo

NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos

Yuxue Yang ⋅ Lue Fan ⋅ Ziqi Shi ⋅ Junran Peng ⋅ Feng Wang ⋅ Zhaoxiang Zhang

Taming Video Models for 3D and 4D Generation via Zero-Shot Camera Control

Chenxi Song ⋅ Yanming Yang ⋅ Tong Zhao ⋅ Ruibo Li ⋅ Chi Zhang

Improving Motion in Image-to-Video Models via Adaptive Low-Pass Guidance

William June Suk Choi ⋅ Kyungmin Lee ⋅ Sihyun Yu ⋅ Yisol Choi ⋅ Jinwoo Shin ⋅ Kimin Lee

SANER: Switchable Adapter with Non-parametric Enhanced Routing for Person De-Reidentification

Yimin Liu ⋅ Nan Pu ⋅ Fengxiang Yang ⋅ Wenjing Li ⋅ Zhihui Li ⋅ Zhun Zhong

BIT: Matching-based Bi-directional Interaction Transformation Network for Visible-Infrared Person Re-Identification

Haoxuan Xu ⋅ Guanglin Niu

Vision-Language Attribute Disentanglement and Reinforcement for Lifelong Person Re-Identification

Kunlun Xu ⋅ Haotong Cheng ⋅ Jiangmeng Li ⋅ Xu Zou ⋅ Jiahuan Zhou

Diversity over Uniformity: Rethinking Representation in Generated Image Detection

Qinghui He ⋅ Haifeng Zhang ⋅ Qiao Qin ⋅ Bo Liu ⋅ Xiuli Bi ⋅ Bin Xiao

Mining Instance-Centric Vision–Language Contexts for Human–Object Interaction Detection

Soo Won Seo ⋅ Kyungchae Lee ⋅ Hyungchan Cho ⋅ Taein Son ⋅ Nam Ik Cho ⋅ Jun Won Choi

FSLoRA: Harmonizing Detection and Re-Identification via Freq-Spatial Low-Rank Adapter for One-Stage Person Search

Yanling TIAN ⋅ Shanshan Zhang ⋅ Di Chen ⋅ Jian Yang

EEGiT: Teaching Vision Transformers to Understand the EEG signal

Jiahao Zhou ⋅ Chenghao Xu ⋅ Wei Wang ⋅ Erkun Yang ⋅ Cheng Deng

FedBPrompt: Federated Domain Generalization Person Re-Identification via Body Distribution Aware Visual Prompts

Xin Xu ⋅ Weilong Li ⋅ Wei Liu ⋅ Wenke Huang ⋅ Zhixi Yu ⋅ Bin Yang ⋅ Xiaoying Liao ⋅ Kui Jiang

Pose-guided Enriched Feature Learning for Federated-by-camera Person Re-identification

JooHyung Oh ⋅ Minyoung Oh ⋅ Sung Whan Yoon ⋅ Jae-Young Sim

UAV-CB: A Complex-Background RGB–T Dataset and Local Frequency Bridge Network for UAV Detection

Shenghui Huang ⋅ Menghao Hu ⋅ Longkun Zou ⋅ Hongyu Chi ⋅ Zekai Li ⋅ Feng Gao ⋅ Fan Yang ⋅ Qingyao Wu ⋅ Ke Chen

TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding

Boshen Xu ⋅ Zihan Xiao ⋅ Jiaze Li ⋅ Jianzhong Ju ⋅ Zhenbo Luo ⋅ Jian Luan ⋅ Qin Jin

StreamReady: Learning What to Answer and When in Long Streaming Videos

Shehreen Azad ⋅ Vibhav Vineet ⋅ Yogesh Rawat

LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding

Jihao Qiu ⋅ Lingxi Xie ⋅ Xinyue Huo ⋅ Qi Tian ⋅ Qixiang Ye

Agentic Video Summarization via Self-Reflecting Multimodal Understanding

Miaotian Guo ⋅ Shuguang Dou ⋅ Yin Li ⋅ Aidong Men ⋅ Dongsheng Jiang

Self-Critical Distillation Network for Video-based Commonsense Captioning

Mengqi Yuan ⋅ Gengyun Jia ⋅ Bing-Kun Bao

Ego-Grounding for Personalized Question-Answering in Egocentric Videos

Junbin Xiao ⋅ Shenglang Zhang ⋅ Pengxiang Zhu ⋅ Angela Yao

AdaSpark: Adaptive Sparsity for Efficient Long-Video Understanding

Handong Li ⋅ Zikang Liu ⋅ Longteng Guo ⋅ Tongtian Yue ⋅ Yepeng Tang ⋅ Xinxin Zhu ⋅ Chuanyang Zheng ⋅ Ziming Wang ⋅ Zhibin Wang ⋅ Jun Song ⋅ Cheng Yu ⋅ Bo Zheng ⋅ Jing Liu

EarlyTom: Early Token Compression Completes Fast Video Understanding

Hesong Wang ⋅ Xin Jin ⋅ Lu Lu ⋅ Chenhaowen Li ⋅ Jian Chen ⋅ Qiang Liu ⋅ Huan Wang

VideoWorld 2: Learning Transferable Knowledge from Real-world Videos

Zhongwei Ren ⋅ Yunchao Wei ⋅ Xiao Yu ⋅ Guixun Luo ⋅ Yao Zhao ⋅ Bingyi Kang ⋅ Jiashi Feng ⋅ Xiaojie Jin

VirtueBench: Evaluating Trustworthiness under Uncertainty in Long Video Understanding

Xueqing Yu ⋅ Bohan Li ⋅ Yan Li ⋅ Zhenheng Yang

DiverseDiT: Towards Diverse Representation Learning in Diffusion Transformers

Mengping Yang ⋅ Stewart Tan ⋅ Binglei Li ⋅ Xiaomeng Yang ⋅ Hesen Chen ⋅ Hao li

RenderFlow: Single-Step Neural Rendering via Flow Matching

Shenghao Zhang ⋅ Runtao Liu ⋅ Christopher Schroers ⋅ Yang Zhang

ResDiT: Evoking the Intrinsic Resolution Scalability in Diffusion Transformers

Yiyang Ma ⋅ Feng Zhou ⋅ Xuedan Yin ⋅ Pu Cao ⋅ Yonghao Dang ⋅ Jianqin Yin

Masked Region Transformer for Layered Image Generation and Editing at Scale

Zhicong Tang ⋅ Jingye Chen ⋅ Zhao Zhang ⋅ Mohan Zhou ⋅ Yuchi Liu ⋅ Yifan Pu ⋅ Yalong Bai ⋅ Ethan Smith ⋅ Yuhui Yuan

DDT: Decoupled Diffusion Transformer

Shuai Wang ⋅ Zhi Tian ⋅ Weilin Huang ⋅ Limin Wang

Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers

Wenhao Sun ⋅ Ji Li ⋅ Zhaoqiang Liu

Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality

Zekai Luo ⋅ Zongze Du ⋅ Zhouhang Zhu ⋅ Hao Zhong ⋅ Muzhi Zhu ⋅ Wen Wang ⋅ Yuling Xi ⋅ Chenchen Jing ⋅ Hao Chen ⋅ Chunhua Shen

ShapeAR: Generating Editable Shape Layers via Autoregressive Diffusion

Souymodip Chakraborty ⋅ Ankur Singh ⋅ Amit Vikram Singh ⋅ Vineet Batra ⋅ Ankit Phogat

ReHyAt: Recurrent Hybrid Attention for Video Diffusion Transformers

Mohsen Ghafoorian ⋅ Amir Habibian

RecTok: Reconstruction Distillation along Rectified Flow

Qingyu Shi ⋅ Size Wu ⋅ Jinbin Bai ⋅ Kaidong Yu ⋅ Yujing Wang ⋅ Yunhai Tong ⋅ Xiangtai Li ⋅ Xuelong Li

EgoXtreme: A Dataset for Robust Object Pose Estimation in Egocentric Views under Extreme Conditions

Taegyoon Yoon ⋅ Yegyu Han ⋅ Seojin Ji ⋅ Jaewoo Park ⋅ Sojeong Kim ⋅ Taein Kwon ⋅ Hyung-Sin Kim

CoIn3D: Revisiting Configuration-Invariant Multi-Camera 3D Object Detection

Zhaonian Kuang ⋅ Rui Ding ⋅ Haotian Wang ⋅ Xinhu Zheng ⋅ Meng Yang ⋅ Gang Hua

H^2A^2: Homogeneity-Aware and Heterogeneity-Aware Feature Perception for Unified Indoor 3D Object Detection

Tao Xie ⋅ Tao An ⋅ Feng Liu ⋅ Jin Wensheng ⋅ Zhengyu Li ⋅ lijun zhao ⋅ Ruifeng Li

Cov2Pose: Leveraging Spatial Covariance for Direct Manifold-aware 6-DoF Object Pose Estimation

Nassim Ali Ousalah ⋅ Peyman Rostami ⋅ Vincent Gaudillière ⋅ Emmanuel Koumandakis ⋅ Anis Kacem ⋅ Enjie Ghorbel ⋅ Djamila Aouada

Towards Intrinsic-Aware Monocular 3D Object Detection

Zhihao Zhang ⋅ Abhinav Kumar ⋅ Xiaoming Liu

SToRe3D: Sparse Token Relevance in ViTs for Efficient Multi-View 3D Object Detection

Sandro Papais ⋅ lezhou feng ⋅ Charles Cossette ⋅ Lingting Ge

SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

Yifan Wang ⋅ Yian Zhao ⋅ Fanqi Pu ⋅ Xiaochen Yang ⋅ YANG TANG ⋅ Xi Chen ⋅ Wenming Yang

DSCA: Dynamic Subspace Concept Alignment for Lifelong VLM Editing

Gyanendra Das ⋅ Sai Jena

FailureAtlas: Mapping the Failure Landscape of T2I Models via Active Exploration

Muxi Chen ⋅ Zhaohua Zhang ⋅ Chenchen Zhao ⋅ Mingyang Chen ⋅ Wenyu Jiang ⋅ Tianwen Jiang ⋅ Jianhuan Zhuo ⋅ Yu Tang ⋅ Qiuyong Xiao ⋅ Jihong Zhang ⋅ Qiang Xu

HDR-VLM: HDR-Domain Adaptation of VLMs and Preference-Aligned Quality Assessment for HDR Video Color Grading

Hao Yuan ⋅ Jiabin Zhang ⋅ Yajing Wu ⋅ Ruixuan Pang ⋅ Jing Li

RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations

I-Hsiang (Aaron) Chen ⋅ Yu-Wei Liu ⋅ Tse-Yu Wu ⋅ Yu-Chien Chiang ⋅ Jen-Chieh Yang ⋅ Wei-Ting Chen

BiomedCCPL: Causal Conditional Prompt Learning for Biomedical Vision-Language Models

Xueliang Cui ⋅ Juncai Zhang ⋅ Jiacheng Hou ⋅ Dan Lu ⋅ Hao Zhang ⋅ Ruxin Wang

DynamicGTR: Leveraging Graph Topology Representation Preferences to Boost VLM Capabilities on Graph QAs

Yanbin Wei ⋅ Jiangyue Yan ⋅ Chun Kang ⋅ Yang Chen ⋅ Hua Liu ⋅ James Kwok ⋅ Yu Zhang

VisualOverload: Probing Visual Understanding of VLMs in Really Dense Scenes

Paul Gavrikov ⋅ Wei Lin ⋅ M. Jehanzeb Mirza ⋅ Soumya Jahagirdar ⋅ Muhammad Huzaifa ⋅ Sivan Doveh ⋅ James Glass ⋅ Serena Yeung ⋅ Hilde Kuehne

Revisiting Visual Corruptions in LVLMs: A Shape–Texture Perspective on Model Failures

Xinkuan Qiu ⋅ Meina Kan ⋅ Zhenliang He ⋅ Yongbin Zhou ⋅ Shiguang Shan

From Intuition to Investigation: A Tool-Augmented Reasoning MLLM Framework for Generalizable Face Anti-Spoofing

Haoyuan Zhang ⋅ Keyao Wang ⋅ Guosheng Zhang ⋅ Haixiao Yue ⋅ Zhiwen Tan ⋅ Siran Peng ⋅ Tianshuo Zhang ⋅ Xiao Tan ⋅ Kunbin Chen ⋅ Wei He ⋅ Jingdong Wang ⋅ Ajian Liu ⋅ Xiangyu Zhu ⋅ Zhen Lei

Trust-calibrated Collaborative Learning for Long-Tailed Visual Recognition

Hao Zhou ⋅ Tingjin Luo

SunFaded: Illumination-Aware Gaussian Splatting for Dark Scenes with Camera-Mounted Active Lighting

Wenjie Chang ⋅ Tianle Ding ⋅ Wenfei Yang ⋅ Tianzhu Zhang

TokenSplat: Token-aligned 3D Gaussian Splatting for Feed-forward Pose-free Reconstruction

Yihui Li ⋅ Chengxin Lv ⋅ Zichen Tang ⋅ Hongyu Yang ⋅ Di Huang

GOR-IS: 3D Gaussian Object Removal In the Intrinsic Space

Yonghao Zhao ⋅ Yupeng Gao ⋅ Jian Yang ⋅ Jin Xie ⋅ Beibei Wang

AeroGS: Scale-Aware Gaussian Splatting for Pose-Free Dynamic UAV Scene Reconstruction

Tingyun Li ⋅ Xinyi Liu ⋅ Yongjun Zhang ⋅ Yi Wan ⋅ Xiaoan Liu ⋅ Weiwei Fan ⋅ Jiahao Liu

Intrinsic Geometry-Appearance Consistency Optimization for Sparse-View Gaussian Splatting

Kaiqiang Xiong ⋅ Rui Peng ⋅ Jiahao Wu ⋅ Zhanke Wang ⋅ Jie Liang ⋅ Xiaoyun Zheng ⋅ Feng Gao ⋅ Ronggang Wang

AERGS-SLAM: Auto-Exposure-Robust Stereo 3D Gaussian Splatting SLAM

Zhiyu Zhou ⋅ Feng Hui ⋅ Yu Liu

Learning Differentiable Hierarchies in 3D Gaussian Splatting

Youqi Pan ⋅ Wugen Zhou ⋅ Hongbin Zha

WeatherCity: Urban Scene Reconstruction with Controllable Multi-Weather Transformation

Wenhua Wu ⋅ Huai Guan ⋅ Zhe Liu ⋅ Hesheng Wang

Cross-View Splatter: Feed-Forward View Synthesis with Georeferenced Images

Matias Turkulainen ⋅ Akshay Krishnan ⋅ Filippo Aleotti ⋅ Mohamed Sayed ⋅ Guillermo Garcia-Hernando ⋅ Juho Kannala ⋅ Arno Solin ⋅ Gabriel Brostow ⋅ Daniyar Turmukhambetov

TagSplat: Topology-Aware Gaussian Splatting for Dynamic Mesh Modeling and Tracking

Hanzhi Guo ⋅ dongdong weng ⋅ Mo Su ⋅ Yixiao Chen ⋅ Xiaonuo Dongye ⋅ Chenyu Xu

Hierarchical Visual Relocalization with Nearest View Synthesis from Feature Gaussian Splatting

Huaqi Tao ⋅ Bingxi Liu ⋅ Guangcheng Chen ⋅ Fulin Tang ⋅ Li He ⋅ Hong Zhang

Tracking-Guided 4D Generation: Foundation-Tracker Motion Priors for 3D Model Animation

Su Sun ⋅ Cheng Zhao ⋅ Himangi Mittal ⋅ Gaurav Mittal ⋅ Rohith Kukkala ⋅ Yingjie Chen ⋅ Mei Chen

3D Gaussian Splatting from Unposed Spike Stream

Yijia Guo ⋅ Tong Hu ⋅ Liwen Hu ⋅ Lei Ma ⋅ Tiejun Huang

SparseOIT: Improving Order-Independent Transparency 3DGS via Active Set Method

Wentao Yang ⋅ FanZhen KONG ⋅ Zejian Kang ⋅ Xiangru Huang

ClipGStream: Clip-Stream Gaussian Splatting for Any Length and Any Motion Multi-View Dynamic Scene Reconstruction

Jie Liang ⋅ Jiahao Wu ⋅ Chao Wang ⋅ Jiayu Yang ⋅ Xiaoyun Zheng ⋅ Kaiqiang Xiong ⋅ Zhanke Wang ⋅ Jinbo Yan ⋅ Feng Gao ⋅ Ronggang Wang

Space-Time Forecasting of Dynamic Scenes with Motion-aware Gaussian Grouping

Junmyeong Lee ⋅ Hoseung Choi ⋅ Minsu Cho

MoRGS: Efficient Per-Gaussian Motion Reasoning for Streamable Dynamic 3D Scenes

Wonjoon Lee ⋅ Sungmin Woo ⋅ Donghyeong Kim ⋅ Jungho Lee ⋅ Sangheon Park ⋅ Sangyoun Lee

BEA-GS: BEyond RAdiance Supervision in 3DGS for Precise Object Extraction

Alessio Mazzucchelli ⋅ María Naranjo Almeida ⋅ Jorge Bustos Sanchez ⋅ Mariella Dimiccoli ⋅ Francesc Moreno-Noguer ⋅ Jordi Sanchez-Riera ⋅ Adrian Penate-Sanchez

EDGS: Eliminating Densification for Efficient Convergence of 3DGS

Dmytro Kotovenko ⋅ Olga Grebenkova ⋅ Björn Ommer

ReasonMap: Towards Fine-Grained Visual Reasoning from Transit Maps

Sicheng Feng ⋅ Song Wang ⋅ Shuyi Ouyang ⋅ Lingdong Kong ⋅ Zikai Song ⋅ Jianke Zhu ⋅ Huan Wang ⋅ Xinchao Wang

Conan: Progressive Learning to Reason Like a Detective over Multi-Scale Visual Evidence

Kun Ouyang ⋅ Yuanxin Liu ⋅ Linli Yao ⋅ Yishuo Cai ⋅ Hao Zhou ⋅ Fandong Meng ⋅ Jie Zhou ⋅ Xu Sun

DialogueVPR: Towards Conversational Visual Place Recognition

yukun Song ⋅ Changwei Wang ⋅ Xingtian Pei ⋅ Shibiao Xu ⋅ Wenhao Xu ⋅ Shunpeng Chen ⋅ Yu Zhang ⋅ Ke Zhang ⋅ Rongtao Xu ⋅ Xuxiang Feng ⋅ Pengyang Wang

Perceptual-Evidence Anchored Reinforced Learning for Multimodal Reasoning

Chi Zhang ⋅ Haibo Qiu ⋅ Qiming Zhang ⋅ Yufei Xu ⋅ Zhixiong Zeng ⋅ Siqi Yang ⋅ Peng Shi ⋅ Lin Ma ⋅ Jing Zhang

Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm

Jingqi Tong ⋅ Yurong Mou ⋅ Hangcheng Li ⋅ Mingzhe Li ⋅ Yongzhuo Yang ⋅ Ming Zhang ⋅ Qiguang Chen ⋅ Tianyi Liang ⋅ Xiaomeng Hu ⋅ Yining Zheng ⋅ Xinchi Chen ⋅ Jun Zhao ⋅ Xuanjing Huang ⋅ Xipeng Qiu

VinQA: Visual Elements Interleaved Long-form Answer Generation for Real-World Multimodal Document QA

Young Rok Jang ⋅ Hyesoo Kong ⋅ Kyunghwan An ⋅ Jae Sub Huh ⋅ Gyeonghun KIM ⋅ Stanley Jungkyu Choi

DocSeeker: Structured Visual Reasoning with Evidence Grounding for Long Document Understanding

Hao Yan ⋅ Yuliang Liu ⋅ Xingchen Liu ⋅ Yuyi Zhang ⋅ Minghui Liao ⋅ Jihao Wu ⋅ Wei Chen ⋅ Xiang Bai

Recurrent Reasoning with Vision-Language Models for Estimating Long-Horizon Embodied Task Progress

Yuelin Zhang ⋅ Sijie Cheng ⋅ Chen Li ⋅ Zongzhao Li ⋅ Yuxin Huang ⋅ Yang Liu ⋅ Wenbing Huang

VGent: Visual Grounding via Modular Design for Disentangling Reasoning and Prediction

Weitai Kang ⋅ Jason Kuen ⋅ Mengwei Ren ⋅ Zijun Wei ⋅ Yan Yan ⋅ Kangning Liu

Grounding Everything in Tokens for Multimodal Large Language Models

Xiangxuan Ren ⋅ Zhongdao Wang ⋅ Liping Hou ⋅ Pin Tang ⋅ Guoqing Wang ⋅ Chao Ma

Evolving Contextual Safety in Multi-Modal Large Language Models via Inference-Time Self-Reflective Memory

Ce Zhang ⋅ Jinxi He ⋅ Junyi He ⋅ Katia Sycara ⋅ Yaqi Xie

ChartR: Evaluating Reasoning Accuracy and Robustness in Chart Question Answering

Xiaojun Chen ⋅ Sixiao Luo ⋅ Ziqi Liu ⋅ Min Yang ⋅ Qin Zhang ⋅ Liang-Jie Zhang

Think Visually, Reason Textually: Vision-Language Synergy in Abstract Reasoning

Beichen Zhang ⋅ Yuhang Zang ⋅ Xiaoyi Dong ⋅ Yuhang Cao ⋅ Haodong Duan ⋅ Dahua Lin ⋅ Jiaqi Wang

VKG-QA: Visual Knowledge Graph-based Question Answer for Large Multimodal Models

Yuntao Du ⋅ Yiming Wang ⋅ Renshuo Yuan ⋅ Jincheng Yue ⋅ Yijing Chen ⋅ Yue Fan ⋅ Bo Zhang ⋅ Qian Li ⋅ Lizhen Cui

Med-CMR: A Fine-Grained Benchmark Integrating Visual Evidence and Clinical Logic for Medical Complex Multimodal Reasoning

Haozhen Gong ⋅ Xiaozhong Ji ⋅ Yuansen Liu ⋅ Wenbin Wu ⋅ Xiaoxiao Yan ⋅ jingjing liu ⋅ Kai WU ⋅ Jiazhen Pan ⋅ Bailiang Jian ⋅ Jiangning Zhang ⋅ Xiaobin Hu ⋅ Hongwei Li

Human-like Abstract Visual Reasoning via Understanding and Solving Reasoning Loop

Xinwang Chen ⋅ Xiuxing Li ⋅ Qing Li ⋅ Ziyue Zhuang ⋅ Yutong Wu ⋅ Ziyu Li ⋅ Zhuo Wang ⋅ Kai Li ⋅ Jianye Hao ⋅ Xia Wu

VITAL: Vision-Encoder-centered Pre-training for LMMs in Visual Quality Assessment

Ziheng Jia ⋅ Linhan Cao ⋅ Jinliang Han ⋅ Zicheng Zhang ⋅ Jiaying Qian ⋅ Wang Jiarui ⋅ Zijian Chen ⋅ Guangtao Zhai ⋅ Xiongkuo Min

Generative Video Compression with One-Dimensional Latent Representation

Zihan Zheng ⋅ Zhaoyang Jia ⋅ Naifu Xue ⋅ Jiahao Li ⋅ Bin Li ⋅ Zongyu Guo ⋅ Xiaoyi Zhang ⋅ Zhenghao Chen ⋅ Houqiang Li ⋅ Yan Lu

Markovian Scale Prediction: A New Era of Visual Autoregressive Generation

Yu Zhang ⋅ Jingyi Liu ⋅ Yiwei Shi ⋅ Qi Zhang ⋅ Duoqian Miao ⋅ Changwei Wang ⋅ Longbing Cao

Learned Image Compression via Sparse Attention and Adaptive Frequency

Huidong Ma ⋅ Xinyan Shi ⋅ Hui Sun ⋅ Xiaofei Yue ⋅ xiaoguang Liu ⋅ Gang Wang ⋅ Wentong Cai

UPLiFT: Efficient Pixel-Dense Feature Upsampling with Local Attenders

Matthew Walmer ⋅ Saksham Suri ⋅ Anirud Aggarwal ⋅ Abhinav Shrivastava

VecAttention: Vector-wise Sparse Attention for Accelerating Long Context Inference

Anmin Liu ⋅ Ruixuan Yang ⋅ Huiqiang Jiang ⋅ Bin Lin ⋅ Minmin Sun ⋅ Yong Li ⋅ CHEN ZHANG ⋅ Tao Xie

Ultra-Fast Neural Video Compression

Jiahao Li ⋅ Wenxuan Xie ⋅ Zhaoyang Jia ⋅ Bin Li ⋅ Zongyu Guo ⋅ Xiaoyi Zhang ⋅ Yan Lu

Parallax to Align Them All: An OmniParallax Attention Mechanism for Distributed Multi-View Image Compression

Haotian Zhang ⋅ Feiyue Long ⋅ Yixin Yu ⋅ Jian Xue ⋅ Haocheng Tang ⋅ Tongda Xu ⋅ Zhenning Shi ⋅ Yan Wang ⋅ Siwei Ma ⋅ Jiaqi Zhang

Scaling Parallel Sequence Models to Vision Foundation Models

Yitong Jiang ⋅ Collin McCarthy ⋅ Hongjun Wang ⋅ Hanrong Ye ⋅ Qi Dou ⋅ Tianfan Xue ⋅ Jinwei Gu ⋅ Jan Kautz ⋅ Danny Yin ⋅ Pavlo Molchanov ⋅ Sifei Liu

Revisiting Model Stitching In the Foundation Model Era

Zheda Mai ⋅ Ke Zhang ⋅ Fu-En Wang ⋅ Zixiao Ken Wang ⋅ Albert Chen ⋅ Lu Xia ⋅ Min Sun ⋅ Wei-Lun Chao ⋅ Cheng-Hao Kuo

GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics

Modi Jin ⋅ Yiming Zhang ⋅ Bo-Yuan Sun ⋅ Dingwen Zhang ⋅ Mingming Cheng ⋅ Qibin Hou

VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models

Shuhao Kang ⋅ Youqi Liao ⋅ Peijie Wang ⋅ Wenlong Liao ⋅ Qilin Zhang ⋅ Benjamin Busam ⋅ Xieyuanli Chen ⋅ Yun Liu

HOLO: Homography-Guided Pose Estimator Network for Fine-Grained Visual Localization on SD Maps

Xuchang Zhong ⋅ Xu Cao ⋅ Jinke Feng ⋅ Hao Fang

TriLite: Efficient Weakly Supervised Object Localization with Universal Visual Features and Tri-Region Disentanglement

Arian Sabaghi ⋅ Jose Oramas

GeoSURGE: Geo-localization using Semantic Fusion with Hierarchy of Geographic Embeddings

Angel Daruna ⋅ Nicholas Meegan ⋅ Han-Pang Chiu ⋅ Supun Samarasekera ⋅ Rakesh “Teddy” Kumar

Towards Visual Query Localization in the 3D World

liang peng ⋅ Bohan Tan ⋅ Zhipeng Zhang ⋅ Haobo Li ⋅ Yifan Jiao ⋅ Xingping Dong ⋅ Libo Zhang

OVOD-Agent: A Markov–Bandit Framework for Proactive Visual Reasoning and Self-Evolving Detection

Chujie Wang ⋅ Jianyu Lu ⋅ Zhiyuan Luo ⋅ Xi Chen ⋅ Chu He

Pixel2Phys: Distilling Governing Laws from Visual Dynamics

Ruikun Li ⋅ Jun Yao ⋅ Yingfan Hua ⋅ SHIXIANG TANG ⋅ Biqing Qi ⋅ Bin Liu ⋅ Wanli Ouyang ⋅ Yan Lu

Tutor-Student Reinforcement Learning: A Dynamic Curriculum for Robust Deepfake Detection

Zhanhe Lei ⋅ Zhongyuan Wang ⋅ Jikang Cheng ⋅ Baojin Huang ⋅ Yuhong Yang ⋅ Zhen Han ⋅ Chao Liang ⋅ Dengpan Ye

Seeing as Experts Do: A Knowledge-Augmented Agent for Open-Set Fine-Grained Visual Understanding

Junhan Chen ⋅ Zilu Zhou ⋅ Yujun Tong ⋅ Dongliang Chang ⋅ Yitao Luo ⋅ Zhanyu Ma

Dynamic Important Example Mining for Reinforcement Finetuning

Haoru Tan ⋅ WU Sitong ⋅ Yanfeng Chen ⋅ Shizhen Zhao ⋅ Yangtian Sun ⋅ Tianjia Liu ⋅ Chirui Chang ⋅ Shaofeng Zhang ⋅ Xingwu Sun ⋅ Xiuzhe Wu ⋅ Ruobing Xie ⋅ Xiaojuan Qi

Specificity-aware reinforcement learning for fine-grained open-world classification

Samuele Angheben ⋅ Davide Berasi ⋅ Alessandro Conti ⋅ Elisa Ricci ⋅ Yiming Wang

SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning

Jitesh Jain ⋅ Jialuo Li ⋅ Zixian Ma ⋅ Jieyu Zhang ⋅ Chris Dongjoo Kim ⋅ Sangho Lee ⋅ Rohun Tripathi ⋅ Tanmay Gupta ⋅ Christopher Clark ⋅ Humphrey Shi

Uncertainty-Aware Modality Fusion for Unaligned RGB-T Salient Object Detection

Mianzhao Wang ⋅ Fan Shi ⋅ Xu Cheng ⋅ Chen Jia ⋅ Shengyong Chen

Fusion in Your Way: Aligning Image Fusion with Heterogeneous Demands via Direct Preference Optimization

Weijian Su ⋅ Songqian Zhang ⋅ Yuqi Han ⋅ Jian Zhuang ⋅ Yongdong Huang ⋅ Qiang Zhang

More Than Meets the Eye: A Unified Image Fusion Framework via Semantic-Pixel Entropy Trade-off for Zero-Shot Generalization

Xiaowen Liu ⋅ Jing Li ⋅ Hongtao Huo ⋅ Haozhe Cao ⋅ Renhua Wang ⋅ Xu Dong

Beyond Sequential Tools: A Unified VLM Agent System for Photographic Post-Processing via Dynamic Multi-Expert Fusion

Honglin Xiong ⋅ Chenjie Zhu ⋅ Jianbiao Ding ⋅ Zixuan Ni ⋅ Wei Li ⋅ Zhenpeng Mi ⋅ Qian Wang

Multi-modal Frequency Decomposition Network for Semantic Scene Completion

Die Zuo ⋅ Lubo Wang ⋅ Ruonan Liu ⋅ Qing Guo ⋅ Chong Wang ⋅ Dongdong Wu ⋅ Wei Feng ⋅ Kairui Yang ⋅ Di Lin

BiEvLight: Bi-level Learning of Task-Aware Event Refinement for Low-Light Image Enhancement

Zishu Yao ⋅ Xiang-Xiang Su ⋅ Shengning Zhou ⋅ Guang-Yong Chen ⋅ Guodong Fan ⋅ Xing Chen

FusionRegister: Every Infrared and Visible Image Fusion Deserves Registration

Congcong Bian ⋅ HaoLong Ma ⋅ Hui Li ⋅ Zhongwei Shen ⋅ Xiaoqing Luo ⋅ Xiaoning Song ⋅ Xiao-Jun Wu

OmniFood8K: Single-Image Nutrition Estimation via Hierarchical Frequency-Aligned Fusion

Dongjian Yu ⋅ Weiqing Min ⋅ Qian Jiang ⋅ Xing Lin ⋅ Xin Jin ⋅ Shuqiang Jiang

Enhancing Unregistered Hyperspectral Image Super-Resolution via Unmixing-based Abundance Fusion Learning

Yingkai Zhang ⋅ Tao Zhang ⋅ Jing Nie ⋅ Ying Fu

LRHDR: Learning Representation-enhanced HDR Video Reconstruction

Chenzhuo Liao ⋅ Xin Chen ⋅ Bingchen Li ⋅ Yu Meng ⋅ Tao Yue ⋅ Xuemei Hu

Cross-Domain Few-Shot Segmentation via Multi-view Progressive Adaptation

Jiahao Nie ⋅ Guanqiao Fu ⋅ Wenbin An ⋅ Yap-Peng Tan ⋅ Alex C. Kot ⋅ Shijian Lu

Interpretable Cross-Domain Few-Shot Learning with Rectified Target-Domain Local Alignment

Yaze Zhao ⋅ Yixiong Zou ⋅ Yuhua Li ⋅ Ruixuan Li

PP-Brep: Few-Shot B-rep Classification with Hybrid Graph Representation

Jiacheng Hao ⋅ Chunying Liu ⋅ Hao Guo ⋅ Ruohan Wang ⋅ Hongping Gan ⋅ Yilei Shi

AgentDet: A Shared-Blackboard Multi-Agent Framework for Zero-/Few-Shot Object Detection

Haolin Li ⋅ Yaohua Wang ⋅ Ze Yan ⋅ Lijie Wen ⋅ Biqing Huang

SFR-Net: Steering-Fusion-Refining Network in Multi-label Zero-Shot Sewer Defect Detection

Zhao-Min Chen ⋅ Xinjian Huang ⋅ Yisu Ge ⋅ Yu Li

Noise-Aware Few-Shot Learning through Bi-directional Multi-View Prompt Alignment

Lu Niu ⋅ Cheng Xue

Learnability-Guided Diffusion for Dataset Distillation

Jeffrey A. Chan-Santiago ⋅ Mubarak Shah

Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals

Xiangyu Fan ⋅ Zesong Qiu ⋅ Zhuguanyu Wu ⋅ Fanzhou Wang ⋅ Zhiqian Lin ⋅ Tianxiang Ren ⋅ Dahua Lin ⋅ RUIHAO GONG ⋅ Lei Yang

Progressive Mask Distillation for Self-supervised Video Representation

Kewei Wu ⋅ Chong Liang ⋅ Zhao Xie ⋅ Dan Guo

HierAmp: Coarse-to-Fine Autoregressive Amplification for Generative Dataset Distillation

Lin Zhao ⋅ Xinru Jiang ⋅ Xi Xiao ⋅ Qihui Fan ⋅ Lei Lu ⋅ Yanzhi Wang ⋅ Xue Lin ⋅ OCTAVIA CAMPS ⋅ Pu Zhao ⋅ Jianyang Gu

SpiderCam: Low-Power Snapshot Depth from Differential Defocus

Marcos A. Ferreira ⋅ Tianao Li ⋅ John Mamish ⋅ Josiah Hester ⋅ Yaman Sangar ⋅ Qi Guo ⋅ Emma Alexander

Computational Speckle Pattern Interferometry

Shengxi Wu ⋅ Sophia Yang ⋅ Dorian Chan ⋅ Matthew O’Toole

DetectSCI: Toward Object-Guided ROI Reconstruction for High-Resolution Video Snapshot Compressive Imaging

Xingjian Jiang ⋅ Lishun Wang ⋅ Ping Wang ⋅ Xin Yuan

Solving a Nonlinear Blind Inverse Problem for Tagged MRI with Physics and Deep Generative Priors

Zhangxing Bian ⋅ Shuwen Wei ⋅ Samuel W. Remedios ⋅ Junyu Chen ⋅ Aaron Carass ⋅ Blake E. Dewey ⋅ Jerry L Prince

Nonlinear Color Transfer via Learnable Bezier Flows

Junhyoung Lee ⋅ Seongwoon Jo ⋅ JeongHun Park ⋅ Yeonji Ryou ⋅ Jeongha Yang ⋅ Jangho Kim

VT-Intrinsic: Physics-Based Decomposition of Reflectance and Shading using a Single Visible-Thermal Image Pair

Zeqing Yuan ⋅ Mani Ramanagopal ⋅ Aswin C. Sankaranarayanan ⋅ Srinivasa G. Narasimhan

GH-NAF: Grid-Adaptive Hash-Level–Attended Neural Attenuation Fields for Discrepancy-Aware CBCT

Seong Je Oh ⋅ Ju Hwan Lee ⋅ Chae Yeon Lim ⋅ Donghwan Lee ⋅ Myung Jin Ching ⋅ Kyungsu Kim

Computer Vision with a Superpixelation Camera

Sasidharan Mahalingam ⋅ Rachel Brown ⋅ Atul Ingle

Color-Encoded Illumination for High-Speed Volumetric Scene Reconstruction

David Novikov ⋅ Eilon Vaknin ⋅ Narek Tumanyan ⋅ Mark Sheinin

Multi-Scale Gradient-Guided Unrolling Architecture with Adaptive Mamba for Compressive Sensing

Le Yang ⋅ Hongping Gan

Deciphering Genotype-Phenotype Mechanisms from High-Content Profiling via Knowledge-Guided Multi-modal Graph Learning

Hanjing Lin ⋅ Jiahua Rao ⋅ Youhan Sun ⋅ Jiancong Xie ⋅ Yuedong Yang

Bulk RNA-seq Guided Multi-modal Detection of Anomalous Regions in Human Cancer via Spatial Transcriptomics

Hang Shi ⋅ Ruocheng Yang ⋅ Wenjie You ⋅ Zhilin Huang ⋅ Daoqiang Zhang ⋅ WEI SHAO

Intervention-Aware Multiscale Representation Learning from Imaging Phenomics and Perturbation Transcriptomics

Jiayuan Chen ⋅ Ruoqi Liu ⋅ Zishan Gu ⋅ Ping Zhang

ParaUni: Enhance Generation in Unified Multimodal Model with Reinforcement-driven Hierarchical Parallel Information Interaction

Jiangtong Tan ⋅ Lin Liu ⋅ Jie Huang ⋅ Xiaopeng Zhang ⋅ Qi Tian ⋅ Feng Zhao

PhysVid: Physics Aware Local Conditioning for Generative Video Models

Saurabh Pathak ⋅ Elahe Arani ⋅ Mykola Pechenizkiy ⋅ Bahram Zonooz

PromptLoop: Plug-and-Play Prompt Refinement via Latent Feedback for Diffusion Model Alignment

Suhyeon Lee ⋅ Jong Chul

EvoID: Reinforced Evolution for Identity-Preserving Video Generation

Yiheng Zhang ⋅ Zhaofan Qiu ⋅ Zunxu Liu ⋅ Yingwei Pan ⋅ Ting Yao ⋅ Tao Mei

Masked Auto-Regressive Variational Acceleration: Fast Inference Makes Practical Reinforcement Learning

Yuxuan Gu ⋅ Weimin Bai ⋅ Yifei Wang ⋅ Weijian Luo ⋅ He Sun

PhyCo: Learning Controllable Physical Priors for Generative Motion

Sriram Narayanan ⋅ Ziyu Jiang ⋅ Srinivasa G. Narasimhan ⋅ Manmohan Chandraker

Unified Multimodal Models as Auto-Encoders

Zhiyuan Yan ⋅ Kaiqing Lin ⋅ Hao Li ⋅ Junyan Ye ⋅ Hui Han ⋅ Haochen Wang ⋅ Zhendong Wang ⋅ Bin Lin ⋅ Li Hao ⋅ Xinyan Xiao ⋅ Jingdong Wang ⋅ Haifeng Wang ⋅ Li Yuan

Expand and Prune: Maximizing Trajectory Diversity for Effective GRPO in Generative Models

Shiran Ge ⋅ Chenyi Huang ⋅ Yuang Ai ⋅ Qihang Fan ⋅ Huaibo Huang ⋅ Ran He

ThinkingViT: Matryoshka Thinking Vision Transformer for Elastic Inference

Ali Hojjat ⋅ Janek Haberer ⋅ Sören Pirk ⋅ Olaf Landsiedel

Drainage: A Unifying Framework for Addressing Class Uncertainty

Yasser Taha ⋅ Grégoire Montavon ⋅ Nils Körber

Neural Differentiation in Deep Networks: A Theoretical Framework for Expressivity and Representational Diversity

Boyuan Wang ⋅ Richard Jiang

DuetMerging: Synergizing Dynamic and Static Strategies for Mitigating Task Interference in Model Merging

Yan Li ⋅ Guiping Cao ⋅ Yaguang Song ⋅ Ming Tao ⋅ Haoran Gong ⋅ Junhui Liu ⋅ Yaowei Wang ⋅ Dongmei Jiang

SASNet: Spatially-Adaptive Sinusoidal Networks for INRs

Haoan Feng ⋅ Diana Aldana ⋅ Tiago Novello ⋅ Leila De Floriani

Generative Modeling of Weights: Generalization or Memorization?

Boya Zeng ⋅ Yida Yin ⋅ Zhiqiu Xu ⋅ Zhuang Liu

Vision-Oriented Lightweight Neural Architecture Search with Budget-Adaptive Evaluation

Yi Fan ⋅ Yu-Bin Yang

Improving Sparse Autoencoder with Dynamic Attention

Dongsheng Wang ⋅ Jinsen Zhang ⋅ Dawei Su ⋅ Hui Huang

Stepwise Credit Assignment for GRPO on Flow-Matching Models

Yash Savani ⋅ Branislav Kveton ⋅ Yuchen Liu ⋅ Yilin Wang ⋅ Jing Shi ⋅ Subhojyoti Mukherjee ⋅ Nikos Vlassis ⋅ Krishna Kumar Singh

FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models

Yucheng Xie ⋅ Fu Feng ⋅ Ruixiao Shi ⋅ Jianlu Shen ⋅ Jing Wang ⋅ Yong Rui ⋅ Xin Geng

Hyperbolic Busemann Neural Networks

Ziheng Chen ⋅ Bernhard Schölkopf ⋅ Nicu Sebe

FlowDIS: Language-Guided Dichotomous Image Segmentation with Flow Matching

Andranik Sargsyan ⋅ Shant Navasardyan

Image-to-Point Cloud Feature Back-Projection for Multimodal Training of 3D Semantic Segmentation

Jiawei Han ⋅ Matteo Poggi ⋅ HUAN LI ⋅ Changshuo Wang ⋅ Kaiqi Liu ⋅ Wei Li

NG-GS: NeRF-guided 3D Gaussian Splatting Segmentation

Yi He ⋅ Tao Wang ⋅ Yi Jin ⋅ Congyan Lang ⋅ Yidong Li ⋅ Haibin Ling

Teaching DINOv3 About Partial 3D Geometry: A Self-Supervised Geometry-Aware Approach

Viktoria Ehm ⋅ Dongliang Cao ⋅ Riccardo Marin ⋅ Daniel Scholz ⋅ Weikang Wang ⋅ Florian Bernard ⋅ Daniel Cremers

SemLayer: Semantic-aware Generative Segmentation and Layer Construction for Abstract Icons

Haiyang Xu ⋅ Ronghuan Wu ⋅ Li-Yi Wei ⋅ Nanxuan Zhao ⋅ Chenxi Liu ⋅ Cuong Nguyen ⋅ Zhuowen Tu ⋅ Zhaowen Wang

MatchED: Crisp Edge Detection Using End-to-End, Matching-based Supervision

bedrettin cetinkaya ⋅ Sinan Kalkan ⋅ Emre Akbas

SegGBC: Justifiable Coarse-to-Fine Granular-Ball Computing for Enhancing Clustering Image Segmentation

Qianpeng Chong ⋅ Wenyi Zeng ⋅ Xiuxuan Shen ⋅ Jiajie Li ⋅ Qian Yin ⋅ Xin Zheng

Seeing Beyond: Extrapolative Domain Adaptive Panoramic Segmentation

Yuanfan Zheng ⋅ Kunyu Peng ⋅ Xu Zheng ⋅ Kailun Yang

MatchMask: Mask-Centric Generative Data Augmentation for Label-Scarce Semantic Segmentation

Yuqi Lin ⋅ Hao Zhang ⋅ Wenqi Shao ⋅ Shiqu Liu ⋅ Zhihong Gu ⋅ Wenxiao Wang ⋅ Xiaofei He ⋅ Kaipeng Zhang

Boundary-Responsive Differentiable Gating for Superpixel-Based Segmentation

Fatmaelzahraa Ali Ahmed ⋅ Zhihe Lu ⋅ Gianni Di ⋅ Diram Tabaa ⋅ Mohamed Hamdy ⋅ Muraam Abdel-Ghani ⋅ Abdulaziz Al-Ali ⋅ Muhammad Arsalan ⋅ Shidin Balakrishnan

Task-Oriented Data Synthesis and Control-Rectify Sampling for Remote Sensing Semantic Segmentation

Yunkai Yang ⋅ Yudong Zhang ⋅ Kunquan Zhang ⋅ Jinxiao Zhang ⋅ Xinying Chen ⋅ Haohuan Fu ⋅ Runmin Dong

FUSAR-GPT: A Spatiotemporal Feature-Embedded and Two-Stage Decoupled Visual Language Model for SAR Imagery

Xiaokun Zhang ⋅ Yi Yang ⋅ Ziqi Ye ⋅ Baiyun Baiyun ⋅ Xiaorong Guo ⋅ Qingchen Fang ⋅ Ry Zhang ⋅ Xinpeng Zhou ⋅ Haipeng Wang

UniChange: Unifying Change Detection with Multimodal Large Language Model

Xu Zhang ⋅ Danyang Li ⋅ Xiaohang Dong ⋅ Tianhao Wu ⋅ Hualong Yu ⋅ Jianye Wang ⋅ Qicheng Li ⋅ Xiang Li

Spatiotemporal Pyramid Flow Matching for Climate Emulation

Jeremy A. Irvin ⋅ Jiaqi Han ⋅ Zikui Wang ⋅ Abdulaziz Alharbi ⋅ Yufei Zhao ⋅ Nomin-Erdene Bayarsaikhan ⋅ Daniele Visioni ⋅ Andrew Y. Ng ⋅ Duncan Watson-Parris

See What We Cannot See: A Geo-guided Reasoning Benchmark for Object Counting under Adverse Earth Observation Conditions

Jiayi Wang ⋅ Zhihong Tan ⋅ Hongchen Wei ⋅ Daiqing Yang ⋅ Zhenzhong Chen

MM-OVSeg: Multimodal Optical–SAR Fusion for Open-Vocabulary Segmentation in Remote Sensing

YIMIN WEI ⋅ Aoran Xiao ⋅ Hongruixuan Chen ⋅ Junshi Xia ⋅ Naoto Yokoya

RECS4R: Bridging Semantics and Geometry for Referring Remote Sensing Interpretation

Jinming Chai ⋅ Lingling Li ⋅ Licheng Jiao ⋅ Xiaoqiang Lu ⋅ Long Sun ⋅ Xu Liu ⋅ Wenping Ma ⋅ Weibin Li

Fourier Angle Alignment for Oriented Object Detection in Remote Sensing

Changyu Gu ⋅ Linwei Chen ⋅ Lin Gu ⋅ Ying Fu

Learning to Infer Parameterized Representations of Plants from 3D Scans

Samara Ghrer ⋅ Christophe Godin ⋅ Stefanie Wuhrer

Good Can Sometimes be Bad: A Unified Attack against 3D Point Cloud Classifier by a Flexible Isotropic Resampling

linkun fan ⋅ Jiahao Zhang ⋅ JunTao Zhang ⋅ Lei Zhang ⋅ Fazhi He ⋅ Daojun Han

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

Sen Nie ⋅ Jie Zhang ⋅ Jianxin Yan ⋅ Shiguang Shan ⋅ Xilin Chen

FeatureFool: Zero-Query Fooling of Video Models via Feature Map

Duoxun Tang ⋅ Xi Xiao ⋅ Guangwu Hu ⋅ Kangkang Sun ⋅ Xiao Yang ⋅ Dongyang Chen ⋅ Qing Li ⋅ Yongjie Yin ⋅ Jiyao Wang

RankOOD - Class Ranking-based Out-of-Distribution Detection

Dishanika Denipitiyage ⋅ Naveen Karunanayake ⋅ Suranga Seneviratne ⋅ Sanjay Chawla

AdvFM: Lookahead Flow-Matching Velocity-Field Attacks for Imperceptible and Transferable Adversarial Examples

Runze Liu ⋅ Zeyue Wang ⋅ Fanghui Sun ⋅ Rui Liu ⋅ Yihan Yan ⋅ Shen Wang ⋅ Zhaoyang Zhang

The Power of Decaying Steps: Enhancing Attack Stability and Transferability for Sign-based Optimizers

Wei Tao ⋅ Yang Dai ⋅ Jincai Huang ⋅ Qing Tao

Your Classifier Can Do More: Towards Balancing the Gaps in Classification, Robustness, and Generation

kaichao jiang ⋅ He Wang ⋅ Xiaoshuai Hao ⋅ Xiulong Yang ⋅ Ajian Liu ⋅ Qi Chu ⋅ Yunfeng Diao ⋅ Richang Hong

Learning Mutual View Information Graph for Adaptive Adversarial Collaborative Perception

Yihang Tao ⋅ Senkang Hu ⋅ Haonan An ⋅ Zhengru Fang ⋅ Hangcheng Cao ⋅ Yuguang Fang

Hierarchical Attacks for Multi‑Modal Multi‑Agent Reasoning

Hao Zhou ⋅ Tiru Wu ⋅ yan jiang ⋅ Wanqi Zhou ⋅ Junxing Hu ⋅ Ai Han

Omni-Attack: Adversarial Attacks on Open-Ended VQA in Black-Box Multimodal LLMs

Kai Hu ⋅ Weichen Yu ⋅ Li Zhang ⋅ Alexander Robey ⋅ Andy Zou ⋅ Haoqi Hu ⋅ Chengming Xu ⋅ Matt Fredrikson

CoMo: Learning Continuous Latent Motion from Internet Videos for Scalable Robot Learning

Jiange Yang ⋅ tom tomlinson ⋅ Haoyi Zhu ⋅ Mingyu Liu ⋅ Kaijing Ma ⋅ Yating Wang ⋅ Gangshan Wu ⋅ Tong He ⋅ Limin Wang

Δynamics: Language-Based Representation for Inferring Rigid-Body Dynamics From Videos

Chia-Hsiang Kao ⋅ Cong Phuoc Huynh ⋅ Chien-Yi Wang ⋅ Noranart Vesdapunt ⋅ Stefan Stojanov ⋅ Bharath Hariharan ⋅ Oleksandr Obiednikov ⋅ Ning Zhou

PvP: Data-Efficient Humanoid Robot Learning with Proprioceptive-Privileged Contrastive Representations

Mingqi Yuan ⋅ Tao Yu ⋅ Haolin Song ⋅ Bo Li ⋅ Xin Jin ⋅ Hua Chen ⋅ Wenjun Zeng

Diagnose, Correct, and Learn from Manipulation Failures via Visual Symbols

Xianchao Zeng ⋅ Xinyu Zhou ⋅ Youcheng Li ⋅ Jiayou Shi ⋅ Tianle Li ⋅ Liangming Chen ⋅ Lei Ren ⋅ Yonglu Li

RealVLG-R1: A Large-Scale Real-World Visual-Language Grounding Benchmark for Robotic Perception and Manipulation

Linfei Li ⋅ Lin Zhang ⋅ Ying Shen

GeCo-SRT: Geometry-aware Continual Adaptation for Cross-Task Sim-to-Real Transfer

Wenbo Yu ⋅ Wenke Xia ⋅ Weitao Zhang ⋅ Di Hu

ActiveGrasp: Information-Guided Active Grasping with Calibrated Energy-based Model

Boshu Lei ⋅ Wen Jiang ⋅ Kostas Daniilidis

BiPreManip: Learning Affordance-Based Bimanual Pre-Manipulation through Anticipatory Collaboration

Yan Shen ⋅ Feng Jiang ⋅ Zichen He ⋅ Xiaoqi Li ⋅ Yuchen Liu ⋅ Zhiyu Li ⋅ Ruihai Wu ⋅ Hao Dong

Learning Surgical Robotic Manipulation with 3D Spatial Priors

Yu Sheng ⋅ Lidian Wang ⋅ Xiaomeng Chu ⋅ Jiajun Deng ⋅ Min Cheng ⋅ Yanyong Zhang ⋅ Bei Hua ⋅ Houqiang Li ⋅ Jianmin Ji

SimRecon: SimReady Compositional Scene Reconstruction from Real Videos

Chong Xia ⋅ Kai Zhu ⋅ Zizhuo Wang ⋅ Fangfu Liu ⋅ Zhizheng Zhang ⋅ Yueqi Duan

STRNet: Visual Navigation with Spatio-Temporal Representation through Dynamic Graph Aggregation

Hao Ren ⋅ Zetong Bi ⋅ Yiming Zeng ⋅ Zhaoliang Wan ⋅ Lu Qi ⋅ Hui Cheng

RaUF: Learning the Spatial Uncertainty Field of Radar

Shengpeng Wang ⋅ Kuangyu Wang ⋅ Wei Wang

SIR: Structured Image Representations for Explainable Robot Learning

Paul Mattes ⋅ Jan Schwab ⋅ Jens Bosch ⋅ Maximilian Li ⋅ Nils Blank ⋅ Minh-Trung Tang ⋅ Moritz Haberland ⋅ Rudolf Lioutikov

Instance-level Visual Active Tracking with Occlusion-Aware Planning

Haowei Sun ⋅ Kai Zhou ⋅ Hao Gao ⋅ Shiteng Zhang ⋅ Jinwu Hu ⋅ Xutao Wen ⋅ Qixiang Ye ⋅ Mingkui Tan

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

Yi Yang ⋅ Xueqi Li ⋅ Yiyang Chen ⋅ Jin Song ⋅ Yihan Wang ⋅ Zipeng Xiao ⋅ Jiadi Su ⋅ You Qiaoben ⋅ Pengfei Liu ⋅ Zhijie Deng

AnthroTAP: Learning Point Tracking with Real-World Motion

Inès Hyeonsu Kim ⋅ Seokju Cho ⋅ Jahyeok Koo ⋅ Junghyun Park ⋅ Gabriel Huang ⋅ Honglak Lee ⋅ Joon-Young Lee ⋅ Seungryong Kim

Tracking by Predicting 3-D Gaussians Over Time

Tanish Baranwal ⋅ Himanshu Singh Singh ⋅ Jathushan Rajasegaran ⋅ Jitendra Malik

Toward Low-Cost yet Effective Temporal Learning for UAV Tracking

chaocan xue ⋅ Qihua Liang ⋅ Bineng Zhong ⋅ Yanting Zu ⋅ Yuanliang Xue ⋅ Haiying Xia ⋅ Shuxiang Song

Rethinking Two-Stage Referring-by-Tracking in Referring Multi-Object Tracking: Make it Strong Again

Weize Li ⋅ Yunhao Du ⋅ Qixiang Yin ⋅ Zhicheng Zhao ⋅ Fei Su

Occlusion-Aware SORT: Observing Occlusion for Robust Multi-Object Tracking

Chunjiang Li ⋅ Jianbo Ma ⋅ Li Shen ⋅ Yanru Chen ⋅ Liangyin Chen

CoWTracker: Tracking by Warping instead of Correlation

Zihang Lai ⋅ Eldar Insafutdinov ⋅ Edgar Sucar ⋅ Andrea Vedaldi

Learning Long-term Motion Embeddings for Efficient Kinematics Generation

Nick Stracke ⋅ Kolja Bauer ⋅ Stefan Andreas Baumann ⋅ Miguel Ángel Bautista ⋅ Joshua Susskind ⋅ Björn Ommer

SpatialVID: A Large-Scale Video Dataset with Spatial Annotations

Jiahao Wang ⋅ Yufeng Yuan ⋅ Rujie Zheng ⋅ Youtian Lin ⋅ Jian Gao ⋅ Lin-Zhuo Chen ⋅ Yajie Bao ⋅ Chang Zeng ⋅ Yanxi Zhou ⋅ Xiaoxiao Long ⋅ Hao Zhu ⋅ Zhaoxiang Zhang ⋅ Xun Cao ⋅ Yao Yao

Beyond Explicit Language: Plug-and-Play Visual-to-Linguistic Modeling Toward General Object Tracking

Kaiyang Lan ⋅ Ying Cui ⋅ Chenchen Jing ⋅ Jianwei Zheng ⋅ Dongyan Guo

FairLLaVA: Fairness-Aware Parameter-Efficient Fine-Tuning for Large Vision-Language Assistants

Mahesh Bhosale ⋅ Abdul Wasi Lone ⋅ Shantam Srivastava ⋅ Shifa Latif ⋅ Tianyu Luan ⋅ Mingchen Gao ⋅ David Doermann ⋅ Xuan Gong

InvCoSS: Inversion-driven Continual Self-supervised Learning in Medical Multi-modal Image Pre-training

Zihao Luo ⋅ Shaohao Rui ⋅ Zhenyu Tang ⋅ Guotai Wang ⋅ Xiaosong Wang

PETAR: Localized Findings Generation with Mask-Aware Vision-Language Modeling for PET Automated Reporting

Danyal Maqbool ⋅ Changhee Lee ⋅ Zachary Huemann ⋅ Samuel D. Church ⋅ Matthew E. Larson ⋅ Scott B. Perlman ⋅ Tomas A. Romero ⋅ Joshua D. Warner ⋅ Meghan Lubner ⋅ Xin Tie ⋅ Jameson Merkow ⋅ Junjie Hu ⋅ Steve Y. Cho ⋅ Tyler J. Bradshaw

From Panel to Pixel: Zoom-In Vision–Language Pretraining from Biomedical Scientific Literature

Kun yuan ⋅ Min Woo ⋅ Zhen Chen ⋅ Alejandro Lozano ⋅ Xiangteng He ⋅ Shi Li ⋅ Nassir Navab ⋅ Xiaoxiao Sun ⋅ Nicolas Padoy ⋅ Serena Yeung

LEMON: A Large Endoscopic MONocular Dataset and Foundation Model for Perception in Surgical Settings

chengan che ⋅ Chao Wang ⋅ Tom Vercauteren ⋅ Sophia Tsoka ⋅ Luis Carlos Garcia Peraza Herrera

D2T2 - Multimodal Automated Planning for Brachytherapy

Lance C. Moore ⋅ Aranyo Mitra ⋅ Ryan Truong ⋅ Karoline Kallis ⋅ Kelly Kisling ⋅ Sandra M. Meyers ⋅ Nuno Vasconcelos

TopoCL: Topological Contrastive Learning for Medical Imaging

Guangyu Meng ⋅ Pengfei Gu ⋅ Peixian Liang ⋅ John P. Lalor ⋅ Erin Wolf Chambers ⋅ Danny Z. Chen

Diffusion with a Linguistic Compass: Steering the Generation of Clinically Plausible Future sMRI Representations for Early MCI Conversion Prediction

Zhihao Tang ⋅ Chaozhuo Li ⋅ Litian Zhang ⋅ Xi Zhang

Personalized Longitudinal Medical Report Generation via Temporally-Aware Federated Adaptation

He Zhu ⋅ Ren Togo ⋅ Takahiro Ogawa ⋅ Kenji Hirata ⋅ Minghui Tang ⋅ Takaaki Yoshimura ⋅ Hiroyuki Sugimori ⋅ Noriko Nishioka ⋅ Yukie Shimizu ⋅ Kohsuke Kudo ⋅ Miki Haseyama

Decoding 3D Perception via BrainSSD: Synergistic Fusion of EEG Representations from Static and Dynamic Visual Streams

Yincheng Yao ⋅ Enze Shi ⋅ Shu Zhang

Duala: Dual-Level Alignment of Subjects and Stimuli for Cross-Subject fMRI Decoding

Shumeng Li ⋅ Jintao Guo ⋅ Jian Zhang ⋅ Yulin Zhou ⋅ Luyang Cao ⋅ Yinghuan Shi

OmniBrainBench: A Comprehensive Multimodal Benchmark for Brain Imaging Analysis Across Multi-stage Clinical Tasks

Zhihao Peng ⋅ Cheng Wang ⋅ Shengyuan Liu ⋅ Zhiying Liang ⋅ Zanting Ye ⋅ Min Jie Ju ⋅ Peter YM Woo ⋅ Yixuan Yuan

Beyond Pixel Simulation: Pathology Image Generation via Diagnostic Semantic Tokens and Prototype Control

Minghao Han ⋅ Yichen Liu ⋅ Yizhou Liu ⋅ Zizhi Chen ⋅ Jingqun Tang ⋅ Xuecheng Wu ⋅ Dingkang Yang ⋅ Lihua Zhang

MedFG-VQA: Low-Frequency Memory and Graph Attention for Lightweight Medical VQA

haowen gu ⋅ Gensheng Pei ⋅ Zeren Sun ⋅ Mingwu Ren ⋅ Xiangbo Shu ⋅ Yazhou Yao ⋅ Fumin Shen

FISHuman: Fine-grained Single-image 3D Human Reconstruction via Multi-view 4D Remeshing

Hanxi Liu ⋅ Yifang Men ⋅ Zhouhui Lian

DuoMo: Dual Motion Diffusion for World-Space Human Reconstruction

Yufu Wang ⋅ Evonne Ng ⋅ Soyong Shin ⋅ Rawal Khirodkar ⋅ Yuan Dong ⋅ Zhaoen Su ⋅ Jinhyung Park ⋅ Kris Kitani ⋅ Alexander Richard ⋅ Fabian Prada ⋅ Michael Zollhoefer

RAM: Recover Any 3D Human Motion in-the-Wild

Sen Jia ⋅ Ning Zhu ⋅ Jinqin Zhong ⋅ Jiale Zhou ⋅ Huaping Zhang ⋅ Jenq-Neng Hwang ⋅ Lei Li

From 2D Alignment to 3D Plausibility: Unifying Heterogeneous 2D Priors and Penetration-Free Diffusion for Occlusion-Robust Two-Hand Reconstruction

Gaoge Han ⋅ Yongkang Cheng ⋅ Zhe Chen ⋅ Shaoli Huang ⋅ Tongliang Liu

MV-Fashion: Towards Enabling Virtual Try-On and Size Estimation with Multi-View Paired Data

Hunor Laczko ⋅ Libang Jia ⋅ Loc-Phat Truong ⋅ Diego Hernández ⋅ Sergio Escalera ⋅ Jordi Gonzàlez ⋅ Meysam Madadi

Forecasting 3D Scanpaths in Egocentric Video

Fiona Ryan ⋅ Ishwarya Ananthabhotla ⋅ Yijun Qian ⋅ Judy Hoffman ⋅ James M. ⋅ Vamsi Krishna Ithapu ⋅ Calvin Murdock

M4Human: A Large-Scale Multimodal mmWave Radar Benchmark for Human Mesh Reconstruction

Fan Junqiao ⋅ Yunjiao Zhou ⋅ Yizhuo Yang ⋅ Xinyuan Cui ⋅ Jiarui Zhang ⋅ Lihua Xie ⋅ Jianfei Yang ⋅ Chris Xiaoxuan Lu ⋅ Fangqiang Ding

ReGenHOI: Unifying Reconstruction and Generation for 3D Human–Object Interaction Understanding

miao xu ⋅ Xiangyu Zhu ⋅ Zidu Wang ⋅ XUSHENG LIANG ⋅ Bao Li ⋅ Jinlin Wu ⋅ Zelin Zang ⋅ Zhen Lei

Through the Frequency Lens: Cross-Domain Generalisable Gaze Estimation with Adaptive Modulation

Yang Xu ⋅ Yiwei Bao ⋅ Feng Lu

Mocap-2-to-3: Multi-view Lifting for Monocular Motion Recovery with 2D Pretraining

Zhumei Wang ⋅ Zechen Hu ⋅ Ruoxi Guo ⋅ Huaijin Pi ⋅ Ziyong Feng ⋅ Liang Zhang ⋅ Mingtao Pei ⋅ Siyuan Huang

SHands: A Multi-View Dataset and Benchmark for Surgical Hand-Gesture and Error Recognition Toward Medical Training

Le Ma ⋅ Thiago Freitas dos Santos ⋅ Nadia Magnenat-Thalmann ⋅ Katarzyna Wac

Beyond Static Frames: Temporal Aggregate-and-Restore Vision Transformer for Human Pose Estimation

Hongwei Fang ⋅ Jiahang Cai ⋅ Xun Wang ⋅ Wenwu Yang

IMU-HOI: A Symbiotic Framework for Coherent Human-Object Interaction and Motion Capture via Contact-Conscious Inertial Fusion

Lizhou Lin ⋅ Songpengcheng Xia ⋅ Zengyuan Lai ⋅ Lan Sun ⋅ Jiarui Yang ⋅ Ling Pei

Learning Forgery-Aware Lip Representations Without Forgery Priors

Bofan Chen ⋅ Hongyu Zhu ⋅ Yi He ⋅ Sichu Liang ⋅ Shilin Wang

Beyond [CLS] Token: Query-Driven Token-Level Forgery Purification for Generalizable Deepfake Detection

Wang Changshuo ⋅ Jiangming Wang ⋅ Ke-Yue Zhang ⋅ Taiping Yao ⋅ Shouhong Ding ⋅ Shunli Wang ⋅ Ran Yi ⋅ Lizhuang Ma

GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization through EM-Guided Decomposition and Temporal Refinement

Xiaodong Zhu ⋅ Yuanming Zheng ⋅ Suting Wang ⋅ Junqi Yang ⋅ Yuhong Yang ⋅ Weiping Tu ⋅ Zhongyuan Wang

TokenTrace: Multi-Concept Attribution through Watermarked Token Recovery

Li Zhang ⋅ Shruti Agarwal ⋅ John Collomosse ⋅ Pengtao Xie ⋅ Vishal Asnani

Unleashing Vision-Language Semantics for Deepfake Video Detection

Jiawen Zhu ⋅ Yunqi Miao ⋅ Xueyi Zhang ⋅ Jiankang Deng ⋅ Guansong Pang

A Difference-in-Difference Approach to Detecting AI-Generated Images

Xinyi Qi ⋅ Kai Ye ⋅ Chengchun Shi ⋅ Ying Yang ⋅ Jin Zhu ⋅ Hongyi Zhou

RDFace: A Benchmark Dataset for Rare Disease Facial Image Analysis under Extreme Data Scarcity and Phenotype-Aware Synthetic Generation

Ganlin Feng ⋅ Yuxi Long ⋅ Hafsa Moontari Ali ⋅ Erin Lou ⋅ Fahad Butt ⋅ Qian Liu ⋅ Yang Wang ⋅ Pingzhao Hu

ActivityForensics: A Comprehensive Benchmark for Localizing Manipulated Activity in Videos

Peijun Bao ⋅ Anwei Luo ⋅ Gang Pan ⋅ Alex C. Kot ⋅ Xudong Jiang

Zero-shot Detection of AI-Generated Image via RAW-RGB Alignment

Haiwei Wu ⋅ Fengpeng Li ⋅ Zhilin Tu ⋅ Yuanman Li ⋅ Xiong Li ⋅ Jiantao Zhou

Scaling Up AI-Generated Image Detection with Generator-Aware Prototypes

Ziheng Qin ⋅ Yuheng Ji ⋅ Renshuai Tao ⋅ Yuxuan Tian ⋅ Yuyang Liu ⋅ Yipu Wang ⋅ Xiaolong Zheng

Investigating Self-Supervised Representations for Audio-Visual Deepfake Detection

Dragos-Alexandru Boldisor ⋅ Stefan Smeu ⋅ Dan Oneata ⋅ Elisabeta Oneata

TIACam: Text-Anchored Invariant Feature Learning with Auto-Augmentation for Camera-Robust Zero-Watermarking

Abdullah All Tanvir ⋅ Agnibh Dasgupta ⋅ Xin Zhong

FastRef: Fast Prototype Refinement for Few-shot Industrial Anomaly Detection

Yufei Li ⋅ Long Tian ⋅ Yuyang Dai ⋅ Wenchao Chen ⋅ Liang Bao ⋅ Xiyang Liu

RC-NF: Robot-Conditioned Normalizing Flow for Real-Time Anomaly Detection in Robotic Manipulation

Shijie Zhou ⋅ Bin Zhu ⋅ Jiarui Yang ⋅ Xiangyu Zhao ⋅ Jingjing Chen ⋅ Yu-Gang Jiang

Reasoning-Driven Anomaly Detection and Localization with Image-Level Supervision

yizhou jin ⋅ Yuezhu Feng ⋅ Jinjin Zhang ⋅ Peng Wang ⋅ Qingjie Liu ⋅ Yunhong Wang

MMR-AD: A Large-Scale Multimodal Dataset for Benchmarking General Anomaly Detection with Multimodal Large Language Models

Xincheng Yao ⋅ Zefeng Qian ⋅ Chao Shi ⋅ Jiayang Song ⋅ Chongyang Zhang

Wavelet-Driven 3D Anomaly Detection under Pose-Agnostic and Sparse-View

Mingwen Shao ⋅ Qiao Zhang ⋅ Xinyuan Chen ⋅ Xiang Lv ⋅ Lingzhuang Meng ⋅ Chang Liu ⋅ Qinglin Zhan ⋅ Ling Jian

Hunting Normality from Query Sample via Residual Learning for Generalist Anomaly Detection

Xiaolei Wang ⋅ Yuexin Wang ⋅ Tianhong Dai ⋅ Huihui Bai ⋅ Yao Zhao ⋅ Jimin Xiao

GPFlow: Gaussian Prototype Probability Flow for Unsupervised Multi-Modal Anomaly Detection

YITING LI ⋅ Xulei Yang ⋅ Jingyi Liao ⋅ Jing Zhang ⋅ Fayao Liu

HP-Edit: A Human-Preference Post-Training Framework for Image Editing

Fan Li ⋅ Chonghuinan Wang ⋅ Lina Lei ⋅ Yuping Qiu ⋅ Jiaqi Xu ⋅ Jiaxiu Jiang ⋅ Xinran Qin ⋅ Zhikai Chen ⋅ Fenglong Song ⋅ Zhixin Wang ⋅ Renjing Pei ⋅ Wangmeng Zuo

It's Never Too Late: Noise Optimization for Collapse Recovery in Trained Diffusion Models

Anne Harrington ⋅ A. Koepke ⋅ Shyamgopal Karthik ⋅ Trevor Darrell ⋅ Alexei A. Efros

RebRL: Reinforcing Discrete Visual Diffusion Models with Rebalanced Timestep Credits

Mu Zhang ⋅ Tianren Ma ⋅ Yunfan Liu ⋅ Kun Hu ⋅ Qixiang Ye

Ego-InBetween: Generating Object State Transitions in Ego-Centric Videos

Mengmeng Ge ⋅ Takashi Isobe ⋅ Xu Jia ⋅ Yanan Sun ⋅ Zetong Yang ⋅ Weinong Wang ⋅ Dong Zhou ⋅ Dong Li ⋅ Huchuan Lu ⋅ Emad Barsoum

Towards Fine-Grained Attribution: Instance-Aware Preference Optimization for Aligning Diffusion Models

Jiayang Sun ⋅ Pin Wang ⋅ Hongbo Wang ⋅ Xinyue Liu ⋅ Huaibo Huang ⋅ Ran He

SketchRevive: Fine-Grained Pixel-to-Vector Sketch Completion with Diffusion-Prior-Guided Multimodal LLMs

Ran Zuo ⋅ Haoxiang Hu ⋅ Chenxi Pei ⋅ Yanxuan Liu ⋅ Wenwen Qiang ⋅ Fang Liu ⋅ Xiaoming Deng ⋅ Cuixia Ma ⋅ Yong-Jin Liu

UniPercept: A Unified Diffusion Model for Generalizable Visual Perception

Zuyan Zhao ⋅ Zhenliang He ⋅ Meina Kan ⋅ Shiguang Shan ⋅ Xilin Chen

Visual Diffusion Models are Geometric Solvers

Nir Goren ⋅ Shai Yehezkel ⋅ Omer Dahary ⋅ Andrey Voynov ⋅ Or Patashnik ⋅ Daniel Cohen-Or

You Only Erase Once: Erasing Anything without Bringing Unexpected Content

Yixing Zhu ⋅ Qing Zhang ⋅ Wenju Xu ⋅ Wei-Shi Zheng

Smoothing the Score Function to Enhance Generalization in Diffusion Models

Xinyu Zhou ⋅ Jiawei Zhang ⋅ Stephen J. Wright

NS-Diff: Fluid Navier–Stokes Guided Video Diffusion via Reinforcement Learning

Zijun Deng ⋅ Yuxin Peng

PropFly: Learning to Propagate via On-the-Fly Supervision from Pre-trained Video Diffusion Models

Wonyong Seo ⋅ Jaeho Moon ⋅ Jaehyup Lee ⋅ Soo Ye Kim ⋅ Munchurl Kim

Generative Neural Video Compression via Video Diffusion Prior

Qi Mao ⋅ Hao Cheng ⋅ Tinghan Yang ⋅ Libiao Jin ⋅ Siwei Ma

AdaCluster: Adaptive Query-Key Clustering for Sparse Attention in Video Generation

Haoyue Tan ⋅ Shengnan Wang ⋅ Yulin Qiao ⋅ juncheng zhang ⋅ Youhui Bai ⋅ Ping Gong ⋅ Zewen Jin ⋅ Cheng Li

Denoising, Fast and Slow: Difficulty-Aware Adaptive Sampling for Image Generation

Johannes Schusterbauer ⋅ Ming Gui ⋅ Yusong Li ⋅ Pingchuan Ma ⋅ Felix Krause ⋅ Björn Ommer

Image Diffusion Preview with Consistency Solver

Fu-Yun Wang ⋅ Hao Zhou ⋅ Liangzhe Yuan ⋅ Sanghyun Woo ⋅ Boqing Gong ⋅ Bohyung Han ⋅ Ming-Hsuan Yang ⋅ Han Zhang ⋅ Yukun Zhu ⋅ Ting Liu ⋅ Long Zhao

The Drift Kernel: Why Diffusion Models Change Even When Told Not To

Gokul Srinath Seetha Ram ⋅ Rashmi Elavazhagan

Interpretable Prompts made Edit-Friendly: Token-to-Token Similarity Reduction in dLLMs for Edit-Friendly Hard Prompt Inversion

Naresh Kumar Devulapally ⋅ Shruti Agarwal ⋅ Vishal Asnani ⋅ Vishnu Suresh Lokhande

LESA: Learnable Stage-Aware Predictors for Diffusion Model Acceleration

Peiliang Cai ⋅ Jiacheng Liu ⋅ Haowen Xu ⋅ Xinyu Wang ⋅ Chang Zou ⋅ Linfeng Zhang

Vision Foundation Models Can Be Good Tokenizers for Latent Diffusion Models

Tianci Bi ⋅ Xiaoyi Zhang ⋅ Yan Lu ⋅ Nanning Zheng

Adaptive Spectral Feature Forecasting for Diffusion Sampling Acceleration

Jiaqi Han ⋅ Juntong Shi ⋅ Puheng Li ⋅ Haotian Ye ⋅ Qiushan Guo ⋅ Stefano Ermon

Proxy-Tuning: Tailoring Multimodal Autoregressive Models for Subject-Driven Image Generation

Yi Wu ⋅ Shengju Qian ⋅ Lingting Zhu ⋅ Lei Liu ⋅ Wandi Qiao ⋅ Ziqiang Li ⋅ Lequan Yu ⋅ Bin Li

EasyOmnimatte: Taming Pretrained Inpainting Diffusion Models for End-to-End Video Layered Decompositio

Yihan Hu ⋅ Xuelin Chen ⋅ Xiaodong Cun

Hierarchical Codec Diffusion for Video-to-Speech Generation

Jiaxin Ye ⋅ Gaoxiang Cong ⋅ Chenhui Wang ⋅ Xin-Cheng Wen ⋅ Zhaoyang Li ⋅ Boyuan Cao ⋅ Hongming Shan

Semantic Alignment for Pose-Invariant Identity Preserving Diffusion

Jiwon Kim ⋅ SeonHwa Kim ⋅ Soobin Park ⋅ Eunju Cha ⋅ Kyong Hwan Jin

Causality in Video Diffusers is Separable from Denoising

Xingjian Bai ⋅ Guande He ⋅ Zhengqi Li ⋅ Eli Shechtman ⋅ Xun Huang ⋅ Zongze Wu

2ndMatch: Finetuning Pruned Diffusion Models via Second-Order Jacobian Matching

Caleb Zheng ⋅ Eli Shlizerman

Hear What You See: Video-to-Audio Generation with Diffusion Transformer and Semantic-Temporal Alignment-Ranked Direct Preference Optimization

Kai Wang ⋅ Tao Zhou ⋅ jiayi lei ⋅ Jing Wang ⋅ Jinman Zhao ⋅ Weiguo Pian ⋅ Yuan Cheng ⋅ Yapeng Tian ⋅ Peng Gao ⋅ Bin Fu ⋅ Yihao Liu ⋅ Dimitrios Hatzinakos ⋅ Yuewen Cao

MacTok: Robust Continuous Tokenization for Image Generation

Hengyu Zeng ⋅ Xin Gao ⋅ Guanghao Li ⋅ Yuxiang Yan ⋅ Jiaoyang Ruan ⋅ Ma Junpeng ⋅ Haoyu Albert Wang ⋅ Jian Pu

Group Editing: Edit Multiple Images in One Go

Yue Ma ⋅ Xinyu Wang ⋅ Qianli Ma ⋅ Qinghe Wang ⋅ Mingzhe Zheng ⋅ xiangpeng yang ⋅ Hao Li ⋅ Chongbo Zhao ⋅ Jixuan Ying ⋅ Harry Yang ⋅ Hongyu Liu ⋅ Qifeng Chen

Adaptive Video Distillation: Mitigating Oversaturation and Temporal Collapse in Few-Step Generation

Yuyang You ⋅ Yongzhi Li ⋅ Jiahui Li ⋅ Yadong Mu ⋅ Quan Chen ⋅ Peng Jiang

Beyond the Golden Data: Resolving the Motion-Vision Quality Dilemma via Timestep Selective Training

Xiangyang Luo ⋅ Qingyu Li ⋅ Yuming Li ⋅ Guanbo Huang ⋅ Yongjie Zhu ⋅ Wenyu Qin ⋅ Meng Wang ⋅ Pengfei Wan ⋅ Shao-Lun Huang

Toward Diffusible High-Dimensional Latent Spaces: A Frequency Perspective

Bolin Lai ⋅ XuDong Wang ⋅ Saketh Rambhatla ⋅ James M. ⋅ Zsolt Kira ⋅ Rohit Girdhar ⋅ Ishan Misra

Elucidating the SNR-t Bias of Diffusion Probabilistic Models

Meng Yu ⋅ Lei Sun ⋅ Jianhao Zeng ⋅ Xiangxiang Chu ⋅ Kun Zhan

What Is It Like to Be a Noise? An Entropy-based Gaussian Noise Regularization for Diffusion Models

Pascal Chang ⋅ Kai Lascheit ⋅ Jingwei Tang ⋅ Markus Gross ⋅ Vinicius Azevedo

FlashVSR: Towards Real-time Diffusion-Based Streaming Video Super Resolution

Junhao Zhuang ⋅ Shi Guo ⋅ Xin Cai ⋅ Xiaohui Li ⋅ Yihao Liu ⋅ Chun Yuan ⋅ Tianfan Xue

DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer

Yuxuan Zhang ⋅ Katarina Tothova ⋅ Zian Wang ⋅ Kangxue Yin ⋅ Haithem Turki ⋅ Riccardo de Lutio ⋅ Yen-Yu Chang ⋅ Or Litany ⋅ Sanja Fidler ⋅ Žan Gojčič

GDRO: Group-level Reward Post-training Suitable for Diffusion Models

Yiyang Wang ⋅ Xi Chen ⋅ Xiaogang Xu ⋅ Yu Liu ⋅ Hengshuang Zhao

RFDM: Residual Flow Diffusion Models for Video Editing

Mohammadreza Salehi ⋅ Mehdi Noroozi ⋅ Luca Morreale ⋅ Ruchika Chavhan ⋅ Malcolm Chadwick ⋅ Alberto Gil Couto Pimentel Ramos ⋅ Abhinav Mehrotra

FreqEdit: Preserving High-Frequency Features for Robust Multi-Turn Image Editing

Yucheng Liao ⋅ Jiajun Liang ⋅ Kaiqian Cui ⋅ Baoquan Zhao ⋅ Haoran Xie ⋅ Wei Liu ⋅ Qing Li ⋅ Xudong Mao

Graph-Guided Online Concept Erasure for Text-to-Image Diffusion Models

Ning Han ⋅ Zhenyu Ge ⋅ Feng Han ⋅ Yuhua Sun ⋅ Chengqing Li ⋅ Jingjing Chen

HierEdit: Region-Aware Hierarchical Diffusion for Efficient High-Resolution Editing

Yuyao Zhang ⋅ Alexander Huang-Menders ⋅ Yu-Wing Tai

CTCal: Rethinking Text-to-Image Diffusion Models via Cross-Timestep Self-Calibration

Xiefan Guo ⋅ Xinzhu Ma ⋅ Haiyu Zhang ⋅ Di Huang

Edit2Perceive: Image Editing Diffusion Models Are Strong Dense Perceivers

Yiqing Shi ⋅ Yiren Song ⋅ Mike Zheng Shou

DeltaQuant: 4-bit Video Diffusion Models with Spatiotemporal Delta Smoothing

Xingyang Li ⋅ Samuel Tesfai ⋅ Zhekai Zhang ⋅ Haocheng Xi ⋅ Shuo Yang ⋅ Lvmin Zhang ⋅ Yufei Sun ⋅ Kelly Peng ⋅ Maneesh Agrawala ⋅ Ion Stoica ⋅ Kurt Keutzer ⋅ Jun-Yan Zhu ⋅ Song Han ⋅ Yujun Lin ⋅ Muyang Li

D2Cache: Second-Order Delta Caching for Higher Video Diffusion Acceleration

Enhuai Liu ⋅ Yunke Wang ⋅ Changming Sun ⋅ Chang Xu

DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation

Zehong Ma ⋅ Longhui Wei ⋅ Shuai Wang ⋅ Shiliang Zhang ⋅ Qi Tian

Test-Time Alignment of Text-to-Image Diffusion Models via Null-Text Embedding Optimisation

Taehoon Kim ⋅ Henry Gouk ⋅ Timothy Hospedales

Accelerating Diffusion Model Training under Minimal Budgets: A Condensation-Based Perspective

Rui Huang ⋅ Shitong Shao ⋅ zikai zhou ⋅ Pukun Zhao ⋅ Hangyu Guo ⋅ Tian Ye ⋅ Lichen Bai ⋅ Shuo Yang ⋅ Zeke Xie

Denoising as Path Planning: Training-Free Acceleration of Diffusion Models with DPCache

Bowen Cui ⋅ Yuanbin Wang ⋅ Huajiang Xu ⋅ Biaolong Chen ⋅ Aixi Zhang ⋅ Hao Jiang ⋅ Zhengzheng Jin ⋅ Xu Liu ⋅ Pipei Huang

Taming Sampling Perturbations with Variance Expansion Loss for Latent Diffusion Models

Qifan Li ⋅ Xingyu Zhou ⋅ Jinhua Zhang ⋅ Weiyi You ⋅ Shuhang Gu

Guiding Diffusion Models with Semantically Degraded Conditions

shilong han ⋅ Yuming Zhang ⋅ Hongxia Wang

Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion

Yueming Pan ⋅ Ruoyu Feng ⋅ Qi Dai ⋅ Yuqi Wang ⋅ Wenfeng LIN ⋅ MINGYU GUO ⋅ Chong Luo ⋅ Nanning Zheng

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

Taesung Kwon ⋅ Lorenzo Bianchi ⋅ Lennart Wittke ⋅ Felix Watine ⋅ Fabio Carrara ⋅ Jong Chul ⋅ Romann Weber ⋅ Vinicius Azevedo

Coupled Diffusion Sampling for Training-Free Multi-View Image Editing

Hadi Alzayer ⋅ Yunzhi Zhang ⋅ Chen Geng ⋅ Jia-Bin Huang ⋅ Jiajun Wu

Improving Diffusion Generalization with Weak-to-Strong Segmented Guidance

Liangyu Yuan ⋅ Yufei Huang ⋅ Mingkun Lei ⋅ Tong Zhao ⋅ Ruoyu Wang ⋅ Chi Changxi ⋅ Yiwei Wang ⋅ Chi Zhang

Adaptive Auxiliary Prompt Blending for Target-Faithful Diffusion Generation

Kwanyoung Lee ⋅ SeungJu Cha ⋅ Yebin Ahn ⋅ Hyunwoo Oh ⋅ Sungho Koh ⋅ Dong-Jin Kim

SegQuant: A Semantics-Aware and Generalizable Quantization Framework for Diffusion Models

Jiaji Zhang ⋅ Ruichao Sun ⋅ Hailiang Zhao ⋅ Jiaju Wu ⋅ Peng Chen ⋅ Hao Li ⋅ Yuying Liu ⋅ Kingsum Chow ⋅ GANG XIONG ⋅ Shuiguang Deng

BAgger: Backwards Aggregation for Mitigating Drift in Autoregressive Video Diffusion Models

Ryan Po ⋅ Eric Ryan Chan ⋅ Changan Chen ⋅ Gordon Wetzstein

Accelerating Autoregressive Video Diffusion via History-Guided Cache and Residual Correction

Kepan Nan ⋅ Wangbo Zhao ⋅ Penghao Zhou ⋅ Jun Li ⋅ Zhenheng Yang ⋅ Jian Yang ⋅ Ying Tai

MusicInfuser: Making Video Diffusion Listen and Dance

Susung Hong ⋅ Ira Kemelmacher-Shlizerman ⋅ Brian Curless ⋅ Steve M. Seitz

Go to Event Page

Main Navigation

Findings Poster Session 3

Registration / Badge Pickup

Oral Session 5A: Dynamic Perception

Oral Session 5B: Generalization and Adaptation

Oral Session 5C: Geometry and Robotics

Oral Session 5D: Human-Centric Modeling & Lighting

Scaling Laws vs. Neural Laws: Toward More Natural Artificial Vision

Art Exhibition

Art Gallery Tour with Curator and Artists

Demos Session 5

Poster Session 5 & Exhibit Hall

Oral Session 6A: Geometric Learning

Oral Session 6B: Multimodal Reasoning

Oral Session 6C: Medical Vision

Oral Session 6D: Large-Scale Neural Modeling

Poster Session 6