CVPR 2024 Friday 06/21

Timezone: America/Los_Angeles

Full Schedule Mon 6/17 Tue 6/18 Wed 6/19 Thu 6/20 Fri 6/21

Registration Desk

Registration / Badge Pickup

8:00 AM - 2:00 PM

Invited Talk

Phase Transition in AI: Opportunities and Gaps Towards Making AI Real

Ece Kamar

9:00 AM - 10:00 AM

Recent advances in AI not only created promises for what AI can do, but also introduced questions about how to bring this promise to reality in real-world applications in a responsible way. In this talk, I will describe my journey at Microsoft Research from being amazed by the sparks of GPT-4 to understanding limitations of current family of models and driving research on what comes next. I will discuss research directions we are pursuing to make future AI systems more efficient, sustainable, controllable and valuable through innovations in model training, agent technologies and engineering practices. I will conclude with reflections on our unified responsibly in balancing the promise of AI with rising risks and concerns.

... more

Speaker Bio

Ece Kamar is the Managing Director of the AI Frontiers Lab, where she leads research and development towards pushing the frontiers of AI capabilities. She has a decade of experience studying the impact of AI on society and developing AI systems that are reliable, unbiased and trustworthy. Her work integrates techniques from artificial intelligence, human-computer interaction, responsible AI, and AI safety. She has been instrumental in building the Responsible AI efforts inside Microsoft. She serves as Technical Advisor for Microsoft’s Internal Committee on AI, Engineering and Ethics. Ece is an Affiliate Faculty in the Department of Computer Science and Engineering at the University of Washington is currently serving on the National Academies' Computer Science and Telecommunications Board (CSTB).

... more

Oral

Orals 5A Datasets and evaluation

9:00 AM - 10:30 AM

5 Events in this session

Deep Generative Model based Rate-Distortion for Image Downscaling Assessment

yuanbang liang · Bhavesh Garg · Paul L. Rosin · Yipeng Qin

360+x: A Panoptic Multi-modal Scene Understanding Dataset

Hao Chen · Yuqi Hou · Chenyuan Qu · Irene Testini · Xiaohan Hong · Jianbo Jiao

Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives

Kristen Grauman · Andrew Westbury · Lorenzo Torresani · Kris Kitani · Jitendra Malik · Triantafyllos Afouras · Kumar Ashutosh · Vijay Baiyya · Siddhant Bansal · Bikram Boote · Eugene Byrne · Zachary Chavis · Joya Chen · Feng Cheng · Fu-Jen Chu · Sean Crane · Avijit Dasgupta · Jing Dong · Maria Escobar · Cristhian David Forigua Diaz · Abrham Gebreselasie · Sanjay Haresh · Jing Huang · Md Mohaiminul Islam · Suyog Jain · Rawal Khirodkar · Devansh Kukreja · Kevin Liang · Jia-Wei Liu · Sagnik Majumder · Yongsen Mao · Miguel Martin · Effrosyni Mavroudi · Tushar Nagarajan · Francesco Ragusa · Santhosh Kumar Ramakrishnan · Luigi Seminara · Arjun Somayazulu · Yale Song · Shan Su · Zihui Xue · Edward Zhang · Jinxu Zhang · Angela Castillo · Changan Chen · Fu Xinzhu · Ryosuke Furuta · Cristina González · Gupta · Jiabo Hu · Yifei Huang · Yiming Huang · Weslie Khoo · Anush Kumar · Robert Kuo · Sach Lakhavani · Miao Liu · Mi Luo · Zhengyi Luo · Brighid Meredith · Austin Miller · Oluwatumininu Oguntola · Xiaqing Pan · Penny Peng · Shraman Pramanick · Merey Ramazanova · Fiona Ryan · Wei Shan · Kiran Somasundaram · Chenan Song · Audrey Southerland · Masatoshi Tateno · Huiyu Wang · Yuchen Wang · Takuma Yagi · Mingfei Yan · Xitong Yang · Zecheng Yu · Shengxin Zha · Chen Zhao · Ziwei Zhao · Zhifan Zhu · Jeff Zhuo · Pablo ARBELAEZ · Gedas Bertasius · Dima Damen · Jakob Engel · Giovanni Maria Farinella · Antonino Furnari · Bernard Ghanem · Judy Hoffman · C.V. Jawahar · Richard Newcombe · Hyun Soo Park · James Rehg · Yoichi Sato · Manolis Savva · Jianbo Shi · Mike Zheng Shou · Michael Wray

Rich Human Feedback for Text-to-Image Generation

Youwei Liang · Junfeng He · Gang Li · Peizhao Li · Arseniy Klimovskiy · Nicholas Carolan · Jiao Sun · Jordi Pont-Tuset · Sarah Young · Feng Yang · Junjie Ke · Krishnamurthy Dvijotham · Katherine Collins · Yiwen Luo · Yang Li · Kai Kohlhoff · Deepak Ramachandran · Vidhya Navalpakkam

BioCLIP: A Vision Foundation Model for the Tree of Life

Samuel Stevens · Jiaman Wu · Matthew Thompson · Elizabeth Campolongo · Chan Hee Song · David Carlyn · Li Dong · Wasila Dahdul · Charles Stewart · Tanya Berger-Wolf · Wei-Lun Chao · Yu Su

Go to Event Page

Oral

Orals 5B 3D from multiview and sensors

9:00 AM - 10:30 AM

Overflow in Signature Room on the 5th Floor in Summit

... more

5 Events in this session

Grounding and Enhancing Grid-based Models for Neural Fields

Zelin Zhao · FENGLEI FAN · Wenlong Liao · Junchi Yan

NeRF-HuGS: Improved Neural Radiance Fields in Non-static Scenes Using Heuristics-Guided Segmentation

Jiahao Chen · Yipeng Qin · Lingjie Liu · Jiangbo Lu · Guanbin Li

Mip-Splatting: Alias-free 3D Gaussian Splatting

Zehao Yu · Anpei Chen · Binbin Huang · Torsten Sattler · Andreas Geiger

pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

David Charatan · Sizhe Lester Li · Andrea Tagliasacchi · Vincent Sitzmann

Learning to Produce Semi-dense Correspondences for Visual Localization

Khang Truong Giang · Soohwan Song · Sungho Jo

Go to Event Page

Oral

Orals 5C Low-shot, self-supervised, semi-supervised learning

9:00 AM - 10:30 AM

5 Events in this session

CroSel: Cross Selection of Confident Pseudo Labels for Partial-Label Learning

Shiyu Tian · Hongxin Wei · Yiqun Wang · Lei Feng

MLP Can Be A Good Transformer Learner

Sihao Lin · Pumeng Lyu · Dongrui Liu · Tao Tang · Xiaodan Liang · Andy Song · Xiaojun Chang

From SAM to CAMs: Exploring Segment Anything Model for Weakly Supervised Semantic Segmentation

Hyeokjun Kweon · Kuk-Jin Yoon

LTGC: Long-tail Recognition via Leveraging LLMs-driven Generated Content

Qihao Zhao · Yalun Dai · Hao Li · Wei Hu · Fan Zhang · Jun Liu

Improving Semantic Correspondence with Viewpoint-Guided Spherical Maps

Octave Mariotti · Oisin Mac Aodha · Hakan Bilen

Go to Event Page

Demonstration

Demos

10:30 AM - 6:45 PM

Demonstration List

The Visual Remix: Swap Objects with Ease, Bhushan Garware
Better Call SAL: Towards Learning to Segment Anything in Lidar, Aljosa Osep, Tim Meinhardt, Francesco Ferroni, Neehar Peri, Deva Ramanan, Laura Leal-Taixé
ScribblePrompt: Fast and Flexible Interactive Segmentation for Any Biomedical Image, Hallee Wong, Marianne Rakic, John Guttag, Adrian Dalca
DART: Implicit Doppler Tomography for Radar Novel View Synthesis, Tianshu Huang, John Miller, Akarsh Prabhakara, Tao Jin, Tarana Laroia, Zico Kolter, Anthony Rowe
Visual Place Recognition using 3D City Models, Gabriele Berton, Lorenz Junglas, Tom Pollock, Carlo Masone, Barbara Caputo
A Computer Vision Testbed for New York City Street Intersections, Mehmet Kerem Turkcan, Mahshid Ghasemi Dehkordi, Sofia Kleisarchaki, Thomas Calmant, Levent Gürgen, Javad Ghaderi, Gil Zussman, Zoran Kostic
L-MAGIC: Language Model Assisted Generation of Images with Coherence, Zhipeng Cai; Tien Pei Chou
BEST DEMO AWARD Building UBC in Minecraft, Ashtan Mistal
BEST DEMO AWARD SuperPrimitive: Scene Reconstruction at a Primitive Level, Kirill Mazur, Gwangbin Bae, Andrew J. Davison
H-Unique: 3D Hand Reconstruction and Automated Mapping of Anatomical Detail for Forensic Identification, Bryan M. Williams, Hossein Rahmani, Sue Black, Xinyu Yang, Zheheng Jiang, Andrei Banica
Universal 3D Reconstruction: Interactive Demonstration of the Scalable 3D Lifting Foundation Model (3D-LFM), Mosam Dabhi, László A. Jeni, Simon Lucey
Neuro-Symbolic Olympics Diving Judge, Lauren Okamoto, Paritosh Parmar
Grounding Everything: Emerging Localization Properties in Vision-Language Transformers, Walid Bousselham
CoGS: Controllable Gaussian Splatting, Heng Yu, Joel Julin, Zoltan Á Milacski, Koichiro Niinuma, László A. Jeni
Cutting-edge Text-Image Comprehension and Composition in Vision-Language Large Model, Jiaqi Wang, Xiaoyi Dong, Pan Zhang, Yuhang Zang
Collaborative Score Distillation for Consistent Visual Editing of My Own Visual Assets, Subin Kim, Sooyeon Park
Semantic Class-Adaptive Diffusion Model (SCA-DM), Alex Ergasti, Claudio Ferrari,Tomaso Fontanini,Massimo Bertozzi,Andrea Prati
A Real-Time Speech-Driven Vocal Tract Avatar, Tejas Prabhune, Peter Wu, Cheol Jun Cho, Bohan Yu, Gopala Anumanchipalli

... more

Poster

Poster Session 5 & Exhibit Hall

10:30 AM - 12:00 PM

441 Events in this session

TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes

Xuying Zhang · Bo-Wen Yin · yuming chen · Zheng Lin · Yunheng Li · Qibin Hou · Ming-Ming Cheng

Event-based Structure-from-Orbit

Ethan Elms · Yasir Latif · Tae Ha Park · Tat-Jun Chin

Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training

Xiaoyang Wu · Zhuotao Tian · Xin Wen · Bohao Peng · Xihui Liu · Kaicheng Yu · Hengshuang Zhao

LidaRF: Delving into Lidar for Neural Radiance Field on Street Scenes

Shanlin Sun · Bingbing Zhuang · Ziyu Jiang · Buyu Liu · Xiaohui Xie · Manmohan Chandraker

Instantaneous Perception of Moving Objects in 3D

Di Liu · Bingbing Zhuang · Dimitris N. Metaxas · Manmohan Chandraker

Implicit Event-RGBD Neural SLAM

Delin Qu · Chi Yan · Dong Wang · Jie Yin · Qizhi Chen · Dan Xu · Yiting Zhang · Bin Zhao · Xuelong Li

GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting

Chi Yan · Delin Qu · Dong Wang · Dan Xu · Zhigang Wang · Bin Zhao · Xuelong Li

Learning Instance-Aware Correspondences for Robust Multi-Instance Point Cloud Registration in Cluttered Scenes

Zhiyuan Yu · Zheng Qin · lintao zheng · Kai Xu

MeshGPT: Generating Triangle Meshes with Decoder-Only Transformers

Yawar Siddiqui · Antonio Alliegro · Alexey Artemov · Tatiana Tommasi · Daniele Sirigatti · Vladislav Rosov · Angela Dai · Matthias Nießner

Multi-Session SLAM with Differentiable Wide-Baseline Pose Optimization

Lahav Lipson · Jia Deng

SHINOBI: Shape and Illumination using Neural Object Decomposition via BRDF Optimization In-the-wild

Andreas Engelhardt · Amit Raj · Mark Boss · Yunzhi Zhang · Abhishek Kar · Yuanzhen Li · Ricardo Martin-Brualla · Jonathan T. Barron · Deqing Sun · Hendrik Lensch · Varun Jampani

HybridNeRF: Efficient Neural Rendering via Adaptive Volumetric Surfaces

Haithem Turki · Vasu Agrawal · Samuel Rota Bulò · Lorenzo Porzi · Peter Kontschieder · Deva Ramanan · Michael Zollhoefer · Christian Richardt

PLGSLAM: Progressive Neural Scene Represenation with Local to Global Bundle Adjustment

Tianchen Deng · Guole Shen · Tong Qin · jianyu wang · Wentao Zhao · Jingchuan Wang · Danwei Wang · Weidong Chen

Gear-NeRF: Free-Viewpoint Rendering and Tracking with Motion-aware Spatio-Temporal Sampling

Xinhang Liu · Yu-Wing Tai · Chi-Keung Tang · Pedro Miraldo · Suhas Lohit · Moitreya Chatterjee

GPS-Gaussian: Generalizable Pixel-wise 3D Gaussian Splatting for Real-time Human Novel View Synthesis

Shunyuan Zheng · Boyao ZHOU · Ruizhi Shao · Boning Liu · Shengping Zhang · Liqiang Nie · Yebin Liu

HyperSDFusion: Bridging Hierarchical Structures in Language and Geometry for Enhanced 3D Text2Shape Generation

Zhiying Leng · Tolga Birdal · Xiaohui Liang · Federico Tombari

Selective-Stereo: Adaptive Frequency Information Selection for Stereo Matching

Xianqi Wang · Gangwei Xu · Hao Jia · Xin Yang

Animatable Gaussians: Learning Pose-dependent Gaussian Maps for High-fidelity Human Avatar Modeling

Zhe Li · Zerong Zheng · Lizhen Wang · Yebin Liu

Global Latent Neural Rendering

Thomas Tanay · Matteo Maggioni

HiFi4G: High-Fidelity Human Performance Rendering via Compact Gaussian Splatting

Yuheng Jiang · Zhehao Shen · Penghao Wang · Zhuo Su · Yu Hong · Yingliang Zhang · Jingyi Yu · Lan Xu

LoS: Local Structure-Guided Stereo Matching

Kunhong Li · Longguang Wang · Ye Zhang · Kaiwen Xue · Shunbo Zhou · Yulan Guo

EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards Embodied AI

Tai Wang · Xiaohan Mao · Chenming Zhu · Runsen Xu · Ruiyuan Lyu · Peisen Li · Xiao Chen · Wenwei Zhang · Kai Chen · Tianfan Xue · Xihui Liu · Cewu Lu · Dahua Lin · Jiangmiao Pang

Masked Spatial Propagation Network for Sparsity-Adaptive Depth Refinement

Jinyoung Jun · Jae-Han Lee · Chang-Su Kim

CausalPC: Improving the Robustness of Point Cloud Classification by Causal Effect Identification

Yuanmin Huang · Mi Zhang · Daizong Ding · Erling Jiang · Zhaoxiang Wang · Min Yang

RoMa: Robust Dense Feature Matching

Johan Edstedt · Qiyu Sun · Georg Bökman · Mårten Wadenbäck · Michael Felsberg

MVHumanNet: A Large-scale Dataset of Multi-view Daily Dressing Human Captures

Zhangyang Xiong · Chenghong Li · Kenkun Liu · Hongjie Liao · Jianqiao HU · Junyi Zhu · Shuliang Ning · Lingteng Qiu · Chongjie Wang · Shijie Wang · Shuguang Cui · Xiaoguang Han

GES : Generalized Exponential Splatting for Efficient Radiance Field Rendering

Abdullah J Hamdi · Luke Melas-Kyriazi · Jinjie Mai · Guocheng Qian · Ruoshi Liu · Carl Vondrick · Bernard Ghanem · Andrea Vedaldi

RegionPLC: Regional Point-Language Contrastive Learning for Open-World 3D Scene Understanding

Jihan Yang · Runyu Ding · Weipeng DENG · Zhe Wang · Xiaojuan Qi

NeLF-Pro: Neural Light Field Probes for Multi-Scale Novel View Synthesis

Zinuo You · Andreas Geiger · Anpei Chen

LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry

Weirong Chen · Le Chen · Rui Wang · Marc Pollefeys

FAR: Flexible Accurate and Robust 6DoF Relative Camera Pose Estimation

Chris Rockwell · Nilesh Kulkarni · Linyi Jin · Jeong Joon Park · Justin Johnson · David Fouhey

OmniGlue: Generalizable Feature Matching with Foundation Model Guidance

Hanwen Jiang · Arjun Karpur · Bingyi Cao · Qixing Huang · André Araujo

GART: Gaussian Articulated Template Models

Jiahui Lei · Yufu Wang · Georgios Pavlakos · Lingjie Liu · Kostas Daniilidis

CG-HOI: Contact-Guided 3D Human-Object Interaction Generation

Christian Diller · Angela Dai

FutureHuman3D: Forecasting Complex Long-Term 3D Human Behavior from Video Observations

Christian Diller · Thomas Funkhouser · Angela Dai

PI3D: Efficient Text-to-3D Generation with Pseudo-Image Diffusion

Ying-Tian Liu · Yuan-Chen Guo · Guan Luo · Heyi Sun · Wei Yin · Song-Hai Zhang

Building a Strong Pre-Training Baseline for Universal 3D Large-Scale Perception

Haoming Chen · Zhizhong Zhang · Yanyun Qu · Ruixin Zhang · Xin Tan · Yuan Xie

COTR: Compact Occupancy TRansformer for Vision-based 3D Occupancy Prediction

Qihang Ma · Xin Tan · Yanyun Qu · Lizhuang Ma · Zhizhong Zhang · Yuan Xie

SelfOcc: Self-Supervised Vision-Based 3D Occupancy Prediction

Yuanhui Huang · Wenzhao Zheng · Borui Zhang · Jie Zhou · Jiwen Lu

UnScene3D: Unsupervised 3D Instance Segmentation for Indoor Scenes

David Rozenberszki · Or Litany · Angela Dai

NEAT: Distilling 3D Wireframes from Neural Attraction Fields

Nan Xue · Bin Tan · Yuxi Xiao · Liang Dong · Gui-Song Xia · Tianfu Wu · Yujun Shen

NeRF-HuGS: Improved Neural Radiance Fields in Non-static Scenes Using Heuristics-Guided Segmentation

Jiahao Chen · Yipeng Qin · Lingjie Liu · Jiangbo Lu · Guanbin Li

3DInAction: Understanding Human Actions in 3D Point Clouds

Yizhak Ben-Shabat · Oren Shrout · Stephen Gould

Dynamic LiDAR Re-simulation using Compositional Neural Fields

Hanfeng Wu · Xingxing Zuo · Stefan Leutenegger · Or Litany · Konrad Schindler · Shengyu Huang

Inverse Rendering of Glossy Objects via the Neural Plenoptic Function and Radiance Fields

Haoyuan Wang · Wenbo Hu · Lei Zhu · Rynson W.H. Lau

PanoPose: Self-supervised Relative Pose Estimation for Panoramic Images

Diantao Tu · Hainan Cui · Xianwei Zheng · Shuhan Shen

GeoAuxNet: Towards Universal 3D Representation Learning for Multi-sensor Point Clouds

Shengjun Zhang · Xin Fei · Yueqi Duan

4K4D: Real-Time 4D View Synthesis at 4K Resolution

Zhen Xu · Sida Peng · Haotong Lin · Guangzhao He · Jiaming Sun · Yujun Shen · Hujun Bao · Xiaowei Zhou

MuRF: Multi-Baseline Radiance Fields

Haofei Xu · Anpei Chen · Yuedong Chen · Christos Sakaridis · Yulun Zhang · Marc Pollefeys · Andreas Geiger · Fisher Yu

LangSplat: 3D Language Gaussian Splatting

Minghan Qin · Wanhua Li · Jiawei ZHOU · Haoqian Wang · Hanspeter Pfister

Bayes' Rays: Uncertainty Quantification for Neural Radiance Fields

Leili Goli · Cody Reading · Silvia Sellán · Alec Jacobson · Andrea Tagliasacchi

Accelerating Neural Field Training via Soft Mining

Shakiba Kheradmand · Daniel Rebain · Gopal Sharma · Hossam Isack · Abhishek Kar · Andrea Tagliasacchi · Kwang Moo Yi

CORE-MPI: Consistency Object Removal with Embedding MultiPlane Image

Donggeun Yoon · Donghyeon Cho

NECA: Neural Customizable Human Avatar

Junjin Xiao · Qing Zhang · Zhan Xu · Wei-Shi Zheng

S-DyRF: Reference-Based Stylized Radiance Fields for Dynamic Scenes

Xingyi Li · Zhiguo Cao · Yizheng Wu · Kewei Wang · Ke Xian · Zhe Wang · Guosheng Lin

BEVNeXt: Reviving Dense BEV Frameworks for 3D Object Detection

Zhenxin Li · Shiyi Lan · Jose M. Alvarez · Zuxuan Wu

Bi-SSC: Geometric-Semantic Bidirectional Fusion for Camera-based 3D Semantic Scene Completion

Yujie Xue · Ruihui Li · F anWu · Zhuo Tang · Kenli Li · Duan Mingxing

Learning to Select Views for Efficient Multi-View Understanding

Yunzhong Hou · Stephen Gould · Liang Zheng

Outdoor Scene Extrapolation with Hierarchical Generative Cellular Automata

Dongsu Zhang · Francis Williams · Žan Gojčič · Karsten Kreis · Sanja Fidler · Young Min Kim · Amlan Kar

Spectrum AUC Difference (SAUCD): Human-aligned 3D Shape Evaluation

Tianyu Luan · Zhong Li · Lele Chen · Xuan Gong · Lichang Chen · Yi Xu · Junsong Yuan

Federated Online Adaptation for Deep Stereo

Matteo Poggi · Fabio Tosi

Instruct 4D-to-4D: Editing 4D Scenes as Pseudo-3D Scenes Using 2D Diffusion

Linzhan Mou · Jun-Kun Chen · Yu-Xiong Wang

Real-time Acquisition and Reconstruction of Dynamic Volumes with Neural Structured Illumination

Yixin Zeng · Zoubin Bi · Yin Mingrui · Xiang Feng · Kun Zhou · Hongzhi Wu

Unifying Correspondence Pose and NeRF for Generalized Pose-Free Novel View Synthesis

Sunghwan Hong · Jaewoo Jung · Heeseong Shin · Jiaolong Yang · Chong Luo · Seungryong Kim

GoMVS: Geometrically Consistent Cost Aggregation for Multi-View Stereo

Jiang Wu · Rui Li · Haofei Xu · Wenxun Zhao · Yu Zhu · Jinqiu Sun · Yanning Zhang

MESA: Matching Everything by Segmenting Anything

Yesheng Zhang · Xu Zhao

OmniSDF: Scene Reconstruction using Omnidirectional Signed Distance Functions and Adaptive Binoctrees

Hakyeong Kim · Andreas Meuleman · Hyeonjoong Jang · James Tompkin · Min H. Kim

MirageRoom: 3D Scene Segmentation with 2D Pre-trained Models by Mirage Projection

Haowen Sun · Yueqi Duan · Juncheng Yan · Yifan Liu · Jiwen Lu

Robust Synthetic-to-Real Transfer for Stereo Matching

Jiawei Zhang · Jiahe Li · Lei Huang · Xiaohan Yu · Lin Gu · Jin Zheng · Xiao Bai

Symphonize 3D Semantic Scene Completion with Contextual Instance Queries

Haoyi Jiang · Tianheng Cheng · Naiyu Gao · Haoyang Zhang · Tianwei Lin · Wenyu Liu · Xinggang Wang

Differentiable Neural Surface Refinement for Modeling Transparent Objects

Weijian Deng · Dylan Campbell · Chunyi Sun · Shubham Kanitkar · Matthew Shaffer · Stephen Gould

DeMatch: Deep Decomposition of Motion Field for Two-View Correspondence Learning

Shihua Zhang · Zizhuo Li · Yuan Gao · Jiayi Ma

Is Vanilla MLP in Neural Radiance Field Enough for Few-shot View Synthesis?

Hanxin Zhu · Tianyu He · Xin Li · Bingchen Li · Zhibo Chen

GaussianAvatars: Photorealistic Head Avatars with Rigged 3D Gaussians

Shenhan Qian · Tobias Kirschstein · Liam Schoneveld · Davide Davoli · Simon Giebenhain · Matthias Nießner

4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

Guanjun Wu · Taoran Yi · Jiemin Fang · Lingxi Xie · Xiaopeng Zhang · Wei Wei · Wenyu Liu · Qi Tian · Xinggang Wang

How Far Can We Compress Instant-NGP-Based NeRF?

Yihang Chen · Qianyi Wu · Mehrtash Harandi · Jianfei Cai

Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction

Ziyi Yang · Xinyu Gao · Wen Zhou · Shaohui Jiao · Yuqing Zhang · Xiaogang Jin

Learning with Unreliability: Fast Few-shot Voxel Radiance Fields with Relative Geometric Consistency

Xu Yingjie · Bangzhen Liu · Hao Tang · Bailin Deng · Shengfeng He

NTO3D: Neural Target Object 3D Reconstruction with Segment Anything

Xiaobao Wei · Renrui Zhang · Jiarui Wu · Jiaming Liu · Ming Lu · Yandong Guo · Shanghang Zhang

Loopy-SLAM: Dense Neural SLAM with Loop Closures

Lorenzo Liso · Erik Sandström · Vladimir Yugay · Luc Van Gool · Martin R. Oswald

BSNet: Box-Supervised Simulation-assisted Mean Teacher for 3D Instance Segmentation

Jiahao Lu · Jiacheng Deng · Tianzhu Zhang

ExtraNeRF: Visibility-Aware View Extrapolation of Neural Radiance Fields with Diffusion Models

Meng-Li Shih · Wei-Chiu Ma · Lorenzo Boyice · Aleksander Holynski · Forrester Cole · Brian Curless · Janne Kontkanen

Alpha Invariance: On Inverse Scaling Between Distance and Volume Density in Neural Radiance Fields

Joshua Ahn · Haochen Wang · Raymond A. Yeh · Greg Shakhnarovich

SpatialTracker: Tracking Any 2D Pixels in 3D Space

Yuxi Xiao · Qianqian Wang · Shangzhan Zhang · Nan Xue · Sida Peng · Yujun Shen · Xiaowei Zhou

GauHuman: Articulated Gaussian Splatting from Monocular Human Videos

Shoukang Hu · Tao Hu · Ziwei Liu

IPoD: Implicit Field Learning with Point Diffusion for Generalizable 3D Object Reconstruction from Single RGB-D Images

Yushuang Wu · Luyue Shi · Junhao Cai · Weihao Yuan · Lingteng Qiu · Zilong Dong · Liefeng Bo · Shuguang Cui · Xiaoguang Han

GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields

Fangyin Wei · Hanlin Chen · Gim Hee Lee

LASA: Instance Reconstruction from Real Scans using A Large-scale Aligned Shape Annotation Dataset

Haolin Liu · Chongjie Ye · Yinyu Nie · Yingfan He · Xiaoguang Han

GenZI: Zero-Shot 3D Human-Scene Interaction Generation

Lei Li · Angela Dai

MVCPS-NeuS: Multi-view Constrained Photometric Stereo for Neural Surface Reconstruction

Hiroaki Santo · Fumio Okura · Yasuyuki Matsushita

DVMNet: Computing Relative Pose for Unseen Objects Beyond Hypotheses

Chen Zhao · Tong Zhang · Zheng Dang · Mathieu Salzmann

Motion2VecSets: 4D Latent Vector Set Diffusion for Non-rigid Shape Reconstruction and Tracking

Wei Cao · Chang Luo · Biao Zhang · Matthias Nießner · Jiapeng Tang

DiffuScene: Denoising Diffusion Models for Generative Indoor Scene Synthesis

Jiapeng Tang · Yinyu Nie · Lev Markhasin · Angela Dai · Justus Thies · Matthias Nießner

Test-Time Adaptation for Depth Completion

Hyoungseob Park · Anjali W Gupta · Alex Wong

Global and Hierarchical Geometry Consistency Priors for Few-shot NeRFs in Indoor Scenes

Xiaotian Sun · Qingshan Xu · Xinjie Yang · Yu Zang · Cheng Wang

KP-RED: Exploiting Semantic Keypoints for Joint 3D Shape Retrieval and Deformation

Ruida Zhang · Chenyangguang Zhang · Yan Di · Fabian Manhardt · Xingyu Liu · Federico Tombari · Xiangyang Ji

Unsigned Orthogonal Distance Fields: An Accurate Neural Implicit Representation for Diverse 3D Shapes

YuJie Lu · Long Wan · Nayu Ding · Yulong Wang · Shuhan Shen · Shen Cai · Lin Gao

DiSR-NeRF: Diffusion-Guided View-Consistent Super-Resolution NeRF

Jie Long Lee · Chen Li · Gim Hee Lee

BANF: Band-Limited Neural Fields for Levels of Detail Reconstruction

Ahan Shabanov · Shrisudhan Govindarajan · Cody Reading · Leili Goli · Daniel Rebain · Kwang Moo Yi · Andrea Tagliasacchi

SuperNormal: Neural Surface Reconstruction via Multi-View Normal Integration

Xu Cao · Takafumi Taketomi

ADFactory: An Effective Framework for Generalizing Optical Flow with NeRF

Han Ling · Quansen Sun · Yinghui Sun · Xian Xu · Xingfeng Li

Dr.Hair: Reconstructing Scalp-Connected Hair Strands without Pre-Training via Differentiable Rendering of Line Segments

Yusuke Takimoto · Hikari Takehara · Hiroyuki Sato · Zihao Zhu · Bo Zheng

OmniSeg3D: Omniversal 3D Segmentation via Hierarchical Contrastive Learning

Haiyang Ying · Yixuan Yin · Jinzhi Zhang · Fan Wang · Tao Yu · Ruqi Huang · Lu Fang

Visual Programming for Zero-shot Open-Vocabulary 3D Visual Grounding

Zhihao Yuan · Jinke Ren · Chun-Mei Feng · Hengshuang Zhao · Shuguang Cui · Zhen Li

GEARS: Local Geometry-aware Hand-object Interaction Synthesis

Keyang Zhou · Bharat Lal Bhatnagar · Jan Lenssen · Gerard Pons-Moll

Edge-Aware 3D Instance Segmentation Network with Intelligent Semantic Prior

Wonseok Roh · Hwanhee Jung · Giljoo Nam · Jinseop Yeom · Hyunje Park · Sang Ho Yoon · Sangpil Kim

Scaffold-GS: Structured 3D Gaussians for View-Adaptive Rendering

Tao Lu · Mulin Yu · Linning Xu · Yuanbo Xiangli · Limin Wang · Dahua Lin · Bo Dai

Map-Relative Pose Regression for Visual Re-Localization

Shuai Chen · Tommaso Cavallari · Victor Adrian Prisacariu · Eric Brachmann

3DGStream: On-the-Fly Training of 3D Gaussians for Efficient Streaming of Photo-Realistic Free-Viewpoint Videos

Jiakai Sun · Han Jiao · Guangyuan Li · Zhanjie Zhang · Lei Zhao · Wei Xing

Revisiting Global Translation Estimation with Feature Tracks

Peilin Tao · Hainan Cui · Mengqi Rong · Shuhan Shen

DUSt3R: Geometric 3D Vision Made Easy

Shuzhe Wang · Vincent Leroy · Yohann Cabon · Boris Chidlovskii · Jerome Revaud

Robust Depth Enhancement via Polarization Prompt Fusion Tuning

Kei IKEMURA · Yiming Huang · Felix Heide · Zhaoxiang Zhang · Qifeng Chen · Chenyang Lei

StraightPCF: Straight Point Cloud Filtering

Dasith de Silva Edirimuni · Xuequan Lu · Gang Li · Lei Wei · Antonio Robles-Kelly · Hongdong Li

NeRFiller: Completing Scenes via Generative 3D Inpainting

Ethan Weber · Aleksander Holynski · Varun Jampani · Saurabh Saxena · Noah Snavely · Abhishek Kar · Angjoo Kanazawa

NeRF Director: Revisiting View Selection in Neural Volume Rendering

Wenhui Xiao · Rodrigo Santa Cruz · David Ahmedt-Aristizabal · Olivier Salvado · Clinton Fookes · Leo Lebrat

Learning Intra-view and Cross-view Geometric Knowledge for Stereo Matching

Rui Gong · Weide Liu · ZAIWANG GU · Xulei Yang · Jun Cheng

Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D Prior

Fangfu Liu · Diankun Wu · Yi Wei · Yongming Rao · Yueqi Duan

DNGaussian: Optimizing Sparse-View 3D Gaussian Radiance Fields with Global-Local Depth Normalization

Jiahe Li · Jiawei Zhang · Xiao Bai · Jin Zheng · Xin Ning · Jun Zhou · Lin Gu

A Conditional Denoising Diffusion Probabilistic Model for Point Cloud Upsampling

Wentao Qu · Yuantian Shao · Lingwu Meng · Xiaoshui Huang · Liang Xiao

COLMAP-Free 3D Gaussian Splatting

Yang Fu · Sifei Liu · Amey Kulkarni · Jan Kautz · Alexei A. Efros · Xiaolong Wang

GSNeRF: Generalizable Semantic Neural Radiance Fields with Enhanced 3D Scene Understanding

Zi-Ting Chou · Sheng-Yu Huang · I-Jieh Liu · Yu-Chiang Frank Wang

Extend Your Own Correspondences: Unsupervised Distant Point Cloud Registration by Progressive Distance Extension

Quan Liu · Hongzi Zhu · Zhenxi Wang · Yunsong Zhou · Shan Chang · Minyi Guo

Fully Geometric Panoramic Localization

Junho Kim · Jiwon Jeong · Young Min Kim

Multiway Point Cloud Mosaicking with Diffusion and Global Optimization

Shengze Jin · Iro Armeni · Marc Pollefeys · Daniel Barath

Mip-Splatting: Alias-free 3D Gaussian Splatting

Zehao Yu · Anpei Chen · Binbin Huang · Torsten Sattler · Andreas Geiger

Generative 3D Part Assembly via Part-Whole-Hierarchy Message Passing

Bi'an Du · Xiang Gao · Wei Hu · Renjie Liao

Total-Decom: Decomposed 3D Scene Reconstruction with Minimal Interaction

Xiaoyang Lyu · Chirui Chang · Peng Dai · Yangtian Sun · Xiaojuan Qi

Absolute Pose from One or Two Scaled and Oriented Features

Jonathan Ventura · Zuzana Kukelova · Torsten Sattler · Daniel Barath

DGC-GNN: Leveraging Geometry and Color Cues for Visual Descriptor-Free 2D-3D Matching

Shuzhe Wang · Juho Kannala · Daniel Barath

Entity-NeRF: Detecting and Removing Moving Entities in Urban Scenes

Takashi Otonari · Satoshi Ikehata · Kiyoharu Aizawa

GaussianEditor: Editing 3D Gaussians Delicately with Text Instructions

Junjie Wang · Jiemin Fang · Xiaopeng Zhang · Lingxi Xie · Qi Tian

The More You See in 2D the More You Perceive in 3D

Xinyang Han · Zelin Gao · Angjoo Kanazawa · Shubham Goel · Yossi Gandelsman

Multi-Scale 3D Gaussian Splatting for Anti-Aliased Rendering

Zhiwen Yan · Weng Fei Low · Yu Chen · Gim Hee Lee

Practical Measurements of Translucent Materials with Inter-Pixel Translucency Prior

Zhenyu Chen · Jie Guo · Shuichang Lai · Ruoyu Fu · mengxun kong · Chen Wang · Hongyu Sun · Zhebin Zhang · Chen Li · Yanwen Guo

OneFormer3D: One Transformer for Unified Point Cloud Segmentation

Maksim Kolodiazhnyi · Anna Vorontsova · Anton Konushin · Danila Rukhovich

General Point Model Pretraining with Autoencoding and Autoregressive

Zhe Li · Zhangyang Gao · Cheng Tan · Bocheng Ren · Laurence Yang · Stan Z. Li

MorpheuS: Neural Dynamic 360° Surface Reconstruction from Monocular RGB-D Video

Hengyi Wang · Jingwen Wang · Lourdes Agapito

pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

David Charatan · Sizhe Lester Li · Andrea Tagliasacchi · Vincent Sitzmann

Object Dynamics Modeling with Hierarchical Point Cloud-based Representations

Chanho Kim · Li Fuxin

Neural Refinement for Absolute Pose Regression with Feature Synthesis

Shuai Chen · Yash Bhalgat · Xinghui Li · Jia-Wang Bian · Kejie Li · Zirui Wang · Victor Adrian Prisacariu

Gaussian Shadow Casting for Neural Characters

Luis Bolanos · Shih-Yang Su · Helge Rhodin

PAPR in Motion: Seamless Point-level 3D Scene Interpolation

Shichong Peng · Yanshu Zhang · Ke Li

ShapeMatcher: Self-Supervised Joint Shape Canonicalization Segmentation Retrieval and Deformation

Yan Di · Chenyangguang Zhang · Chaowei Wang · Ruida Zhang · Guangyao Zhai · Yanyan Li · Bowen Fu · Xiangyang Ji · Shan Gao

XScale-NVS: Cross-Scale Novel View Synthesis with Hash Featurized Manifold

Guangyu Wang · Jinzhi Zhang · Fan Wang · Ruqi Huang · Lu Fang

Instance-Adaptive and Geometric-Aware Keypoint Learning for Category-Level 6D Object Pose Estimation

Xiao Lin · Wenfei Yang · Yuan Gao · Tianzhu Zhang

RepKPU: Point Cloud Upsampling with Kernel Point Representation and Deformation

Yi Rong · Haoran Zhou · Kang Xia · Cheng Mei · Jiahao Wang · Tong Lu

ColorPCR: Color Point Cloud Registration with Multi-Stage Geometric-Color Fusion

Juncheng Mu · Lin Bie · Shaoyi Du · Yue Gao

ConsistDreamer: 3D-Consistent 2D Diffusion for High-Fidelity Scene Editing

Jun-Kun Chen · Samuel Rota Bulò · Norman Müller · Lorenzo Porzi · Peter Kontschieder · Yu-Xiong Wang

SceneTex: High-Quality Texture Synthesis for Indoor Scenes via Diffusion Priors

Dave Zhenyu Chen · Haoxuan Li · Hsin-Ying Lee · Sergey Tulyakov · Matthias Nießner

Aerial Lifting: Neural Urban Semantic and Building Instance Lifting from Aerial Imagery

Yuqi Zhang · Guanying Chen · Jiaxing Chen · Shuguang Cui

Improving Depth Completion via Depth Feature Upsampling

Yufei Wang · Ge Zhang · Shaoqian Wang · Bo Li · Qi Liu · Le Hui · Yuchao Dai

ZeroRF: Fast Sparse View 360° Reconstruction with Zero Pretraining

Ruoxi Shi · Xinyue Wei · Cheng Wang · Hao Su

Multi-Level Neural Scene Graphs for Dynamic Urban Environments

Tobias Fischer · Lorenzo Porzi · Samuel Rota Bulò · Marc Pollefeys · Peter Kontschieder

Gaussian-Flow: 4D Reconstruction with Dynamic 3D Gaussian Particle

Youtian Lin · Zuozhuo Dai · Siyu Zhu · Yao Yao

L4D-Track: Language-to-4D Modeling Towards 6-DoF Tracking and Shape Reconstruction in 3D Point Cloud Stream

Jingtao Sun · Yaonan Wang · Mingtao Feng · Yulan Guo · Ajmal Mian · Mike Zheng Shou

Neural Directional Encoding for Efficient and Accurate View-Dependent Appearance Modeling

Liwen Wu · Sai Bi · Zexiang Xu · Fujun Luan · Kai Zhang · Iliyan Georgiev · Kalyan Sunkavalli · Ravi Ramamoorthi

SNI-SLAM: Semantic Neural Implicit SLAM

Siting Zhu · Guangming Wang · Hermann Blum · Jiuming Liu · LiangSong · Marc Pollefeys · Hesheng Wang

Enhancing 3D Object Detection with 2D Detection-Guided Query Anchors

Haoxuanye Ji · Pengpeng Liang · Erkang Cheng

SpecNeRF: Gaussian Directional Encoding for Specular Reflections

Li Ma · Vasu Agrawal · Haithem Turki · Changil Kim · Chen Gao · Pedro V. Sander · Michael Zollhoefer · Christian Richardt

Correspondence-Free Non-Rigid Point Set Registration Using Unsupervised Clustering Analysis

Mingyang Zhao · Jiang Jingen · Lei Ma · Shiqing Xin · Gaofeng Meng · Dong-Ming Yan

GAFusion: Adaptive Fusing LiDAR and Camera with Multiple Guidance for 3D Object Detection

Xiaotian Li · Baojie Fan · Jiandong Tian · Huijie Fan

3D Neural Edge Reconstruction

Lei Li · Songyou Peng · Zehao Yu · Shaohui Liu · Rémi Pautrat · Xiaochuan Yin · Marc Pollefeys

AlignMiF: Geometry-Aligned Multimodal Implicit Field for LiDAR-Camera Joint Synthesis

Tao Tang · Guangrun Wang · Yixing Lao · Peng Chen · Jie Liu · Liang Lin · Kaicheng Yu · Xiaodan Liang

Polarization Wavefront Lidar: Learning Large Scene Reconstruction from Polarized Wavefronts

Dominik Scheuble · Chenyang Lei · Mario Bijelic · Seung-Hwan Baek · Felix Heide

A Unified Diffusion Framework for Scene-aware Human Motion Estimation from Sparse Signals

Jiangnan Tang · Jingya Wang · Kaiyang Ji · Lan Xu · Jingyi Yu · Ye Shi

FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models

Shivangi Aneja · Justus Thies · Angela Dai · Matthias Nießner

NeRFCodec: Neural Feature Compression Meets Neural Radiance Fields for Memory-Efficient Scene Representation

Sicheng Li · Hao Li · Yiyi Liao · Lu Yu

Open-Vocabulary 3D Semantic Segmentation with Foundation Models

Li Jiang · Shaoshuai Shi · Bernt Schiele

GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs

Gege Gao · Weiyang Liu · Anpei Chen · Andreas Geiger · Bernhard Schölkopf

OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation

Bohao Peng · Xiaoyang Wu · Li Jiang · Yukang Chen · Hengshuang Zhao · Zhuotao Tian · Jiaya Jia

Efficient Solution of Point-Line Absolute Pose

Petr Hruby · Timothy Duff · Marc Pollefeys

CN-RMA: Combined Network with Ray Marching Aggregation for 3D Indoor Object Detection from Multi-view Images

Guanlin Shen · Jingwei Huang · Zhihua Hu · Bin Wang

HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting

Hongyu Zhou · Jiahao Shao · Lu Xu · Dongfeng Bai · Weichao Qiu · Bingbing Liu · Yue Wang · Andreas Geiger · Yiyi Liao

Benchmarking Implicit Neural Representation and Geometric Rendering in Real-Time RGB-D SLAM

Tongyan Hua · Addison, Lin Wang

SplaTAM: Splat Track & Map 3D Gaussians for Dense RGB-D SLAM

Nikhil Keetha · Jay Karhade · Krishna Murthy Jatavallabhula · Gengshan Yang · Sebastian Scherer · Deva Ramanan · Jonathon Luiten

Lift3D: Zero-Shot Lifting of Any 2D Vision Model to 3D

Mukund Varma T · Peihao Wang · Zhiwen Fan · Zhangyang Wang · Hao Su · Ravi Ramamoorthi

TutteNet: Injective 3D Deformations by Composition of 2D Mesh Deformations

Bo Sun · Thibault Groueix · Chen Song · Qixing Huang · Noam Aigerman

L0-Sampler: An L0 Model Guided Volume Sampling for NeRF

Liangchen Li · Juyong Zhang

Text-to-3D using Gaussian Splatting

Zilong Chen · Feng Wang · Yikai Wang · Huaping Liu

TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding

Zhihao Zhang · Shengcao Cao · Yu-Xiong Wang

FreGS: 3D Gaussian Splatting with Progressive Frequency Regularization

Jiahui Zhang · Fangneng Zhan · MUYU XU · Shijian Lu · Eric P. Xing

NeISF: Neural Incident Stokes Field for Geometry and Material Estimation

Chenhao Li · Taishi Ono · Takeshi Uemori · Hajime Mihara · Alexander Gatto · Hajime Nagahara · Yusuke Moriuchi

Non-Rigid Structure-from-Motion: Temporally-Smooth Procrustean Alignment and Spatially-Variant Deformation Modeling

Jiawei Shi · Hui Deng · Yuchao Dai

Small Steps and Level Sets: Fitting Neural Surface Models with Point Guidance

Chamin Hewa Koneputugodage · Yizhak Ben-Shabat · Dylan Campbell · Stephen Gould

CVT-xRF: Contrastive In-Voxel Transformer for 3D Consistent Radiance Fields from Sparse Inputs

Yingji Zhong · Lanqing Hong · Zhenguo Li · Dan Xu

GaussianEditor: Swift and Controllable 3D Editing with Gaussian Splatting

Yiwen Chen · Zilong Chen · Chi Zhang · Feng Wang · Xiaofeng Yang · Yikai Wang · Zhongang Cai · Lei Yang · Huaping Liu · Guosheng Lin

Cam4DOcc: Benchmark for Camera-Only 4D Occupancy Forecasting in Autonomous Driving Applications

Junyi Ma · Xieyuanli Chen · Jiawei Huang · Jingyi Xu · Zhen Luo · Jintao Xu · Weihao Gu · Rui Ai · Hesheng Wang

UDiFF: Generating Conditional Unsigned Distance Fields with Optimal Wavelet Diffusion

Junsheng Zhou · Weiqi Zhang · Baorui Ma · Kanle Shi · Yu-Shen Liu · Zhizhong Han

PanoRecon: Real-Time Panoptic 3D Reconstruction from Monocular Video

Dong Wu · Zike Yan · Hongbin Zha

Three Pillars Improving Vision Foundation Model Distillation for Lidar

Gilles Puy · Spyros Gidaris · Alexandre Boulch · Oriane Siméoni · Corentin Sautier · Patrick Pérez · Andrei Bursuc · Renaud Marlet

GARField: Group Anything with Radiance Fields

Chung Min Kim · Mingxuan Wu · Justin Kerr · Ken Goldberg · Matthew Tancik · Angjoo Kanazawa

Flexible Depth Completion for Sparse and Varying Point Densities

Jinhyung Park · Yu-Jhe Li · Kris Kitani

ReconFusion: 3D Reconstruction with Diffusion Priors

Rundi Wu · Ben Mildenhall · Philipp Henzler · Ruiqi Gao · Keunhong Park · Daniel Watson · Pratul P. Srinivasan · Dor Verbin · Jonathan T. Barron · Ben Poole · Aleksander Holynski

GLACE: Global Local Accelerated Coordinate Encoding

Fangjinhua Wang · Xudong Jiang · Silvano Galliani · Christoph Vogel · Marc Pollefeys

NARUTO: Neural Active Reconstruction from Uncertain Target Observations

Ziyue Feng · Huangying Zhan · Zheng Chen · Qingan Yan · Xiangyu Xu · Changjiang Cai · Bing Li · Qilun Zhu · Yi Xu

Photo-SLAM: Real-time Simultaneous Localization and Photorealistic Mapping for Monocular Stereo and RGB-D Cameras

Huajian Huang · Longwei Li · Hui Cheng · Sai-Kit Yeung

Detector-Free Structure from Motion

Xingyi He · Jiaming Sun · Yifan Wang · Sida Peng · Qixing Huang · Hujun Bao · Xiaowei Zhou

Memory-based Adapters for Online 3D Scene Perception

Xiuwei Xu · Chong Xia · Ziwei Wang · Linqing Zhao · Yueqi Duan · Jie Zhou · Jiwen Lu

SurroundSDF: Implicit 3D Scene Understanding Based on Signed Distance Field

Lizhe Liu · Bohua Wang · Hongwei Xie · Daqi Liu · Li Liu · Kuiyuan Yang · Bing Wang · Zhiqiang Tian

CoGS: Controllable Gaussian Splatting

Heng Yu · Joel Julin · Zoltán Á. Milacski · Koichiro Niinuma · László A. Jeni

DrivingGaussian: Composite Gaussian Splatting for Surrounding Dynamic Autonomous Driving Scenes

Xiaoyu Zhou · Zhiwei Lin · Xiaojun Shan · Yongtao Wang · Deqing Sun · Ming-Hsuan Yang

GS-IR: 3D Gaussian Splatting for Inverse Rendering

Zhihao Liang · Qi Zhang · Ying Feng · Ying Shan · Kui Jia

Cross-spectral Gated-RGB Stereo Depth Estimation

Samuel Brucker · Stefanie Walz · Mario Bijelic · Felix Heide

Efficient LoFTR: Semi-Dense Local Feature Matching with Sparse-Like Speed

Yifan Wang · Xingyi He · Sida Peng · Dongli Tan · Xiaowei Zhou

Feature 3DGS: Supercharging 3D Gaussian Splatting to Enable Distilled Feature Fields

Shijie Zhou · Haoran Chang · Sicheng Jiang · Zhiwen Fan · Zehao Zhu · Dejia Xu · Pradyumna Chari · Suya You · Zhangyang Wang · Achuta Kadambi

VGGSfM: Visual Geometry Grounded Deep Structure From Motion

Jianyuan Wang · Nikita Karaev · Christian Rupprecht · David Novotny

Dynamic Cues-Assisted Transformer for Robust Point Cloud Registration

Hong Chen · Pei Yan · sihe xiang · Yihua Tan

Learning to Produce Semi-dense Correspondences for Visual Localization

Khang Truong Giang · Soohwan Song · Sungho Jo

GP-NeRF: Generalized Perception NeRF for Context-Aware 3D Scene Understanding

Hao Li · Dingwen Zhang · Yalun Dai · Nian Liu · Lechao Cheng · Li Jingfeng · Jingdong Wang · Junwei Han

Compact 3D Gaussian Representation for Radiance Field

Joo Chan Lee · Daniel Rho · Xiangyu Sun · Jong Hwan Ko · Eunbyung Park

Unsupervised Occupancy Learning from Sparse Point Cloud

Amine Ouasfi · Adnane Boukhayma

Grounding and Enhancing Grid-based Models for Neural Fields

Zelin Zhao · FENGLEI FAN · Wenlong Liao · Junchi Yan

TACO: Benchmarking Generalizable Bimanual Tool-ACtion-Object Understanding

Yun Liu · Haolin Yang · Xu Si · Ling Liu · Zipeng Li · Yuxiang Zhang · Yebin Liu · Li Yi

ImageNet-D: Benchmarking Neural Network Robustness on Diffusion Synthetic Object

Chenshuang Zhang · Fei Pan · Junmo Kim · In So Kweon · Chengzhi Mao

SynFog: A Photo-realistic Synthetic Fog Dataset based on End-to-end Imaging Simulation for Advancing Real-World Defogging in Autonomous Driving

Yiming Xie · Henglu Wei · Zhenyi Liu · Xiaoyu Wang · Xiangyang Ji

FineSports: A Multi-person Hierarchical Sports Video Dataset for Fine-grained Action Understanding

Jinglin Xu · Guohao Zhao · Sibo Yin · Wenhao Zhou · Yuxin Peng

Infinigen Indoors: Photorealistic Indoor Scenes using Procedural Generation

Alexander Raistrick · Lingjie Mei · Karhan Kayan · David Yan · Yiming Zuo · Beining Han · Hongyu Wen · Meenal Parakh · Stamatis Alexandropoulos · Lahav Lipson · Zeyu Ma · Jia Deng

Probing the 3D Awareness of Visual Foundation Models

Mohamed El Banani · Amit Raj · Kevis-kokitsi Maninis · Abhishek Kar · Yuanzhen Li · Michael Rubinstein · Deqing Sun · Leonidas Guibas · Justin Johnson · Varun Jampani

VBench: Comprehensive Benchmark Suite for Video Generative Models

Ziqi Huang · Yinan He · Jiashuo Yu · Fan Zhang · Chenyang Si · Yuming Jiang · Yuanhan Zhang · Tianxing Wu · Jin Qingyang · Nattapol Chanpaisit · Yaohui Wang · Xinyuan Chen · Limin Wang · Dahua Lin · Yu Qiao · Ziwei Liu

MAPLM: A Real-World Large-Scale Vision-Language Benchmark for Map and Traffic Scene Understanding

Xu Cao · Tong Zhou · Yunsheng Ma · Wenqian Ye · Can Cui · Kun Tang · Zhipeng Cao · Kaizhao Liang · Ziran Wang · James Rehg · chao zheng

Video Recognition in Portrait Mode

Mingfei Han · Linjie Yang · Xiaojie Jin · Jiashi Feng · Xiaojun Chang · Heng Wang

MMVP: A Multimodal MoCap Dataset with Vision and Pressure Sensors

He Zhang · Shenghao Ren · Haolei Yuan · Jianhui Zhao · Fan Li · Shuangpeng Sun · Zhenghao Liang · Tao Yu · Qiu Shen · Xun Cao

What If the TV Was Off? Examining Counterfactual Reasoning Abilities of Multi-modal Language Models

Letian Zhang · Xiaotong Zhai · Zhongkai Zhao · Yongshuo Zong · Xin Wen · Bingchen Zhao

COCONut: Modernizing COCO Segmentation

Xueqing Deng · Qihang Yu · Peng Wang · Xiaohui Shen · Liang-Chieh Chen

Traffic Scene Parsing through the TSP6K Dataset

Peng-Tao Jiang · Yuqi Yang · Yang Cao · Qibin Hou · Ming-Ming Cheng · Chunhua Shen

Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark

Ziyang Chen · Israel D. Gebru · Christian Richardt · Anurag Kumar · William Laney · Andrew Owens · Alexander Richard

Rethinking the Evaluation Protocol of Domain Generalization

Han Yu · Xingxuan Zhang · Renzhe Xu · Jiashuo Liu · Yue He · Peng Cui

MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation of Videos

Jielin Qiu · Jiacheng Zhu · William Han · Aditesh Kumar · Karthik Mittal · Claire Jin · Zhengyuan Yang · Linjie Li · Jianfeng Wang · DING ZHAO · Bo Li · Lijuan Wang

Learning from Synthetic Human Group Activities

Che-Jui Chang · Danrui Li · Deep Patel · Parth Goel · Seonghyeon Moon · Samuel Sohn · Honglu Zhou · Sejong Yoon · Vladimir Pavlovic · Mubbasir Kapadia

Instance Tracking in 3D Scenes from Egocentric Videos

Yunhan Zhao · Haoyu Ma · Shu Kong · Charless Fowlkes

Insect-Foundation: A Foundation Model and Large-scale 1M Dataset for Visual Insect Understanding

Hoang-Quan Nguyen · Thanh-Dat Truong · Xuan-Bac Nguyen · Ashley Dowling · Xin Li · Khoa Luu

Low-Resource Vision Challenges for Foundation Models

Yunhua Zhang · Hazel Doughty · Cees G. M. Snoek

OpenStreetView-5M: The Many Roads to Global Visual Geolocation

Guillaume Astruc · Nicolas Dufour · Ioannis Siglidis · Constantin Aronssohn · Nacim Bouia · Stephanie Fu · Romain Loiseau · Van Nguyen Nguyen · Charles Raude · Elliot Vincent · Lintao XU · Hongyu Zhou · Loic Landrieu

FreeMan: Towards Benchmarking 3D Human Pose Estimation under Real-World Conditions

Jiong WANG · Fengyu Yang · Bingliang Li · Wenbo Gou · Danqi Yan · Ailing Zeng · Yijun Gao · Junle Wang · Yanqing Jing · Ruimao Zhang

LiDAR-Net: A Real-scanned 3D Point Cloud Dataset for Indoor Scenes

Yanwen Guo · Yuanqi Li · Dayong Ren · Xiaohong Zhang · Jiawei Li · Liang Pu · Changfeng Ma · xiaoyu zhan · Jie Guo · Mingqiang Wei · Yan Zhang · Piaopiao Yu · Shuangyu Yang · Donghao Ji · Huisheng Ye · Hao Sun · Yansong Liu · Yinuo Chen · Jiaqi Zhu · Hongyu Liu

View-decoupled Transformer for Person Re-identification under Aerial-ground Camera Network

Quan Zhang · Lei Wang · Vishal M. Patel · Xiaohua Xie · Jianhuang Lai

UFineBench: Towards Text-based Person Retrieval with Ultra-fine Granularity

Jialong Zuo · Hanyu Zhou · Ying Nie · Feng Zhang · Tianyu Guo · Nong Sang · Yunhe Wang · Changxin Gao

Towards Automatic Power Battery Detection: New Challenge Benchmark Dataset and Baseline

Xiaoqi Zhao · Youwei Pang · Zhenyu Chen · Qian Yu · Lihe Zhang · Hanqi Liu · Jiaming Zuo · Huchuan Lu

Abductive Ego-View Accident Video Understanding for Safe Driving Perception

Jianwu Fang · Lei-lei Li · Junfei Zhou · Junbin Xiao · Hongkai Yu · Chen Lv · Jianru Xue · Tat-seng Chua

Multiagent Multitraversal Multimodal Self-Driving: Open MARS Dataset

Yiming Li · Zhiheng Li · Nuo Chen · Moonjun Gong · Zonglin Lyu · Zehong Wang · Peili Jiang · Chen Feng

Towards Surveillance Video-and-Language Understanding: New Dataset Baselines and Challenges

Tongtong Yuan · Xuange Zhang · Kun Liu · Bo Liu · Chen Chen · Jian Jin · Zhenzhen Jiao

Pre-training Vision Models with Mandelbulb Variations

Benjamin N. Chiche · Yuto Horikawa · Ryo Fujita

EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World

Yifei Huang · Guo Chen · Jilan Xu · Mingfang Zhang · Lijin Yang · Baoqi Pei · Hongjie Zhang · Lu Dong · Yali Wang · Limin Wang · Yu Qiao

JRDB-Social: A Multifaceted Robotic Dataset for Understanding of Context and Dynamics of Human Interactions Within Social Groups

Simindokht Jahangard · Zhixi Cai · Shiki Wen · Hamid Rezatofighi

Spectral and Polarization Vision: Spectro-polarimetric Real-world Dataset

Yujin Jeon · Eunsue Choi · Youngchan Kim · Yunseong Moon · Khalid Omer · Felix Heide · Seung-Hwan Baek

MatSynth: A Modern PBR Materials Dataset

Giuseppe Vecchio · Valentin Deschaintre

When Visual Grounding Meets Gigapixel-level Large-scale Scenes: Benchmark and Approach

TAO MA · Bing Bai · Haozhe Lin · Heyuan Wang · Yu Wang · Lin Luo · Lu Fang

HoloVIC: Large-scale Dataset and Benchmark for Multi-Sensor Holographic Intersection and Vehicle-Infrastructure Cooperative

CONG MA · Qiao Lei · Chengkai Zhu · Kai Liu · Zelong Kong · Liqing · Xueqi Zhou · Yuheng KAN · Wei Wu

EvalCrafter: Benchmarking and Evaluating Large Video Generation Models

Yaofang Liu · Xiaodong Cun · Xuebo Liu · Xintao Wang · Yong Zhang · Haoxin Chen · Yang Liu · Tieyong Zeng · Raymond Chan · Ying Shan

Localization Is All You Evaluate: Data Leakage in Online Mapping Datasets and How to Fix It

Adam Lilja · Junsheng Fu · Erik Stenborg · Lars Hammarstrand

DL3DV-10K: A Large-Scale Scene Dataset for Deep Learning-based 3D Vision

Lu Ling · Yichen Sheng · Zhi Tu · Wentian Zhao · Cheng Xin · Kun Wan · Lantao Yu · Qianyu Guo · Zixun Yu · Yawen Lu · Xuanmao Li · Xingpeng Sun · Rohan Ashok · Aniruddha Mukherjee · Hao Kang · Xiangrui Kong · Gang Hua · Tianyi Zhang · Bedrich Benes · Aniket Bera

OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM

Yutao Hu · Tianbin · Quanfeng Lu · Wenqi Shao · Junjun He · Yu Qiao · Ping Luo

Can Biases in ImageNet Models Explain Generalization?

Paul Gavrikov · Janis Keuper

MVBench: A Comprehensive Multi-modal Video Understanding Benchmark

Kunchang Li · Yali Wang · Yinan He · Yizhuo Li · Yi Wang · Yi Liu · Zun Wang · Jilan Xu · Guo Chen · Ping Luo · Limin Wang · Yu Qiao

Towards Scalable 3D Anomaly Detection and Localization: A Benchmark via 3D Anomaly Synthesis and A Self-Supervised Learning Network

wenqiao Li · Xiaohao Xu · Yao Gu · BoZhong Zheng · Shenghua Gao · Yingna Wu

Point-VOS: Pointing Up Video Object Segmentation

Sabarinath Mahadevan · Idil Esen Zulfikar · Paul Voigtlaender · Bastian Leibe

GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation

Tong Wu · Guandao Yang · Zhibing Li · Kai Zhang · Ziwei Liu · Leonidas Guibas · Dahua Lin · Gordon Wetzstein

ConCon-Chi: Concept-Context Chimera Benchmark for Personalized Vision-Language Tasks

Andrea Rosasco · Stefano Berti · Giulia Pasquale · Damiano Malafronte · Shogo Sato · Hiroyuki Segawa · Tetsugo Inada · Lorenzo Natale

FISBe: A Real-World Benchmark Dataset for Instance Segmentation of Long-Range Thin Filamentous Structures

Lisa Mais · Peter Hirsch · Claire Managan · Ramya Kandarpa · Josef Rumberger · Annika Reinke · Lena Maier-Hein · Gudrun Ihrke · Dagmar Kainmueller

Inter-X: Towards Versatile Human-Human Interaction Analysis

Liang Xu · Xintao Lv · Yichao Yan · Xin Jin · Wu Shuwen · Congsheng Xu · Yifan Liu · Yizhou Zhou · Fengyun Rao · Xingdong Sheng · Yunhui LIU · Wenjun Zeng · Xiaokang Yang

TextNeRF: A Novel Scene-Text Image Synthesis Method based on Neural Radiance Fields

Jialei Cui · Jianwei Du · Wenzhuo Liu · Zhouhui Lian

Systematic Comparison of Semi-supervised and Self-supervised Learning for Medical Image Classification

Zhe Huang · Ruijie Jiang · Shuchin Aeron · Michael C. Hughes

Unexplored Faces of Robustness and Out-of-Distribution: Covariate Shifts in Environment and Sensor Domains

Eunsu Baek · Keondo Park · Ji-yoon Kim · Hyung-Sin Kim

MCD: Diverse Large-Scale Multi-Campus Dataset for Robot Perception

Thien-Minh Nguyen · Shenghai Yuan · Thien Nguyen · Pengyu Yin · Haozhi Cao · Lihua Xie · Maciej Wozniak · Patric Jensfelt · Marko Thiel · Justin Ziegenbein · Noel Blunder

360Loc: A Dataset and Benchmark for Omnidirectional Visual Localization with Cross-device Queries

Huajian Huang · Changkun Liu · Yipeng Zhu · Hui Cheng · Tristan Braud · Sai-Kit Yeung

Deep Generative Model based Rate-Distortion for Image Downscaling Assessment

yuanbang liang · Bhavesh Garg · Paul L. Rosin · Yipeng Qin

JRDB-PanoTrack: An Open-world Panoptic Segmentation and Tracking Robotic Dataset in Crowded Human Environments

Duy Tho Le · Chenhui Gou · Stavya Datta · Hengcan Shi · Ian Reid · Jianfei Cai · Hamid Rezatofighi

MTMMC: A Large-Scale Real-World Multi-Modal Camera Tracking Benchmark

Sanghyun Woo · Kwanyong Park · Inkyu Shin · Myungchul Kim · In So Kweon

RCooper: A Real-world Large-scale Dataset for Roadside Cooperative Perception

Ruiyang Hao · Siqi Fan · Yingru Dai · Zhenlin Zhang · Chenxi Li · YuntianWang · Haibao Yu · Wenxian Yang · Jirui Yuan · Zaiqing Nie

UVEB: A Large-scale Benchmark and Baseline Towards Real-World Underwater Video Enhancement

yaofeng xie · Lingwei Kong · Kai Chen · Zheng Ziqiang · Xiao Yu · Zhibin Yu · Bing Zheng

Real-World Mobile Image Denoising Dataset with Efficient Baselines

Roman Flepp · Andrey Ignatov · Radu Timofte · Luc Van Gool

RGBD Objects in the Wild: Scaling Real-World 3D Object Learning from RGB-D Videos

Hongchi Xia · Yang Fu · Sifei Liu · Xiaolong Wang

Evaluating Transferability in Retrieval Tasks: An Approach Using MMD and Kernel Methods

Mengyu Dai · Amir Hossein Raffiee · Aashish Jain · Joshua Correa

BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation

Yunhao Ge · Yihe Tang · Jiashu Xu · Cem Gokmen · Chengshu Li · Wensi Ai · Benjamin Martinez · Arman Aydin · Mona Anvari · Ayush Chakravarthy · Hong-Xing Yu · Josiah Wong · Sanjana Srivastava · Sharon Lee · Shengxin Zha · Laurent Itti · Yunzhu Li · Roberto Martín-Martín · Miao Liu · Pengchuan Zhang · Ruohan Zhang · Li Fei-Fei · Jiajun Wu

MULAN: A Multi Layer Annotated Dataset for Controllable Text-to-Image Generation

Petru-Daniel Tudosiu · Yongxin Yang · Shifeng Zhang · Fei Chen · Steven McDonagh · Gerasimos Lampouras · Ignacio Iacobacci · Sarah Parisot

Sieve: Multimodal Dataset Pruning using Image Captioning Models

Anas Mahmoud · Mostafa Elhoushi · Amro Abbas · Yu Yang · Newsha Ardalani · Hugh Leather · Ari Morcos

Perceptual Assessment and Optimization of HDR Image Rendering

Peibei Cao · Rafal Mantiuk · Kede Ma

GlitchBench: Can Large Multimodal Models Detect Video Game Glitches?

Mohammad Reza Taesiri · Tianjun Feng · Cor-Paul Bezemer · Anh Nguyen

WinSyn: : A High Resolution Testbed for Synthetic Data

Tom Kelly · John Femiani · Peter Wonka

DiVa-360: The Dynamic Visual Dataset for Immersive Neural Fields

Cheng-You Lu · Peisen Zhou · Angela Xing · Chandradeep Pokhariya · Arnab Dey · Ishaan Shah · Rugved Mavidipalli · Dylan Hu · Andrew Comport · Kefan Chen · Srinath Sridhar

Learning Discriminative Dynamics with Label Corruption for Noisy Label Detection

Suyeon Kim · Dongha Lee · SeongKu Kang · Sukang Chae · Sanghwan Jang · Hwanjo Yu

DriveTrack: A Benchmark for Long-Range Point Tracking in Real-World Videos

Arjun Balasingam · Joseph Chandler · Chenning Li · Zhoutong Zhang · Hari Balakrishnan

HouseCat6D - A Large-Scale Multi-Modal Category Level 6D Object Perception Dataset with Household Objects in Realistic Scenarios

HyunJun Jung · Shun-Cheng Wu · Patrick Ruhkamp · Guangyao Zhai · Hannah Schieber · Giulia Rizzoli · Pengyuan Wang · Hongcheng Zhao · Lorenzo Garattoni · Sven Meier · Daniel Roth · Nassir Navab · Benjamin Busam

Benchmarking Segmentation Models with Mask-Preserved Attribute Editing

Zijin Yin · Kongming Liang · Bing Li · Zhanyu Ma · Jun Guo

The Devil is in the Fine-Grained Details: Evaluating Open-Vocabulary Object Detectors for Fine-Grained Understanding

Lorenzo Bianchi · Fabio Carrara · Nicola Messina · Claudio Gennaro · Fabrizio Falchi

PKU-DyMVHumans: A Multi-View Video Benchmark for High-Fidelity Dynamic Human Modeling

Xiaoyun Zheng · Liwei Liao · Xufeng Li · Jianbo Jiao · Rongjie Wang · Feng Gao · Shiqi Wang · Ronggang Wang

Insights from the Use of Previously Unseen Neural Architecture Search Datasets

Rob Geada · David Towers · Matthew Forshaw · Amir Atapour-Abarghouei · Stephen McGough

TULIP: Multi-camera 3D Precision Assessment of Parkinson’s Disease

Kyungdo Kim · Sihan Lyu · Sneha Mantri · Timothy DUNN

LUWA Dataset: Learning Lithic Use-Wear Analysis on Microscopic Images

Jing Zhang · Irving Fang · Hao Wu · Akshat Kaushik · Alice Rodriguez · Hanwen Zhao · Juexiao Zhang · Zhuo Zheng · Radu Iovita · Chen Feng

ShapeWalk: Compositional Shape Editing Through Language-Guided Chains

Habib Slim · Mohamed Elhoseiny

360+x: A Panoptic Multi-modal Scene Understanding Dataset

Hao Chen · Yuqi Hou · Chenyuan Qu · Irene Testini · Xiaohan Hong · Jianbo Jiao

Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives

Rich Human Feedback for Text-to-Image Generation

TRINS: Towards Multimodal Language Models that Can Read

Ruiyi Zhang · Yanzhe Zhang · Jian Chen · Yufan Zhou · Jiuxiang Gu · Changyou Chen · Tong Sun

MAGICK: A Large-scale Captioned Dataset from Matting Generated Images using Chroma Keying

Ryan Burgert · Brian Price · Jason Kuen · Yijun Li · Michael Ryoo

EFHQ: Multi-purpose ExtremePose-Face-HQ dataset

Trung Dao · Duc H Vu · Cuong Pham · Anh Tran

How to Train Neural Field Representations: A Comprehensive Study and Benchmark

Samuele Papa · Riccardo Valperga · David Knigge · Miltiadis Kofinas · Phillip Lippe · Jan-Jakob Sonke · Efstratios Gavves

BioCLIP: A Vision Foundation Model for the Tree of Life

Samuel Stevens · Jiaman Wu · Matthew Thompson · Elizabeth Campolongo · Chan Hee Song · David Carlyn · Li Dong · Wasila Dahdul · Charles Stewart · Tanya Berger-Wolf · Wei-Lun Chao · Yu Su

A Noisy Elephant in the Room: Is Your Out-of-Distribution Detector Robust to Label Noise?

Galadrielle Humblot-Renaux · Sergio Escalera · Thomas B. Moeslund

eTraM: Event-based Traffic Monitoring Dataset

Aayush Atul Verma · Bharatesh Chakravarthi · Arpitsinh Vaghela · Hua Wei · 'YZ' Yezhou Yang

SubT-MRS Dataset: Pushing SLAM Towards All-weather Environments

Shibo Zhao · Yuanjun Gao · Tianhao Wu · Damanpreet Singh · Rushan Jiang · Haoxiang Sun · Mansi Sarawata · Warren Whittaker · Ian Higgins · Shaoshu Su · Yi Du · Can Xu · John Keller · Jay Karhade · Lucas Nogueira · Sourojit Saha · Yuheng Qiu · Ji Zhang · Wenshan Wang · Chen Wang · Sebastian Scherer

MSU-4S - The Michigan State University Four Seasons Dataset

Daniel Kent · Mohammed Alyaqoub · Xiaohu Lu · Sayed Khatounabadi · Kookjin Sung · Cole Scheller · Alexander Dalat · Xinwei Guo · Asma Bin Thabit · Roberto Muntaner Whitley · Hayder Radha

TUMTraf V2X Cooperative Perception Dataset

Walter Zimmer · Gerhard Arya Wardana · Suren Sritharan · Xingcheng Zhou · Rui Song · Alois Knoll

Multiview Aerial Visual RECognition (MAVREC): Can Multi-view Improve Aerial Visual Perception?

Aritra Dutta · Srijan Das · Jacob Nielsen · RAJATSUBHRA CHAKRABORTY · Mubarak Shah

Towards Co-Evaluation of Cameras HDR and Algorithms for Industrial-Grade 6DoF Pose Estimation

Agastya Kalra · Guy Stoppi · Dmitrii Marin · Vage Taamazyan · Aarrushi Shandilya · Rishav Agarwal · Anton Boykov · Aaron Chong · Michael Stark

Scaling Laws for Data Filtering— Data Curation cannot be Compute Agnostic

Sachin Goyal · Pratyush Maini · Zachary Lipton · Aditi Raghunathan · Zico Kolter

Benchmarking Audio Visual Segmentation for Long-Untrimmed Videos

Chen Liu · Peike Li · Qingtao Yu · Hongwei Sheng · Dadong Wang · Lincheng Li · Xin Yu

MLP Can Be A Good Transformer Learner

Sihao Lin · Pumeng Lyu · Dongrui Liu · Tao Tang · Xiaodan Liang · Andy Song · Xiaojun Chang

From SAM to CAMs: Exploring Segment Anything Model for Weakly Supervised Semantic Segmentation

Hyeokjun Kweon · Kuk-Jin Yoon

Domain-Specific Block Selection and Paired-View Pseudo-Labeling for Online Test-Time Adaptation

Yeonguk Yu · Sungho Shin · Seunghyeok Back · Minhwan Ko · Sangjun Noh · Kyoobin Lee

VideoMAC: Video Masked Autoencoders Meet ConvNets

Gensheng Pei · Tao Chen · Xiruo Jiang · 刘华峰 Liu · Zeren Sun · Yazhou Yao

Unsupervised Universal Image Segmentation

XuDong Wang · Dantong Niu · Xinyang Han · Long Lian · Roei Herzig · Trevor Darrell

VideoCutLER: Surprisingly Simple Unsupervised Video Instance Segmentation

XuDong Wang · Ishan Misra · Ziyun Zeng · Rohit Girdhar · Trevor Darrell

What You See is What You GAN: Rendering Every Pixel for High-Fidelity Geometry in 3D GANs

Alex Trevithick · Matthew Chan · Towaki Takikawa · Umar Iqbal · Shalini De Mello · Manmohan Chandraker · Ravi Ramamoorthi · Koki Nagano

SPOT: Self-Training with Patch-Order Permutation for Object-Centric Learning with Autoregressive Transformers

Ioannis Kakogeorgiou · Spyros Gidaris · Konstantinos Karantzalos · Nikos Komodakis

Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos

Leonhard Sommer · Artur Jesslen · Eddy Ilg · Adam Kortylewski

Distributionally Generative Augmentation for Fair Facial Attribute Classification

Fengda Zhang · Qianpei He · Kun Kuang · Jiashuo Liu · Long Chen · Chao Wu · Jun Xiao · Hanwang Zhang

Estimating Noisy Class Posterior with Part-level Labels for Noisy Label Learning

Rui Zhao · Bin Shi · Jianfei Ruan · Tianze Pan · Bo Dong

Unsupervised Keypoints from Pretrained Diffusion Models

Eric Hedlin · Gopal Sharma · Shweta Mahajan · Xingzhe He · Hossam Isack · Abhishek Kar · Helge Rhodin · Andrea Tagliasacchi · Kwang Moo Yi

Learning to Rank Patches for Unbiased Image Redundancy Reduction

Yang Luo · Zhineng Chen · Peng Zhou · Zuxuan Wu · Xieping Gao · Yu-Gang Jiang

Rethinking the Representation in Federated Unsupervised Learning with Non-IID Data

Xinting Liao · Weiming Liu · Chaochao Chen · Pengyang Zhou · Fengyuan Yu · Huabin Zhu · Binhui Yao · Tao Wang · Xiaolin Zheng · Yanchao Tan

GLID: Pre-training a Generalist Encoder-Decoder Vision Model

Jihao Liu · Jinliang Zheng · Yu Liu · Hongsheng Li

Sequential Modeling Enables Scalable Learning for Large Vision Models

Yutong Bai · Xinyang Geng · Karttikeya Mangalam · Amir Bar · Alan L. Yuille · Trevor Darrell · Jitendra Malik · Alexei A. Efros

VoCo: A Simple-yet-Effective Volume Contrastive Learning Framework for 3D Medical Image Analysis

Linshan Wu · Jia-Xin Zhuang · Hao Chen

Real-IAD: A Real-World Multi-View Dataset for Benchmarking Versatile Industrial Anomaly Detection

Chengjie Wang · wenbing zhu · Bin-Bin Gao · Zhenye Gan · Jiangning Zhang · Zhihao Gu · Bruce Qian · Mingang Chen · Lizhuang Ma

CroSel: Cross Selection of Confident Pseudo Labels for Partial-Label Learning

Shiyu Tian · Hongxin Wei · Yiqun Wang · Lei Feng

BEM: Balanced and Entropy-based Mix for Long-Tailed Semi-Supervised Learning

Hongwei Zheng · Linyuan Zhou · Han Li · Jinming Su · Xiaoming Wei · Xu Xiaoming

ReCoRe: Regularized Contrastive Representation Learning of World Model

Rudra P,K. Poudel · Harit Pandya · Stephan Liwicki · Roberto Cipolla

Universal Novelty Detection Through Adaptive Contrastive Learning

Hossein Mirzaei · Mojtaba Nafez · Mohammad Jafari · Mohammad Soltani · Mohammad Azizmalayeri · Jafar Habibi · Mohammad Sabokrou · Mohammad Rohban

Learning to Count without Annotations

Lukas Knobel · Tengda Han · Yuki Asano

Point Cloud Pre-training with Diffusion Models

xiao zheng · Xiaoshui Huang · Guofeng Mei · Zhaoyang Lyu · Yuenan Hou · Wanli Ouyang · Bo Dai · Yongshun Gong

Improving Unsupervised Hierarchical Representation with Reinforcement Learning

Ruyi An · Yewen Li · Xu He · Pengjie Gu · Mengchen Zhao · Dong Li · Jianye Hao · Bo An · Chaojie Wang · Mingyuan Zhou

Investigating and Mitigating the Side Effects of Noisy Views for Self-Supervised Clustering Algorithms in Practical Multi-View Scenarios

Jie Xu · Yazhou Ren · Xiaolong Wang · Lei Feng · Zheng Zhang · Gang Niu · Xiaofeng Zhu

Self-Supervised Representation Learning from Arbitrary Scenarios

Zhaowen Li · Yousong Zhu · Zhiyang Chen · Zongxin Gao · Rui Zhao · Chaoyang Zhao · Ming Tang · Jinqiao Wang

Learning SO(3)-Invariant Semantic Correspondence via Local Shape Transform

Chunghyun Park · Seungwook Kim · Jaesik Park · Minsu Cho

A Bayesian Approach to OOD Robustness in Image Classification

Prakhar Kaushik · Adam Kortylewski · Alan L. Yuille

Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training

Yipeng Gao · Zeyu Wang · Wei-Shi Zheng · Cihang Xie · Yuyin Zhou

Solving Masked Jigsaw Puzzles with Diffusion Vision Transformers

Jinyang Liu · Wondmgezahu Teshome · Sandesh Ghimire · Mario Sznaier · Octavia Camps

DS-NeRV: Implicit Neural Video Representation with Decomposed Static and Dynamic Codes

Hao Yan · Zhihui Ke · Xiaobo Zhou · Tie Qiu · Xidong Shi · DaDong Jiang

Brain Decodes Deep Nets

Huzheng Yang · James Gee · Jianbo Shi

Pose-Guided Self-Training with Two-Stage Clustering for Unsupervised Landmark Discovery

Siddharth Tourani · Ahmed Alwheibi · Arif Mahmood · Muhammad Haris Khan

Mitigating Object Dependencies: Improving Point Cloud Self-Supervised Learning through Object Exchange

Yanhao Wu · Tong Zhang · Wei Ke · Congpei Qiu · Sabine Süsstrunk · Mathieu Salzmann

Adaptive Slot Attention: Object Discovery with Dynamic Slot Number

Ke Fan · Zechen Bai · Tianjun Xiao · Tong He · Max Horn · Yanwei Fu · Francesco Locatello · Zheng Zhang

Targeted Representation Alignment for Open-World Semi-Supervised Learning

Ruixuan Xiao · Lei Feng · Kai Tang · Junbo Zhao · Yixuan Li · Gang Chen · Haobo Wang

Hierarchical Correlation Clustering and Tree Preserving Embedding

Morteza Haghir Chehreghani · Mostafa Haghir Chehreghani

Contrastive Mean-Shift Learning for Generalized Category Discovery

Sua Choi · Dahyun Kang · Minsu Cho

CuVLER: Enhanced Unsupervised Object Discoveries through Exhaustive Self-Supervised Transformers

Shahaf Arica · Or Rubin · Sapir Gershov · Shlomi Laufer

SODA: Bottleneck Diffusion Models for Representation Learning

Drew Hudson · Daniel Zoran · Mateusz Malinowski · Andrew Lampinen · Andrew Jaegle · James McClelland · Loic Matthey · Felix Hill · Alexander Lerchner

HPL-ESS: Hybrid Pseudo-Labeling for Unsupervised Event-based Semantic Segmentation

Linglin Jing · Yiming Ding · Yunpeng Gao · Zhigang Wang · Xu Yan · Dong Wang · Gerald Schaefer · Hui Fang · Bin Zhao · Xuelong Li

Positive-Unlabeled Learning by Latent Group-Aware Meta Disambiguation

Lin Long · Haobo Wang · Zhijie Jiang · Lei Feng · Chang Yao · Gang Chen · Junbo Zhao

Aligning Logits Generatively for Principled Black-Box Knowledge Distillation

Jing Ma · Xiang Xiang · Ke Wang · Yuchuan Wu · Yongbin Li

Improving Semantic Correspondence with Viewpoint-Guided Spherical Maps

Octave Mariotti · Oisin Mac Aodha · Hakan Bilen

Neural Modes: Self-supervised Learning of Nonlinear Modal Subspaces

Jiahong Wang · Yinwei DU · Stelian Coros · Bernhard Thomaszewski

Decentralized Directed Collaboration for Personalized Federated Learning

Yingqi Liu · Yifan Shi · Qinglun Li · Baoyuan Wu · Xueqian Wang · Li Shen

Improving Graph Contrastive Learning via Adaptive Positive Sampling

Jiaming Zhuo · Feiyang Qin · Can Cui · Kun Fu · Bingxin Niu · Mengzhu Wang · Yuanfang Guo · Chuan Wang · Zhen Wang · Xiaochun Cao · Liang Yang

Integrating Efficient Optimal Transport and Functional Maps For Unsupervised Shape Correspondence Learning

Tung Le · Khai Nguyen · Shanlin Sun · Nhat Ho · Xiaohui Xie

Unsupervised Feature Learning with Emergent Data-Driven Prototypicality

Yunhui Guo · Youren Zhang · Yubei Chen · Stella X. Yu

Label Propagation for Zero-shot Classification with Vision-Language Models

Vladan Stojnić · Yannis Kalantidis · Giorgos Tolias

Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters

Jiazuo Yu · Yunzhi Zhuge · Lu Zhang · Ping Hu · Dong Wang · Huchuan Lu · You He

Backpropagation-free Network for 3D Test-time Adaptation

YANSHUO WANG · Ali Cheraghian · Zeeshan Hayder · JIE HONG · Sameera Ramasinghe · Shafin Rahman · David Ahmedt-Aristizabal · Xuesong Li · Lars Petersson · Mehrtash Harandi

GDA: Generalized Diffusion for Robust Test-time Adaptation

Yun-Yun Tsai · Fu-Chen Chen · Albert Chen · Junfeng Yang · Che-Chun Su · Min Sun · Cheng-Hao Kuo

Semantically-Shifted Incremental Adapter-Tuning is A Continual ViTransformer

Yuwen Tan · Qinhao Zhou · Xiang Xiang · Ke Wang · Yuchuan Wu · Yongbin Li

Few-shot Learner Parameterization by Diffusion Time-steps

Zhongqi Yue · Pan Zhou · Richang Hong · Hanwang Zhang · Qianru Sun

FREE: Faster and Better Data-Free Meta-Learning

Yongxian Wei · Zixuan Hu · Zhenyi Wang · Li Shen · Chun Yuan · Dacheng Tao

Classes Are Not Equal: An Empirical Study on Image Recognition Fairness

Jiequan Cui · Beier Zhu · Xin Wen · Xiaojuan Qi · Bei Yu · Hanwang Zhang

DAVE - A Detect-and-Verify Paradigm for Low-Shot Counting

Jer Pelhan · Alan Lukezic · Vitjan Zavrtanik · Matej Kristan

Density-guided Translator Boosts Synthetic-to-Real Unsupervised Domain Adaptive Segmentation of 3D Point Clouds

Zhimin Yuan · Wankang Zeng · Yanfei Su · Weiquan Liu · Ming Cheng · Yulan Guo · Cheng Wang

D3T: Distinctive Dual-Domain Teacher Zigzagging Across RGB-Thermal Gap for Domain-Adaptive Object Detection

Dinh Phat Do · Taehoon Kim · JAEMIN NA · Jiwon Kim · Keonho LEE · Kyunghwan Cho · Wonjun Hwang

AMU-Tuning: Effective Logit Bias for CLIP-based Few-shot Learning

Yuwei Tang · ZhenYi Lin · Qilong Wang · Pengfei Zhu · Qinghua Hu

LEAD: Learning Decomposition for Source-free Universal Domain Adaptation

Sanqing Qu · Tianpei Zou · Lianghua He · Florian Röhrbein · Alois Knoll · Guang Chen · Changjun Jiang

Improving Generalized Zero-Shot Learning by Exploring the Diverse Semantics from External Class Names

Yapeng Li · Yong Luo · Zengmao Wang · Bo Du

What How and When Should Object Detectors Update in Continually Changing Test Domains?

Jayeon Yoo · Dongkwan Lee · Inseop Chung · Donghyun Kim · Nojun Kwak

Split to Merge: Unifying Separated Modalities for Unsupervised Domain Adaptation

Xinyao Li · Yuke Li · Zhekai Du · Fengling Li · Ke Lu · Jingjing Li

Domain-Agnostic Mutual Prompting for Unsupervised Domain Adaptation

Zhekai Du · Xinyao Li · Fengling Li · Ke Lu · Lei Zhu · Jingjing Li

Improving the Generalization of Segmentation Foundation Model under Distribution Shift via Weakly Supervised Adaptation

Haojie Zhang · Yongyi Su · Xun Xu · Kui Jia

DeiT-LT: Distillation Strikes Back for Vision Transformer Training on Long-Tailed Datasets

Harsh Rangwani · Pradipto Mondal · Mayank Mishra · Ashish Asokan · R. Venkatesh Babu

Unified Language-driven Zero-shot Domain Adaptation

Senqiao Yang · Zhuotao Tian · Li Jiang · Jiaya Jia

Stable Neighbor Denoising for Source-free Domain Adaptive Segmentation

Dong Zhao · Shuang Wang · Qi Zang · Licheng Jiao · Nicu Sebe · Zhun Zhong

A Simple Recipe for Language-guided Domain Generalized Segmentation

Mohammad Fahes · TUAN-HUNG VU · Andrei Bursuc · Patrick Pérez · Raoul de Charette

TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model

Hantao Yao · Rui Zhang · Changsheng Xu

Adapters Strike Back

Jan-Martin Steitz · Stefan Roth

Improving Plasticity in Online Continual Learning via Collaborative Learning

Maorong Wang · Nicolas Michel · Ling Xiao · Toshihiko Yamasaki

Visual Prompting for Generalized Few-shot Segmentation: A Multi-scale Approach

Mir Rayat Imtiaz Hossain · Mennatullah Siam · Leonid Sigal · Jim Little

Adaptive Random Feature Regularization on Fine-tuning Deep Neural Networks

Shin'ya Yamaguchi · Sekitoshi Kanai · Kazuki Adachi · Daiki Chijiwa

ESCAPE: Encoding Super-keypoints for Category-Agnostic Pose Estimation

Khoi D Nguyen · Chen Li · Gim Hee Lee

PracticalDG: Perturbation Distillation on Vision-Language Models for Hybrid Domain Generalization

Zining Chen · Weiqiu Wang · Zhicheng Zhao · Fei Su · Aidong Men · Hongying Meng

Rethinking Multi-domain Generalization with A General Learning Objective

Zhaorui Tan · Xi Yang · Kaizhu Huang

L2B: Learning to Bootstrap Robust Models for Combating Label Noise

Yuyin Zhou · Xianhang li · Fengze Liu · Qingyue Wei · Xuxi Chen · Lequan Yu · Cihang Xie · Matthew P. Lungren · Lei Xing

Meta-Point Learning and Refining for Category-Agnostic Pose Estimation

Junjie Chen · Jiebin Yan · Yuming Fang · Li Niu

A2XP: Towards Private Domain Generalization

Geunhyeok Yu · Hyoseok Hwang

Expandable Subspace Ensemble for Pre-Trained Model-Based Class-Incremental Learning

Da-Wei Zhou · Hai-Long Sun · Han-Jia Ye · De-Chuan Zhan

VRP-SAM: SAM with Visual Reference Prompt

Yanpeng Sun · Jiahui Chen · Shan Zhang · Xinyu Zhang · Qiang Chen · gang zhang · Errui Ding · Jingdong Wang · Zechao Li

Flatten Long-Range Loss Landscapes for Cross-Domain Few-Shot Learning

Yixiong Zou · Yicong Liu · Yiman Hu · Yuhua Li · Ruixuan Li

MAP: MAsk-Pruning for Source-Free Model Intellectual Property Protection

Boyang Peng · Sanqing Qu · Yong Wu · Tianpei Zou · Lianghua He · Alois Knoll · Guang Chen · Changjun Jiang

Disentangled Prompt Representation for Domain Generalization

De Cheng · Zhipeng Xu · XINYANG JIANG · Nannan Wang · Dongsheng Li · Xinbo Gao

Adapt Before Comparison: A New Perspective on Cross-Domain Few-Shot Segmentation

Jonas Herzog

Convolutional Prompting meets Language Models for Continual Learning

Anurag Roy · Riddhiman Moulick · Vinay Verma · Saptarshi Ghosh · Abir Das

Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning

Wenjin Hou · Shiming Chen · Shuhuang Chen · Ziming Hong · Yan Wang · Xuetao Feng · Salman Khan · Fahad Shahbaz Khan · Xinge You

InfLoRA: Interference-Free Low-Rank Adaptation for Continual Learning

Yan-Shuo Liang · Wu-Jun Li

Discriminative Pattern Calibration Mechanism for Source-Free Domain Adaptation

Haifeng Xia · Siyu Xia · Zhengming Ding

NICE: Neurogenesis Inspired Contextual Encoding for Replay-free Class Incremental Learning

Mustafa B Gurbuz · Jean Moorman · Constantine Dovrolis

Orchestrate Latent Expertise: Advancing Online Continual Learning with Multi-Level Supervision and Reverse Self-Distillation

Hongwei Yan · Liyuan Wang · Kaisheng Ma · Yi Zhong

A Closer Look at the Few-Shot Adaptation of Large Vision-Language Models

Julio Silva-Rodríguez · Sina Hajimiri · Ismail Ben Ayed · Jose Dolz

Towards Generalizing to Unseen Domains with Few Labels

Chamuditha Jayanga Galappaththige · Sanoojan Baliah · Malitha Gunawardhana · Muhammad Haris Khan

Improved Self-Training for Test-Time Adaptation

Jing Ma

Source-Free Domain Adaptation with Frozen Multimodal Foundation Model

Song Tang · Wenxin Su · Mao Ye · Xiatian Zhu

Deep Imbalanced Regression via Hierarchical Classification Adjustment

Haipeng Xiong · Angela Yao

A Versatile Framework for Continual Test-Time Domain Adaptation: Balancing Discriminability and Generalizability

Xu Yang · Xuan chen · Moqi Li · Kun Wei · Cheng Deng

DYSON: Dynamic Feature Space Self-Organization for Online Task-Free Class Incremental Learning

Yuhang He · YingJie Chen · Yuhan Jin · Songlin Dong · Xing Wei · Yihong Gong

Test-Time Linear Out-of-Distribution Detection

Ke Fan · Tong Liu · Xingyu Qiu · Yikai Wang · Lian Huai · Zeyu Shangguan · Shuang Gou · FENGJIAN LIU · Yuqian Fu · Yanwei Fu · Xingqun Jiang

LTGC: Long-tail Recognition via Leveraging LLMs-driven Generated Content

Qihao Zhao · Yalun Dai · Hao Li · Wei Hu · Fan Zhang · Jun Liu

APSeg: Auto-Prompt Network for Cross-Domain Few-Shot Semantic Segmentation

Weizhao He · Yang Zhang · Wei Zhuo · Linlin Shen · Jiaqi Yang · Songhe Deng · Liang Sun

LP++: A Surprisingly Strong Linear Probe for Few-Shot CLIP

Yunshi HUANG · Fereshteh Shakeri · Jose Dolz · Malik Boudiaf · Houda Bahig · Ismail Ben Ayed

On the Test-Time Zero-Shot Generalization of Vision-Language Models: Do We Really Need Prompt Learning?

Maxime Zanella · Ismail Ben Ayed

Discriminative Sample-Guided and Parameter-Efficient Feature Space Adaptation for Cross-Domain Few-Shot Learning

Rashindrie Perera · Saman Halgamuge

Regularized Parameter Uncertainty for Improving Generalization in Reinforcement Learning

Pehuen Moure · Longbiao Cheng · Joachim Ott · Zuowen Wang · Shih-Chii Liu

An Empirical Study of the Generalization Ability of Lidar 3D Object Detectors to Unseen Domains

George Eskandar

MMA: Multi-Modal Adapter for Vision-Language Models

Lingxiao Yang · Ru-Yuan Zhang · Yanchen Wang · Xiaohua Xie

PerAda: Parameter-Efficient Federated Learning Personalization with Generalization Guarantees

Chulin Xie · De-An Huang · Wenda Chu · Daguang Xu · Chaowei Xiao · Bo Li · Anima Anandkumar

Bayesian Exploration of Pre-trained Models for Low-shot Image Classification

Yibo Miao · Yu lei · Feng Zhou · Zhijie Deng

NAYER: Noisy Layer Data Generation for Efficient and Effective Data-free Knowledge Distillation

Minh-Tuan Tran · Trung Le · Xuan-May Le · Mehrtash Harandi · Quan Tran · Dinh Phung

Text-Enhanced Data-free Approach for Federated Class-Incremental Learning

Minh-Tuan Tran · Trung Le · Xuan-May Le · Mehrtash Harandi · Dinh Phung

Pre-trained Vision and Language Transformers Are Few-Shot Incremental Learners

Keon Hee Park · Kyungwoo Song · Gyeong-Moon Park

CDMAD: Class-Distribution-Mismatch-Aware Debiasing for Class-Imbalanced Semi-Supervised Learning

Hyuck Lee · Heeyoung Kim

TEA: Test-time Energy Adaptation

Yige Yuan · Bingbing Xu · Liang Hou · Fei Sun · Huawei Shen · Xueqi Cheng

Universal Semi-Supervised Domain Adaptation by Mitigating Common-Class Bias

Wenyu Zhang · Qingmu Liu · Felix Ong · Mohamed Ragab · Chuan-Sheng Foo

Leveraging Vision-Language Models for Improving Domain Generalization in Image Classification

Sravanti Addepalli · Ashish Asokan · Lakshay Sharma · R. Venkatesh Babu

Learning Equi-angular Representations for Online Continual Learning

Minhyuk Seo · Hyunseo Koh · Wonje Jeung · Minjae Lee · San Kim · Hankook Lee · Sungjun Cho · Sungik Choi · Hyunwoo Kim · Jonghyun Choi

Open-Set Domain Adaptation for Semantic Segmentation

Seun-An Choe · Ah-Hyung Shin · Keon Hee Park · Jinwoo Choi · Gyeong-Moon Park

Task-Adaptive Saliency Guidance for Exemplar-free Class Incremental Learning

Xialei Liu · Jiang-Tian Zhai · Andrew Bagdanov · Ke Li · Ming-Ming Cheng

Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning

Shiming Chen · Wenjin Hou · Salman Khan · Fahad Shahbaz Khan

Unified Entropy Optimization for Open-Set Test-Time Adaptation

Zhengqing Gao · Xu-Yao Zhang · Cheng-Lin Liu

FedSelect: Personalized Federated Learning with Customized Selection of Parameters for Fine-Tuning

Rishub Tamirisa · Chulin Xie · Wenxuan Bao · Andy Zhou · Ron Arel · Aviv Shamsian

Dual-Enhanced Coreset Selection with Class-wise Collaboration for Online Blurry Class Incremental Learning

Yutian Luo · Shiqi Zhao · Haoran Wu · Zhiwu Lu

Troika: Multi-Path Cross-Modal Traction for Compositional Zero-Shot Learning

Siteng Huang · Biao Gong · Yutong Feng · Zhang Min · Yiliang Lv · Donglin Wang

Unveiling the Unknown: Unleashing the Power of Unknown to Known in Open-Set Source-Free Domain Adaptation

Fuli Wan · Han Zhao · Xu Yang · Cheng Deng

Dual-Consistency Model Inversion for Non-Exemplar Class Incremental Learning

Zihuan Qiu · Yi Xu · Fanman Meng · Hongliang Li · Linfeng Xu · Qingbo Wu

Domain-Rectifying Adapter for Cross-Domain Few-Shot Segmentation

Jiapeng Su · Qi Fan · Wenjie Pei · Guangming Lu · Fanglin Chen

Overcoming Generic Knowledge Loss with Selective Parameter Update

Wenxuan Zhang · Paul Janson · Rahaf Aljundi · Mohamed Elhoseiny

BrainWash: A Poisoning Attack to Forget in Continual Learning

Ali Abbasi · Parsa Nooralinejad · Hamed Pirsiavash · Soheil Kolouri

Enhancing Visual Continual Learning with Language-Guided Supervision

Bolin Ni · Hongbo Zhao · Chenghao Zhang · Ke Hu · Gaofeng Meng · Zhaoxiang Zhang · Shiming Xiang

Go to Event Page

Session

Art Program

10:30 AM - 6:45 PM

Friday 21st June

11am\ Gallery Tour with Curator and Artists
2:45pm\ Conference Keynote: Sofia Crespo

... more

Oral

Orals 6B Image & Video Synthesis

1:00 PM - 2:30 PM

Overflow in Signature Room on the 5th Floor in Summit

... more

5 Events in this session

Alchemist: Parametric Control of Material Properties with Diffusion Models

Prafull Sharma · Varun Jampani · Yuanzhen Li · Xuhui Jia · Dmitry Lagun · Fredo Durand · William Freeman · Mark Matthews

Generative Image Dynamics

Zhengqi Li · Richard Tucker · Noah Snavely · Aleksander Holynski

Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models

Daniel Geng · Inbum Park · Andrew Owens

MonoHair: High-Fidelity Hair Modeling from a Monocular Video

Keyu Wu · LINGCHEN YANG · Zhiyi Kuang · Yao Feng · Xutao Han · Yuefan Shen · Hongbo Fu · Kun Zhou · Youyi Zheng

Analyzing and Improving the Training Dynamics of Diffusion Models

Tero Karras · Miika Aittala · Jaakko Lehtinen · Janne Hellsten · Timo Aila · Samuli Laine

Go to Event Page

Oral

Orals 6A Low-level vision and remote sensing

1:00 PM - 2:30 PM

5 Events in this session

LDP: Language-driven Dual-Pixel Image Defocus Deblurring Network

Hao Yang · Liyuan Pan · Yan Yang · Richard Hartley · Miaomiao Liu

S2MAE: A Spatial-Spectral Pretraining Foundation Model for Spectral Remote Sensing Data

Xuyang Li · Danfeng Hong · Jocelyn Chanussot

Task-Driven Wavelets using Constrained Empirical Risk Minimization

Eric Marcus · Ray Sheombarsing · Jan-Jakob Sonke · Jonas Teuwen

Image Processing GNN: Breaking Rigidity in Super-Resolution

Yuchuan Tian · Hanting Chen · Chao Xu · Yunhe Wang

DART: Implicit Doppler Tomography for Radar Novel View Synthesis

Tianshu Huang · John Miller · Akarsh Prabhakara · Tao Jin · Tarana Laroia · Zico Kolter · Anthony Rowe

Go to Event Page

Oral

Orals 6C Multi-modal learning

1:00 PM - 2:30 PM

5 Events in this session

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

Zhe Chen · Jiannan Wu · Wenhai Wang · Weijie Su · Guo Chen · Sen Xing · Zhong Muyan · Qing-Long Zhang · Xizhou Zhu · Lewei Lu · Bin Li · Ping Luo · Tong Lu · Yu Qiao · Jifeng Dai

Describing Differences in Image Sets with Natural Language

Lisa Dunlap · Yuhui Zhang · Xiaohan Wang · Ruiqi Zhong · Trevor Darrell · Jacob Steinhardt · Joseph Gonzalez · Serena Yeung

NoiseCLR: A Contrastive Learning Approach for Unsupervised Discovery of Interpretable Directions in Diffusion Models

Yusuf Dalva · Pinar Yanardag

MetaCloak: Preventing Unauthorized Subject-driven Text-to-image Diffusion-based Synthesis via Meta-learning

Yixin Liu · Chenrui Fan · Yutong Dai · Xun Chen · Pan Zhou · Lichao Sun

EGTR: Extracting Graph from Transformer for Scene Graph Generation

Jinbae Im · JeongYeon Nam · Nokyung Park · Hyungmin Lee · Seunghyun Park

Go to Event Page

Invited Talk

Entanglements, Exploring Artificial Biodiversity

Sofia Crespo

2:45 PM - 3:45 PM

Sofia Crespo discusses her artistic practice and creative journey, focusing on the use of generative systems, and particularly neural networks, as a means to explore speculative lifeforms.

... more

Speaker Bio

Sofia Crespo is an artist working with a huge interest in biology-inspired technologies. One of her main focuses is the way organic life uses artificial mechanisms to simulate itself and evolve, this implying the idea that technologies are a biased product of the organic life that created them and not a completely separated object. Crespo looks at the similarities between techniques of AI image formation, and the way that humans express themselves creatively and cognitively recognize their world. Her work brings into question the potential of AI in artistic practice and its ability to reshape our understandings of creativity. On the side, she is also hugely concerned with the dynamic change in the role of the artists working with machine learning techniques. She's also one half of the artist duo Entangled Others alongside Feileacan McCormick.

... more

Invited Talk

CVPR: past, present, and future

Dima Damen · Cordelia Schmid · Ranjay Krishna

4:00 PM - 5:00 PM

(Overflow A&B)

Moderator: Kiana Ehsani, Senior Research Scientist @PRIOR @Allen Institute for AI

Panelists:

Dima Damen, Professor of Computer Vision, University of Bristol and Senior Research Scientist at Google DeepMind.

Cordelia Schmidt, Head of the THOTH project team at INRIA

Ranjay Krishna, Assistant Professor, University of Washington

... more

Dima Damen - Speaker Bio

**Dima Damen** is a Professor of Computer Vision at the University of Bristol and Senior Research Scientist at Google DeepMind. Dima is currently an EPSRC Fellow (2020-2025), focusing her research interests in the automatic understanding of object interactions, actions and activities using wearable visual (and depth) sensors. She is best known for her leading works in Egocentric Vision, and has also contributed to novel research questions including mono-to-3D, video object segmentation, assessing action completion, domain adaptation, skill/expertise determination from video sequences, discovering task-relevant objects, dual-domain and dual-time learning as well as multi-modal fusion using vision, audio and language. She is the project lead for EPIC-KITCHENS, the seminal dataset in egocentric vision, with accompanying open challenges and follow-up works: EPIC-Sounds, VISOR and EPIC Fields. She is part of the large-scale consortium effort Ego4D and Ego-Exo4D. Dima is Associate Editor-in-Chief of IEEE TPAMI and associate editor of IJCV, and was a program chair for ICCV 2021. She is frequently an Area Chair in major conferences and was selected as Outstanding Reviewer in CVPR2021, CVPR2020, ICCV2017, CVPR2013 and CVPR2012. At Google DeepMind, Dima is part of the Vision team, led by Andrew Zisserman, focusing on video understanding research. Her latest contribution is to the [Perception Test](https://deepmind.google/discover/blog/measuring-perception-in-ai-models/) project on measuring perception in AI models

... more

Cordelia Schmid - Speaker Bio

Cordelia Schmid holds a M.S. degree in Computer Science from the University of Karlsruhe and a Doctorate, also in Computer Science, from the Institut National Polytechnique de Grenoble (INPG). Her doctoral thesis on "Local Greyvalue Invariants for Image Matching and Retrieval" received the best thesis award from INPG in 1996. She received the Habilitation degree in 2001 for her thesis entitled "From Image Matching to Learning Visual Models". Dr. Schmid was a post-doctoral research assistant in the Robotics Research Group of Oxford University in 1996--1997. Since 1997 she has held a permanent research position at INRIA Rhone-Alpes, where she is a research director and directs an INRIA team. Dr. Schmid is the author of over a hundred technical publications. She has been an Associate Editor for IEEE PAMI (2001--2005) and for IJCV (2004--2012), editor-in-chief for IJCV (2013---), a program chair of IEEE CVPR 2005 and ECCV 2012 as well as a general chair of IEEE CVPR 2015. In 2006, 2014 and 2016, she was awarded the Longuet-Higgins prize for fundamental contributions in computer vision that have withstood the test of time. She is a fellow of IEEE. She was awarded an ERC advanced grant in 2013, the Humbolt research award in 2015 and the Inria & French Academy of Science Grand Prix in 2016. She was elected to the German National Academy of Sciences, Leopoldina, in 2017. In 2018 she received th Koenderink prize for fundamental contributions in computer vision that have withstood the test of time. Starting 2018 she holds a joint appointment with Google research.

... more

Ranjay Krishna - Speaker Bio

Ranjay Krishna is an Assistant Professor at the Paul G. Allen School of Computer Science & Engineering. His research lies at the intersection of computer vision and human computer interaction. This research has received best paper, outstanding paper, and orals at CVPR, ACL, CSCW, NeurIPS, UIST, and ECCV, and has been reported by Science, Forbes, the Wall Street Journal, and PBS NOVA. His research has been supported by Google, Amazon, Cisco, Toyota Research Institute, NSF, ONR, and Yahoo. He holds a bachelor's degree in Electrical & Computer Engineering and in Computer Science from Cornell University, a master's degree in Computer Science from Stanford University and a Ph.D. in Computer Science from Stanford University.

... more

Poster

Poster Session 6 & Exhibit Hall

5:00 PM - 6:30 PM

452 Events in this session

MonoHair: High-Fidelity Hair Modeling from a Monocular Video

Keyu Wu · LINGCHEN YANG · Zhiyi Kuang · Yao Feng · Xutao Han · Yuefan Shen · Hongbo Fu · Kun Zhou · Youyi Zheng

BadCLIP: Trigger-Aware Prompt Learning for Backdoor Attacks on CLIP

Jiawang Bai · Kuofeng Gao · Shaobo Min · Shu-Tao Xia · Zhifeng Li · Wei Liu

Semantic-Aware Multi-Label Adversarial Attacks

Hassan Mahmood · Ehsan Elhamifar

Defense without Forgetting: Continual Adversarial Defense with Anisotropic & Isotropic Pseudo Replay

Yuhang Zhou · Zhongyun Hua

Learning to Transform Dynamically for Better Adversarial Transferability

Rongyi Zhu · Zeliang Zhang · Susan Liang · Zhuo Liu · Chenliang Xu

Infrared Adversarial Car Stickers

Xiaopei Zhu · Yuqiu Liu · Zhanhao Hu · Jianmin Li · Xiaolin Hu

Unsegment Anything by Simulating Deformation

Jiahao Lu · Xingyi Yang · Xinchao Wang

Efficient Model Stealing Defense with Noise Transition Matrix

Dong-Dong Wu · Chilin Fu · Weichang Wu · Wenwen Xia · Xiaolu Zhang · JUN ZHOU · Min-Ling Zhang

Fully Exploiting Every Real Sample: SuperPixel Sample Gradient Model Stealing

Yunlong Zhao · Xiaoheng Deng · Yijing Liu · Xinjun Pei · Jiazhi Xia · Wei Chen

Hide in Thicket: Generating Imperceptible and Rational Adversarial Perturbations on 3D Point Clouds

Tianrui Lou · Xiaojun Jia · Jindong Gu · Li Liu · Siyuan Liang · Bangyan He · Xiaochun Cao

Boosting Adversarial Transferability by Block Shuffle and Rotation

Kunyu Wang · he xuanran · Wenxuan Wang · Xiaosen Wang

Robust Overfitting Does Matter: Test-Time Adversarial Purification With FGSM

Linyu Tang · Lei Zhang

Data Poisoning based Backdoor Attacks to Contrastive Learning

Jinghuai Zhang · Hongbin Liu · Jinyuan Jia · Neil Zhenqiang Gong

NAPGuard: Towards Detecting Naturalistic Adversarial Patches

Siyang Wu · Jiakai Wang · Jiejie Zhao · Yazhe Wang · Xianglong Liu

Ensemble Diversity Facilitates Adversarial Transferability

Bowen Tang · Zheng Wang · Yi Bin · Qi Dou · Yang Yang · Heng Tao Shen

Revamping Federated Learning Security from a Defender's Perspective: A Unified Defense with Homomorphic Encrypted Data Space

Naveen Kumar Kummari · Reshmi Mitra · Krishna Mohan Chalavadi

Can Protective Perturbation Safeguard Personal Data from Being Exploited by Stable Diffusion?

Zhengyue Zhao · Jinhao Duan · Kaidi Xu · Chenan Wang · Rui Zhang · Zidong Du · Qi Guo · Xing Hu

One Prompt Word is Enough to Boost Adversarial Robustness for Pre-trained Vision-Language Models

Lin Li · Haoyan Guan · Jianing Qiu · Michael Spratling

Watermark-embedded Adversarial Examples for Copyright Protection against Diffusion Models

Peifei Zhu · Tsubasa Takahashi · Hirokatsu Kataoka

Not All Prompts Are Secure: A Switchable Backdoor Attack Against Pre-trained Vision Transfomers

Sheng Yang · Jiawang Bai · Kuofeng Gao · Yong Yang · Yiming Li · Shu-Tao Xia

Focus on Hiders: Exploring Hidden Threats for Enhancing Adversarial Training

Qian Li · Yuxiao Hu · Yinpeng Dong · Dongxiao Zhang · Yuntian Chen

Physical 3D Adversarial Attacks against Monocular Depth Estimation in Autonomous Driving

Junhao Zheng · Chenhao Lin · Jiahao Sun · Zhengyu Zhao · Qian Li · Chao Shen

Distraction is All You Need: Memory-Efficient Image Immunization against Diffusion-Based Image Editing

Ling Lo · Cheng Yeo · Hong-Han Shuai · Wen-Huang Cheng

PAD: Patch-Agnostic Defense against Adversarial Patch Attacks

Lihua Jing · Rui Wang · Wenqi Ren · Xin Dong · Cong Zou

PeerAiD: Improving Adversarial Distillation from a Specialized Peer Tutor

Jaewon Jung · Hongsun Jang · Jaeyong Song · Jinho Lee

Revisiting Adversarial Training Under Long-Tailed Distributions

Xinli Yue · Ningping Mou · Qian Wang · Lingchen Zhao

Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness

Sibo Wang · Jie Zhang · Zheng Yuan · Shiguang Shan

Towards Transferable Targeted 3D Adversarial Attack in the Physical World

Yao Huang · Yinpeng Dong · Shouwei Ruan · Xiao Yang · Hang Su · Xingxing Wei

Nearest is Not Dearest: Towards Practical Defense against Quantization-conditioned Backdoor Attacks

Boheng Li · Yishuo Cai · Haowei Li · Feng Xue · Zhifeng Li · Yiming Li

Perturbing Attention Gives You More Bang for the Buck: Subtle Imaging Perturbations That Efficiently Fool Customized Diffusion Models

Jingyao Xu · Yuetong Lu · Yandong Li · Siyang Lu · Dongdong Wang · Xiang Wei

Boosting Adversarial Training via Fisher-Rao Norm-based Regularization

Xiangyu Yin · Wenjie Ruan

Random Entangled Tokens for Adversarially Robust Vision Transformer

Huihui Gong · Minjing Dong · Siqi Ma · Seyit Camtepe · Surya Nepal · Chang Xu

Backdoor Defense via Test-Time Detecting and Repairing

Jiyang Guan · Jian Liang · Ran He

1-Lipschitz Layers Compared: Memory Speed and Certifiable Robustness

Bernd Prach · Fabio Brau · Giorgio Buttazzo · Christoph Lampert

DiffAM: Diffusion-based Adversarial Makeup Transfer for Facial Privacy Protection

Yuhao Sun · Lingyun Yu · Hongtao Xie · Jiaming Li · Yongdong Zhang

DAP: A Dynamic Adversarial Patch for Evading Person Detectors

Amira Guesmi · Ruitian Ding · Muhammad Abdullah Hanif · Ihsen Alouani · Muhammad Shafique

Adversarial Distillation Based on Slack Matching and Attribution Region Alignment

Shenglin Yin · Zhen Xiao · Mingxuan Song · Jieyi Long

Improving Transferable Targeted Adversarial Attacks with Model Self-Enhancement

Han Wu · Guanyan Ou · Weibin Wu · Zibin Zheng

On the Robustness of Large Multimodal Models Against Image Adversarial Attacks

Xuanming Cui · Alejandro Aparcedo · Young Kyun Jang · Ser-Nam Lim

Intriguing Properties of Diffusion Models: An Empirical Study of the Natural Attack Capability in Text-to-Image Generative Models

Takami Sato · Justin Yue · Nanze Chen · Ningfei Wang · Alfred Chen

BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive Learning

Siyuan Liang · Mingli Zhu · Aishan Liu · Baoyuan Wu · Xiaochun Cao · Ee-Chien Chang

MMCert: Provable Defense against Adversarial Attacks to Multi-modal Models

Yanting Wang · Hongye Fu · Wei Zou · Jinyuan Jia

MimicDiffusion: Purifying Adversarial Perturbation via Mimicking Clean Diffusion Model

Kaiyu Song · Hanjiang Lai · Yan Pan · Jian Yin

Revisiting Adversarial Training at Scale

Zeyu Wang · Xianhang li · Hongru Zhu · Cihang Xie

Language-Driven Anchors for Zero-Shot Adversarial Robustness

Xiao Li · Wei Zhang · Yining Liu · Zhanhao Hu · Bo Zhang · Xiaolin Hu

Transferable Structural Sparse Adversarial Attack Via Exact Group Sparsity Training

Di Ming · Peng Ren · Yunlong Wang · Xin Feng

Fooling Polarization-Based Vision using Locally Controllable Polarizing Projection

Zhuoxiao Li · Zhihang Zhong · Shohei Nobuhara · Ko Nishino · Yinqiang Zheng

Overload: Latency Attacks on Object Detection for Edge Devices

Erh-Chung Chen · Pin-Yu Chen · I-Hsin Chung · Che-Rung Lee

Attack To Defend: Exploiting Adversarial Attacks for Detecting Poisoned Models

Samar Fares · Karthik Nandakumar

Towards Understanding and Improving Adversarial Robustness of Vision Transformers

Samyak Jain · Tanima Dutta

Towards Fairness-Aware Adversarial Learning

Yanghao Zhang · Tianle Zhang · Ronghui Mu · Xiaowei Huang · Wenjie Ruan

Byzantine-robust Decentralized Federated Learning via Dual-domain Clustering and Trust Bootstrapping

Peng Sun · Xinyang Liu · Zhibo Wang · Bo Liu

Towards General Robustness Verification of MaxPool-based Convolutional Neural Networks via Tightening Linear Approximation

Yuan Xiao · Shiqing Ma · Juan Zhai · Chunrong Fang · Jinyuan Jia · Zhenyu Chen

Soften to Defend: Towards Adversarial Robustness via Self-Guided Label Refinement

Daiwei Yu · Zhuorong Li · Lina Wei · Canghong Jin · Yun Zhang · Sixian Chan

SlowFormer: Adversarial Attack on Compute and Energy Consumption of Efficient Vision Transformers

Navaneet K L · Soroush Abbasi Koohpayegani · Essam Sleiman · Hamed Pirsiavash

LOTUS: Evasive and Resilient Backdoor Attacks through Sub-Partitioning

Siyuan Cheng · Guanhong Tao · Yingqi Liu · Guangyu Shen · Shengwei An · Shiwei Feng · Xiangzhe Xu · Kaiyuan Zhang · Shiqing Ma · Xiangyu Zhang

Deep-TROJ: An Inference Stage Trojan Insertion Algorithm through Efficient Weight Replacement Attack

Sabbir Ahmed · RANYANG ZHOU · Shaahin Angizi · Adnan Rakin Rakin

Semantic Shield: Defending Vision-Language Models Against Backdooring and Poisoning via Fine-grained Knowledge Alignment

Alvi Md Ishmam · Chris Thomas

Initialization Matters for Adversarial Transfer Learning

Andong Hua · Jindong Gu · Zhiyu Xue · Nicholas Carlini · Eric Wong · Yao Qin

Strong Transferable Adversarial Attacks via Ensembled Asymptotically Normal Distribution Learning

Zhengwei Fang · Rui Wang · Tao Huang · Liping Jing

HDRFlow: Real-Time HDR Video Reconstruction with Large Motions

Gangwei Xu · Yujin Wang · Jinwei Gu · Tianfan Xue · Xin Yang

A Physics-informed Low-rank Deep Neural Network for Blind and Universal Lens Aberration Correction

Jin Gong · Runzhao Yang · Weihang Zhang · Jinli Suo · Qionghai Dai

Super-Resolution Reconstruction from Bayer-Pattern Spike Streams

Yanchen Dong · Ruiqin Xiong · Jian Zhang · Zhaofei Yu · Xiaopeng Fan · Shuyuan Zhu · Tiejun Huang

In2SET: Intra-Inter Similarity Exploiting Transformer for Dual-Camera Compressive Hyperspectral Imaging

Xin Wang · Lizhi Wang · Xiangtian Ma · Maoqing Zhang · Lin Zhu · Hua Huang

SuperSVG: Superpixel-based Scalable Vector Graphics Synthesis

Teng Hu · Ran Yi · Baihong Qian · Jiangning Zhang · Paul L. Rosin · Yu-Kun Lai

Language-driven All-in-one Adverse Weather Removal

Hao Yang · Liyuan Pan · Yan Yang · Wei Liang

LDP: Language-driven Dual-Pixel Image Defocus Deblurring Network

Hao Yang · Liyuan Pan · Yan Yang · Richard Hartley · Miaomiao Liu

Language-guided Image Reflection Separation

Haofeng Zhong · Yuchen Hong · Shuchen Weng · Jinxiu Liang · Boxin Shi

Time-Efficient Light-Field Acquisition Using Coded Aperture and Events

Shuji Habuchi · Keita Takahashi · Chihiro Tsutake · Toshiaki Fujii · Hajime Nagahara

NB-GTR: Narrow-Band Guided Turbulence Removal

Yifei Xia · Chu Zhou · Chengxuan Zhu · Minggui Teng · Chao Xu · Boxin Shi

Complementing Event Streams and RGB Frames for Hand Mesh Reconstruction

Jianping Jiang · xinyu zhou · Bingxuan Wang · Xiaoming Deng · Chao Xu · Boxin Shi

Boosting Spike Camera Image Reconstruction from a Perspective of Dealing with Spike Fluctuations

Rui Zhao · Ruiqin Xiong · Jing Zhao · Jian Zhang · Xiaopeng Fan · Zhaofei Yu · Tiejun Huang

Frequency-aware Event-based Video Deblurring for Real-World Motion Blur

Taewoo Kim · Hoonhee Cho · Kuk-Jin Yoon

Latency Correction for Event-guided Deblurring and Frame Interpolation

Yixin Yang · Jinxiu Liang · Bohan Yu · Yan Chen · Jimmy S. Ren · Boxin Shi

Learning to Remove Wrinkled Transparent Film with Polarized Prior

Jiaqi Tang · RUIZHENG WU · Xiaogang Xu · Sixing Hu · Ying-Cong Chen

Dispersed Structured Light for Hyperspectral 3D Imaging

Suhyun Shin · Seokjun Choi · Felix Heide · Seung-Hwan Baek

Generalized Event Cameras

Varun Sundar · Matthew Dutson · Andrei Ardelean · Claudio Bruschini · Edoardo Charbon · Mohit Gupta

Intensity-Robust Autofocus for Spike Camera

Changqing Su · Zhiyuan Ye · Yongsheng Xiao · You Zhou · Zhen Cheng · Bo Xiong · Zhaofei Yu · Tiejun Huang

Selective Nonlinearities Removal from Digital Signals

Krzysztof Maliszewski · Magdalena Urbanska · Varvara Vetrova · Sylwia Kolenderska

Close Imitation of Expert Retouching for Black-and-White Photography

Seunghyun Shin · Jisu Shin · Jihwan Bae · Inwook Shim · Hae-Gon Jeon

Spike-guided Motion Deblurring with Unknown Modal Spatiotemporal Alignment

Jiyuan Zhang · Shiyan Chen · Yajing Zheng · Zhaofei Yu · Tiejun Huang

Coherence As Texture – Passive Textureless 3D Reconstruction by Self-interference

Wei-Yu Chen · Aswin C. Sankaranarayanan · Anat Levin · Matthew O’Toole

TurboSL: Dense Accurate and Fast 3D by Neural Inverse Structured Light

Parsa Mirdehghan · Maxx Wu · Wenzheng Chen · David B. Lindell · Kiriakos Kutulakos

SPIDeRS: Structured Polarization for Invisible Depth and Reflectance Sensing

Tomoki Ichikawa · Shohei Nobuhara · Ko Nishino

CPP-Net: Embracing Multi-Scale Feature Fusion into Deep Unfolding CP-PPA Network for Compressive Sensing

Zhen Guo · Hongping Gan

SwitchLight: Co-design of Physics-driven Architecture and Pre-training Framework for Human Portrait Relighting

Hoon Kim · Minje Jang · Wonjun Yoon · Jisoo Lee · Donghyun Na · Sanghyun Woo

Diffeomorphic Template Registration for Atmospheric Turbulence Mitigation

Dong Lao · Congli Wang · Alex Wong · Stefano Soatto

Towards HDR and HFR Video from Rolling-Mixed-Bit Spikings

Yakun Chang · Yeliduosi Xiaokaiti · Yujia Liu · Bin Fan · Zhaojun Huang · Tiejun Huang · Boxin Shi

Progressive Divide-and-Conquer via Subsampling Decomposition for Accelerated MRI

Chong Wang · Lanqing Guo · Yufei Wang · Hao Cheng · Yi Yu · Bihan Wen

Generative Quanta Color Imaging

Vishal Purohit · Junjie Luo · Yiheng Chi · Qi Guo · Stanley H. Chan · Qiang Qiu

UFC-Net: Unrolling Fixed-point Continuous Network for Deep Compressive Sensing

Xiaoyang Wang · Hongping Gan

Batch Normalization Alleviates the Spectral Bias in Coordinate Networks

Zhicheng Cai · Hao Zhu · Qiu Shen · Xinran Wang · Xun Cao

EVS-assisted Joint Deblurring Rolling-Shutter Correction and Video Frame Interpolation through Sensor Inverse Modeling

Rui Jiang · Fangwen Tu · Yixuan Long · Aabhaas Vaish · Bowen Zhou · Qinyi Wang · Wei Zhang · Yuntan Fang · Luis Eduardo García Capel · Bo Mu · Tiejun Dai · Andreas Suess

Unsupervised Deep Unrolling Networks for Phase Unwrapping

Zhile Chen · Yuhui Quan · Hui Ji

LAN: Learning to Adapt Noise for Image Denoising

Changjin Kim · Tae Hyun Kim · Sungyong Baik

Snapshot Lidar: Fourier Embedding of Amplitude and Phase for Single-Image Depth Reconstruction

Sarah Friday · Yunzi Shi · Yaswanth Kumar Cherivirala · Vishwanath Saragadam · Adithya Pediredla

FC-GNN: Recovering Reliable and Accurate Correspondences from Interferences

Haobo Xu · Jun Zhou · Hua Yang · Renjie Pan · Cunyan Li

Projecting Trackable Thermal Patterns for Dynamic Computer Vision

Mark Sheinin · Aswin C. Sankaranarayanan · Srinivasa G. Narasimhan

PixelRNN: In-pixel Recurrent Neural Networks for End-to-end–optimized Perception with Neural Sensors

Haley So · Laurie Bose · Piotr Dudek · Gordon Wetzstein

Image Restoration by Denoising Diffusion Models with Iteratively Preconditioned Guidance

Tomer Garber · Tom Tirer

DART: Implicit Doppler Tomography for Radar Novel View Synthesis

Tianshu Huang · John Miller · Akarsh Prabhakara · Tao Jin · Tarana Laroia · Zico Kolter · Anthony Rowe

Equivariant Plug-and-Play Image Reconstruction

Matthieu Terris · Thomas Moreau · Nelly Pustelnik · Julián Tachella

CodedEvents: Optimal Point-Spread-Function Engineering for 3D-Tracking with Event Cameras

Sachin Shah · Matthew Chan · Haoming Cai · Jingxi Chen · Sakshum Kulshrestha · Chahat Deep Singh · Yiannis Aloimonos · Christopher Metzler

WaveMo: Learning Wavefront Modulations to See Through Scattering

Mingyang Xie · Haiyun Guo · Brandon Y. Feng · Lingbo Jin · Ashok Veeraraghavan · Christopher Metzler

Turb-Seg-Res: A Segment-then-Restore Pipeline for Dynamic Videos with Atmospheric Turbulence

Ripon Saha · Dehao Qin · Nianyi Li · Jinwei Ye · Suren Jayasuriya

DiffSCI: Zero-Shot Snapshot Compressive Imaging via Iterative Spectral Diffusion Model

Zhenghao Pan · Haijin Zeng · Jiezhang Cao · Kai Zhang · Yongyong Chen

Resolution Limit of Single-Photon LiDAR

Stanley H. Chan · Hashan K Weerasooriya · Weijian Zhang · Pamela Abshire · Istvan Gyongy · Robert Henderson

QN-Mixer: A Quasi-Newton MLP-Mixer Model for Sparse-View CT Reconstruction

Ishak Ayad · Nicolas Larue · Mai K. Nguyen

Dual-Scale Transformer for Large-Scale Single-Pixel Imaging

Gang Qu · Ping Wang · Xin Yuan

Rolling Shutter Correction with Intermediate Distortion Flow Estimation

Mingdeng Cao · Sidi Yang · Yujiu Yang · Yinqiang Zheng

Passive Snapshot Coded Aperture Dual-Pixel RGB-D Imaging

Bhargav Ghanekar · Salman Siddique Khan · Pranav Sharma · Shreyas Singh · Vivek Boominathan · Kaushik Mitra · Ashok Veeraraghavan

Single View Refractive Index Tomography with Neural Fields

Brandon Zhao · Aviad Levis · Liam Connor · Pratul P. Srinivasan · Katherine Bouman

SPECAT: SPatial-spEctral Cumulative-Attention Transformer for High-Resolution Hyperspectral Image Reconstruction

Zhiyang Yao · Shuyang Liu · Xiaoyun Yuan · Lu Fang

Task-Driven Wavelets using Constrained Empirical Risk Minimization

Eric Marcus · Ray Sheombarsing · Jan-Jakob Sonke · Jonas Teuwen

Describing Differences in Image Sets with Natural Language

Lisa Dunlap · Yuhui Zhang · Xiaohan Wang · Ruiqi Zhong · Trevor Darrell · Jacob Steinhardt · Joseph Gonzalez · Serena Yeung

Alchemist: Parametric Control of Material Properties with Diffusion Models

Prafull Sharma · Varun Jampani · Yuanzhen Li · Xuhui Jia · Dmitry Lagun · Fredo Durand · William Freeman · Mark Matthews

Generative Image Dynamics

Zhengqi Li · Richard Tucker · Noah Snavely · Aleksander Holynski

Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models

Daniel Geng · Inbum Park · Andrew Owens

NoiseCLR: A Contrastive Learning Approach for Unsupervised Discovery of Interpretable Directions in Diffusion Models

Yusuf Dalva · Pinar Yanardag

Analyzing and Improving the Training Dynamics of Diffusion Models

Tero Karras · Miika Aittala · Jaakko Lehtinen · Janne Hellsten · Timo Aila · Samuli Laine

Fourier Priors-Guided Diffusion for Zero-Shot Joint Low-Light Enhancement and Deblurring

Xiaoqian Lv · Shengping Zhang · Chenyang Wang · Yichen Zheng · Bineng Zhong · Chongyi Li · Liqiang Nie

Color Shift Estimation-and-Correction for Image Enhancement

Yiyu Li · Ke Xu · Gerhard Hancke · Rynson W.H. Lau

Video Super-Resolution Transformer with Masked Inter&Intra-Frame Attention

Xingyu Zhou · Leheng Zhang · Xiaorui Zhao · Keze Wang · Leida Li · Shuhang Gu

Distilling Semantic Priors from SAM to Efficient Image Restoration Models

Quan Zhang · Xiaoyu Liu · Wei Li · Hanting Chen · Junchao Liu · Jie Hu · Zhiwei Xiong · Chun Yuan · Yunhe Wang

Beyond Average: Individualized Visual Scanpath Prediction

Xianyu Chen · Ming Jiang · Qi Zhao

Multimodal Prompt Perceiver: Empower Adaptiveness Generalizability and Fidelity for All-in-One Image Restoration

Yuang Ai · Huaibo Huang · Xiaoqiang Zhou · Jiexiang Wang · Ran He

Selective Hourglass Mapping for Universal Image Restoration Based on Diffusion Model

Dian Zheng · Xiao-Ming Wu · Shuzhou Yang · Jian Zhang · Jian-Fang Hu · Wei-Shi Zheng

SeeSR: Towards Semantics-Aware Real-World Image Super-Resolution

Rongyuan Wu · Tao Yang · Lingchen Sun · Zhengqiang ZHANG · Shuai Li · Lei Zhang

Revisiting Single Image Reflection Removal In the Wild

Yurui Zhu · Bo Li · Xueyang Fu · Peng-Tao Jiang · Hao Zhang · Qibin Sun · Zheng-Jun Zha · Jinwei Chen

ODCR: Orthogonal Decoupling Contrastive Regularization for Unpaired Image Dehazing

Zhongze Wang · Haitao Zhao · Jingchao Peng · Lujian Yao · Kaijie Zhao

Q-Instruct: Improving Low-level Visual Abilities for Multi-modality Foundation Models

Haoning Wu · Zicheng Zhang · Erli Zhang · Chaofeng Chen · Liang Liao · Annan Wang · Kaixin Xu · Chunyi Li · Jingwen Hou · Guangtao Zhai · Xue Geng · Wenxiu Sun · Qiong Yan · Weisi Lin

Enhancing Quality of Compressed Images by Mitigating Enhancement Bias Towards Compression Domain

Qunliang Xing · Mai Xu · Shengxi Li · Xin Deng · Meisong Zheng · huaida liu · Ying Chen

Attentive Illumination Decomposition Model for Multi-Illuminant White Balancing

Dongyoung Kim · Jinwoo Kim · Junsang Yu · Seon Joo Kim

NightCC: Nighttime Color Constancy via Adaptive Channel Masking

Shuwei Li · Robby T. Tan

Navigating Beyond Dropout: An Intriguing Solution towards Generalizable Image Super Resolution

Hongjun Wang · Jiyuan Chen · Yinqiang Zheng · Tieyong Zeng

Learning Inclusion Matching for Animation Paint Bucket Colorization

Yuekun Dai · Shangchen Zhou · Blake Li · Chongyi Li · Chen Change Loy

Defense Against Adversarial Attacks on No-Reference Image Quality Models with Gradient Norm Regularization

Yujia Liu · Chenxi Yang · Dingquan Li · Jianhao Ding · Tingting Jiang

Towards Backward-Compatible Continual Learning of Image Compression

Zhihao Duan · Ming Lu · Justin Yang · Jiangpeng He · Zhan Ma · Fengqing Zhu

APISR: Anime Production Inspired Real-World Anime Super-Resolution

Boyang Wang · Fengyu Yang · Xihang Yu · Chao Zhang · Hanbin Zhao

Unifying Automatic and Interactive Matting with Pretrained ViTs

Zixuan Ye · Wenze Liu · He Guo · Yujia Liang · Chaoyi Hong · Hao Lu · Zhiguo Cao

Motion-adaptive Separable Collaborative Filters for Blind Motion Deblurring

Chengxu Liu · Xuan Wang · Xiangyu Xu · Ruhao Tian · Shuai Li · Xueming Qian · Ming-Hsuan Yang

Genuine Knowledge from Practice: Diffusion Test-Time Adaptation for Video Adverse Weather Removal

Yijun Yang · Hongtao Wu · Angelica I. Aviles-Rivero · Yulun Zhang · Jing Qin · Lei Zhu

HomoFormer: Homogenized Transformer for Image Shadow Removal

Jie Xiao · Xueyang Fu · Yurui Zhu · Dong Li · Jie Huang · Kai Zhu · Zheng-Jun Zha

Bidirectional Multi-Scale Implicit Neural Representations for Image Deraining

Xiang Chen · Jinshan Pan · Jiangxin Dong

LED: A Large-scale Real-world Paired Dataset for Event Camera Denoising

Yuxing Duan

Seeing Motion at Nighttime with an Event Camera

Haoyue Liu · Shihan Peng · Lin Zhu · Yi Chang · Hanyu Zhou · Luxin Yan

Leveraging Frame Affinity for sRGB-to-RAW Video De-rendering

Chen Zhang · Wencheng Han · Yang Zhou · Jianbing Shen · Cheng-Zhong Xu · Wentao Liu

Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild

Fanghua Yu · Jinjin Gu · Zheyuan Li · Jinfan Hu · Xiangtao Kong · Xintao Wang · Jingwen He · Yu Qiao · Chao Dong

AdaRevD: Adaptive Patch Exiting Reversible Decoder Pushes the Limit of Image Deblurring

Xintian Mao · Xiwen Gao · Yan Wang

Unsupervised Blind Image Deblurring Based on Self-Enhancement

Lufei Chen · Xiangpeng Tian · Shuhua Xiong · Yinjie Lei · Chao Ren

TTA-EVF: Test-Time Adaptation for Event-based Video Frame Interpolation via Reliable Pixel and Sample Estimation

Hoonhee Cho · Taewoo Kim · Yuhwan Jeong · Kuk-Jin Yoon

Learning Coupled Dictionaries from Unpaired Data for Image Super-Resolution

Longguang Wang · Juncheng Li · Yingqian Wang · Qingyong Hu · Yulan Guo

Empowering Resampling Operation for Ultra-High-Definition Image Enhancement with Model-Aware Guidance

Yu · Jie Huang · Li · Kaiwen Zheng · Qi Zhu · Man Zhou · Feng Zhao

Generating Content for HDR Deghosting from Frequency View

Tao Hu · Qingsen Yan · Yuankai Qi · Yanning Zhang

Dual Prior Unfolding for Snapshot Compressive Imaging

Jiancheng Zhang · Haijin Zeng · Jiezhang Cao · Yongyong Chen · Dengxiu Yu · Yinping Zhao

Binarized Low-light Raw Video Enhancement

Gengchen Zhang · Yulun Zhang · Xin Yuan · Ying Fu

Neural Spline Fields for Burst Image Fusion and Layer Separation

Ilya Chugunov · David Shustin · Ruyu Yan · Chenyang Lei · Felix Heide

Learning Degradation-Independent Representations for Camera ISP Pipelines

Yanhui Guo · Fangzhou Luo · Xiaolin Wu

SeD: Semantic-Aware Discriminator for Image Super-Resolution

Bingchen Li · Xin Li · Hanxin Zhu · YEYING JIN · Ruoyu Feng · Zhizheng Zhang · Zhibo Chen

SinSR: Diffusion-Based Image Super-Resolution in a Single Step

Yufei Wang · Wenhan Yang · Xinyuan Chen · Yaohui Wang · Lanqing Guo · Lap-Pui Chau · Ziwei Liu · Yu Qiao · Alex C. Kot · Bihan Wen

Self-Adaptive Reality-Guided Diffusion for Artifact-Free Super-Resolution

Qingping Zheng · Ling Zheng · Yuanfan Guo · Ying Li · Songcen Xu · Jiankang Deng · Hang Xu

Improving Spectral Snapshot Reconstruction with Spectral-Spatial Rectification

Jiancheng Zhang · Haijin Zeng · Yongyong Chen · Dengxiu Yu · Yinping Zhao

Diffusion-based Blind Text Image Super-Resolution

Yuzhe Zhang · jiawei zhang · Hao Li · Zhouxia Wang · Luwei Hou · Dongqing Zou · Liheng Bian

CAMixerSR: Only Details Need More "Attention"

Yan Wang · Yi Liu · Shijie Zhao · Junlin Li · Li zhang

ID-Blau: Image Deblurring by Implicit Diffusion-based reBLurring AUgmentation

Jia-Hao Wu · Fu-Jen Tsai · Yan-Tsung Peng · Charles Tsai · Chia-Wen Lin · Yen-Yu Lin

Low-Res Leads the Way: Improving Generalization for Super-Resolution by Self-Supervised Learning

Haoyu Chen · Wenbo Li · Jinjin Gu · Jingjing Ren · Haoze Sun · Xueyi Zou · Youliang Yan · Zhensong Zhang · Lei Zhu

CoSeR: Bridging Image and Language for Cognitive Super-Resolution

Haoze Sun · Wenbo Li · Jianzhuang Liu · Haoyu Chen · Renjing Pei · Xueyi Zou · Youliang Yan · Yujiu Yang

Real-World Efficient Blind Motion Deblurring via Blur Pixel Discretization

Insoo Kim · Jae Seok Choi · Geonseok Seo · Kinam Kwon · Jinwoo Shin · Hyong-Euk Lee

SeNM-VAE: Semi-Supervised Noise Modeling with Hierarchical Variational Autoencoder

Dihan Zheng · Yihang Zou · Xiaowen Zhang · Chenglong Bao

Text-guided Explorable Image Super-resolution

Kanchana Vaishnavi Gandikota · Paramanand Chandramouli

Equivariant Multi-Modality Image Fusion

Zixiang Zhao · Haowen Bai · Jiangshe Zhang · Yulun Zhang · Kai Zhang · Shuang Xu · Dongdong Chen · Radu Timofte · Luc Van Gool

Revisiting Spatial-Frequency Information Integration from a Hierarchical Perspective for Panchromatic and Multi-Spectral Image Fusion

Jiangtong Tan · Jie Huang · Naishan Zheng · Man Zhou · Keyu Yan · Danfeng Hong · Feng Zhao

MCNet: Rethinking the Core Ingredients for Accurate and Efficient Homography Estimation

Haokai Zhu · Si-Yuan Cao · Jianxin Hu · Sitong Zuo · Beinan Yu · Jiacheng Ying · Junwei Li · Hui-Liang Shen

Contrastive Pre-Training with Multi-View Fusion for No-Reference Point Cloud Quality Assessment

Ziyu Shan · Yujie Zhang · Qi Yang · Haichen Yang · Yiling Xu · Jenq-Neng Hwang · Xiaozhong Xu · Shan Liu

MuGE: Multiple Granularity Edge Detection

Caixia Zhou · Yaping Huang · Mengyang Pu · Qingji Guan · Ruoxi Deng · Haibin Ling

KVQ: Kwai Video Quality Assessment for Short-form Videos

Yiting Lu · Xin Li · Yajing Pei · Kun Yuan · Qizhi Xie · Yunpeng Qu · Ming Sun · Chao Zhou · Zhibo Chen

Transfer CLIP for Generalizable Image Denoising

Jun Cheng · Dong Liang · Shan Tan

Improved Implicit Neural Representation with Fourier Reparameterized Training

Kexuan Shi · Xingyu Zhou · Shuhang Gu

Deep Video Inverse Tone Mapping Based on Temporal Clues

Yuyao Ye · Ning Zhang · Yang Zhao · Hongbin Cao · Ronggang Wang

Boosting Flow-based Generative Super-Resolution Models via Learned Prior

Li-Yuan Tsao · Yi-Chen Lo · Chia-Che Chang · Hao-Wei Chen · Roy Tseng · Chien Feng · Chun-Yi Lee

Look-Up Table Compression for Efficient Image Restoration

Yinglong Li · Jiacheng Li · Zhiwei Xiong

Latent Modulated Function for Computational Optimal Continuous Image Representation

Zongyao He · Zhi Jin

Task-Aware Encoder Control for Deep Video Compression

Xingtong Ge · Jixiang Luo · XINJIE ZHANG · Tongda Xu · Guo Lu · Dailan He · Jing Geng · Yan Wang · Jun Zhang · Hongwei Qin

A Dynamic Kernel Prior Model for Unsupervised Blind Image Super-Resolution

Zhixiong Yang · Jingyuan Xia · Shengxi Li · Xinghua Huang · Shuanghui Zhang · Zhen Liu · Yaowen Fu · Yongxiang Liu

Zero-Reference Low-Light Enhancement via Physical Quadruple Priors

Wenjing Wang · Huan Yang · Jianlong Fu · Jiaying Liu

ParamISP: Learned Forward and Inverse ISPs using Camera Parameters

Woohyeok Kim · Geonu Kim · Junyong Lee · Seungyong Lee · Seung-Hwan Baek · Sunghyun Cho

FSC: Few-point Shape Completion

Xianzu Wu · Xianfeng Wu · Tianyu Luan · Yajing Bai · Zhongyuan Lai · Junsong Yuan

Generative Latent Coding for Ultra-Low Bitrate Image Compression

Zhaoyang Jia · Jiahao Li · Bin Li · Houqiang Li · Yan Lu

Neural Video Compression with Feature Modulation

Jiahao Li · Bin Li · Yan Lu

Driving-Video Dehazing with Non-Aligned Regularization for Safety Assistance

Junkai Fan · Jiangwei Weng · Kun Wang · Yijun Yang · Jianjun Qian · Jun Li · Jian Yang

Image Processing GNN: Breaking Rigidity in Super-Resolution

Yuchuan Tian · Hanting Chen · Chao Xu · Yunhe Wang

CFAT: Unleashing Triangular Windows for Image Super-resolution

Abhisek Ray · Gaurav Kumar · Maheshkumar Kolekar

Zero-Shot Structure-Preserving Diffusion Model for High Dynamic Range Tone Mapping

Ruoxi Zhu · Shusong Xu · Peiye Liu · Sicheng Li · Yanheng Lu · Dimin Niu · Zihao Liu · Zihao Meng · Li Zhiyong · Xinhua Chen · Yibo Fan

Calibrating Multi-modal Representations: A Pursuit of Group Robustness without Annotations

Chenyu You · Yifei Min · Weicheng Dai · Jasjeet Sekhon · Lawrence Staib · James Duncan

Learn from View Correlation: An Anchor Enhancement Strategy for Multi-view Clustering

Suyuan Liu · KE LIANG · Zhibin Dong · Siwei Wang · Xihong Yang · sihang zhou · En Zhu · Xinwang Liu

Circuit Design and Efficient Simulation of Quantum Inner Product and Empirical Studies of Its Effect on Near-Term Hybrid Quantum-Classic Machine Learning

Hao Xiong · Yehui Tang · Xinyu Ye · Junchi Yan

Discriminability-Driven Channel Selection for Out-of-Distribution Detection

Yue Yuan · Rundong He · Yicong Dong · Zhongyi Han · Yilong Yin

Efficient Hyperparameter Optimization with Adaptive Fidelity Identification

Jiantong Jiang · Zeyi Wen · Atif Mansoor · Ajmal Mian

Probabilistic Sampling of Balanced K-Means using Adiabatic Quantum Computing

Jan-Nico Zaech · Martin Danelljan · Tolga Birdal · Luc Van Gool

Online Task-Free Continual Generative and Discriminative Learning via Dynamic Cluster Memory

飞叶 · Adrian Bors

S²MVTC: a Simple yet Efficient Scalable Multi-View Tensor Clustering

Zhen Long · Qiyuan Wang · Yazhou Ren · Yipeng Liu · Ce Zhu

Spanning Training Progress: Temporal Dual-Depth Scoring (TDDS) for Enhanced Dataset Pruning

xin zhang · Jiawei Du · Weiying Xie · Yunsong Li · Joey Tianyi Zhou

An Aggregation-Free Federated Learning for Tackling Data Heterogeneity

Yuan Wang · Huazhu Fu · Renuga Kanagavelu · Qingsong Wei · Yong Liu · Rick Goh

POCE: Primal Policy Optimization with Conservative Estimation for Multi-constraint Offline Reinforcement Learning

Jiayi Guan · Li Shen · Ao Zhou · Lusong Li · Han Hu · Xiaodong He · Guang Chen · Changjun Jiang

SVDinsTN: A Tensor Network Paradigm for Efficient Structure Search from Regularized Modeling Perspective

Yu-Bang Zheng · Xile Zhao · Junhua Zeng · Chao Li · Qibin Zhao · Heng-Chao Li · Ting-Zhu Huang

Fine-Grained Bipartite Concept Factorization for Clustering

Chong Peng · Pengfei Zhang · Yongyong Chen · zhao kang · Chenglizhao Chen · Qiang Cheng

Embodied Multi-Modal Agent trained by an LLM from a Parallel TextWorld

Yijun Yang · Tianyi Zhou · kanxue Li · Dapeng Tao · Lusong Li · Li Shen · Xiaodong He · Jing Jiang · Yuhui Shi

The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes

Myeongseob Ko · Feiyang Kang · Weiyan Shi · Ming Jin · Zhou Yu · Ruoxi Jia

Improved Baselines with Visual Instruction Tuning

Haotian Liu · Chunyuan Li · Yuheng Li · Yong Jae Lee

Linguistic-Aware Patch Slimming Framework for Fine-grained Cross-Modal Alignment

Zheren Fu · Lei Zhang · Hou Xia · Zhendong Mao

FlowVQTalker: High-Quality Emotional Talking Face Generation through Normalizing Flow and Quantization

Shuai Tan · Bin Ji · Ye Pan

Audio-Visual Segmentation via Unlabeled Frame Exploitation

Jinxiang Liu · Yikun Liu · Ferenas · Chen Ju · Ya Zhang · Yanfeng Wang

Binding Touch to Everything: Learning Unified Multimodal Tactile Representations

Fengyu Yang · Chao Feng · Ziyang Chen · Hyoungseob Park · Daniel Wang · Yiming Dou · Ziyao Zeng · xien chen · Suchisrit Gangopadhyay · Andrew Owens · Alex Wong

MoDE: CLIP Data Experts via Clustering

Jiawei Ma · Po-Yao Huang · Saining Xie · Shang-Wen Li · Luke Zettlemoyer · Shih-Fu Chang · Wen-tau Yih · Hu Xu

X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization

Anna Kukleva · Fadime Sener · Edoardo Remelli · Bugra Tekin · Eric Sauser · Bernt Schiele · Shugao Ma

PixelLM: Pixel Reasoning with Large Multimodal Model

Zhongwei Ren · Zhicheng Huang · Yunchao Wei · Yao Zhao · Dongmei Fu · Jiashi Feng · Xiaojie Jin

Probing Synergistic High-Order Interaction in Infrared and Visible Image Fusion

Naishan Zheng · Man Zhou · Jie Huang · Junming Hou · Haoying Li · Yuan Xu · Feng Zhao

The Audio-Visual Conversational Graph: From an Egocentric-Exocentric Perspective

Wenqi Jia · Miao Liu · Hao Jiang · Ishwarya Ananthabhotla · James Rehg · Vamsi Krishna Ithapu · Ruohan Gao

MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in 3D World

Yining Hong · Zishuo Zheng · Peihao Chen · Yian Wang · Junyan Li · Chuang Gan

GPT4Point: A Unified Framework for Point-Language Understanding and Generation

Zhangyang Qi · Ye Fang · Zeyi Sun · Xiaoyang Wu · Tong Wu · Jiaqi Wang · Dahua Lin · Hengshuang Zhao

LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding Reasoning and Planning

Sijin Chen · Xin Chen · Chi Zhang · Mingsheng Li · Gang Yu · Hao Fei · Hongyuan Zhu · Jiayuan Fan · Tao Chen

Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision Language Audio and Action

Jiasen Lu · Christopher Clark · Sangho Lee · Zichen Zhang · Savya Khosla · Ryan Marten · Derek Hoiem · Aniruddha Kembhavi

SHAP-EDITOR: Instruction-Guided Latent 3D Editing in Seconds

Minghao Chen · Junyu Xie · Iro Laina · Andrea Vedaldi

Learning to Visually Localize Sound Sources from Mixtures without Prior Source Knowledge

Dongjin Kim · Sung Jin Um · Sangmin Lee · Jung Uk Kim

Bring Event into RGB and LiDAR: Hierarchical Visual-Motion Fusion for Scene Flow

Hanyu Zhou · Yi Chang · Zhiwei Shi

Dispel Darkness for Better Fusion: A Controllable Visual Enhancer based on Cross-modal Conditional Adversarial Learning

HAO ZHANG · Linfeng Tang · Xinyu Xiang · Xuhui Zuo · Jiayi Ma

Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation

Yuanhong Chen · Yuyuan Liu · Hu Wang · Fengbei Liu · Chong Wang · Helen Frazer · Gustavo Carneiro

DMR: Decomposed Multi-Modality Representations for Frames and Events Fusion in Visual Reinforcement Learning

Haoran Xu · Peixi Peng · Guang Tan · Yuan Li · Xinhai Xu · Yonghong Tian

Text-Guided Variational Image Generation for Industrial Anomaly Detection and Segmentation

Mingyu Lee · Jongwon Choi

Tactile-Augmented Radiance Fields

Yiming Dou · Fengyu Yang · Yi Liu · Antonio Loquercio · Andrew Owens

LION: Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge

Gongwei Chen · Leyang Shen · Rui Shao · Xiang Deng · Liqiang Nie

SDSTrack: Self-Distillation Symmetric Adapter Learning for Multi-Modal Visual Object Tracking

Xiaojun Hou · Jiazheng Xing · Yijie Qian · Yaowei Guo · Shuo Xin · Junhao Chen · Kai Tang · Mengmeng Wang · Zhengkai Jiang · Liang Liu · Yong Liu

Exploring the Transferability of Visual Prompting for Multimodal Large Language Models

Yichi Zhang · Yinpeng Dong · Siyuan Zhang · Tianzan Min · Hang Su · Jun Zhu

Mask Grounding for Referring Image Segmentation

Yong Xien Chng · Henry Zheng · Yizeng Han · Xuchong QIU · Gao Huang

OneLLM: One Framework to Align All Modalities with Language

Jiaming Han · Kaixiong Gong · Yiyuan Zhang · Jiaqi Wang · Kaipeng Zhang · Dahua Lin · Yu Qiao · Peng Gao · Xiangyu Yue

EmoVIT: Revolutionizing Emotion Insights with Visual Instruction Tuning

Hongxia Xie · Chu-Jun Peng · Yu-Wen Tseng · Hung-Jen Chen · Chan-Feng Hsu · Hong-Han Shuai · Wen-Huang Cheng

ModaVerse: Efficiently Transforming Modalities with LLMs

Xinyu Wang · Bohan Zhuang · Qi Wu

PromptKD: Unsupervised Prompt Distillation for Vision-Language Models

Zheng Li · Xiang Li · xinyi fu · Xin Zhang · Weiqiang Wang · Shuo Chen · Jian Yang

Dynamic Prompt Optimizing for Text-to-Image Generation

Wenyi Mo · Tianyu Zhang · Yalong Bai · Bing Su · Ji-Rong Wen · Qing Yang

Domain Prompt Learning with Quaternion Networks

Qinglong Cao · Zhengqin Xu · Yuntian Chen · Chao Ma · Xiaokang Yang

ViT-Lens: Towards Omni-modal Representations

Stan Weixian Lei · Yixiao Ge · Kun Yi · Jianfeng Zhang · Difei Gao · Dylan Sun · Yuying Ge · Ying Shan · Mike Zheng Shou

Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation

Sihan liu · Yiwei Ma · Xiaoqing Zhang · Haowei Wang · Jiayi Ji · Xiaoshuai Sun · Rongrong Ji

Cyclic Learning for Binaural Audio Generation and Localization

Zhaojian Li · Bin Zhao · Yuan Yuan

Learning to Rematch Mismatched Pairs for Robust Cross-Modal Retrieval

Haochen Han · Qinghua Zheng · Guang Dai · Minnan Luo · Jingdong Wang

VILA: On Pre-training for Visual Language Models

Ji Lin · Danny Yin · Wei Ping · Pavlo Molchanov · Mohammad Shoeybi · Song Han

A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense Captions

Jack Urbanek · Florian Bordes · Pietro Astolfi · Mary Williamson · Vasu Sharma · Adriana Romero-Soriano

How to Configure Good In-Context Sequence for Visual Question Answering

Li Li · Jiawei Peng · huiyi chen · Chongyang Gao · Xu Yang

CrossMAE: Cross-Modality Masked Autoencoders for Region-Aware Audio-Visual Pre-Training

Yuxin Guo · Siyang Sun · Shuailei Ma · Kecheng Zheng · Xiaoyi Bao · Shijie Ma · Wei Zou · Yun Zheng

Modality-Collaborative Test-Time Adaptation for Action Recognition

Baochen Xiong · Xiaoshan Yang · Yaguang Song · Yaowei Wang · Changsheng Xu

T-VSL: Text-Guided Visual Sound Source Localization in Mixtures

Tanvir Mahmud · Yapeng Tian · Diana Marculescu

UniBind: LLM-Augmented Unified and Balanced Representation Space to Bind Them All

Yuanhuiyi Lyu · Xu Zheng · Jiazhou Zhou · Addison, Lin Wang

Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models

Zhang Li · Biao Yang · Qiang Liu · Zhiyin Ma · Shuo Zhang · Jingxu Yang · Yabo Sun · Yuliang Liu · Xiang Bai

Rethinking Multi-view Representation Learning via Distilled Disentangling

Guanzhou Ke · Bo Wang · Xiao-Li Wang · Shengfeng He

Causal Mode Multiplexer: A Novel Framework for Unbiased Multispectral Pedestrian Detection

Taeheon Kim · Sebin Shin · Youngjoon Yu · Hak Gu Kim · Yong Man Ro

Image-Text Co-Decomposition for Text-Supervised Semantic Segmentation

Ji-Jia Wu · Andy Chia-Hao Chang · Chieh-Yu Chuang · Chun-Pei Chen · Yu-Lun Liu · Min-Hung Chen · Hou-Ning Hu · Yung-Yu Chuang · Yen-Yu Lin

Mirasol3B: A Multimodal Autoregressive Model for Time-Aligned and Contextual Modalities

AJ Piergiovanni · Isaac Noble · Dahun Kim · Michael Ryoo · Victor Gomes · Anelia Angelova

Efficient Vision-Language Pre-training by Cluster Masking

Zihao Wei · Zixuan Pan · Andrew Owens

MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models

Sanjoy Chowdhury · Sayan Nag · Joseph K J · Balaji Vasan Srinivasan · Dinesh Manocha

Weakly Misalignment-free Adaptive Feature Alignment for UAVs-based Multimodal Object Detection

Chen Chen · Jiahao Qi · Xingyue Liu · Kangcheng Bin · Ruigang Fu · Xikun Hu · Ping Zhong

DiVAS: Video and Audio Synchronization with Dynamic Frame Rates

Clara Maria Fernandez Labrador · Mertcan Akcay · Eitan Abecassis · Joan Massich · Christopher Schroers

Querying as Prompt: Parameter-Efficient Learning for Multimodal Language Model

Tian Liang · Jing Huang · Ming Kong · Luyuan Chen · Qiang Zhu

SonicVisionLM: Playing Sound with Vision Language Models

Zhifeng Xie · Shengye Yu · Qile He · Mengtian Li

Embracing Unimodal Aleatoric Uncertainty for Robust Multimodal Fusion

Zixian Gao · Xun Jiang · Xing Xu · Fumin Shen · Yujie Li · Heng Tao Shen

C3Net: Compound Conditioned ControlNet for Multimodal Content Generation

Juntao Zhang · Yuehuai LIU · Yu-Wing Tai · Chi-Keung Tang

Composed Video Retrieval via Enriched Context and Discriminative Embeddings

Omkar Thawakar · Muzammal Naseer · Rao Anwer · Salman Khan · Michael Felsberg · Mubarak Shah · Fahad Shahbaz Khan

Looking Similar Sounding Different: Leveraging Counterfactual Cross-Modal Pairs for Audiovisual Representation Learning

Nikhil Singh · Chih-Wei Wu · Iroro Orife · Kalayeh

Anchor-based Robust Finetuning of Vision-Language Models

Jinwei Han · Zhiwen Lin · Zhongyisun Sun · Yingguo Gao · Ke Yan · Shouhong Ding · Yuan Gao · Gui-Song Xia

Event-based Visible and Infrared Fusion via Multi-task Collaboration

Mengyue Geng · Lin Zhu · Lizhi Wang · Wei Zhang · Ruiqin Xiong · Yonghong Tian

Prompt Learning via Meta-Regularization

Jinyoung Park · Juyeon Ko · Hyunwoo J. Kim

Knowledge-Enhanced Dual-stream Zero-shot Composed Image Retrieval

Yucheng Suo · Fan Ma · Linchao Zhu · Yi Yang

Contextual Augmented Global Contrast for Multimodal Intent Recognition

Kaili Sun · Zhiwen Xie · Mang Ye · Huyin Zhang

MRFS: Mutually Reinforcing Image Fusion and Segmentation

HAO ZHANG · Xuhui Zuo · Jie Jiang · Chunchao Guo · Jiayi Ma

POPDG: Popular 3D Dance Generation with PopDanceSet

Zhenye Luo · Min Ren · Xuecai Hu · Yongzhen Huang · Li Yao

How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval?

Yuxin Chen · Zongyang Ma · Ziqi Zhang · Zhongang Qi · Chunfeng Yuan · Bing Li · Junfu Pu · Ying Shan · Xiaojuan Qi · Weiming Hu

Active Prompt Learning in Vision Language Models

Jihwan Bang · Sumyeong Ahn · Jae-Gil Lee

Descriptor and Word Soups: Overcoming the Parameter Efficiency Accuracy Tradeoff for Out-of-Distribution Few-shot Learning

Christopher Liao · Theodoros Tsiligkaridis · Brian Kulis

Text-IF: Leveraging Semantic Text Guidance for Degradation-Aware and Interactive Image Fusion

Xunpeng Yi · Han Xu · HAO ZHANG · Linfeng Tang · Jiayi Ma

Hallucination Augmented Contrastive Learning for Multimodal Large Language Model

Chaoya Jiang · Haiyang Xu · Mengfan Dong · Jiaxing Chen · Wei Ye · Ming Yan · Qinghao Ye · Ji Zhang · Fei Huang · Shikun Zhang

Beyond Text: Frozen Large Language Models in Visual Signal Comprehension

Lei Zhu · Fangyun Wei · Yanye Lu

Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos

Sagnik Majumder · Ziad Al-Halah · Kristen Grauman

ES³: Evolving Self-Supervised Learning of Robust Audio-Visual Speech Representations

Yuanhang Zhang · Shuang Yang · Shiguang Shan · Xilin Chen

PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved Personalization

Xu Peng · Junwei Zhu · Boyuan Jiang · Ying Tai · Donghao Luo · Jiangning Zhang · Wei Lin · Taisong Jin · Chengjie Wang · Rongrong Ji

ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding

Le Xue · Ning Yu · Shu Zhang · Artemis Panagopoulou · Junnan Li · Roberto Martín-Martín · Jiajun Wu · Caiming Xiong · Ran Xu · Juan Carlos Niebles · Silvio Savarese

AVFF: Audio-Visual Feature Fusion for Video Deepfake Detection

Trevine Oorloff · Surya Koppisetti · Nicolo Bonettini · Divyaraj Solanki · Ben Colman · Yaser Yacoob · Ali Shahriyari · Gaurav Bharaj

Language-aware Visual Semantic Distillation for Video Question Answering

Bo Zou · Chao Yang · Yu Qiao · Chengbin Quan · Youjian Zhao

PerceptionGPT: Effectively Fusing Visual Perception into LLM

Renjie Pi · Lewei Yao · Jiahui Gao · Jipeng Zhang · Tong Zhang

Cooperation Does Matter: Exploring Multi-Order Bilateral Relations for Audio-Visual Segmentation

Qi Yang · Xing Nie · Tong Li · Gaopengfei · Ying Guo · Cheng Zhen · Pengfei Yan · Shiming Xiang

MV-Adapter: Multimodal Video Transfer Learning for Video Text Retrieval

bowen zhang · Xiaojie Jin · Weibo Gong · Kai Xu · Xueqing Deng · Peng Wang · Zhao Zhang · Xiaohui Shen · Jiashi Feng

Draw Step by Step: Reconstructing CAD Construction Sequences from Point Clouds via Multimodal Diffusion.

Weijian Ma · Shuaiqi Chen · Yunzhong Lou · Xueyang Li · Xiangdong Zhou

AV-RIR: Audio-Visual Room Impulse Response Estimation

Anton Ratnarajah · Sreyan Ghosh · Sonal Kumar · Purva Chiniya · Dinesh Manocha

Link-Context Learning for Multimodal LLMs

Yan Tai · Weichen Fan · Zhao Zhang · Ziwei Liu

Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense Interactions through Masked Modeling

Shentong Mo · Pedro Morgado

Noisy-Correspondence Learning for Text-to-Image Person Re-identification

Yang Qin · Yingke Chen · Dezhong Peng · Xi Peng · Joey Tianyi Zhou · Peng Hu

Mind Artist: Creating Artistic Snapshots with Human Thought

Jiaxuan Chen · Yu Qi · Yueming Wang · Gang Pan

VTQA: Visual Text Question Answering via Entity Alignment and Cross-Media Reasoning

Kang Chen · Xiangqian Wu

THRONE: An Object-based Hallucination Benchmark for the Free-form Generations of Large Vision-Language Models

Prannay Kaul · Zhizhong Li · Hao Yang · Yonatan Dukler · Ashwin Swaminathan · CJ Taylor · Stefano Soatto

Data-Efficient Multimodal Fusion on a Single GPU

Noël Vouitsis · Zhaoyan Liu · Satya Krishna Gorti · Valentin Villecroze · Jesse C. Cresswell · Guangwei Yu · Gabriel Loaiza-Ganem · Maksims Volkovs

SoundingActions: Learning How Actions Sound from Narrated Egocentric Videos

Changan Chen · Kumar Ashutosh · Rohit Girdhar · David Harwath · Kristen Grauman

Accept the Modality Gap: An Exploration in the Hyperbolic Space

Sameera Ramasinghe · Violetta Shevchenko · Gil Avraham · Thalaiyasingam Ajanthan

DiffSal: Joint Audio and Video Learning for Diffusion Saliency Prediction

Junwen Xiong · Peng Zhang · Tao You · Chuanyue Li · Wei Huang · Yufei Zha

DiPrompT: Disentangled Prompt Tuning for Multiple Latent Domain Generalization in Federated Learning

Sikai Bai · Jie ZHANG · Song Guo · Shuaicheng Li · Jingcai Guo · Jun Hou · Tao Han · Xiaocheng Lu

Probabilistic Speech-Driven 3D Facial Motion Synthesis: New Benchmarks Methods and Applications

Karren Yang · Anurag Ranjan · Jen-Hao Rick Chang · Raviteja Vemulapalli · Oncel Tuzel

DIEM: Decomposition-Integration Enhancing Multimodal Insights

Xinyi Jiang · Guoming Wang · Junhao Guo · Juncheng Li · Wenqiao Zhang · Rongxing Lu · Siliang Tang

MAFA: Managing False Negatives for Vision-Language Pre-training

Jaeseok Byun · Dohoon Kim · Taesup Moon

AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation

Jeongsoo Choi · Se Jin Park · Minsu Kim · Yong Man Ro

Enhancing Multimodal Cooperation via Sample-level Modality Valuation

Yake Wei · Ruoxuan Feng · Zihe Wang · Di Hu

Diff-BGM: A Diffusion Model for Video Background Music Generation

Sizhe Li · Yiming Qin · Minghang Zheng · Xin Jin · Yang Liu

SaCo Loss: Sample-wise Affinity Consistency for Vision-Language Pre-training

WU Sitong · Haoru Tan · Zhuotao Tian · Yukang Chen · Xiaojuan Qi · Jiaya Jia

MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with Module-wise Pruning Error Metric

Haokun Lin · Haoli Bai · Zhili Liu · Lu Hou · Muyi Sun · Linqi Song · Ying Wei · Zhenan Sun

Mitigating Noisy Correspondence by Geometrical Structure Consistency Learning

Zihua Zhao · Mengxi Chen · Tianjie Dai · Jiangchao Yao · Bo Han · Ya Zhang · Yanfeng Wang

DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection

Lewei Yao · Renjie Pi · Jianhua Han · Xiaodan Liang · Hang Xu · Wei Zhang · Zhenguo Li · Dan Xu

Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification

Chao Yi · Lu Ren · De-Chuan Zhan · Han-Jia Ye

OmniVec2 - A Novel Transformer based Network for Large Scale Multimodal and Multitask Learning

Siddharth Srivastava · Gaurav Sharma

CoDi-2: In-Context Interleaved and Interactive Any-to-Any Generation

Zineng Tang · Ziyi Yang · MAHMOUD KHADEMI · Yang Liu · Chenguang Zhu · Mohit Bansal

Differentiable Information Bottleneck for Deterministic Multi-view Clustering

Xiaoqiang Yan · Zhixiang Jin · Fengshou Han · Yangdong Ye

A Study of Dropout-Induced Modality Bias on Robustness to Missing Video Frames for Audio-Visual Speech Recognition

Yusheng Dai · HangChen · Jun Du · Ruoyu Wang · shihao chen · Haotian Wang · Chin-Hui Lee

Multimodal Representation Learning by Alternating Unimodal Adaptation

Xiaohui Zhang · Jaehong Yoon · Mohit Bansal · Huaxiu Yao

View-Category Interactive Sharing Transformer for Incomplete Multi-View Multi-Label Learning

Shilong Ou · Zhe Xue · Yawen Li · Meiyu Liang · Yuanqiang Cai · junjiang wu

Scalable 3D Registration via Truncated Entry-wise Absolute Residuals

Tianyu Huang · Liangzu Peng · Rene Vidal · Yun-Hui Liu

Partial-to-Partial Shape Matching with Geometric Consistency

Viktoria Ehm · Maolin Gao · Paul Roetzer · Marvin Eisenberger · Daniel Cremers · Florian Bernard

Towards Robust Learning to Optimize with Theoretical Guarantees

Qingyu Song · Wei Lin · Juncheng Wang · Hong Xu

From Variance to Veracity: Unbundling and Mitigating Gradient Variance in Differentiable Bundle Adjustment Layers

Swaminathan Gurumurthy · Karnik Ram · Bingqing Chen · Zachary Manchester · Zico Kolter

DIMAT: Decentralized Iterative Merging-And-Training for Deep Learning Models

Nastaran Saadati · Minh Pham · Nasla Saleem · Joshua R. Waite · Aditya Balu · Zhanhong Jiang · Chinmay Hegde · Soumik Sarkar

Ink Dot-Oriented Differentiable Optimization for Neural Image Halftoning

Hao Jiang · Bingfeng Zhou · Yadong Mu

Are Conventional SNNs Really Efficient? A Perspective from Network Quantization

Guobin Shen · Dongcheng Zhao · Tenglong Li · Jindong Li · Yi Zeng

FedMef: Towards Memory-efficient Federated Dynamic Pruning

Hong Huang · Weiming Zhuang · Chen Chen · Lingjuan Lyu

SD4Match: Learning to Prompt Stable Diffusion Model for Semantic Matching

Xinghui Li · Jingyi Lu · Kai Han · Victor Adrian Prisacariu

Purified and Unified Steganographic Network

GuoBiao Li · Sheng Li · Zicong Luo · Zhenxing Qian · Xinpeng Zhang

Learned Lossless Image Compression based on Bit Plane Slicing

Zhe Zhang · Huairui Wang · Zhenzhong Chen · Shan Liu

Towards Calibrated Multi-label Deep Neural Networks

Jiacheng Cheng · Nuno Vasconcelos

Improving Generalization via Meta-Learning on Hard Samples

Nishant Jain · Arun Suggala · Pradeep Shenoy

Learning with Structural Labels for Learning with Noisy Labels

Noo-ri Kim · Jin-Seop Lee · Jee-Hyong Lee

DiffuseMix: Label-Preserving Data Augmentation with Diffusion Models

Khawar Islam · Muhammad Zaigham Zaheer · Arif Mahmood · Karthik Nandakumar

Improving Out-of-Distribution Generalization in Graphs via Hierarchical Semantic Environments

Yinhua Piao · Sangseon Lee · Yijingxiu Lu · Sun Kim

Patch2Self2: Self-supervised Denoising on Coresets via Matrix Sketching

Shreyas Fadnavis · Agniva Chowdhury · Joshua Batson · Petros Drineas · Eleftherios Garyfallidis

G-FARS: Gradient-Field-based Auto-Regressive Sampling for 3D Part Grouping

Junfeng Cheng · Tania Stathaki

Decompose-and-Compose: A Compositional Approach to Mitigating Spurious Correlation

Fahimeh Hosseini Noohdani · Parsa Hosseini · Aryan Yazdan Parast · Hamidreza Araghi · Mahdieh Baghshah

SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery

Xin Guo · Jiangwei Lao · Bo Dang · Yingying Zhang · Lei Yu · Lixiang Ru · Liheng Zhong · Ziyuan Huang · Kang Wu · Dingxiang Hu · HUIMEI HE · Jian Wang · Jingdong Chen · Ming Yang · Yongjun Zhang · Yansheng Li

Building Bridges across Spatial and Temporal Resolutions: Reference-Based Super-Resolution via Change Priors and Conditional Diffusion Model

Runmin Dong · Shuai Yuan · Bin Luo · Mengxuan Chen · Jinxiao Zhang · Lixian Zhang · Weijia Li · Juepeng Zheng · Haohuan Fu

SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation

Aysim Toker · Marvin Eisenberger · Daniel Cremers · Laura Leal-Taixe

S2MAE: A Spatial-Spectral Pretraining Foundation Model for Spectral Remote Sensing Data

Xuyang Li · Danfeng Hong · Jocelyn Chanussot

Poly Kernel Inception Network for Remote Sensing Detection

Xinhao Cai · Qiuxia Lai · Yuwei Wang · Wenguan Wang · Zeren Sun · Yazhou Yao

Learning without Exact Guidance: Updating Large-scale High-resolution Land Cover Maps from Low-resolution Historical Labels

Zhuohong Li · Wei He · Jiepan Li · Fangxiao Lu · Hongyan Zhang

3D Building Reconstruction from Monocular Remote Sensing Images with Multi-level Supervisions

Weijia Li · Haote Yang · Zhenghao Hu · Juepeng Zheng · Gui-Song Xia · Conghui He

Content-Adaptive Non-Local Convolution for Remote Sensing Pansharpening

Yule Duan · Xiao Wu · Haoyu Deng · Liang-Jian Deng

SG-BEV: Satellite-Guided BEV Fusion for Cross-View Semantic Segmentation

Junyan Ye · Qiyan Luo · Jinhua Yu · Huaping Zhong · Zhimeng Zheng · Conghui He · Weijia Li

DiffCast: A Unified Framework via Residual Diffusion for Precipitation Nowcasting

Demin Yu · Xutao Li · Yunming Ye · Baoquan Zhang · Luo Chuyao · Kuai Dai · wangrui · Chenxunlai

MoCha-Stereo: Motif Channel Attention Network for Stereo Matching

Ziyang Chen · Wei Long · He Yao · Yongjun Zhang · Bingshu Wang · Yongbin Qin · Jia Wu

PBWR: Parametric-Building-Wireframe Reconstruction from Aerial LiDAR Point Clouds

Shangfeng Huang · Ruisheng Wang · Bo Guo · Hongxin Yang

Multi-modal Learning for Geospatial Vegetation Forecasting

Vitus Benson · Claire Robin · Christian Requena-Mesa · LAZARO ALONSO SILVA · Mélanie Weynants · Nora Linscheid · Jose Cortes · Zhihan Gao · Nuno Carvalhais · Markus Reichstein

Relational Matching for Weakly Semi-Supervised Oriented Object Detection

Wenhao Wu · Hau San Wong · Si Wu · Tianyou Zhang

Rethinking Transformers Pre-training for Multi-Spectral Satellite Imagery

Mubashir Noman · Muzammal Naseer · Hisham Cholakkal · Rao Anwer · Salman Khan · Fahad Shahbaz Khan

Unmixing Diffusion for Self-Supervised Hyperspectral Image Denoising

Haijin Zeng · Jiezhang Cao · Yongyong Chen · Kai Zhang · Hiep Luong · Wilfried Philips

GeoChat: Grounded Large Vision-Language Model for Remote Sensing

Kartik Kuckreja · Muhammad Sohail Danish · Muzammal Naseer · Abhijit Das · Salman Khan · Fahad Shahbaz Khan

Parameter Efficient Self-Supervised Geospatial Domain Adaptation

Linus Scheibenreif · Michael Mommert · Damian Borth

Bridging Remote Sensors with Multisensor Geospatial Foundation Models

Boran Han · Shuai Zhang · Xingjian Shi · Markus Reichstein

CLIP-Driven Open-Vocabulary 3D Scene Graph Generation via Cross-Modality Contrastive Learning

Lianggangxu Chen · Xuejiao Wang · Jiale Lu · Shaohui Lin · Changbo Wang · Gaoqi He

Learnable Earth Parser: Discovering 3D Prototypes in Aerial Scans

Romain Loiseau · Elliot Vincent · Mathieu Aubry · Loic Landrieu

Semantics Distortion and Style Matter: Towards Source-free UDA for Panoramic Segmentation

Xu Zheng · Pengyuan Zhou · ATHANASIOS · Addison, Lin Wang

Geometrically-driven Aggregation for Zero-shot 3D Point Cloud Understanding

Guofeng Mei · Luigi Riz · Yiming Wang · Fabio Poiesi

SAM-6D: Segment Anything Model Meets Zero-Shot 6D Object Pose Estimation

Jiehong Lin · lihua liu · Dekun Lu · Kui Jia

Construct to Associate: Cooperative Context Learning for Domain Adaptive Point Cloud Segmentation

Guangrui Li

Multi-Task Dense Prediction via Mixture of Low-Rank Experts

Yuqi Yang · Peng-Tao Jiang · Qibin Hou · Hao Zhang · Jinwei Chen · Bo Li

OED: Towards One-stage End-to-End Dynamic Scene Graph Generation

Guan Wang · Zhimin Li · Qingchao Chen · Yang Liu

OMG-Seg: Is One Model Good Enough For All Segmentation?

Xiangtai Li · Haobo Yuan · Wei Li · Henghui Ding · Size Wu · Wenwei Zhang · Yining Li · Kai Chen · Chen Change Loy

DiffusionMTL: Learning Multi-Task Denoising Diffusion Model from Partially Annotated Data

Hanrong Ye · Dan Xu

Bilateral Adaptation for Human-Object Interaction Detection with Occlusion-Robustness

Guangzhi Wang · Yangyang Guo · Ziwei Xu · Mohan Kankanhalli

CurveCloudNet: Processing Point Clouds with 1D Structure

Colton Stearns · Alex Fu · Jiateng Liu · Jeong Joon Park · Davis Rempe · Despoina Paschalidou · Leonidas Guibas

VCoder: Versatile Vision Encoders for Multimodal Large Language Models

Jitesh Jain · Jianwei Yang · Humphrey Shi

Amodal Ground Truth and Completion in the Wild

Guanqi Zhan · Chuanxia Zheng · Weidi Xie · Andrew Zisserman

Living Scenes: Multi-object Relocalization and Reconstruction in Changing 3D Environments

Liyuan Zhu · Shengyu Huang · Konrad Schindler · Iro Armeni

Single Domain Generalization for Crowd Counting

Zhuoxuan Peng · S.-H. Gary Chan

LTA-PCS: Learnable Task-Agnostic Point Cloud Sampling

Jiaheng Liu · Jianhao Li · Kaisiyuan Wang · Hongcheng Guo · Jian Yang · Junran Peng · Ke Xu · Xianglong Liu · Jinyang Guo

Prompt3D: Random Prompt Assisted Weakly-Supervised 3D Object Detection

Xiaohong Zhang · Huisheng Ye · Jingwen Li · Qinyu Tang · Yuanqi Li · Yanwen Guo · Jie Guo

No More Ambiguity in 360° Room Layout via Bi-Layout Estimation

Yu-Ju Tsai · Jin-Cheng Jhang · JINGJING ZHENG · Wei Wang · Albert Chen · Min Sun · Cheng-Hao Kuo · Ming-Hsuan Yang

Semantic Line Combination Detector

JINWON KO · Dongkwon Jin · Chang-Su Kim

From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models

Rongjie Li · Songyang Zhang · Dahua Lin · Kai Chen · Xuming He

PanoContext-Former: Panoramic Total Scene Understanding with a Transformer

Yuan Dong · Chuan Fang · Liefeng Bo · Zilong Dong · Ping Tan

DiffAssemble: A Unified Graph-Diffusion Model for 2D and 3D Reassembly

Gianluca Scarpellini · Stefano Fiorini · Francesco Giuliari · Pietro Morerio · Alessio Del Bue

ProMotion: Prototypes As Motion Learners

Yawen Lu · Dongfang Liu · Qifan Wang · Cheng Han · Yiming Cui · Zhiwen Cao · Xueling Zhang · Yingjie Victor Chen · Heng Fan

HUNTER: Unsupervised Human-centric 3D Detection via Transferring Knowledge from Synthetic Instances to Real Scenes

Yichen Yao · Zimo Jiang · YUJING SUN · Zhencai Zhu · Xinge Zhu · Runnan Chen · Yuexin Ma

Rethinking the Up-Sampling Operations in CNN-based Generative Network for Generalizable Deepfake Detection

Chuangchuang Tan · Huan Liu · Yao Zhao · Shikui Wei · Guanghua Gu · Ping Liu · Yunchao Wei

Shadows Don't Lie and Lines Can't Bend! Generative Models don't know Projective Geometry...for now

Ayush Sarkar · Hanlin Mai · Amitabh Mahapatra · David Forsyth · Svetlana Lazebnik · Anand Bhattad

Text Grouping Adapter: Adapting Pre-trained Text Detector for Layout Analysis

Tianci Bi · Xiaoyi Zhang · Zhizheng Zhang · Wenxuan Xie · Cuiling Lan · Yan Lu · Nanning Zheng

Groupwise Query Specialization and Quality-Aware Multi-Assignment for Transformer-based Visual Relationship Detection

Jongha Kim · Jihwan Park · Jinyoung Park · Jinyoung Kim · Sehyung Kim · Hyunwoo J. Kim

CoralSCOP: Segment any COral Image on this Planet

Zheng Ziqiang · Liang Haixin · Binh-Son Hua · Tim, Yue Him Wong · Put ANG · Apple CHUI · Sai-Kit Yeung

Going Beyond Multi-Task Dense Prediction with Synergy Embedding Models

Huimin Huang · Yawen Huang · Lanfen Lin · Ruofeng Tong · Yen-Wei Chen · Hao Zheng · Yuexiang Li · Yefeng Zheng

Disentangled Pre-training for Human-Object Interaction Detection

Zhuolong Li · Xingao Li · Changxing Ding · Xiangmin Xu

Osprey: Pixel Understanding with Visual Instruction Tuning

Yuqian Yuan · Wentong Li · Jian liu · Dongqi Tang · Xinjie Luo · Chi Qin · Lei Zhang · Jianke Zhu

Discovering Syntactic Interaction Clues for Human-Object Interaction Detection

Jinguo Luo · Weihong Ren · Weibo Jiang · Xi'ai Chen · Qiang Wang · Zhi Han · Honghai LIU

Flattening the Parent Bias: Hierarchical Semantic Segmentation in the Poincaré Ball

Simon Weber · Barış Zöngür · Nikita Araslanov · Daniel Cremers

HiKER-SGG: Hierarchical Knowledge Enhanced Robust Scene Graph Generation

Ce Zhang · Simon Stepputtis · Joseph Campbell · Katia Sycara · Yaqi Xie

Hierarchical Intra-modal Correlation Learning for Label-free 3D Semantic Segmentation

Xin Kang · Lei Chu · Jiahao Li · Xuejin Chen · Yan Lu

FreePoint: Unsupervised Point Cloud Instance Segmentation

Zhikai Zhang · Jian Ding · Li Jiang · Dengxin Dai · Gui-Song Xia

GoodSAM: Bridging Domain and Capacity Gaps via Segment Anything Model for Distortion-aware Panoramic Semantic Segmentation

WEIMING ZHANG · Yexin Liu · Xu Zheng · Addison, Lin Wang

MaskClustering: View Consensus based Mask Graph Clustering for Open-Vocabulary 3D Instance Segmentation

Mi Yan · Jiazhao Zhang · Yan Zhu · He Wang

ECoDepth: Effective Conditioning of Diffusion Models for Monocular Depth Estimation

Suraj Patni · Aradhye Agarwal · Chetan Arora

Physical Property Understanding from Language-Embedded Feature Fields

Albert J. Zhai · Yuan Shen · Emily Y. Chen · Gloria Wang · Xinlei Wang · Sheng Wang · Kaiyu Guan · Shenlong Wang

LLM4SGG: Large Language Models for Weakly Supervised Scene Graph Generation

Kibum Kim · Kanghoon Yoon · Jaehyeong Jeon · Yeonjun In · Jinyoung Moon · Donghyun Kim · Chanyoung Park

DSGG: Dense Relation Transformer for an End-to-end Scene Graph Generation

Zeeshan Hayder · Xuming He

OTE: Exploring Accurate Scene Text Recognition Using One Token

Jianjun Xu · Yuxin Wang · Hongtao Xie · Yongdong Zhang

SemCity: Semantic Scene Generation with Triplane Diffusion

Jumin Lee · Sebin Lee · Changho Jo · Woobin Im · Ju-hyeong Seon · Sung-Eui Yoon

Advancing Saliency Ranking with Human Fixations: Dataset Models and Benchmarks

Bowen Deng · Siyang Song · Andrew French · Denis Schluppeck · Michael Pound

Choose What You Need: Disentangled Representation Learning for Scene Text Recognition Removal and Editing

Boqiang Zhang · Hongtao Xie · Zuan Gao · Yuxin Wang

Leveraging Predicate and Triplet Learning for Scene Graph Generation

Jiankai Li · Yunhong Wang · Xiefan Guo · Ruijie Yang · Weixin Li

Regressor-Segmenter Mutual Prompt Learning for Crowd Counting

Mingyue Guo · Li Yuan · Zhaoyi Yan · Binghui Chen · Yaowei Wang · Qixiang Ye

Learning from Observer Gaze: Zero-Shot Attention Prediction Oriented by Human-Object Interaction Recognition

Yuchen Zhou · Linkai Liu · Chao Gou

EGTR: Extracting Graph from Transformer for Scene Graph Generation

Jinbae Im · JeongYeon Nam · Nokyung Park · Hyungmin Lee · Seunghyun Park

SG-PGM: Partial Graph Matching Network with Semantic Geometric Fusion for 3D Scene Graph Alignment and Its Downstream Tasks

Yaxu Xie · Alain Pagani · Didier Stricker

Open-Vocabulary Semantic Segmentation with Image Embedding Balancing

Xiangheng Shan · Dongyue Wu · Guilin Zhu · Yuanjie Shao · Nong Sang · Changxin Gao

Bridging the Synthetic-to-Authentic Gap: Distortion-Guided Unsupervised Domain Adaptation for Blind Image Quality Assessment

Aobo Li · Jinjian Wu · Yongxu Liu · Leida Li

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

Zhe Chen · Jiannan Wu · Wenhai Wang · Weijie Su · Guo Chen · Sen Xing · Zhong Muyan · Qing-Long Zhang · Xizhou Zhu · Lewei Lu · Bin Li · Ping Luo · Tong Lu · Yu Qiao · Jifeng Dai

Robust Distillation via Untargeted and Targeted Intermediate Adversarial Samples

Junhao Dong · Piotr Koniusz · Junxi Chen · Z. Wang · Yew-Soon Ong

Class Incremental Learning with Multi-Teacher Distillation

Haitao Wen · Lili Pan · Yu Dai · Heqian Qiu · Lanxiao Wang · Qingbo Wu · Hongliang Li

Large Language Models are Good Prompt Learners for Low-Shot Image Classification

Zhaoheng Zheng · Jingmin Wei · Xuefeng Hu · Haidong Zhu · Ram Nevatia

Consistent Prompting for Rehearsal-Free Continual Learning

Zhanxin Gao · Jun Cen · Xiaobin Chang

Tuning Stable Rank Shrinkage: Aiming at the Overlooked Structural Risk in Fine-tuning

Sicong Shen · Yang Zhou · Bingzheng Wei · Eric Chang · Yan Xu

Coherent Temporal Synthesis for Incremental Action Segmentation

Guodong Ding · Hans Golong · Angela Yao

FCS: Feature Calibration and Separation for Non-Exemplar Class Incremental Learning

Qiwei Li · Yuxin Peng · Jiahuan Zhou

DeIL: Direct-and-Inverse CLIP for Open-World Few-Shot Learning

Shuai Shao · Yu Bai · Yan WANG · Bao-di Liu · Yicong Zhou

Understanding and Improving Source-free Domain Adaptation from a Theoretical Perspective

Yu Mitsuzumi · Akisato Kimura · Hisashi Kashima

Resurrecting Old Classes with New Data for Exemplar-Free Continual Learning

Dipam Goswami · Albin Soutif · Yuyang Liu · Sandesh Kamath · Bartłomiej Twardowski · Joost van de Weijer

Adversarially Robust Few-shot Learning via Parameter Co-distillation of Similarity and Class Concept Learners

Junhao Dong · Piotr Koniusz · Junxi Chen · Xiaohua Xie · Yew-Soon Ong

Learning CNN on ViT: A Hybrid Model to Explicitly Class-specific Boundaries for Domain Adaptation

Ba Hung Ngo · Nhat-Tuong Do-Tran · Tuan-Ngoc Nguyen · Hae-Gon Jeon · Tae Jong Choi

Efficient Stitchable Task Adaptation

Haoyu He · Zizheng Pan · Jing Liu · Jianfei Cai · Bohan Zhuang

Gradient-based Parameter Selection for Efficient Fine-Tuning

Zhi Zhang · Qizhe Zhang · Zijun Gao · Renrui Zhang · Ekaterina Shutova · Shiji Zhou · Shanghang Zhang

ArGue: Attribute-Guided Prompt Tuning for Vision-Language Models

Xinyu Tian · Shu Zou · Zhaoyuan Yang · Jing Zhang

Simple Semantic-Aided Few-Shot Learning

Hai Zhang · Junzhe Xu · Shanlin Jiang · Zhenan He

Long-Tail Class Incremental Learning via Independent Sub-prototype Construction

Xi Wang · Xu Yang · Jie Yin · Kun Wei · Cheng Deng

Few-Shot Object Detection with Foundation Models

Guangxing Han · Ser-Nam Lim

Stronger Fewer & Superior: Harnessing Vision Foundation Models for Domain Generalized Semantic Segmentation

ZHIXIANG WEI · Lin Chen · Xiaoxiao Ma · Huaian Chen · Tianle Liu · Pengyang Ling · Jinjin Zheng · Ben Wang · Yi Jin

Continual Forgetting for Pre-trained Vision Models

Hongbo Zhao · Bolin Ni · Junsong Fan · Yuxi Wang · Yuntao Chen · Gaofeng Meng · Zhaoxiang Zhang

AETTA: Label-Free Accuracy Estimation for Test-Time Adaptation

Taeckyung Lee · Sorn Chottananurak · Taesik Gong · Sung-Ju Lee

Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation

Jiaming Liu · Ran Xu · Senqiao Yang · Renrui Zhang · Qizhe Zhang · Zehui Chen · Yandong Guo · Shanghang Zhang

LEAD: Exploring Logit Space Evolution for Model Selection

Zixuan Hu · Xiaotong Li · SHIXIANG TANG · Jun Liu · Yichun Hu · Ling-Yu Duan

Instance-based Max-margin for Practical Few-shot Recognition

Minghao Fu · Ke Zhu

Domain Gap Embeddings for Generative Dataset Augmentation

Yinong Oliver Wang · Younjoon Chung · Chen Henry Wu · Fernando De la Torre

JoAPR: Cleaning the Lens of Prompt Learning for Vision-Language Models

YUNCHENG GUO · Xiaodong Gu

Generative Multi-modal Models are Good Class Incremental Learners

Xusheng Cao · Haori Lu · Linlan Huang · Xialei Liu · Ming-Ming Cheng

Dual Memory Networks: A Versatile Adaptation Approach for Vision-Language Models

Yabin Zhang · Wenjie Zhu · Hui Tang · Zhiyuan Ma · Kaiyang Zhou · Lei Zhang

UniPT: Universal Parallel Tuning for Transfer Learning with Efficient Parameter and Memory

Haiwen Diao · Bo Wan · Ying Zhang · Xu Jia · Huchuan Lu · Long Chen

Federated Generalized Category Discovery

Nan Pu · Wenjing Li · Xinyuan Ji · Yalan Qin · Nicu Sebe · Zhun Zhong

Learning from One Continuous Video Stream

Joao Carreira · Michael King · Viorica Patraucean · Dilara Gokay · Catalin Ionescu · Yi Yang · Daniel Zoran · Joseph Heyward · Carl Doersch · Yusuf Aytar · Dima Damen · Andrew Zisserman

OrCo: Towards Better Generalization via Orthogonality and Contrast for Few-Shot Class-Incremental Learning

Noor Ahmed · Anna Kukleva · Bernt Schiele

SDDGR: Stable Diffusion-based Deep Generative Replay for Class Incremental Object Detection

JUNSU KIM · Hoseong Cho · Jihyeon Kim · Yihalem Tiruneh · Seungryul Baek

Active Domain Adaptation with False Negative Prediction for Object Detection

Yuzuru Nakamura · Yasunori Ishii · Takayoshi Yamashita

Stationary Representations: Optimally Approximating Compatibility and Implications for Improved Model Replacements

Niccolò Biondi · Federico Pernici · Simone Ricci · Alberto Del Bimbo

Your Transferability Barrier is Fragile: Free-Lunch for Transferring the Non-Transferable Learning

Ziming Hong · Li Shen · Tongliang Liu

Transductive Zero-Shot and Few-Shot CLIP

Ségolène Martin · Yunshi HUANG · Fereshteh Shakeri · Jean-Christophe Pesquet · Ismail Ben Ayed

Task2Box: Box Embeddings for Modeling Asymmetric Task Relationships

Rangel Daroya · Aaron Sun · Subhransu Maji

Unbiased Faster R-CNN for Single-source Domain Generalized Object Detection

Yajing Liu · Shijun Zhou · Xiyao Liu · chunhui Hao · Baojie Fan · Jiandong Tian

MetaCloak: Preventing Unauthorized Subject-driven Text-to-image Diffusion-based Synthesis via Meta-learning

Yixin Liu · Chenrui Fan · Yutong Dai · Xun Chen · Pan Zhou · Lichao Sun

Go to Event Page