CVPR 2023 Wednesday 06/21

Timezone: America/Vancouver

Full Schedule Sun 6/18 Mon 6/19 Tue 6/20 Wed 6/21 Thu 6/22

Award

Award Ceremony

Kristen Grauman

8:30 AM - 9:00 AM

Invited Talk

An AI Odyssey: the Dark Matter of Intelligence

Yejin Choi

9:00 AM - 10:00 AM

In this talk, we will examine the possible impossibilities of AI (e.g., the fundamental limits of transformers), the impossible possibilities of AI (i.e., what seemingly impossible paths might be promising) and the paradox and the dark matter of intelligence. This talk will be purposefully imaginative and inevitably controversial.

... more

Speaker Bio

Yejin Choi is Brett Helsel professor at the Paul G. Allen School of Computer Science & Engineering at the University of Washington and also a senior research director at AI2 overseeing the project Mosaic. Her research investigates a wide variety of problems across NLP and AI including commonsense knowledge and reasoning, neural language (de-)generation, language grounding with vision and experience, and AI for social good. She is a MacArthur Fellow and a co-recipient of the NAACL Best Paper Award in 2022, the ICML Outstanding Paper Award in 2022, the ACL Test of Time award in 2021, the CVPR Longuet-Higgins Prize (test of time award) in 2021, the NeurIPS Outstanding Paper Award in 2021, the AAAI Outstanding Paper Award in 2020, the Borg Early Career Award (BECA) in 2018, the inaugural Alexa Prize Challenge in 2017, IEEE AI's 10 to Watch in 2016, and the ICCV Marr Prize (best paper award) in 2013. She received her Ph.D. in Computer Science at Cornell University and BS in Computer Science and Engineering at Seoul National University in Korea.

... more

Poster

Poster Session WED-AM

10:30 AM - 12:00 PM

393 Events in this session

Swept-Angle Synthetic Wavelength Interferometry

Alankar Kotwal ⋅ Anat Levin ⋅ Ioannis Gkioulekas

RefSR-NeRF: Towards High Fidelity and Super Resolution View Synthesis

Xudong Huang ⋅ Wei Li ⋅ Jie Hu ⋅ Hanting Chen ⋅ Yunhe Wang

FreeNeRF: Improving Few-Shot Neural Rendering With Free Frequency Regularization

Jiawei Yang ⋅ Marco Pavone ⋅ Yue Wang

Local-to-Global Registration for Bundle-Adjusting Neural Radiance Fields

Yue Chen ⋅ Xingyu Chen ⋅ Xuan Wang ⋅ Qi Zhang ⋅ Yu Guo ⋅ Ying Shan ⋅ Fei Wang

Nerflets: Local Radiance Fields for Efficient Structure-Aware 3D Scene Representation From 2D Supervision

Xiaoshuai Zhang ⋅ Abhijit Kundu ⋅ Thomas Funkhouser ⋅ Leonidas Guibas ⋅ Hao Su ⋅ Kyle Genova

NeRF-DS: Neural Radiance Fields for Dynamic Specular Objects

Zhiwen Yan ⋅ Chen Li ⋅ Gim Hee Lee

Grid-Guided Neural Radiance Fields for Large Urban Scenes

Linning Xu ⋅ Yuanbo Xiangli ⋅ Sida Peng ⋅ Xingang Pan ⋅ Nanxuan Zhao ⋅ Christian Theobalt ⋅ Bo Dai ⋅ Dahua Lin

Learning Neural Duplex Radiance Fields for Real-Time View Synthesis

Ziyu Wan ⋅ Christian Richardt ⋅ Aljaž Božič ⋅ Chao Li ⋅ Vijay Rengarajan ⋅ Seonghyeon Nam ⋅ Xiaoyu Xiang ⋅ Tuotuo Li ⋅ Bo Zhu ⋅ Rakesh Ranjan ⋅ Jing Liao

EditableNeRF: Editing Topologically Varying Neural Radiance Fields by Key Points

Chengwei Zheng ⋅ Wenbin Lin ⋅ Feng Xu

Real-Time Neural Light Field on Mobile Devices

Junli Cao ⋅ Huan Wang ⋅ Pavlo Chemerys ⋅ Vladislav Shakhrai ⋅ Ju Hu ⋅ Yun Fu ⋅ Denys Makoviichuk ⋅ Sergey Tulyakov ⋅ Jian Ren

StyleRF: Zero-Shot 3D Style Transfer of Neural Radiance Fields

Kunhao Liu ⋅ Fangneng Zhan ⋅ Yiwen Chen ⋅ Jiahui Zhang ⋅ Yingchen Yu ⋅ Abdulmotaleb El Saddik ⋅ Shijian Lu ⋅ Eric P. Xing

Point2Pix: Photo-Realistic Point Cloud Rendering via Neural Radiance Fields

Tao Hu ⋅ Xiaogang Xu ⋅ Shu Liu ⋅ Jiaya Jia

Pointersect: Neural Rendering With Cloud-Ray Intersection

Jen-Hao Rick Chang ⋅ Wei-Yu Chen ⋅ Anurag Ranjan ⋅ Kwang Moo Yi ⋅ Oncel Tuzel

Neural Fields Meet Explicit Geometric Representations for Inverse Rendering of Urban Scenes

Zian Wang ⋅ Tianchang Shen ⋅ Jun Gao ⋅ Shengyu Huang ⋅ Jacob Munkberg ⋅ Jon Hasselgren ⋅ Zan Gojcic ⋅ Wenzheng Chen ⋅ Sanja Fidler

DANI-Net: Uncalibrated Photometric Stereo by Differentiable Shadow Handling, Anisotropic Reflectance Modeling, and Neural Inverse Rendering

Zongrui Li ⋅ Qian Zheng ⋅ Boxin Shi ⋅ Gang Pan ⋅ Xudong Jiang

MAIR: Multi-View Attention Inverse Rendering With 3D Spatially-Varying Lighting Estimation

JunYong Choi ⋅ SeokYeong Lee ⋅ Haesol Park ⋅ Seung-Won Jung ⋅ Ig-Jae Kim ⋅ Junghyun Cho

Weakly-Supervised Single-View Image Relighting

Renjiao Yi ⋅ Chenyang Zhu ⋅ Kai Xu

Controllable Light Diffusion for Portraits

David Futschik ⋅ Kelvin Ritland ⋅ James Vecore ⋅ Sean Fanello ⋅ Sergio Orts-Escolano ⋅ Brian Curless ⋅ Daniel Sýkora ⋅ Rohit Pandey

RGBD2: Generative Scene Synthesis via Incremental View Inpainting Using RGBD Diffusion Models

Jiabao Lei ⋅ Jiapeng Tang ⋅ Kui Jia

Neural Lens Modeling

Wenqi Xian ⋅ Aljaž Božič ⋅ Noah Snavely ⋅ Christoph Lassner

RealFusion: 360° Reconstruction of Any Object From a Single Image

Luke Melas-Kyriazi ⋅ Iro Laina ⋅ Christian Rupprecht ⋅ Andrea Vedaldi

Neuralangelo: High-Fidelity Neural Surface Reconstruction

Zhaoshuo Li ⋅ Thomas Müller ⋅ Alex Evans ⋅ Russell H. Taylor ⋅ Mathias Unberath ⋅ Ming-Yu Liu ⋅ Chen-Hsuan Lin

PermutoSDF: Fast Multi-View Reconstruction With Implicit Surfaces Using Permutohedral Lattices

Radu Alexandru Rosu ⋅ Sven Behnke

NeuDA: Neural Deformable Anchor for High-Fidelity Implicit Surface Reconstruction

Bowen Cai ⋅ Jinchi Huang ⋅ Rongfei Jia ⋅ Chengfei Lv ⋅ Huan Fu

NEF: Neural Edge Fields for 3D Parametric Curve Reconstruction From Multi-View Images

Yunfan Ye ⋅ Renjiao Yi ⋅ Zhirui Gao ⋅ Chenyang Zhu ⋅ Zhiping Cai ⋅ Kai Xu

NeuralField-LDM: Scene Generation With Hierarchical Latent Diffusion Models

Seung Wook Kim ⋅ Bradley Brown ⋅ Kangxue Yin ⋅ Karsten Kreis ⋅ Katja Schwarz ⋅ Daiqing Li ⋅ Robin Rombach ⋅ Antonio Torralba ⋅ Sanja Fidler

SinGRAF: Learning a 3D Generative Radiance Field for a Single Scene

Minjung Son ⋅ Jeong Joon Park ⋅ Leonidas Guibas ⋅ Gordon Wetzstein

Painting 3D Nature in 2D: View Synthesis of Natural Scenes From a Single Semantic Mask

Shangzhan Zhang ⋅ Sida Peng ⋅ Tianrun Chen ⋅ Linzhan Mou ⋅ Haotong Lin ⋅ Kaicheng Yu ⋅ Yiyi Liao ⋅ Xiaowei Zhou

Quantitative Manipulation of Custom Attributes on 3D-Aware Image Synthesis

Hoseok Do ⋅ EunKyung Yoo ⋅ Taehyeong Kim ⋅ Chul Lee ⋅ Jin Young Choi

NeRFInvertor: High Fidelity NeRF-GAN Inversion for Single-Shot Real Image Animation

Yu Yin ⋅ Kamran Ghasedi ⋅ HsiangTao Wu ⋅ Jiaolong Yang ⋅ Xin Tong ⋅ Yun Fu

PREIM3D: 3D Consistent Precise Image Attribute Editing From a Single Image

Jianhui Li ⋅ Jianmin Li ⋅ Haoji Zhang ⋅ Shilong Liu ⋅ Zhengyi Wang ⋅ Zihao Xiao ⋅ Kaiwen Zheng ⋅ Jun Zhu

Unsupervised 3D Shape Reconstruction by Part Retrieval and Assembly

Xianghao Xu ⋅ Paul Guerrero ⋅ Matthew Fisher ⋅ Siddhartha Chaudhuri ⋅ Daniel Ritchie

DiffSwap: High-Fidelity and Controllable Face Swapping via 3D-Aware Masked Diffusion

Wenliang Zhao ⋅ Yongming Rao ⋅ Weikang Shi ⋅ Zuyan Liu ⋅ Jie Zhou ⋅ Jiwen Lu

Fine-Grained Face Swapping via Regional GAN Inversion

Zhian Liu ⋅ Maomao Li ⋅ Yong Zhang ⋅ Cairong Wang ⋅ Qi Zhang ⋅ Jue Wang ⋅ Yongwei Nie

Logical Consistency and Greater Descriptive Power for Facial Hair Attribute Learning

Haiyu Wu ⋅ Grace Bezold ⋅ Aman Bhatta ⋅ Kevin W. Bowyer

Learning a 3D Morphable Face Reflectance Model From Low-Cost Data

Yuxuan Han ⋅ Zhibo Wang ⋅ Feng Xu

StyleGAN Salon: Multi-View Latent Optimization for Pose-Invariant Hairstyle Transfer

Sasikarn Khwanmuang ⋅ Pakkapon Phongthawee ⋅ Patsorn Sangkloy ⋅ Supasorn Suwajanakorn

FaceLit: Neural 3D Relightable Faces

Anurag Ranjan ⋅ Kwang Moo Yi ⋅ Jen-Hao Rick Chang ⋅ Oncel Tuzel

FitMe: Deep Photorealistic 3D Morphable Model Avatars

Alexandros Lattas ⋅ Stylianos Moschoglou ⋅ Stylianos Ploumpis ⋅ Baris Gecer ⋅ Jiankang Deng ⋅ Stefanos Zafeiriou

NeuWigs: A Neural Dynamic Model for Volumetric Hair Capture and Animation

Ziyan Wang ⋅ Giljoo Nam ⋅ Tuur Stuyck ⋅ Stephen Lombardi ⋅ Chen Cao ⋅ Jason Saragih ⋅ Michael Zollhöfer ⋅ Jessica Hodgins ⋅ Christoph Lassner

SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation

Wenxuan Zhang ⋅ Xiaodong Cun ⋅ Xuan Wang ⋅ Yong Zhang ⋅ Xi Shen ⋅ Yu Guo ⋅ Ying Shan ⋅ Fei Wang

High-Fidelity Clothed Avatar Reconstruction From a Single Image

Tingting Liao ⋅ Xiaomei Zhang ⋅ Yuliang Xiu ⋅ Hongwei Yi ⋅ Xudong Liu ⋅ Guo-Jun Qi ⋅ Yong Zhang ⋅ Xuan Wang ⋅ Xiangyu Zhu ⋅ Zhen Lei

Music-Driven Group Choreography

Nhat Le ⋅ Thang Pham ⋅ Tuong Do ⋅ Erman Tjiputra ⋅ Quang D. Tran ⋅ Anh Nguyen

Hand Avatar: Free-Pose Hand Animation and Rendering From Monocular Video

Xingyu Chen ⋅ Baoyuan Wang ⋅ Heung-Yeung Shum

Biomechanics-Guided Facial Action Unit Detection Through Force Modeling

Zijun Cui ⋅ Chenyi Kuang ⋅ Tian Gao ⋅ Kartik Talamadupula ⋅ Qiang Ji

Zero-Shot Pose Transfer for Unrigged Stylized 3D Characters

Jiashun Wang ⋅ Xueting Li ⋅ Sifei Liu ⋅ Shalini De Mello ⋅ Orazio Gallo ⋅ Xiaolong Wang ⋅ Jan Kautz

Invertible Neural Skinning

Yash Kant ⋅ Aliaksandr Siarohin ⋅ Riza Alp Guler ⋅ Menglei Chai ⋅ Jian Ren ⋅ Sergey Tulyakov ⋅ Igor Gilitschenski

BEDLAM: A Synthetic Dataset of Bodies Exhibiting Detailed Lifelike Animated Motion

Michael J. Black ⋅ Priyanka Patel ⋅ Joachim Tesch ⋅ Jinlong Yang

DIFu: Depth-Guided Implicit Function for Clothed Human Reconstruction

Dae-Young Song ⋅ HeeKyung Lee ⋅ Jeongil Seo ⋅ Donghyeon Cho

Complete 3D Human Reconstruction From a Single Incomplete Image

Junying Wang ⋅ Jae Shin Yoon ⋅ Tuanfeng Y. Wang ⋅ Krishna Kumar Singh ⋅ Ulrich Neumann

Learning Neural Volumetric Representations of Dynamic Humans in Minutes

Chen Geng ⋅ Sida Peng ⋅ Zhen Xu ⋅ Hujun Bao ⋅ Xiaowei Zhou

Marching-Primitives: Shape Abstraction From Signed Distance Function

Weixiao Liu ⋅ Yuwei Wu ⋅ Sipu Ruan ⋅ Gregory S. Chirikjian

Learning Analytical Posterior Probability for Human Mesh Recovery

Qi Fang ⋅ Kang Chen ⋅ Yinghui Fan ⋅ Qing Shuai ⋅ Jiefeng Li ⋅ Weidong Zhang

MagicPony: Learning Articulated 3D Animals in the Wild

Shangzhe Wu ⋅ Ruining Li ⋅ Tomas Jakab ⋅ Christian Rupprecht ⋅ Andrea Vedaldi

Visual-Tactile Sensing for In-Hand Object Reconstruction

Wenqiang Xu ⋅ Zhenjun Yu ⋅ Han Xue ⋅ Ruolin Ye ⋅ Siqiong Yao ⋅ Cewu Lu

Command-Driven Articulated Object Understanding and Manipulation

Ruihang Chu ⋅ Zhengzhe Liu ⋅ Xiaoqing Ye ⋅ Xiao Tan ⋅ Xiaojuan Qi ⋅ Chi-Wing Fu ⋅ Jiaya Jia

Target-Referenced Reactive Grasping for Dynamic Objects

Jirong Liu ⋅ Ruo Zhang ⋅ Hao-Shu Fang ⋅ Minghao Gou ⋅ Hongjie Fang ⋅ Chenxi Wang ⋅ Sheng Xu ⋅ Hengxu Yan ⋅ Cewu Lu

NeuralDome: A Neural Modeling Pipeline on Multi-View Human-Object Interactions

Juze Zhang ⋅ Haimin Luo ⋅ Hongdi Yang ⋅ Xinru Xu ⋅ Qianyang Wu ⋅ Ye Shi ⋅ Jingyi Yu ⋅ Lan Xu ⋅ Jingya Wang

A2J-Transformer: Anchor-to-Joint Transformer Network for 3D Interacting Hand Pose Estimation From a Single RGB Image

Changlong Jiang ⋅ Yang Xiao ⋅ Cunlin Wu ⋅ Mingyang Zhang ⋅ Jinghong Zheng ⋅ Zhiguo Cao ⋅ Joey Tianyi Zhou

TRACE: 5D Temporal Regression of Avatars With Dynamic Cameras in 3D Environments

Yu Sun ⋅ Qian Bao ⋅ Wu Liu ⋅ Tao Mei ⋅ Michael J. Black

BITE: Beyond Priors for Improved Three-D Dog Pose Estimation

Nadine Rüegg ⋅ Shashank Tripathi ⋅ Konrad Schindler ⋅ Michael J. Black ⋅ Silvia Zuffi

PoseFormerV2: Exploring Frequency Domain for Efficient and Robust 3D Human Pose Estimation

Qitao Zhao ⋅ Ce Zheng ⋅ Mengyuan Liu ⋅ Pichao Wang ⋅ Chen Chen

Global-to-Local Modeling for Video-Based 3D Human Pose and Shape Estimation

Xiaolong Shen ⋅ Zongxin Yang ⋅ Xiaohan Wang ⋅ Jianxin Ma ⋅ Chang Zhou ⋅ Yi Yang

TokenHPE: Learning Orientation Tokens for Efficient Head Pose Estimation via Transformers

Cheng Zhang ⋅ Hai Liu ⋅ Yongjian Deng ⋅ Bochen Xie ⋅ Youfu Li

GFIE: A Dataset and Baseline for Gaze-Following From 2D to 3D in Indoor Environments

Zhengxi Hu ⋅ Yuxue Yang ⋅ Xiaolin Zhai ⋅ Dingye Yang ⋅ Bohan Zhou ⋅ Jingtai Liu

Robot Structure Prior Guided Temporal Attention for Camera-to-Robot Pose Estimation From Image Sequence

Yang Tian ⋅ Jiyao Zhang ⋅ Zekai Yin ⋅ Hao Dong

Rigidity-Aware Detection for 6D Object Pose Estimation

Yang Hai ⋅ Rui Song ⋅ Jiaojiao Li ⋅ Mathieu Salzmann ⋅ Yinlin Hu

Crowd3D: Towards Hundreds of People Reconstruction From a Single Image

Hao Wen ⋅ Jing Huang ⋅ Huili Cui ⋅ Haozhe Lin ⋅ Yu-Kun Lai ⋅ Lu Fang ⋅ Kun Li

Object Pose Estimation With Statistical Guarantees: Conformal Keypoint Detection and Geometric Uncertainty Propagation

Heng Yang ⋅ Marco Pavone

expOSE: Accurate Initialization-Free Projective Factorization Using Exponential Regularization

José Pedro Iglesias ⋅ Amanda Nilsson ⋅ Carl Olsson

Neural Voting Field for Camera-Space 3D Hand Pose Estimation

Lin Huang ⋅ Chung-Ching Lin ⋅ Kevin Lin ⋅ Lin Liang ⋅ Lijuan Wang ⋅ Junsong Yuan ⋅ Zicheng Liu

Two-View Geometry Scoring Without Correspondences

Axel Barroso-Laguna ⋅ Eric Brachmann ⋅ Victor Adrian Prisacariu ⋅ Gabriel J. Brostow ⋅ Daniyar Turmukhambetov

Four-View Geometry With Unknown Radial Distortion

Petr Hruby ⋅ Viktor Korotynskiy ⋅ Timothy Duff ⋅ Luke Oeding ⋅ Marc Pollefeys ⋅ Tomas Pajdla ⋅ Viktor Larsson

BKinD-3D: Self-Supervised 3D Keypoint Discovery From Multi-View Videos

Jennifer J. Sun ⋅ Lili Karashchuk ⋅ Amil Dravid ⋅ Serim Ryou ⋅ Sonia Fereidooni ⋅ John C. Tuthill ⋅ Aggelos Katsaggelos ⋅ Bingni W. Brunton ⋅ Georgia Gkioxari ⋅ Ann Kennedy ⋅ Yisong Yue ⋅ Pietro Perona

BAAM: Monocular 3D Pose and Shape Reconstruction With Bi-Contextual Attention Module and Attention-Guided Modeling

Hyo-Jun Lee ⋅ Hanul Kim ⋅ Su-Min Choi ⋅ Seong-Gyun Jeong ⋅ Yeong Jun Koh

Multi-Object Manipulation via Object-Centric Neural Scattering Functions

Stephen Tian ⋅ Yancheng Cai ⋅ Hong-Xing Yu ⋅ Sergey Zakharov ⋅ Katherine Liu ⋅ Adrien Gaidon ⋅ Yunzhu Li ⋅ Jiajun Wu

Neural Part Priors: Learning To Optimize Part-Based Object Completion in RGB-D Scans

Aleksei Bokhovkin ⋅ Angela Dai

Panoptic Lifting for 3D Scene Understanding With Neural Fields

Yawar Siddiqui ⋅ Lorenzo Porzi ⋅ Samuel Rota Bulò ⋅ Norman Müller ⋅ Matthias Nießner ⋅ Angela Dai ⋅ Peter Kontschieder

Virtual Occlusions Through Implicit Depth

Jamie Watson ⋅ Mohamed Sayed ⋅ Zawar Qureshi ⋅ Gabriel J. Brostow ⋅ Sara Vicente ⋅ Oisin Mac Aodha ⋅ Michael Firman

Multiview Compressive Coding for 3D Reconstruction

Chao-Yuan Wu ⋅ Justin Johnson ⋅ Jitendra Malik ⋅ Christoph Feichtenhofer ⋅ Georgia Gkioxari

Behind the Scenes: Density Fields for Single View Reconstruction

Felix Wimbauer ⋅ Nan Yang ⋅ Christian Rupprecht ⋅ Daniel Cremers

VoxFormer: Sparse Voxel Transformer for Camera-Based 3D Semantic Scene Completion

Yiming Li ⋅ Zhiding Yu ⋅ Christopher Choy ⋅ Chaowei Xiao ⋅ Jose M. Alvarez ⋅ Sanja Fidler ⋅ Chen Feng ⋅ Anima Anandkumar

Renderable Neural Radiance Map for Visual Navigation

Obin Kwon ⋅ Jeongho Park ⋅ Songhwai Oh

Learning To Detect Mirrors From Videos via Dual Correspondences

Jiaying Lin ⋅ Xin Tan ⋅ Rynson W.H. Lau

Temporally Consistent Online Depth Estimation Using Point-Based Fusion

Numair Khan ⋅ Eric Penner ⋅ Douglas Lanman ⋅ Lei Xiao

Zero-Shot Dual-Lens Super-Resolution

Ruikang Xu ⋅ Mingde Yao ⋅ Zhiwei Xiong

Fully Self-Supervised Depth Estimation From Defocus Clue

Haozhe Si ⋅ Bin Zhao ⋅ Dong Wang ⋅ Yunpeng Gao ⋅ Mulin Chen ⋅ Zhigang Wang ⋅ Xuelong Li

MVImgNet: A Large-Scale Dataset of Multi-View Images

Xianggang Yu ⋅ Mutian Xu ⋅ Yidan Zhang ⋅ Haolin Liu ⋅ Chongjie Ye ⋅ Yushuang Wu ⋅ Zizheng Yan ⋅ Chenming Zhu ⋅ Zhangyang Xiong ⋅ Tianyou Liang ⋅ Guanying Chen ⋅ Shuguang Cui ⋅ Xiaoguang Han

Revisiting the Stack-Based Inverse Tone Mapping

Ning Zhang ⋅ Yuyao Ye ⋅ Yang Zhao ⋅ Ronggang Wang

Combining Implicit-Explicit View Correlation for Light Field Semantic Segmentation

Ruixuan Cong ⋅ Da Yang ⋅ Rongshan Chen ⋅ Sizhe Wang ⋅ Zhenglong Cui ⋅ Hao Sheng

3D Spatial Multimodal Knowledge Accumulation for Scene Graph Prediction in Point Cloud

Mingtao Feng ⋅ Haoran Hou ⋅ Liang Zhang ⋅ Zijie Wu ⋅ Yulan Guo ⋅ Ajmal Mian

Role of Transients in Two-Bounce Non-Line-of-Sight Imaging

Siddharth Somasundaram ⋅ Akshat Dave ⋅ Connor Henley ⋅ Ashok Veeraraghavan ⋅ Ramesh Raskar

3D Concept Learning and Reasoning From Multi-View Images

Yining Hong ⋅ Chunru Lin ⋅ Yilun Du ⋅ Zhenfang Chen ⋅ Joshua B. Tenenbaum ⋅ Chuang Gan

Viewpoint Equivariance for Multi-View 3D Object Detection

Dian Chen ⋅ Jie Li ⋅ Vitor Guizilini ⋅ Rares Andrei Ambrus ⋅ Adrien Gaidon

Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction

Yuanhui Huang ⋅ Wenzhao Zheng ⋅ Yunpeng Zhang ⋅ Jie Zhou ⋅ Jiwen Lu

BEV@DC: Bird’s-Eye View Assisted Training for Depth Completion

Wending Zhou ⋅ Xu Yan ⋅ Yinghong Liao ⋅ Yuankai Lin ⋅ Jin Huang ⋅ Gangming Zhao ⋅ Shuguang Cui ⋅ Zhen Li

Collaboration Helps Camera Overtake LiDAR in 3D Detection

Yue Hu ⋅ Yifan Lu ⋅ Runsheng Xu ⋅ Weidi Xie ⋅ Siheng Chen ⋅ Yanfeng Wang

Uni3D: A Unified Baseline for Multi-Dataset 3D Object Detection

Bo Zhang ⋅ Jiakang Yuan ⋅ Botian Shi ⋅ Tao Chen ⋅ Yikang Li ⋅ Yu Qiao

Towards Building Self-Aware Object Detectors via Reliable Uncertainty Quantification and Calibration

Kemal Oksuz ⋅ Tom Joy ⋅ Puneet K. Dokania

Depth Estimation From Camera Image and mmWave Radar Point Cloud

Akash Deep Singh ⋅ Yunhao Ba ⋅ Ankur Sarker ⋅ Howard Zhang ⋅ Achuta Kadambi ⋅ Stefano Soatto ⋅ Mani Srivastava ⋅ Alex Wong

SGLoc: Scene Geometry Encoding for Outdoor LiDAR Localization

Wen Li ⋅ Shangshu Yu ⋅ Cheng Wang ⋅ Guosheng Hu ⋅ Siqi Shen ⋅ Chenglu Wen

ConQueR: Query Contrast Voxel-DETR for 3D Object Detection

Benjin Zhu ⋅ Zhe Wang ⋅ Shaoshuai Shi ⋅ Hang Xu ⋅ Lanqing Hong ⋅ Hongsheng Li

DeepMapping2: Self-Supervised Large-Scale LiDAR Map Optimization

Chao Chen ⋅ Xinhao Liu ⋅ Yiming Li ⋅ Li Ding ⋅ Chen Feng

Towards Unsupervised Object Detection From LiDAR Point Clouds

Lunjun Zhang ⋅ Anqi Joyce Yang ⋅ Yuwen Xiong ⋅ Sergio Casas ⋅ Bin Yang ⋅ Mengye Ren ⋅ Raquel Urtasun

MoDAR: Using Motion Forecasting for 3D Object Detection in Point Cloud Sequences

Yingwei Li ⋅ Charles R. Qi ⋅ Yin Zhou ⋅ Chenxi Liu ⋅ Dragomir Anguelov

Hidden Gems: 4D Radar Scene Flow Learning Using Cross-Modal Supervision

Fangqiang Ding ⋅ Andras Palffy ⋅ Dariu M. Gavrila ⋅ Chris Xiaoxuan Lu

Instant Domain Augmentation for LiDAR Semantic Segmentation

Kwonyoung Ryu ⋅ Soonmin Hwang ⋅ Jaesik Park

Less Is More: Reducing Task and Model Complexity for 3D Point Cloud Semantic Segmentation

Li Li ⋅ Hubert P. H. Shum ⋅ Toby P. Breckon

MarS3D: A Plug-and-Play Motion-Aware Model for Semantic Segmentation on Multi-Scan 3D Point Clouds

Jiahui Liu ⋅ Chirui Chang ⋅ Jianhui Liu ⋅ Xiaoyang Wu ⋅ Lan Ma ⋅ Xiaojuan Qi

3D Semantic Segmentation in the Wild: Learning Generalized Models for Adverse-Condition Point Clouds

Aoran Xiao ⋅ Jiaxing Huang ⋅ Weihao Xuan ⋅ Ruijie Ren ⋅ Kangcheng Liu ⋅ Dayan Guan ⋅ Abdulmotaleb El Saddik ⋅ Shijian Lu ⋅ Eric P. Xing

Novel Class Discovery for 3D Point Cloud Semantic Segmentation

Luigi Riz ⋅ Cristiano Saltori ⋅ Elisa Ricci ⋅ Fabio Poiesi

GD-MAE: Generative Decoder for MAE Pre-Training on LiDAR Point Clouds

Honghui Yang ⋅ Tong He ⋅ Jiaheng Liu ⋅ Hua Chen ⋅ Boxi Wu ⋅ Binbin Lin ⋅ Xiaofei He ⋅ Wanli Ouyang

Masked Scene Contrast: A Scalable Framework for Unsupervised 3D Representation Learning

Xiaoyang Wu ⋅ Xin Wen ⋅ Xihui Liu ⋅ Hengshuang Zhao

Open-Set Semantic Segmentation for Point Clouds via Adversarial Prototype Framework

Jianan Li ⋅ Qiulei Dong

ACL-SPC: Adaptive Closed-Loop System for Self-Supervised Point Cloud Completion

Sangmin Hong ⋅ Mohsen Yavartanoo ⋅ Reyhaneh Neshatavar ⋅ Kyoung Mu Lee

Fast Point Cloud Generation With Straight Flows

Lemeng Wu ⋅ Dilin Wang ⋅ Chengyue Gong ⋅ Xingchao Liu ⋅ Yunyang Xiong ⋅ Rakesh Ranjan ⋅ Raghuraman Krishnamoorthi ⋅ Vikas Chandra ⋅ Qiang Liu

PointVector: A Vector Representation in Point Cloud Analysis

Xin Deng ⋅ WenYu Zhang ⋅ Qing Ding ⋅ XinMing Zhang

ProxyFormer: Proxy Alignment Assisted Point Cloud Completion With Missing Part Sensitive Transformer

Shanshan Li ⋅ Pan Gao ⋅ Xiaoyang Tan ⋅ Mingqiang Wei

FAC: 3D Representation Learning via Foreground Aware Feature Contrast

Kangcheng Liu ⋅ Aoran Xiao ⋅ Xiaoqin Zhang ⋅ Shijian Lu ⋅ Ling Shao

Rethinking the Approximation Error in 3D Surface Fitting for Point Cloud Normal Estimation

Hang Du ⋅ Xuejun Yan ⋅ Jingjing Wang ⋅ Di Xie ⋅ Shiliang Pu

PointCert: Point Cloud Classification With Deterministic Certified Robustness Guarantees

Jinghuai Zhang ⋅ Jinyuan Jia ⋅ Hongbin Liu ⋅ Neil Zhenqiang Gong

Robust Multiview Point Cloud Registration With Reliable Pose Graph Initialization and History Reweighting

Haiping Wang ⋅ Yuan Liu ⋅ Zhen Dong ⋅ Yulan Guo ⋅ Yu-Shen Liu ⋅ Wenping Wang ⋅ Bisheng Yang

Visual Prompt Multi-Modal Tracking

Jiawen Zhu ⋅ Simiao Lai ⋅ Xin Chen ⋅ Dong Wang ⋅ Huchuan Lu

Progressive Neighbor Consistency Mining for Correspondence Pruning

Xin Liu ⋅ Jufeng Yang

Geometric Visual Similarity Learning in 3D Medical Image Self-Supervised Pre-Training

Yuting He ⋅ Guanyu Yang ⋅ Rongjun Ge ⋅ Yang Chen ⋅ Jean-Louis Coatrieux ⋅ Boyu Wang ⋅ Shuo Li

Unsupervised Visible-Infrared Person Re-Identification via Progressive Graph Matching and Alternate Learning

Zesen Wu ⋅ Mang Ye

Domain Generalized Stereo Matching via Hierarchical Visual Transformation

Tianyu Chang ⋅ Xun Yang ⋅ Tianzhu Zhang ⋅ Meng Wang

Unsupervised Cumulative Domain Adaptation for Foggy Scene Optical Flow

Hanyu Zhou ⋅ Yi Chang ⋅ Wending Yan ⋅ Luxin Yan

PVO: Panoptic Visual Odometry

Weicai Ye ⋅ Xinyue Lan ⋅ Shuo Chen ⋅ Yuhang Ming ⋅ Xingyuan Yu ⋅ Hujun Bao ⋅ Zhaopeng Cui ⋅ Guofeng Zhang

BAEFormer: Bi-Directional and Early Interaction Transformers for Bird’s Eye View Semantic Segmentation

Cong Pan ⋅ Yonghao He ⋅ Junran Peng ⋅ Qian Zhang ⋅ Wei Sui ⋅ Zhaoxiang Zhang

Are We Ready for Vision-Centric Driving Streaming Perception? The ASAP Benchmark

Xiaofeng Wang ⋅ Zheng Zhu ⋅ Yunpeng Zhang ⋅ Guan Huang ⋅ Yun Ye ⋅ Wenbo Xu ⋅ Ziwei Chen ⋅ Xingang Wang

Visual Exemplar Driven Task-Prompting for Unified Perception in Autonomous Driving

Xiwen Liang ⋅ Minzhe Niu ⋅ Jianhua Han ⋅ Hang Xu ⋅ Chunjing Xu ⋅ Xiaodan Liang

MixSim: A Hierarchical Framework for Mixed Reality Traffic Simulation

Simon Suo ⋅ Kelvin Wong ⋅ Justin Xu ⋅ James Tu ⋅ Alexander Cui ⋅ Sergio Casas ⋅ Raquel Urtasun

Uncovering the Missing Pattern: Unified Framework Towards Trajectory Imputation and Prediction

Yi Xu ⋅ Armin Bazarjani ⋅ Hyung-gun Chi ⋅ Chiho Choi ⋅ Yun Fu

MotionDiffuser: Controllable Multi-Agent Motion Prediction Using Diffusion

Chiyu “Max” Jiang ⋅ Andre Cornman ⋅ Cheolho Park ⋅ Benjamin Sapp ⋅ Yin Zhou ⋅ Dragomir Anguelov

Learning Human-to-Robot Handovers From Point Clouds

Sammy Christen ⋅ Wei Yang ⋅ Claudia Pérez-D’Arpino ⋅ Otmar Hilliges ⋅ Dieter Fox ⋅ Yu-Wei Chao

Phone2Proc: Bringing Robust Robots Into Our Chaotic World

Matt Deitke ⋅ Rose Hendrix ⋅ Ali Farhadi ⋅ Kiana Ehsani ⋅ Aniruddha Kembhavi

GazeNeRF: 3D-Aware Gaze Redirection With Neural Radiance Fields

Alessandro Ruzzi ⋅ Xiangwei Shi ⋅ Xi Wang ⋅ Gengyan Li ⋅ Shalini De Mello ⋅ Hyung Jin Chang ⋅ Xucong Zhang ⋅ Otmar Hilliges

Observation-Centric SORT: Rethinking SORT for Robust Multi-Object Tracking

Jinkun Cao ⋅ Jiangmiao Pang ⋅ Xinshuo Weng ⋅ Rawal Khirodkar ⋅ Kris Kitani

Autoregressive Visual Tracking

Xing Wei ⋅ Yifan Bai ⋅ Yongchao Zheng ⋅ Dahu Shi ⋅ Yihong Gong

OpenGait: Revisiting Gait Recognition Towards Better Practicality

Chao Fan ⋅ Junhao Liang ⋅ Chuanfu Shen ⋅ Saihui Hou ⋅ Yongzhen Huang ⋅ Shiqi Yu

Pose-Disentangled Contrastive Learning for Self-Supervised Facial Representation

Yuanyuan Liu ⋅ Wenbin Wang ⋅ Yibing Zhan ⋅ Shaoze Feng ⋅ Kejun Liu ⋅ Zhe Chen

Identity-Preserving Talking Face Generation With Landmark and Appearance Priors

Weizhi Zhong ⋅ Chaowei Fang ⋅ Yinqi Cai ⋅ Pengxu Wei ⋅ Gangming Zhao ⋅ Liang Lin ⋅ Guanbin Li

DF-Platter: Multi-Face Heterogeneous Deepfake Dataset

Kartik Narayan ⋅ Harsh Agarwal ⋅ Kartik Thakral ⋅ Surbhi Mittal ⋅ Mayank Vatsa ⋅ Richa Singh

Physics-Driven Diffusion Models for Impact Sound Synthesis From Videos

Kun Su ⋅ Kaizhi Qian ⋅ Eli Shlizerman ⋅ Antonio Torralba ⋅ Chuang Gan

Mofusion: A Framework for Denoising-Diffusion-Based Motion Synthesis

Rishabh Dabral ⋅ Muhammad Hamza Mughal ⋅ Vladislav Golyanik ⋅ Christian Theobalt

Adaptive Global Decay Process for Event Cameras

Urbano Miguel Nunes ⋅ Ryad Benosman ⋅ Sio-Hoi Ieng

Frame-Event Alignment and Fusion Network for High Frame Rate Tracking

Jiqing Zhang ⋅ Yuanchen Wang ⋅ Wenxi Liu ⋅ Meng Li ⋅ Jinpeng Bai ⋅ Baocai Yin ⋅ Xin Yang

Exploring Discontinuity for Video Frame Interpolation

Sangjin Lee ⋅ Hyeongmin Lee ⋅ Chajin Shin ⋅ Hanbin Son ⋅ Sangyoun Lee

AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation

Zhen Li ⋅ Zuo-Liang Zhu ⋅ Ling-Hao Han ⋅ Qibin Hou ⋅ Chun-Le Guo ⋅ Ming-Ming Cheng

Frame Interpolation Transformer and Uncertainty Guidance

Markus Plack ⋅ Karlis Martins Briedis ⋅ Abdelaziz Djelouah ⋅ Matthias B. Hullin ⋅ Markus Gross ⋅ Christopher Schroers

A Simple Baseline for Video Restoration With Grouped Spatial-Temporal Shift

Dasong Li ⋅ Xiaoyu Shi ⋅ Yi Zhang ⋅ Ka Chun Cheung ⋅ Simon See ⋅ Xiaogang Wang ⋅ Hongwei Qin ⋅ Hongsheng Li

Recurrent Homography Estimation Using Homography-Guided Image Warping and Focus Transformer

Si-Yuan Cao ⋅ Runmin Zhang ⋅ Lun Luo ⋅ Beinan Yu ⋅ Zehua Sheng ⋅ Junwei Li ⋅ Hui-Liang Shen

HyperCUT: Video Sequence From a Single Blurry Image Using Unsupervised Ordering

Bang-Dang Pham ⋅ Phong Tran ⋅ Anh Tran ⋅ Cuong Pham ⋅ Rang Nguyen ⋅ Minh Hoai

Indescribable Multi-Modal Spatial Evaluator

Lingke Kong ⋅ X. Sharon Qi ⋅ Qijin Shen ⋅ Jiacheng Wang ⋅ Jingyi Zhang ⋅ Yanle Hu ⋅ Qichao Zhou

Structured Kernel Estimation for Photon-Limited Deconvolution

Yash Sanghvi ⋅ Zhiyuan Mao ⋅ Stanley H. Chan

Polarized Color Image Denoising

Zhuoxiao Li ⋅ Haiyang Jiang ⋅ Mingdeng Cao ⋅ Yinqiang Zheng

Uncertainty-Aware Unsupervised Image Deblurring With Deep Residual Prior

Xiaole Tang ⋅ Xile Zhao ⋅ Jun Liu ⋅ Jianli Wang ⋅ Yuchun Miao ⋅ Tieyong Zeng

Low-Light Image Enhancement via Structure Modeling and Guidance

Xiaogang Xu ⋅ Ruixing Wang ⋅ Jiangbo Lu

Learning Sample Relationship for Exposure Correction

Jie Huang ⋅ Feng Zhao ⋅ Man Zhou ⋅ Jie Xiao ⋅ Naishan Zheng ⋅ Kaiwen Zheng ⋅ Zhiwei Xiong

Spatially Adaptive Self-Supervised Learning for Real-World Image Denoising

Junyi Li ⋅ Zhilu Zhang ⋅ Xiaoyu Liu ⋅ Chaoyu Feng ⋅ Xiaotao Wang ⋅ Lei Lei ⋅ Wangmeng Zuo

Quantum-Inspired Spectral-Spatial Pyramid Network for Hyperspectral Image Classification

Jie Zhang ⋅ Yongshan Zhang ⋅ Yicong Zhou

Generative Diffusion Prior for Unified Image Restoration and Enhancement

Ben Fei ⋅ Zhaoyang Lyu ⋅ Liang Pan ⋅ Junzhe Zhang ⋅ Weidong Yang ⋅ Tianyue Luo ⋅ Bo Zhang ⋅ Bo Dai

Ground-Truth Free Meta-Learning for Deep Compressive Sampling

Xinran Qin ⋅ Yuhui Quan ⋅ Tongyao Pang ⋅ Hui Ji

Recognizability Embedding Enhancement for Very Low-Resolution Face Recognition and Quality Estimation

Jacky Chen Long Chai ⋅ Tiong-Sik Ng ⋅ Cheng-Yaw Low ⋅ Jaewoo Park ⋅ Andrew Beng Jin Teoh

An Image Quality Assessment Dataset for Portraits

Nicolas Chahine ⋅ Stefania Calarasanu ⋅ Davide Garcia-Civiero ⋅ Théo Cayla ⋅ Sira Ferradans ⋅ Jean Ponce

Bitstream-Corrupted JPEG Images Are Restorable: Two-Stage Compensation and Alignment Framework for Image Restoration

Wenyang Liu ⋅ Yi Wang ⋅ Kim-Hui Yap ⋅ Lap-Pui Chau

Image Super-Resolution Using T-Tetromino Pixels

Simon Grosche ⋅ Andy Regensky ⋅ Jürgen Seiler ⋅ André Kaup

CUF: Continuous Upsampling Filters

Cristina N. Vasconcelos ⋅ Cengiz Oztireli ⋅ Mark Matthews ⋅ Milad Hashemi ⋅ Kevin Swersky ⋅ Andrea Tagliasacchi

OPE-SR: Orthogonal Position Encoding for Designing a Parameter-Free Upsampling Module in Arbitrary-Scale Image Super-Resolution

Gaochao Song ⋅ Qian Sun ⋅ Luo Zhang ⋅ Ran Su ⋅ Jianfeng Shi ⋅ Ying He

Implicit Diffusion Models for Continuous Super-Resolution

Sicheng Gao ⋅ Xuhui Liu ⋅ Bohan Zeng ⋅ Sheng Xu ⋅ Yanjing Li ⋅ Xiaoyan Luo ⋅ Jianzhuang Liu ⋅ Xiantong Zhen ⋅ Baochang Zhang

Pixels, Regions, and Objects: Multiple Enhancement for Salient Object Detection

Yi Wang ⋅ Ruili Wang ⋅ Xin Fan ⋅ Tianzhu Wang ⋅ Xiangjian He

VILA: Learning Image Aesthetics From User Comments With Vision-Language Pretraining

Junjie Ke ⋅ Keren Ye ⋅ Jiahui Yu ⋅ Yonghui Wu ⋅ Peyman Milanfar ⋅ Feng Yang

Image Cropping With Spatial-Aware Feature and Rank Consistency

Chao Wang ⋅ Li Niu ⋅ Bo Zhang ⋅ Liqing Zhang

B-Spline Texture Coefficients Estimator for Screen Content Image Super-Resolution

Byeonghyun Pak ⋅ Jaewon Lee ⋅ Kyong Hwan Jin

Delving StyleGAN Inversion for Image Editing: A Foundation Latent Space Viewpoint

Hongyu Liu ⋅ Yibing Song ⋅ Qifeng Chen

Learning Dynamic Style Kernels for Artistic Style Transfer

Wenju Xu ⋅ Chengjiang Long ⋅ Yongwei Nie

SVGformer: Representation Learning for Continuous Vector Graphics Using Transformers

Defu Cao ⋅ Zhaowen Wang ⋅ Jose Echevarria ⋅ Yan Liu

Learning Generative Structure Prior for Blind Text Image Super-Resolution

Xiaoming Li ⋅ Wangmeng Zuo ⋅ Chen Change Loy

Unsupervised Domain Adaption With Pixel-Level Discriminator for Image-Aware Layout Generation

Chenchen Xu ⋅ Min Zhou ⋅ Tiezheng Ge ⋅ Yuning Jiang ⋅ Weiwei Xu

Scaling Up GANs for Text-to-Image Synthesis

Minguk Kang ⋅ Jun-Yan Zhu ⋅ Richard Zhang ⋅ Jaesik Park ⋅ Eli Shechtman ⋅ Sylvain Paris ⋅ Taesung Park

ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model With Knowledge-Enhanced Mixture-of-Denoising-Experts

Zhida Feng ⋅ Zhenyu Zhang ⋅ Xintong Yu ⋅ Yewei Fang ⋅ Lanxin Li ⋅ Xuyi Chen ⋅ Yuxiang Lu ⋅ Jiaxiang Liu ⋅ Weichong Yin ⋅ Shikun Feng ⋅ Yu Sun ⋅ Li Chen ⋅ Hao Tian ⋅ Hua Wu ⋅ Haifeng Wang

Inversion-Based Style Transfer With Diffusion Models

Yuxin Zhang ⋅ Nisha Huang ⋅ Fan Tang ⋅ Haibin Huang ⋅ Chongyang Ma ⋅ Weiming Dong ⋅ Changsheng Xu

Shifted Diffusion for Text-to-Image Generation

Yufan Zhou ⋅ Bingchen Liu ⋅ Yizhe Zhu ⋅ Xiao Yang ⋅ Changyou Chen ⋅ Jinhui Xu

LayoutDM: Discrete Diffusion Model for Controllable Layout Generation

Naoto Inoue ⋅ Kotaro Kikuchi ⋅ Edgar Simo-Serra ⋅ Mayu Otani ⋅ Kota Yamaguchi

Unpaired Image-to-Image Translation With Shortest Path Regularization

Shaoan Xie ⋅ Yanwu Xu ⋅ Mingming Gong ⋅ Kun Zhang

DiffCollage: Parallel Generation of Large Content With Diffusion Models

Qinsheng Zhang ⋅ Jiaming Song ⋅ Xun Huang ⋅ Yongxin Chen ⋅ Ming-Yu Liu

Wavelet Diffusion Models Are Fast and Scalable Image Generators

Hao Phung ⋅ Quan Dao ⋅ Anh Tran

VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation

Zhengxiong Luo ⋅ Dayou Chen ⋅ Yingya Zhang ⋅ Yan Huang ⋅ Liang Wang ⋅ Yujun Shen ⋅ Deli Zhao ⋅ Jingren Zhou ⋅ Tieniu Tan

MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

Ludan Ruan ⋅ Yiyang Ma ⋅ Huan Yang ⋅ Huiguo He ⋅ Bei Liu ⋅ Jianlong Fu ⋅ Nicholas Jing Yuan ⋅ Qin Jin ⋅ Baining Guo

Adaptive Human Matting for Dynamic Videos

Chung-Ching Lin ⋅ Jiang Wang ⋅ Kun Luo ⋅ Kevin Lin ⋅ Linjie Li ⋅ Lijuan Wang ⋅ Zicheng Liu

LVQAC: Lattice Vector Quantization Coupled With Spatially Adaptive Companding for Efficient Learned Image Compression

Xi Zhang ⋅ Xiaolin Wu

Hierarchical B-Frame Video Coding Using Two-Layer CANF Without Motion Coding

David Alexandre ⋅ Hsueh-Ming Hang ⋅ Wen-Hsiao Peng

Towards High-Quality and Efficient Video Super-Resolution via Spatial-Temporal Data Overfitting

Gen Li ⋅ Jie Ji ⋅ Minghai Qin ⋅ Wei Niu ⋅ Bin Ren ⋅ Fatemeh Afghah ⋅ Linke Guo ⋅ Xiaolong Ma

HNeRV: A Hybrid Neural Representation for Videos

Hao Chen ⋅ Matthew Gwilliam ⋅ Ser-Nam Lim ⋅ Abhinav Shrivastava

Regularize Implicit Neural Representation by Itself

Zhemin Li ⋅ Hongxia Wang ⋅ Deyu Meng

SMPConv: Self-Moving Point Representations for Continuous Convolution

Sanghyeon Kim ⋅ Eunbyung Park

Long Range Pooling for 3D Large-Scale Scene Understanding

Xiang-Li Li ⋅ Meng-Hao Guo ⋅ Tai-Jiang Mu ⋅ Ralph R. Martin ⋅ Shi-Min Hu

Progressive Random Convolutions for Single Domain Generalization

Seokeon Choi ⋅ Debasmit Das ⋅ Sungha Choi ⋅ Seunghan Yang ⋅ Hyunsin Park ⋅ Sungrack Yun

BiFormer: Vision Transformer With Bi-Level Routing Attention

Lei Zhu ⋅ Xinjiang Wang ⋅ Zhanghan Ke ⋅ Wayne Zhang ⋅ Rynson W.H. Lau

Beyond Attentive Tokens: Incorporating Token Importance and Diversity for Efficient Vision Transformers

Sifan Long ⋅ Zhen Zhao ⋅ Jimin Pi ⋅ Shengsheng Wang ⋅ Jingdong Wang

BioNet: A Biologically-Inspired Network for Face Recognition

Pengyu Li

Dual-Bridging With Adversarial Noise Generation for Domain Adaptive rPPG Estimation

Jingda Du ⋅ Si-Qi Liu ⋅ Bochao Zhang ⋅ Pong C. Yuen

On Data Scaling in Masked Image Modeling

Zhenda Xie ⋅ Zheng Zhang ⋅ Yue Cao ⋅ Yutong Lin ⋅ Yixuan Wei ⋅ Qi Dai ⋅ Han Hu

Hard Patches Mining for Masked Image Modeling

Haochen Wang ⋅ Kaiyou Song ⋅ Junsong Fan ⋅ Yuxi Wang ⋅ Jin Xie ⋅ Zhaoxiang Zhang

Evolved Part Masking for Self-Supervised Learning

Zhanzhou Feng ⋅ Shiliang Zhang

BASiS: Batch Aligned Spectral Embedding Space

Or Streicher ⋅ Ido Cohen ⋅ Guy Gilboa

OmniMAE: Single Model Masked Pretraining on Images and Videos

Rohit Girdhar ⋅ Alaaeldin El-Nouby ⋅ Mannat Singh ⋅ Kalyan Vasudev Alwala ⋅ Armand Joulin ⋅ Ishan Misra

ViTs for SITS: Vision Transformers for Satellite Image Time Series

Michail Tarasiou ⋅ Erik Chavez ⋅ Stefanos Zafeiriou

Probabilistic Debiasing of Scene Graphs

Bashirul Azam Biswas ⋅ Qiang Ji

Blind Video Deflickering by Neural Filtering With a Flawed Atlas

Chenyang Lei ⋅ Xuanchi Ren ⋅ Zhaoxiang Zhang ⋅ Qifeng Chen

SCOTCH and SODA: A Transformer Video Shadow Detection Framework

Lihao Liu ⋅ Jean Prost ⋅ Lei Zhu ⋅ Nicolas Papadakis ⋅ Pietro Liò ⋅ Carola-Bibiane Schönlieb ⋅ Angelica I. Aviles-Rivero

MAGVIT: Masked Generative Video Transformer

Lijun Yu ⋅ Yong Cheng ⋅ Kihyuk Sohn ⋅ José Lezama ⋅ Han Zhang ⋅ Huiwen Chang ⋅ Alexander G. Hauptmann ⋅ Ming-Hsuan Yang ⋅ Yuan Hao ⋅ Irfan Essa ⋅ Lu Jiang

Improving Robustness of Semantic Segmentation to Motion-Blur Using Class-Centric Augmentation

Aakanksha Aakanksha ⋅ A. N. Rajagopalan

MobileVOS: Real-Time Video Object Segmentation Contrastive Learning Meets Knowledge Distillation

Roy Miles ⋅ Mehmet Kerim Yucel ⋅ Bruno Manganelli ⋅ Albert Saà-Garriga

Self-Supervised Video Forensics by Audio-Visual Anomaly Detection

Chao Feng ⋅ Ziyang Chen ⋅ Andrew Owens

Frame Flexible Network

Yitian Zhang ⋅ Yue Bai ⋅ Chang Liu ⋅ Huan Wang ⋅ Sheng Li ⋅ Yun Fu

System-Status-Aware Adaptive Network for Online Streaming Video Understanding

Lin Geng Foo ⋅ Jia Gong ⋅ Zhipeng Fan ⋅ Jun Liu

MDQE: Mining Discriminative Query Embeddings To Segment Occluded Instances on Challenging Videos

Minghan Li ⋅ Shuai Li ⋅ Wangmeng Xiang ⋅ Lei Zhang

Spatio-Temporal Pixel-Level Contrastive Learning-Based Source-Free Domain Adaptation for Video Semantic Segmentation

Shao-Yuan Lo ⋅ Poojan Oza ⋅ Sumanth Chennupati ⋅ Alejandro Galindo ⋅ Vishal M. Patel

Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation

Lingting Zhu ⋅ Xian Liu ⋅ Xuanyu Liu ⋅ Rui Qian ⋅ Ziwei Liu ⋅ Lequan Yu

Chat2Map: Efficient Scene Mapping From Multi-Ego Conversations

Sagnik Majumder ⋅ Hao Jiang ⋅ Pierre Moulon ⋅ Ethan Henderson ⋅ Paul Calamia ⋅ Kristen Grauman ⋅ Vamsi Krishna Ithapu

Audio-Visual Grouping Network for Sound Localization From Mixtures

Shentong Mo ⋅ Yapeng Tian

Language-Guided Audio-Visual Source Separation via Trimodal Consistency

Reuben Tan ⋅ Arijit Ray ⋅ Andrea Burns ⋅ Bryan A. Plummer ⋅ Justin Salamon ⋅ Oriol Nieto ⋅ Bryan Russell ⋅ Kate Saenko

Fine-Grained Audible Video Description

Xuyang Shen ⋅ Dong Li ⋅ Jinxing Zhou ⋅ Zhen Qin ⋅ Bowen He ⋅ Xiaodong Han ⋅ Aixuan Li ⋅ Mochu Xiang ⋅ Lingpeng Kong ⋅ Meng Wang ⋅ Yu Qiao ⋅ Yiran Zhong

Neural Koopman Pooling: Control-Inspired Temporal Dynamics Encoding for Skeleton-Based Action Recognition

Xinghan Wang ⋅ Xin Xu ⋅ Yadong Mu

Learning Discriminative Representations for Skeleton Based Action Recognition

Huanyu Zhou ⋅ Qingjie Liu ⋅ Yunhong Wang

Therbligs in Action: Video Understanding Through Motion Primitives

Eadom Dessalene ⋅ Michael Maynord ⋅ Cornelia Fermüller ⋅ Yiannis Aloimonos

Search-Map-Search: A Frame Selection Paradigm for Action Recognition

Mingjun Zhao ⋅ Yakun Yu ⋅ Xiaoli Wang ⋅ Lei Yang ⋅ Di Niu

Re2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal Action Localization

Chen Zhao ⋅ Shuming Liu ⋅ Karttikeya Mangalam ⋅ Bernard Ghanem

Boosting Weakly-Supervised Temporal Action Localization With Text Information

Guozhang Li ⋅ De Cheng ⋅ Xinpeng Ding ⋅ Nannan Wang ⋅ Xiaoyu Wang ⋅ Xinbo Gao

Perception and Semantic Aware Regularization for Sequential Confidence Calibration

Zhenghua Peng ⋅ Yu Luo ⋅ Tianshui Chen ⋅ Keke Xu ⋅ Shuangping Huang

NewsNet: A Novel Dataset for Hierarchical Temporal Segmentation

Haoqian Wu ⋅ Keyu Chen ⋅ Haozhe Liu ⋅ Mingchen Zhuge ⋅ Bing Li ⋅ Ruizhi Qiao ⋅ Xiujun Shu ⋅ Bei Gan ⋅ Liangsheng Xu ⋅ Bo Ren ⋅ Mengmeng Xu ⋅ Wentian Zhang ⋅ Raghavendra Ramachandra ⋅ Chia-Wen Lin ⋅ Bernard Ghanem

Tell Me What Happened: Unifying Text-Guided Video Completion via Multimodal Masked Video Generation

Tsu-Jui Fu ⋅ Licheng Yu ⋅ Ning Zhang ⋅ Cheng-Yang Fu ⋅ Jong-Chyi Su ⋅ William Yang Wang ⋅ Sean Bell

Leveraging Temporal Context in Low Representational Power Regimes

Camilo L. Fosco ⋅ SouYoung Jin ⋅ Emilie Josephs ⋅ Aude Oliva

Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval?

Wenhao Wu ⋅ Haipeng Luo ⋅ Bo Fang ⋅ Jingdong Wang ⋅ Wanli Ouyang

Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning

Antoine Yang ⋅ Arsha Nagrani ⋅ Paul Hongsuck Seo ⋅ Antoine Miech ⋅ Jordi Pont-Tuset ⋅ Ivan Laptev ⋅ Josef Sivic ⋅ Cordelia Schmid

Procedure-Aware Pretraining for Instructional Video Understanding

Honglu Zhou ⋅ Roberto Martín-Martín ⋅ Mubbasir Kapadia ⋅ Silvio Savarese ⋅ Juan Carlos Niebles

VindLU: A Recipe for Effective Video-and-Language Pretraining

Feng Cheng ⋅ Xizi Wang ⋅ Jie Lei ⋅ David Crandall ⋅ Mohit Bansal ⋅ Gedas Bertasius

Modular Memorability: Tiered Representations for Video Memorability Prediction

Théo Dumont ⋅ Juan Segundo Hevia ⋅ Camilo L. Fosco

Multivariate, Multi-Frequency and Multimodal: Rethinking Graph Neural Networks for Emotion Recognition in Conversation

Feiyu Chen ⋅ Jie Shao ⋅ Shuyuan Zhu ⋅ Heng Tao Shen

Distilling Cross-Temporal Contexts for Continuous Sign Language Recognition

Leming Guo ⋅ Wanli Xue ⋅ Qing Guo ⋅ Bo Liu ⋅ Kaihua Zhang ⋅ Tiantian Yuan ⋅ Shengyong Chen

You Need Multiple Exiting: Dynamic Early Exiting for Accelerating Unified Vision Language Model

Shengkun Tang ⋅ Yaqing Wang ⋅ Zhenglun Kong ⋅ Tianchi Zhang ⋅ Yao Li ⋅ Caiwen Ding ⋅ Yanzhi Wang ⋅ Yi Liang ⋅ Dongkuan Xu

Layout-Based Causal Inference for Object Navigation

Sixian Zhang ⋅ Xinhang Song ⋅ Weijie Li ⋅ Yubing Bai ⋅ Xinyao Yu ⋅ Shuqiang Jiang

Improving Vision-and-Language Navigation by Generating Future-View Image Semantics

Jialu Li ⋅ Mohit Bansal

A New Path: Scaling Vision-and-Language Navigation With Synthetic Instructions and Imitation Learning

Aishwarya Kamath ⋅ Peter Anderson ⋅ Su Wang ⋅ Jing Yu Koh ⋅ Alexander Ku ⋅ Austin Waters ⋅ Yinfei Yang ⋅ Jason Baldridge ⋅ Zarana Parekh

A-Cap: Anticipation Captioning With Commonsense Knowledge

Duc Minh Vo ⋅ Quoc-An Luong ⋅ Akihiro Sugimoto ⋅ Hideki Nakayama

Are Deep Neural Networks SMARTer Than Second Graders?

Anoop Cherian ⋅ Kuan-Chuan Peng ⋅ Suhas Lohit ⋅ Kevin A. Smith ⋅ Joshua B. Tenenbaum

Fusing Pre-Trained Language Models With Multimodal Prompts Through Reinforcement Learning

Youngjae Yu ⋅ Jiwan Chung ⋅ Heeseung Yun ⋅ Jack Hessel ⋅ Jae Sung Park ⋅ Ximing Lu ⋅ Rowan Zellers ⋅ Prithviraj Ammanabrolu ⋅ Ronan Le Bras ⋅ Gunhee Kim ⋅ Yejin Choi

Language Adaptive Weight Generation for Multi-Task Visual Grounding

Wei Su ⋅ Peihan Miao ⋅ Huanzhang Dou ⋅ Gaoang Wang ⋅ Liang Qiao ⋅ Zheyang Li ⋅ Xi Li

From Images to Textual Prompts: Zero-Shot Visual Question Answering With Frozen Large Language Models

Jiaxian Guo ⋅ Junnan Li ⋅ Dongxu Li ⋅ Anthony Meng Huat Tiong ⋅ Boyang Li ⋅ Dacheng Tao ⋅ Steven Hoi

Diversity-Aware Meta Visual Prompting

Qidong Huang ⋅ Xiaoyi Dong ⋅ Dongdong Chen ⋅ Weiming Zhang ⋅ Feifei Wang ⋅ Gang Hua ⋅ Nenghai Yu

Hierarchical Prompt Learning for Multi-Task Learning

Yajing Liu ⋅ Yuning Lu ⋅ Hao Liu ⋅ Yaozu An ⋅ Zhuoran Xu ⋅ Zhuokun Yao ⋅ Baofeng Zhang ⋅ Zhiwei Xiong ⋅ Chenguang Gui

Task Residual for Tuning Vision-Language Models

Tao Yu ⋅ Zhihe Lu ⋅ Xin Jin ⋅ Zhibo Chen ⋅ Xinchao Wang

CREPE: Can Vision-Language Foundation Models Reason Compositionally?

Zixian Ma ⋅ Jerry Hong ⋅ Mustafa Omer Gul ⋅ Mona Gandhi ⋅ Irena Gao ⋅ Ranjay Krishna

LOCATE: Localize and Transfer Object Parts for Weakly Supervised Affordance Grounding

Gen Li ⋅ Varun Jampani ⋅ Deqing Sun ⋅ Laura Sevilla-Lara

Overlooked Factors in Concept-Based Explanations: Dataset Choice, Concept Learnability, and Human Capability

Vikram V. Ramaswamy ⋅ Sunnie S. Y. Kim ⋅ Ruth Fong ⋅ Olga Russakovsky

Grounding Counterfactual Explanation of Image Classifiers to Textual Concept Space

Siwon Kim ⋅ Jinoh Oh ⋅ Sungjin Lee ⋅ Seunghak Yu ⋅ Jaeyoung Do ⋅ Tara Taghavi

GIVL: Improving Geographical Inclusivity of Vision-Language Models With Pre-Training Methods

Da Yin ⋅ Feng Gao ⋅ Govind Thattai ⋅ Michael Johnston ⋅ Kai-Wei Chang

Learning Bottleneck Concepts in Image Classification

Bowen Wang ⋅ Liangzhi Li ⋅ Yuta Nakashima ⋅ Hajime Nagahara

SceneTrilogy: On Human Scene-Sketch and Its Complementarity With Photo and Text

Pinaki Nath Chowdhury ⋅ Ayan Kumar Bhunia ⋅ Aneeshan Sain ⋅ Subhadeep Koley ⋅ Tao Xiang ⋅ Yi-Zhe Song

Context-Aware Alignment and Mutual Masking for 3D-Language Pre-Training

Zhao Jin ⋅ Munawar Hayat ⋅ Yuwei Yang ⋅ Yulan Guo ⋅ Yinjie Lei

MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image Pretraining

Xiaoyi Dong ⋅ Jianmin Bao ⋅ Yinglin Zheng ⋅ Ting Zhang ⋅ Dongdong Chen ⋅ Hao Yang ⋅ Ming Zeng ⋅ Weiming Zhang ⋅ Lu Yuan ⋅ Dong Chen ⋅ Fang Wen ⋅ Nenghai Yu

CLIPPO: Image-and-Language Understanding From Pixels Only

Michael Tschannen ⋅ Basil Mustafa ⋅ Neil Houlsby

ViLEM: Visual-Language Error Modeling for Image-Text Retrieval

Yuxin Chen ⋅ Zongyang Ma ⋅ Ziqi Zhang ⋅ Zhongang Qi ⋅ Chunfeng Yuan ⋅ Ying Shan ⋅ Bing Li ⋅ Weiming Hu ⋅ Xiaohu Qie ⋅ Jianping Wu

Non-Contrastive Learning Meets Language-Image Pre-Training

Jinghao Zhou ⋅ Li Dong ⋅ Zhe Gan ⋅ Lijuan Wang ⋅ Furu Wei

HAAV: Hierarchical Aggregation of Augmented Views for Image Captioning

Chia-Wen Kuo ⋅ Zsolt Kira

Learning Attribute and Class-Specific Representation Duet for Fine-Grained Fashion Analysis

Yang Jiao ⋅ Yan Gao ⋅ Jingjing Meng ⋅ Jin Shang ⋅ Yi Sun

Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in E-Commerce

Yang Jin ⋅ Yongzhi Li ⋅ Zehuan Yuan ⋅ Yadong Mu

Cross-Image-Attention for Conditional Embeddings in Deep Metric Learning

Dmytro Kotovenko ⋅ Pingchuan Ma ⋅ Timo Milbich ⋅ Björn Ommer

Asymmetric Feature Fusion for Image Retrieval

Hui Wu ⋅ Min Wang ⋅ Wengang Zhou ⋅ Zhenbo Lu ⋅ Houqiang Li

Improving Zero-Shot Generalization and Robustness of Multi-Modal Models

Yunhao Ge ⋅ Jie Ren ⋅ Andrew Gallagher ⋅ Yuxiao Wang ⋅ Ming-Hsuan Yang ⋅ Hartwig Adam ⋅ Laurent Itti ⋅ Balaji Lakshminarayanan ⋅ Jiaping Zhao

Hint-Aug: Drawing Hints From Foundation Vision Transformers Towards Boosted Few-Shot Parameter-Efficient Tuning

Zhongzhi Yu ⋅ Shang Wu ⋅ Yonggan Fu ⋅ Shunyao Zhang ⋅ Yingyan (Celine) Lin

Visual DNA: Representing and Comparing Images Using Distributions of Neuron Activations

Benjamin Ramtoula ⋅ Matthew Gadd ⋅ Paul Newman ⋅ Daniele De Martini

End-to-End 3D Dense Captioning With Vote2Cap-DETR

Sijin Chen ⋅ Hongyuan Zhu ⋅ Xin Chen ⋅ Yinjie Lei ⋅ Gang Yu ⋅ Tao Chen

Improving Table Structure Recognition With Visual-Alignment Sequential Coordinate Modeling

Yongshuai Huang ⋅ Ning Lu ⋅ Dapeng Chen ⋅ Yibo Li ⋅ Zecheng Xie ⋅ Shenggao Zhu ⋅ Liangcai Gao ⋅ Wei Peng

Region-Aware Pretraining for Open-Vocabulary Object Detection With Vision Transformers

Dahun Kim ⋅ Anelia Angelova ⋅ Weicheng Kuo

Mobile User Interface Element Detection via Adaptively Prompt Tuning

Zhangxuan Gu ⋅ Zhuoer Xu ⋅ Haoxing Chen ⋅ Jun Lan ⋅ Changhua Meng ⋅ Weiqiang Wang

Learning To Generate Text-Grounded Mask for Open-World Semantic Segmentation From Only Image-Text Pairs

Junbum Cha ⋅ Jonghwan Mun ⋅ Byungseok Roh

ZegCLIP: Towards Adapting CLIP for Zero-Shot Semantic Segmentation

Ziqin Zhou ⋅ Yinjie Lei ⋅ Bowen Zhang ⋅ Lingqiao Liu ⋅ Yifan Liu

Object-Aware Distillation Pyramid for Open-Vocabulary Object Detection

Luting Wang ⋅ Yi Liu ⋅ Penghui Du ⋅ Zihan Ding ⋅ Yue Liao ⋅ Qiaosong Qi ⋅ Biaolong Chen ⋅ Si Liu

Learning Conditional Attributes for Compositional Zero-Shot Learning

Qingsheng Wang ⋅ Lingqiao Liu ⋅ Chenchen Jing ⋅ Hao Chen ⋅ Guoqiang Liang ⋅ Peng Wang ⋅ Chunhua Shen

CLIP-S4: Language-Guided Self-Supervised Semantic Segmentation

Wenbin He ⋅ Suphanut Jamonnak ⋅ Liang Gou ⋅ Liu Ren

StructVPR: Distill Structural Knowledge With Weighting Samples for Visual Place Recognition

Yanqing Shen ⋅ Sanping Zhou ⋅ Jingwen Fu ⋅ Ruotong Wang ⋅ Shitao Chen ⋅ Nanning Zheng

UniDAformer: Unified Domain Adaptive Panoptic Segmentation Transformer via Hierarchical Mask Calibration

Jingyi Zhang ⋅ Jiaxing Huang ⋅ Xiaoqin Zhang ⋅ Shijian Lu

Primitive Generation and Semantic-Related Alignment for Universal Zero-Shot Segmentation

Shuting He ⋅ Henghui Ding ⋅ Wei Jiang

Inferring and Leveraging Parts From Object Shape for Improving Semantic Image Synthesis

Yuxiang Wei ⋅ Zhilong Ji ⋅ Xiaohe Wu ⋅ Jinfeng Bai ⋅ Lei Zhang ⋅ Wangmeng Zuo

Compositor: Bottom-Up Clustering and Compositing for Robust Part and Object Segmentation

Ju He ⋅ Jieneng Chen ⋅ Ming-Xian Lin ⋅ Qihang Yu ⋅ Alan L. Yuille

A Strong Baseline for Generalized Few-Shot Semantic Segmentation

Sina Hajimiri ⋅ Malik Boudiaf ⋅ Ismail Ben Ayed ⋅ Jose Dolz

DynaMask: Dynamic Mask Selection for Instance Segmentation

Ruihuang Li ⋅ Chenhang He ⋅ Shuai Li ⋅ Yabin Zhang ⋅ Lei Zhang

Focus on Details: Online Multi-Object Tracking With Diverse Fine-Grained Representation

Hao Ren ⋅ Shoudong Han ⋅ Huilin Ding ⋅ Ziwen Zhang ⋅ Hongwei Wang ⋅ Faquan Wang

Dynamic Focus-Aware Positional Queries for Semantic Segmentation

Haoyu He ⋅ Jianfei Cai ⋅ Zizheng Pan ⋅ Jing Liu ⋅ Jing Zhang ⋅ Dacheng Tao ⋅ Bohan Zhuang

Beyond mAP: Towards Better Evaluation of Instance Segmentation

Rohit Jena ⋅ Lukas Zhornyak ⋅ Nehal Doiphode ⋅ Pratik Chaudhari ⋅ Vivek Buch ⋅ James Gee ⋅ Jianbo Shi

Learning Orthogonal Prototypes for Generalized Few-Shot Semantic Segmentation

Sun-Ao Liu ⋅ Yiheng Zhang ⋅ Zhaofan Qiu ⋅ Hongtao Xie ⋅ Yongdong Zhang ⋅ Ting Yao

Weakly Supervised Semantic Segmentation via Adversarial Learning of Classifier and Reconstructor

Hyeokjun Kweon ⋅ Sung-Hoon Yoon ⋅ Kuk-Jin Yoon

SemiCVT: Semi-Supervised Convolutional Vision Transformer for Semantic Segmentation

Huimin Huang ⋅ Shiao Xie ⋅ Lanfen Lin ⋅ Ruofeng Tong ⋅ Yen-Wei Chen ⋅ Yuexiang Li ⋅ Hong Wang ⋅ Yawen Huang ⋅ Yefeng Zheng

Augmentation Matters: A Simple-Yet-Effective Approach to Semi-Supervised Semantic Segmentation

Zhen Zhao ⋅ Lihe Yang ⋅ Sifan Long ⋅ Jimin Pi ⋅ Luping Zhou ⋅ Jingdong Wang

The Devil Is in the Points: Weakly Semi-Supervised Instance Segmentation via Point-Guided Mask Representation

Beomyoung Kim ⋅ Joonhyun Jeong ⋅ Dongyoon Han ⋅ Sung Ju Hwang

Class-Incremental Exemplar Compression for Class-Incremental Learning

Zilin Luo ⋅ Yaoyao Liu ⋅ Bernt Schiele ⋅ Qianru Sun

Full or Weak Annotations? An Adaptive Strategy for Budget-Constrained Annotation Campaigns

Javier Gamazo Tejero ⋅ Martin S. Zinkernagel ⋅ Sebastian Wolf ⋅ Raphael Sznitman ⋅ Pablo Márquez-Neila

Learning Common Rationale To Improve Self-Supervised Representation for Fine-Grained Visual Recognition Problems

Yangyang Shu ⋅ Anton van den Hengel ⋅ Lingqiao Liu

Detection Hub: Unifying Object Detection Datasets via Query Adaptation on Language Embedding

Lingchen Meng ⋅ Xiyang Dai ⋅ Yinpeng Chen ⋅ Pengchuan Zhang ⋅ Dongdong Chen ⋅ Mengchen Liu ⋅ Jianfeng Wang ⋅ Zuxuan Wu ⋅ Lu Yuan ⋅ Yu-Gang Jiang

Self-Supervised AutoFlow

Hsin-Ping Huang ⋅ Charles Herrmann ⋅ Junhwa Hur ⋅ Erika Lu ⋅ Kyle Sargent ⋅ Austin Stone ⋅ Ming-Hsuan Yang ⋅ Deqing Sun

DETR With Additional Global Aggregation for Cross-Domain Weakly Supervised Object Detection

Zongheng Tang ⋅ Yifan Sun ⋅ Si Liu ⋅ Yi Yang

Detecting Everything in the Open World: Towards Universal Object Detection

Zhenyu Wang ⋅ Yali Li ⋅ Xi Chen ⋅ Ser-Nam Lim ⋅ Antonio Torralba ⋅ Hengshuang Zhao ⋅ Shengjin Wang

PROB: Probabilistic Objectness for Open World Object Detection

Orr Zohar ⋅ Kuan-Chieh Wang ⋅ Serena Yeung

Annealing-Based Label-Transfer Learning for Open World Object Detection

Yuqing Ma ⋅ Hainan Li ⋅ Zhange Zhang ⋅ Jinyang Guo ⋅ Shanghang Zhang ⋅ Ruihao Gong ⋅ Xianglong Liu

Learning Transformation-Predictive Representations for Detection and Description of Local Features

Zihao Wang ⋅ Chunxu Wu ⋅ Yifei Yang ⋅ Zhen Li

Bridging Precision and Confidence: A Train-Time Loss for Calibrating Object Detection

Muhammad Akhtar Munir ⋅ Muhammad Haris Khan ⋅ Salman Khan ⋅ Fahad Shahbaz Khan

2PCNet: Two-Phase Consistency Training for Day-to-Night Unsupervised Domain Adaptive Object Detection

Mikhail Kennerley ⋅ Jian-Gang Wang ⋅ Bharadwaj Veeravalli ⋅ Robby T. Tan

Zero-Shot Generative Model Adaptation via Image-Specific Prompt Learning

Jiayi Guo ⋅ Chaofei Wang ⋅ You Wu ⋅ Eric Zhang ⋅ Kai Wang ⋅ Xingqian Xu ⋅ Shiji Song ⋅ Humphrey Shi ⋅ Gao Huang

AutoLabel: CLIP-Based Framework for Open-Set Video Domain Adaptation

Giacomo Zara ⋅ Subhankar Roy ⋅ Paolo Rota ⋅ Elisa Ricci

Bidirectional Copy-Paste for Semi-Supervised Medical Image Segmentation

Yunhao Bai ⋅ Duowen Chen ⋅ Qingli Li ⋅ Wei Shen ⋅ Yan Wang

Directional Connectivity-Based Segmentation of Medical Images

Ziyun Yang ⋅ Sina Farsiu

Ambiguous Medical Image Segmentation Using Diffusion Models

Aimon Rahman ⋅ Jeya Maria Jose Valanarasu ⋅ Ilker Hacihaliloglu ⋅ Vishal M. Patel

Sparse Multi-Modal Graph Transformer With Shared-Context Processing for Representation Learning of Giga-Pixel Images

Ramin Nakhli ⋅ Puria Azadi Moghadam ⋅ Haoyang Mi ⋅ Hossein Farahani ⋅ Alexander Baras ⋅ Blake Gilks ⋅ Ali Bashashati

METransformer: Radiology Report Generation by Transformer With Multiple Learnable Expert Tokens

Zhanyu Wang ⋅ Lingqiao Liu ⋅ Lei Wang ⋅ Luping Zhou

Towards Trustable Skin Cancer Diagnosis via Rewriting Model’s Decision

Siyuan Yan ⋅ Zhen Yu ⋅ Xuelin Zhang ⋅ Dwarikanath Mahapatra ⋅ Shekhar S. Chandra ⋅ Monika Janda ⋅ Peter Soyer ⋅ Zongyuan Ge

Rethinking Out-of-Distribution (OOD) Detection: Masked Image Modeling Is All You Need

Jingyao Li ⋅ Pengguang Chen ⋅ Zexin He ⋅ Shaozuo Yu ⋅ Shu Liu ⋅ Jiaya Jia

MetaViewer: Towards a Unified Multi-View Representation

Ren Wang ⋅ Haoliang Sun ⋅ Yuling Ma ⋅ Xiaoming Xi ⋅ Yilong Yin

Deep Incomplete Multi-View Clustering With Cross-View Partial Sample and Prototype Alignment

Jiaqi Jin ⋅ Siwei Wang ⋅ Zhibin Dong ⋅ Xinwang Liu ⋅ En Zhu

RONO: Robust Discriminative Learning With Noisy Labels for 2D-3D Cross-Modal Retrieval

Yanglin Feng ⋅ Hongyuan Zhu ⋅ Dezhong Peng ⋅ Xi Peng ⋅ Peng Hu

Mind the Label Shift of Augmentation-Based Graph OOD Generalization

Junchi Yu ⋅ Jian Liang ⋅ Ran He

Zero-Shot Model Diagnosis

Jinqi Luo ⋅ Zhaoning Wang ⋅ Chen Henry Wu ⋅ Dong Huang ⋅ Fernando De la Torre

ProtoCon: Pseudo-Label Refinement via Online Clustering and Prototypical Consistency for Efficient Semi-Supervised Learning

Islam Nassar ⋅ Munawar Hayat ⋅ Ehsan Abbasnejad ⋅ Hamid Rezatofighi ⋅ Gholamreza Haffari

Fine-Grained Classification With Noisy Labels

Qi Wei ⋅ Lei Feng ⋅ Haoliang Sun ⋅ Ren Wang ⋅ Chenhui Guo ⋅ Yilong Yin

Twin Contrastive Learning With Noisy Labels

Zhizhong Huang ⋅ Junping Zhang ⋅ Hongming Shan

RMLVQA: A Margin Loss Approach for Visual Question Answering With Language Biases

Abhipsa Basu ⋅ Sravanti Addepalli ⋅ R. Venkatesh Babu

Generative Bias for Robust Visual Question Answering

Jae Won Cho ⋅ Dong-Jin Kim ⋅ Hyeonggon Ryu ⋅ In So Kweon

On-the-Fly Category Discovery

Ruoyi DU ⋅ Dongliang Chang ⋅ Kongming Liang ⋅ Timothy Hospedales ⋅ Yi-Zhe Song ⋅ Zhanyu Ma

Co-Training 2L Submodels for Visual Recognition

Hugo Touvron ⋅ Matthieu Cord ⋅ Maxime Oquab ⋅ Piotr Bojanowski ⋅ Jakob Verbeek ⋅ Hervé Jégou

Neural Dependencies Emerging From Learning Massive Categories

Ruili Feng ⋅ Kecheng Zheng ⋅ Kai Zhu ⋅ Yujun Shen ⋅ Jian Zhao ⋅ Yukun Huang ⋅ Deli Zhao ⋅ Jingren Zhou ⋅ Michael Jordan ⋅ Zheng-Jun Zha

MIC: Masked Image Consistency for Context-Enhanced Domain Adaptation

Lukas Hoyer ⋅ Dengxin Dai ⋅ Haoran Wang ⋅ Luc Van Gool

Towards Better Stability and Adaptability: Improve Online Self-Training for Model Adaptation in Semantic Segmentation

Dong Zhao ⋅ Shuang Wang ⋅ Qi Zang ⋅ Dou Quan ⋅ Xiutiao Ye ⋅ Licheng Jiao

DARE-GRAM: Unsupervised Domain Adaptation Regression by Aligning Inverse Gram Matrices

Ismail Nejjar ⋅ Qin Wang ⋅ Olga Fink

Equiangular Basis Vectors

Yang Shen ⋅ Xuhao Sun ⋅ Xiu-Shen Wei

Enhanced Multimodal Representation Learning With Cross-Modal KD

Mengxi Chen ⋅ Linyu Xing ⋅ Yu Wang ⋅ Ya Zhang

Decompose, Adjust, Compose: Effective Normalization by Playing With Frequency for Domain Generalization

Sangrok Lee ⋅ Jongseong Bae ⋅ Ha Young Kim

Back to the Source: Diffusion-Driven Adaptation To Test-Time Corruption

Jin Gao ⋅ Jialing Zhang ⋅ Xihui Liu ⋅ Trevor Darrell ⋅ Evan Shelhamer ⋅ Dequan Wang

Deep Frequency Filtering for Domain Generalization

Shiqi Lin ⋅ Zhizheng Zhang ⋅ Zhipeng Huang ⋅ Yan Lu ⋅ Cuiling Lan ⋅ Peng Chu ⋅ Quanzeng You ⋅ Jiang Wang ⋅ Zicheng Liu ⋅ Amey Parulkar ⋅ Viraj Navkal ⋅ Zhibo Chen

Generalizable Implicit Neural Representations via Instance Pattern Composers

Chiheon Kim ⋅ Doyup Lee ⋅ Saehoon Kim ⋅ Minsu Cho ⋅ Wook-Shin Han

Train-Once-for-All Personalization

Hong-You Chen ⋅ Yandong Li ⋅ Yin Cui ⋅ Mingda Zhang ⋅ Wei-Lun Chao ⋅ Li Zhang

Mod-Squad: Designing Mixtures of Experts As Modular Multi-Task Learners

Zitian Chen ⋅ Yikang Shen ⋅ Mingyu Ding ⋅ Zhenfang Chen ⋅ Hengshuang Zhao ⋅ Erik G. Learned-Miller ⋅ Chuang Gan

Few-Shot Class-Incremental Learning via Class-Aware Bilateral Distillation

Linglan Zhao ⋅ Jing Lu ⋅ Yunlu Xu ⋅ Zhanzhan Cheng ⋅ Dashan Guo ⋅ Yi Niu ⋅ Xiangzhong Fang

Multi-Mode Online Knowledge Distillation for Self-Supervised Visual Representation Learning

Kaiyou Song ⋅ Jin Xie ⋅ Shan Zhang ⋅ Zimeng Luo

Dense Network Expansion for Class Incremental Learning

Zhiyuan Hu ⋅ Yunsheng Li ⋅ Jiancheng Lyu ⋅ Dashan Gao ⋅ Nuno Vasconcelos

Class Attention Transfer Based Knowledge Distillation

Ziyao Guo ⋅ Haonan Yan ⋅ Hui Li ⋅ Xiaodong Lin

Dealing With Cross-Task Class Discrimination in Online Continual Learning

Yiduo Guo ⋅ Bing Liu ⋅ Dongyan Zhao

Real-Time Evaluation in Online Continual Learning: A New Hope

Yasir Ghunaim ⋅ Adel Bibi ⋅ Kumail Alhamoud ⋅ Motasem Alfarra ⋅ Hasan Abed Al Kader Hammoud ⋅ Ameya Prabhu ⋅ Philip H.S. Torr ⋅ Bernard Ghanem

DisWOT: Student Architecture Search for Distillation WithOut Training

Peijie Dong ⋅ Lujun Li ⋅ Zimian Wei

CODA-Prompt: COntinual Decomposed Attention-Based Prompting for Rehearsal-Free Continual Learning

James Seale Smith ⋅ Leonid Karlinsky ⋅ Vyshnavi Gutta ⋅ Paola Cascante-Bonilla ⋅ Donghyun Kim ⋅ Assaf Arbelle ⋅ Rameswar Panda ⋅ Rogerio Feris ⋅ Zsolt Kira

EcoTTA: Memory-Efficient Continual Test-Time Adaptation via Self-Distilled Regularization

Junha Song ⋅ Jungsoo Lee ⋅ In So Kweon ⋅ Sungha Choi

Achieving a Better Stability-Plasticity Trade-Off via Auxiliary Networks in Continual Learning

Sanghwan Kim ⋅ Lorenzo Noci ⋅ Antonio Orvieto ⋅ Thomas Hofmann

PA&DA: Jointly Sampling Path and Data for Consistent NAS

Shun Lu ⋅ Yu Hu ⋅ Longxing Yang ⋅ Zihao Sun ⋅ Jilin Mei ⋅ Jianchao Tan ⋅ Chengru Song

Accelerating Dataset Distillation via Model Augmentation

Lei Zhang ⋅ Jie Zhang ⋅ Bowen Lei ⋅ Subhabrata Mukherjee ⋅ Xiang Pan ⋅ Bo Zhao ⋅ Caiwen Ding ⋅ Yao Li ⋅ Dongkuan Xu

Multi-Agent Automated Machine Learning

Zhaozhi Wang ⋅ Kefan Su ⋅ Jian Zhang ⋅ Huizhu Jia ⋅ Qixiang Ye ⋅ Xiaodong Xie ⋅ Zongqing Lu

Transformer-Based Learned Optimization

Erik Gärtner ⋅ Luke Metz ⋅ Mykhaylo Andriluka ⋅ C. Daniel Freeman ⋅ Cristian Sminchisescu

Solving Relaxations of MAP-MRF Problems: Combinatorial In-Face Frank-Wolfe Directions

Vladimir Kolmogorov

HOTNAS: Hierarchical Optimal Transport for Neural Architecture Search

Jiechao Yang ⋅ Yong Liu ⋅ Hongteng Xu

Disentangled Representation Learning for Unsupervised Neural Quantization

Haechan Noh ⋅ Sangeek Hyun ⋅ Woojin Jeong ⋅ Hanshin Lim ⋅ Jae-Pil Heo

FFCV: Accelerating Training by Removing Data Bottlenecks

Guillaume Leclerc ⋅ Andrew Ilyas ⋅ Logan Engstrom ⋅ Sung Min Park ⋅ Hadi Salman ⋅ Aleksander Mądry

Run, Don’t Walk: Chasing Higher FLOPS for Faster Neural Networks

Jierun Chen ⋅ Shiu-hong Kao ⋅ Hao He ⋅ Weipeng Zhuo ⋅ Song Wen ⋅ Chul-Ho Lee ⋅ S.-H. Gary Chan

FIANCEE: Faster Inference of Adversarial Networks via Conditional Early Exits

Polina Karpikova ⋅ Ekaterina Radionova ⋅ Anastasia Yaschenko ⋅ Andrei Spiridonov ⋅ Leonid Kostyushko ⋅ Riccardo Fabbricatore ⋅ Aleksei Ivakhnenko

Gradient-Based Uncertainty Attribution for Explainable Bayesian Deep Learning

Hanjing Wang ⋅ Dhiraj Joshi ⋅ Shiqiang Wang ⋅ Qiang Ji

How To Prevent the Continuous Damage of Noises To Model Training?

Xiaotian Yu ⋅ Yang Jiang ⋅ Tianqi Shi ⋅ Zunlei Feng ⋅ Yuexuan Wang ⋅ Mingli Song ⋅ Li Sun

Genie: Show Me the Data for Quantization

Yongkweon Jeon ⋅ Chungman Lee ⋅ Ho-young Kim

OpenMix: Exploring Outlier Samples for Misclassification Detection

Fei Zhu ⋅ Zhen Cheng ⋅ Xu-Yao Zhang ⋅ Cheng-Lin Liu

Data-Free Sketch-Based Image Retrieval

Abhra Chaudhuri ⋅ Ayan Kumar Bhunia ⋅ Yi-Zhe Song ⋅ Anjan Dutta

GLeaD: Improving GANs With a Generator-Leading Task

Qingyan Bai ⋅ Ceyuan Yang ⋅ Yinghao Xu ⋅ Xihui Liu ⋅ Yujiu Yang ⋅ Yujun Shen

Learning on Gradients: Generalized Artifacts Representation for GAN-Generated Images Detection

Chuangchuang Tan ⋅ Yao Zhao ⋅ Shikui Wei ⋅ Guanghua Gu ⋅ Yunchao Wei

Adversarial Normalization: I Can Visualize Everything (ICE)

Hoyoung Choi ⋅ Seungwan Jin ⋅ Kyungsik Han

Semi-Supervised Hand Appearance Recovery via Structure Disentanglement and Dual Adversarial Discrimination

Zimeng Zhao ⋅ Binghui Zuo ⋅ Zhiyu Long ⋅ Yangang Wang

Look Around for Anomalies: Weakly-Supervised Anomaly Detection via Context-Motion Relational Learning

MyeongAh Cho ⋅ Minjung Kim ⋅ Sangwon Hwang ⋅ Chaewon Park ⋅ Kyungjae Lee ⋅ Sangyoun Lee

Diversity-Measurable Anomaly Detection

Wenrui Liu ⋅ Hong Chang ⋅ Bingpeng Ma ⋅ Shiguang Shan ⋅ Xilin Chen

Cloud-Device Collaborative Adaptation to Continual Changing Environments in the Real-World

Yulu Gan ⋅ Mingjie Pan ⋅ Rongyu Zhang ⋅ Zijian Ling ⋅ Lingran Zhao ⋅ Jiaming Liu ⋅ Shanghang Zhang

How To Prevent the Poor Performance Clients for Personalized Federated Learning?

Zhe Qu ⋅ Xingyu Li ⋅ Xiao Han ⋅ Rui Duan ⋅ Chengchao Shen ⋅ Lixing Chen

DynaFed: Tackling Client Data Heterogeneity With Global Dynamics

Renjie Pi ⋅ Weizhong Zhang ⋅ Yueqi Xie ⋅ Jiahui Gao ⋅ Xiaoyu Wang ⋅ Sunghun Kim ⋅ Qifeng Chen

Elastic Aggregation for Federated Optimization

Dengsheng Chen ⋅ Jie Hu ⋅ Vince Junkai Tan ⋅ Xiaoming Wei ⋅ Enhua Wu

Breaching FedMD: Image Recovery via Paired-Logits Inversion Attack

Hideaki Takahashi ⋅ Jingjing Liu ⋅ Yang Liu

Learning To Measure the Point Cloud Reconstruction Loss in a Representation Space

Tianxin Huang ⋅ Zhonggan Ding ⋅ Jiangning Zhang ⋅ Ying Tai ⋅ Zhenyu Zhang ⋅ Mingang Chen ⋅ Chengjie Wang ⋅ Yong Liu

Backdoor Cleansing With Unlabeled Data

Lu Pang ⋅ Tao Sun ⋅ Haibin Ling ⋅ Chao Chen

Backdoor Defense via Deconfounded Representation Learning

Zaixi Zhang ⋅ Qi Liu ⋅ Zhicai Wang ⋅ Zepu Lu ⋅ Qingyong Hu

Defending Against Patch-Based Backdoor Attacks on Self-Supervised Learning

Ajinkya Tejankar ⋅ Maziar Sanjabi ⋅ Qifan Wang ⋅ Sinong Wang ⋅ Hamed Firooz ⋅ Hamed Pirsiavash ⋅ Liang Tan

Backdoor Attacks Against Deep Image Compression via Adaptive Frequency Trigger

Yi Yu ⋅ Yufei Wang ⋅ Wenhan Yang ⋅ Shijian Lu ⋅ Yap-peng Tan ⋅ Alex C. Kot

CAP: Robust Point Cloud Classification via Semantic and Structural Modeling

Daizong Ding ⋅ Erling Jiang ⋅ Yuanmin Huang ⋅ Mi Zhang ⋅ Wenxuan Li ⋅ Min Yang

Evading DeepFake Detectors via Adversarial Statistical Consistency

Yang Hou ⋅ Qing Guo ⋅ Yihao Huang ⋅ Xiaofei Xie ⋅ Lei Ma ⋅ Jianjun Zhao

Enhancing the Self-Universality for Transferable Targeted Attacks

Zhipeng Wei ⋅ Jingjing Chen ⋅ Zuxuan Wu ⋅ Yu-Gang Jiang

Black-Box Sparse Adversarial Attack via Multi-Objective Optimisation

Phoenix Neale Williams ⋅ Ke Li

Demystifying Causal Features on Adversarial Examples and Causal Inoculation for Robust Network by Adversarial Instrumental Variable Regression

Junho Kim ⋅ Byung-Kwan Lee ⋅ Yong Man Ro

Seasoning Model Soups for Robustness to Adversarial and Natural Distribution Shifts

Francesco Croce ⋅ Sylvestre-Alvise Rebuffi ⋅ Evan Shelhamer ⋅ Sven Gowal

Towards Benchmarking and Assessing Visual Naturalness of Physical World Adversarial Attacks

Simin Li ⋅ Shuning Zhang ⋅ Gujun Chen ⋅ Dong Wang ⋅ Pu Feng ⋅ Jiakai Wang ⋅ Aishan Liu ⋅ Xin Yi ⋅ Xianglong Liu

Physically Adversarial Infrared Patches With Learnable Shapes and Locations

Xingxing Wei ⋅ Jie Yu ⋅ Yao Huang

MaLP: Manipulation Localization Using a Proactive Scheme

Vishal Asnani ⋅ Xi Yin ⋅ Tal Hassner ⋅ Xiaoming Liu

Go to Event Page

Panel

Vision, Language, and Creativity

Aaron Hertzmann ⋅ Michal Irani ⋅ Devi Parikh ⋅ Jason Salavon

2:00 PM - 3:00 PM

Panel

PAMI TC Meeting

3:00 PM - 4:00 PM

Poster

Poster Session WED-PM

4:30 PM - 6:00 PM

393 Events in this session

Polarimetric iToF: Measuring High-Fidelity Depth Through Scattering Media

Daniel S. Jeon ⋅ Andréas Meuleman ⋅ Seung-Hwan Baek ⋅ Min H. Kim

NeRFLix: High-Quality Neural View Synthesis by Learning a Degradation-Driven Inter-Viewpoint MiXer

Kun Zhou ⋅ Wenbo Li ⋅ Yi Wang ⋅ Tao Hu ⋅ Nianjuan Jiang ⋅ Xiaoguang Han ⋅ Jiangbo Lu

SUDS: Scalable Urban Dynamic Scenes

Haithem Turki ⋅ Jason Y. Zhang ⋅ Francesco Ferroni ⋅ Deva Ramanan

DP-NeRF: Deblurred Neural Radiance Field With Physical Scene Priors

Dogyoon Lee ⋅ Minhyeok Lee ⋅ Chajin Shin ⋅ Sangyoun Lee

DyLiN: Making Light Field Networks Dynamic

Heng Yu ⋅ Joel Julin ⋅ Zoltán Á. Milacski ⋅ Koichiro Niinuma ⋅ László A. Jeni

Multi-Space Neural Radiance Fields

Ze-Xin Yin ⋅ Jiaxiong Qiu ⋅ Ming-Ming Cheng ⋅ Bo Ren

NeRFLight: Fast and Light Neural Radiance Fields Using a Shared Feature Grid

Fernando Rivas-Manzaneque ⋅ Jorge Sierra-Acosta ⋅ Adrian Penate-Sanchez ⋅ Francesc Moreno-Noguer ⋅ Angela Ribeiro

Cross-Guided Optimization of Radiance Fields With Multi-View Image Super-Resolution for High-Resolution Novel View Synthesis

Youngho Yoon ⋅ Kuk-Jin Yoon

NeuralEditor: Editing Neural Radiance Fields via Manipulating Point Clouds

Jun-Kun Chen ⋅ Jipeng Lyu ⋅ Yu-Xiong Wang

DINER: Depth-Aware Image-Based NEural Radiance Fields

Malte Prinzler ⋅ Otmar Hilliges ⋅ Justus Thies

Modernizing Old Photos Using Multiple References via Photorealistic Style Transfer

Agus Gunawan ⋅ Soo Ye Kim ⋅ Hyeonjun Sim ⋅ Jae-Ho Lee ⋅ Munchurl Kim

Efficient Map Sparsification Based on 2D and 3D Discretized Grids

Xiaoyu Zhang ⋅ Yun-Hui Liu

K-Planes: Explicit Radiance Fields in Space, Time, and Appearance

Sara Fridovich-Keil ⋅ Giacomo Meanti ⋅ Frederik Rahbæk Warburg ⋅ Benjamin Recht ⋅ Angjoo Kanazawa

I2-SDF: Intrinsic Indoor Scene Reconstruction and Editing via Raytracing in Neural SDFs

Jingsen Zhu ⋅ Yuchi Huo ⋅ Qi Ye ⋅ Fujun Luan ⋅ Jifan Li ⋅ Dianbing Xi ⋅ Lisha Wang ⋅ Rui Tang ⋅ Wei Hua ⋅ Hujun Bao ⋅ Rui Wang

Multi-View Inverse Rendering for Large-Scale Real-World Indoor Scenes

Zhen Li ⋅ Lingli Wang ⋅ Mofang Cheng ⋅ Cihui Pan ⋅ Jiaqi Yang

Inverse Rendering of Translucent Objects Using Physical and Neural Renderers

Chenhao Li ⋅ Trung Thanh Ngo ⋅ Hajime Nagahara

Accidental Light Probes

Hong-Xing Yu ⋅ Samir Agarwala ⋅ Charles Herrmann ⋅ Richard Szeliski ⋅ Noah Snavely ⋅ Jiajun Wu ⋅ Deqing Sun

Humans As Light Bulbs: 3D Human Reconstruction From Thermal Reflection

Ruoshi Liu ⋅ Carl Vondrick

HumanGen: Generating Human Radiance Fields With Explicit Priors

Suyi Jiang ⋅ Haoran Jiang ⋅ Ziyu Wang ⋅ Haimin Luo ⋅ Wenzheng Chen ⋅ Lan Xu

Seeing Through the Glass: Neural 3D Reconstruction of Object Inside a Transparent Container

Jinguang Tong ⋅ Sundaram Muthu ⋅ Fahira Afzal Maken ⋅ Chuong Nguyen ⋅ Hongdong Li

3D Shape Reconstruction of Semi-Transparent Worms

Thomas P. Ilett ⋅ Omer Yuval ⋅ Thomas Ranner ⋅ Netta Cohen ⋅ David C. Hogg

Dionysus: Recovering Scene Structures by Dividing Into Semantic Pieces

Likang Wang ⋅ Lei Chen

SparseFusion: Distilling View-Conditioned Diffusion for 3D Reconstruction

Zhizhuo Zhou ⋅ Shubham Tulsiani

PET-NeuS: Positional Encoding Tri-Planes for Neural Surfaces

Yiqun Wang ⋅ Ivan Skorokhodov ⋅ Peter Wonka

RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and Generation

Titas Anciukevičius ⋅ Zexiang Xu ⋅ Matthew Fisher ⋅ Paul Henderson ⋅ Hakan Bilen ⋅ Niloy J. Mitra ⋅ Paul Guerrero

Score Jacobian Chaining: Lifting Pretrained 2D Diffusion Models for 3D Generation

Haochen Wang ⋅ Xiaodan Du ⋅ Jiahao Li ⋅ Raymond A. Yeh ⋅ Greg Shakhnarovich

Infinite Photorealistic Worlds Using Procedural Generation

Alexander Raistrick ⋅ Lahav Lipson ⋅ Zeyu Ma ⋅ Lingjie Mei ⋅ Mingzhe Wang ⋅ Yiming Zuo ⋅ Karhan Kayan ⋅ Hongyu Wen ⋅ Beining Han ⋅ Yihan Wang ⋅ Alejandro Newell ⋅ Hei Law ⋅ Ankit Goyal ⋅ Kaiyu Yang ⋅ Jia Deng

Diffusion-SDF: Text-To-Shape via Voxelized Diffusion

Muheng Li ⋅ Yueqi Duan ⋅ Jie Zhou ⋅ Jiwen Lu

3D-Aware Multi-Class Image-to-Image Translation With NeRFs

Senmao Li ⋅ Joost van de Weijer ⋅ Yaxing Wang ⋅ Fahad Shahbaz Khan ⋅ Meiqin Liu ⋅ Jian Yang

Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures

Gal Metzer ⋅ Elad Richardson ⋅ Or Patashnik ⋅ Raja Giryes ⋅ Daniel Cohen-Or

Local 3D Editing via 3D Distillation of CLIP Knowledge

Junha Hyung ⋅ Sungwon Hwang ⋅ Daejin Kim ⋅ Hyunji Lee ⋅ Jaegul Choo

ShapeTalk: A Language Dataset and Framework for 3D Shape Edits and Deformations

Panos Achlioptas ⋅ Ian Huang ⋅ Minhyuk Sung ⋅ Sergey Tulyakov ⋅ Leonidas Guibas

CoralStyleCLIP: Co-Optimized Region and Layer Selection for Image Editing

Ambareesh Revanur ⋅ Debraj Basu ⋅ Shradha Agrawal ⋅ Dhwanit Agarwal ⋅ Deepak Pai

3D-Aware Face Swapping

Yixuan Li ⋅ Chao Ma ⋅ Yichao Yan ⋅ Wenhan Zhu ⋅ Xiaokang Yang

DCFace: Synthetic Face Generation With Dual Condition Diffusion Model

Minchul Kim ⋅ Feng Liu ⋅ Anil Jain ⋅ Xiaoming Liu

HairStep: Transfer Synthetic to Real Using Strand and Depth Maps for Single-View 3D Hair Modeling

Yujian Zheng ⋅ Zirong Jin ⋅ Moran Li ⋅ Haibin Huang ⋅ Chongyang Ma ⋅ Shuguang Cui ⋅ Xiaoguang Han

DiffusionRig: Learning Personalized Priors for Facial Appearance Editing

Zheng Ding ⋅ Xuaner Zhang ⋅ Zhihao Xia ⋅ Lars Jebe ⋅ Zhuowen Tu ⋅ Xiuming Zhang

3D-Aware Facial Landmark Detection via Multi-View Consistent Training on Synthetic Data

Libing Zeng ⋅ Lele Chen ⋅ Wentao Bao ⋅ Zhong Li ⋅ Yi Xu ⋅ Junsong Yuan ⋅ Nima Khademi Kalantari

Parametric Implicit Face Representation for Audio-Driven Facial Reenactment

Ricong Huang ⋅ Peiwen Lai ⋅ Yipeng Qin ⋅ Guanbin Li

MEGANE: Morphable Eyeglass and Avatar Network

Junxuan Li ⋅ Shunsuke Saito ⋅ Tomas Simon ⋅ Stephen Lombardi ⋅ Hongdong Li ⋅ Jason Saragih

CodeTalker: Speech-Driven 3D Facial Animation With Discrete Motion Prior

Jinbo Xing ⋅ Menghan Xia ⋅ Yuechen Zhang ⋅ Xiaodong Cun ⋅ Jue Wang ⋅ Tien-Tsin Wong

Reconstructing Signing Avatars From Video Using Linguistic Priors

Maria-Paola Forte ⋅ Peter Kulits ⋅ Chun-Hao P. Huang ⋅ Vasileios Choutas ⋅ Dimitrios Tzionas ⋅ Katherine J. Kuchenbecker ⋅ Michael J. Black

HARP: Personalized Hand Reconstruction From a Monocular RGB Video

Korrawe Karunratanakul ⋅ Sergey Prokudin ⋅ Otmar Hilliges ⋅ Siyu Tang

OmniAvatar: Geometry-Guided Controllable 3D Head Synthesis

Hongyi Xu ⋅ Guoxian Song ⋅ Zihang Jiang ⋅ Jianfeng Zhang ⋅ Yichun Shi ⋅ Jing Liu ⋅ Wanchun Ma ⋅ Jiashi Feng ⋅ Linjie Luo

RaBit: Parametric Modeling of 3D Biped Cartoon Characters With a Topological-Consistent Dataset

Zhongjin Luo ⋅ Shengcai Cai ⋅ Jinguo Dong ⋅ Ruibo Ming ⋅ Liangdong Qiu ⋅ Xiaohang Zhan ⋅ Xiaoguang Han

Transfer4D: A Framework for Frugal Motion Capture and Deformation Transfer

Shubh Maheshwari ⋅ Rahul Narain ⋅ Ramya Hebbalaguppe

CLOTH4D: A Dataset for Clothed Human Reconstruction

Xingxing Zou ⋅ Xintong Han ⋅ Waikeung Wong

Vid2Avatar: 3D Avatar Reconstruction From Videos in the Wild via Self-Supervised Scene Decomposition

Chen Guo ⋅ Tianjian Jiang ⋅ Xu Chen ⋅ Jie Song ⋅ Otmar Hilliges

High-Fidelity 3D Human Digitization From Single 2K Resolution Images

Sang-Hun Han ⋅ Min-Gyu Park ⋅ Ju Hong Yoon ⋅ Ju-Mi Kang ⋅ Young-Jae Park ⋅ Hae-Gon Jeon

Sampling Is Matter: Point-Guided 3D Human Mesh Reconstruction

Jeonghwan Kim ⋅ Mi-Gyeong Gwon ⋅ Hyunwoo Park ⋅ Hyukmin Kwon ⋅ Gi-Mun Um ⋅ Wonjun Kim

gSDF: Geometry-Driven Signed Distance Functions for 3D Hand-Object Reconstruction

Zerui Chen ⋅ Shizhe Chen ⋅ Cordelia Schmid ⋅ Ivan Laptev

Human Body Shape Completion With Implicit Shape and Flow Learning

Boyao Zhou ⋅ Di Meng ⋅ Jean-Sébastien Franco ⋅ Edmond Boyer

ShapeClipper: Scalable 3D Shape Learning From Single-View Images via Geometric and CLIP-Based Consistency

Zixuan Huang ⋅ Varun Jampani ⋅ Anh Thai ⋅ Yuanzhen Li ⋅ Stefan Stojanov ⋅ James M. Rehg

PC2: Projection-Conditioned Point Cloud Diffusion for Single-Image 3D Reconstruction

Luke Melas-Kyriazi ⋅ Christian Rupprecht ⋅ Andrea Vedaldi

NIKI: Neural Inverse Kinematics With Invertible Neural Networks for 3D Human Pose and Shape Estimation

Jiefeng Li ⋅ Siyuan Bian ⋅ Qi Liu ⋅ Jiasheng Tang ⋅ Fan Wang ⋅ Cewu Lu

ARCTIC: A Dataset for Dexterous Bimanual Hand-Object Manipulation

Zicong Fan ⋅ Omid Taheri ⋅ Dimitrios Tzionas ⋅ Muhammed Kocabas ⋅ Manuel Kaufmann ⋅ Michael J. Black ⋅ Otmar Hilliges

ACR: Attention Collaboration-Based Regressor for Arbitrary Two-Hand Reconstruction

Zhengdi Yu ⋅ Shaoli Huang ⋅ Chen Fang ⋅ Toby P. Breckon ⋅ Jue Wang

MIME: Human-Aware 3D Scene Generation

Hongwei Yi ⋅ Chun-Hao P. Huang ⋅ Shashank Tripathi ⋅ Lea Hering ⋅ Justus Thies ⋅ Michael J. Black

CIMI4D: A Large Multimodal Climbing Motion Dataset Under Human-Scene Interactions

Ming Yan ⋅ Xin Wang ⋅ Yudi Dai ⋅ Siqi Shen ⋅ Chenglu Wen ⋅ Lan Xu ⋅ Yuexin Ma ⋅ Cheng Wang

Harmonious Feature Learning for Interactive Hand-Object Pose Estimation

Zhifeng Lin ⋅ Changxing Ding ⋅ Huan Yao ⋅ Zengsheng Kuang ⋅ Shaoli Huang

AssemblyHands: Towards Egocentric Activity Understanding via 3D Hand Pose Estimation

Takehiko Ohkawa ⋅ Kun He ⋅ Fadime Sener ⋅ Tomas Hodan ⋅ Luan Tran ⋅ Cem Keskin

A Characteristic Function-Based Method for Bottom-Up Human Pose Estimation

Haoxuan Qu ⋅ Yujun Cai ⋅ Lin Geng Foo ⋅ Ajay Kumar ⋅ Jun Liu

Unified Pose Sequence Modeling

Lin Geng Foo ⋅ Tianjiao Li ⋅ Hossein Rahmani ⋅ Qiuhong Ke ⋅ Jun Liu

Scene-Aware Egocentric 3D Human Pose Estimation

Jian Wang ⋅ Diogo Luvizon ⋅ Weipeng Xu ⋅ Lingjie Liu ⋅ Kripasindhu Sarkar ⋅ Christian Theobalt

DiffPose: Toward More Reliable 3D Pose Estimation

Jia Gong ⋅ Lin Geng Foo ⋅ Zhipeng Fan ⋅ Qiuhong Ke ⋅ Hossein Rahmani ⋅ Jun Liu

MammalNet: A Large-Scale Video Benchmark for Mammal Recognition and Behavior Understanding

Jun Chen ⋅ Ming Hu ⋅ Darren J. Coker ⋅ Michael L. Berumen ⋅ Blair Costelloe ⋅ Sara Beery ⋅ Anna Rohrbach ⋅ Mohamed Elhoseiny

Learning 3D-Aware Image Synthesis With Unknown Pose Distribution

Zifan Shi ⋅ Yujun Shen ⋅ Yinghao Xu ⋅ Sida Peng ⋅ Yiyi Liao ⋅ Sheng Guo ⋅ Qifeng Chen ⋅ Dit-Yan Yeung

Pose Synchronization Under Multiple Pair-Wise Relative Poses

Yifan Sun ⋅ Qixing Huang

ObjectMatch: Robust Registration Using Canonical Object Correspondences

Can Gümeli ⋅ Angela Dai ⋅ Matthias Nießner

Learning Articulated Shape With Keypoint Pseudo-Labels From Web Images

Anastasis Stathopoulos ⋅ Georgios Pavlakos ⋅ Ligong Han ⋅ Dimitris N. Metaxas

Learning Correspondence Uncertainty via Differentiable Nonlinear Least Squares

Dominik Muhle ⋅ Lukas Koestler ⋅ Krishna Murthy Jatavallabhula ⋅ Daniel Cremers

Efficient Second-Order Plane Adjustment

Lipu Zhou

Learning a Depth Covariance Function

Eric Dexheimer ⋅ Andrew J. Davison

Privacy-Preserving Representations Are Not Enough: Recovering Scene Content From Camera Poses

Kunal Chelani ⋅ Torsten Sattler ⋅ Fredrik Kahl ⋅ Zuzana Kukelova

Objaverse: A Universe of Annotated 3D Objects

Matt Deitke ⋅ Dustin Schwenk ⋅ Jordi Salvador ⋅ Luca Weihs ⋅ Oscar Michel ⋅ Eli VanderBilt ⋅ Ludwig Schmidt ⋅ Kiana Ehsani ⋅ Aniruddha Kembhavi ⋅ Ali Farhadi

Omni3D: A Large Benchmark and Model for 3D Object Detection in the Wild

Garrick Brazil ⋅ Abhinav Kumar ⋅ Julian Straub ⋅ Nikhila Ravi ⋅ Justin Johnson ⋅ Georgia Gkioxari

HelixSurf: A Robust and Efficient Neural Implicit Surface Learning of Indoor Scenes With Iterative Intertwined Regularization

Zhihao Liang ⋅ Zhangjin Huang ⋅ Changxing Ding ⋅ Kui Jia

Visual Localization Using Imperfect 3D Models From the Internet

Vojtech Panek ⋅ Zuzana Kukelova ⋅ Torsten Sattler

PRISE: Demystifying Deep Lucas-Kanade With Strongly Star-Convex Constraints for Multimodel Image Alignment

Yiqing Zhang ⋅ Xinming Huang ⋅ Ziming Zhang

Scalable, Detailed and Mask-Free Universal Photometric Stereo

Satoshi Ikehata

Enhanced Stable View Synthesis

Nishant Jain ⋅ Suryansh Kumar ⋅ Luc Van Gool

End-to-End Vectorized HD-Map Construction With Piecewise Bezier Curve

Limeng Qiao ⋅ Wenjie Ding ⋅ Xi Qiu ⋅ Chi Zhang

DynamicStereo: Consistent Dynamic Depth From Stereo Videos

Nikita Karaev ⋅ Ignacio Rocco ⋅ Benjamin Graham ⋅ Natalia Neverova ⋅ Andrea Vedaldi ⋅ Christian Rupprecht

Shakes on a Plane: Unsupervised Depth Estimation From Unstabilized Photography

Ilya Chugunov ⋅ Yuxuan Zhang ⋅ Felix Heide

Gated Stereo: Joint Depth Estimation From Gated and Wide-Baseline Active Stereo Cues

Stefanie Walz ⋅ Mario Bijelic ⋅ Andrea Ramazzina ⋅ Amanpreet Walia ⋅ Fahim Mannan ⋅ Felix Heide

K3DN: Disparity-Aware Kernel Estimation for Dual-Pixel Defocus Deblurring

Yan Yang ⋅ Liyuan Pan ⋅ Liu Liu ⋅ Miaomiao Liu

HRDFuse: Monocular 360° Depth Estimation by Collaboratively Learning Holistic-With-Regional Depth Distributions

Hao Ai ⋅ Zidong Cao ⋅ Yan-Pei Cao ⋅ Ying Shan ⋅ Lin Wang

OSRT: Omnidirectional Image Super-Resolution With Distortion-Aware Transformer

Fanghua Yu ⋅ Xintao Wang ⋅ Mingdeng Cao ⋅ Gen Li ⋅ Ying Shan ⋅ Chao Dong

Co-SLAM: Joint Coordinate and Sparse Parametric Encodings for Neural Real-Time SLAM

Hengyi Wang ⋅ Jingwen Wang ⋅ Lourdes Agapito

Few-Shot Non-Line-of-Sight Imaging With Signal-Surface Collaborative Regularization

Xintong Liu ⋅ Jianyu Wang ⋅ Leping Xiao ⋅ Xing Fu ⋅ Lingyun Qiu ⋅ Zuoqiang Shi

NLOST: Non-Line-of-Sight Imaging With Transformer

Yue Li ⋅ Jiayong Peng ⋅ Juntian Ye ⋅ Yueyi Zhang ⋅ Feihu Xu ⋅ Zhiwei Xiong

Listening Human Behavior: 3D Human Pose Estimation With Acoustic Signals

Yuto Shibata ⋅ Yutaka Kawashima ⋅ Mariko Isogawa ⋅ Go Irie ⋅ Akisato Kimura ⋅ Yoshimitsu Aoki

Towards Domain Generalization for Multi-View 3D Object Detection in Bird-Eye-View

Shuo Wang ⋅ Xinhai Zhao ⋅ Hai-Ming Xu ⋅ Zehui Chen ⋅ Dameng Yu ⋅ Jiahao Chang ⋅ Zhen Yang ⋅ Feng Zhao

X3KD: Knowledge Distillation Across Modalities, Tasks and Stages for Multi-Camera 3D Object Detection

Marvin Klingner ⋅ Shubhankar Borse ⋅ Varun Ravi Kumar ⋅ Behnaz Rezaei ⋅ Venkatraman Narayanan ⋅ Senthil Yogamani ⋅ Fatih Porikli

Phase-Shifting Coder: Predicting Accurate Orientation in Oriented Object Detection

Yi Yu ⋅ Feipeng Da

Learned Two-Plane Perspective Prior Based Image Resampling for Efficient Object Detection

Anurag Ghosh ⋅ N. Dinesh Reddy ⋅ Christoph Mertz ⋅ Srinivasa G. Narasimhan

Resource-Efficient RGBD Aerial Tracking

Jinyu Yang ⋅ Shang Gao ⋅ Zhe Li ⋅ Feng Zheng ⋅ Aleš Leonardis

Toward RAW Object Detection: A New Benchmark and a New Model

Ruikang Xu ⋅ Chang Chen ⋅ Jingyang Peng ⋅ Cheng Li ⋅ Yibin Huang ⋅ Fenglong Song ⋅ Youliang Yan ⋅ Zhiwei Xiong

Bi-LRFusion: Bi-Directional LiDAR-Radar Fusion for 3D Dynamic Object Detection

Yingjie Wang ⋅ Jiajun Deng ⋅ Yao Li ⋅ Jinshui Hu ⋅ Cong Liu ⋅ Yu Zhang ⋅ Jianmin Ji ⋅ Wanli Ouyang ⋅ Yanyong Zhang

LiDAR-in-the-Loop Hyperparameter Optimization

Félix Goudreault ⋅ Dominik Scheuble ⋅ Mario Bijelic ⋅ Nicolas Robidoux ⋅ Felix Heide

Learning and Aggregating Lane Graphs for Urban Automated Driving

Martin Büchner ⋅ Jannik Zürn ⋅ Ion-George Todoran ⋅ Abhinav Valada ⋅ Wolfram Burgard

Center Focusing Network for Real-Time LiDAR Panoptic Segmentation

Xiaoyan Li ⋅ Gang Zhang ⋅ Boyue Wang ⋅ Yongli Hu ⋅ Baocai Yin

Adaptive Sparse Convolutional Networks With Global Context Enhancement for Faster Object Detection on Drone Images

Bowei Du ⋅ Yecheng Huang ⋅ Jiaxin Chen ⋅ Di Huang

MV-JAR: Masked Voxel Jigsaw and Reconstruction for LiDAR-Based Self-Supervised Pre-Training

Runsen Xu ⋅ Tai Wang ⋅ Wenwei Zhang ⋅ Runjian Chen ⋅ Jinkun Cao ⋅ Jiangmiao Pang ⋅ Dahua Lin

ALSO: Automotive Lidar Self-Supervision by Occupancy Estimation

Alexandre Boulch ⋅ Corentin Sautier ⋅ Björn Michele ⋅ Gilles Puy ⋅ Renaud Marlet

Unsupervised Intrinsic Image Decomposition With LiDAR Intensity

Shogo Sato ⋅ Yasuhiro Yao ⋅ Taiga Yoshida ⋅ Takuhiro Kaneko ⋅ Shingo Ando ⋅ Jun Shimamura

PVT-SSD: Single-Stage 3D Object Detector With Point-Voxel Transformer

Honghui Yang ⋅ Wenxiao Wang ⋅ Minghao Chen ⋅ Binbin Lin ⋅ Tong He ⋅ Hua Chen ⋅ Xiaofei He ⋅ Wanli Ouyang

LargeKernel3D: Scaling Up Kernels in 3D Sparse CNNs

Yukang Chen ⋅ Jianhui Liu ⋅ Xiangyu Zhang ⋅ Xiaojuan Qi ⋅ Jiaya Jia

WeatherStream: Light Transport Automation of Single Image Deweathering

Howard Zhang ⋅ Yunhao Ba ⋅ Ethan Yang ⋅ Varan Mehra ⋅ Blake Gella ⋅ Akira Suzuki ⋅ Arnold Pfahnl ⋅ Chethan Chinder Chandrappa ⋅ Alex Wong ⋅ Achuta Kadambi

Mask3D: Pre-Training 2D Vision Transformers by Learning Masked 3D Priors

Ji Hou ⋅ Xiaoliang Dai ⋅ Zijian He ⋅ Angela Dai ⋅ Matthias Nießner

DSVT: Dynamic Sparse Voxel Transformer With Rotated Sets

Haiyang Wang ⋅ Chen Shi ⋅ Shaoshuai Shi ⋅ Meng Lei ⋅ Sen Wang ⋅ Di He ⋅ Bernt Schiele ⋅ Liwei Wang

IterativePFN: True Iterative Point Cloud Filtering

Dasith de Silva Edirimuni ⋅ Xuequan Lu ⋅ Zhiwen Shao ⋅ Gang Li ⋅ Antonio Robles-Kelly ⋅ Ying He

itKD: Interchange Transfer-Based Knowledge Distillation for 3D Object Detection

Hyeon Cho ⋅ Junyong Choi ⋅ Geonwoo Baek ⋅ Wonjun Hwang

ISBNet: A 3D Point Cloud Instance Segmentation Network With Instance-Aware Sampling and Box-Aware Dynamic Convolution

Tuan Duc Ngo ⋅ Binh-Son Hua ⋅ Khoi Nguyen

Symmetric Shape-Preserving Autoencoder for Unsupervised Real Scene Point Cloud Completion

Changfeng Ma ⋅ Yinuo Chen ⋅ Pengxiao Guo ⋅ Jie Guo ⋅ Chongjun Wang ⋅ Yanwen Guo

GeoMAE: Masked Geometric Target Prediction for Self-Supervised Point Cloud Pre-Training

Xiaoyu Tian ⋅ Haoxi Ran ⋅ Yue Wang ⋅ Hang Zhao

AnchorFormer: Point Cloud Completion From Discriminative Nodes

Zhikai Chen ⋅ Fuchen Long ⋅ Zhaofan Qiu ⋅ Ting Yao ⋅ Wengang Zhou ⋅ Jiebo Luo ⋅ Tao Mei

SHS-Net: Learning Signed Hyper Surfaces for Oriented Normal Estimation of Point Clouds

Qing Li ⋅ Huifang Feng ⋅ Kanle Shi ⋅ Yue Gao ⋅ Yi Fang ⋅ Yu-Shen Liu ⋅ Zhizhong Han

NerVE: Neural Volumetric Edges for Parametric Curve Extraction From Point Cloud

Xiangyu Zhu ⋅ Dong Du ⋅ Weikai Chen ⋅ Zhiyou Zhao ⋅ Yinyu Nie ⋅ Xiaoguang Han

Unsupervised Deep Probabilistic Approach for Partial Point Cloud Registration

Guofeng Mei ⋅ Hao Tang ⋅ Xiaoshui Huang ⋅ Weijie Wang ⋅ Juan Liu ⋅ Jian Zhang ⋅ Luc Van Gool ⋅ Qiang Wu

Local Connectivity-Based Density Estimation for Face Clustering

Junho Shin ⋅ Hyo-Jun Lee ⋅ Hyunseop Kim ⋅ Jong-Hyeon Baek ⋅ Daehyun Kim ⋅ Yeong Jun Koh

Bridging Search Region Interaction With Template for RGB-T Tracking

Tianrui Hui ⋅ Zizheng Xun ⋅ Fengguang Peng ⋅ Junshi Huang ⋅ Xiaoming Wei ⋅ Xiaolin Wei ⋅ Jiao Dai ⋅ Jizhong Han ⋅ Si Liu

Quantum Multi-Model Fitting

Matteo Farina ⋅ Luca Magri ⋅ Willi Menapace ⋅ Elisa Ricci ⋅ Vladislav Golyanik ⋅ Federica Arrigoni

Generalizable Local Feature Pre-Training for Deformable Shape Analysis

Souhaib Attaiki ⋅ Lei Li ⋅ Maks Ovsjanikov

Similarity Metric Learning for RGB-Infrared Group Re-Identification

Jianghao Xiong ⋅ Jianhuang Lai

Unsupervised Deep Asymmetric Stereo Matching With Spatially-Adaptive Self-Similarity

Taeyong Song ⋅ Sunok Kim ⋅ Kwanghoon Sohn

Sliced Optimal Partial Transport

Yikun Bai ⋅ Bernhard Schmitzer ⋅ Matthew Thorpe ⋅ Soheil Kolouri

DistractFlow: Improving Optical Flow Estimation via Realistic Distractions and Pseudo-Labeling

Jisoo Jeong ⋅ Hong Cai ⋅ Risheek Garrepalli ⋅ Fatih Porikli

Bayesian Posterior Approximation With Stochastic Ensembles

Oleksandr Balabanov ⋅ Bernhard Mehlig ⋅ Hampus Linander

V2V4Real: A Real-World Large-Scale Dataset for Vehicle-to-Vehicle Cooperative Perception

Runsheng Xu ⋅ Xin Xia ⋅ JINLONG LI ⋅ Hanzhao Li ⋅ Shuo Zhang ⋅ Zhengzhong Tu ⋅ Zonglin Meng ⋅ Hao Xiang ⋅ Xiaoyu Dong ⋅ Rui Song ⋅ Hongkai Yu ⋅ Bolei Zhou ⋅ Jiaqi Ma

ReasonNet: End-to-End Driving With Temporal and Global Reasoning

Hao Shao ⋅ Letian Wang ⋅ Ruobing Chen ⋅ Steven L. Waslander ⋅ Hongsheng Li ⋅ Yu Liu

Open-World Multi-Task Control Through Goal-Aware Representation Learning and Adaptive Horizon Prediction

Shaofei Cai ⋅ Zihao Wang ⋅ Xiaojian Ma ⋅ Anji Liu ⋅ Yitao Liang

FJMP: Factorized Joint Multi-Agent Motion Prediction Over Learned Directed Acyclic Interaction Graphs

Luke Rowe ⋅ Martin Ethier ⋅ Eli-Henry Dykhne ⋅ Krzysztof Czarnecki

Trace and Pace: Controllable Pedestrian Animation via Guided Trajectory Diffusion

Davis Rempe ⋅ Zhengyi Luo ⋅ Xue Bin Peng ⋅ Ye Yuan ⋅ Kris Kitani ⋅ Karsten Kreis ⋅ Sanja Fidler ⋅ Or Litany

Galactic: Scaling End-to-End Reinforcement Learning for Rearrangement at 100k Steps-per-Second

Vincent-Pierre Berges ⋅ Andrew Szot ⋅ Devendra Singh Chaplot ⋅ Aaron Gokaslan ⋅ Roozbeh Mottaghi ⋅ Dhruv Batra ⋅ Eric Undersander

Affordances From Human Videos as a Versatile Representation for Robotics

Shikhar Bahl ⋅ Russell Mendonca ⋅ Lili Chen ⋅ Unnat Jain ⋅ Deepak Pathak

Indiscernible Object Counting in Underwater Scenes

Guolei Sun ⋅ Zhaochong An ⋅ Yun Liu ⋅ Ce Liu ⋅ Christos Sakaridis ⋅ Deng-Ping Fan ⋅ Luc Van Gool

Tracking Through Containers and Occluders in the Wild

Basile Van Hoorick ⋅ Pavel Tokmakov ⋅ Simon Stent ⋅ Jie Li ⋅ Carl Vondrick

Simple Cues Lead to a Strong Multi-Object Tracker

Jenny Seidenschwarz ⋅ Guillem Brasó ⋅ Víctor Castro Serrano ⋅ Ismail Elezi ⋅ Laura Leal-Taixé

An In-Depth Exploration of Person Re-Identification and Gait Recognition in Cloth-Changing Conditions

Weijia Li ⋅ Saihui Hou ⋅ Chunjie Zhang ⋅ Chunshui Cao ⋅ Xu Liu ⋅ Yongzhen Huang ⋅ Yao Zhao

SelfME: Self-Supervised Motion Learning for Micro-Expression Recognition

Xinqi Fan ⋅ Xueli Chen ⋅ Mingjie Jiang ⋅ Ali Raza Shahid ⋅ Hong Yan

LipFormer: High-Fidelity and Generalizable Talking Face Generation With a Pre-Learned Facial Codebook

Jiayu Wang ⋅ Kang Zhao ⋅ Shiwei Zhang ⋅ Yingya Zhang ⋅ Yujun Shen ⋅ Deli Zhao ⋅ Jingren Zhou

Real-Time Multi-Person Eyeblink Detection in the Wild for Untrimmed Video

Wenzheng Zeng ⋅ Yang Xiao ⋅ Sicheng Wei ⋅ Jinfang Gan ⋅ Xintao Zhang ⋅ Zhiguo Cao ⋅ Zhiwen Fang ⋅ Joey Tianyi Zhou

Skinned Motion Retargeting With Residual Perception of Motion Semantics & Geometry

Jiaxu Zhang ⋅ Junwu Weng ⋅ Di Kang ⋅ Fang Zhao ⋅ Shaoli Huang ⋅ Xuefei Zhe ⋅ Linchao Bao ⋅ Ying Shan ⋅ Jue Wang ⋅ Zhigang Tu

MoDi: Unconditional Motion Synthesis From Diverse Data

Sigal Raab ⋅ Inbal Leibovitch ⋅ Peizhuo Li ⋅ Kfir Aberman ⋅ Olga Sorkine-Hornung ⋅ Daniel Cohen-Or

Recurrent Vision Transformers for Object Detection With Event Cameras

Mathias Gehrig ⋅ Davide Scaramuzza

Continuous Intermediate Token Learning With Implicit Motion Manifold for Keyframe Based Motion Interpolation

Clinton A. Mo ⋅ Kun Hu ⋅ Chengjiang Long ⋅ Zhiyong Wang

EvShutter: Transforming Events for Unconstrained Rolling Shutter Correction

Julius Erbach ⋅ Stepan Tulyakov ⋅ Patricia Vitoria ⋅ Alfredo Bochicchio ⋅ Yuanyou Li

Multi Domain Learning for Motion Magnification

Jasdeep Singh ⋅ Subrahmanyam Murala ⋅ G. Sankara Raju Kosuru

Learning Event Guided High Dynamic Range Video Reconstruction

Yixin Yang ⋅ Jin Han ⋅ Jinxiu Liang ⋅ Imari Sato ⋅ Boxin Shi

Joint Video Multi-Frame Interpolation and Deblurring Under Unknown Exposure Time

Wei Shang ⋅ Dongwei Ren ⋅ Yi Yang ⋅ Hongzhi Zhang ⋅ Kede Ma ⋅ Wangmeng Zuo

FeatER: An Efficient Network for Human Reconstruction via Feature Map-Based TransformER

Ce Zheng ⋅ Matias Mendieta ⋅ Taojiannan Yang ⋅ Guo-Jun Qi ⋅ Chen Chen

MetaFusion: Infrared and Visible Image Fusion via Meta-Feature Embedding From Object Detection

Wenda Zhao ⋅ Shigeng Xie ⋅ Fan Zhao ⋅ You He ⋅ Huchuan Lu

Joint HDR Denoising and Fusion: A Real-World Mobile HDR Image Dataset

Shuaizheng Liu ⋅ Xindong Zhang ⋅ Lingchen Sun ⋅ Zhetong Liang ⋅ Hui Zeng ⋅ Lei Zhang

Visibility Constrained Wide-Band Illumination Spectrum Design for Seeing-in-the-Dark

Muyao Niu ⋅ Zhuoxiao Li ⋅ Zhihang Zhong ⋅ Yinqiang Zheng

Self-Supervised Blind Motion Deblurring With Deep Expectation Maximization

Ji Li ⋅ Weixi Wang ⋅ Yuesong Nan ⋅ Hui Ji

Structure Aggregation for Cross-Spectral Stereo Image Guided Denoising

Zehua Sheng ⋅ Zhu Yu ⋅ Xiongwei Liu ⋅ Si-Yuan Cao ⋅ Yuqi Liu ⋅ Hui-Liang Shen ⋅ Huaqi Zhang

Rawgment: Noise-Accounted RAW Augmentation Enables Recognition in a Wide Variety of Environments

Masakazu Yoshimura ⋅ Junji Otsuka ⋅ Atsushi Irie ⋅ Takeshi Ohashi

Zero-Shot Noise2Noise: Efficient Image Denoising Without Any Data

Youssef Mansour ⋅ Reinhard Heckel

Real-Time Controllable Denoising for Image and Video

Zhaoyang Zhang ⋅ Yitong Jiang ⋅ Wenqi Shao ⋅ Xiaogang Wang ⋅ Ping Luo ⋅ Kaimo Lin ⋅ Jinwei Gu

Probability-Based Global Cross-Modal Upsampling for Pansharpening

Zeyu Zhu ⋅ Xiangyong Cao ⋅ Man Zhou ⋅ Junhao Huang ⋅ Deyu Meng

ShadowDiffusion: When Degradation Prior Meets Diffusion Model for Shadow Removal

Lanqing Guo ⋅ Chong Wang ⋅ Wenhan Yang ⋅ Siyu Huang ⋅ Yufei Wang ⋅ Hanspeter Pfister ⋅ Bihan Wen

Visual Recognition-Driven Image Restoration for Multiple Degradation With Intrinsic Semantics Recovery

Zizheng Yang ⋅ Jie Huang ⋅ Jiahao Chang ⋅ Man Zhou ⋅ Hu Yu ⋅ Jinghao Zhang ⋅ Feng Zhao

Blind Image Quality Assessment via Vision-Language Correspondence: A Multitask Learning Perspective

Weixia Zhang ⋅ Guangtao Zhai ⋅ Ying Wei ⋅ Xiaokang Yang ⋅ Kede Ma

Human Guided Ground-Truth Generation for Realistic Image Super-Resolution

Du Chen ⋅ Jie Liang ⋅ Xindong Zhang ⋅ Ming Liu ⋅ Hui Zeng ⋅ Lei Zhang

Real-Time 6K Image Rescaling With Rate-Distortion Optimization

Chenyang Qi ⋅ Xin Yang ⋅ Ka Leong Cheng ⋅ Ying-Cong Chen ⋅ Qifeng Chen

Equivalent Transformation and Dual Stream Network Construction for Mobile Image Super-Resolution

Jiahao Chao ⋅ Zhou Zhou ⋅ Hongfan Gao ⋅ Jiali Gong ⋅ Zhengfeng Yang ⋅ Zhenbing Zeng ⋅ Lydia Dehbi

Ultrahigh Resolution Image/Video Matting With Spatio-Temporal Sparsity

Yanan Sun ⋅ Chi-Keung Tang ⋅ Yu-Wing Tai

Comprehensive and Delicate: An Efficient Transformer for Image Restoration

Haiyu Zhao ⋅ Yuanbiao Gou ⋅ Boyun Li ⋅ Dezhong Peng ⋅ Jiancheng Lv ⋅ Xi Peng

PHA: Patch-Wise High-Frequency Augmentation for Transformer-Based Person Re-Identification

Guiwei Zhang ⋅ Yongfei Zhang ⋅ Tianyu Zhang ⋅ Bo Li ⋅ Shiliang Pu

PyramidFlow: High-Resolution Defect Contrastive Localization Using Pyramid Normalizing Flow

Jiarui Lei ⋅ Xiaobo Hu ⋅ Yue Wang ⋅ Dong Liu

Neural Fourier Filter Bank

Zhijie Wu ⋅ Yuhe Jin ⋅ Kwang Moo Yi

Restoration of Hand-Drawn Architectural Drawings Using Latent Space Mapping With Degradation Generator

Nakkwan Choi ⋅ Seungjae Lee ⋅ Yongsik Lee ⋅ Seungjoon Yang

Neural Preset for Color Style Transfer

Zhanghan Ke ⋅ Yuhao Liu ⋅ Lei Zhu ⋅ Nanxuan Zhao ⋅ Rynson W.H. Lau

NÜWA-LIP: Language-Guided Image Inpainting With Defect-Free VQGAN

Minheng Ni ⋅ Xiaoming Li ⋅ Wangmeng Zuo

DualVector: Unsupervised Vector Font Synthesis With Dual-Part Representation

Ying-Tian Liu ⋅ Zhifei Zhang ⋅ Yuan-Chen Guo ⋅ Matthew Fisher ⋅ Zhaowen Wang ⋅ Song-Hai Zhang

DATID-3D: Diversity-Preserved Domain Adaptation Using Text-to-Image Diffusion for 3D Generative Model

Gwanghyun Kim ⋅ Se Young Chun

GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis

Ming Tao ⋅ Bing-Kun Bao ⋅ Hao Tang ⋅ Changsheng Xu

Fix the Noise: Disentangling Source Feature for Controllable Domain Translation

Dongyeun Lee ⋅ Jae Young Lee ⋅ Doyeon Kim ⋅ Jaehyun Choi ⋅ Jaejun Yoo ⋅ Junmo Kim

Conditional Text Image Generation With Diffusion Models

Yuanzhi Zhu ⋅ Zhaohai Li ⋅ Tianwei Wang ⋅ Mengchao He ⋅ Cong Yao

ReCo: Region-Controlled Text-to-Image Generation

Zhengyuan Yang ⋅ Jianfeng Wang ⋅ Zhe Gan ⋅ Linjie Li ⋅ Kevin Lin ⋅ Chenfei Wu ⋅ Nan Duan ⋅ Zicheng Liu ⋅ Ce Liu ⋅ Michael Zeng ⋅ Lijuan Wang

Freestyle Layout-to-Image Synthesis

Han Xue ⋅ Zhiwu Huang ⋅ Qianru Sun ⋅ Li Song ⋅ Wenjun Zhang

Specialist Diffusion: Plug-and-Play Sample-Efficient Fine-Tuning of Text-to-Image Diffusion Models To Learn Any Unseen Style

Haoming Lu ⋅ Hazarapet Tunanyan ⋅ Kai Wang ⋅ Shant Navasardyan ⋅ Zhangyang Wang ⋅ Humphrey Shi

Toward Verifiable and Reproducible Human Evaluation for Text-to-Image Generation

Mayu Otani ⋅ Riku Togashi ⋅ Yu Sawai ⋅ Ryosuke Ishigami ⋅ Yuta Nakashima ⋅ Esa Rahtu ⋅ Janne Heikkilä ⋅ Shin’ichi Satoh

Towards Flexible Multi-Modal Document Models

Naoto Inoue ⋅ Kotaro Kikuchi ⋅ Edgar Simo-Serra ⋅ Mayu Otani ⋅ Kota Yamaguchi

On Distillation of Guided Diffusion Models

Chenlin Meng ⋅ Robin Rombach ⋅ Ruiqi Gao ⋅ Diederik Kingma ⋅ Stefano Ermon ⋅ Jonathan Ho ⋅ Tim Salimans

Dimensionality-Varying Diffusion Process

Han Zhang ⋅ Ruili Feng ⋅ Zhantao Yang ⋅ Lianghua Huang ⋅ Yu Liu ⋅ Yifei Zhang ⋅ Yujun Shen ⋅ Deli Zhao ⋅ Jingren Zhou ⋅ Fan Cheng

Shape-Aware Text-Driven Layered Video Editing

Yao-Chih Lee ⋅ Ji-Ze Genevieve Jang ⋅ Yi-Ting Chen ⋅ Elizabeth Qiu ⋅ Jia-Bin Huang

Rethinking Image Super Resolution From Long-Tailed Distribution Learning Perspective

Yuanbiao Gou ⋅ Peng Hu ⋅ Jiancheng Lv ⋅ Hongyuan Zhu ⋅ Xi Peng

End-to-End Video Matting With Trimap Propagation

Wei-Lun Huang ⋅ Ming-Sui Lee

Context-Based Trit-Plane Coding for Progressive Image Compression

Seungmin Jeon ⋅ Kwang Pyo Choi ⋅ Youngo Park ⋅ Chang-Su Kim

Complexity-Guided Slimmable Decoder for Efficient Deep Video Compression

Zhihao Hu ⋅ Dong Xu

Efficient Hierarchical Entropy Model for Learned Point Cloud Compression

Rui Song ⋅ Chunyang Fu ⋅ Shan Liu ⋅ Ge Li

NIRVANA: Neural Implicit Representations of Videos With Adaptive Networks and Autoregressive Patch-Wise Modeling

Shishira R Maiya ⋅ Sharath Girish ⋅ Max Ehrlich ⋅ Hanyu Wang ⋅ Kwot Sin Lee ⋅ Patrick Poirson ⋅ Pengxiang Wu ⋅ Chen Wang ⋅ Abhinav Shrivastava

Learned Image Compression With Mixed Transformer-CNN Architectures

Jinming Liu ⋅ Heming Sun ⋅ Jiro Katto

Memory-Friendly Scalable Super-Resolution via Rewinding Lottery Ticket Hypothesis

Jin Lin ⋅ Xiaotong Luo ⋅ Ming Hong ⋅ Yanyun Qu ⋅ Yuan Xie ⋅ Zongze Wu

InternImage: Exploring Large-Scale Vision Foundation Models With Deformable Convolutions

Wenhai Wang ⋅ Jifeng Dai ⋅ Zhe Chen ⋅ Zhenhang Huang ⋅ Zhiqi Li ⋅ Xizhou Zhu ⋅ Xiaowei Hu ⋅ Tong Lu ⋅ Lewei Lu ⋅ Hongsheng Li ⋅ Xiaogang Wang ⋅ Yu Qiao

EfficientViT: Memory Efficient Vision Transformer With Cascaded Group Attention

Xinyu Liu ⋅ Houwen Peng ⋅ Ningxin Zheng ⋅ Yuqing Yang ⋅ Han Hu ⋅ Yixuan Yuan

Castling-ViT: Compressing Self-Attention via Switching Towards Linear-Angular Attention at Vision Transformer Inference

Haoran You ⋅ Yunyang Xiong ⋅ Xiaoliang Dai ⋅ Bichen Wu ⋅ Peizhao Zhang ⋅ Haoqi Fan ⋅ Peter Vajda ⋅ Yingyan (Celine) Lin

RIFormer: Keep Your Vision Backbone Effective but Removing Token Mixer

Jiahao Wang ⋅ Songyang Zhang ⋅ Yong Liu ⋅ Taiqiang Wu ⋅ Yujiu Yang ⋅ Xihui Liu ⋅ Kai Chen ⋅ Ping Luo ⋅ Dahua Lin

High-Resolution Image Reconstruction With Latent Diffusion Models From Human Brain Activity

Yu Takagi ⋅ Shinji Nishimoto

Non-Contrastive Unsupervised Learning of Physiological Signals From Video

Jeremy Speth ⋅ Nathan Vance ⋅ Patrick Flynn ⋅ Adam Czajka

Revealing the Dark Secrets of Masked Image Modeling

Zhenda Xie ⋅ Zigang Geng ⋅ Jingcheng Hu ⋅ Zheng Zhang ⋅ Han Hu ⋅ Yue Cao

Improving Visual Representation Learning Through Perceptual Understanding

Samyakh Tukra ⋅ Frederick Hoffman ⋅ Ken Chatfield

FlexiViT: One Model for All Patch Sizes

Lucas Beyer ⋅ Pavel Izmailov ⋅ Alexander Kolesnikov ⋅ Mathilde Caron ⋅ Simon Kornblith ⋅ Xiaohua Zhai ⋅ Matthias Minderer ⋅ Michael Tschannen ⋅ Ibrahim Alabdulmohsin ⋅ Filip Pavetic

AdaMAE: Adaptive Masking for Efficient Spatiotemporal Learning With Masked Autoencoders

Wele Gedara Chaminda Bandara ⋅ Naman Patel ⋅ Ali Gholami ⋅ Mehdi Nikkhah ⋅ Motilal Agrawal ⋅ Vishal M. Patel

SimpSON: Simplifying Photo Cleanup With Single-Click Distracting Object Segmentation Network

Chuong Huynh ⋅ Yuqian Zhou ⋅ Zhe Lin ⋅ Connelly Barnes ⋅ Eli Shechtman ⋅ Sohrab Amirghodsi ⋅ Abhinav Shrivastava

Visual Dependency Transformers: Dependency Tree Emerges From Reversed Attention

Mingyu Ding ⋅ Yikang Shen ⋅ Lijie Fan ⋅ Zhenfang Chen ⋅ Zitian Chen ⋅ Ping Luo ⋅ Joshua B. Tenenbaum ⋅ Chuang Gan

Iterative Next Boundary Detection for Instance Segmentation of Tree Rings in Microscopy Images of Shrub Cross Sections

Alexander Gillert ⋅ Giulia Resente ⋅ Alba Anadon-Rosell ⋅ Martin Wilmking ⋅ Uwe Freiherr von Lukas

VideoMAE V2: Scaling Video Masked Autoencoders With Dual Masking

Limin Wang ⋅ Bingkun Huang ⋅ Zhiyu Zhao ⋅ Zhan Tong ⋅ Yinan He ⋅ Yi Wang ⋅ Yali Wang ⋅ Yu Qiao

DropMAE: Masked Autoencoders With Spatial-Attention Dropout for Tracking Tasks

Qiangqiang Wu ⋅ Tianyu Yang ⋅ Ziquan Liu ⋅ Baoyuan Wu ⋅ Ying Shan ⋅ Antoni B. Chan

SeqTrack: Sequence to Sequence Learning for Visual Object Tracking

Xin Chen ⋅ Houwen Peng ⋅ Dong Wang ⋅ Huchuan Lu ⋅ Han Hu

Bootstrapping Objectness From Videos by Relaxed Common Fate and Visual Grouping

Long Lian ⋅ Zhirong Wu ⋅ Stella X. Yu

Video Event Restoration Based on Keyframes for Video Anomaly Detection

Zhiwei Yang ⋅ Jing Liu ⋅ Zhaoyang Wu ⋅ Peng Wu ⋅ Xiaotao Liu

Streaming Video Model

Yucheng Zhao ⋅ Chong Luo ⋅ Chuanxin Tang ⋅ Dongdong Chen ⋅ Noel Codella ⋅ Zheng-Jun Zha

LSTFE-Net:Long Short-Term Feature Enhancement Network for Video Small Object Detection

Jinsheng Xiao ⋅ Yuanxu Wu ⋅ Yunhua Chen ⋅ Shurui Wang ⋅ Zhongyuan Wang ⋅ Jiayi Ma

A Generalized Framework for Video Instance Segmentation

Miran Heo ⋅ Sukjun Hwang ⋅ Jeongseok Hyun ⋅ Hanjung Kim ⋅ Seoung Wug Oh ⋅ Joon-Young Lee ⋅ Seon Joo Kim

Referring Multi-Object Tracking

Dongming Wu ⋅ Wencheng Han ⋅ Tiancai Wang ⋅ Xingping Dong ⋅ Xiangyu Zhang ⋅ Jianbing Shen

Source-Free Video Domain Adaptation With Spatial-Temporal-Historical Consistency Learning

Kai Li ⋅ Deep Patel ⋅ Erik Kruus ⋅ Martin Renqiang Min

Seeing What You Said: Talking Face Generation Guided by a Lip Reading Expert

Jiadong Wang ⋅ Xinyuan Qian ⋅ Malu Zhang ⋅ Robby T. Tan ⋅ Haizhou Li

Egocentric Auditory Attention Localization in Conversations

Fiona Ryan ⋅ Hao Jiang ⋅ Abhinav Shukla ⋅ James M. Rehg ⋅ Vamsi Krishna Ithapu

iQuery: Instruments As Queries for Audio-Visual Sound Separation

Jiaben Chen ⋅ Renrui Zhang ⋅ Dongze Lian ⋅ Jiaqi Yang ⋅ Ziyao Zeng ⋅ Jianbo Shi

Learning To Dub Movies via Hierarchical Prosody Models

Gaoxiang Cong ⋅ Liang Li ⋅ Yuankai Qi ⋅ Zheng-Jun Zha ⋅ Qi Wu ⋅ Wenyu Wang ⋅ Bin Jiang ⋅ Ming-Hsuan Yang ⋅ Qingming Huang

A Large-Scale Robustness Analysis of Video Action Recognition Models

Madeline Chantry Schiappa ⋅ Naman Biyani ⋅ Prudvi Kamtam ⋅ Shruti Vyas ⋅ Hamid Palangi ⋅ Vibhav Vineet ⋅ Yogesh S. Rawat

The Wisdom of Crowds: Temporal Progressive Attention for Early Action Prediction

Alexandros Stergiou ⋅ Dima Damen

STMixer: A One-Stage Sparse Action Detector

Tao Wu ⋅ Mengqi Cao ⋅ Ziteng Gao ⋅ Gangshan Wu ⋅ Limin Wang

Generating Human Motion From Textual Descriptions With Discrete Representations

Jianrong Zhang ⋅ Yangsong Zhang ⋅ Xiaodong Cun ⋅ Yong Zhang ⋅ Hongwei Zhao ⋅ Hongtao Lu ⋅ Xi Shen ⋅ Ying Shan

Cascade Evidential Learning for Open-World Weakly-Supervised Temporal Action Localization

Mengyuan Chen ⋅ Junyu Gao ⋅ Changsheng Xu

Distilling Vision-Language Pre-Training To Collaborate With Weakly-Supervised Temporal Action Localization

Chen Ju ⋅ Kunhao Zheng ⋅ Jinxiang Liu ⋅ Peisen Zhao ⋅ Ya Zhang ⋅ Jianlong Chang ⋅ Qi Tian ⋅ Yanfeng Wang

Simultaneously Short- and Long-Term Temporal Modeling for Semi-Supervised Video Semantic Segmentation

Jiangwei Lao ⋅ Weixiang Hong ⋅ Xin Guo ⋅ Yingying Zhang ⋅ Jian Wang ⋅ Jingdong Chen ⋅ Wei Chu

MIST: Multi-Modal Iterative Spatial-Temporal Transformer for Long-Form Video Question Answering

Difei Gao ⋅ Luowei Zhou ⋅ Lei Ji ⋅ Linchao Zhu ⋅ Yi Yang ⋅ Mike Zheng Shou

Language-Guided Music Recommendation for Video via Prompt Analogies

Daniel McKee ⋅ Justin Salamon ⋅ Josef Sivic ⋅ Bryan Russell

Text-Visual Prompting for Efficient 2D Temporal Video Grounding

Yimeng Zhang ⋅ Xin Chen ⋅ Jinghan Jia ⋅ Sijia Liu ⋅ Ke Ding

CelebV-Text: A Large-Scale Facial Text-Video Dataset

Jianhui Yu ⋅ Hao Zhu ⋅ Liming Jiang ⋅ Chen Change Loy ⋅ Weidong Cai ⋅ Wayne Wu

CNVid-3.5M: Build, Filter, and Pre-Train the Large-Scale Public Chinese Video-Text Dataset

Tian Gan ⋅ Qing Wang ⋅ Xingning Dong ⋅ Xiangyuan Ren ⋅ Liqiang Nie ⋅ Qingpei Guo

Learning Procedure-Aware Video Representation From Instructional Videos and Their Narrations

Yiwu Zhong ⋅ Licheng Yu ⋅ Yang Bai ⋅ Shangwen Li ⋅ Xueting Yan ⋅ Yin Li

PDPP:Projected Diffusion for Procedure Planning in Instructional Videos

Hanlin Wang ⋅ Yilu Wu ⋅ Sheng Guo ⋅ Limin Wang

Towards Fast Adaptation of Pretrained Contrastive Models for Multi-Channel Video-Language Retrieval

Xudong Lin ⋅ Simran Tiwari ⋅ Shiyuan Huang ⋅ Manling Li ⋅ Mike Zheng Shou ⋅ Heng Ji ⋅ Shih-Fu Chang

Clover: Towards a Unified Video-Language Alignment and Fusion Model

Jingjia Huang ⋅ Yinan Li ⋅ Jiashi Feng ⋅ Xinglong Wu ⋅ Xiaoshuai Sun ⋅ Rongrong Ji

Align and Attend: Multimodal Summarization With Dual Contrastive Losses

Bo He ⋅ Jun Wang ⋅ Jielin Qiu ⋅ Trung Bui ⋅ Abhinav Shrivastava ⋅ Zhaowen Wang

Learning Situation Hyper-Graphs for Video Question Answering

Aisha Urooj ⋅ Hilde Kuehne ⋅ Bo Wu ⋅ Kim Chheu ⋅ Walid Bousselham ⋅ Chuang Gan ⋅ Niels Lobo ⋅ Mubarak Shah

Natural Language-Assisted Sign Language Recognition

Ronglai Zuo ⋅ Fangyun Wei ⋅ Brian Mak

SkyEye: Self-Supervised Bird’s-Eye-View Semantic Mapping Using Monocular Frontal View Images

Nikhil Gosala ⋅ Kürsat Petek ⋅ Paulo L. J. Drews-Jr ⋅ Wolfram Burgard ⋅ Abhinav Valada

Adaptive Zone-Aware Hierarchical Planner for Vision-Language Navigation

Chen Gao ⋅ Xingyu Peng ⋅ Mi Yan ⋅ He Wang ⋅ Lirong Yang ⋅ Haibing Ren ⋅ Hongsheng Li ⋅ Si Liu

Iterative Vision-and-Language Navigation

Jacob Krantz ⋅ Shurjo Banerjee ⋅ Wang Zhu ⋅ Jason Corso ⋅ Peter Anderson ⋅ Stefan Lee ⋅ Jesse Thomason

EXCALIBUR: Encouraging and Evaluating Embodied Exploration

Hao Zhu ⋅ Raghav Kapoor ⋅ So Yeon Min ⋅ Winson Han ⋅ Jiatai Li ⋅ Kaiwen Geng ⋅ Graham Neubig ⋅ Yonatan Bisk ⋅ Aniruddha Kembhavi ⋅ Luca Weihs

Multimodal Prompting With Missing Modalities for Visual Recognition

Yi-Lun Lee ⋅ Yi-Hsuan Tsai ⋅ Wei-Chen Chiu ⋅ Chen-Yu Lee

Visual Programming: Compositional Visual Reasoning Without Training

Tanmay Gupta ⋅ Aniruddha Kembhavi

Super-CLEVR: A Virtual Benchmark To Diagnose Domain Robustness in Visual Reasoning

Zhuowan Li ⋅ Xingrui Wang ⋅ Elias Stengel-Eskin ⋅ Adam Kortylewski ⋅ Wufei Ma ⋅ Benjamin Van Durme ⋅ Alan L. Yuille

Prompting Large Language Models With Answer Heuristics for Knowledge-Based Visual Question Answering

Zhenwei Shao ⋅ Zhou Yu ⋅ Meng Wang ⋅ Jun Yu

À-La-Carte Prompt Tuning (APT): Combining Distinct Data via Composable Prompting

Benjamin Bowman ⋅ Alessandro Achille ⋅ Luca Zancato ⋅ Matthew Trager ⋅ Pramuditha Perera ⋅ Giovanni Paolini ⋅ Stefano Soatto

ConStruct-VL: Data-Free Continual Structured VL Concepts Learning

James Seale Smith ⋅ Paola Cascante-Bonilla ⋅ Assaf Arbelle ⋅ Donghyun Kim ⋅ Rameswar Panda ⋅ David Cox ⋅ Diyi Yang ⋅ Zsolt Kira ⋅ Rogerio Feris ⋅ Leonid Karlinsky

Q: How To Specialize Large Vision-Language Models to Data-Scarce VQA Tasks? A: Self-Train on Unlabeled Images!

Zaid Khan ⋅ Vijay Kumar BG ⋅ Samuel Schulter ⋅ Xiang Yu ⋅ Yun Fu ⋅ Manmohan Chandraker

Learning To Exploit Temporal Structure for Biomedical Vision–Language Processing

Shruthi Bannur ⋅ Stephanie Hyland ⋅ Qianchu Liu ⋅ Fernando Pérez-García ⋅ Maximilian Ilse ⋅ Daniel C. Castro ⋅ Benedikt Boecking ⋅ Harshita Sharma ⋅ Kenza Bouzid ⋅ Anja Thieme ⋅ Anton Schwaighofer ⋅ Maria Wetscherek ⋅ Matthew P. Lungren ⋅ Aditya Nori ⋅ Javier Alvarez-Valle ⋅ Ozan Oktay

FashionSAP: Symbols and Attributes Prompt for Fine-Grained Fashion Vision-Language Pre-Training

Yunpeng Han ⋅ Lisai Zhang ⋅ Qingcai Chen ⋅ Zhijian Chen ⋅ Zhonghua Li ⋅ Jianxin Yang ⋅ Zhao Cao

Advancing Visual Grounding With Scene Knowledge: Benchmark and Method

Zhihong Chen ⋅ Ruifei Zhang ⋅ Yibing Song ⋅ Xiang Wan ⋅ Guanbin Li

Beyond Appearance: A Semantic Controllable Self-Supervised Learning Framework for Human-Centric Visual Tasks

Weihua Chen ⋅ Xianzhe Xu ⋅ Jian Jia ⋅ Hao Luo ⋅ Yaohua Wang ⋅ Fan Wang ⋅ Rong Jin ⋅ Xiuyu Sun

OCTET: Object-Aware Counterfactual Explanations

Mehdi Zemni ⋅ Mickaël Chen ⋅ Éloi Zablocki ⋅ Hédi Ben-Younes ⋅ Patrick Pérez ⋅ Matthieu Cord

Local-Guided Global: Paired Similarity Representation for Visual Reinforcement Learning

Hyesong Choi ⋅ Hunsang Lee ⋅ Wonil Song ⋅ Sangryul Jeon ⋅ Kwanghoon Sohn ⋅ Dongbo Min

What Can Human Sketches Do for Object Detection?

Pinaki Nath Chowdhury ⋅ Ayan Kumar Bhunia ⋅ Aneeshan Sain ⋅ Subhadeep Koley ⋅ Tao Xiang ⋅ Yi-Zhe Song

Revisiting Multimodal Representation in Contrastive Learning: From Patch and Token Embeddings to Finite Discrete Tokens

Yuxiao Chen ⋅ Jianbo Yuan ⋅ Yu Tian ⋅ Shijie Geng ⋅ Xinyu Li ⋅ Ding Zhou ⋅ Dimitris N. Metaxas ⋅ Hongxia Yang

Correlational Image Modeling for Self-Supervised Visual Pre-Training

Wei Li ⋅ Jiahao Xie ⋅ Chen Change Loy

Generalized Decoding for Pixel, Image, and Language

Xueyan Zou ⋅ Zi-Yi Dou ⋅ Jianwei Yang ⋅ Zhe Gan ⋅ Linjie Li ⋅ Chunyuan Li ⋅ Xiyang Dai ⋅ Harkirat Behl ⋅ Jianfeng Wang ⋅ Lu Yuan ⋅ Nanyun Peng ⋅ Lijuan Wang ⋅ Yong Jae Lee ⋅ Jianfeng Gao

Towards Modality-Agnostic Person Re-Identification With Descriptive Query

Cuiqun Chen ⋅ Mang Ye ⋅ Ding Jiang

M6Doc: A Large-Scale Multi-Format, Multi-Type, Multi-Layout, Multi-Language, Multi-Annotation Category Dataset for Modern Document Layout Analysis

Hiuyi Cheng ⋅ Peirong Zhang ⋅ Sihang Wu ⋅ Jiaxin Zhang ⋅ Qiyuan Zhu ⋅ Zecheng Xie ⋅ Jing Li ⋅ Kai Ding ⋅ Lianwen Jin

Learning Customized Visual Models With Retrieval-Augmented Knowledge

Haotian Liu ⋅ Kilho Son ⋅ Jianwei Yang ⋅ Ce Liu ⋅ Jianfeng Gao ⋅ Yong Jae Lee ⋅ Chunyuan Li

Learning Semantic Relationship Among Instances for Image-Text Matching

Zheren Fu ⋅ Zhendong Mao ⋅ Yan Song ⋅ Yongdong Zhang

I2MVFormer: Large Language Model Generated Multi-View Document Supervision for Zero-Shot Image Classification

Muhammad Ferjad Naeem ⋅ Muhammad Gul Zain Ali Khan ⋅ Yongqin Xian ⋅ Muhammad Zeshan Afzal ⋅ Didier Stricker ⋅ Luc Van Gool ⋅ Federico Tombari

ImageBind: One Embedding Space To Bind Them All

Rohit Girdhar ⋅ Alaaeldin El-Nouby ⋅ Zhuang Liu ⋅ Mannat Singh ⋅ Kalyan Vasudev Alwala ⋅ Armand Joulin ⋅ Ishan Misra

Model-Agnostic Gender Debiased Image Captioning

Yusuke Hirota ⋅ Yuta Nakashima ⋅ Noa Garcia

Boundary-Aware Backward-Compatible Representation via Adversarial Learning in Image Retrieval

Tan Pan ⋅ Furong Xu ⋅ Xudong Yang ⋅ Sifeng He ⋅ Chen Jiang ⋅ Qingpei Guo ⋅ Feng Qian ⋅ Xiaobo Zhang ⋅ Yuan Cheng ⋅ Lei Yang ⋅ Wei Chu

Prompt, Generate, Then Cache: Cascade of Foundation Models Makes Strong Few-Shot Learners

Renrui Zhang ⋅ Xiangfei Hu ⋅ Bohao Li ⋅ Siyuan Huang ⋅ Hanqiu Deng ⋅ Yu Qiao ⋅ Peng Gao ⋅ Hongsheng Li

Towards Unified Scene Text Spotting Based on Sequence Generation

Taeho Kil ⋅ Seonghyeon Kim ⋅ Sukmin Seo ⋅ Yoonsik Kim ⋅ Daehee Kim

CapDet: Unifying Dense Captioning and Open-World Detection Pretraining

Yanxin Long ⋅ Youpeng Wen ⋅ Jianhua Han ⋅ Hang Xu ⋅ Pengzhen Ren ⋅ Wei Zhang ⋅ Shen Zhao ⋅ Xiaodan Liang

CLIP2: Contrastive Language-Image-Point Pretraining From Real-World Point Cloud Data

Yihan Zeng ⋅ Chenhan Jiang ⋅ Jiageng Mao ⋅ Jianhua Han ⋅ Chaoqiang Ye ⋅ Qingqiu Huang ⋅ Dit-Yan Yeung ⋅ Zhen Yang ⋅ Xiaodan Liang ⋅ Hang Xu

Aligning Bag of Regions for Open-Vocabulary Object Detection

Size Wu ⋅ Wenwei Zhang ⋅ Sheng Jin ⋅ Wentao Liu ⋅ Chen Change Loy

Visual Recognition by Request

Chufeng Tang ⋅ Lingxi Xie ⋅ Xiaopeng Zhang ⋅ Xiaolin Hu ⋅ Qi Tian

Category Query Learning for Human-Object Interaction Classification

Chi Xie ⋅ Fangao Zeng ⋅ Yue Hu ⋅ Shuang Liang ⋅ Yichen Wei

Self-Supervised Implicit Glyph Attention for Text Recognition

Tongkun Guan ⋅ Chaochen Gu ⋅ Jingzheng Tu ⋅ Xue Yang ⋅ Qi Feng ⋅ Yudi Zhao ⋅ Wei Shen

Enlarging Instance-Specific and Class-Specific Information for Open-Set Action Recognition

Jun Cen ⋅ Shiwei Zhang ⋅ Xiang Wang ⋅ Yixuan Pei ⋅ Zhiwu Qing ⋅ Yingya Zhang ⋅ Qifeng Chen

CLIP Is Also an Efficient Segmenter: A Text-Driven Approach for Weakly Supervised Semantic Segmentation

Yuqi Lin ⋅ Minghao Chen ⋅ Wenxiao Wang ⋅ Boxi Wu ⋅ Ke Li ⋅ Binbin Lin ⋅ Haifeng Liu ⋅ Xiaofei He

Learning Attention As Disentangler for Compositional Zero-Shot Learning

Shaozhe Hao ⋅ Kai Han ⋅ Kwan-Yee K. Wong

Universal Instance Perception As Object Discovery and Retrieval

Bin Yan ⋅ Yi Jiang ⋅ Jiannan Wu ⋅ Dong Wang ⋅ Ping Luo ⋅ Zehuan Yuan ⋅ Huchuan Lu

Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot Learning

Man Liu ⋅ Feng Li ⋅ Chunjie Zhang ⋅ Yunchao Wei ⋅ Huihui Bai ⋅ Yao Zhao

DPF: Learning Dense Prediction Fields With Weak Supervision

Xiaoxue Chen ⋅ Yuhang Zheng ⋅ Yupeng Zheng ⋅ Qiang Zhou ⋅ Hao Zhao ⋅ Guyue Zhou ⋅ Ya-Qin Zhang

Modeling Entities As Semantic Points for Visual Information Extraction in the Wild

Zhibo Yang ⋅ Rujiao Long ⋅ Pengfei Wang ⋅ Sibo Song ⋅ Humen Zhong ⋅ Wenqing Cheng ⋅ Xiang Bai ⋅ Cong Yao

GeoNet: Benchmarking Unsupervised Adaptation Across Geographies

Tarun Kalluri ⋅ Wangdong Xu ⋅ Manmohan Chandraker

SegLoc: Learning Segmentation-Based Representations for Privacy-Preserving Visual Localization

Maxime Pietrantoni ⋅ Martin Humenberger ⋅ Torsten Sattler ⋅ Gabriela Csurka

Towards Open-World Segmentation of Parts

Tai-Yu Pan ⋅ Qing Liu ⋅ Wei-Lun Chao ⋅ Brian Price

Pruning Parameterization With Bi-Level Optimization for Efficient Semantic Segmentation on the Edge

Changdi Yang ⋅ Pu Zhao ⋅ Yanyu Li ⋅ Wei Niu ⋅ Jiexiong Guan ⋅ Hao Tang ⋅ Minghai Qin ⋅ Bin Ren ⋅ Xue Lin ⋅ Yanzhi Wang

HGFormer: Hierarchical Grouping Transformer for Domain Generalized Semantic Segmentation

Jian Ding ⋅ Nan Xue ⋅ Gui-Song Xia ⋅ Bernt Schiele ⋅ Dengxin Dai

Exemplar-FreeSOLO: Enhancing Unsupervised Instance Segmentation With Exemplars

Taoseef Ishtiak ⋅ Qing En ⋅ Yuhong Guo

Weakly-Supervised Domain Adaptive Semantic Segmentation With Prototypical Contrastive Learning

Anurag Das ⋅ Yongqin Xian ⋅ Dengxin Dai ⋅ Bernt Schiele

Spatial-Temporal Concept Based Explanation of 3D ConvNets

Ying Ji ⋅ Yu Wang ⋅ Jien Kato

Sparsely Annotated Semantic Segmentation With Adaptive Gaussian Mixtures

Linshan Wu ⋅ Zhun Zhong ⋅ Leyuan Fang ⋅ Xingxin He ⋅ Qiang Liu ⋅ Jiayi Ma ⋅ Hao Chen

Fuzzy Positive Learning for Semi-Supervised Semantic Segmentation

Pengchong Qiao ⋅ Zhidan Wei ⋅ Yu Wang ⋅ Zhennan Wang ⋅ Guoli Song ⋅ Fan Xu ⋅ Xiangyang Ji ⋅ Chang Liu ⋅ Jie Chen

STAR Loss: Reducing Semantic Ambiguity in Facial Landmark Detection

Zhenglin Zhou ⋅ Huaxia Li ⋅ Hong Liu ⋅ Nanyang Wang ⋅ Gang Yu ⋅ Rongrong Ji

Boosting Low-Data Instance Segmentation by Unsupervised Pre-Training With Saliency Prompt

Hao Li ⋅ Dingwen Zhang ⋅ Nian Liu ⋅ Lechao Cheng ⋅ Yalun Dai ⋅ Chao Zhang ⋅ Xinggang Wang ⋅ Junwei Han

Decoupled Semantic Prototypes Enable Learning From Diverse Annotation Types for Semi-Weakly Segmentation in Expert-Driven Domains

Simon Reiß ⋅ Constantin Seibold ⋅ Alexander Freytag ⋅ Erik Rodner ⋅ Rainer Stiefelhagen

The Treasure Beneath Multiple Annotations: An Uncertainty-Aware Edge Detector

Caixia Zhou ⋅ Yaping Huang ⋅ Mengyang Pu ⋅ Qingji Guan ⋅ Li Huang ⋅ Haibin Ling

Knowledge Combination To Learn Rotated Detection Without Rotated Annotation

Tianyu Zhu ⋅ Bryce Ferenczi ⋅ Pulak Purkait ⋅ Tom Drummond ⋅ Hamid Rezatofighi ⋅ Anton van den Hengel

Mapping Degeneration Meets Label Evolution: Learning Infrared Small Target Detection With Single Point Supervision

Xinyi Ying ⋅ Li Liu ⋅ Yingqian Wang ⋅ Ruojing Li ⋅ Nuo Chen ⋅ Zaiping Lin ⋅ Weidong Sheng ⋅ Shilin Zhou

SAP-DETR: Bridging the Gap Between Salient Points and Queries-Based Transformer Detector for Fast Model Convergency

Yang Liu ⋅ Yao Zhang ⋅ Yixin Wang ⋅ Yang Zhang ⋅ Jiang Tian ⋅ Zhongchao Shi ⋅ Jianping Fan ⋅ Zhiqiang He

Zero-Shot Object Counting

Jingyi Xu ⋅ Hieu Le ⋅ Vu Nguyen ⋅ Viresh Ranjan ⋅ Dimitris Samaras

SOOD: Towards Semi-Supervised Oriented Object Detection

Wei Hua ⋅ Dingkang Liang ⋅ Jingyu Li ⋅ Xiaolong Liu ⋅ Zhikang Zou ⋅ Xiaoqing Ye ⋅ Xiang Bai

Large-Scale Training Data Search for Object Re-Identification

Yue Yao ⋅ Tom Gedeon ⋅ Liang Zheng

Ambiguity-Resistant Semi-Supervised Learning for Dense Object Detection

Chang Liu ⋅ Weiming Zhang ⋅ Xiangru Lin ⋅ Wei Zhang ⋅ Xiao Tan ⋅ Junyu Han ⋅ Xiaomao Li ⋅ Errui Ding ⋅ Jingdong Wang

Towards Effective Visual Representations for Partial-Label Learning

Shiyu Xia ⋅ Jiaqi Lv ⋅ Ning Xu ⋅ Gang Niu ⋅ Xin Geng

Bi3D: Bi-Domain Active Learning for Cross-Domain 3D Object Detection

Jiakang Yuan ⋅ Bo Zhang ⋅ Xiangchao Yan ⋅ Tao Chen ⋅ Botian Shi ⋅ Yikang Li ⋅ Yu Qiao

Boosting Detection in Crowd Analysis via Underutilized Output Features

Shaokai Wu ⋅ Fengyu Yang

Self-Supervised Learning From Images With a Joint-Embedding Predictive Architecture

Mahmoud Assran ⋅ Quentin Duval ⋅ Ishan Misra ⋅ Piotr Bojanowski ⋅ Pascal Vincent ⋅ Michael Rabbat ⋅ Yann LeCun ⋅ Nicolas Ballas

Weakly Supervised Segmentation With Point Annotations for Histopathology Images via Contrast-Based Variational Model

Hongrun Zhang ⋅ Liam Burrows ⋅ Yanda Meng ⋅ Declan Sculthorpe ⋅ Abhik Mukherjee ⋅ Sarah E. Coupland ⋅ Ke Chen ⋅ Yalin Zheng

DoNet: Deep De-Overlapping Network for Cytology Instance Segmentation

Hao Jiang ⋅ Rushan Zhang ⋅ Yanning Zhou ⋅ Yumeng Wang ⋅ Hao Chen

MCF: Mutual Correction Framework for Semi-Supervised Medical Image Segmentation

Yongchao Wang ⋅ Bin Xiao ⋅ Xiuli Bi ⋅ Weisheng Li ⋅ Xinbo Gao

Histopathology Whole Slide Image Analysis With Heterogeneous Graph Representation Learning

Tsai Hor Chan ⋅ Fernando Julio Cendra ⋅ Lan Ma ⋅ Guosheng Yin ⋅ Lequan Yu

PEFAT: Boosting Semi-Supervised Medical Image Classification via Pseudo-Loss Estimation and Feature Adversarial Training

Qingjie Zeng ⋅ Yutong Xie ⋅ Zilin Lu ⋅ Yong Xia

Causally-Aware Intraoperative Imputation for Overall Survival Time Prediction

Xiang Li ⋅ Xuelin Qian ⋅ Litian Liang ⋅ Lingjie Kong ⋅ Qiaole Dong ⋅ Jiejun Chen ⋅ Dingxia Liu ⋅ Xiuzhong Yao ⋅ Yanwei Fu

Balanced Energy Regularization Loss for Out-of-Distribution Detection

hyunjun choi ⋅ Hawook Jeong ⋅ Jin Young Choi

Block Selection Method for Using Feature Norm in Out-of-Distribution Detection

Yeonguk Yu ⋅ Sungho Shin ⋅ Seongju Lee ⋅ Changhyun Jun ⋅ Kyoobin Lee

Highly Confident Local Structure Based Consensus Graph Learning for Incomplete Multi-View Clustering

Jie Wen ⋅ Chengliang Liu ⋅ Gehui Xu ⋅ Zhihao Wu ⋅ Chao Huang ⋅ Lunke Fei ⋅ Yong Xu

Siamese DETR

Zeren Chen ⋅ Gengshi Huang ⋅ Wei Li ⋅ Jianing Teng ⋅ Kun Wang ⋅ Jing Shao ⋅ Chen Change Loy ⋅ Lu Sheng

Towards Bridging the Performance Gaps of Joint Energy-Based Models

Xiulong Yang ⋅ Qing Su ⋅ Shihao Ji

Three Guidelines You Should Know for Universally Slimmable Self-Supervised Learning

Yun-Hao Cao ⋅ Peiqin Sun ⋅ Shuchang Zhou

Boosting Transductive Few-Shot Fine-Tuning With Margin-Based Uncertainty Weighting and Probability Regularization

Ran Tao ⋅ Hao Chen ⋅ Marios Savvides

CHMATCH: Contrastive Hierarchical Matching and Robust Adaptive Threshold Boosted Semi-Supervised Learning

Jianlong Wu ⋅ Haozhe Yang ⋅ Tian Gan ⋅ Ning Ding ⋅ Feijun Jiang ⋅ Liqiang Nie

MarginMatch: Improving Semi-Supervised Learning with Pseudo-Margins

Tiberiu Sosea ⋅ Cornelia Caragea

Ranking Regularization for Critical Rare Classes: Minimizing False Positives at a High True Positive Rate

Kiarash Mohammadi ⋅ He Zhao ⋅ Mengyao Zhai ⋅ Frederick Tung

Learning Imbalanced Data With Vision Transformers

Zhengzhuo Xu ⋅ Ruikang Liu ⋅ Shuo Yang ⋅ Zenghao Chai ⋅ Chun Yuan

No One Left Behind: Improving the Worst Categories in Long-Tailed Learning

Yingxiao Du ⋅ Jianxin Wu

Global and Local Mixture Consistency Cumulative Learning for Long-Tailed Visual Recognitions

Fei Du ⋅ Peng Yang ⋅ Qi Jia ⋅ Fengtao Nan ⋅ Xiaoting Chen ⋅ Yun Yang

Curvature-Balanced Feature Manifold Learning for Long-Tailed Classification

Yanbiao Ma ⋅ Licheng Jiao ⋅ Fang Liu ⋅ Shuyuan Yang ⋅ Xu Liu ⋅ Lingling Li

DAA: A Delta Age AdaIN Operation for Age Estimation via Binary Code Transformer

Ping Chen ⋅ Xingpeng Zhang ⋅ Ye Li ⋅ Ju Tao ⋅ Bin Xiao ⋅ Bing Wang ⋅ Zongjie Jiang

DLBD: A Self-Supervised Direct-Learned Binary Descriptor

Bin Xiao ⋅ Yang Hu ⋅ Bo Liu ⋅ Xiuli Bi ⋅ Weisheng Li ⋅ Xinbo Gao

Progressive Open Space Expansion for Open-Set Model Attribution

Tianyun Yang ⋅ Danding Wang ⋅ Fan Tang ⋅ Xinying Zhao ⋅ Juan Cao ⋅ Sheng Tang

DiGA: Distil To Generalize and Then Adapt for Domain Adaptive Semantic Segmentation

Fengyi Shen ⋅ Akhil Gurram ⋅ Ziyuan Liu ⋅ He Wang ⋅ Alois Knoll

Multi-Modal Learning With Missing Modality via Shared-Specific Feature Modelling

Hu Wang ⋅ Yuanhong Chen ⋅ Congbo Ma ⋅ Jodie Avery ⋅ Louise Hull ⋅ Gustavo Carneiro

Towards All-in-One Pre-Training via Maximizing Multi-Modal Mutual Information

Weijie Su ⋅ Xizhou Zhu ⋅ Chenxin Tao ⋅ Lewei Lu ⋅ Bin Li ⋅ Gao Huang ⋅ Yu Qiao ⋅ Xiaogang Wang ⋅ Jie Zhou ⋅ Jifeng Dai

Bi-Level Meta-Learning for Few-Shot Domain Generalization

Xiaorong Qin ⋅ Xinhang Song ⋅ Shuqiang Jiang

Train/Test-Time Adaptation With Retrieval

Luca Zancato ⋅ Alessandro Achille ⋅ Tian Yu Liu ⋅ Matthew Trager ⋅ Pramuditha Perera ⋅ Stefano Soatto

Robust Test-Time Adaptation in Dynamic Scenarios

Longhui Yuan ⋅ Binhui Xie ⋅ Shuang Li

Domain Expansion of Image Generators

Yotam Nitzan ⋅ Michaël Gharbi ⋅ Richard Zhang ⋅ Taesung Park ⋅ Jun-Yan Zhu ⋅ Daniel Cohen-Or ⋅ Eli Shechtman

Switchable Representation Learning Framework With Self-Compatibility

Shengsen Wu ⋅ Yan Bai ⋅ Yihang Lou ⋅ Xiongkun Linghu ⋅ Jianzhong He ⋅ Ling-Yu Duan

A New Benchmark: On the Utility of Synthetic Data With Blender for Bare Supervised Learning and Downstream Domain Adaptation

Hui Tang ⋅ Kui Jia

Adapting Shortcut With Normalizing Flow: An Efficient Tuning Framework for Visual Recognition

Yaoming Wang ⋅ Bowen Shi ⋅ Xiaopeng Zhang ⋅ Jin Li ⋅ Yuchen Liu ⋅ Wenrui Dai ⋅ Chenglin Li ⋅ Hongkai Xiong ⋅ Qi Tian

Manipulating Transfer Learning for Property Inference

Yulong Tian ⋅ Fnu Suya ⋅ Anshuman Suri ⋅ Fengyuan Xu ⋅ David Evans

Heterogeneous Continual Learning

Divyam Madaan ⋅ Hongxu Yin ⋅ Wonmin Byeon ⋅ Jan Kautz ⋅ Pavlo Molchanov

Generic-to-Specific Distillation of Masked Autoencoders

Wei Huang ⋅ Zhiliang Peng ⋅ Li Dong ⋅ Furu Wei ⋅ Jianbin Jiao ⋅ Qixiang Ye

Towards a Smaller Student: Capacity Dynamic Distillation for Efficient Image Retrieval

Yi Xie ⋅ Huaidong Zhang ⋅ Xuemiao Xu ⋅ Jianqing Zhu ⋅ Shengfeng He

CafeBoost: Causal Feature Boost To Eliminate Task-Induced Bias for Class Incremental Learning

Benliu Qiu ⋅ Hongliang Li ⋅ Haitao Wen ⋅ Heqian Qiu ⋅ Lanxiao Wang ⋅ Fanman Meng ⋅ Qingbo Wu ⋅ Lili Pan

Bilateral Memory Consolidation for Continual Learning

Xing Nie ⋅ Shixiong Xu ⋅ Xiyan Liu ⋅ Gaofeng Meng ⋅ Chunlei Huo ⋅ Shiming Xiang

NICO++: Towards Better Benchmarking for Domain Generalization

Xingxuan Zhang ⋅ Yue He ⋅ Renzhe Xu ⋅ Han Yu ⋅ Zheyan Shen ⋅ Peng Cui

DART: Diversify-Aggregate-Repeat Training Improves Generalization of Neural Networks

Samyak Jain ⋅ Sravanti Addepalli ⋅ Pawan Kumar Sahu ⋅ Priyam Dey ⋅ R. Venkatesh Babu

Differentiable Architecture Search With Random Features

Xuanyang Zhang ⋅ Yonggang Li ⋅ Xiangyu Zhang ⋅ Yongtao Wang ⋅ Jian Sun

Class Adaptive Network Calibration

Bingyuan Liu ⋅ Jérôme Rony ⋅ Adrian Galdran ⋅ Jose Dolz ⋅ Ismail Ben Ayed

Meta-Learning With a Geometry-Adaptive Preconditioner

Suhyun Kang ⋅ Duhun Hwang ⋅ Moonjung Eo ⋅ Taesup Kim ⋅ Wonjong Rhee

DepGraph: Towards Any Structural Pruning

Gongfan Fang ⋅ Xinyin Ma ⋅ Mingli Song ⋅ Michael Bi Mi ⋅ Xinchao Wang

Stitchable Neural Networks

Zizheng Pan ⋅ Jianfei Cai ⋅ Bohan Zhuang

Integral Neural Networks

Kirill Solodskikh ⋅ Azim Kurbanov ⋅ Ruslan Aydarkhanov ⋅ Irina Zhelavskaya ⋅ Yury Parfenov ⋅ Dehua Song ⋅ Stamatios Lefkimmiatis

Regularization of Polynomial Networks for Image Recognition

Grigorios G. Chrysos ⋅ Bohan Wang ⋅ Jiankang Deng ⋅ Volkan Cevher

ConvNeXt V2: Co-Designing and Scaling ConvNets With Masked Autoencoders

Sanghyun Woo ⋅ Shoubhik Debnath ⋅ Ronghang Hu ⋅ Xinlei Chen ⋅ Zhuang Liu ⋅ In So Kweon ⋅ Saining Xie

Shortcomings of Top-Down Randomization-Based Sanity Checks for Evaluations of Deep Neural Network Explanations

Alexander Binder ⋅ Leander Weber ⋅ Sebastian Lapuschkin ⋅ Grégoire Montavon ⋅ Klaus-Robert Müller ⋅ Wojciech Samek

Don’t Lie to Me! Robust and Efficient Explainability With Verified Perturbation Analysis

Thomas Fel ⋅ Melanie Ducoffe ⋅ David Vigouroux ⋅ Rémi Cadène ⋅ Mikaël Capelle ⋅ Claire Nicodème ⋅ Thomas Serre

OT-Filter: An Optimal Transport Filter for Learning With Noisy Labels

Chuanwen Feng ⋅ Yilong Ren ⋅ Xike Xie

Robust Generalization Against Photon-Limited Corruptions via Worst-Case Sharpness Minimization

Zhuo Huang ⋅ Miaoxi Zhu ⋅ Xiaobo Xia ⋅ Li Shen ⋅ Jun Yu ⋅ Chen Gong ⋅ Bo Han ⋅ Bo Du ⋅ Tongliang Liu

Learning With Noisy Labels via Self-Supervised Adversarial Noisy Masking

Yuanpeng Tu ⋅ Boshen Zhang ⋅ Yuxi Li ⋅ Liang Liu ⋅ Jian Li ⋅ Jiangning Zhang ⋅ Yabiao Wang ⋅ Chengjie Wang ⋅ Cai Rong Zhao

Bit-Shrinking: Limiting Instantaneous Sharpness for Improving Post-Training Quantization

Chen Lin ⋅ Bo Peng ⋅ Zheyang Li ⋅ Wenming Tan ⋅ Ye Ren ⋅ Jun Xiao ⋅ Shiliang Pu

Enhancing Multiple Reliability Measures via Nuisance-Extended Information Bottleneck

Jongheon Jeong ⋅ Sihyun Yu ⋅ Hankook Lee ⋅ Jinwoo Shin

AdaptiveMix: Improving GAN Training via Feature Space Shrinkage

Haozhe Liu ⋅ Wentian Zhang ⋅ Bing Li ⋅ Haoqian Wu ⋅ Nanjun He ⋅ Yawen Huang ⋅ Yuexiang Li ⋅ Bernard Ghanem ⋅ Yefeng Zheng

Re-GAN: Data-Efficient GANs Training via Architectural Reconfiguration

Divya Saxena ⋅ Jiannong Cao ⋅ Jiahao Xu ⋅ Tarun Kulshrestha

Soft Augmentation for Image Classification

Yang Liu ⋅ Shen Yan ⋅ Laura Leal-Taixé ⋅ James Hays ⋅ Deva Ramanan

Boosting Verified Training for Robust Image Classifications via Abstraction

Zhaodi Zhang ⋅ Zhiyi Xue ⋅ Yang Chen ⋅ Si Liu ⋅ Yueling Zhang ⋅ Jing Liu ⋅ Min Zhang

A New Dataset Based on Images Taken by Blind People for Testing the Robustness of Image Classification Models Trained for ImageNet Categories

Reza Akbarian Bafghi ⋅ Danna Gurari

Exploiting Completeness and Uncertainty of Pseudo Labels for Weakly Supervised Video Anomaly Detection

Chen Zhang ⋅ Guorong Li ⋅ Yuankai Qi ⋅ Shuhui Wang ⋅ Laiyun Qing ⋅ Qingming Huang ⋅ Ming-Hsuan Yang

Prototypical Residual Networks for Anomaly Detection and Localization

Hui Zhang ⋅ Zuxuan Wu ⋅ Zheng Wang ⋅ Zhineng Chen ⋅ Yu-Gang Jiang

Class Balanced Adaptive Pseudo Labeling for Federated Semi-Supervised Learning

Ming Li ⋅ Qingli Li ⋅ Yan Wang

Fair Federated Medical Image Segmentation via Client Contribution Estimation

Meirui Jiang ⋅ Holger R. Roth ⋅ Wenqi Li ⋅ Dong Yang ⋅ Can Zhao ⋅ Vishwesh Nath ⋅ Daguang Xu ⋅ Qi Dou ⋅ Ziyue Xu

Rethinking Federated Learning With Domain Shift: A Prototype View

Wenke Huang ⋅ Mang Ye ⋅ Zekun Shi ⋅ He Li ⋅ Bo Du

FedDM: Iterative Distribution Matching for Communication-Efficient Federated Learning

Yuanhao Xiong ⋅ Ruochen Wang ⋅ Minhao Cheng ⋅ Felix Yu ⋅ Cho-Jui Hsieh

Alias-Free Convnets: Fractional Shift Invariance via Polynomial Activations

Hagay Michaeli ⋅ Tomer Michaeli ⋅ Daniel Soudry

STDLens: Model Hijacking-Resilient Federated Learning for Object Detection

Ka-Ho Chow ⋅ Ling Liu ⋅ Wenqi Wei ⋅ Fatih Ilhan ⋅ Yanzhao Wu

Detecting Backdoors in Pre-Trained Encoders

Shiwei Feng ⋅ Guanhong Tao ⋅ Siyuan Cheng ⋅ Guangyu Shen ⋅ Xiangzhe Xu ⋅ Yingqi Liu ⋅ Kaiyuan Zhang ⋅ Shiqing Ma ⋅ Xiangyu Zhang

Detecting Backdoors During the Inference Stage Based on Corruption Robustness Consistency

Xiaogeng Liu ⋅ Minghui Li ⋅ Haoyu Wang ⋅ Shengshan Hu ⋅ Dengpan Ye ⋅ Hai Jin ⋅ Libing Wu ⋅ Chaowei Xiao

Can’t Steal? Cont-Steal! Contrastive Stealing Attacks Against Image Encoders

Zeyang Sha ⋅ Xinlei He ⋅ Ning Yu ⋅ Michael Backes ⋅ Yang Zhang

Re-Thinking Model Inversion Attacks Against Deep Neural Networks

Ngoc-Bao Nguyen ⋅ Keshigeyan Chandrasegaran ⋅ Milad Abdollahzadeh ⋅ Ngai-Man Cheung

Turning Strengths Into Weaknesses: A Certified Robustness Inspired Attack Framework Against Graph Neural Networks

Binghui Wang ⋅ Meng Pang ⋅ Yun Dong

Dynamic Generative Targeted Attacks With Pattern Injection

Weiwei Feng ⋅ Nanqing Xu ⋅ Tianzhu Zhang ⋅ Yongdong Zhang

Transferable Adversarial Attacks on Vision Transformers With Token Gradient Regularization

Jianping Zhang ⋅ Yizhan Huang ⋅ Weibin Wu ⋅ Michael R. Lyu

Adversarial Counterfactual Visual Explanations

Guillaume Jeanneret ⋅ Loïc Simon ⋅ Frédéric Jurie

TWINS: A Fine-Tuning Framework for Improved Transferability of Adversarial Robustness and Generalization

Ziquan Liu ⋅ Yi Xu ⋅ Xiangyang Ji ⋅ Antoni B. Chan

Randomized Adversarial Training via Taylor Expansion

Gaojie Jin ⋅ Xinping Yi ⋅ Dengyu Wu ⋅ Ronghui Mu ⋅ Xiaowei Huang

Improving Robust Generalization by Direct PAC-Bayesian Bound Minimization

Zifan Wang ⋅ Nan Ding ⋅ Tomer Levinboim ⋅ Xi Chen ⋅ Radu Soricut

Evading Forensic Classifiers With Attribute-Conditioned Adversarial Faces

Fahad Shamshad ⋅ Koushik Srivatsan ⋅ Karthik Nandakumar

DartBlur: Privacy Preservation With Detection Artifact Suppression

Baowei Jiang ⋅ Bing Bai ⋅ Haozhe Lin ⋅ Yu Wang ⋅ Yuchen Guo ⋅ Lu Fang

Go to Event Page

Reception

Reception & Musical Performances

7:00 PM - 9:00 PM