Skip to yearly menu bar Skip to main content

Main Navigation

CVPR
My Stuff
Reset Password

Login

Select Year: (2025)
- 2026
- 2025
- 2024
- 2023
Dates
Calls
Author & Reviewer Guides
Attend
Expo
Media
Organization
- Organizing Committee
- Program Committee
Conference Site

CVPR 2025 Events with Videos

Keynotes

Exploring the Low Altitude Airspace: From Natural Resource to Economic Engine
The Llama Herd of Models: System 1, 2, 3 Go!
Gemini Robotics, Bringing AI to the Physical World

Posters

A New Statistical Model of Star Speckles for Learning to Detect and Characterize Exoplanets in Direct Imaging Observations
Gaussian Splatting Feature Fields for (Privacy-Preserving) Visual Localization
Binarized Neural Network for Multi-spectral Image Fusion
SGC-Net: Stratified Granular Comparison Network for Open-Vocabulary HOI Detection
Quaffure: Real-Time Quasi-Static Neural Hair Simulation
SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration
EquiPose: Exploiting Permutation Equivariance for Relative Camera Pose Estimation
iSegMan: Interactive Segment-and-Manipulate 3D Gaussians
Wav2Sem: Plug-and-Play Audio Semantic Decoupling for 3D Speech-Driven Facial Animation
AI-Face: A Million-Scale Demographically Annotated AI-Generated Face Dataset and Fairness Benchmark
PIAD: Pose and Illumination agnostic Anomaly Detection
Blurry-Edges: Photon-Limited Depth Estimation from Defocused Boundaries
Towards Improved Text-Aligned Codebook Learning: Multi-Hierarchical Codebook-Text Alignment with Long Text
FDS: Frequency-Aware Denoising Score for Text-Guided Latent Diffusion Image Editing
PEACE: Empowering Geologic Map Holistic Understanding with MLLMs
Synthetic Data is an Elegant GIFT for Continual Vision-Language Models
DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation
VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide
GFlowVLM: Enhancing Multi-step Reasoning in Vision-Language Models with Generative Flow Networks
RELOCATE: A Simple Training-Free Baseline for Visual Query Localization Using Region-Based Representations
SimLTD: Simple Supervised and Semi-Supervised Long-Tailed Object Detection
Conditional Balance: Improving Multi-Conditioning Trade-Offs in Image Generation
ParaHome: Parameterizing Everyday Home Activities Towards 3D Generative Modeling of Human-Object Interactions
Towards Source-Free Machine Unlearning
CALICO: Part-Focused Semantic Co-Segmentation with Large Vision-Language Models
PrEditor3D: Fast and Precise 3D Shape Editing
Task-aware Cross-modal Feature Refinement Transformer with Large Language Models for Visual Grounding
Decoupling Fine Detail and Global Geometry for Compressed Depth Map Super-Resolution
Continuous Space-Time Video Resampling with Invertible Motion Steganography
High Temporal Consistency through Semantic Similarity Propagation in Semi-Supervised Video Semantic Segmentation for Autonomous Flight
GraphMimic: Graph-to-Graphs Generative Modeling from Videos for Policy Learning
Zero-Shot Image Restoration Using Few-Step Guidance of Consistency Models (and Beyond)
Dual Diffusion for Unified Image Generation and Understanding
Curriculum Direct Preference Optimization for Diffusion and Consistency Models
Attention IoU: Examining Biases in CelebA using Attention Maps
Associative Transformer
SketchFusion: Learning Universal Sketch Features through Fusing Foundation Models
Any3DIS: Class-Agnostic 3D Instance Segmentation by 2D Mask Tracking
KVQ: Boosting Video Quality Assessment via Saliency-guided Local Perception
AnomalyNCD: Towards Novel Anomaly Class Discovery in Industrial Scenarios
EnliveningGS: Active Locomotion of 3DGS
Learning Extremely High Density Crowds as Active Matters
PromptHMR: Promptable Human Mesh Recovery
Neural Hierarchical Decomposition for Single Image Plant Modeling
SAMBLE: Shape-Specific Point Cloud Sampling for an Optimal Trade-Off Between Local Detail and Global Uniformity
Hardware-Rasterized Ray-Based Gaussian Splatting
Classifier-guided CLIP Distillation for Unsupervised Multi-label Classification
SynthLight: Portrait Relighting with Diffusion Model by Learning to Re-render Synthetic Faces
Test-Time Fine-Tuning of Image Compression Models for Multi-Task Adaptability
Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models
VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos
MAD: Memory-Augmented Detection of 3D Objects
Simplification Is All You Need against Out-of-Distribution Overconfidence
PICO: Reconstructing 3D People In Contact with Objects
Differentiable Inverse Rendering with Interpretable Basis BRDFs
Large Self-Supervised Models Bridge the Gap in Domain Adaptive Object Detection
Improve Representation for Imbalanced Regression through Geometric Constraints
Discrete to Continuous: Generating Smooth Transition Poses from Sign Language Observations
BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices
FRAMES-VQA: Benchmarking Fine-Tuning Robustness across Multi-Modal Shifts in Visual Question Answering
GASP: Gaussian Avatars with Synthetic Priors
HiMoR: Monocular Deformable Gaussian Reconstruction with Hierarchical Motion Representation
Memories of Forgotten Concepts
Polarized Color Screen Matting
InsightEdit: Towards Better Instruction Following for Image Editing
Fortifying Federated Learning Towards Trustworthiness via Auditable Data Valuation and Verifiable Client Contribution
LineArt: A Knowledge-guided Training-free High-quality Appearance Transfer for Design Drawing with Diffusion Model
AG-VPReID: A Challenging Large-Scale Benchmark for Aerial-Ground Video-based Person Re-Identification
Point-Cache: Test-time Dynamic and Hierarchical Cache for Robust and Generalizable Point Cloud Analysis
Camouflage Anything: Learning to Hide using Controlled Out-painting and Representation Engineering
Augmenting Perceptual Super-Resolution via Image Quality Predictors
Deep Fair Multi-View Clustering with Attention KAN
Rethinking Temporal Fusion with a Unified Gradient Descent View for 3D Semantic Occupancy Prediction
AeSPa : Attention-guided Self-supervised Parallel Imaging for MRI Reconstruction
Illumination Spectrum Estimation for Multispectral Images via Surface Reflectance Modeling and Spatial-Spectral Feature Generation
MUSt3R: Multi-view Network for Stereo 3D Reconstruction
Compass Control: Multi Object Orientation Control for Text-to-Image Generation
Prior-free 3D Object Tracking
SeqAfford: Sequential 3D Affordance Reasoning via Multimodal Large Language Model
ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration
MambaVO: Deep Visual Odometry Based on Sequential Matching Refinement and Training Smoothing
SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation
HumanMM: Global Human Motion Recovery from Multi-shot Videos
MVPaint: Synchronized Multi-View Diffusion for Painting Anything 3D
Prometheus: 3D-Aware Latent Diffusion Models for Feed-Forward Text-to-3D Scene Generation
VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by Video Spatiotemporal Augmentation
NTR-Gaussian: Nighttime Dynamic Thermal Reconstruction with 4D Gaussian Splatting Based on Thermodynamics
LinGen: Towards High-Resolution Minute-Length Text-to-Video Generation with Linear Computational Complexity
Motion Modes: What Could Happen Next?
SceneFactor: Factored Latent 3D Diffusion for Controllable 3D Scene Generation
Nonisotropic Gaussian Diffusion for Realistic 3D Human Motion Prediction
VASparse: Towards Efficient Visual Hallucination Mitigation via Visual-Aware Token Sparsification
EZSR: Event-based Zero-Shot Recognition
HybridGS: Decoupling Transients and Statics with 2D and 3D Gaussian Splatting
Accurate Differential Operators for Hybrid Neural Fields
STPro: Spatial and Temporal Progressive Learning for Weakly Supervised Spatio-Temporal Grounding
FLAME: Frozen Large Language Models Enable Data-Efficient Language-Image Pre-training
Towards Satellite Image Road Graph Extraction: A Global-Scale Dataset and A Novel Method
Context-Aware Multimodal Pretraining
EnvPoser: Environment-aware Realistic Human Motion Estimation from Sparse Observations with Uncertainty Modeling
Adaptive Non-Uniform Timestep Sampling for Accelerating Diffusion Model Training
Cross-Modal 3D Representation with Multi-View Images and Point Clouds
Query Efficient Black-Box Visual Prompting with Subspace Learning
Stochastic Human Motion Prediction with Memory of Action Transition and Action Characteristic
Joint Vision-Language Social Bias Removal for CLIP
CaMuViD: Calibration-Free Multi-View Detection
MeshArt: Generating Articulated Meshes with Structure-Guided Transformers
Seeing More with Less: Human-like Representations in Vision Models
Image Generation Diversity Issues and How to Tame Them
Towards Explicit Geometry-Reflectance Collaboration for Generalized LiDAR Segmentation in Adverse Weather
Scaling up Image Segmentation across Data and Tasks
RipVIS: Rip Currents Video Instance Segmentation Benchmark for Beach Monitoring and Safety
PanDA: Towards Panoramic Depth Anything with Unlabeled Panoramas and Mobius Spatial Augmentation
Towards High-fidelity 3D Talking Avatar with Personalized Dynamic Texture
Structure-from-Motion with a Non-Parametric Camera Model
FinePhys: Fine-grained Human Action Generation by Explicitly Incorporating Physical Laws for Effective Skeletal Guidance
One Diffusion to Generate Them All
HotSpot: Signed Distance Function Optimization with an Asymptotically Sufficient Condition
TexGaussian: Generating High-quality PBR Material via Octree-based 3D Gaussian Splatting
DeepLA-Net: Very Deep Local Aggregation Networks for Point Cloud Analysis
Balanced Rate-Distortion Optimization in Learned Image Compression
LT3SD: Latent Trees for 3D Scene Diffusion
Electromyography-Informed Facial Expression Reconstruction for Physiological-Based Synthesis and Analysis
ChatGarment: Garment Estimation, Generation and Editing via Large Language Models
PreciseCam: Precise Camera Control for Text-to-Image Generation
VinaBench: Benchmark for Faithful and Consistent Visual Narratives
Provoking Multi-modal Few-Shot LVLM via Exploration-Exploitation In-Context Learning
Distraction is All You Need for Multimodal Large Language Model Jailbreaking
VGGT: Visual Geometry Grounded Transformer
MAGiC-SLAM: Multi-Agent Gaussian Globally Consistent SLAM
LLaVA-ST: A Multimodal Large Language Model for Fine-Grained Spatial-Temporal Understanding
From Head to Tail: Towards Balanced Representation in Large Vision-Language Models through Adaptive Data Calibration
LoTUS: Large-Scale Machine Unlearning with a Taste of Uncertainty
Gradient Inversion Attacks on Parameter-Efficient Fine-Tuning
CH3Depth: Efficient and Flexible Depth Foundation Model with Flow Matching
EBS-EKF: Accurate and High Frequency Event-based Star Tracking
KeyFace: Expressive Audio-Driven Facial Animation for Long Sequences via KeyFrame Interpolation
RobSense: A Robust Multi-modal Foundation Model for Remote Sensing with Static, Temporal, and Incomplete Data Adaptability
OSLoPrompt: Bridging Low-Supervision Challenges and Open-Set Domain Generalization in CLIP
Efficient Personalization of Quantized Diffusion Model without Backpropagation
PUP 3D-GS: Principled Uncertainty Pruning for 3D Gaussian Splatting
One-Step Event-Driven High-Speed Autofocus
Efficient Depth Estimation for Unstable Stereo Camera Systems on AR Glasses
FreqDebias: Towards Generalizable Deepfake Detection via Consistency-Driven Frequency Debiasing
Minding Fuzzy Regions: A Data-driven Alternating Learning Paradigm for Stable Lesion Segmentation
Exploiting Deblurring Networks for Radiance Fields
ERUPT: Efficient Rendering with Unposed Patch Transformer
AffordDP: Generalizable Diffusion Policy with Transferable Affordance
Generative Gaussian Splatting for Unbounded 3D City Generation
Revisiting Audio-Visual Segmentation with Vision-Centric Transformer
HVI: A New Color Space for Low-light Image Enhancement
ScribbleLight: Single Image Indoor Relighting with Scribbles
EDM: Equirectangular Projection-Oriented Dense Kernelized Feature Matching
AdaCM^2: On Understanding Extremely Long-Term Video with Adaptive Cross-Modality Memory Reduction
Lost in Translation, Found in Context: Sign Language Translation with Contextual Cues
Benchmarking Object Detectors under Real-World Distribution Shifts in Satellite Imagery
Generating Multimodal Driving Scenes via Next-Scene Prediction
HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video Understanding
Advancing Manga Analysis: Comprehensive Segmentation Annotations for the Manga109 Dataset
How Do I Do That? Synthesizing 3D Hand Motion and Contacts for Everyday Interactions
MonSter: Marry Monodepth to Stereo Unleashes Power
Towards Explainable and Unprecedented Accuracy in Matching Challenging Finger Crease Patterns
VERA: Explainable Video Anomaly Detection via Verbalized Learning of Vision-Language Models
BioX-CPath: Biologically-driven Explainable Diagnostics for Multistain IHC Computational Pathology
Reducing Class-wise Confusion for Incremental Learning with Disentangled Manifolds
3D-GSW: 3D Gaussian Splatting for Robust Watermarking
Dissecting and Mitigating Diffusion Bias via Mechanistic Interpretability
ArcPro: Architectural Programs for Structured 3D Abstraction of Sparse Points
CrossOver: 3D Scene Cross-Modal Alignment
Multi-subject Open-set Personalization in Video Generation
Self-Expansion of Pre-trained Models with Mixture of Adapters for Continual Learning
Driving by the Rules: A Benchmark for Integrating Traffic Sign Regulations into Vectorized HD Map
HyperGS: Hyperspectral 3D Gaussian Splatting
Token Cropr: Faster ViTs for Quite a Few Tasks
PartGen: Part-level 3D Generation and Reconstruction with Multi-view Diffusion Models
ForestLPR: LiDAR Place Recognition in Forests Attentioning Multiple BEV Density Images
Rethinking Noisy Video-Text Retrieval via Relation-aware Alignment
VISTREAM: Improving Computation Efficiency of Visual Streaming Perception via Law-of-Charge-Conservation Inspired Spiking Neural Network
Do Your Best and Get Enough Rest for Continual Learning
Enhancing Privacy-Utility Trade-offs to Mitigate Memorization in Diffusion Models
Towards Cost-Effective Learning: A Synergy of Semi-Supervised and Active Learning
EffiDec3D: An Optimized Decoder for High-Performance and Efficient 3D Medical Image Segmentation
Gaussian Splatting for Efficient Satellite Image Photogrammetry
Taming Teacher Forcing for Masked Autoregressive Video Generation
Lifting the Veil on Visual Information Flow in MLLMs: Unlocking Pathways to Faster Inference
Medusa: A Multi-Scale High-order Contrastive Dual-Diffusion Approach for Multi-View Clustering
GAF: Gaussian Avatar Reconstruction from Monocular Videos via Multi-view Diffusion
PatchDEMUX: A Certifiably Robust Framework for Multi-label Classifiers Against Adversarial Patches
SoundVista: Novel-View Ambient Sound Synthesis via Visual-Acoustic Binding
Video Depth without Video Models
ANNEXE: Unified Analyzing, Answering, and Pixel Grounding for Egocentric Interaction
ConMo: Controllable Motion Disentanglement and Recomposition for Zero-Shot Motion Transfer
OSMamba: Omnidirectional Spectral Mamba with Dual-Domain Prior Generator for Exposure Correction
UNEM: UNrolled Generalized EM for Transductive Few-Shot Learning
A Tale of Two Classes: Adapting Supervised Contrastive Learning to Binary Imbalanced Datasets
Stable Flow: Vital Layers for Training-Free Image Editing
Tiled Diffusion
SAIST: Segment Any Infrared Small Target Model Guided by Contrastive Language-Image Pretraining
RigGS: Rigging of 3D Gaussians for Modeling Articulated Objects in Videos
LOCORE: Image Re-ranking with Long-Context Sequence Modeling
Multitwine: Multi-Object Compositing with Text and Layout Control
CLIP Under the Microscope: A Fine-Grained Analysis of Multi-Object Representation
Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection
Multi-party Collaborative Attention Control for Image Customization
The Language of Motion: Unifying Verbal and Non-verbal Language of 3D Human Motion
Hypergraph Vision Transformers: Images are More than Nodes, More than Edges
ESCAPE: Equivariant Shape Completion via Anchor Point Encoding
Temporal Alignment-Free Video Matching for Few-shot Action Recognition
FG^2: Fine-Grained Cross-View Localization by Fine-Grained Feature Matching
HuMoCon: Concept Discovery for Human Motion Understanding
Gazing Into Missteps: Leveraging Eye-Gaze for Unsupervised Mistake Detection in Egocentric Videos of Skilled Human Activities
MonoPlace3D: Learning 3D-Aware Object Placement for 3D Monocular Detection
Layered Image Vectorization via Semantic Simplification
HOTFormerLoc: Hierarchical Octree Transformer for Versatile Lidar Place Recognition Across Ground and Aerial Views
HOIGPT: Learning Long-Sequence Hand-Object Interaction with Language Models
Descriptor-In-Pixel : Point-Feature Tracking For Pixel Processor Arrays
Vision-Language Model IP Protection via Prompt-based Learning
Open-World Amodal Appearance Completion
From Laboratory to Real World: A New Benchmark Towards Privacy-Preserved Visible-Infrared Person Re-Identification
Lux Post Facto: Learning Portrait Performance Relighting with Conditional Video Diffusion and a Hybrid Dataset
MAtCha Gaussians: Atlas of Charts for High-Quality Geometry and Photorealism From Sparse Views
4Deform: Neural Surface Deformation for Robust Shape Interpolation
Generative Photomontage
Explainable Saliency: Articulating Reasoning with Contextual Prioritization
Charm: The Missing Piece in ViT Fine-Tuning for Image Aesthetic Assessment
Dual-Agent Optimization framework for Cross-Domain Few-Shot Segmentation
Feat2GS: Probing Visual Foundation Models with Gaussian Splatting
PSA-SSL: Pose and Size-aware Self-Supervised Learning on LiDAR Point Clouds
Vision-Language Gradient Descent-driven All-in-One Deep Unfolding Networks
GarmentPile: Point-Level Visual Affordance Guided Retrieval and Adaptation for Cluttered Garments Manipulation
Robust Multimodal Survival Prediction with Conditional Latent Differentiation Variational AutoEncoder
MV-DUSt3R+: Single-Stage Scene Reconstruction from Sparse Views In 2 Seconds
Mind the Gap: Detecting Black-box Adversarial Attacks in the Making through Query Update Analysis
Neuro-Symbolic Evaluation of Text-to-Video Models using Formal Verification
Variance-Based Membership Inference Attacks Against Large-Scale Image Captioning Models
ProtoDepth: Unsupervised Continual Depth Completion with Prototypes
Common3D: Self-Supervised Learning of 3D Morphable Models for Common Objects in Neural Feature Space
Monocular and Generalizable Gaussian Talking Head Animation
Enhancing Facial Privacy Protection via Weakening Diffusion Purification
HOT3D: Hand and Object Tracking in 3D from Egocentric Multi-View Videos
Pathways on the Image Manifold: Image Editing via Video Generation
MeshGen: Generating PBR Textured Mesh with Render-Enhanced Auto-Encoder and Generative Data Augmentation
Context-Enhanced Memory-Refined Transformer for Online Action Detection
Decompositional Neural Scene Reconstruction with Generative Diffusion Prior
Binarized Mamba-Transformer for Lightweight Quad Bayer HybridEVS Demosaicing
Kiss3DGen: Repurposing Image Diffusion Models for 3D Asset Generation
Dual Exposure Stereo for Extended Dynamic Range 3D Imaging
Graph Neural Network Combining Event Stream and Periodic Aggregation for Low-Latency Event-based Vision
Geometry Field Splatting with Gaussian Surfels
JiSAM: Alleviate Labeling Burden and Corner Case Problems in Autonomous Driving via Minimal Real-World Data
CholecTrack20: A Multi-Perspective Tracking Dataset for Surgical Tools
T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation
Resilient Sensor Fusion Under Adverse Sensor Failures via Multi-Modal Expert Fusion
Multirate Neural Image Compression with Adaptive Lattice Vector Quantization
Vid2Avatar-Pro: Authentic Avatar from Videos in the Wild via Universal Prior
RASP: Revisiting 3D Anamorphic Art for Shadow-Guided Packing of Irregular Objects
MambaVLT: Time-Evolving Multimodal State Space Model for Vision-Language Tracking
SATA: Spatial Autocorrelation Token Analysis for Enhancing the Robustness of Vision Transformers
SinGS: Animatable Single-Image Human Gaussian Splats with Kinematic Priors
Disentangling Safe and Unsafe Image Corruptions via Anisotropy and Locality
Unboxed: Geometrically and Temporally Consistent Video Outpainting
MVGenMaster: Scaling Multi-View Generation from Any Image via 3D Priors Enhanced Diffusion Model
EasyHOI: Unleashing the Power of Large Models for Reconstructing Hand-Object Interactions in the Wild
UMotion: Uncertainty-driven Human Motion Estimation from Inertial and Ultra-wideband Units
Doppelgängers and Adversarial Vulnerability
VerbDiff: Text-Only Diffusion Models with Enhanced Interaction Awareness
Rethinking Spiking Self-Attention Mechanism: Implementing α-XNOR Similarity Calculation in Spiking Transformers
Solving Instance Detection from an Open-World Perspective
Seeing the Abstract: Translating the Abstract Language for Vision Language Models
RoboPEPP: Vision-Based Robot Pose and Joint Angle Estimation through Embedding Predictive Pre-Training
Towards Universal Dataset Distillation via Task-Driven Diffusion
UnCommon Objects in 3D
EditSplat: Multi-View Fusion and Attention-Guided Optimization for View-Consistent 3D Scene Editing with 3D Gaussian Splatting
Question-Aware Gaussian Experts for Audio-Visual Question Answering
PACT: Pruning and Clustering-Based Token Reduction for Faster Visual Language Models
Dr. Splat: Directly Referring 3D Gaussian Splatting via Direct Language Embedding Registration
HumanDreamer: Generating Controllable Human-Motion Videos via Decoupled Generation
Physical Plausibility-aware Trajectory Prediction via Locomotion Embodiment
FALCON: Fairness Learning via Contrastive Attention Approach to Continual Semantic Scene Understanding
ArtiFade: Learning to Generate High-quality Subject from Blemished Images
Classifier-Free Guidance Inside the Attraction Basin May Cause Memorization
SemanticDraw: Towards Real-Time Interactive Content Creation from Image Diffusion Models
Compositional Caching for Training-free Open-vocabulary Attribute Detection
FineLIP: Extending CLIP’s Reach via Fine-Grained Alignment with Longer Text Inputs
An Image-like Diffusion Method for Human-Object Interaction Detection
Identity-Preserving Text-to-Video Generation by Frequency Decomposition
Dynamic Camera Poses and Where to Find Them
STiL: Semi-supervised Tabular-Image Learning for Comprehensive Task-Relevant Information Exploration in Multimodal Classification
Enhancing 3D Gaze Estimation in the Wild using Weak Supervision with Gaze Following Labels
DTOS: Dynamic Time Object Sensing with Large Multimodal Model
CaricatureBooth: Data-Free Interactive Caricature Generation in a Photo Booth
Spectral Informed Mamba for Robust Point Cloud Processing
DiffLocks: Generating 3D Hair from a Single Image using Diffusion Models
MV-SSM: Multi-View State Space Modeling for 3D Human Pose Estimation
FrugalNeRF: Fast Convergence for Extreme Few-shot Novel View Synthesis without Learned Priors
Coherent 3D Portrait Video Reconstruction via Triplane Fusion
Spotting the Unexpected (STU): A 3D LiDAR Dataset for Anomaly Segmentation in Autonomous Driving
Vision-Guided Action: Enhancing 3D Human Motion Prediction with Gaze-informed Affordance in 3D Scenes
SCSA: A Plug-and-Play Semantic Continuous-Sparse Attention for Arbitrary Semantic Style Transfer
PhysicsGen: Can Generative Models Learn from Images to Predict Complex Physical Relations?
Harnessing Global-Local Collaborative Adversarial Perturbation for Anti-Customization
PoseBH: Prototypical Multi-Dataset Training Beyond Human Pose Estimation
ClimbingCap: Multi-Modal Dataset and Method for Rock Climbing in World Coordinate
QuCOOP: A Versatile Framework for Solving Composite and Binary-Parametrised Problems on Quantum Annealers
Joint Optimization of Neural Radiance Fields and Continuous Camera Motion from a Monocular Video
HyperLoRA: Parameter-Efficient Adaptive Generation for Portrait Synthesis
GCC: Generative Color Constancy via Diffusing a Color Checker
NeRFPrior: Learning Neural Radiance Field as a Prior for Indoor Scene Reconstruction
InterMimic: Towards Universal Whole-Body Control for Physics-Based Human-Object Interactions
Thin-Shell-SfT: Fine-Grained Monocular Non-rigid 3D Surface Tracking with Neural Deformation Fields
SOGS: Second-Order Anchor for Advanced 3D Gaussian Splatting
Synthetic Prior for Few-Shot Drivable Head Avatar Inversion
DIFFER: Disentangling Identity Features via Semantic Cues for Clothes-Changing Person Re-ID
Full-DoF Egomotion Estimation for Event Cameras Using Geometric Solvers
MarkushGrapher: Joint Visual and Textual Recognition of Markush Structures
FSboard: Over 3 Million Characters of ASL Fingerspelling Collected via Smartphones
DyMO: Training-Free Diffusion Model Alignment with Dynamic Multi-Objective Scheduling
GENMANIP: LLM-driven Simulation for Generalizable Instruction-Following Manipulation
Mitigating Hallucinations in Large Vision-Language Models via DPO: On-Policy Data Hold the Key
PerLA: Perceptive 3D Language Assistant
Masked Point-Entity Contrast for Open-Vocabulary 3D Scene Understanding
FSBench: A Figure Skating Benchmark for Advancing Artistic Sports Understanding
DSPNet: Dual-vision Scene Perception for Robust 3D Question Answering
TacoDepth: Towards Efficient Radar-Camera Depth Estimation with One-stage Fusion
Generative Map Priors for Collaborative BEV Semantic Segmentation
Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation
ClearSight: Visual Signal Enhancement for Object Hallucination Mitigation in Multimodal Large Language Models
Towards Long-Horizon Vision-Language Navigation: Platform, Benchmark and Method
DecoupledGaussian: Object-Scene Decoupling for Physics-Based Interaction
Pixel-aligned RGB-NIR Stereo Imaging and Dataset for Robot Vision
Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D Characters
PolarFree: Polarization-based Reflection-Free Imaging
MoDec-GS: Global-to-Local Motion Decomposition and Temporal Interval Adjustment for Compact Dynamic 3D Gaussian Splatting
Recovering Dynamic 3D Sketches from Videos
Insightful Instance Features for 3D Instance Segmentation
A Unified Framework for Heterogeneous Semi-supervised Learning
Robotic Visual Instruction
Seeing is Not Believing: Adversarial Natural Object Optimization for Hard-Label 3D Scene Attacks
BiomedCoOp: Learning to Prompt for Biomedical Vision-Language Models
MammAlps: A Multi-view Video Behavior Monitoring Dataset of Wild Mammals in the Swiss Alps
Noise-Consistent Siamese-Diffusion for Medical Image Synthesis and Segmentation
Efficient Test-time Adaptive Object Detection via Sensitivity-Guided Pruning
Volumetrically Consistent 3D Gaussian Rasterization
Olympus: A Universal Task Router for Computer Vision Tasks
DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation
Conformal Prediction and MLLM aided Uncertainty Quantification in Scene Graph Generation
MPDrive: Improving Spatial Understanding with Marker-Based Prompt Learning for Autonomous Driving
CASP: Consistency-aware Audio-induced Saliency Prediction Model for Omnidirectional Video
Overcoming Shortcut Problem in VLM for Robust Out-of-Distribution Detection
Generative Omnimatte: Learning to Decompose Video into Layers
Parallelized Autoregressive Visual Generation
Explaining in Diffusion: Explaining a Classifier with Diffusion Semantics
Dynamic Stereotype Theory Induced Micro-expression Recognition with Oriented Deformation
MEAT: Multiview Diffusion Model for Human Generation on Megapixels with Mesh Attention
Efficient Decoupled Feature 3D Gaussian Splatting via Hierarchical Compression
EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues
Complementary Advantages: Exploiting Cross-Field Frequency Correlation for NIR-Assisted Image Denoising
PanSplat: 4K Panorama Synthesis with Feed-Forward Gaussian Splatting
LoRACLR: Contrastive Adaptation for Customization of Diffusion Models
Is `Right' Right? Enhancing Object Orientation Understanding in Multimodal Large Language Models through Egocentric Instruction Tuning
Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields
Decoupled Motion Expression Video Segmentation
Image Reconstruction from Readout-Multiplexed Single-Photon Detector Arrays
FruitNinja: 3D Object Interior Texture Generation with Gaussian Splatting
WildGS-SLAM: Monocular Gaussian Splatting SLAM in Dynamic Environments
CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image
Identifying and Mitigating Position Bias of Multi-image Vision-Language Models
ILIAS: Instance-Level Image retrieval At Scale
UniVAD: A Training-free Unified Model for Few-shot Visual Anomaly Detection
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual Localization
DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception
AvatarArtist: Open-Domain 4D Avatarization
HyperPose: Hypernetwork-Infused Camera Pose Localization and an Extended Cambridge Landmarks Dataset
EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis
FluxSpace: Disentangled Semantic Editing in Rectified Flow Models
TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting
Efficient Event-Based Object Detection: A Hybrid Neural Network with Spatial and Temporal Attention
Hyperbolic Uncertainty-Aware Few-Shot Incremental Point Cloud Segmentation
Automatic Joint Structured Pruning and Quantization for Efficient Neural Network Training and Compression
Geometry-guided Online 3D Video Synthesis with Multi-View Temporal Consistency
Masked Scene Modeling: Narrowing the Gap Between Supervised and Self-Supervised Learning in 3D Scene Understanding
Parametric Point Cloud Completion for Polygonal Surface Reconstruction
Semantic-guided Cross-Modal Prompt Learning for Skeleton-based Zero-shot Action Recognition
InsTaG: Learning Personalized 3D Talking Head from Few-Second Video
Co-op: Correspondence-based Novel Object Pose Estimation
VinTAGe: Joint Video and Text Conditioning for Holistic Audio Generation
Arc2Avatar: Generating Expressive 3D Avatars from a Single Image via ID Guidance
ViKIENet: Towards Efficient 3D Object Detection with Virtual Key Instance Enhanced Network
Classifier-to-Bias: Toward Unsupervised Automatic Bias Detection for Visual Classifiers
SegEarth-OV: Towards Training-Free Open-Vocabulary Segmentation for Remote Sensing Images
FedCS: Coreset Selection for Federated Learning
T-CIL: Temperature Scaling using Adversarial Perturbation for Calibration in Class-Incremental Learning
Few-shot Personalized Scanpath Prediction
SimLingo: Vision-Only Closed-Loop Autonomous Driving with Language-Action Alignment
Focusing on Tracks for Online Multi-Object Tracking
Gazing at Rewards: Eye Movements as a Lens into Human and AI Decision-Making in Hybrid Visual Foraging
No Pains, More Gains: Recycling Sub-Salient Patches for Efficient High-Resolution Image Recognition
CRISP: Object Pose and Shape Estimation with Test-Time Adaptation
VI^3NR: Variance Informed Initialization for Implicit Neural Representations
Seeing A 3D World in A Grain of Sand
RePerformer: Immersive Human-centric Volumetric Videos from Playback to Photoreal Reperformance
BIGS: Bimanual Category-agnostic Interaction Reconstruction from Monocular Videos via 3D Gaussian Splatting
GauSTAR: Gaussian Surface Tracking and Reconstruction
PS-Diffusion: Photorealistic Subject-Driven Image Editing with Disentangled Control and Attention
VisionZip: Longer is Better but Not Necessary in Vision Language Models
Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video Diffusion
Video-ColBERT: Contextualized Late Interaction for Text-to-Video Retrieval
A Bias-Free Training Paradigm for More General AI-generated Image Detection
SF3D: Stable Fast 3D Mesh Reconstruction with UV-unwrapping and Illumination Disentanglement
MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors
Multi-Modal Contrastive Masked Autoencoders: A Two-Stage Progressive Pre-training Approach for RGBD Datasets
Diffusion-based Realistic Listening Head Generation via Hybrid Motion Modeling
3DEnhancer: Consistent Multi-View Diffusion for 3D Enhancement
Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation
Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation
Do Computer Vision Foundation Models Learn the Low-level Characteristics of the Human Visual System?
Correcting Deviations from Normality: A Reformulated Diffusion Model for Multi-Class Unsupervised Anomaly Detection
SLAM3R: Real-Time Dense Scene Reconstruction from Monocular RGB Videos
ActiveGAMER: Active GAussian Mapping through Efficient Rendering
MDP: Multidimensional Vision Model Pruning with Latency Constraint
GigaHands: A Massive Annotated Dataset of Bimanual Hand Activities
R2C: Mapping Room to Chessboard to Unlock LLM As Low-Level Action Planner
Visual Agentic AI for Spatial Reasoning with a Dynamic API
FoundHand: Large-Scale Domain-Specific Learning for Controllable Hand Image Generation
BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature
Articulated Kinematics Distillation from Video Diffusion Models
FreeCloth: Free-form Generation Enhances Challenging Clothed Human Modeling
ReVisionLLM: Recursive Vision-Language Model for Temporal Grounding in Hour-Long Videos
Video Summarization with Large Language Models
PromptHash: Affinity-Prompted Collaborative Cross-Modal Learning for Adaptive Hashing Retrieval
ZeroGrasp: Zero-Shot Shape Reconstruction Enabled Robotic Grasping
SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images
Dense Dispersed Structured Light for Hyperspectral 3D Imaging of Dynamic Scenes
WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model
SMTPD: A New Benchmark for Temporal Prediction of Social Media Popularity
Mamba-Adaptor: State Space Model Adaptor for Visual Recognition
BG-Triangle: Bézier Gaussian Triangle for 3D Vectorization and Rendering
BADGR: Bundle Adjustment Diffusion Conditioned by Gradients for Wide-Baseline Floor Plan Reconstruction
Believing is Seeing: Unobserved Object Detection using Generative Models
Pos3R: 6D Pose Estimation for Unseen Objects Made Easy
Detecting Open World Objects via Partial Attribute Assignment
Scaling Down Text Encoders of Text-to-Image Diffusion Models
MExD: An Expert-Infused Diffusion Model for Whole-Slide Image Classification
AuraFusion360: Augmented Unseen Region Alignment for Reference-based 360° Unbounded Scene Inpainting
GuardSplat: Efficient and Robust Watermarking for 3D Gaussian Splatting
Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis
The Impact Label Noise and Choice of Threshold has on Cross-Entropy and Soft-Dice in Image Segmentation
Gaussian Eigen Models for Human Heads
ProHOC: Probabilistic Hierarchical Out-of-Distribution Classification via Multi-Depth Networks
Saliuitl: Ensemble Salience Guided Recovery of Adversarial Patches against CNNs
HandOS: 3D Hand Reconstruction in One Stage
STING-BEE: Towards Vision-Language Model for Real-World X-ray Baggage Security Inspection
Relative Pose Estimation through Affine Corrections of Monocular Depth Priors
Cheb-GR: Rethinking K-nearest Neighbor Search in Re-ranking for Person Re-identification
Generalized Few-shot 3D Point Cloud Segmentation with Vision-Language Model
ZeroVO: Visual Odometry with Minimal Assumptions
SyncSDE: A Probabilistic Framework for Diffusion Synchronization
Reloc3r: Large-Scale Training of Relative Camera Pose Regression for Generalizable, Fast, and Accurate Visual Localization
Sim-to-Real Causal Transfer: A Metric Learning Approach to Causally-Aware Interaction Representations
Occlusion-aware Text-Image-Point Cloud Pretraining for Open-World 3D Object Recognition
Dora: Sampling and Benchmarking for 3D Shape Variational Auto-Encoders
DepthCues: Evaluating Monocular Depth Perception in Large Vision Models
CDI: Copyrighted Data Identification in Diffusion Models
VELOCITI: Benchmarking Video-Language Compositional Reasoning with Strict Entailment
Exploring Contextual Attribute Density in Referring Expression Counting
Dynamic Content Prediction with Motion-aware Priors for Blind Face Video Restoration
SSHNet: Unsupervised Cross-modal Homography Estimation via Problem Reformulation and Split Optimization
Paint by Inpaint: Learning to Add Image Objects by Removing Them First
SkillMimic: Learning Basketball Interaction Skills from Demonstrations
3D Occupancy Prediction with Low-Resolution Queries via Prototype-aware View Transformation
O-TPT: Orthogonality Constraints for Calibrating Test-time Prompt Tuning in Vision-Language Models
Toward Real-world BEV Perception: Depth Uncertainty Estimation via Gaussian Splatting
SKE-Layout: Spatial Knowledge Enhanced Layout Generation with LLMs
Localized Concept Erasure for Text-to-Image Diffusion Models Using Training-Free Gated Low-Rank Adaptation
Attention Distillation: A Unified Approach to Visual Characteristics Transfer
LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos
MagicArticulate: Make Your 3D Models Articulation-Ready
Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models
GazeGene: Large-scale Synthetic Gaze Dataset with 3D Eyeball Annotations
Crab: A Unified Audio-Visual Scene Understanding Model with Explicit Cooperation
Mask^2DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation
Circumventing Shortcuts in Audio-visual Deepfake Detection Datasets with Unsupervised Learning
Leveraging SD Map to Augment HD Map-based Trajectory Prediction
ONDA-Pose: Occlusion-Aware Neural Domain Adaptation for Self-Supervised 6D Object Pose Estimation
ImViD: Immersive Volumetric Videos for Enhanced VR Engagement
Self-Supervised Cross-View Correspondence with Predictive Cycle Consistency
PatchGuard: Adversarially Robust Anomaly Detection and Localization through Vision Transformers and Pseudo Anomalies
SemGeoMo: Dynamic Contextual Human Motion Generation with Semantic and Geometric Guidance
VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step
How to Merge Your Multimodal Models Over Time?
Scenario Dreamer: Vectorized Latent Diffusion for Generating Driving Simulation Environments
One-shot 3D Object Canonicalization based on Geometric and Semantic Consistency
RoadSocial: A Diverse VideoQA Dataset and Benchmark for Road Event Understanding from Social Video Narratives
Hybrid Concept Bottleneck Models
Video-Bench: Human-Aligned Video Generation Benchmark
Cross-modal Information Flow in Multimodal Large Language Models
Less is More: Efficient Image Vectorization with Adaptive Parameterization
SharpDepth: Sharpening Metric Depth Predictions Using Diffusion Distillation
Plug-and-Play Versatile Compressed Video Enhancement
AnyCam: Learning to Recover Camera Poses and Intrinsics from Casual Videos
Towards Human-Understandable Multi-Dimensional Concept Discovery
vesselFM: A Foundation Model for Universal 3D Blood Vessel Segmentation
VoteFlow: Enforcing Local Rigidity in Self-Supervised Scene Flow
A Flag Decomposition for Hierarchical Datasets
Gen3DEval: Using vLLMs for Automatic Evaluation of Generated 3D Objects
Chapter-Llama: Efficient Chaptering in Hour-Long Videos with LLMs
Task Singular Vectors: Reducing Task Interference in Model Merging
Creating Your Editable 3D Photorealistic Avatar with Tetrahedron-constrained Gaussian Splatting
Sketchtopia: A Dataset and Foundational Agents for Benchmarking Asynchronous Multimodal Communication with Iconic Feedback
MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research
All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages
Sea-ing in Low-light
GPVK-VL: Geometry-Preserving Virtual Keyframes for Visual Localization under Large Viewpoint Changes
Structure from Collision
VideoHandles: Editing 3D Object Compositions in Videos Using Video Generative Priors
LongDiff: Training-Free Long Video Generation in One Go
Mesh Mamba: A Unified State Space Model for Saliency Prediction in Non-Textured and Textured Meshes
Towards Precise Scaling Laws for Video Diffusion Transformers
Generative Video Propagation
Towards Scalable Human-aligned Benchmark for Text-guided Image Editing
Apply Hierarchical-Chain-of-Generation to Complex Attributes Text-to-3D Generation
PERSE: Personalized 3D Generative Avatars from A Single Portrait
COBRA: COmBinatorial Retrieval Augmentation for Few-Shot Adaptation
Free360: Layered Gaussian Splatting for Unbounded 360-Degree View Synthesis from Extremely Sparse and Unposed Views
Spatial Transport Optimization by Repositioning Attention Map for Training-Free Text-to-Image Synthesis
Auto-Encoded Supervision for Perceptual Image Super-Resolution
Any-Resolution AI-Generated Image Detection by Spectral Learning
WildAvatar: Learning In-the-wild 3D Avatars from the Web
Re-HOLD: Video Hand Object Interaction Reenactment via adaptive Layout-instructed Diffusion Model
SAT-HMR: Real-Time Multi-Person 3D Mesh Estimation via Scale-Adaptive Tokens
Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language
Learning Occlusion-Robust Vision Transformers for Real-Time UAV Tracking
VideoGLaMM : A Large Multimodal Model for Pixel-Level Visual Grounding in Videos
UniRestore: Unified Perceptual and Task-Oriented Image Restoration Model Using Diffusion Prior
ObjectMover: Generative Object Movement with Video Prior
VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling
GRAPHGPT-O: Synergistic Multimodal Comprehension and Generation on Graphs
Shape Abstraction via Marching Differentiable Support Functions
Optimizing for the Shortest Path in Denoising Diffusion Model
NoiseCtrl: A Sampling-Algorithm-Agnostic Conditional Generation Method for Diffusion Models
Focus-N-Fix: Region-Aware Fine-Tuning for Text-to-Image Generation
MM-OR: A Large Multimodal Operating Room Dataset for Semantic Understanding of High-Intensity Surgical Environments
Consistent Normal Orientation for 3D Point Clouds via Least Squares on Delaunay Graph
RainyGS: Efficient Rain Synthesis with Physically-Based Gaussian Splatting
Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models
UltraFusion: Ultra High Dynamic Imaging using Exposure Fusion
LC-Mamba: Local and Continuous Mamba with Shifted Windows for Frame Interpolation
RoboGround: Robotic Manipulation with Grounded Vision-Language Priors
InteractVLM: 3D Interaction Reasoning from 2D Foundational Models
GraphI2P: Image-to-Point Cloud Registration with Exploring Pattern of Correspondence via Graph Learning
Splatter-360: Generalizable 360 Gaussian Splatting for Wide-baseline Panoramic Images
Parameterized Blur Kernel Prior Learning for Local Motion Deblurring
Potential Field Based Deep Metric Learning
Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis
DexGrasp Anything: Towards Universal Robotic Dexterous Grasping with Physics Awareness
DOF-GS: Adjustable Depth-of-Field 3D Gaussian Splatting for Post-Capture Refocusing, Defocus Rendering and Blur Removal
Low-Rank Adaptation in Multilinear Operator Networks for Security-Preserving Incremental Learning
Learning from Synchronization: Self-Supervised Uncalibrated Multi-View Person Association in Challenging Scenes
DiverseFlow: Sample-Efficient Diverse Mode Coverage in Flows
RelationField: Relate Anything in Radiance Fields
A Semantic Knowledge Complementarity based Decoupling Framework for Semi-supervised Class-imbalanced Medical Image Segmentation
Directional Label Diffusion Model for Learning from Noisy Labels
Ego4o: Egocentric Human Motion Capture and Understanding from Multi-Modal Input
High-fidelity 3D Object Generation from Single Image with RGBN-Volume Gaussian Reconstruction Model
Arbitrary-steps Image Super-resolution via Diffusion Inversion
Mitigating the Human-Robot Domain Discrepancy in Visual Pre-training for Robotic Manipulation
Preserve or Modify? Context-Aware Evaluation for Balancing Preservation and Modification in Text-Guided Image Editing
HybridMQA: Exploring Geometry-Texture Interactions for Colored Mesh Quality Assessment
Noise Diffusion for Enhancing Semantic Faithfulness in Text-to-Image Synthesis
Change3D: Revisiting Change Detection and Captioning from A Video Modeling Perspective
Learning Temporally Consistent Video Depth from Video Diffusion Priors
GEM: A Generalizable Ego-Vision Multimodal World Model for Fine-Grained Ego-Motion, Object Dynamics, and Scene Composition Control
Attribute-Missing Multi-view Graph Clustering
SwiftEdit: Lightning Fast Text-Guided Image Editing via One-Step Diffusion
Good, Cheap, and Fast: Overfitted Image Compression with Wasserstein Distortion
SUM Parts: Benchmarking Part-Level Semantic Segmentation of Urban Meshes
Understanding Multi-layered Transmission Matrices
Hyperdimensional Uncertainty Quantification for Multimodal Uncertainty Fusion in Autonomous Vehicles Perception
FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views
RICCARDO: Radar Hit Prediction and Convolution for Camera-Radar 3D Object Detection
PRaDA: Projective Radial Distortion Averaging
Time of the Flight of the Gaussians: Optimizing Depth Indirectly in Dynamic Radiance Fields
DropGaussian: Structural Regularization for Sparse-view Gaussian Splatting
Floxels: Fast Unsupervised Voxel Based Scene Flow Estimation
Robust 3D Shape Reconstruction in Zero-Shot from a Single Image in the Wild
MP-SfM: Monocular Surface Priors for Robust Structure-from-Motion
Using Diffusion Priors for Video Amodal Segmentation
AnyDressing: Customizable Multi-Garment Virtual Dressing via Latent Diffusion Models
Bringing CLIP to the Clinic: Dynamic Soft Labels and Negation-Aware Learning for Medical Analysis
Speedy-Splat: Fast 3D Gaussian Splatting with Sparse Pixels and Sparse Primitives
PGC: Physics-Based Gaussian Cloth from a Single Pose
UniAP: Unifying Inter- and Intra-Layer Automatic Parallelism by Mixed Integer Quadratic Programming
A Simple Data Augmentation for Feature Distribution Skewed Federated Learning
DynaMoDe-NeRF: Motion-aware Deblurring Neural Radiance Field for Dynamic Scenes
Cross-modal Causal Relation Alignment for Video Question Grounding
Dynamic Motion Blending for Versatile Motion Editing
Enhancing Vision-Language Compositional Understanding with Multimodal Synthetic Data
DTGBrepGen: A Novel B-rep Generative Model through Decoupling Topology and Geometry
HyperNVD: Accelerating Neural Video Decomposition via Hypernetworks
Continuous Locomotive Crowd Behavior Generation
Data Distributional Properties As Inductive Bias for Systematic Generalization
HOIGen-1M: A Large-scale Dataset for Human-Object Interaction Video Generation
Improving Adversarial Transferability on Vision Transformers via Forward Propagation Refinement
GliaNet: Adaptive Neural Network Structure Learning with Glia-Driven
Advancing Generalizable Tumor Segmentation with Anomaly-Aware Open-Vocabulary Attention Maps and Frozen Foundation Diffusion Models
Perceptually Accurate 3D Talking Head Generation: New Definitions, Speech-Mesh Representation, and Evaluation Metrics
HomoGen: Enhanced Video Inpainting via Homography Propagation and Diffusion
Protecting Your Video Content: Disrupting Automated Video-based LLM Annotations
4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models
Exploiting Temporal State Space Sharing for Video Semantic Segmentation
Pursuing Temporal-Consistent Video Virtual Try-On via Dynamic Pose Interaction
Let Humanoids Hike! Integrative Skill Development on Complex Trails
Unsupervised Discovery of Facial Landmarks and Head Pose
ShiftwiseConv: Small Convolutional Kernel with Large Kernel Effect
Beyond Sight: Towards Cognitive Alignment in LVLM via Enriched Visual Knowledge
Unified Uncertainty-Aware Diffusion for Multi-Agent Trajectory Modeling
Factored-NeuS: Reconstructing Surfaces, Illumination, and Materials of Possibly Glossy Objects
Language-Assisted Debiasing and Smoothing for Foundation Model-Based Semi-Supervised Learning
Volumetric Surfaces: Representing Fuzzy Geometries with Layered Meshes
It’s a (Blind) Match! Towards Vision-Language Correspondence without Parallel Data
3D Student Splatting and Scooping
Meta-Learning Hyperparameters for Parameter Efficient Fine-Tuning
LoRA Recycle: Unlocking Tuning-Free Few-Shot Adaptability in Visual Foundation Models by Recycling Pre-Tuned LoRAs
GenAssets: Generating in-the-wild 3D Assets in Latent Space
Improving Transferable Targeted Attacks with Feature Tuning Mixup
BLADE: Single-view Body Mesh Estimation through Accurate Depth Estimation
Scene-Centric Unsupervised Panoptic Segmentation
Not Only Text: Exploring Compositionality of Visual Representations in Vision-Language Models
GeoAvatar: Geometrically-Consistent Multi-Person Avatar Reconstruction from Sparse Multi-View Videos
Omni-Scene: Omni-Gaussian Representation for Ego-Centric Sparse-View Scene Reconstruction
Closest Neighbors are Harmful for Lightweight Masked Auto-encoders
Attraction Diminishing and Distributing for Few-Shot Class-Incremental Learning
A Unified Model for Compressed Sensing MRI Across Undersampling Patterns
Can Text-to-Video Generation help Video-Language Alignment?
Spectral State Space Model for Rotation-Invariant Visual Representation Learning
Dynamic Neural Surfaces for Elastic 4D Shape Representation and Analysis
Towards More General Video-based Deepfake Detection through Facial Component Guided Adaptation for Foundation Model
Category-Agnostic Neural Object Rigging
MonoInstance: Enhancing Monocular Priors via Multi-view Instance Alignment for Neural Rendering and Reconstruction
HD-EPIC: A Highly-Detailed Egocentric Video Dataset
SketchVideo: Sketch-based Video Generation and Editing
TopoCellGen: Generating Histopathology Cell Topology with a Diffusion Model
Towards Enhanced Image Inpainting: Mitigating Unwanted Object Insertion and Preserving Color Consistency
MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling
Finsler Multi-Dimensional Scaling: Manifold Learning for Asymmetric Dimensionality Reduction and Embedding
Prof. Robot: Differentiable Robot Rendering Without Static and Self-Collisions
Inversion Circle Interpolation: Diffusion-based Image Augmentation for Data-scarce Classification
HuPerFlow: A Comprehensive Benchmark for Human vs. Machine Motion Estimation Comparison
DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment
F-LMM: Grounding Frozen Large Multimodal Models
Boosting the Dual-Stream Architecture in Ultra-High Resolution Segmentation with Resolution-Biased Uncertainty Estimation
Joint Out-of-Distribution Filtering and Data Discovery Active Learning
Decoupling Training-Free Guided Diffusion by ADMM
IM-Portrait: Learning 3D-aware Video Diffusion for Photorealistic Talking Heads from Monocular VideosC
Multi-Resolution Pathology-Language Pre-training Model with Text-Guided Visual Representation
StableAnimator: High-Quality Identity-Preserving Human Image Animation
Functionality Understanding and Segmentation in 3D Scenes
PersonaBooth: Personalized Text-to-Motion Generation
Cross-Modal Distillation for 2D/3D Multi-Object Discovery from 2D Motion
MetaWriter: Personalized Handwritten Text Recognition Using Meta-Learned Prompt Tuning
Text Augmented Correlation Transformer For Few-shot Classification & Segmentation
SpectroMotion: Dynamic 3D Reconstruction of Specular Scenes
Embodied Scene Understanding for Vision Language Models via MetaVQA
3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes
GCE-Pose: Global Context Enhancement for Category-level Object Pose Estimation
Exploring the Deep Fusion of Large Language Models and Diffusion Transformers for Text-to-Image Synthesis
Material Anything: Generating Materials for Any 3D Object via Diffusion
APT: Adaptive Personalized Training for Diffusion Models with Limited Data
V2V3D: View-to-View Denoised 3D Reconstruction for Light Field Microscopy
DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation
4DTAM: Non-Rigid Tracking and Mapping via Dynamic Surface Gaussians
Temporal Action Detection Model Compression by Progressive Block Drop
LesionLocator: Zero-Shot Universal Tumor Segmentation and Tracking in 3D Whole-Body Imaging
Geometry in Style: 3D Stylization via Surface Normal Deformation
ArticulatedGS: Self-supervised Digital Twin Modeling of Articulated Objects using 3D Gaussian Splatting
Instruct-CLIP: Improving Instruction-Guided Image Editing with Automated Data Refinement Using Contrastive Learning
NexusGS: Sparse View Synthesis with Epipolar Depth Priors in 3D Gaussian Splatting
Probability Density Geodesics in Image Diffusion Latent Space
Neural LightRig: Unlocking Accurate Object Normal and Material Estimation with Multi-Light Diffusion
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation
DyCON: Dynamic Uncertainty-aware Consistency and Contrastive Learning for Semi-supervised Medical Image Segmentation
GenVDM: Generating Vector Displacement Maps From a Single Image
Nearly Zero-Cost Protection Against Mimicry by Personalized Diffusion Models
Depth Any Camera: Zero-Shot Metric Depth Estimation from Any Camera
MotionPRO: Exploring the Role of Pressure in Human MoCap and Beyond
FactCheXcker: Mitigating Measurement Hallucinations in Chest X-ray Report Generation Models
Vision-Language Models Do Not Understand Negation
Unsupervised Foundation Model-Agnostic Slide-Level Representation Learning
DoF-Gaussian: Controllable Depth-of-Field for 3D Gaussian Splatting
CoMapGS: Covisibility Map-based Gaussian Splatting for Sparse Novel View Synthesis
Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Instructional Videos
ETAP: Event-based Tracking of Any Point
HoGS: Unified Near and Far Object Reconstruction via Homogeneous Gaussian Splatting
StageDesigner: Artistic Stage Generation for Scenography via Theater Scripts
LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale
Homogeneous Dynamics Space for Heterogeneous Humans
MP-GUI: Modality Perception with MLLMs for GUI Understanding
Distilling Long-tailed Datasets
From Sparse to Dense: Camera Relocalization with Scene-Specific Detector from Feature Gaussian Splatting
HalLoc: Token-level Localization of Hallucinations for Vision Language Models
ReSpec: Relevance and Specificity Grounded Online Filtering for Learning on Video-Text Data Streams
Learning Endogenous Attention for Incremental Object Detection
DNF: Unconditional 4D Generation with Dictionary-based Neural Fields
Harnessing Frozen Unimodal Encoders for Flexible Multimodal Alignment
PICD: Versatile Perceptual Image Compression with Diffusion Rendering
HRAvatar: High-Quality and Relightable Gaussian Head Avatar
Scene-agnostic Pose Regression for Visual Localization
SPARS3R: Semantic Prior Alignment and Regularization for Sparse 3D Reconstruction
RNG: Relightable Neural Gaussians
VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation
Enhancing Creative Generation on Stable Diffusion-based Models
Exploration-Driven Generative Interactive Environments
CL-LoRA: Continual Low-Rank Adaptation for Rehearsal-Free Class-Incremental Learning
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE
MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis
Rethinking Few-Shot Adaptation of Vision-Language Models in Two Stages
Precise, Fast, and Low-cost Concept Erasure in Value Space: Orthogonal Complement Matters
Prompt2Perturb (P2P): Text-Guided Diffusion-Based Adversarial Attack on Breast Ultrasound Images
3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion
Latent Space Imaging
Dyn-HaMR: Recovering 4D Interacting Hand Motion from a Dynamic Camera
Doppelgangers++: Improved Visual Disambiguation with Geometric 3D Features
Rethinking Decoder Design: Improving Biomarker Segmentation Using Depth-to-Space Restoration and Residual Linear Attention
Task-Specific Gradient Adaptation for Few-Shot One-Class Classification
3D-SLNR: A Super Lightweight Neural Representation for Large-scale 3D Mapping
Learning Physics-Based Full-Body Human Reaching and Grasping from Brief Walking References
Adversarial Diffusion Compression for Real-World Image Super-Resolution
TreeMeshGPT: Artistic Mesh Generation with Autoregressive Tree Sequencing
GLASS: Guided Latent Slot Diffusion for Object-Centric Learning
Bias for Action: Video Implicit Neural Representations with Bias Modulation
Open Set Label Shift with Test Time Out-of-Distribution Reference
DeepCompress-ViT: Rethinking Model Compression to Enhance Efficiency of Vision Transformers at the Edge
HistoFS: Non-IID Histopathologic Whole Slide Image Classification via Federated Style Transfer with RoI-Preserving
Octopus: Alleviating Hallucination via Dynamic Contrastive Decoding
BimArt: A Unified Approach for the Synthesis of 3D Bimanual Interaction with Articulated Objects
Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Strategy
ROLL: Robust Noisy Pseudo-label Learning for Multi-View Clustering with Noisy Correspondence
3D Gaussian Inpainting with Depth-Guided Cross-View Consistency
h-Edit: Effective and Flexible Diffusion-Based Editing via Doob's h-Transform
Disco4D: Disentangled 4D Human Generation and Animation from a Single Image
Segment Anything, Even Occluded
BIMBA: Selective-Scan Compression for Long-Range Video Question Answering
SplineGS: Robust Motion-Adaptive Spline for Real-Time Dynamic 3D Gaussians from Monocular Video
Semi-Supervised State-Space Model with Dynamic Stacking Filter for Real-World Video Deraining
BASKET: A Large-Scale Video Dataset for Fine-Grained Skill Estimation
Towards Realistic Example-based Modeling via 3D Gaussian Stitching
Sketch Down the FLOPs: Towards Efficient Networks for Human Sketch
GLane3D: Detecting Lanes with Graph of 3D Keypoints
Blurred LiDAR for Sharper 3D: Robust Handheld 3D Scanning with Diffuse LiDAR and RGB
BF-STVSR: B-Splines and Fourier---Best Friends for High Fidelity Spatial-Temporal Video Super-Resolution
PQPP: A Joint Benchmark for Text-to-Image Prompt and Query Performance Prediction
DAMM-Diffusion: Learning Divergence-Aware Multi-Modal Diffusion Model for Nanoparticles Distribution Prediction
DV-Matcher: Deformation-based Non-rigid Point Cloud Matching Guided by Pre-trained Visual Features
RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins
HyperGLM: HyperGraph for Video Scene Graph Generation and Anticipation
FlipSketch: Flipping Static Drawings to Text-Guided Sketch Animations
SIDA: Social Media Image Deepfake Detection, Localization and Explanation with Large Multimodal Model
3DGUT: Enabling Distorted Cameras and Secondary Rays in Gaussian Splatting
Hybrid Global-Local Representation with Augmented Spatial Guidance for Zero-Shot Referring Image Segmentation
Deep Change Monitoring: A Hyperbolic Representative Learning Framework and a Dataset for Long-term Fine-grained Tree Change Detection
DIO: Decomposable Implicit 4D Occupancy-Flow World Model
DiffPortrait360: Consistent Portrait Diffusion for 360 View Synthesis
Generalized Recorrupted-to-Recorrupted: Self-Supervised Learning Beyond Gaussian Noise
Interactive Medical Image Analysis with Concept-based Similarity Reasoning
Real-time High-fidelity Gaussian Human Avatars with Position-based Interpolation of Spatially Distributed MLPs
Unlocking the Potential of Unlabeled Data in Semi-Supervised Domain Generalization
Satellite Observations Guided Diffusion Model for Accurate Meteorological States at Arbitrary Resolution
Subnet-Aware Dynamic Supernet Training for Neural Architecture Search
Birth and Death of a Rose
Consistency Posterior Sampling for Diverse Image Synthesis
PCDreamer: Point Cloud Completion Through Multi-view Diffusion Priors

Tutorials

Foundations of Interpretable AI
The 2nd Point Cloud Tutorial: All You Need To Know About 3D Point Cloud
Scalable Generative Models in Computer Vision
From Video Generation to World Model
Volumetric Video in the Real World
Cognitive AI for the Future: Agentic Multimodal Models and RAG for Vision Language Applications, from Training to Deployment
Evaluating Large Multi-modal Models: Challenges and Methods
Multi-Modal Computer Vision and Foundation Models In Agriculture in conjunction with IEEE CVPR 2025
Robotics 101: An Odyssey from A Vision Perspective
Animal re-identification
Computer Vision over Homomorphically Encrypted Data
Continuous Data Cycle via Foundation Models
Edge AI in Action: Technologies and Applications
Identifying Structure in Data: All you need to know about Dimensionality Reduction, Clustering and more
Multimodal Mathematical Reasoning: Frontiers in Integrating Vision, Language, and Symbolic Representations
Full-Stack, GPU-based Acceleration of Deep Learning and Foundation Models
Power-efficient neural networks using low-precision data types and quantization
Intelligent Healthcare based on Cameras and Wireless Sensors
Recent Advances in Vision Foundation Models

Workshops

Computer Vision for Mixed Reality
8th Workshop on Efficient Deep Learning for Computer Vision
M&M: Multi-modal Models and Medicine
The Second Workshop on: Computer Vision For Videogames (CV2)
4th edition of Computer Vision for Metaverse Workshop
2nd MetaFood Workshop
The 2nd Workshop on Equivariant Vision: From Theory to Practice
The 1st Workshop on Humanoid Agents
Visual Perception and Learning in an Open World
5th Workshop on 3D Scene Understanding for Vision, Graphics, and Robotics
BEAM 2025: Benchmarking and Expanding AI Multimodal Approaches
CV4Science 2025: Using Computer Vision for the Sciences
The Sixth Workshop on Fair, Data-efficient, and Trusted Computer Vision
Data Driven Autonomous Driving Simulation (DDADS)
Global 3D Human Poses
3rd Workshop on Generative Models for Computer Vision
Workshop on Autonomous Driving
3D Vision Language Model for Robotics Manipulation: Opportunities and Challenges
4th Workshop on Computer Vision in the Wild
8th International Workshop on Visual Odometry and Computer Vision Applications Based on Location Clues
Uncertainty Quantification for Computer Vision
2nd Workshop on Urban Scene Modeling: Where Vision meets Photogrammetry and Graphics (USM3D)
Generalization in Robotics Manipulation Workshop and Challenges
Demographic diversity in computer vision
Foundation Models Meet Embodied Agents
Workshop on Video Large Language Models
Embodied Intelligence for Autonomous Systems on the Horizon
Synthetic Data for Computer Vision Workshop
Workshop on 4D Vision: Modeling the Dynamic World
Exploring the Next Generation of Data
Emergent Visual Abilities and Limits of Foundation Models (EVAL-FoMo 2)
The 4th Explainable AI for Computer Vision (XAI4CV) Workshop
2nd Workshop on Human Motion Generation (HuMoGen)
Multimodal Foundation Models for Biomedicine: Challenges and Opportunities
Multimodal Algorithmic Reasoning Workshop
Workshop on Visual Concepts
Workshop on 3D-LLM/VLA: Bridging Language, Vision and Action in 3D Environments
Efficient Large Vision Models
WorldModelBench: The First Workshop on Benchmarking World Foundation Models
Three things everyone should ask about photorealistic virtual try-on.
C3DV: 3rd Workshop on Compositional 3D Vision
Workshop on Distillation of Foundation Models for Autonomous Driving
Workshop on Foundation and Large Vision Models in Remote Sensing
Workshop on Computer Vision for Microscopy Image Analysis
DriveX - Foundation Models for V2X-Based Cooperative Autonomous Driving
5th International Workshop on Event-based Vision
11th Workshop on Medical Computer Vision
PixFoundation: Workshop on Pixel-level Vision Foundation Models
3D Digital Twin: Progress, Challenges, and Future Directions
Women in Computer Vision
SyntaGen: Harnessing Generative Models for Synthetic Visual Datasets
The 5th Workshop of Adversarial Machine Learning on Computer Vision: Foundation Models + X
21th Workshop on Perception Beyond the Visible Spectrum (PBVS'2025)
What is Next in Multimodal Foundation Models?
VAND: Visual Anomaly and Novelty Detection - 3rd Edition
Vision Meets Physics: Synergizing Physical Simulation and Computer Vision
Second Joint Egocentric Vision (EgoVis) Workshop
2nd Workshop on Embodied "Humans": Symbiotic Intelligence between Virtual Humans and Humanoid Robots
6th Embodied AI Workshop (EAI)
Multi-Agent Embodied Intelligent Systems Meet Generative-AI Era: Opportunities, Challenges and Futures
Visual Generative Modeling: What’s After Diffusion?
Vision Language Models For All: Building Geo-Diverse and Culturally Aware Vision-Language Models
LOVE: Multimodal Video Agent
Test-time Scaling for Computer Vision
Spatial Intelligence for Cultural Heritage
Mechanistic Interpretability for Vision
5th Workshop on CV4Animals: Computer Vision for Animal Behavior Tracking and Modeling
Computer Vision for Drug Discovery: Where are we and What is Beyond?
Agent in Interaction, from Humans to Robots
Visual Modeling Challenges for 2D-3D Virtual Try-On
Multi-modal Learning for Materials Science
2nd Workshop on Efficient and On-Device Generation (EDGE)
Open-World 3D Scene Understanding with Foundation Models
The 6th International Workshop and Prize Challenge on Agriculture-Vision: Challenges & Opportunities for Computer Vision in Agriculture in conjunction with IEEE CVPR 2025
11th IEEE International Workshop on Computer Vision in Sports
First Workshop on Experimental Model Auditing via Controllable Synthesis (EMACS)
Workshop on Perception for Industrial Robotics Automation
Domain Generalization: Evolution, Breakthroughs, and Future Horizons
VizWiz Grand Challenge
ReGenAI: Second Workshop on Responsible Generative AI
Workshop on 3D Human Understanding
Catch UAVs that Want to Watch You: Detection and Tracking of Unmanned Aerial Vehicle (UAV) in the Wild and the 4th Anti-UAV Workshop & Challenge
Physics-inspired 3D Vision and Imaging
Real-to-Sim: Bridging the Gap between Neural Rendering and Robot Learning
(4th) Monocular Depth Estimation Challenge

Report issues here.

Successful Page Load

Contact Us

Please contact us with questions about the following topics:

Author - Paper Submission, Author - Open Review Issues, Author - Camera-Ready Paper, Registration - General, Registration - Cancellation, Childcare/Guests, Expo/Guests, Lodging, Visa Letter, Reviewer - Open Review Issues, Reviewer - General Issues, Area Chair Issues,

Website and Invitation Letter Help

Use the website help link for issues including login, inactive accounts, invitation letters papers not associated with a registration.

Useful links

	IEEE Computer Society
	The Computer Vision Foundation

CVPR Proceedings
Code of Conduct

CVF Proceedings