GeWu-Lab

GeCo-SRT: Geometry-aware Continual Adaptation for Robotic Cross-Task Sim-to-Real Transfer

Wenbo Yu , Wenke Xia , Weitao Zhang , Di Hu

Computer Vision and Pattern Recognition (CVPR) 2026

PDF

Information-Theoretic Decomposition for Multimodal Interaction Learning

Zequn Yang , Yake Wei , Haotian Ni , Zhihao Xu , Di Hu

Computer Vision and Pattern Recognition (CVPR) 2026

APPO: Attention-guided Perception Policy Optimization for Video Reasoning

Henghui Du , Chang Zhou , Xi Chen , Di Hu

Computer Vision and Pattern Recognition (CVPR) 2026

PDF Code

🔥AnyTouch 2: General Optical Tactile Representation Learning For Dynamic Tactile Perception

Ruoxuan Feng , Yuxuan Zhou , Siyu Mei , Dongzhan Zhou , Pengwei Wang , Shaowei Cui , Bin Fang , Guocai Yao , Di Hu

International Conference on Learning Representations (ICLR) 2026

PDF Code

When Would Vision-Proprioception Policies Fail in Robotic Manipulation?

Jingxian Lu* , Wenke Xia* , Yuxuan Wu , Zhiwu Lu , Di Hu

International Conference on Learning Representations (ICLR) 2026

PDF Code

🔥MokA: Multimodal Low-Rank Adaptation for MLLMs

Yake Wei , Yu Miao , Dongzhan Zhou , Di Hu

Neural Information Processing Systems (NeurIPS) 2025

Oral Presentation

PDF Code

🔥Robotic Policy Learning via Human-assisted Action Preference Optimization

Wenke Xia , Yichu Yang , Hongtao Wu , Xiao Ma , Tao Kong , Di Hu

Neural Information Processing Systems (NeurIPS) 2025

PDF Project Code

Reviving the Cooperation Dynamics in Multimodal Transformer

Haotian Ni , Yake Wei , Hang Liu , Gong Chen , Chong Peng , Hao Lin , Di Hu

International Conference on Machine Learning (ICML) 2025

PDF Code

Efficient Quantification of Multimodal Interaction at Sample Level

Zequn Yang , Hongfa Wang , Di Hu

International Conference on Machine Learning (ICML) 2025

PDF Code

🔥Crab: A Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

Henghui Du , Guangyao Li , Chang Zhou , Chunjie Zhang , Alan Zhao , Di Hu

Computer Vision and Pattern Recognition (CVPR) 2025

PDF Code

Phoenix: A Motion-based Self-Reflection Framework for Fine-grained Robotic Action Correction

Wenke Xia , Ruoxuan Feng , Dong Wang , Di Hu

Computer Vision and Pattern Recognition (CVPR) 2025

PDF Code

Patch Matters: Training-free Fine-grained Image Caption Enhancement via Local Perception

Ruotian Peng* , Haiying He* , Yake Wei , Yandong Wen , Di Hu

Conference on Computer Vision and Pattern Recognition (CVPR) 2025

PDF Code

Adaptive Unimodal Regulation for Balanced Multimodal Information Acquisition

Chengxiang Huang , Yake Wei , Zequn Yang , Di Hu

Conference on Computer Vision and Pattern Recognition (CVPR) 2025

PDF Code

AnyTouch: Learning Unified Static-Dynamic Representation across Multiple Visuo-tactile Sensors

Ruoxuan Feng , Jiangyu Hu , Wenke Xia , Tianci Gao , Ao Shen , Yuhao Sun , Bin Fang , Di Hu

International Conference on Learning Representations (ICLR) 2025

PDF Code

On-the-fly Modulation for Balanced Multimodal Learning

Yake Wei , Di Hu , Henghui Du , Ji-Rong Wen

IEEE Transactions on Pattern Analysis and Machine Intelligence (T-PAMI) 2024

PDF Code

🔥Play to the Score: Stage-Guided Dynamic Multi-Sensory Fusion for Robotic Manipulation

Ruoxuan Feng , Di Hu , Wenke Ma , Xuelong Li

Conference on Robot Learning (CoRL) 2024

Oral Presentation

PDF Code

KOI: Accelerating Online Imitation Learning via Hybrid Key-state Guidance

Jingxian Lu , Wenke Xia , Dong Wang , Zhigang Wang , Bin Zhao , Di Hu , Xuelong Li

Conference on Robot Learning (CoRL) 2024

PDF Code

Boosting Audio Visual Question Answering via Key Semantic-Aware Cues

Guangyao Li , Henghui Du , Di Hu

ACM Multimedia (ACM MM) 2024

PDF Code

Unveiling and Mitigating Bias in Audio Visual Segmentation

Peiwen Sun , Honggang Zhang , Di Hu

ACM Multimedia (ACM MM) 2024

Oral Presentation

PDF Code

Diagnosing and Re-learning for Balanced Multimodal Learning

Yake Wei , Siwei Li , Ruoxuan Feng , Di Hu

European Conference on Computer Vision (ECCV) 2024

PDF Code

Stepping Stones: A Progressive Training Strategy for Audio-Visual Semantic Segmentation

Juncheng Ma , Peiwen Sun , Yaoting Wang , Di Hu

European Conference on Computer Vision (ECCV) 2024

PDF Project Code

Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes

Yaoting Wang* , Peiwen Sun* , Dongzhan Zhou , Guangyao Li , Honggang Zhang , Di Hu

European Conference on Computer Vision (ECCV) 2024

PDF Project Code

Can Textual Semantics Mitigate Sounding Object SegmentationPreference?

Yaoting Wang* , Peiwen Sun* , Yuanchao Li , Honggang Zhang , Di Hu

European Conference on Computer Vision (ECCV) 2024

PDF Code

Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection

Xincheng Pang , Wenke Xia , Zhigang Wang , Bin Zhao , Di Hu , Dong Wang , Xuelong Li

The 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) 2024

PDF Code

MMPareto: Innocent Uni-modal Assistance for Enhanced Multi-modal Learning

Yake Wei , Di Hu

International Conference on Machine Learning (ICML) 2024

PDF Code

Enhancing Multi-modal Cooperation via Fine-grained Modality Valuation

Yake Wei , Ruoxuan Feng , Zihe Wang , Di Hu

Computer Vision and Pattern Recognition (CVPR) 2024

PDF Code

Quantifying and Enhancing Multi-modal Robustness with Modality Preference

Zequn Yang , Yake Wei , Ce Liang , Di Hu

International Conference on Learning Representations (ICLR) 2024

PDF Code

SphereDiffusion: Spherical Geometry-aware Distortion Resilient Diffusion Model

Tao Wu , Xuewei Li , Zhongang Qi , Di Hu , Xintao Wang , Ying Shan , Xi Li

Association for the Advancement of Artificial Intelligence (AAAI) 2024

PDF

Prompting Segmentation with Sound is Generalizable Audio-Visual Source Localizer

Yaoting Wang* , Weisong Liu* , Guangyao Li , Jian Ding , Di Hu , Xi Li

Association for the Advancement of Artificial Intelligence (AAAI) 2024

PDF Code

Geometric-Inspired Graph-based Incomplete Multi-view Clustering

Zequn Yang , Han Zhang , Yake Wei , Zheng Wang , Feiping Nie , Di Hu

Pattern Recognition (PR) 2024

PDF Code

Kinematic-aware Prompting for Generalizable Articulated Object Manipulation with LLMs

Wenke Xia , Dong Wang , Xincheng Pang , Zhigang Wang , Bin Zhao , Di Hu , Xuelong Li

IEEE International Conference on Robotics and Automation (ICRA) 2024

PDF Code

TikTalk: A Video-Based Dialogue Dataset for Multi-Modal Chitchat in Real World

Hongpeng Lin* , Ludan Ruan* , Wenke Xia* , Peiyu Liu , Jingyuan Wen , Yixin Xu , Di Hu , Ruihua Song , Wayne Xin Zhao , Qin Jin , Zhiwu Lu

ACM Multimedia (ACM MM) 2023

PDF

Progressive Spatio-temporal Perception for Audio-Visual Question Answering

Guangyao Li , Wenxuan Hou , Di Hu

ACM Multimedia (ACM MM) 2023

PDF

Towards Inadequately Pre-trained Models in Transfer Learning

Andong Deng , Xingjian Li , Di Hu , Tianyang Wang , Haoyi Xiong , Chengzhong Xu

International Conference on Computer Vision (ICCV) 2023

PDF

Balanced Audiovisual Dataset for Imbalance Analysis

Wenke Xia* , Xu Zhao* , Xincheng Pang , Changqing Zhang , Di Hu

Computer Vision and Pattern Recognition (CVPR) Workshop 2023

PDF

Towards Long Form Audio-visual Video Understanding

Wenxuan Hou* , Guangyao Li* , Yapeng Tian , Di Hu

arXiv 2306.09431

PDF Code

Multi-Scale Attention for Audio Question Answering

Guangyao Li , Yixin Xu , Di Hu

Interspeech 2023 Oral Presentation

PDF Project Code

Supervised Knowledge May Hurt Novel Class Discovery Performance

ZiYun Li , Jona Otholt , Ben Dai , Di Hu , Christoph Meinel , Haojin Yang

Transactions on Machine Learning Research (TMLR) 2023

PDF

Robust Cross-modal Knowledge Distillation for Unconstrained Videos

Wenke Xia , Xingjian Li , Andong Deng , Haoyi Xiong , Dejing Dou , Di Hu

IEEE International Conference on Multimedia and Expo (ICME) 2023

PDF

Revisiting Pre-training in Audio-Visual Learning

Ruoxuan Feng , Wenke Xia , Di Hu

arXiv 2302.03533

PDF Code

MMCosine: Multi-Modal Cosine Loss Towards Balanced Audio-Visual Fine-Grained Learning

Ruize Xu , Ruoxuan Feng , Shi-xiong Zhang , Di Hu

International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2023

PDF Project Code

Self-supervised Audiovisual Representation Learning for Remote Sensing Data

Konrad Heidler , Lichao Mou , Di Hu , Pu Jin , Guangyao Li , Chuang Gan , Ji-Rong Wen , Xiao Xiang Zhu

International Journal of Applied Earth Observation and Geoinformation (JAG) 2022

PDF Demo

SeCo: Separating Unknown Musical Visual Sounds with Consistency Guidance

Xinchi Zhou , Dongzhan Zhou , Wanli Ouyang , Hang Zhou , Di Hu

IEEE Winter Conference on Application of Computer Vision (WACV) 2022

PDF

Exploiting Visual Context Semantics for Sound Source Localization

Xinchi Zhou , Dongzhan Zhou , Di Hu , Hang Zhou , Wanli Ouyang

IEEE Winter Conference on Application of Computer Vision (WACV) 2022

PDF

Learning in Audio-visual Context: A Review, Analysis, and New Perspective

Yake Wei , Di Hu , Yapeng Tian , Xuelong Li

arXiv 2208.09579

PDF Project

Self-supervised Learning for Heterogeneous Audiovisual Scene Analysis

Di Hu , Zheng Wang , Feiping Nie , Rong Wang , Xuelong Li

IEEE TRANSACTIONS ON MULTIMEDIA (TMM) 2022

PDF

Learning to Answer Questions in Dynamic Audio-Visual Scenarios

Guangyao Li* , Yake Wei* , Yapeng Tian* , Chenliang Xu , Ji-Rong Wen , Di Hu

Computer Vision and Pattern Recognition (CVPR) 2022

Oral Presentation

PDF Project Code

Balanced Multimodal Learning via On-the-fly Gradient Modulation

Xiaokang Peng* , Yake Wei* , Andong Deng , Dong Wang , Di Hu

Computer Vision and Pattern Recognition (CVPR) 2022

Oral Presentation

PDF Code

Not All Knowledge Is Created Equal

Ziyun Li , Xinshao Wang , Haojin Yang , Di Hu , Neil M Robertson , David A Clifton , Christoph Meinel , Haojin Yang

arXiv 2106.01489

PDF

Visual Sound Localization in-the-Wild by Cross-Modal Interference Erasing

Xian Liu , Rui Qian , Hang Zhou , Di Hu , Weiyao Lin , Ziwei Liu , Bolei Zhou , Xiaowei Zhou

Association for the Advancement of Artificial Intelligence (AAAI) 2022

PDF Code

SepFusion: Finding Optimal Fusion Structures for Visual Sound Separation

Dongzhan Zhou , Xinchi Zhou , Di Hu , Hang Zhou , Lei Bai , Ziwei Liu , Wanli Ouyang

Association for the Advancement of Artificial Intelligence (AAAI) 2022

PDF

Class-aware Sounding Objects Localization via Audiovisual Correspondence

Di Hu , Yake Wei , Rui Qian , Weiyao Lin , Ruihua Song , Ji-Rong Wen

Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 2021

PDF Project Code

Cyclic Co-Learning of Sounding Object Visual Grounding and Sound Separation

Yapeng Tian , Di Hu , Chenliang Xu

Computer Vision and Pattern Recognition (CVPR) 2021

PDF Code

Unsupervised Multi-Source Domain Adaptation for Person Re-Identification

Zechen Bai , Zhigang Wang , Jian Wang , Di Hu , Errui Ding

Computer Vision and Pattern Recognition (CVPR) 2021 Oral Presentation

PDF Code

Towards Accurate Knowledge Transfer via Target-awareness Representation Disentanglement

Xingjian Li , Di Hu , Xuhong Li , Haoyi Xiong , Zhi Ye , Zhipeng Wang , Chengzhong Xu , Dejing Dou

arXiv 2010.08532

PDF

Generalising Combinatorial Discriminant Analysis through Conditioning Truncated Rayleigh Flow

Sijia Yang , Haoyi Xiong , Di Hu , Kaibo Xu , Licheng Wang , Peizhen Zhu , Zeyi Sun

Knowledge and Information Systems (KAIS) 2021

PDF

Temporal Relational Modeling with Self-Supervision for Action Segmentation

Dong Wang , Di Hu , Xingjian Li , Dejing Dou

Association for the Advancement of Artificial Intelligence (AAAI) 2021

PDF Code

Discriminative Sounding Objects Localization via Self-supervised Audiovisual Matching

Di Hu , Rui Qian , Minyue Jiang , Xiao Tan , Shilei Wen , Errui Ding , Weiyao Lin , Dejing Dou

Neural Information Processing Systems (NeurIPS) 2020

PDF Demo Code Dataset

Multiple Sound Sources Localization from Coarse to Fine

Rui Qian , Di Hu , Heinrich Dinkel , Mengyue Wu , Ning Xu , Weiyao Lin

European Conference on Computer Vision (ECCV) 2020

PDF Code

Cross-Task Transfer for Geotagged Audiovisual Aerial Scene Recognition

Di Hu , Xuhong Li , Lichao Mou , Pu Jin , Dong Chen , Liping Jing , Xiaoxiang Zhu , Dejing Dou

European Conference on Computer Vision (ECCV) 2020

PDF Code Dataset

Heterogeneous Scene Analysis via Self-supervised Audiovisual Learning

Di Hu , Zheng Wang , Haoyi Xiong , Dong Wang , Feiping Nie , Dejing Dou

Computer Vision and Pattern Recognition (CVPR) Sight and Sound Workshop 2020

PDF Demo Video

Does Ambient Sound Help? - Audiovisual Crowd Counting

Di Hu* , Lichao Mou* , Qingzhong Wang* , Junyu Gao , Yuansheng Hua , Dejing Dou , Xiaoxiang Zhu

Computer Vision and Pattern Recognition (CVPR) Sight and Sound Workshop 2020

PDF Video Code Dataset

Co-Learn Sounding Object Visual Grounding and Visually Indicated Sound Separation in A Cycle

Yapeng Tian* , Di Hu* , Chenliang Xu

Computer Vision and Pattern Recognition (CVPR) Sight and Sound Workshop 2020

PDF Video

Ambient Sound Helps: Audiovisual Crowd Counting in Extreme Conditions

Di Hu* , Lichao Mou* , Qingzhong Wang* , Junyu Gao , Yuansheng Hua , Dejing Dou , Xiao Xiang Zhu

arXiv 2005.07097

PDF Code Dataset

A Two-Stage Framework for Multiple Sound-Source Localization

Rui Qian , Di Hu , Heinrich Dinkel , Mengyue Wu , Ning Xu , Weiyao Lin

Computer Vision and Pattern Recognition (CVPR) Sight and Sound Workshop 2020

PDF Video Code

Curriculum Audiovisual Learning

Di Hu , Zheng Wang , Haoyi Xiong , Dong Wang , Feiping Nie , Dejing Dou

arXiv 2001.09414

PDF

Deep Linear Discriminant Analysis Hashing

Di Hu , Feiping Nie , Xuelong Li

SCIENTIA SINICA Informationis 2019

PDF Code

Discrete Spectral Hashing for Efficient Similarity Retrieval

Di Hu , Feiping Nie , Xuelong Li

IEEE TRANSACTIONS ON IMAGE PROCESSING(TIP) 2019

PDF

Deep Multimodal Clustering for Unsupervised Audiovisual Learning Representation

Di Hu , Feiping Nie , Xuelong Li

Computer Vision and Pattern Recognition (CVPR) 2019

PDF Demo Code

Listen to the Image

Di Hu , Dong Wang , Xuelong Li , Feiping Nie , Qi Wang

Computer Vision and Pattern Recognition (CVPR) 2019

PDF Project Code

Deep Binary Reconstruction for Cross-modal Hashing

Di Hu , Feiping Nie , Xuelong Li

IEEE TRANSACTIONS ON MULTIMEDIA (TMM) 2019

Dense Multimodal Fusion for Hierarchically Joint Representation

Di Hu - Chengze Wang - Feiping Nie - Xuelong Li

International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2019 Lecture Presentation

PDF

Large Graph Hashing with Spectral Rotation

Xuelong Li , Di Hu , Feiping Nie

Association for the Advancement of Artificial Intelligence (AAAI) 2017

PDF Code

Deep Binary Reconstruction for Cross-modal Hashing

Di Hu , Feiping Nie , Xuelong Li

ACM Multimedia (ACM MM) 2017

PDF Code

Image2song: Song Retrieval via Bridging Image Content and Lyric Words

Xuelong Li , Di Hu , Xiaoqiang Lu

International Conference on Computer Vision (ICCV) 2017

PDF Demo Video

Temporal Multimodal Learning in Audiovisual Speech Recognition

Di Hu , Xuelong Li , Xiaoqiang Lu

Computer Vision and Pattern Recognition (CVPR) 2016

PDF

Publications