arxiv:2503.23377

JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

Published on Mar 30

· Submitted by

Hao Fei on Apr 4

Upvote

Authors:

Kai Liu ,

Shengqiong Wu ,

Hao Fei ,

Abstract

JavisDiT, a Joint Audio-Video Diffusion Transformer, generates high-quality synchronized audio-video content using a Hierarchical Spatial-Temporal Synchronized Prior Estimator, excelling in a new benchmark with a robust synchronization metric.

AI-generated summary

This paper introduces JavisDiT, a novel Joint Audio-Video Diffusion Transformer designed for synchronized audio-video generation (JAVG). Built upon the powerful Diffusion Transformer (DiT) architecture, JavisDiT is able to generate high-quality audio and video content simultaneously from open-ended user prompts. To ensure optimal synchronization, we introduce a fine-grained spatio-temporal alignment mechanism through a Hierarchical Spatial-Temporal Synchronized Prior (HiST-Sypo) Estimator. This module extracts both global and fine-grained spatio-temporal priors, guiding the synchronization between the visual and auditory components. Furthermore, we propose a new benchmark, JavisBench, consisting of 10,140 high-quality text-captioned sounding videos spanning diverse scenes and complex real-world scenarios. Further, we specifically devise a robust metric for evaluating the synchronization between generated audio-video pairs in real-world complex content. Experimental results demonstrate that JavisDiT significantly outperforms existing methods by ensuring both high-quality generation and precise synchronization, setting a new standard for JAVG tasks. Our code, model, and dataset will be made publicly available at https://javisdit.github.io/.

View arXiv page View PDF Project page GitHub 285 Add to collection

Community

scofield7419

Paper author Paper submitter Apr 4

•

edited Apr 8

🔥🔥🔥 JavisDiT

🌟 We introduce JavisDiT, a novel & SoTA Joint Audio-Video Diffusion Transformer designed for synchronized audio-video generation (JAVG) from open-ended user prompts.

🤠 We contribute JavisBench, a new large-scale JAVG benchmark dataset with challenging scenarios, along with robust metrics to evaluate audio-video synchronization.

📝 Paper: https://arxiv.org/abs/2503.23377
🎉 Project: https://javisdit.github.io/
✨ Code: https://github.com/JavisDiT/JavisDiT