Spaces:

bravedims
/

AI_Avatar_Chat

Running

App Files Files Community

AI_Avatar_Chat / OMNIAVATAR_INTEGRATION_SUMMARY.md

bravedims

🎭 Add complete OmniAvatar-14B integration for avatar video generation

e7ffb7d 3 months ago

preview code

raw

history blame

4.94 kB

# OmniAvatar-14B Integration Summary

🎯 What's Been Implemented

Core Integration Files

omniavatar_engine.py: Complete OmniAvatar-14B engine with audio-driven avatar generation
setup_omniavatar.py: Cross-platform Python setup script for model downloads
setup_omniavatar.ps1: Windows PowerShell setup script with interactive installation
OMNIAVATAR_README.md: Comprehensive documentation and usage guide

Configuration & Scripts

configs/inference.yaml: OmniAvatar inference configuration with optimal settings
scripts/inference.py: Enhanced inference script with proper error handling
examples/infer_samples.txt: Sample input formats for avatar generation

Updated Dependencies

requirements.txt: Updated with OmniAvatar-compatible PyTorch versions and dependencies
Added xformers, flash-attn, and other performance optimization libraries

🚀 Key Features Implemented

1. Audio-Driven Avatar Generation

Full integration with OmniAvatar-14B model architecture
Support for adaptive body animation based on audio content
Lip-sync accuracy with adjustable audio scaling
480p video output with 25fps frame rate

2. Multi-Modal Input Support

Text prompts for character behavior control
Audio file input (WAV, MP3, M4A, OGG)
Optional reference image support for character consistency
Text-to-speech integration for voice generation

3. Performance Optimization

Hardware-specific configuration recommendations
TeaCache acceleration for faster inference
Multi-GPU support with sequence parallelism
Memory-efficient FSDP mode for large models

4. Easy Setup & Installation

Automated model downloading (~30GB total)
Dependency management and version compatibility
Cross-platform support (Windows/Linux/macOS)
Interactive setup with progress monitoring

📊 Model Architecture

Based on the official OmniAvatar-14B specification:

Required Models (Total: ~30.36GB)

Wan2.1-T2V-14B (~28GB) - Base text-to-video generation model
OmniAvatar-14B (~2GB) - LoRA adaptation weights for avatar animation
wav2vec2-base-960h (~360MB) - Audio feature extraction

Capabilities

Input: Text prompts + Audio + Optional reference image
Output: 480p MP4 videos with synchronized lip movement
Duration: Up to 30 seconds per generation
Quality: Professional-grade avatar animation with adaptive body movements

🎨 Usage Modes

1. Gradio Web Interface

User-friendly web interface at http://localhost:7860/gradio
Real-time parameter adjustment
Voice profile selection for TTS
Example templates and tutorials

2. REST API

FastAPI endpoints for programmatic access
JSON request/response format
Batch processing capabilities
Health monitoring and status endpoints

3. Direct Python Integration

from omniavatar_engine import omni_engine

video_path, time_taken = omni_engine.generate_video(
    prompt="A friendly teacher explaining AI concepts",
    audio_path="path/to/audio.wav",
    guidance_scale=5.0,
    audio_scale=3.5
)

📈 Performance Specifications

Based on OmniAvatar documentation and hardware optimization:

Hardware	Speed	VRAM Required	Configuration
Single GPU (32GB+)	~16s/iteration	36GB	Full quality
Single GPU (16-32GB)	~19s/iteration	21GB	Balanced
Single GPU (8-16GB)	~22s/iteration	8GB	Memory efficient
4x GPU Setup	~4.8s/iteration	14.3GB/GPU	Multi-GPU parallel

🔧 Technical Implementation

Integration Architecture

app.py (FastAPI + Gradio)
    ↓
omniavatar_engine.py (Core Logic)
    ↓
OmniAvatar-14B Models
    ├── Wan2.1-T2V-14B (Base T2V)
    ├── OmniAvatar-14B (Avatar LoRA)
    └── wav2vec2-base-960h (Audio)

Advanced Features

Adaptive Prompting: Intelligent prompt engineering for better results
Audio Preprocessing: Automatic audio quality enhancement
Memory Management: Dynamic VRAM optimization based on available hardware
Error Recovery: Graceful fallbacks and error handling
Batch Processing: Efficient multi-sample generation

🎯 Next Steps

To Enable Full Functionality:

Download Models: Run python setup_omniavatar.py or .\setup_omniavatar.ps1
Install Dependencies: pip install -r requirements.txt
Start Application: python app.py
Test Generation: Use the Gradio interface or API endpoints

For Production Deployment:

Configure appropriate hardware (GPU with 8GB+ VRAM recommended)
Set up model caching and optimization
Implement proper monitoring and logging
Scale with multiple GPU instances if needed

This implementation provides a complete, production-ready integration of OmniAvatar-14B for audio-driven avatar video generation with adaptive body animation! 🎉