Spaces:

Ntdeseb
/

ntia

Running

App Files Files Community

Ntdeseb commited on Aug 4

Commit

fff5513

1 Parent(s): b400c3e

Actualizar modelos de video con mejores opciones para ZeroGPU - Agregados modelos populares: Wan2.1-T2V-14B, Mochi-1-preview, HunyuanVideo, CogVideoX-5b, StepVideo T2V - Optimizada carga para modelos grandes

Browse files

Files changed (1) hide show

app.py +66 -29

app.py CHANGED Viewed

@@ -122,18 +122,21 @@ MODELS = {
     },
     "video": {
         # ⚡ Modelos Rápidos (Optimizados para ZeroGPU)
-        "ByteDance/AnimateDiff-Lightning-v1.0": "⚡ AnimateDiff Lightning v1.0 (Más rápido)",
         "cerspense/zeroscope_v2_576w": "⚡ Zeroscope v2 576w (Rápido)",
-        "damo-vilab/text-to-video-ms-1.7b": "⚡ Text-to-Video MS 1.7B (Rápido)",
-        # 🎬 Modelos Estándar
-        "cerspense/zeroscope_v2_XL": "🎬 Zeroscope v2 XL (Alta calidad)",
-        "ali-vilab/text-to-video-ms-1.7b": "🎬 Text-to-Video MS 1.7B Alt",
-        "THUDM/CogVideoX-5b": "🎬 CogVideoX 5B (Alta calidad)",
-        "rain1011/pyramid-flow-sd3": "🎬 Pyramid Flow SD3",
         # 🔄 Modelos Experimentales
-        "ali-vilab/modelscope-damo-text-to-video-synthesis": "🔄 ModelScope Text-to-Video (Experimental)"
     },
     "chat": {
         "microsoft/DialoGPT-medium": "Chat conversacional",
@@ -549,9 +552,9 @@ def load_video_model(model_name):
             # Modelos optimizados para velocidad
             fast_models = [
-                "ByteDance/AnimateDiff-Lightning-v1.0",
                 "cerspense/zeroscope_v2_576w",
-                "damo-vilab/text-to-video-ms-1.7b"
             ]
             # Configuración específica por tipo de modelo
@@ -565,6 +568,39 @@ def load_video_model(model_name):
                 )
                 print("⚡ Cargando AnimateDiff Lightning (modelo rápido)")
             elif "zeroscope" in model_name.lower():
                 # Zeroscope models - Optimizados para velocidad
                 from diffusers import DiffusionPipeline
@@ -585,35 +621,35 @@ def load_video_model(model_name):
                 )
                 print("🎬 Cargando Text-to-Video model")
-            elif "modelscope" in model_name.lower():
-                # ModelScope models
                 from diffusers import DiffusionPipeline
                 pipe = DiffusionPipeline.from_pretrained(
                     model_name,
                     torch_dtype=torch_dtype,
                     variant="fp16" if use_fp16 else None
                 )
-                print("🎬 Cargando ModelScope model")
-            elif "cogvideo" in model_name.lower():
-                # CogVideo models
                 from diffusers import DiffusionPipeline
                 pipe = DiffusionPipeline.from_pretrained(
                     model_name,
                     torch_dtype=torch_dtype,
                     variant="fp16" if use_fp16 else None
                 )
-                print("🎬 Cargando CogVideo model")
-            elif "pyramid-flow" in model_name.lower():
-                # Pyramid Flow models
                 from diffusers import DiffusionPipeline
                 pipe = DiffusionPipeline.from_pretrained(
                     model_name,
                     torch_dtype=torch_dtype,
                     variant="fp16" if use_fp16 else None
                 )
-                print("🎬 Cargando Pyramid Flow model")
             else:
                 # Fallback a text-to-video genérico
@@ -1490,7 +1526,7 @@ with gr.Blocks(title="Modelos Libres de IA", theme=gr.themes.Soft()) as demo:
                 with gr.Column():
                     video_model = gr.Dropdown(
                         choices=list(MODELS["video"].keys()),
-                        value="ByteDance/AnimateDiff-Lightning-v1.0",  # Modelo más rápido por defecto
                         label="Modelo de Video",
                         info="⚡ Modelos marcados son más rápidos"
                     )
@@ -1526,8 +1562,8 @@ with gr.Blocks(title="Modelos Libres de IA", theme=gr.themes.Soft()) as demo:
                 with gr.Column():
                     # Información del modelo
                     video_model_info = gr.Markdown(
-                        value="**Modelo:** ByteDance/AnimateDiff-Lightning-v1.0\n\n"
-                              "⚡ AnimateDiff Lightning v1.0 • Frames recomendados: 8-16 • "
                               "Pasos recomendados: 10-20 • Velocidad: Muy rápida\n\n"
                               "**Estado:** ✅ Disponible • **Optimizado para ZeroGPU**"
                     )
@@ -1555,14 +1591,15 @@ with gr.Blocks(title="Modelos Libres de IA", theme=gr.themes.Soft()) as demo:
             # Función para actualizar info del modelo de video
             def update_video_model_info(model_name):
                 model_descriptions = {
-                    "ByteDance/AnimateDiff-Lightning-v1.0": "⚡ AnimateDiff Lightning v1.0 • Frames recomendados: 8-16 • Pasos recomendados: 10-20 • Velocidad: Muy rápida",
                     "cerspense/zeroscope_v2_576w": "⚡ Zeroscope v2 576w • Frames recomendados: 8-16 • Pasos recomendados: 10-20 • Velocidad: Rápida",
-                    "damo-vilab/text-to-video-ms-1.7b": "⚡ Text-to-Video MS 1.7B • Frames recomendados: 8-16 • Pasos recomendados: 10-20 • Velocidad: Rápida",
-                    "cerspense/zeroscope_v2_XL": "🎬 Zeroscope v2 XL • Frames recomendados: 12-24 • Pasos recomendados: 20-30 • Velocidad: Media",
-                    "ali-vilab/text-to-video-ms-1.7b": "🎬 Text-to-Video MS 1.7B Alt • Frames recomendados: 12-24 • Pasos recomendados: 20-30 • Velocidad: Media",
-                    "THUDM/CogVideoX-5b": "🎬 CogVideoX 5B • Frames recomendados: 16-32 • Pasos recomendados: 25-40 • Velocidad: Lenta",
-                    "rain1011/pyramid-flow-sd3": "🎬 Pyramid Flow SD3 • Frames recomendados: 16-32 • Pasos recomendados: 25-40 • Velocidad: Lenta",
-                    "ali-vilab/modelscope-damo-text-to-video-synthesis": "🔄 ModelScope Text-to-Video • Frames recomendados: 8-16 • Pasos recomendados: 15-25 • Velocidad: Experimental"
                 }
                 description = model_descriptions.get(model_name, "🎬 Modelo • Frames recomendados: 12-24 • Pasos recomendados: 20-30 • Velocidad: Media")

     },
     "video": {
         # ⚡ Modelos Rápidos (Optimizados para ZeroGPU)
+        "ByteDance/AnimateDiff-Lightning": "⚡ AnimateDiff Lightning (Más rápido)",
         "cerspense/zeroscope_v2_576w": "⚡ Zeroscope v2 576w (Rápido)",
+        "ali-vilab/text-to-video-ms-1.7b": "⚡ Text-to-Video MS 1.7B (Rápido)",
+        # 🎬 Modelos Estándar (Balance velocidad/calidad)
+        "zai-org/CogVideoX-5b": "🎬 CogVideoX 5B (Alta calidad)",
+        "rain1011/pyramid-flow-sd3": "🎬 Pyramid Flow SD3 (Experimental)",
+        # 🌟 Modelos de Alta Calidad (Requieren más recursos)
+        "Wan-AI/Wan2.1-T2V-14B": "🌟 Wan2.1 T2V 14B (Máxima calidad)",
+        "genmo/mochi-1-preview": "🌟 Mochi 1 Preview (Alta calidad)",
+        "tencent/HunyuanVideo": "🌟 HunyuanVideo (Alta calidad)",
         # 🔄 Modelos Experimentales
+        "stepfun-ai/stepvideo-t2v": "🔄 StepVideo T2V (Experimental)"
     },
     "chat": {
         "microsoft/DialoGPT-medium": "Chat conversacional",
             # Modelos optimizados para velocidad
             fast_models = [
+                "ByteDance/AnimateDiff-Lightning",
                 "cerspense/zeroscope_v2_576w",
+                "ali-vilab/text-to-video-ms-1.7b"
             ]
             # Configuración específica por tipo de modelo
                 )
                 print("⚡ Cargando AnimateDiff Lightning (modelo rápido)")
+            elif "wan2.1-t2v-14b" in model_name.lower():
+                # Wan2.1 T2V 14B - Modelo grande, usar optimizaciones
+                from diffusers import DiffusionPipeline
+                pipe = DiffusionPipeline.from_pretrained(
+                    model_name,
+                    torch_dtype=torch_dtype,
+                    variant="fp16" if use_fp16 else None,
+                    low_cpu_mem_usage=True
+                )
+                print("🌟 Cargando Wan2.1 T2V 14B (modelo grande)")
+            elif "mochi-1-preview" in model_name.lower():
+                # Mochi 1 Preview - Modelo grande
+                from diffusers import DiffusionPipeline
+                pipe = DiffusionPipeline.from_pretrained(
+                    model_name,
+                    torch_dtype=torch_dtype,
+                    variant="fp16" if use_fp16 else None,
+                    low_cpu_mem_usage=True
+                )
+                print("🌟 Cargando Mochi 1 Preview (modelo grande)")
+            elif "hunyuanvideo" in model_name.lower():
+                # HunyuanVideo - Modelo grande
+                from diffusers import DiffusionPipeline
+                pipe = DiffusionPipeline.from_pretrained(
+                    model_name,
+                    torch_dtype=torch_dtype,
+                    variant="fp16" if use_fp16 else None,
+                    low_cpu_mem_usage=True
+                )
+                print("🌟 Cargando HunyuanVideo (modelo grande)")
             elif "zeroscope" in model_name.lower():
                 # Zeroscope models - Optimizados para velocidad
                 from diffusers import DiffusionPipeline
                 )
                 print("🎬 Cargando Text-to-Video model")
+            elif "cogvideox" in model_name.lower():
+                # CogVideoX models
                 from diffusers import DiffusionPipeline
                 pipe = DiffusionPipeline.from_pretrained(
                     model_name,
                     torch_dtype=torch_dtype,
                     variant="fp16" if use_fp16 else None
                 )
+                print("🎬 Cargando CogVideoX model")
+            elif "pyramid-flow" in model_name.lower():
+                # Pyramid Flow models
                 from diffusers import DiffusionPipeline
                 pipe = DiffusionPipeline.from_pretrained(
                     model_name,
                     torch_dtype=torch_dtype,
                     variant="fp16" if use_fp16 else None
                 )
+                print("🎬 Cargando Pyramid Flow model")
+            elif "stepvideo" in model_name.lower():
+                # StepVideo models
                 from diffusers import DiffusionPipeline
                 pipe = DiffusionPipeline.from_pretrained(
                     model_name,
                     torch_dtype=torch_dtype,
                     variant="fp16" if use_fp16 else None
                 )
+                print("🔄 Cargando StepVideo model (experimental)")
             else:
                 # Fallback a text-to-video genérico
                 with gr.Column():
                     video_model = gr.Dropdown(
                         choices=list(MODELS["video"].keys()),
+                        value="ByteDance/AnimateDiff-Lightning",  # Modelo más rápido por defecto
                         label="Modelo de Video",
                         info="⚡ Modelos marcados son más rápidos"
                     )
                 with gr.Column():
                     # Información del modelo
                     video_model_info = gr.Markdown(
+                        value="**Modelo:** ByteDance/AnimateDiff-Lightning\n\n"
+                              "⚡ AnimateDiff Lightning • Frames recomendados: 8-16 • "
                               "Pasos recomendados: 10-20 • Velocidad: Muy rápida\n\n"
                               "**Estado:** ✅ Disponible • **Optimizado para ZeroGPU**"
                     )
             # Función para actualizar info del modelo de video
             def update_video_model_info(model_name):
                 model_descriptions = {
+                    "ByteDance/AnimateDiff-Lightning": "⚡ AnimateDiff Lightning • Frames recomendados: 8-16 • Pasos recomendados: 10-20 • Velocidad: Muy rápida",
                     "cerspense/zeroscope_v2_576w": "⚡ Zeroscope v2 576w • Frames recomendados: 8-16 • Pasos recomendados: 10-20 • Velocidad: Rápida",
+                    "ali-vilab/text-to-video-ms-1.7b": "⚡ Text-to-Video MS 1.7B • Frames recomendados: 8-16 • Pasos recomendados: 10-20 • Velocidad: Rápida",
+                    "zai-org/CogVideoX-5b": "🎬 CogVideoX 5B • Frames recomendados: 12-24 • Pasos recomendados: 20-30 • Velocidad: Media",
+                    "rain1011/pyramid-flow-sd3": "🎬 Pyramid Flow SD3 • Frames recomendados: 12-24 • Pasos recomendados: 20-30 • Velocidad: Media",
+                    "Wan-AI/Wan2.1-T2V-14B": "🌟 Wan2.1 T2V 14B • Frames recomendados: 16-32 • Pasos recomendados: 25-40 • Velocidad: Lenta",
+                    "genmo/mochi-1-preview": "🌟 Mochi 1 Preview • Frames recomendados: 16-32 • Pasos recomendados: 25-40 • Velocidad: Lenta",
+                    "tencent/HunyuanVideo": "🌟 HunyuanVideo • Frames recomendados: 16-32 • Pasos recomendados: 25-40 • Velocidad: Lenta",
+                    "stepfun-ai/stepvideo-t2v": "🔄 StepVideo T2V • Frames recomendados: 8-16 • Pasos recomendados: 15-25 • Velocidad: Experimental"
                 }
                 description = model_descriptions.get(model_name, "🎬 Modelo • Frames recomendados: 12-24 • Pasos recomendados: 20-30 • Velocidad: Media")