Cal-AI

Build error

App Files Files Community

Adanbalf commited on 29 days ago

Commit

c3fead6

verified ·

1 Parent(s): b5ead13

Update app.py

Browse files

Files changed (1) hide show

app.py +91 -131

app.py CHANGED Viewed

@@ -1,143 +1,103 @@
-import base64
-import mimetypes
 import os
-from pathlib import Path
-from typing import Any, Dict, List
 import gradio as gr
-from openai import OpenAI
-# Modelo por defecto
-DEFAULT_MODEL = "LLaVA-OneVision-1.5-8B-Instruct"
-# Cliente OpenAI-compatible (usa el endpoint de Hugging Face o el tuyo)
-_client = OpenAI(
-    base_url=os.getenv("BASE_URL", ""),
-    api_key=os.getenv("API_KEY", ""),
-)
-def _data_url(path: str) -> str:
-    mime, _ = mimetypes.guess_type(path)
-    mime = mime or "application/octet-stream"
-    data = base64.b64encode(Path(path).read_bytes()).decode("utf-8")
-    return f"data:{mime};base64,{data}"
-def _image_content(path: str) -> Dict[str, Any]:
-    return {"type": "image_url", "image_url": {"url": _data_url(path)}}
-def _text_content(text: str) -> Dict[str, Any]:
-    return {"type": "text", "text": text}
-def _message(role: str, content: Any) -> Dict[str, Any]:
-    return {"role": role, "content": content}
-def _build_user_message(message: Dict[str, Any]) -> Dict[str, Any]:
-    files = message.get("files") or []
-    text = (message.get("text") or "").strip()
-    # 🔹 Si no hay texto, añadimos un prompt nutricional por defecto
-    if not text:
-        text = (
-            "Analiza la imagen del plato de comida y describe los alimentos que contiene. "
-            "Indica una estimación de calorías, proteínas, carbohidratos y grasas. "
-            "Responde en formato breve y estructurado."
         )
-    content: List[Dict[str, Any]] = [_image_content(p) for p in files]
-    if text:
-        content.append(_text_content(text))
-    return _message("user", content)
-def _convert_history(history: List[Dict[str, Any]]) -> List[Dict[str, Any]]:
-    msgs: List[Dict[str, Any]] = []
-    user_content: List[Dict[str, Any]] = []
-    for turn in history or []:
-        role, content = turn.get("role"), turn.get("content")
-        if role == "user":
-            if isinstance(content, str):
-                user_content.append(_text_content(content))
-            elif isinstance(content, tuple):
-                user_content.extend(_image_content(path) for path in content if path)
-        elif role == "assistant":
-            msgs.append(_message("user", user_content.copy()))
-            user_content.clear()
-            msgs.append(_message("assistant", content))
-    return msgs
-def stream_response(message: Dict[str, Any], history: List[Dict[str, Any]], model_name: str = DEFAULT_MODEL):
-    messages = _convert_history(history)
-    messages.append(_build_user_message(message))
     try:
-        stream = _client.chat.completions.create(
-            model=model_name,
-            messages=messages,
-            temperature=0.1,
-            top_p=1,
-            extra_body={
-                "repetition_penalty": 1.05,
-                "frequency_penalty": 0,
-                "presence_penalty": 0
-            },
-            stream=True
-        )
-        partial = ""
-        for chunk in stream:
-            delta = chunk.choices[0].delta.content
-            if delta:
-                partial += delta
-                yield partial
-    except Exception as e:
-        yield f"⚠️ Error al obtener respuesta: {e}"
-def build_demo() -> gr.Blocks:
-    chatbot = gr.Chatbot(type="messages", allow_tags=["think"])
-    textbox = gr.MultimodalTextbox(
-        show_label=False,
-        placeholder="Subí una foto de tu comida para analizarla...",
-        file_types=["image"],
-        file_count="single",
-        max_plain_text_length=32768
-    )
-    model_selector = gr.Dropdown(
-        label="Modelo",
-        choices=[
-            ("LLaVA-OneVision-1.5-8B-Instruct", "LLaVA-OneVision-1.5-8B-Instruct"),
-            ("LLaVA-OneVision-1.5-4B-Instruct", "LLaVA-OneVision-1.5-4B-Instruct"),
-        ],
-        value=DEFAULT_MODEL,
-    )
-    return gr.ChatInterface(
-        fn=stream_response,
-        type="messages",
-        multimodal=True,
-        chatbot=chatbot,
-        textbox=textbox,
-        title="🍽️ NasFit Vision AI",
-        description=(
-            "Subí una foto de tu comida y NasFit IA estimará su contenido nutricional. "
-            "Basado en **LLaVA-OneVision-1.5**, modelo multimodal open source con análisis visual avanzado. "
-            "Ideal para tracking nutricional inteligente."
-        ),
-        additional_inputs=[model_selector],
-        additional_inputs_accordion=gr.Accordion("Opciones avanzadas", open=False),
-    ).queue(default_concurrency_limit=8)
-def main():
-    build_demo().launch()
 if __name__ == "__main__":
-    main()

 import os
 import gradio as gr
+import torch
+from PIL import Image
+from transformers import AutoProcessor, AutoModelForVision2Seq
+import requests
+# Configuración
+LOCAL_MODEL_ID = "lmms-lab/llava-onevision-1.5-8b-instruct"
+API_MODEL_ID = "lmms-lab/llava-onevision-1.5-8b-instruct"
+HF_API_URL = f"https://api-inference.huggingface.co/models/{API_MODEL_ID}"
+HF_API_KEY = os.getenv("API_KEY")
+# Inicializa modelo local (si hay GPU)
+model, processor = None, None
+use_local = False
+try:
+    print("⏳ Intentando cargar modelo local...")
+    processor = AutoProcessor.from_pretrained(LOCAL_MODEL_ID)
+    model = AutoModelForVision2Seq.from_pretrained(
+        LOCAL_MODEL_ID,
+        torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
+        device_map="auto"
+    )
+    use_local = True
+    print("✅ Modelo local cargado correctamente.")
+except Exception as e:
+    print(f"⚠️ No se pudo cargar el modelo local: {e}")
+    print("➡️ Se usará la API de Hugging Face para inferencia remota.")
+# Función principal
+def analyze_food(image, text_prompt=""):
+    if image is None:
+        return "Por favor, subí una imagen del plato."
+    if not text_prompt.strip():
+        text_prompt = (
+            "Analiza esta comida. Describe los alimentos, "
+            "y estima las calorías, proteínas, carbohidratos y grasas totales."
         )
     try:
+        if use_local:
+            # Procesamiento local
+            inputs = processor(text=text_prompt, images=image, return_tensors="pt").to(model.device)
+            output = model.generate(**inputs, max_new_tokens=300)
+            answer = processor.decode(output[0], skip_special_tokens=True)
+            return answer
+        else:
+            # Fallback: usar API de Hugging Face
+            headers = {"Authorization": f"Bearer {HF_API_KEY}"}
+            data = {
+                "inputs": {"image": image, "text": text_prompt},
+                "parameters": {"max_new_tokens": 300},
+            }
+            response = requests.post(HF_API_URL, headers=headers, json=data)
+            if response.status_code != 200:
+                return f"❌ Error remoto ({response.status_code}): {response.text}"
+            result = response.json()
+            if isinstance(result, dict) and "error" in result:
+                return f"⚠️ Error remoto: {result['error']}"
+            return str(result)
+    except Exception as e:
+        return f"⚠️ Ocurrió un error al procesar la imagen: {e}"
+# Interfaz Gradio
+def build_interface():
+    with gr.Blocks() as demo:
+        gr.Markdown(
+            """
+            # 🍽️ NasFit Vision AI
+            Subí una foto de tu comida y NasFit IA estimará su contenido nutricional.
+            Basado en **LLaVA-OneVision-1.5**, modelo multimodal open source con análisis visual avanzado.
+            *(El sistema usa GPU local si está disponible, o la API de Hugging Face si no lo está.)*
+            """
+        )
+        with gr.Row():
+            with gr.Column(scale=1):
+                image_input = gr.Image(label="📸 Imagen del plato", type="pil")
+                text_input = gr.Textbox(
+                    label="💬 Instrucción (opcional)",
+                    placeholder="Ejemplo: Cuántas proteínas tiene este plato?",
+                )
+                analyze_btn = gr.Button("🔍 Analizar comida")
+            with gr.Column(scale=1):
+                output_text = gr.Textbox(
+                    label="🧠 Resultado del análisis",
+                    placeholder="Aquí aparecerá la descripción nutricional...",
+                    lines=8
+                )
+        analyze_btn.click(fn=analyze_food, inputs=[image_input, text_input], outputs=output_text)
+    return demo
 if __name__ == "__main__":
+    demo = build_interface()
+    demo.launch()