Spaces:

Maximofn
/

GmailOutlookApiKey

Sleeping

App Files Files Community

Maximofn commited on Sep 26

Commit

c42bd73

1 Parent(s): 6cfec6e

Añade soporte para múltiples motores de inferencia en `app.py`, permitiendo la selección entre Gemini y Qwen3-VL. Se implementa la configuración de claves API y la creación de instancias de cliente según el motor seleccionado. Además, se mejora la gestión de errores al verificar la configuración de las claves API, proporcionando mensajes específicos para cada motor. Esta modificación optimiza la flexibilidad y la claridad del código al manejar diferentes proveedores de inferencia.

Browse files

Files changed (1) hide show

app.py +59 -20

app.py CHANGED Viewed

@@ -12,11 +12,24 @@ from langsmith.run_trees import RunTree
 load_dotenv()
 # Configure Gemini via OpenAI-compatible endpoint
 GEMINI_BASE_URL = "https://generativelanguage.googleapis.com/v1beta/openai/"
 GEMINI_MODEL = "gemini-2.5-flash"
-_api_key = os.getenv("GEMINI_API_KEY")
-_client = OpenAI(api_key=_api_key, base_url=GEMINI_BASE_URL) if _api_key else None
 # Optional LangSmith client for guaranteed flush
 _ls_api_key_env = os.getenv("LANGSMITH_API_KEY")
@@ -201,10 +214,18 @@ def respond(message, history: list[tuple[str, str]]):
     user_text, files = _extract_text_and_files(message)
     if not _client:
-        yield (
-            "Gemini API key not configured. Set environment variable GEMINI_API_KEY "
-            "and restart the app."
-        )
         return
     # Build OpenAI-style messages from history
@@ -273,24 +294,42 @@ def respond(message, history: list[tuple[str, str]]):
     try:
         if pipeline:
             try:
-                child_llm = pipeline.create_child(
-                    name="LLMCall",
-                    run_type="llm",
-                    inputs={
-                        "model": GEMINI_MODEL,
-                        "provider": "gemini-openai",
-                        "messages_preview": _preview_text(str(messages[-1]), 600),
-                    },
-                )
                 child_llm.post()
             except Exception:
                 child_llm = None
-        stream = _client.chat.completions.create(
-            model=GEMINI_MODEL,
-            messages=messages,
-            stream=True,
-        )
         accumulated = ""
         for chunk in stream:

 load_dotenv()
+INFERENCE_GEMINI = "Gemini"
+INFERENCE_QWEN3_VL = "Qwen3-VL"
+INFERENCE = INFERENCE_GEMINI
 # Configure Gemini via OpenAI-compatible endpoint
 GEMINI_BASE_URL = "https://generativelanguage.googleapis.com/v1beta/openai/"
 GEMINI_MODEL = "gemini-2.5-flash"
+# Configure Qwen3-VL via OpenAI-compatible endpoint
+QWEN3_VL_BASE_URL = "https://router.huggingface.co/v1"
+QWEN3_VL_MODEL = "Qwen/Qwen3-VL-235B-A22B-Thinking:novita"
+if INFERENCE == INFERENCE_GEMINI:
+    _api_key = os.getenv("GEMINI_API_KEY")
+    _client = OpenAI(api_key=_api_key, base_url=GEMINI_BASE_URL) if _api_key else None
+elif INFERENCE == INFERENCE_QWEN3_VL:
+    _api_key = os.getenv("HUGGINGFACE_INFERENCE_PROVIDERS_API_KEY")
+    _client = OpenAI(api_key=_api_key, base_url=QWEN3_VL_BASE_URL) if _api_key else None
 # Optional LangSmith client for guaranteed flush
 _ls_api_key_env = os.getenv("LANGSMITH_API_KEY")
     user_text, files = _extract_text_and_files(message)
     if not _client:
+        if INFERENCE == INFERENCE_GEMINI:
+            yield (
+                "Gemini API key not configured. Set environment variable GEMINI_API_KEY "
+                "and restart the app."
+            )
+        elif INFERENCE == INFERENCE_QWEN3_VL:
+            yield (
+                "Qwen3-VL API key not configured. Set environment variable QWEN3_VL_API_KEY "
+                "and restart the app."
+            )
+        else:
+            yield "Inference engine not configured. Set environment variable INFERENCE to 'Gemini' or 'Qwen3-VL' and restart the app."
         return
     # Build OpenAI-style messages from history
     try:
         if pipeline:
             try:
+                if INFERENCE == INFERENCE_GEMINI:
+                    child_llm = pipeline.create_child(
+                        name="LLMCall",
+                        run_type="llm",
+                        inputs={
+                            "model": GEMINI_MODEL,
+                            "provider": "gemini-openai",
+                            "messages_preview": _preview_text(str(messages[-1]), 600),
+                        },
+                    )
+                elif INFERENCE == INFERENCE_QWEN3_VL:
+                    child_llm = pipeline.create_child(
+                        name="LLMCall",
+                        run_type="llm",
+                        inputs={
+                            "model": QWEN3_VL_MODEL,
+                            "provider": "qwen3-vl-openai",
+                            "messages_preview": _preview_text(str(messages[-1]), 600),
+                        },
+                    )
                 child_llm.post()
             except Exception:
                 child_llm = None
+        if INFERENCE == INFERENCE_GEMINI:
+            stream = _client.chat.completions.create(
+                model=GEMINI_MODEL,
+                messages=messages,
+                stream=True,
+            )
+        elif INFERENCE == INFERENCE_QWEN3_VL:
+            stream = _client.chat.completions.create(
+                model=QWEN3_VL_MODEL,
+                messages=messages,
+                stream=True,
+            )
         accumulated = ""
         for chunk in stream: