Spaces:

ALVHB95
/

TFM_DataScience_APP

Running

App Files Files Community

ALVHB95 commited on about 1 month ago

Commit

77dfcc0

1 Parent(s): b745bb1

new model

Browse files

Files changed (1) hide show

app.py +58 -91

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 """
 =========================================================
- app.py — Green Greta (Gradio + TF/Keras 3 + Local HF + LangChain v0.2/0.3)
 =========================================================
 """
@@ -8,13 +8,15 @@ import os
 import json
 import shutil
-# --- Ajustes de entorno / telemetría (antes de importar Chroma) ---
 os.environ.setdefault("TOKENIZERS_PARALLELISM", "false")
 os.environ.setdefault("HF_HUB_DISABLE_TELEMETRY", "1")
 os.environ.setdefault("GRADIO_ANALYTICS_ENABLED", "False")
 os.environ.setdefault("ANONYMIZED_TELEMETRY", "false")
-# Silenciar telemetría de Chroma para evitar warnings/tracebacks ruidosos
 os.environ.setdefault("CHROMA_TELEMETRY_ENABLED", "FALSE")
 import gradio as gr
 import tensorflow as tf
@@ -29,38 +31,32 @@ except Exception:
     user_agent = "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36"
 header_template = {"User-Agent": user_agent}
-# --- LangChain v0.2/0.3 family ---
 from langchain_text_splitters import RecursiveCharacterTextSplitter
 from langchain_core.prompts import ChatPromptTemplate
-from langchain_core.output_parsers import PydanticOutputParser
 from langchain.chains import ConversationalRetrievalChain
 from langchain.memory import ConversationBufferMemory
 from langchain_community.document_loaders import WebBaseLoader
 from langchain_community.vectorstores import Chroma
-# Embeddings (prefer langchain-huggingface si está instal., si no community)
 try:
     from langchain_huggingface import HuggingFaceEmbeddings  # pip install -U langchain-huggingface
 except ImportError:
     from langchain_community.embeddings import HuggingFaceEmbeddings
-# Context compression / retrievers
-from langchain.retrievers import ContextualCompressionRetriever
-from langchain.retrievers.document_compressors import DocumentCompressorPipeline
-# --- Retrievers avanzados / reranker ---
 from langchain_community.retrievers import BM25Retriever
-from langchain.retrievers import EnsembleRetriever
-from langchain.retrievers.multi_query import MultiQueryRetriever
 from langchain_community.cross_encoders import HuggingFaceCrossEncoder
-from langchain.retrievers.document_compressors import CrossEncoderReranker
-from pydantic import BaseModel, Field  # Pydantic v2
-# HF Hub para descargar el SavedModel de imagen
 from huggingface_hub import snapshot_download
-# === LLM endpoint moderno (langchain-huggingface) ===
 from langchain_huggingface import ChatHuggingFace, HuggingFaceEndpoint
 # Theming + URL list
@@ -72,27 +68,21 @@ theme = theme.Theme()
 # 1) IMAGE CLASSIFICATION — Keras 3-safe SavedModel loading
 # =========================================================
 MODEL_REPO = "rocioadlc/efficientnetB0_trash"
-MODEL_SERVING_SIGNATURE = "serving_default"  # ajusta si el modelo expone otra firma
-# Descarga el snapshot y envuélvelo con TFSMLayer (compatible Keras 3)
 model_dir = snapshot_download(MODEL_REPO)
 image_model = keras.layers.TFSMLayer(model_dir, call_endpoint=MODEL_SERVING_SIGNATURE)
 class_labels = ["cardboard", "glass", "metal", "paper", "plastic", "trash"]
 def predict_image(input_image: Image.Image):
-    """Preprocesa a EfficientNetB0 (224x224) y ejecuta inferencia."""
     img = input_image.convert("RGB").resize((224, 224))
     x = tf.keras.preprocessing.image.img_to_array(img)
     x = tf.keras.applications.efficientnet.preprocess_input(x)
     x = tf.expand_dims(x, 0)
     outputs = image_model(x)
-    if isinstance(outputs, dict) and outputs:
-        preds = outputs[next(iter(outputs))]
-    else:
-        preds = outputs
     arr = preds.numpy() if hasattr(preds, "numpy") else preds
     probs = arr[0].tolist()
     return {label: float(probs[i]) for i, label in enumerate(class_labels)}
@@ -126,7 +116,6 @@ def safe_load_all_urls(urls):
 all_loaded_docs = safe_load_all_urls(URLS)
-# Chunks algo más largos (mejor para reranker)
 base_splitter = RecursiveCharacterTextSplitter(
     chunk_size=900,
     chunk_overlap=100,
@@ -134,7 +123,7 @@ base_splitter = RecursiveCharacterTextSplitter(
 )
 docs = base_splitter.split_documents(all_loaded_docs)
-# Embeddings MEJORADOS (recuperación)
 embeddings = HuggingFaceEmbeddings(model_name="intfloat/e5-base-v2")
 # Vector store
@@ -146,22 +135,28 @@ vectordb = Chroma.from_documents(
     persist_directory=persist_directory,
 )
-# Base retriever (vectorial)
 vec_retriever = vectordb.as_retriever(search_kwargs={"k": 8}, search_type="mmr")
-# BM25 + Ensemble (híbrido)
-bm25 = BM25Retriever.from_documents(docs)
-bm25.k = 8
-hybrid_retriever = EnsembleRetriever(retrievers=[bm25, vec_retriever], weights=[0.4, 0.6])
-# --- Multi-Query (paráfrasis de la consulta) ---
-# Se apoya en el propio LLM para generar variantes y subir recall
-# (lo definimos después de crear el LLM, ver sección 4)
-# --- Compresión / split fino para compresor downstream ---
 try:
     from langchain_text_splitters import TokenTextSplitter
-    splitter_for_compression = TokenTextSplitter(chunk_size=220, chunk_overlap=30)  # requiere tiktoken
 except Exception:
     from langchain_text_splitters import RecursiveCharacterTextSplitter as FallbackSplitter
     splitter_for_compression = FallbackSplitter(chunk_size=300, chunk_overlap=50)
@@ -169,34 +164,24 @@ except Exception:
 compressor_pipeline = DocumentCompressorPipeline(transformers=[splitter_for_compression])
 # ======================================
-# 3) PROMPT & Pydantic schema parsing
 # ======================================
-class FinalAnswer(BaseModel):
-    question: str = Field(description="User question")
-    answer: str = Field(description="Direct answer")
-parser = PydanticOutputParser(pydantic_object=FinalAnswer)
 SYSTEM_TEMPLATE = (
     "Eres Greta, una asistente bilingüe (ES/EN) experta en reciclaje y sostenibilidad. "
-    "Responde de forma directa, útil y en el idioma del usuario. "
-    "Si la respuesta no aparece en los fragmentos, dilo explícitamente y ofrece pasos prácticos. "
-    "No inventes datos.\n\n"
-    "Fragmentos:\n{context}\n\n"
-    "Pregunta: {question}\n"
-    "{format_instructions}"
-)
-qa_prompt = ChatPromptTemplate.from_template(SYSTEM_TEMPLATE).partial(
-    format_instructions=parser.get_format_instructions()
 )
 # ===========================================
 # 4) LLM — Hugging Face Inference (Llama 3.1 8B)
 # ===========================================
 endpoint = HuggingFaceEndpoint(
     repo_id="meta-llama/Meta-Llama-3.1-8B-Instruct",
-    task="text-generation",          # estable para chat via HF Inference
     max_new_tokens=900,
     temperature=0.2,
     top_k=40,
@@ -206,28 +191,23 @@ endpoint = HuggingFaceEndpoint(
     timeout=120,
     model_kwargs={},
 )
-# OJO: usar llm= (no client=)
 llm = ChatHuggingFace(llm=endpoint)
 # ===========================================
-# 5) Chain (memory + RAG mejorado + robust JSON)
 # ===========================================
-# Memoria (aviso deprec., pero funcional en LC 0.3)
 memory = ConversationBufferMemory(
     memory_key="chat_history",
     return_messages=True,
 )
-# Multi-Query sobre el retriever híbrido
-mqr = MultiQueryRetriever.from_llm(retriever=hybrid_retriever, llm=llm, include_original=True)
-# Reranker más ligero (reduce coste latencia)
 cross_encoder = HuggingFaceCrossEncoder(model_name="BAAI/bge-reranker-base")
 reranker = CrossEncoderReranker(model=cross_encoder, top_n=4)
-# Compresor contextual (híbrido + multi-query → rerank → compresión fina)
 compression_retriever = ContextualCompressionRetriever(
     base_retriever=mqr,
     base_compressor=reranker,
@@ -241,29 +221,19 @@ qa_chain = ConversationalRetrievalChain.from_llm(
     combine_docs_chain_kwargs={"prompt": qa_prompt},
     get_chat_history=lambda h: h,
     rephrase_question=False,
-    output_key="output",
 )
-def _safe_json_extract(raw: str, question: str) -> dict:
-    """Intenta JSON estricto; si falla, extrae el primer {...}; si no, texto plano."""
-    raw = (raw or "").strip()
-    try:
-        return json.loads(raw)
-    except json.JSONDecodeError:
-        start = raw.find("{")
-        end = raw.rfind("}")
-        if start != -1 and end != -1 and end > start:
-            try:
-                return json.loads(raw[start : end + 1])
-            except json.JSONDecodeError:
-                pass
-    return {"question": question, "answer": raw or "No answer produced."}
 def chat_interface(question, history):
     try:
         result = qa_chain.invoke({"question": question})
-        payload = _safe_json_extract(result.get("output", ""), question)
-        return payload.get("answer", "")
     except Exception as e:
         return (
             "Lo siento, tuve un problema procesando tu pregunta. "
@@ -300,13 +270,10 @@ banner_tab = gr.Markdown(banner_tab_content)
 # ============================
 # 7) Gradio app (tabs + run)
 # ============================
-# CSS simple para “ampliar visualmente” el área del chat sin usar height=
 custom_css = """
-/* Aumenta altura mínima del contenedor de mensajes del chatbot */
-.gr-chatbot { min-height: 520px !important; }
-.gr-chatbot > div { min-height: 520px !important; }
-/* Un poco más de ancho general */
 .gradio-container { max-width: 1200px !important; }
 """
@@ -320,7 +287,7 @@ app = gr.TabbedInterface(
     [banner_tab, image_gradio_app, chatbot_gradio_app],
     tab_names=["Welcome to Green Greta", "Green Greta Image Classification", "Green Greta Chat"],
     theme=theme,
-    css=custom_css,  # aplica CSS globalmente a las pestañas
 )
 app.queue()

 """
 =========================================================
+ app.py — Green Greta (Gradio + TF/Keras 3 + LangChain 0.3)
 =========================================================
 """
 import json
 import shutil
+# --- Env / telemetry (set before imports that use them) ---
 os.environ.setdefault("TOKENIZERS_PARALLELISM", "false")
 os.environ.setdefault("HF_HUB_DISABLE_TELEMETRY", "1")
 os.environ.setdefault("GRADIO_ANALYTICS_ENABLED", "False")
 os.environ.setdefault("ANONYMIZED_TELEMETRY", "false")
 os.environ.setdefault("CHROMA_TELEMETRY_ENABLED", "FALSE")
+os.environ.setdefault("USER_AGENT", "green-greta/1.0 (+contact-or-repo)")
+# If you want deterministic CPU math from TF (optional):
+# os.environ.setdefault("TF_ENABLE_ONEDNN_OPTS", "0")
 import gradio as gr
 import tensorflow as tf
     user_agent = "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36"
 header_template = {"User-Agent": user_agent}
+# --- LangChain core ---
 from langchain_text_splitters import RecursiveCharacterTextSplitter
 from langchain_core.prompts import ChatPromptTemplate
 from langchain.chains import ConversationalRetrievalChain
 from langchain.memory import ConversationBufferMemory
 from langchain_community.document_loaders import WebBaseLoader
 from langchain_community.vectorstores import Chroma
+# Embeddings
 try:
     from langchain_huggingface import HuggingFaceEmbeddings  # pip install -U langchain-huggingface
 except ImportError:
     from langchain_community.embeddings import HuggingFaceEmbeddings
+# Retrieval utilities
+from langchain.retrievers import ContextualCompressionRetriever, EnsembleRetriever
+from langchain.retrievers.document_compressors import DocumentCompressorPipeline, CrossEncoderReranker
+from langchain.retrievers.multi_query import MultiQueryRetriever
 from langchain_community.retrievers import BM25Retriever
 from langchain_community.cross_encoders import HuggingFaceCrossEncoder
+# HF Hub for SavedModel
 from huggingface_hub import snapshot_download
+# LLM via HF Inference
 from langchain_huggingface import ChatHuggingFace, HuggingFaceEndpoint
 # Theming + URL list
 # 1) IMAGE CLASSIFICATION — Keras 3-safe SavedModel loading
 # =========================================================
 MODEL_REPO = "rocioadlc/efficientnetB0_trash"
+MODEL_SERVING_SIGNATURE = "serving_default"
 model_dir = snapshot_download(MODEL_REPO)
 image_model = keras.layers.TFSMLayer(model_dir, call_endpoint=MODEL_SERVING_SIGNATURE)
 class_labels = ["cardboard", "glass", "metal", "paper", "plastic", "trash"]
 def predict_image(input_image: Image.Image):
     img = input_image.convert("RGB").resize((224, 224))
     x = tf.keras.preprocessing.image.img_to_array(img)
     x = tf.keras.applications.efficientnet.preprocess_input(x)
     x = tf.expand_dims(x, 0)
     outputs = image_model(x)
+    preds = outputs[next(iter(outputs))] if isinstance(outputs, dict) and outputs else outputs
     arr = preds.numpy() if hasattr(preds, "numpy") else preds
     probs = arr[0].tolist()
     return {label: float(probs[i]) for i, label in enumerate(class_labels)}
 all_loaded_docs = safe_load_all_urls(URLS)
 base_splitter = RecursiveCharacterTextSplitter(
     chunk_size=900,
     chunk_overlap=100,
 )
 docs = base_splitter.split_documents(all_loaded_docs)
+# Embeddings (better recall)
 embeddings = HuggingFaceEmbeddings(model_name="intfloat/e5-base-v2")
 # Vector store
     persist_directory=persist_directory,
 )
+# Vector retriever
 vec_retriever = vectordb.as_retriever(search_kwargs={"k": 8}, search_type="mmr")
+# BM25 + Ensemble with safe fallback if rank-bm25 isn't installed
+use_bm25 = True
+try:
+    bm25 = BM25Retriever.from_documents(docs)  # requires rank-bm25
+    bm25.k = 8
+except Exception as e:
+    print(f"[RAG] BM25 unavailable ({e}). Falling back to vector-only retriever.")
+    use_bm25 = False
+    bm25 = None
+if use_bm25:
+    base_retriever = EnsembleRetriever(retrievers=[bm25, vec_retriever], weights=[0.4, 0.6])
+else:
+    base_retriever = vec_retriever
+# Fine-grained compressor (splitter)
 try:
     from langchain_text_splitters import TokenTextSplitter
+    splitter_for_compression = TokenTextSplitter(chunk_size=220, chunk_overlap=30)  # needs tiktoken
 except Exception:
     from langchain_text_splitters import RecursiveCharacterTextSplitter as FallbackSplitter
     splitter_for_compression = FallbackSplitter(chunk_size=300, chunk_overlap=50)
 compressor_pipeline = DocumentCompressorPipeline(transformers=[splitter_for_compression])
 # ======================================
+# 3) PROMPT (NO JSON INSTRUCTIONS)
 # ======================================
 SYSTEM_TEMPLATE = (
     "Eres Greta, una asistente bilingüe (ES/EN) experta en reciclaje y sostenibilidad. "
+    "Responde en el idioma del usuario, de forma directa, práctica y basada en los fragmentos. "
+    "Si la información no está en los fragmentos, dilo claramente y sugiere pasos útiles. "
+    "No inventes datos ni menciones la palabra 'fragmentos'.\n\n"
+    "{context}\n\n"
+    "Pregunta: {question}"
 )
+qa_prompt = ChatPromptTemplate.from_template(SYSTEM_TEMPLATE)
 # ===========================================
 # 4) LLM — Hugging Face Inference (Llama 3.1 8B)
 # ===========================================
 endpoint = HuggingFaceEndpoint(
     repo_id="meta-llama/Meta-Llama-3.1-8B-Instruct",
+    task="text-generation",
     max_new_tokens=900,
     temperature=0.2,
     top_k=40,
     timeout=120,
     model_kwargs={},
 )
 llm = ChatHuggingFace(llm=endpoint)
 # ===========================================
+# 5) Chain (memory + Multi-Query + reranker + compression)
 # ===========================================
 memory = ConversationBufferMemory(
     memory_key="chat_history",
     return_messages=True,
 )
+# Multi-Query to boost recall
+mqr = MultiQueryRetriever.from_llm(retriever=base_retriever, llm=llm, include_original=True)
+# Cross-encoder reranker (lighter)
 cross_encoder = HuggingFaceCrossEncoder(model_name="BAAI/bge-reranker-base")
 reranker = CrossEncoderReranker(model=cross_encoder, top_n=4)
 compression_retriever = ContextualCompressionRetriever(
     base_retriever=mqr,
     base_compressor=reranker,
     combine_docs_chain_kwargs={"prompt": qa_prompt},
     get_chat_history=lambda h: h,
     rephrase_question=False,
+    return_source_documents=False,  # <- we only need the final answer
+    # Use default output key "answer" so we don't need to parse JSON
 )
 def chat_interface(question, history):
     try:
         result = qa_chain.invoke({"question": question})
+        # ConversationalRetrievalChain returns {"answer": "...", ...}
+        answer = result.get("answer", "")
+        # Safety fallback: if empty, return a friendly default
+        if not answer:
+            return "Lo siento, no pude generar una respuesta útil con los fragmentos disponibles."
+        return answer
     except Exception as e:
         return (
             "Lo siento, tuve un problema procesando tu pregunta. "
 # ============================
 # 7) Gradio app (tabs + run)
 # ============================
 custom_css = """
+/* Make the chat area taller without using the height arg */
+.gr-chatbot { min-height: 700px !important; }
+.gr-chatbot > div { min-height: 700px !important; }
 .gradio-container { max-width: 1200px !important; }
 """
     [banner_tab, image_gradio_app, chatbot_gradio_app],
     tab_names=["Welcome to Green Greta", "Green Greta Image Classification", "Green Greta Chat"],
     theme=theme,
+    css=custom_css,
 )
 app.queue()