Spaces:

ALVHB95
/

TFM_DataScience_APP

Running

App Files Files Community

ALVHB95 commited on Oct 10

Commit

d95504a

1 Parent(s): d13e610

new model

Browse files

Files changed (1) hide show

app.py +92 -60

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 """
 =========================================================
- app.py — Green Greta (Gradio + TF/Keras 3 + Local HF + LangChain v0.2)
 =========================================================
 """
@@ -8,6 +8,14 @@ import os
 import json
 import shutil
 import gradio as gr
 import tensorflow as tf
 from tensorflow import keras
@@ -18,12 +26,10 @@ try:
     from fake_useragent import UserAgent
     user_agent = UserAgent().random
 except Exception:
-    user_agent = "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 "\
-                 "(KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36"
 header_template = {"User-Agent": user_agent}
-# --- LangChain v0.2 family ---
 from langchain_text_splitters import RecursiveCharacterTextSplitter
 from langchain_core.prompts import ChatPromptTemplate
 from langchain_core.output_parsers import PydanticOutputParser
@@ -32,37 +38,35 @@ from langchain.memory import ConversationBufferMemory
 from langchain_community.document_loaders import WebBaseLoader
 from langchain_community.vectorstores import Chroma
-# Embeddings (prefer langchain-huggingface if installed; fallback a community)
 try:
     from langchain_huggingface import HuggingFaceEmbeddings  # pip install -U langchain-huggingface
 except ImportError:
     from langchain_community.embeddings import HuggingFaceEmbeddings
-# Context compression (keeps inputs ≤ model limit)
 from langchain.retrievers import ContextualCompressionRetriever
 from langchain.retrievers.document_compressors import DocumentCompressorPipeline
-from pydantic import BaseModel, Field  # <-- switched to Pydantic v2
-# HF Hub for downloading the SavedModel once (image classifier)
 from huggingface_hub import snapshot_download
-# === LLM endpoint moderno (compatible con huggingface_hub>=0.23) ===
 from langchain_huggingface import ChatHuggingFace, HuggingFaceEndpoint
 # Theming + URL list
 import theme
 from url_list import URLS
 theme = theme.Theme()
-# (Opcional) reducir telemetría/ruido en logs de Space
-os.environ.setdefault("TOKENIZERS_PARALLELISM", "false")
-os.environ.setdefault("HF_HUB_DISABLE_TELEMETRY", "1")
-os.environ.setdefault("GRADIO_ANALYTICS_ENABLED", "False")
-os.environ.setdefault("ANONYMIZED_TELEMETRY", "false")
 # =========================================================
 # 1) IMAGE CLASSIFICATION — Keras 3-safe SavedModel loading
 # =========================================================
@@ -76,7 +80,7 @@ image_model = keras.layers.TFSMLayer(model_dir, call_endpoint=MODEL_SERVING_SIGN
 class_labels = ["cardboard", "glass", "metal", "paper", "plastic", "trash"]
 def predict_image(input_image: Image.Image):
-    """Preprocess a EfficientNetB0 (224x224) y ejecuta inferencia."""
     img = input_image.convert("RGB").resize((224, 224))
     x = tf.keras.preprocessing.image.img_to_array(img)
     x = tf.keras.applications.efficientnet.preprocess_input(x)
@@ -100,7 +104,6 @@ image_gradio_app = gr.Interface(
     theme=theme,
 )
 # ============================================
 # 2) KNOWLEDGE LOADING (RAG: loader + splitter)
 # ============================================
@@ -122,44 +125,47 @@ def safe_load_all_urls(urls):
 all_loaded_docs = safe_load_all_urls(URLS)
-# Chunks base pequeños para que el compresor downstream trabaje menos
 base_splitter = RecursiveCharacterTextSplitter(
-    chunk_size=700,
-    chunk_overlap=80,
     length_function=len,
 )
 docs = base_splitter.split_documents(all_loaded_docs)
-# Embeddings
-embeddings = HuggingFaceEmbeddings(model_name="thenlper/gte-small")
 # Vector store
 persist_directory = "docs/chroma/"
 shutil.rmtree(persist_directory, ignore_errors=True)
 vectordb = Chroma.from_documents(
     documents=docs,
     embedding=embeddings,
     persist_directory=persist_directory,
 )
-# Base retriever
-retriever = vectordb.as_retriever(search_kwargs={"k": 2}, search_type="mmr")
-# --- Compresión de contexto para entradas ≤ ~512 tokens (t5/…); útil igual con Mixtral ---
 try:
     from langchain_text_splitters import TokenTextSplitter
-    splitter_for_compression = TokenTextSplitter(chunk_size=200, chunk_overlap=30)  # requiere tiktoken
 except Exception:
     from langchain_text_splitters import RecursiveCharacterTextSplitter as FallbackSplitter
     splitter_for_compression = FallbackSplitter(chunk_size=300, chunk_overlap=50)
-compressor = DocumentCompressorPipeline(transformers=[splitter_for_compression])
-compression_retriever = ContextualCompressionRetriever(
-    base_retriever=retriever,
-    base_compressor=compressor,
-)
 # ======================================
 # 3) PROMPT & Pydantic schema parsing
@@ -171,44 +177,61 @@ class FinalAnswer(BaseModel):
 parser = PydanticOutputParser(pydantic_object=FinalAnswer)
 SYSTEM_TEMPLATE = (
-    "You are Greta, a bilingual (EN/ES) recycling assistant. "
-    "Answer fully using the snippets below. Do not mention 'context'.\n\n"
-    "Context:\n{context}\n\n"
-    "User: {question}\n"
     "{format_instructions}"
 )
-qa_prompt = ChatPromptTemplate.from_template(
-    SYSTEM_TEMPLATE,
-    partial_variables={"format_instructions": parser.get_format_instructions()},
 )
-# 4) LLM — Hugging Face Inference API (Llama 3 chat)
 endpoint = HuggingFaceEndpoint(
     repo_id="meta-llama/Meta-Llama-3.1-8B-Instruct",
-    task="conversational",          # <-- importante
-    max_new_tokens=2000,
-    temperature=0.1,
-    top_k=30,
-    repetition_penalty=1.03,
     return_full_text=False,
     huggingfacehub_api_token=os.getenv("HUGGINGFACEHUB_API_TOKEN"),
     timeout=120,
     model_kwargs={},
 )
 llm = ChatHuggingFace(llm=endpoint)
 # ===========================================
-# 5) Chain (memory + robust JSON extraction)
 # ===========================================
 memory = ConversationBufferMemory(
     memory_key="chat_history",
     return_messages=True,
 )
 qa_chain = ConversationalRetrievalChain.from_llm(
     llm=llm,
     retriever=compression_retriever,
@@ -247,13 +270,6 @@ def chat_interface(question, history):
             f"Detalle técnico: {e}"
         )
-chatbot_gradio_app = gr.ChatInterface(
-    fn=chat_interface,
-    title="<span style='color: rgb(243, 239, 224);'>Green Greta</span>",
-    height=600,
-)
 # ============================
 # 6) Banner / Welcome content
 # ============================
@@ -280,14 +296,30 @@ banner_tab_content = """
 """
 banner_tab = gr.Markdown(banner_tab_content)
 # ============================
 # 7) Gradio app (tabs + run)
 # ============================
 app = gr.TabbedInterface(
     [banner_tab, image_gradio_app, chatbot_gradio_app],
     tab_names=["Welcome to Green Greta", "Green Greta Image Classification", "Green Greta Chat"],
     theme=theme,
 )
 app.queue()

 """
 =========================================================
+ app.py — Green Greta (Gradio + TF/Keras 3 + Local HF + LangChain v0.2/0.3)
 =========================================================
 """
 import json
 import shutil
+# --- Ajustes de entorno / telemetría (antes de importar Chroma) ---
+os.environ.setdefault("TOKENIZERS_PARALLELISM", "false")
+os.environ.setdefault("HF_HUB_DISABLE_TELEMETRY", "1")
+os.environ.setdefault("GRADIO_ANALYTICS_ENABLED", "False")
+os.environ.setdefault("ANONYMIZED_TELEMETRY", "false")
+# Silenciar telemetría de Chroma para evitar warnings/tracebacks ruidosos
+os.environ.setdefault("CHROMA_TELEMETRY_ENABLED", "FALSE")
 import gradio as gr
 import tensorflow as tf
 from tensorflow import keras
     from fake_useragent import UserAgent
     user_agent = UserAgent().random
 except Exception:
+    user_agent = "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36"
 header_template = {"User-Agent": user_agent}
+# --- LangChain v0.2/0.3 family ---
 from langchain_text_splitters import RecursiveCharacterTextSplitter
 from langchain_core.prompts import ChatPromptTemplate
 from langchain_core.output_parsers import PydanticOutputParser
 from langchain_community.document_loaders import WebBaseLoader
 from langchain_community.vectorstores import Chroma
+# Embeddings (prefer langchain-huggingface si está instal., si no community)
 try:
     from langchain_huggingface import HuggingFaceEmbeddings  # pip install -U langchain-huggingface
 except ImportError:
     from langchain_community.embeddings import HuggingFaceEmbeddings
+# Context compression / retrievers
 from langchain.retrievers import ContextualCompressionRetriever
 from langchain.retrievers.document_compressors import DocumentCompressorPipeline
+# --- Retrievers avanzados / reranker ---
+from langchain_community.retrievers import BM25Retriever, EnsembleRetriever
+from langchain.retrievers.multi_query import MultiQueryRetriever
+from langchain_community.cross_encoders import HuggingFaceCrossEncoder
+from langchain.retrievers.document_compressors import CrossEncoderReranker
+from pydantic import BaseModel, Field  # Pydantic v2
+# HF Hub para descargar el SavedModel de imagen
 from huggingface_hub import snapshot_download
+# === LLM endpoint moderno (langchain-huggingface) ===
 from langchain_huggingface import ChatHuggingFace, HuggingFaceEndpoint
 # Theming + URL list
 import theme
 from url_list import URLS
 theme = theme.Theme()
 # =========================================================
 # 1) IMAGE CLASSIFICATION — Keras 3-safe SavedModel loading
 # =========================================================
 class_labels = ["cardboard", "glass", "metal", "paper", "plastic", "trash"]
 def predict_image(input_image: Image.Image):
+    """Preprocesa a EfficientNetB0 (224x224) y ejecuta inferencia."""
     img = input_image.convert("RGB").resize((224, 224))
     x = tf.keras.preprocessing.image.img_to_array(img)
     x = tf.keras.applications.efficientnet.preprocess_input(x)
     theme=theme,
 )
 # ============================================
 # 2) KNOWLEDGE LOADING (RAG: loader + splitter)
 # ============================================
 all_loaded_docs = safe_load_all_urls(URLS)
+# Chunks algo más largos (mejor para reranker)
 base_splitter = RecursiveCharacterTextSplitter(
+    chunk_size=900,
+    chunk_overlap=100,
     length_function=len,
 )
 docs = base_splitter.split_documents(all_loaded_docs)
+# Embeddings MEJORADOS (recuperación)
+embeddings = HuggingFaceEmbeddings(model_name="intfloat/e5-base-v2")
 # Vector store
 persist_directory = "docs/chroma/"
 shutil.rmtree(persist_directory, ignore_errors=True)
 vectordb = Chroma.from_documents(
     documents=docs,
     embedding=embeddings,
     persist_directory=persist_directory,
 )
+# Base retriever (vectorial)
+vec_retriever = vectordb.as_retriever(search_kwargs={"k": 8}, search_type="mmr")
+# BM25 + Ensemble (híbrido)
+bm25 = BM25Retriever.from_documents(docs)
+bm25.k = 8
+hybrid_retriever = EnsembleRetriever(retrievers=[bm25, vec_retriever], weights=[0.4, 0.6])
+# --- Multi-Query (paráfrasis de la consulta) ---
+# Se apoya en el propio LLM para generar variantes y subir recall
+# (lo definimos después de crear el LLM, ver sección 4)
+# --- Compresión / split fino para compresor downstream ---
 try:
     from langchain_text_splitters import TokenTextSplitter
+    splitter_for_compression = TokenTextSplitter(chunk_size=220, chunk_overlap=30)  # requiere tiktoken
 except Exception:
     from langchain_text_splitters import RecursiveCharacterTextSplitter as FallbackSplitter
     splitter_for_compression = FallbackSplitter(chunk_size=300, chunk_overlap=50)
+compressor_pipeline = DocumentCompressorPipeline(transformers=[splitter_for_compression])
 # ======================================
 # 3) PROMPT & Pydantic schema parsing
 parser = PydanticOutputParser(pydantic_object=FinalAnswer)
 SYSTEM_TEMPLATE = (
+    "Eres Greta, una asistente bilingüe (ES/EN) experta en reciclaje y sostenibilidad. "
+    "Responde de forma directa, útil y en el idioma del usuario. "
+    "Si la respuesta no aparece en los fragmentos, dilo explícitamente y ofrece pasos prácticos. "
+    "No inventes datos.\n\n"
+    "Fragmentos:\n{context}\n\n"
+    "Pregunta: {question}\n"
     "{format_instructions}"
 )
+qa_prompt = ChatPromptTemplate.from_template(SYSTEM_TEMPLATE).partial(
+    format_instructions=parser.get_format_instructions()
 )
+# ===========================================
+# 4) LLM — Hugging Face Inference (Llama 3.1 8B)
+# ===========================================
 endpoint = HuggingFaceEndpoint(
     repo_id="meta-llama/Meta-Llama-3.1-8B-Instruct",
+    task="text-generation",          # estable para chat via HF Inference
+    max_new_tokens=900,
+    temperature=0.2,
+    top_k=40,
+    repetition_penalty=1.05,
     return_full_text=False,
     huggingfacehub_api_token=os.getenv("HUGGINGFACEHUB_API_TOKEN"),
     timeout=120,
     model_kwargs={},
 )
+# OJO: usar llm= (no client=)
 llm = ChatHuggingFace(llm=endpoint)
 # ===========================================
+# 5) Chain (memory + RAG mejorado + robust JSON)
 # ===========================================
+# Memoria (aviso deprec., pero funcional en LC 0.3)
 memory = ConversationBufferMemory(
     memory_key="chat_history",
     return_messages=True,
 )
+# Multi-Query sobre el retriever híbrido
+mqr = MultiQueryRetriever.from_llm(retriever=hybrid_retriever, llm=llm, include_original=True)
+# Reranker más ligero (reduce coste latencia)
+cross_encoder = HuggingFaceCrossEncoder(model_name="BAAI/bge-reranker-base")
+reranker = CrossEncoderReranker(model=cross_encoder, top_n=4)
+# Compresor contextual (híbrido + multi-query → rerank → compresión fina)
+compression_retriever = ContextualCompressionRetriever(
+    base_retriever=mqr,
+    base_compressor=reranker,
+)
 qa_chain = ConversationalRetrievalChain.from_llm(
     llm=llm,
     retriever=compression_retriever,
             f"Detalle técnico: {e}"
         )
 # ============================
 # 6) Banner / Welcome content
 # ============================
 """
 banner_tab = gr.Markdown(banner_tab_content)
 # ============================
 # 7) Gradio app (tabs + run)
 # ============================
+# CSS simple para “ampliar visualmente” el área del chat sin usar height=
+custom_css = """
+/* Aumenta altura mínima del contenedor de mensajes del chatbot */
+.gr-chatbot { min-height: 520px !important; }
+.gr-chatbot > div { min-height: 520px !important; }
+/* Un poco más de ancho general */
+.gradio-container { max-width: 1200px !important; }
+"""
+chatbot_gradio_app = gr.ChatInterface(
+    fn=chat_interface,
+    title="<span style='color: rgb(243, 239, 224);'>Green Greta</span>",
+    theme=theme,
+)
 app = gr.TabbedInterface(
     [banner_tab, image_gradio_app, chatbot_gradio_app],
     tab_names=["Welcome to Green Greta", "Green Greta Image Classification", "Green Greta Chat"],
     theme=theme,
+    css=custom_css,  # aplica CSS globalmente a las pestañas
 )
 app.queue()