Spaces:

ALVHB95
/

TFM_DataScience_APP

Running

App Files Files Community

ALVHB95 commited on Mar 26

Commit

865160b

1 Parent(s): b6be7ba

update langchain

Browse files

Files changed (1) hide show

app.py +225 -143

app.py CHANGED Viewed

@@ -1,197 +1,258 @@
 # app.py
 import gradio as gr
 import torch
 import theme
 theme = theme.Theme()
 from huggingface_hub import from_pretrained_keras
 from tensorflow.keras.applications import EfficientNetB0
 import tensorflow as tf
 from tensorflow import keras
 from PIL import Image
-from pydantic.v1 import BaseModel, Field
 import shutil
-import tenacity
-#langchain
-from langchain.text_splitter import RecursiveCharacterTextSplitter, CharacterTextSplitter
 from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.prompts import PromptTemplate
-from langchain.chains import RetrievalQA
-from langchain.prompts import ChatPromptTemplate
 from langchain.schema import StrOutputParser
 from langchain.schema.runnable import Runnable
 from langchain.schema.runnable.config import RunnableConfig
-from langchain.chains import (
-    LLMChain, ConversationalRetrievalChain)
-from langchain.vectorstores import Chroma
-from langchain.memory import ConversationBufferMemory
-from langchain.chains import LLMChain
 from langchain.prompts.chat import ChatPromptTemplate, SystemMessagePromptTemplate
-from langchain.prompts import SystemMessagePromptTemplate, HumanMessagePromptTemplate, ChatPromptTemplate,  MessagesPlaceholder
 from langchain.output_parsers import PydanticOutputParser
 from langchain_community.llms import HuggingFaceHub
 from langchain_community.document_loaders import WebBaseLoader
-from fake_useragent import UserAgent
-custom_title = "<span style='color: rgb(243, 239, 224);'>Green Greta</span>"
-# Cell 1: Image Classification Model
 model1 = from_pretrained_keras("rocioadlc/efficientnetB0_trash")
-# Define class labels
 class_labels = ['cardboard', 'glass', 'metal', 'paper', 'plastic', 'trash']
-# Function to predict image label and score
-def predict_image(input):
-    # Resize the image to the size expected by the model and convert to numpy array
-    image_array = tf.keras.preprocessing.image.img_to_array(input.resize((244, 224)))  # Cambiar el orden de las dimensiones
-    # Normalize the image
     image_array = tf.keras.applications.efficientnet.preprocess_input(image_array)
-    # Expand the dimensions to create a batch
     image_array = tf.expand_dims(image_array, 0)
-    # Predict using the model
     predictions = model1.predict(image_array)
     category_scores = {}
     for i, class_label in enumerate(class_labels):
         category_scores[class_label] = predictions[0][i].item()
     return category_scores
 image_gradio_app = gr.Interface(
     fn=predict_image,
     inputs=gr.Image(label="Image", sources=['upload', 'webcam'], type="pil"),
     outputs=[gr.Label(label="Result")],
-    title=custom_title,
     theme=theme
 )
-# Cell 2: ChatBot Model
-# Generate a random user agent
 user_agent = UserAgent().random
 header_template = {"User-Agent": user_agent}
-# Create the loader with the headers
-loader = WebBaseLoader(
-    web_paths=[
-        "https://www.epa.gov/recycle/frequent-questions-recycling",
-        "https://www.whitehorsedc.gov.uk/vale-of-white-horse-district-council/recycling-rubbish-and-waste/lets-get-real-about-recycling/",
-        "https://www.teimas.com/blog/13-preguntas-y-respuestas-sobre-la-ley-de-residuos-07-2022",
-        "https://www.molok.com/es/blog/gestion-de-residuos-solidos-urbanos-rsu-10-dudas-comunes",
-        "https://espanol.epa.gov/espanol/el-reciclaje#valelapena",
-        "https://espanol.epa.gov/espanol/preguntas-frecuentes-sobre-reciclado-de-plastico-y-elaboracion-de-abono-vegetal",
-        "https://espanol.epa.gov/espanol/consejo-del-dia-como-reciclo-mis",
-        "https://espanol.epa.gov/espanol/recursos-para-reciclar-dispositivos-electronicos",
-        "https://www.epa.gov/recycle/electronics-donation-and-recycling",
-        "https://reducereutilizarecicla.org/que-es-el-reciclaje/",
-        "https://reducereutilizarecicla.org/contenedores-de-reciclaje/",
-        "https://reducereutilizarecicla.org/contenedores-de-reciclaje/contenedor-amarillo/",
-        "https://reducereutilizarecicla.org/contenedores-de-reciclaje/contenedor-azul/",
-        "https://reducereutilizarecicla.org/contenedores-de-reciclaje/contenedor-verde/",
-        "https://reducereutilizarecicla.org/contenedores-de-reciclaje/contenedor-marron-organico/",
-        "https://reducereutilizarecicla.org/contenedores-de-reciclaje/contenedor-gris-restos/",
-        "https://reducereutilizarecicla.org/contenedores-de-reciclaje/punto-limpio/",
-        "https://reducereutilizarecicla.org/donde-tirar-auriculares/",
-        "https://reducereutilizarecicla.org/donde-tirar-sartenes/",
-        "https://reducereutilizarecicla.org/donde-tirar-aceite-usado/",
-        "https://reducereutilizarecicla.org/como-se-reciclan-los-envases-tipo-brik/",
-        "https://reducereutilizarecicla.org/los-envases-del-verano/",
-        "https://reducereutilizarecicla.org/donde-tirar-radiografias/",
-        "https://reducereutilizarecicla.org/envases-ecologicos/",
-        "https://reducereutilizarecicla.org/donde-tirar-los-restos-de-pintura/",
-        "https://reducereutilizarecicla.org/valorizacion-de-residuos/",
-        "https://reducereutilizarecicla.org/como-reciclar-pilas/",
-        "https://reducereutilizarecicla.org/como-reciclar-capsulas-de-cafe/",
-        "https://reducereutilizarecicla.org/reciclando-cd/",
-        "https://reducereutilizarecicla.org/donde-tirar-neumaticos/",
-        "https://reducereutilizarecicla.org/como-reciclar-una-canasta-de-mimbre/",
-        "https://reducereutilizarecicla.org/como-funciona-el-contenedor-amarillo/",
-        "https://reducereutilizarecicla.org/donde-se-tiran-los-vapers/",
-        "https://reducereutilizarecicla.org/cuanto-tarda-una-bolsa-biodegradable-en-degradarse/",
-        "https://reducereutilizarecicla.org/donde-se-reciclan-los-juguetes/",
-        "https://reducereutilizarecicla.org/objetos-que-se-pueden-reutilizar/",
-        "https://reducereutilizarecicla.org/la-parafina-se-puede-reutilizar/",
-        "https://reducereutilizarecicla.org/planta-de-reciclaje-de-papel/",
-        "https://reducereutilizarecicla.org/como-saber-si-un-envase-es-reciclable/",
-        "https://reducereutilizarecicla.org/reutilizar-vasos-de-vela/",
-        "https://reducereutilizarecicla.org/bolsas-frio-calor/",
-        "https://reducereutilizarecicla.org/reciclar-y-reutilizar-materiales-de-construccion/",
-        "https://reducereutilizarecicla.org/que-es-exactamente-el-pet/",
-        "https://reducereutilizarecicla.org/tipos-de-reciclaje/",
-        "https://reducereutilizarecicla.org/que-hacer-con-palets-reciclados/",
-        "https://reducereutilizarecicla.org/vertederos-controlados/",
-        "https://reducereutilizarecicla.org/donde-tirar-escombros/",
-        "https://reducereutilizarecicla.org/como-reciclar-los-residuos-de-ps-poliestireno/",
-        "https://reducereutilizarecicla.org/tirar-la-basura-sin-bolsas/",
-        "https://reducereutilizarecicla.org/tirar-el-palo-de-la-fregona/",
-        "https://reducereutilizarecicla.org/la-mejor-manera-de-reciclar-una-pala-de-padel/",
-        "https://reducereutilizarecicla.org/sabes-donde-tirar-las-llantas-viejas-de-un-coche/",
-        "https://reducereutilizarecicla.org/sabes-donde-tirar-el-arbol-de-navidad/",
-        "https://reducereutilizarecicla.org/clavos-tornillos-herramientas-donde-tirar-hierro/",
-        "https://reducereutilizarecicla.org/donde-tirar-un-secador-de-pelo-contenedor-o-punto-limpio/",
-        "https://reducereutilizarecicla.org/donde-tirar-electrodomesticos/",
-        "https://reducereutilizarecicla.org/donde-puedo-tirar-ramas-de-arboles/",
-        "https://reducereutilizarecicla.org/donde-tirar-escombros/",
-        "https://reducereutilizarecicla.org/donde-se-tira-el-muerdago-quemado/",
-        "https://reducereutilizarecicla.org/sandalias-caucho-reciclado-neumaticos/",
-        "https://reducereutilizarecicla.org/ideas-para-reciclar-aspas-de-ventilador-de-techo/",
-        "https://reducereutilizarecicla.org/reciclar-sacos-dormir/",
-        "https://reducereutilizarecicla.org/reciclar-sillas-playa/",
-        "https://reducereutilizarecicla.org/donde-tirar-antipolillas/",
-        "https://reducereutilizarecicla.org/que-hacer-con-los-juguetes-viejos/",
-        "https://reducereutilizarecicla.org/como-utilizar-las-mascarillas-y-el-gel-hidroalcoholico-en-la-playa/",
-        "https://reducereutilizarecicla.org/ideas-para-reciclar-un-ventilador-de-pie/",
-        "https://reducereutilizarecicla.org/donde-tirar-gasoil/",
-        "https://reducereutilizarecicla.org/donde-puedo-tirar-basura-electronica/",
-        "https://reducereutilizarecicla.org/donde-tirar-agujas/",
-        "https://reducereutilizarecicla.org/donde-tirar-residuos-peligrosos/",
-        "https://reducereutilizarecicla.org/donde-tirar-los-cables/",
-        "https://reducereutilizarecicla.org/donde-tirar-bicicletas/",
-        "https://reducereutilizarecicla.org/donde-tirar-maletas/",
-        "https://reducereutilizarecicla.org/como-reciclar-una-pantalla/",
-        "https://reducereutilizarecicla.org/donde-tirar-ropa-usada/"
-    ],
-    header_template=header_template
 )
-data=loader.load()
-# split documents
 text_splitter = RecursiveCharacterTextSplitter(
     chunk_size=1024,
     chunk_overlap=150,
     length_function=len
 )
-docs = text_splitter.split_documents(data)
-# define embedding
 embeddings = HuggingFaceEmbeddings(model_name='thenlper/gte-small')
-# create vector database from data
 persist_directory = 'docs/chroma/'
-# Remove old database files if any
-shutil.rmtree(persist_directory, ignore_errors=True)
 vectordb = Chroma.from_documents(
     documents=docs,
     embedding=embeddings,
     persist_directory=persist_directory
 )
-# define retriever
-retriever = vectordb.as_retriever(search_kwargs={"k": 2}, search_type="mmr")
 class FinalAnswer(BaseModel):
     question: str = Field()
     answer: str = Field()
-# Assuming you have a parser for the FinalAnswer class
 parser = PydanticOutputParser(pydantic_object=FinalAnswer)
 template = """
 Your name is Greta and you are a recycling chatbot with the objective to anwer questions from user in English or Spanish /
 Has sido diseñado y creado por el Grupo 1 del Máster en Data Science & Big Data de la promoción 2023/2024 de la Universidad Complutense de Madrid. Este grupo está fromado por Rocío, María Guillermo, Alejandra, Paloma y Álvaro /
@@ -205,14 +266,16 @@ User: {question}
 {format_instructions}
 """
-# Create the chat prompt templates
 sys_prompt = SystemMessagePromptTemplate.from_template(template)
 qa_prompt = ChatPromptTemplate(
     messages=[
         sys_prompt,
-        HumanMessagePromptTemplate.from_template("{question}")],
     partial_variables={"format_instructions": parser.get_format_instructions()}
 )
 llm = HuggingFaceHub(
     repo_id="mistralai/Mixtral-8x7B-Instruct-v0.1",
     task="text-generation",
@@ -224,42 +287,55 @@ llm = HuggingFaceHub(
     },
 )
 qa_chain = ConversationalRetrievalChain.from_llm(
-    llm = llm,
-    memory = ConversationBufferMemory(llm=llm, memory_key="chat_history", input_key='question', output_key='output'),
-    retriever = retriever,
-    verbose = True,
     combine_docs_chain_kwargs={'prompt': qa_prompt},
-    get_chat_history = lambda h : h,
-    rephrase_question = False,
-    output_key = 'output',
 )
-def chat_interface(question,history):
     result = qa_chain.invoke({'question': question})
     output_string = result['output']
-    # Find the index of the last occurrence of "answer": in the string
     answer_index = output_string.rfind('"answer":')
-    # Extract the substring starting from the "answer": index
     answer_part = output_string[answer_index + len('"answer":'):].strip()
     # Find the next occurrence of a double quote to get the start of the answer value
     quote_index = answer_part.find('"')
-    # Extract the answer value between double quotes
     answer_value = answer_part[quote_index + 1:answer_part.find('"', quote_index + 1)]
     return answer_value
 chatbot_gradio_app = gr.ChatInterface(
     fn=chat_interface,
-    title=custom_title
 )
-# Banner tab
 banner_tab_content = """
 <div style="background-color: #d3e3c3; text-align: center; padding: 20px; display: flex; flex-direction: column; align-items: center;">
     <img src="https://huggingface.co/spaces/ALVHB95/TFM_DataScience_APP/resolve/main/front_4.jpg" alt="Banner Image" style="width: 50%; max-width: 500px; margin: 0 auto;">
@@ -283,12 +359,18 @@ banner_tab_content = """
 """
 banner_tab = gr.Markdown(banner_tab_content)
-# Combine interfaces into a single app
 app = gr.TabbedInterface(
     [banner_tab, image_gradio_app, chatbot_gradio_app],
     tab_names=["Welcome to Green Greta", "Green Greta Image Classification", "Green Greta Chat"],
     theme=theme
 )
 app.queue()
-app.launch()

 # app.py
+"""
+=========================================================
+ 1) IMPORTS & DEPENDENCIES
+=========================================================
+"""
 import gradio as gr
 import torch
 import theme
 theme = theme.Theme()
 from huggingface_hub import from_pretrained_keras
 from tensorflow.keras.applications import EfficientNetB0
 import tensorflow as tf
 from tensorflow import keras
 from PIL import Image
 import shutil
+import tenacity  # for retrying failed requests
+from fake_useragent import UserAgent
+# LangChain
+from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.prompts import PromptTemplate
 from langchain.schema import StrOutputParser
 from langchain.schema.runnable import Runnable
 from langchain.schema.runnable.config import RunnableConfig
+from langchain.chains import RetrievalQA, ConversationalRetrievalChain, LLMChain
 from langchain.prompts.chat import ChatPromptTemplate, SystemMessagePromptTemplate
+from langchain.prompts import SystemMessagePromptTemplate, HumanMessagePromptTemplate, ChatPromptTemplate, MessagesPlaceholder
 from langchain.output_parsers import PydanticOutputParser
 from langchain_community.llms import HuggingFaceHub
 from langchain_community.document_loaders import WebBaseLoader
+from langchain.vectorstores import Chroma
+from langchain.memory import ConversationBufferMemory
+from pydantic.v1 import BaseModel, Field
+"""
+=========================================================
+ 2) IMAGE CLASSIFICATION MODEL SETUP
+=========================================================
+"""
+# Load a Keras model from HuggingFace Hub
 model1 = from_pretrained_keras("rocioadlc/efficientnetB0_trash")
+# Define class labels for the trash classification
 class_labels = ['cardboard', 'glass', 'metal', 'paper', 'plastic', 'trash']
+def predict_image(input_image):
+    """
+    Resize the user-uploaded image and preprocess it so that it can be fed
+    into the EfficientNetB0 model. The model then returns a dictionary of
+    class probabilities.
+    """
+    # Resize the image (note the target dimensions)
+    image_array = tf.keras.preprocessing.image.img_to_array(
+        input_image.resize((244, 224))
+    )
+    # Normalize/prescale the image for EfficientNet
     image_array = tf.keras.applications.efficientnet.preprocess_input(image_array)
+    # Expand the dimensions to create a batch of size 1
     image_array = tf.expand_dims(image_array, 0)
+    # Get predictions
     predictions = model1.predict(image_array)
+    # Convert predictions into a dictionary {class_label: score}
     category_scores = {}
     for i, class_label in enumerate(class_labels):
         category_scores[class_label] = predictions[0][i].item()
     return category_scores
+# Gradio interface for image classification
 image_gradio_app = gr.Interface(
     fn=predict_image,
     inputs=gr.Image(label="Image", sources=['upload', 'webcam'], type="pil"),
     outputs=[gr.Label(label="Result")],
+    title="<span style='color: rgb(243, 239, 224);'>Green Greta</span>",
     theme=theme
 )
+"""
+=========================================================
+ 3) CHATBOT MODEL SETUP
+=========================================================
+"""
+# 3.1) Define user agent to avoid blocking, etc.
 user_agent = UserAgent().random
 header_template = {"User-Agent": user_agent}
+# 3.2) List of URLs to load for retrieval
+URLS = [
+    "https://www.epa.gov/recycle/frequent-questions-recycling",
+    "https://www.whitehorsedc.gov.uk/vale-of-white-horse-district-council/recycling-rubbish-and-waste/lets-get-real-about-recycling/",
+    "https://www.teimas.com/blog/13-preguntas-y-respuestas-sobre-la-ley-de-residuos-07-2022",
+    "https://www.molok.com/es/blog/gestion-de-residuos-solidos-urbanos-rsu-10-dudas-comunes",
+    "https://espanol.epa.gov/espanol/el-reciclaje#valelapena",
+    "https://espanol.epa.gov/espanol/preguntas-frecuentes-sobre-reciclado-de-plastico-y-elaboracion-de-abono-vegetal",
+    "https://espanol.epa.gov/espanol/consejo-del-dia-como-reciclo-mis",
+    "https://espanol.epa.gov/espanol/recursos-para-reciclar-dispositivos-electronicos",
+    "https://www.epa.gov/recycle/electronics-donation-and-recycling",
+    "https://reducereutilizarecicla.org/que-es-el-reciclaje/",
+    "https://reducereutilizarecicla.org/contenedores-de-reciclaje/",
+    "https://reducereutilizarecicla.org/contenedores-de-reciclaje/contenedor-amarillo/",
+    "https://reducereutilizarecicla.org/contenedores-de-reciclaje/contenedor-azul/",
+    "https://reducereutilizarecicla.org/contenedores-de-reciclaje/contenedor-verde/",
+    "https://reducereutilizarecicla.org/contenedores-de-reciclaje/contenedor-marron-organico/",
+    "https://reducereutilizarecicla.org/contenedores-de-reciclaje/contenedor-gris-restos/",
+    "https://reducereutilizarecicla.org/contenedores-de-reciclaje/punto-limpio/",
+    "https://reducereutilizarecicla.org/donde-tirar-auriculares/",
+    "https://reducereutilizarecicla.org/donde-tirar-sartenes/",
+    "https://reducereutilizarecicla.org/donde-tirar-aceite-usado/",
+    "https://reducereutilizarecicla.org/como-se-reciclan-los-envases-tipo-brik/",
+    "https://reducereutilizarecicla.org/los-envases-del-verano/",
+    "https://reducereutilizarecicla.org/donde-tirar-radiografias/",
+    "https://reducereutilizarecicla.org/envases-ecologicos/",
+    "https://reducereutilizarecicla.org/donde-tirar-los-restos-de-pintura/",
+    "https://reducereutilizarecicla.org/valorizacion-de-residuos/",
+    "https://reducereutilizarecicla.org/como-reciclar-pilas/",
+    "https://reducereutilizarecicla.org/como-reciclar-capsulas-de-cafe/",
+    "https://reducereutilizarecicla.org/reciclando-cd/",
+    "https://reducereutilizarecicla.org/donde-tirar-neumaticos/",
+    "https://reducereutilizarecicla.org/como-reciclar-una-canasta-de-mimbre/",
+    "https://reducereutilizarecicla.org/como-funciona-el-contenedor-amarillo/",
+    "https://reducereutilizarecicla.org/donde-se-tiran-los-vapers/",
+    "https://reducereutilizarecicla.org/cuanto-tarda-una-bolsa-biodegradable-en-degradarse/",
+    "https://reducereutilizarecicla.org/donde-se-reciclan-los-juguetes/",
+    "https://reducereutilizarecicla.org/objetos-que-se-pueden-reutilizar/",
+    "https://reducereutilizarecicla.org/la-parafina-se-puede-reutilizar/",
+    "https://reducereutilizarecicla.org/planta-de-reciclaje-de-papel/",
+    "https://reducereutilizarecicla.org/como-saber-si-un-envase-es-reciclable/",
+    "https://reducereutilizarecicla.org/reutilizar-vasos-de-vela/",
+    "https://reducereutilizarecicla.org/bolsas-frio-calor/",
+    "https://reducereutilizarecicla.org/reciclar-y-reutilizar-materiales-de-construccion/",
+    "https://reducereutilizarecicla.org/que-es-exactamente-el-pet/",
+    "https://reducereutilizarecicla.org/tipos-de-reciclaje/",
+    "https://reducereutilizarecicla.org/que-hacer-con-palets-reciclados/",
+    "https://reducereutilizarecicla.org/vertederos-controlados/",
+    "https://reducereutilizarecicla.org/donde-tirar-escombros/",
+    "https://reducereutilizarecicla.org/como-reciclar-los-residuos-de-ps-poliestireno/",
+    "https://reducereutilizarecicla.org/tirar-la-basura-sin-bolsas/",
+    "https://reducereutilizarecicla.org/tirar-el-palo-de-la-fregona/",
+    "https://reducereutilizarecicla.org/la-mejor-manera-de-reciclar-una-pala-de-padel/",
+    "https://reducereutilizarecicla.org/sabes-donde-tirar-las-llantas-viejas-de-un-coche/",
+    "https://reducereutilizarecicla.org/sabes-donde-tirar-el-arbol-de-navidad/",
+    "https://reducereutilizarecicla.org/clavos-tornillos-herramientas-donde-tirar-hierro/",
+    "https://reducereutilizarecicla.org/donde-tirar-un-secador-de-pelo-contenedor-o-punto-limpio/",
+    "https://reducereutilizarecicla.org/donde-tirar-electrodomesticos/",
+    "https://reducereutilizarecicla.org/donde-puedo-tirar-ramas-de-arboles/",
+    "https://reducereutilizarecicla.org/donde-tirar-escombros/",
+    "https://reducereutilizarecicla.org/donde-se-tira-el-muerdago-quemado/",
+    "https://reducereutilizarecicla.org/sandalias-caucho-reciclado-neumaticos/",
+    "https://reducereutilizarecicla.org/ideas-para-reciclar-aspas-de-ventilador-de-techo/",
+    "https://reducereutilizarecicla.org/reciclar-sacos-dormir/",
+    "https://reducereutilizarecicla.org/reciclar-sillas-playa/",
+    "https://reducereutilizarecicla.org/donde-tirar-antipolillas/",
+    "https://reducereutilizarecicla.org/que-hacer-con-los-juguetes-viejos/",
+    "https://reducereutilizarecicla.org/como-utilizar-las-mascarillas-y-el-gel-hidroalcoholico-en-la-playa/",
+    "https://reducereutilizarecicla.org/ideas-para-reciclar-un-ventilador-de-pie/",
+    "https://reducereutilizarecicla.org/donde-tirar-gasoil/",
+    "https://reducereutilizarecicla.org/donde-puedo-tirar-basura-electronica/",
+    "https://reducereutilizarecicla.org/donde-tirar-agujas/",
+    "https://reducereutilizarecicla.org/donde-tirar-residuos-peligrosos/",
+    "https://reducereutilizarecicla.org/donde-tirar-los-cables/",
+    "https://reducereutilizarecicla.org/donde-tirar-bicicletas/",
+    "https://reducereutilizarecicla.org/donde-tirar-maletas/",
+    "https://reducereutilizarecicla.org/como-reciclar-una-pantalla/",
+    "https://reducereutilizarecicla.org/donde-tirar-ropa-usada/"
+]
+@tenacity.retry(
+    wait=tenacity.wait_fixed(3),   # wait 3 seconds between retries
+    stop=tenacity.stop_after_attempt(3),  # stop after 3 attempts
+    reraise=True
 )
+def load_url(url):
+    """
+    Use the WebBaseLoader for a single URL.
+    The function is retried if it fails due to connection issues.
+    """
+    loader = WebBaseLoader(
+        web_paths=[url],
+        header_template=header_template
+    )
+    return loader.load()
+def safe_load_all_urls(urls):
+    """
+    Safely load documents from a list of URLs.
+    Any URL that fails after the specified number of retries is skipped.
+    """
+    all_docs = []
+    for link in urls:
+        try:
+            docs = load_url(link)
+            all_docs.extend(docs)
+        except Exception as e:
+            # If load_url fails after all retries, skip that URL
+            print(f"Skipping URL due to error: {link}\nError: {e}\n")
+    return all_docs
+# 3.3) Actually load the data from all URLs
+all_loaded_docs = safe_load_all_urls(URLS)
+# 3.4) Split the documents into manageable chunks
 text_splitter = RecursiveCharacterTextSplitter(
     chunk_size=1024,
     chunk_overlap=150,
     length_function=len
 )
+docs = text_splitter.split_documents(all_loaded_docs)
+# 3.5) Create embeddings
 embeddings = HuggingFaceEmbeddings(model_name='thenlper/gte-small')
+# 3.6) Create a persistent directory to store vector DB
 persist_directory = 'docs/chroma/'
+shutil.rmtree(persist_directory, ignore_errors=True)  # remove old DB files
+# 3.7) Build Chroma vector store
 vectordb = Chroma.from_documents(
     documents=docs,
     embedding=embeddings,
     persist_directory=persist_directory
 )
+# 3.8) Create a retriever
+retriever = vectordb.as_retriever(
+    search_kwargs={"k": 2},
+    search_type="mmr"
+)
+"""
+=========================================================
+ 4) PROMPT & CHAIN SETUP
+=========================================================
+"""
+# 4.1) Define the schema for final chatbot answers
 class FinalAnswer(BaseModel):
     question: str = Field()
     answer: str = Field()
 parser = PydanticOutputParser(pydantic_object=FinalAnswer)
+# 4.2) Prompt template: system instructions
 template = """
 Your name is Greta and you are a recycling chatbot with the objective to anwer questions from user in English or Spanish /
 Has sido diseñado y creado por el Grupo 1 del Máster en Data Science & Big Data de la promoción 2023/2024 de la Universidad Complutense de Madrid. Este grupo está fromado por Rocío, María Guillermo, Alejandra, Paloma y Álvaro /
 {format_instructions}
 """
 sys_prompt = SystemMessagePromptTemplate.from_template(template)
 qa_prompt = ChatPromptTemplate(
     messages=[
         sys_prompt,
+        HumanMessagePromptTemplate.from_template("{question}")
+    ],
     partial_variables={"format_instructions": parser.get_format_instructions()}
 )
+# 4.3) Define the LLM from HuggingFace
 llm = HuggingFaceHub(
     repo_id="mistralai/Mixtral-8x7B-Instruct-v0.1",
     task="text-generation",
     },
 )
+# 4.4) Create a ConversationalRetrievalChain that uses the above LLM
 qa_chain = ConversationalRetrievalChain.from_llm(
+    llm=llm,
+    memory=ConversationBufferMemory(
+        llm=llm,
+        memory_key="chat_history",
+        input_key='question',
+        output_key='output'
+    ),
+    retriever=retriever,
+    verbose=True,
     combine_docs_chain_kwargs={'prompt': qa_prompt},
+    get_chat_history=lambda h : h,  # pass memory directly
+    rephrase_question=False,
+    output_key='output'
 )
+def chat_interface(question, history):
+    """
+    This function processes the user's question through the qa_chain,
+    then parses out the final answer from the chain's output.
+    """
     result = qa_chain.invoke({'question': question})
     output_string = result['output']
+    # Find the index of the last occurrence of '"answer":' in the string
     answer_index = output_string.rfind('"answer":')
     answer_part = output_string[answer_index + len('"answer":'):].strip()
     # Find the next occurrence of a double quote to get the start of the answer value
     quote_index = answer_part.find('"')
     answer_value = answer_part[quote_index + 1:answer_part.find('"', quote_index + 1)]
     return answer_value
+# Gradio chat interface for the chatbot
 chatbot_gradio_app = gr.ChatInterface(
     fn=chat_interface,
+    title="<span style='color: rgb(243, 239, 224);'>Green Greta</span>"
 )
+"""
+=========================================================
+ 5) BANNER / WELCOME TAB
+=========================================================
+"""
 banner_tab_content = """
 <div style="background-color: #d3e3c3; text-align: center; padding: 20px; display: flex; flex-direction: column; align-items: center;">
     <img src="https://huggingface.co/spaces/ALVHB95/TFM_DataScience_APP/resolve/main/front_4.jpg" alt="Banner Image" style="width: 50%; max-width: 500px; margin: 0 auto;">
 """
 banner_tab = gr.Markdown(banner_tab_content)
+"""
+=========================================================
+ 6) GRADIO FINAL APP: TABS
+=========================================================
+"""
 app = gr.TabbedInterface(
     [banner_tab, image_gradio_app, chatbot_gradio_app],
     tab_names=["Welcome to Green Greta", "Green Greta Image Classification", "Green Greta Chat"],
     theme=theme
 )
+# Enable queue() for concurrency and launch the Gradio app
 app.queue()
+app.launch()