Spaces:

GenAICoder
/

MultiPDFChatbot

Sleeping

App Files Files Community

Chandranshu Jain commited on Apr 28, 2024

Commit

214739d

verified ·

1 Parent(s): 4184984

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -22

app.py CHANGED Viewed

@@ -1,16 +1,18 @@
 import streamlit as st
 from PyPDF2 import PdfReader
 from langchain_text_splitters import RecursiveCharacterTextSplitter
 import os
-from langchain_google_genai import GoogleGenerativeAIEmbeddings
 from langchain_community.vectorstores import Chroma
-from langchain_google_genai import ChatGoogleGenerativeAI
 from langchain.chains.question_answering import load_qa_chain
 from langchain.prompts import PromptTemplate
 from langchain_community.document_loaders import PyPDFLoader
 from langchain_chroma import Chroma
-import tempfile
-from langchain_cohere import CohereEmbeddings
 #st.set_page_config(page_title="Document Genie", layout="wide")
@@ -33,19 +35,13 @@ from langchain_cohere import CohereEmbeddings
 #    docs = loader.load()
 #    return docs
-def get_pdf(uploaded_file):
-    if uploaded_file :
-        temp_file = "./temp.pdf"
-        # Delete the existing temp.pdf file if it exists
-        if os.path.exists(temp_file):
-            os.remove(temp_file)
-        with open(temp_file, "wb") as file:
-            file.write(uploaded_file.getvalue())
-            file_name = uploaded_file.name
-    loader = PyPDFLoader(temp_file)
-    docs = loader.load()
-    return docs
 def text_splitter(text):
     text_splitter = RecursiveCharacterTextSplitter(
     # Set a really small chunk size, just to show.
@@ -55,8 +51,8 @@ def text_splitter(text):
     chunks=text_splitter.split_documents(text)
     return chunks
-GOOGLE_API_KEY = os.getenv("GOOGLE_API_KEY")
-COHERE_API_KEY = os.getenv("COHERE_API_KEY")
 def get_conversational_chain():
     prompt_template = """
@@ -79,7 +75,8 @@ def get_conversational_chain():
 def embedding(chunk,query):
     #embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")
-    embeddings = CohereEmbeddings(model="embed-english-v3.0")
     db = Chroma.from_documents(chunk,embeddings)
     doc = db.similarity_search(query)
     print(doc)
@@ -96,11 +93,12 @@ if 'messages' not in st.session_state:
 st.header("Chat with your pdf💁")
 with st.sidebar:
     st.title("PDF FILE UPLOAD:")
-    pdf_docs = st.file_uploader("Upload your PDF File and Click on the Submit & Process Button", accept_multiple_files=False, key="pdf_uploader")
 query = st.chat_input("Ask a Question from the PDF File")
 if query:
-    raw_text = get_pdf(pdf_docs)
     text_chunks = text_splitter(raw_text)
     st.session_state.messages.append({'role': 'user', "content": query})
     response = embedding(text_chunks,query)

 import streamlit as st
+from langchain_community.llms import HuggingFaceEndpoint
+from langchain.embeddings import HuggingFaceEmbeddings
+from langchain_core.runnables import RunnablePassthrough
+from langchain_core.output_parsers import StrOutputParser
+from langchain.prompts import ChatPromptTemplate
 from PyPDF2 import PdfReader
 from langchain_text_splitters import RecursiveCharacterTextSplitter
 import os
 from langchain_community.vectorstores import Chroma
 from langchain.chains.question_answering import load_qa_chain
 from langchain.prompts import PromptTemplate
 from langchain_community.document_loaders import PyPDFLoader
 from langchain_chroma import Chroma
+from langchain_community.vectorstores import Chroma
 #st.set_page_config(page_title="Document Genie", layout="wide")
 #    docs = loader.load()
 #    return docs
+def get_pdf_text(pdf_docs):
+    docs=[]
+    for pdf in pdf_docs:
+        loader = PyPDFLoader(temp_file)
+        docs.extend(loader.load())
+    return  docs
 def text_splitter(text):
     text_splitter = RecursiveCharacterTextSplitter(
     # Set a really small chunk size, just to show.
     chunks=text_splitter.split_documents(text)
     return chunks
+#GOOGLE_API_KEY = os.getenv("GOOGLE_API_KEY")
+#COHERE_API_KEY = os.getenv("COHERE_API_KEY")
 def get_conversational_chain():
     prompt_template = """
 def embedding(chunk,query):
     #embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")
+    #embeddings = CohereEmbeddings(model="embed-english-v3.0")
+    embeddings=HuggingFaceEmbeddings()
     db = Chroma.from_documents(chunk,embeddings)
     doc = db.similarity_search(query)
     print(doc)
 st.header("Chat with your pdf💁")
 with st.sidebar:
     st.title("PDF FILE UPLOAD:")
+    pdf_docs = st.file_uploader("Upload your PDF File and Click on the Submit & Process Button", accept_multiple_files=TRUE, key="pdf_uploader")
 query = st.chat_input("Ask a Question from the PDF File")
 if query:
+    for file in os.listdir(pdf_docs):
+        raw_text = get_pdf(file)
     text_chunks = text_splitter(raw_text)
     st.session_state.messages.append({'role': 'user', "content": query})
     response = embedding(text_chunks,query)