Spaces:

andreasmartin
/

faq

Sleeping

andreasmartin commited on Jul 5, 2023

Commit

67bfb80

unverified ·

1 Parent(s): 7272f4f

Update

Files changed (2) hide show

app.py CHANGED Viewed

@@ -24,13 +24,8 @@ async def ask_api(request: AskRequest):
 @app.post("/api/v2/ask")
 async def ask_api(request: AskRequest):
-    faq_id = util.get_id(request.sheet_url)
-    xlsx_url = util.xlsx_url(faq_id)
-    df = util.read_df(xlsx_url)
-    df_update = util.split_page_breaks(df, request.page_content_column)
-    documents = faq.create_documents(df_update, request.page_content_column)
-    embedding_function = faq.define_embedding_function("sentence-transformers/all-mpnet-base-v2")
-    vectordb = faq.get_vectordb(faq_id=faq_id, embedding_function=embedding_function, documents=documents, vectordb_type=faq.VECTORDB_TYPE.Chroma)
     documents = faq.similarity_search(vectordb, request.question, k=request.k)
     df_doc = util.transform_documents_to_dataframe(documents)
     df_filter = util.remove_duplicates_by_column(df_doc, "ID")

 @app.post("/api/v2/ask")
 async def ask_api(request: AskRequest):
+    util.SPLIT_PAGE_BREAKS = True
+    vectordb = faq.load_vectordb(request.sheet_url, request.page_content_column)
     documents = faq.similarity_search(vectordb, request.question, k=request.k)
     df_doc = util.transform_documents_to_dataframe(documents)
     df_filter = util.remove_duplicates_by_column(df_doc, "ID")

util.py CHANGED Viewed

@@ -3,6 +3,7 @@ import pandas as pd
 SHEET_URL_X = "https://docs.google.com/spreadsheets/d/"
 SHEET_URL_Y = "/edit#gid="
 SHEET_URL_Y_EXPORT = "/export?gid="
 def get_id(sheet_url: str) -> str:
@@ -16,8 +17,11 @@ def xlsx_url(get_id: str) -> str:
     return SHEET_URL_X + get_id[0:y] + SHEET_URL_Y_EXPORT + get_id[y + 1 :]
-def read_df(xlsx_url: str) -> pd.DataFrame:
-    return pd.read_excel(xlsx_url, header=0, keep_default_na=False)
 def split_page_breaks(df, column_name):

 SHEET_URL_X = "https://docs.google.com/spreadsheets/d/"
 SHEET_URL_Y = "/edit#gid="
 SHEET_URL_Y_EXPORT = "/export?gid="
+SPLIT_PAGE_BREAKS = False
 def get_id(sheet_url: str) -> str:
     return SHEET_URL_X + get_id[0:y] + SHEET_URL_Y_EXPORT + get_id[y + 1 :]
+def read_df(xlsx_url: str, split_page_breaks: bool = SPLIT_PAGE_BREAKS) -> pd.DataFrame:
+    df = pd.read_excel(xlsx_url, header=0, keep_default_na=False)
+    if split_page_breaks:
+        df = split_page_breaks(df, page_content_column)
+    return df
 def split_page_breaks(df, column_name):