Spaces:

datasets-topics
/

topics-generator

Runtime error

App Files Files Community

asoria commited on Oct 11, 2024

Commit

abbebb7

1 Parent(s): fd054e7

Adding progress bar

Browse files

Files changed (1) hide show

app.py +21 -6

app.py CHANGED Viewed

@@ -26,7 +26,7 @@ from sentence_transformers import SentenceTransformer
 from dotenv import load_dotenv
 import os
-import spaces
 import gradio as gr
@@ -132,13 +132,13 @@ def get_docs_from_parquet(parquet_urls, column, offset, limit):
     return df[column].tolist()
-@spaces.GPU
 # TODO: Modify batch size to reduce memory consumption during embedding calculation, which value is better?
 def calculate_embeddings(docs):
     return sentence_model.encode(docs, show_progress_bar=True, batch_size=32)
-@spaces.GPU
 def fit_model(docs, embeddings):
     global global_topic_model
@@ -177,6 +177,11 @@ def generate_topics(dataset, config, split, column, nested_column):
     all_docs = []
     reduced_embeddings_list = []
     topics_info, topic_plot = None, None
     while offset < limit:
         docs = get_docs_from_parquet(parquet_urls, column, offset, chunk_size)
         if not docs:
@@ -220,14 +225,23 @@ def generate_topics(dataset, config, split, column, nested_column):
         )
         logging.info(f"Topics: {repr_model_topics}")
-        yield topics_info, topic_plot
         offset += chunk_size
     logging.info("Finished processing all data")
     cuda.empty_cache()  # Clear cache at the end of each chunk
-    return topics_info, topic_plot
 with gr.Blocks() as demo:
@@ -267,6 +281,7 @@ with gr.Blocks() as demo:
         generate_button = gr.Button("Generate Topics", variant="primary")
     gr.Markdown("## Datamap")
     topics_plot = gr.Plot()
     with gr.Accordion("Topics Info", open=False):
         topics_df = gr.DataFrame(interactive=False, visible=True)
@@ -279,7 +294,7 @@ with gr.Blocks() as demo:
             text_column_dropdown,
             nested_text_column_dropdown,
         ],
-        outputs=[topics_df, topics_plot],
     )
     def _resolve_dataset_selection(

 from dotenv import load_dotenv
 import os
+# import spaces
 import gradio as gr
     return df[column].tolist()
+# @spaces.GPU
 # TODO: Modify batch size to reduce memory consumption during embedding calculation, which value is better?
 def calculate_embeddings(docs):
     return sentence_model.encode(docs, show_progress_bar=True, batch_size=32)
+# @spaces.GPU
 def fit_model(docs, embeddings):
     global global_topic_model
     all_docs = []
     reduced_embeddings_list = []
     topics_info, topic_plot = None, None
+    yield (
+        gr.DataFrame(interactive=False, visible=True),
+        gr.Plot(visible=True),
+        gr.Label({f"⚙️ Generating topics {dataset}": 0.0}, visible=True),
+    )
     while offset < limit:
         docs = get_docs_from_parquet(parquet_urls, column, offset, chunk_size)
         if not docs:
         )
         logging.info(f"Topics: {repr_model_topics}")
+        progress = min(offset / limit, 1.0)
+        yield (
+            topics_info,
+            topic_plot,
+            gr.Label({f"⚙️ Generating topics {dataset}": progress}, visible=True),
+        )
         offset += chunk_size
     logging.info("Finished processing all data")
     cuda.empty_cache()  # Clear cache at the end of each chunk
+    return (
+        topics_info,
+        topic_plot,
+        gr.Label({f"⚙️ Generating topics {dataset}": 1.0}, visible=True),
+    )
 with gr.Blocks() as demo:
         generate_button = gr.Button("Generate Topics", variant="primary")
     gr.Markdown("## Datamap")
+    full_topics_generation_label = gr.Label(visible=False, show_label=False)
     topics_plot = gr.Plot()
     with gr.Accordion("Topics Info", open=False):
         topics_df = gr.DataFrame(interactive=False, visible=True)
             text_column_dropdown,
             nested_text_column_dropdown,
         ],
+        outputs=[topics_df, topics_plot, full_topics_generation_label],
     )
     def _resolve_dataset_selection(