NewJapaneseLLM

Running on Zero

vilarin commited on May 23, 2024

Commit

edb9e8a

verified ·

1 Parent(s): fece758

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,9 +2,9 @@ import torch
 from PIL import Image
 import gradio as gr
 import spaces
-from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
 import os
-import time
 HF_TOKEN = os.environ.get("HF_TOKEN", None)
@@ -69,17 +69,24 @@ def stream_chat(message: str, history: list, temperature: float, max_new_tokens:
     input_ids = tokenizer.apply_chat_template(conversation, tokenize=True, add_generation_prompt=True, return_tensors="pt").to(model.device)
-    gen_tokens= model.generate(
         input_ids,
         max_new_tokens=max_new_tokens,
         do_sample=True,
         temperature=temperature,
     )
-    gen_text = tokenizer.batch_decode(gen_tokens[0], skip_special_tokens=True)
-    return gen_text
 chatbot = gr.Chatbot(height=450)

 from PIL import Image
 import gradio as gr
 import spaces
+from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig, TextIteratorStreamer
 import os
+from threading import Thread
 HF_TOKEN = os.environ.get("HF_TOKEN", None)
     input_ids = tokenizer.apply_chat_template(conversation, tokenize=True, add_generation_prompt=True, return_tensors="pt").to(model.device)
+    streamer = TextIteratorStreamer(tokenizer, **{"skip_special_tokens": True, "skip_prompt": True, 'clean_up_tokenization_spaces':False,})
+    generate_kwargs = dict(
         input_ids,
+        streamer=streamer,
         max_new_tokens=max_new_tokens,
         do_sample=True,
         temperature=temperature,
     )
+    thread = Thread(target=model.generate, kwargs=generate_kwargs)
+    thread.start()
+    buffer = ""
+    for new_text in streamer:
+        buffer += new_text
+        yield buffer
 chatbot = gr.Chatbot(height=450)