Spaces:

reactallegany
/

promptlab

Runtime error

App Files Files Community

bditto commited on Apr 16

Commit

00c908c

verified ·

1 Parent(s): 5cd3d8d

Update app.py

Browse files

Files changed (1) hide show

app.py +33 -50

app.py CHANGED Viewed

@@ -1,88 +1,71 @@
 import gradio as gr
 import torch
-from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer, pipeline
 from threading import Thread
 import random
-# Use CPU-friendly configuration 🖥️
-model_name = "HuggingFaceH4/zephyr-7b-beta"
 device = "cuda" if torch.cuda.is_available() else "cpu"
-# Load model with CPU optimization
 model = AutoModelForCausalLM.from_pretrained(
     model_name,
     device_map="auto",
-    torch_dtype=torch.float32,
     low_cpu_mem_usage=True
 )
 tokenizer = AutoTokenizer.from_pretrained(model_name)
-# Safety tools 🛡️
 BLOCKED_WORDS = ["violence", "hate", "gun", "personal"]
-SAFE_IDEAS = [
-    "Design a robot to clean parks 🌳",
-    "Code a game about recycling ♻️",
-    "Plan an AI tool for school safety 🚸"
-]
-safety_checker = pipeline("text-classification", model="unitary/toxic-bert")
 def is_safe(text):
     text = text.lower()
-    if any(bad_word in text for bad_word in BLOCKED_WORDS):
-        return False
-    result = safety_checker(text)[0]
-    return not (result["label"] == "toxic" and result["score"] > 0.7)
 def respond(message, history, system_message, max_tokens, temperature, top_p):
     if not is_safe(message):
         return f"🚫 Let's focus on positive projects! Try: {random.choice(SAFE_IDEAS)}"
-    messages = [{"role": "system", "content": system_message}]
-    for user_msg, bot_msg in history[-3:]:  # Reduce history length for CPU
-        if user_msg:
-            messages.append({"role": "user", "content": user_msg})
-        if bot_msg:
-            messages.append({"role": "assistant", "content": bot_msg})
-    messages.append({"role": "user", "content": message})
-    inputs = tokenizer.apply_chat_template(
-        messages,
-        return_tensors="pt"
-    ).to(model.device)
-    streamer = TextIteratorStreamer(tokenizer, skip_prompt=True)
-    generation_kwargs = {
-        "inputs": inputs,
-        "max_new_tokens": min(max_tokens, 256),  # Limit tokens for CPU
-        "temperature": temperature,
-        "top_p": top_p,
-        "streamer": streamer
-    }
-    thread = Thread(target=model.generate, kwargs=generation_kwargs)
-    thread.start()
-    partial_message = ""
-    for new_token in streamer:
-        partial_message += new_token
-        yield partial_message
 with gr.Blocks() as demo:
     gr.Markdown("# 🤖 REACT Ethical AI Lab")
     gr.ChatInterface(
         respond,
         additional_inputs=[
-            gr.Textbox("You help students create ethical AI projects.", label="Guidelines"),
-            gr.Slider(64, 512, value=256, label="Max Response Length"),
-            gr.Slider(0.1, 1.0, value=0.5, label="Creativity Level"),
-            gr.Slider(0.7, 1.0, value=0.9, label="Focus Level")
         ],
         examples=[
-            ["How to build a robot that plants trees?"],
-            ["Python code for a pollution sensor"]
         ]
     )

 import gradio as gr
 import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 from threading import Thread
 import random
+# Configuration 🛠️
+model_name = "microsoft/phi-3-mini-4k-instruct"
 device = "cuda" if torch.cuda.is_available() else "cpu"
+# Load model with memory optimizations
 model = AutoModelForCausalLM.from_pretrained(
     model_name,
+    torch_dtype=torch.float16 if device == "cuda" else torch.float32,
     device_map="auto",
     low_cpu_mem_usage=True
 )
 tokenizer = AutoTokenizer.from_pretrained(model_name)
+# Safety tools 🛡️ (simplified)
 BLOCKED_WORDS = ["violence", "hate", "gun", "personal"]
+SAFE_IDEAS = ["Design a robot to clean parks 🌳", "Code a recycling game ♻️"]
 def is_safe(text):
     text = text.lower()
+    return not any(bad_word in text for bad_word in BLOCKED_WORDS)
 def respond(message, history, system_message, max_tokens, temperature, top_p):
     if not is_safe(message):
         return f"🚫 Let's focus on positive projects! Try: {random.choice(SAFE_IDEAS)}"
+    # Create prompt with limited history
+    prompt = f"System: {system_message}\n"
+    for user, bot in history[-2:]:  # Keep only last 2 exchanges
+        prompt += f"User: {user}\nAssistant: {bot}\n"
+    prompt += f"User: {message}\nAssistant:"
+    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
+    # Generation settings
+    generation_kwargs = dict(
+        inputs.input_ids,
+        max_new_tokens=min(max_tokens, 256),
+        temperature=min(temperature, 0.7),
+        top_p=top_p,
+        do_sample=True,
+        pad_token_id=tokenizer.eos_token_id
+    )
+    # Generate response
+    outputs = model.generate(**generation_kwargs)
+    response = tokenizer.decode(outputs[0][inputs.input_ids.shape[-1]:], skip_special_tokens=True)
+    yield response
 with gr.Blocks() as demo:
     gr.Markdown("# 🤖 REACT Ethical AI Lab")
     gr.ChatInterface(
         respond,
         additional_inputs=[
+            gr.Textbox("Help students create ethical AI projects", label="Guidelines"),
+            gr.Slider(64, 256, value=128, label="Max Length"),
+            gr.Slider(0.1, 0.7, value=0.3, label="Creativity"),
+            gr.Slider(0.5, 1.0, value=0.9, label="Focus")
         ],
         examples=[
+            ["How to make a solar-powered robot?"],
+            ["Simple air quality sensor code"]
         ]
     )