myspace134v

Runtime error

App Files Files Community

rdune71 commited on Aug 31

Commit

e2a70cb

verified ·

1 Parent(s): 0053bb3

Update app.py

Browse files

Files changed (1) hide show

app.py +94 -26

app.py CHANGED Viewed

@@ -97,6 +97,39 @@ def tavily_search(query):
     except Exception as e:
         return f"Tavily search error: {str(e)}"
 def perform_search(query):
     """Perform search using Tavily"""
     if TAVILY_AVAILABLE and tavily_client:
@@ -151,7 +184,7 @@ def validate_history(chat_history):
     return validated
-def generate_with_streaming(messages, max_tokens=8192, temperature=0.7, top_p=0.9):
     """Generate text with streaming"""
     headers = {
         "Authorization": f"Bearer {HF_TOKEN}",
@@ -162,7 +195,7 @@ def generate_with_streaming(messages, max_tokens=8192, temperature=0.7, top_p=0.
     validated_messages = validate_history(messages)
     payload = {
-        "model": "DavidAU/OpenAi-GPT-oss-20b-abliterated-uncensored-NEO-Imatrix-gguf",
         "messages": validated_messages,
         "max_tokens": max_tokens,
         "temperature": temperature,
@@ -203,16 +236,19 @@ def generate_with_streaming(messages, max_tokens=8192, temperature=0.7, top_p=0.
     except Exception as e:
         yield f"Connection error: {str(e)}"
-def respond(message, chat_history, max_tokens, temperature, top_p, use_web_search):
     """Main response handler with conversation history"""
     if not message:
-        yield "", chat_history
         return
-    # Add preloaded context to the first message if history is empty
     if not chat_history:
-        preloaded_context = get_preloaded_context()
-        system_message = {"role": "system", "content": preloaded_context}
         chat_history = [system_message] + chat_history
     # Check if the message contains search results that need analysis
@@ -236,10 +272,10 @@ def respond(message, chat_history, max_tokens, temperature, top_p, use_web_searc
         # Generate analyzed response
         full_response = ""
-        for chunk in generate_with_streaming(analysis_history, max_tokens, temperature, top_p):
             if isinstance(chunk, str):
                 full_response = chunk
-                yield "", chat_history + [{"role": "user", "content": message}, {"role": "assistant", "content": full_response}]
         return
     # Check if we should perform a search
@@ -248,65 +284,97 @@ def respond(message, chat_history, max_tokens, temperature, top_p, use_web_searc
     # Always perform search if web search is enabled
     if use_web_search:
         search_result = perform_search(message)
-        yield "", chat_history + [user_message, {"role": "assistant", "content": search_result}]
         return
     # Normal flow - generate response
     current_history = chat_history + [user_message]
     full_response = ""
-    for chunk in generate_with_streaming(current_history, max_tokens, temperature, top_p):
         if isinstance(chunk, str):
             full_response = chunk
             # Break infinite loops
             if is_looping_content(full_response):
                 # Force search instead of looping
                 search_result = perform_search(message)
-                yield "", chat_history + [user_message, {"role": "assistant", "content": f"[LOOP DETECTED - PERFORMING SEARCH]\n{search_result}"}]
                 return
             # Stream the response
-            yield "", chat_history + [user_message, {"role": "assistant", "content": full_response}]
     # Check for tool calls after completion or break loops
     if is_looping_content(full_response):
         # Force search for looping content
         search_result = perform_search(message)
-        yield "", chat_history + [user_message, {"role": "assistant", "content": f"[LOOP DETECTED - PERFORMING SEARCH]\n{search_result}"}]
         return
     # Normal completion
-    yield "", chat_history + [user_message, {"role": "assistant", "content": full_response}]
 # Gradio Interface
 with gr.Blocks(title="GPT-OSS Chat") as demo:
     gr.Markdown("# 🤖 GPT-OSS 20B Chat")
     gr.Markdown(f"Chat with automatic web search capabilities\n\n**Current Date/Time**: {FORMATTED_DATE_TIME}")
-    chatbot = gr.Chatbot(height=500, type="messages")
-    msg = gr.Textbox(label="Message", placeholder="Ask anything...")
     with gr.Row():
-        submit = gr.Button("Send")
         clear = gr.Button("Clear")
     with gr.Accordion("Settings", open=False):
-        max_tokens = gr.Slider(50, 8192, value=8192, label="Max Tokens")
-        temperature = gr.Slider(0.1, 1.0, value=0.7, label="Temperature")
-        top_p = gr.Slider(0.1, 1.0, value=0.9, label="Top P")
         use_web_search = gr.Checkbox(label="Enable Web Search", value=True)
     submit.click(
         respond,
-        [msg, chatbot, max_tokens, temperature, top_p, use_web_search],
-        [msg, chatbot],
         queue=True
     )
     msg.submit(
         respond,
-        [msg, chatbot, max_tokens, temperature, top_p, use_web_search],
-        [msg, chatbot],
         queue=True
     )
     clear.click(lambda: None, None, chatbot, queue=False)
 if __name__ == "__main__":

     except Exception as e:
         return f"Tavily search error: {str(e)}"
+def truncate_history(messages, max_tokens=4000):
+    """Truncate conversation history to prevent context overflow"""
+    if not messages:
+        return []
+    # Simplified token estimation (4 chars ~ 1 token)
+    estimated_tokens = sum(len(msg.get("content", "")) for msg in messages) // 4
+    if estimated_tokens <= max_tokens:
+        return messages
+    # Truncate older messages
+    truncated = []
+    current_tokens = 0
+    # Keep system message if present
+    if messages and messages[0].get("role") == "system":
+        truncated.append(messages[0])
+        messages = messages[1:]
+    # Add recent messages up to token limit
+    for message in reversed(messages):
+        content = message.get("content", "")
+        message_tokens = len(content) // 4
+        if current_tokens + message_tokens > max_tokens:
+            break
+        truncated.insert(0, message)
+        current_tokens += message_tokens
+    return truncated
 def perform_search(query):
     """Perform search using Tavily"""
     if TAVILY_AVAILABLE and tavily_client:
     return validated
+def generate_with_streaming(messages, model, max_tokens=8192, temperature=0.7, top_p=0.9):
     """Generate text with streaming"""
     headers = {
         "Authorization": f"Bearer {HF_TOKEN}",
     validated_messages = validate_history(messages)
     payload = {
+        "model": model,
         "messages": validated_messages,
         "max_tokens": max_tokens,
         "temperature": temperature,
     except Exception as e:
         yield f"Connection error: {str(e)}"
+def respond(message, chat_history, model_choice, max_tokens, temperature, top_p, creativity, precision, system_prompt, use_web_search):
     """Main response handler with conversation history"""
     if not message:
+        yield "", chat_history, ""
         return
+    # Add custom system prompt or preloaded context
     if not chat_history:
+        if system_prompt:
+            system_message = {"role": "system", "content": system_prompt}
+        else:
+            preloaded_context = get_preloaded_context()
+            system_message = {"role": "system", "content": preloaded_context}
         chat_history = [system_message] + chat_history
     # Check if the message contains search results that need analysis
         # Generate analyzed response
         full_response = ""
+        for chunk in generate_with_streaming(analysis_history, model_choice, max_tokens, temperature * creativity, top_p * precision):
             if isinstance(chunk, str):
                 full_response = chunk
+                yield "", chat_history + [{"role": "user", "content": message}, {"role": "assistant", "content": full_response}], message
         return
     # Check if we should perform a search
     # Always perform search if web search is enabled
     if use_web_search:
         search_result = perform_search(message)
+        yield "", chat_history + [user_message, {"role": "assistant", "content": search_result}], search_result
         return
     # Normal flow - generate response
     current_history = chat_history + [user_message]
     full_response = ""
+    for chunk in generate_with_streaming(current_history, model_choice, max_tokens, temperature * creativity, top_p * precision):
         if isinstance(chunk, str):
             full_response = chunk
             # Break infinite loops
             if is_looping_content(full_response):
                 # Force search instead of looping
                 search_result = perform_search(message)
+                yield "", chat_history + [user_message, {"role": "assistant", "content": f"[LOOP DETECTED - PERFORMING SEARCH]\n{search_result}"}], search_result
                 return
             # Stream the response
+            yield "", chat_history + [user_message, {"role": "assistant", "content": full_response}], ""
     # Check for tool calls after completion or break loops
     if is_looping_content(full_response):
         # Force search for looping content
         search_result = perform_search(message)
+        yield "", chat_history + [user_message, {"role": "assistant", "content": f"[LOOP DETECTED - PERFORMING SEARCH]\n{search_result}"}], search_result
         return
     # Normal completion
+    yield "", chat_history + [user_message, {"role": "assistant", "content": full_response}], ""
 # Gradio Interface
 with gr.Blocks(title="GPT-OSS Chat") as demo:
     gr.Markdown("# 🤖 GPT-OSS 20B Chat")
     gr.Markdown(f"Chat with automatic web search capabilities\n\n**Current Date/Time**: {FORMATTED_DATE_TIME}")
+    with gr.Row():
+        chatbot = gr.Chatbot(height=500, type="messages", label="Conversation")
+    with gr.Row():
+        msg = gr.Textbox(label="Message", placeholder="Ask anything...", scale=9)
+        submit = gr.Button("Send", scale=1)
     with gr.Row():
         clear = gr.Button("Clear")
+    with gr.Accordion("Search Results", open=False):
+        search_results = gr.Textbox(label="Raw Search Data", interactive=False, max_lines=10)
     with gr.Accordion("Settings", open=False):
+        with gr.Row():
+            model_choice = gr.Dropdown(
+                choices=[
+                    "DavidAU/OpenAi-GPT-oss-20b-abliterated-uncensored-NEO-Imatrix-gguf",
+                    "other-model-variants"
+                ],
+                value="DavidAU/OpenAi-GPT-oss-20b-abliterated-uncensored-NEO-Imatrix-gguf",
+                label="Model"
+            )
+        with gr.Row():
+            max_tokens = gr.Slider(50, 8192, value=8192, label="Max Tokens")
+            temperature = gr.Slider(0.1, 1.0, value=0.7, label="Base Temperature")
+            top_p = gr.Slider(0.1, 1.0, value=0.9, label="Top P")
+        with gr.Row():
+            creativity = gr.Slider(0.1, 1.0, value=0.7, label="Creativity")
+            precision = gr.Slider(0.1, 1.0, value=0.9, label="Precision")
+        system_prompt = gr.Textbox(
+            label="System Prompt",
+            value="",
+            placeholder="Enter custom system prompt...",
+            max_lines=3
+        )
         use_web_search = gr.Checkbox(label="Enable Web Search", value=True)
+    # Event handling
     submit.click(
         respond,
+        [msg, chatbot, model_choice, max_tokens, temperature, top_p, creativity, precision, system_prompt, use_web_search],
+        [msg, chatbot, search_results],
         queue=True
     )
     msg.submit(
         respond,
+        [msg, chatbot, model_choice, max_tokens, temperature, top_p, creativity, precision, system_prompt, use_web_search],
+        [msg, chatbot, search_results],
         queue=True
     )
     clear.click(lambda: None, None, chatbot, queue=False)
 if __name__ == "__main__":