Spaces:

Nana
/

chathugginface

Sleeping

App Files Files Community

NanaAkwasiAbayieBoateng commited on Mar 16

Commit

61211fa

1 Parent(s): 180d9f2

Add application file

Browse files

Files changed (2) hide show

huggingface_streamlit.py +69 -0
requirements.txt +16 -0

huggingface_streamlit.py ADDED Viewed

	@@ -0,0 +1,69 @@

+import streamlit as st
+from transformers import AutoModelForCausalLM, AutoTokenizer
+import asyncio
+# Create a Streamlit app object
+st.sidebar.title("Lmstudio Demo")
+# Model selection options
+model_options = ["HuggingFaceTB/SmolLM-1.7B-Instruct", "HuggingFaceTB/SmolLM-360M-Instruct", "HuggingFaceTB/SmolLM-135M-Instruct"]
+default_model_option = model_options[1]
+model_selectbox = st.sidebar.selectbox("Language Model", options=model_options, index=1)
+# Temperature slider
+temperature_value = 0.5
+temperature_slider = st.sidebar.slider("Temperature", min_value=0.0, max_value=1.0, step=0.05, value=temperature_value, help="Controls the randomness of the generated text.")
+# Seed slider
+seed_value = 5238
+seed_slider = st.sidebar.slider("Seed", min_value=0, max_value=99999, step=1, value=seed_value, help="Controls randomness of token selection.")
+# Top P slider
+top_p_value = 0.75
+top_p_slider = st.sidebar.slider("Top P", min_value=0.0, max_value=1.0, step=0.05, value=top_p_value, help="Controls randomness and creativity.")
+# Response token length slider
+length_value = 256
+response_token_length_slider = st.sidebar.slider("Response Token", min_value=1, max_value=99999, step=16, value=length_value, help="Maximum tokens in response.")
+# Device selection
+device_type = "cpu"
+device_selectbox = st.sidebar.selectbox("Device Type", options=["cpu", "gpu"], index=0)
+# Asynchronous text generation function
+async def generate_response(prompt, device, model, top_p, temperature, max_new_tokens):
+    tokenizer = AutoTokenizer.from_pretrained(model)
+    model_instance = AutoModelForCausalLM.from_pretrained(model).to(device)
+    messages = [{"role": "user", "content": prompt}]
+    input_text = tokenizer.apply_chat_template(messages, tokenize=False)
+    inputs = tokenizer.encode(input_text, return_tensors="pt").to(device)
+    # Use asyncio.to_thread to run the blocking model.generate in a separate thread
+    loop = asyncio.get_running_loop()
+    output = await loop.run_in_executor(None, lambda: model_instance.generate(inputs, temperature=temperature, top_p=top_p, max_new_tokens=max_new_tokens, do_sample=True))
+    generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
+    return generated_text
+async def main():
+    st.title("Huggingface LLM App")
+    user_input = st.text_input("Enter your prompt:")
+    if st.button("Generate"):
+        if user_input:
+            with st.spinner("Generating response..."):
+                response = await generate_response(
+                    prompt=user_input,
+                    device=device_selectbox,
+                    model=model_selectbox,
+                    top_p=top_p_slider,
+                    temperature=temperature_slider,
+                    max_new_tokens=response_token_length_slider,
+                )
+            st.write("Model Response:")
+            st.write(response)
+        else:
+            st.warning("Please enter a prompt.")
+if __name__ == "__main__":
+    asyncio.run(main())

requirements.txt ADDED Viewed

	@@ -0,0 +1,16 @@

+chromadb==0.6.1
+langchain==0.3.13
+langchain-community==0.3.13
+langchain-core==0.3.28
+langchain-ollama==0.2.2
+langchain-text-splitters==0.3.4
+langsmith==0.2.4
+llvmlite==0.43.0
+ollama==0.4.4
+pydantic==2.10.4
+pydantic-settings==2.7.0
+pydantic_core==2.27.2
+streamlit==1.33.0
+sentencepiece==0.2.0
+asyncio==3.4.3
+transformers==4.47.1