Spaces:

dx2102
/

llama-midi

Running on Zero

dx2102 commited on 16 days ago

Commit

feecefa

verified ·

1 Parent(s): 0d8d838

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -24,6 +24,7 @@ pipe = transformers.pipeline(
     torch_dtype="bfloat16",
     device="cuda",
 )
 print('Done')
 example_prefix = '''pitch duration wait velocity instrument
@@ -166,9 +167,9 @@ CPUs will be slower but there is no time limit.
     def model_fn(prefix, history, server):
         if server == "Huggingface ZeroGPU":
-            generator = zerogpu_model_fn(prefix, history)
         elif server == "CPU":
-            generator = cpu_model_fn(prefix, history)
         # elif server == "RunPod":
         #     generator = runpod_model_fn(prefix, history)
         else:
@@ -176,7 +177,7 @@ CPUs will be slower but there is no time limit.
         for history in generator:
             yield history
-    def cpu_model_fn(prefix, history):
         queue = Queue(maxsize=10)
         class MyStreamer:
             def put(self, tokens):
@@ -188,15 +189,12 @@ CPUs will be slower but there is no time limit.
             def end(self):
                 queue.put(None)
         def background_fn():
-            try:
-                result = pipe(
-                    prefix,
-                    streamer=MyStreamer(),
-                    max_new_tokens=500,
-                    top_p=0.9, temperature=0.6,
-                )
-            except queue.Full:
-                print("Queue is full. Exiting.")
             print('Generated text:')
             print(result[0]['generated_text'])
             print()

     torch_dtype="bfloat16",
     device="cuda",
 )
+cpu_pipe = pipe.to("cpu")
 print('Done')
 example_prefix = '''pitch duration wait velocity instrument
     def model_fn(prefix, history, server):
         if server == "Huggingface ZeroGPU":
+            generator = zerogpu_model_fn(prefix, history, pipe)
         elif server == "CPU":
+            generator = cpu_model_fn(prefix, history, cpu_pipe)
         # elif server == "RunPod":
         #     generator = runpod_model_fn(prefix, history)
         else:
         for history in generator:
             yield history
+    def cpu_model_fn(prefix, history, pipe):
         queue = Queue(maxsize=10)
         class MyStreamer:
             def put(self, tokens):
             def end(self):
                 queue.put(None)
         def background_fn():
+            result = pipe(
+                prefix,
+                streamer=MyStreamer(),
+                max_new_tokens=500,
+                top_p=0.9, temperature=0.6,
+            )
             print('Generated text:')
             print(result[0]['generated_text'])
             print()