SLM-RAG-Arena

Running on Zero

App Files Files Community

aizip-dev commited on May 22

Commit

217c4d4

verified ·

1 Parent(s): c1f1ebf

Update inference interruption

Browse files

Files changed (1) hide show

utils/models.py +9 -10

utils/models.py CHANGED Viewed

@@ -1,4 +1,7 @@
 import os
 os.environ["MKL_THREADING_LAYER"] = "GNU"
 import spaces
@@ -209,10 +212,8 @@ def run_inference(model_name, context, question):
             result = pipe(
                 text_input,
                 max_new_tokens=512,
-                generation_kwargs={
-                    "skip_special_tokens": True,
-                    "stopping_criteria": [interrupt_criteria]  # ADD INTERRUPT SUPPORT
-                },
             )[0]["generated_text"]
             result = result[-1]["content"]
@@ -245,7 +246,7 @@ def run_inference(model_name, context, question):
                     max_new_tokens=512,
                     eos_token_id=tokenizer.eos_token_id,
                     pad_token_id=tokenizer.pad_token_id,
-                    stopping_criteria=[interrupt_criteria]  # ADD INTERRUPT SUPPORT
                 )
             generated_token_ids = output_sequences[0][prompt_tokens_length:]
@@ -265,7 +266,7 @@ def run_inference(model_name, context, question):
         #         output_sequences = bitnet_model.generate(
         #             **formatted,
         #             max_new_tokens=512,
-        #             stopping_criteria=[interrupt_criteria]  # ADD INTERRUPT SUPPORT
         #         )
         #         result = tokenizer.decode(output_sequences[0][formatted['input_ids'].shape[-1]:], skip_special_tokens=True)
@@ -282,10 +283,8 @@ def run_inference(model_name, context, question):
             outputs = pipe(
                 formatted,
                 max_new_tokens=512,
-                generation_kwargs={
-                    "skip_special_tokens": True,
-                    "stopping_criteria": [interrupt_criteria]  # ADD INTERRUPT SUPPORT
-                },
             )
             # print(outputs[0]['generated_text'])
             result = outputs[0]["generated_text"][input_length:]

 import os
+# Add Dynamo error suppression
+import torch._dynamo
+torch._dynamo.config.suppress_errors = True
 os.environ["MKL_THREADING_LAYER"] = "GNU"
 import spaces
             result = pipe(
                 text_input,
                 max_new_tokens=512,
+                stopping_criteria=[interrupt_criteria],  # Direct parameter for pipelines
+                generation_kwargs={"skip_special_tokens": True}
             )[0]["generated_text"]
             result = result[-1]["content"]
                     max_new_tokens=512,
                     eos_token_id=tokenizer.eos_token_id,
                     pad_token_id=tokenizer.pad_token_id,
+                    stopping_criteria=[interrupt_criteria]  # Direct parameter for model.generate
                 )
             generated_token_ids = output_sequences[0][prompt_tokens_length:]
         #         output_sequences = bitnet_model.generate(
         #             **formatted,
         #             max_new_tokens=512,
+        #             stopping_criteria=[interrupt_criteria]
         #         )
         #         result = tokenizer.decode(output_sequences[0][formatted['input_ids'].shape[-1]:], skip_special_tokens=True)
             outputs = pipe(
                 formatted,
                 max_new_tokens=512,
+                stopping_criteria=[interrupt_criteria],  # Direct parameter for pipelines
+                generation_kwargs={"skip_special_tokens": True}
             )
             # print(outputs[0]['generated_text'])
             result = outputs[0]["generated_text"][input_length:]