Spaces:

OpenMOSS-Team
/

MOSS-Speech

Running on Zero

singularitys0 commited on Sep 30

Commit

cfb0d00

1 Parent(s): fbbbcab

fix

Files changed (2) hide show

utils/__pycache__/interface.cpython-310.pyc CHANGED Viewed

Binary files a/utils/__pycache__/interface.cpython-310.pyc and b/utils/__pycache__/interface.cpython-310.pyc differ

utils/interface.py CHANGED Viewed

@@ -36,7 +36,6 @@ class Inference:
             model_path, trust_remote_code=True, device_map="auto"
         ).eval()
-    @spaces.GPU(duration = 120)
     def forward(
         self,
         task: str,
@@ -55,7 +54,6 @@ class Inference:
         if system_prompt:
             full_conversation.append({"role": "system", "content": system_prompt})
         # Add previous turns from the formatted history
         full_conversation.extend(conversation_history_for_model)
@@ -90,18 +88,23 @@ class Inference:
         }
         generation_config = GenerationConfig(**generate_kwargs)
-        token_ids = self.model.generate(
-            input_ids=inputs["input_ids"].to(self.device),
-            attention_mask=inputs["attention_mask"].to(self.device),
-            generation_config=generation_config,
-            stopping_criteria=stopping_criteria
-        )
-        results = self.processor.decode(
-            token_ids.to(self.device),
-            output_modalities,
-            decoder_audio_prompt_path=decoder_audio_prompt_path
-        )
         # As per requirement, always one output modality, so take the first result
         response_obj = results[0]

             model_path, trust_remote_code=True, device_map="auto"
         ).eval()
     def forward(
         self,
         task: str,
         if system_prompt:
             full_conversation.append({"role": "system", "content": system_prompt})
         # Add previous turns from the formatted history
         full_conversation.extend(conversation_history_for_model)
         }
         generation_config = GenerationConfig(**generate_kwargs)
+        @spaces.GPU(duration = 120)
+        def gen_spaces():
+            token_ids = self.model.generate(
+                input_ids=inputs["input_ids"].to(self.device),
+                attention_mask=inputs["attention_mask"].to(self.device),
+                generation_config=generation_config,
+                stopping_criteria=stopping_criteria
+            )
+            results = self.processor.decode(
+                token_ids.to(self.device),
+                output_modalities,
+                decoder_audio_prompt_path=decoder_audio_prompt_path
+            )
+            return results
+        results = gen_spaces()
         # As per requirement, always one output modality, so take the first result
         response_obj = results[0]