Spaces:

minte-atnafu
/

GihonTech_Local_Language_Transcription

Sleeping

App Files Files Community

Minte commited on Oct 8

Commit

e61d7b5

1 Parent(s): d191a12

Fix Afan Oromo model processing and improve error handling

Browse files

Files changed (1) hide show

app.py +21 -8

app.py CHANGED Viewed

@@ -63,7 +63,7 @@ except Exception as e:
     print("[ERROR] Failed to load SeamlessM4T model:", e)
     traceback.print_exc()
-# Load Afan Oromo model
 try:
     oromo_processor = AutoProcessor.from_pretrained("osanseviero/seamless-copy")
     oromo_model = AutoModelForSpeechSeq2Seq.from_pretrained("osanseviero/seamless-copy").to("cpu")
@@ -117,15 +117,28 @@ def transcribe_audio(audio_file, language):
             transcription = processor.batch_decode(predicted_ids)[0]
         elif language == "Afan Oromo":
-            # Seamless-copy processing
-            inputs = processor(audios=audio, sampling_rate=16000, return_tensors="pt")
-            with torch.no_grad():
-                generated_ids = model.generate(**inputs, tgt_lang=LANGUAGE_CONFIG[language]["code"])
-            transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
         else:
-            # Standard SeamlessM4T processing
-            inputs = processor(audios=audio, sampling_rate=16000, return_tensors="pt")
             with torch.no_grad():
                 generated_ids = model.generate(**inputs, tgt_lang=LANGUAGE_CONFIG[language]["code"])
             transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

     print("[ERROR] Failed to load SeamlessM4T model:", e)
     traceback.print_exc()
+# Load Afan Oromo model - FIXED IMPLEMENTATION
 try:
     oromo_processor = AutoProcessor.from_pretrained("osanseviero/seamless-copy")
     oromo_model = AutoModelForSpeechSeq2Seq.from_pretrained("osanseviero/seamless-copy").to("cpu")
             transcription = processor.batch_decode(predicted_ids)[0]
         elif language == "Afan Oromo":
+            # FIXED: Afan Oromo uses different processing
+            # The seamless-copy model might work differently
+            try:
+                # Try without tgt_lang first
+                inputs = processor(audio=audio, sampling_rate=16000, return_tensors="pt")  # FIXED: audio instead of audios
+                with torch.no_grad():
+                    generated_ids = model.generate(**inputs)
+                transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
+            except Exception as oromo_error:
+                print(f"[WARNING] Afan Oromo standard processing failed: {oromo_error}")
+                # Fallback: try with text generation
+                try:
+                    inputs = processor(audio=audio, sampling_rate=16000, return_tensors="pt")
+                    with torch.no_grad():
+                        outputs = model(**inputs)
+                    transcription = processor.decode(outputs.logits.argmax(dim=-1)[0])
+                except Exception as fallback_error:
+                    transcription = f"Afan Oromo transcription failed: {str(fallback_error)[:100]}"
         else:
+            # Standard SeamlessM4T processing - FIXED: audio instead of audios
+            inputs = processor(audio=audio, sampling_rate=16000, return_tensors="pt")  # FIXED HERE
             with torch.no_grad():
                 generated_ids = model.generate(**inputs, tgt_lang=LANGUAGE_CONFIG[language]["code"])
             transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]