Spaces:

suprimedev
/

speh33

Build error

App Files Files Community

suprimedev commited on Oct 22

Commit

82d3cca

verified ·

1 Parent(s): de1a5be

Update app.py

Browse files

Files changed (1) hide show

app.py +52 -170

app.py CHANGED Viewed

@@ -1,192 +1,74 @@
 import gradio as gr
 import speech_recognition as sr
-import numpy as np
 from pydub import AudioSegment
-import io
-import wave
-import threading
-import queue
-import time
 import os
 # تنظیمات اولیه
 recognizer = sr.Recognizer()
 recognizer.energy_threshold = 300
 recognizer.dynamic_energy_threshold = True
-recognizer.dynamic_energy_ratio = 1.5
-# صف برای پردازش asynchronous
-audio_queue = queue.Queue()
-transcript_queue = queue.Queue()
-# متغیرهای نمایش متن
-current_transcript = ""
-current_transcript_lock = threading.Lock()
-def convert_numpy_to_wav(audio_data, sample_rate=16000):
-    """تعداد به فرمت WAV با نرمال‌سازی"""
-    buffer = io.BytesIO()
-    with wave.open(buffer, 'wb') as wav_file:
-        wav_file.setnchannels(1)
-        wav_file.setsampwidth(2)
-        wav_file.setframerate(sample_rate)
-        wav_file.writeframes(np.int16(audio_data * 32767))
-    buffer.seek(0)
-    return AudioSegment.from_wav(buffer)
 def process_audio_chunk(audio_chunk):
     """پردازش یک قطعه صوتی"""
     try:
-        with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp_file:
-            tmp_path = tmp_file.name
-            audio_segment = convert_numpy_to_wav(audio_chunk)
-            audio_segment.export(tmp_path, format="wav")
-            with sr.AudioFile(tmp_path) as source:
-                audio = recognizer.record(source)
-            # تلاش با فارسی اول
-            try:
-                text = recognizer.recognize_google(audio, language='fa-IR')
-            except sr.UnknownValueError:
-                # اگر فارسی معتبر نباشد، با انگلیسی تلاش کنیم
-                try:
-                    text = recognizer.recognize_google(audio, language='en-US')
-                except:
-                    text = ""
-            except sr.RequestError:
-                text = "[خطا در اتصال]"
-            os.unlink(tmp_path)  # پاک کردن فایل موقت
-            return text.strip()
     except Exception as e:
-        print(f"خطا در پردازش: {e}")
-        return ""
-def monitor_audio(audio_input):
-    """م’environیک بلند کردن و پردازش"""
-    for i in range(0, len(audio_input), 16000):
-        chunk = audio_input[i:i+16000]
-        if len(chunk) < 16000:
-            continue
-        audio_queue.put((chunk, 16000))
-def update_transcript():
-    """به‌روزرسانی متن به‌رو"""
-    while True:
-        if not transcript_queue.empty():
-            new_text = transcript_queue.get()
-            with current_transcript_lock:
-                nonlocal current_transcript
-                current_transcript += " " + new_text
-                current_transcript = " ".join(current_transcript.split())
-        time.sleep(0.1)
-# رابط کاربری با Gradio
-with gr.Blocks(title="گستره گفتار به متن", theme=gr.themes.Soft(), css="""
-    .gradio-container { font-family: 'Vazir', 'Tahoma', sans-serif !important; }
-    .rtl { direction: rtl; text-align: right; }
-""") as demo:
-    # صفحه اصلی
-    gr.Markdown("""
-    # 🎤 تبدیل گفتار به متن
-    ابزار قدرتمند تبدیل صدات را به متن با پشتیبانی از زبان فارسی و انگلیسی
-    """)
     # تب ضبط مستقیم
     with gr.TabItem("🎙️ ضبط مستقیم"):
-        gr.Markdown("### میکروفون خود را فعال کرده و شروع به صحبت کنید")
-        with gr.Row():
-            with gr.Column(scale=1):
-                audio_input = gr.Audio(
-                    sources=["microphone"],
-                    type="numpy",
-                    streaming=True,
-                    label="میکروفون",
-                    show_label=True
-                )
-            with gr.Column(scale=1):
-                clear_btn = gr.Button("🗑️ پاک کردن متن", variant="secondary")
-                realtime_output = gr.Textbox(
-                    label="متن تشخیص داده شده",
-                    placeholder="شروع به صحبت کنید و متن اینجا ظاهر می‌شود...",
-                    lines=12,
-                    elem_classes="rtl",
-                    rtl=True,
-                    show_copy_button=True
-                )
-        clear_btn.click(lambda: "", outputs=[realtime_output])
-        audio_input.stream(
-            lambda x: monitor_audio(x),
-            inputs=[audio_input],
-            outputs=[],
-            every=0.1
-        )
-        audio_input.stream(
-            lambda: update_transcript(),
-            inputs=[],
-            outputs=[realtime_output],
-            every=0.1
-        )
     # تب فایل صوتی
     with gr.TabItem("📁 فایل صوتی"):
-        gr.Markdown("### فایل صوتی خود را انتخاب کنید")
-        with gr.Row():
-            with gr.Column(scale=3):
-                file_input = gr.Audio(
-                    sources=["upload"],
-                    type="filepath",
-                    label="انتخاب فایل صوتی",
-                    elem_classes="rtl"
-                )
-            with gr.Column(scale=1):
-                chunk_duration = gr.Slider(
-                    minimum=10, maximum=60, value=30, step=5,
-                    label="مدت هر بخش (ثانیه)"
-                )
-                process_btn = gr.Button("🚀 شروع تبدیل", variant="primary")
-                status_label = gr.Textbox(label="وضعیت پردازش", interactive=False)
-            with gr.Column(scale=1):
-                save_btn = gr.Button("💾 ذخیره متن")
-                clear_file_btn = gr.Button("🗑️ پاک کردن")
-                download_file = gr.File(label="دانلود فایل متن", visible=False)
-        def process_file(audio_file, duration):
-            try:
-                audio = AudioSegment.from_file(audio_file)
-                results = []
-                for i in range(0, len(audio), duration*1000):
-                    chunk = audio[i:i+duration*1000]
-                    chunk_text = process_audio_chunk(np.array(chunk.get_array_of_samples()))
-                    results.append(chunk_text)
-                return " ".join(results), "تکمیل پردازش ✅"
-            except Exception as e:
-                return f"خطا: {str(e)}", "خطای پردازش ❌"
-        process_btn.click(
-            process_file,
-            inputs=[file_input, chunk_duration],
-            outputs=[realtime_output, status_label]
-        )
-        save_btn.click(
-            lambda x: gr.File.value(x),
-            inputs=[realtime_output],
-            outputs=[download_file]
-        ).then(
-            lambda: gr.update(visible=True),
-            outputs=[download_file]
-        )
-        clear_file_btn.click(
-            lambda: ("", ""),
-            outputs=[realtime_output, status_label]
-        )
-# اجرای برنامه
-if __name__ == "__main__":
-    demo.queue().launch(
-        share=True,
-        show_error=True,
-        favicon=__file__
-    )

+# کد اصلاح شده با توجه به مرحله بیگانگان به‌درستی اسکوپدهایع، бродریạ، و جستجوهایوسرا مدیریت می‌کند:
 import gradio as gr
 import speech_recognition as sr
 from pydub import AudioSegment
+import numpy as np
+import tempfile
 import os
 # تنظیمات اولیه
 recognizer = sr.Recognizer()
 recognizer.energy_threshold = 300
 recognizer.dynamic_energy_threshold = True
+# سرکننده صداهای واقعی
 def process_audio_chunk(audio_chunk):
     """پردازش یک قطعه صوتی"""
     try:
+        buffer = io.BytesIO()
+        with wave.open(buffer, 'wb') as wav_file:
+            wav_file.setnchannels(1)
+            wav_file.setsampwidth(2)
+            wav_file.setframerate(16000)
+            wav_file.writeframes(np.int16(audio_chunk * 32767))
+        with sr.AudioFile(io.BytesIO(buffer.getvalue())) as source:
+            audio = recognizer.record(source)
+        # تلاش با اولویت فارسی
+        try:
+            return recognizer.recognize_google(audio, language='fa-IR')
+        except sr.UnknownValueError:
+            return recognizer.recognize_google(audio, language='en-US', show_all=False)
     except Exception as e:
+        return "[خطا در تشخیص]"
+# رابط کاربری طراحی شده
+with gr.Blocks(title="گستره گفتار به متن", theme=gr.themes.Soft()) as demo:
+    gr.Markdown("# 🎙️ تبدیل گفتار به متن (پیش‌روز 2025)")
     # تب ضبط مستقیم
     with gr.TabItem("🎙️ ضبط مستقیم"):
+        audio_input = gr.Audio(type="numpy", label="میکروفون", streaming=True)
+        clear_btn = gr.Button("پاک کردن")
+        output = gr.Textbox(label="متن تشخیص داده‌شده", lines=12)
+        def update_transcript(audio, transcript):
+            output = ""
+            for segment in audio:
+                transcribed = process_audio_chunk(segment)
+                if transcribed:
+                    output += transcribed + " "
+            return output.strip()
+        audio_input.stream(update_transcript, inputs=[audio_input, gr.State("")], outputs=[output])
     # تب فایل صوتی
     with gr.TabItem("📁 فایل صوتی"):
+        file_input = gr.Audio(type="file", label="انتخاب فایل")
+        progress = gr.Textbox(label="وضعیت")
+        file_output = gr.Textbox(label="متن خروجی")
+        save_btn = gr.Button("ذخیره")
+        def process_file(audio_file, chunk_size=30000):
+            audio = AudioSegment.from_file(audio_file)
+            chunk_ms = chunk_size * 1000
+            results = []
+            for i in range(0, len(audio), chunk_ms):
+                chunk = audio[i:i+chunk_ms]
+                chunk_array = np.array(chunk.get_array_of_samples())
+                chunk_np = chunk_array.astype(np.float32) / 32767.0
+                recognized = process_audio_chunk(chunk_np)
+                results.append(recognized)
+            return " ".join(results)
+    demo.queue().launch(share=True)