Spaces:

suprimedev
/

speh33

Build error

App Files Files Community

suprimedev commited on 23 days ago

Commit

b4b418f

verified ·

1 Parent(s): 128a17b

Update app.py

Browse files

Files changed (1) hide show

app.py +217 -51

app.py CHANGED Viewed

@@ -1,74 +1,240 @@
-# کد اصلاح شده با توجه به مرحله بیگانگان به‌درستی اسکوپدهایع، бродریạ، و جستجوهایوسرا مدیریت می‌کند:
 import gradio as gr
 import speech_recognition as sr
 from pydub import AudioSegment
 import numpy as np
-import tempfile
 import os
 # تنظیمات اولیه
 recognizer = sr.Recognizer()
 recognizer.energy_threshold = 300
 recognizer.dynamic_energy_threshold = True
-# سرکننده صداهای واقعی
-def process_audio_chunk(audio_chunk):
-    """پردازش یک قطعه صوتی"""
     try:
-        buffer = io.BytesIO()
-        with wave.open(buffer, 'wb') as wav_file:
-            wav_file.setnchannels(1)
-            wav_file.setsampwidth(2)
-            wav_file.setframerate(16000)
-            wav_file.writeframes(np.int16(audio_chunk * 32767))
-        with sr.AudioFile(io.BytesIO(buffer.getvalue())) as source:
             audio = recognizer.record(source)
-        # تلاش با اولویت فارسی
         try:
-            return recognizer.recognize_google(audio, language='fa-IR')
         except sr.UnknownValueError:
-            return recognizer.recognize_google(audio, language='en-US', show_all=False)
     except Exception as e:
-        return "[خطا در تشخیص]"
-# رابط کاربری طراحی شده
-with gr.Blocks(title="گستره گفتار به متن", theme=gr.themes.Soft()) as demo:
-    gr.Markdown("# 🎙️ تبدیل گفتار به متن (پیش‌روز 2025)")
-    # تب ضبط مستقیم
-    with gr.TabItem("🎙️ ضبط مستقیم"):
-        audio_input = gr.Audio(type="numpy", label="میکروفون", streaming=True)
-        clear_btn = gr.Button("پاک کردن")
-        output = gr.Textbox(label="متن تشخیص داده‌شده", lines=12)
-        def update_transcript(audio, transcript):
-            output = ""
-            for segment in audio:
-                transcribed = process_audio_chunk(segment)
-                if transcribed:
-                    output += transcribed + " "
-            return output.strip()
-        audio_input.stream(update_transcript, inputs=[audio_input, gr.State("")], outputs=[output])
-    # تب فایل صوتی
-    with gr.TabItem("📁 فایل صوتی"):
-        file_input = gr.Audio(type="file", label="انتخاب فایل")
-        progress = gr.Textbox(label="وضعیت")
-        file_output = gr.Textbox(label="متن خروجی")
-        save_btn = gr.Button("ذخیره")
-        def process_file(audio_file, chunk_size=30000):
-            audio = AudioSegment.from_file(audio_file)
-            chunk_ms = chunk_size * 1000
-            results = []
-            for i in range(0, len(audio), chunk_ms):
-                chunk = audio[i:i+chunk_ms]
-                chunk_array = np.array(chunk.get_array_of_samples())
-                chunk_np = chunk_array.astype(np.float32) / 32767.0
-                recognized = process_audio_chunk(chunk_np)
-                results.append(recognized)
-            return " ".join(results)
-    demo.queue().launch(share=True)

 import gradio as gr
 import speech_recognition as sr
 from pydub import AudioSegment
 import numpy as np
+import io
+import wave
 import os
+import threading
+import queue
+from functools import lru_cache
 # تنظیمات اولیه
 recognizer = sr.Recognizer()
 recognizer.energy_threshold = 300
 recognizer.dynamic_energy_threshold = True
+# صف‌های پردازش real-time
+audio_queue = queue.Queue()
+transcript_queue = queue.Queue()
+# متغیرهای حفظ متن
+current_transcript = ""
+transcript_lock = threading.Lock()
+# تابع تبدیل numpy به فرمت WAV
+def numpy_to_wav(audio_data, sample_rate=16000):
+    """تعداد به فرمت WAV با نرمال‌سازی"""
+    buffer = io.BytesIO()
+    with wave.open(buffer, 'wb') as wav_file:
+        wav_file.setnchannels(1)
+        wav_file.setsampwidth(2)
+        wav_file.setframerate(sample_rate)
+        wav_file.writeframes(np.int16(audio_data * 32767))
+    buffer.seek(0)
+    return AudioSegment.from_wav(buffer)
+# پردازش یک قطعه صوتی
+@lru_cache(maxsize=128)
+def process_audio_chunk(chunk_data):
+    """پردازش یک قطعه صوتی با Google Speech Recognition"""
     try:
+        # تبدیل به وفرمت WAV
+        audio_segment = numpy_to_wav(chunk_data)
+        with sr.AudioFile(io.BytesIO(audio_segment.raw_data)) as source:
             audio = recognizer.record(source)
+        # تلاش با اولویت فارسی
         try:
+            text = recognizer.recognize_google(audio, language='fa-IR')
         except sr.UnknownValueError:
+            # اگر فارسی معتبر نباشد، با انگلیسی تلاش کنیم
+            text = recognizer.recognize_google(audio, language='en-US', show_all=False)
+        except sr.RequestError:
+            text = "[خطا در اتصال سرویس گوگل]"
+        except Exception as e:
+            text = ""
+        return text.strip()
     except Exception as e:
+        print(f"خطا در پردازش {e}")
+        return ""
+# تابع کمکی به real-time
+def update_realtime_transcript():
+    """به‌روزرسانی متن real-time"""
+    while True:
+        if not transcript_queue.empty():
+            new_text = transcript_queue.get()
+            with transcript_lock:
+                current_transcript += " " + new_text
+                current_transcript = " ".join(current_transcript.split())
+        time.sleep(0.1)
+# رابط کاربری با Gradio
+with gr.Blocks(
+    title="گستره گفتار به متن",
+    theme=gr.themes.Soft(),
+    css="""
+    .gradio-container { font-family: 'Vazir', 'Tahoma', sans-serif !important; }
+    .rtl { direction: rtl; text-align: right; }
+    """
+) as demo:
+    gr.HTML("""
+    <div style="text-align: center; max-width: 800px; margin: 0 auto;">
+        <h1 style="font-size: 2.5em; margin-bottom: 0.5em;">🎤 تبدیل گفتار به متن</h1>
+        <p style="font-size: 1.1em; color: #666; margin-bottom: 2em;">در این ابزار در حال برجسته‌سازی گفتارها را به فارسی یا انگلیسی تبدیل کنید.</p>
+    </div>
+    """)
+    with gr.Tabs():
+        # تب ضبط مستقیم
+        with gr.TabItem("🎙️ ضبط مستق��م"):
+            gr.Markdown("### میکروفون خود را فعال کرده و شروع به صحبت کنید")
+            with gr.Row():
+                with gr.Column(scale=1):
+                    audio_input = gr.Audio(
+                        sources=["microphone"],
+                        type="numpy",
+                        streaming=True,
+                        label="میکروفون",
+                        show_label=True,
+                        elem_classes="rtl"
+                    )
+                with gr.Column(scale=1):
+                    clear_btn = gr.Button("🗑️ پاک کردن متن", variant="secondary", size="sm")
+            realtime_output = gr.Textbox(
+                label="متن تشخیص داده شده",
+                placeholder="شروع به صحبت کنید و متن اینجا ظاهر می‌شود...",
+                lines=12,
+                elem_classes="rtl",
+                rtl=True,
+                show_copy_button=True
+            )
+            # sentait‌ها
+            audio_input.stream(
+                lambda x: process_audio_chunk(x),
+                inputs=[audio_input],
+                outputs=[]
+            )
+            audio_input.stream(
+                lambda: update_realtime_transcript(),
+                inputs=[],
+                outputs=[realtime_output],
+                every=0.5
+            )
+            clear_btn.click(
+                lambda: "",
+                outputs=[realtime_output]
+            )
+        # تب فایل صوتی
+        with gr.TabItem("📁 فایل صوتی"):
+            gr.Markdown("### فایل صوتی خود را انتخاب کنید")
+            with gr.Row():
+                with gr.Column(scale=3):
+                    file_input = gr.Audio(
+                        sources=["upload"],
+                        type="filepath",
+                        label="انتخاب فایل صوتی",
+                        elem_classes="rtl"
+                    )
+                with gr.Column(scale=1):
+                    chunk_duration = gr.Slider(
+                        minimum=10,
+                        maximum=60,
+                        value=30,
+                        step=5,
+                        label="مدت هر بخش (ثانیه)",
+                        elem_classes="rtl"
+                    )
+            with gr.Row():
+                process_btn = gr.Button("🚀 شروع تبدیل", variant="primary", size="lg")
+                progress_label = gr.Textbox(
+                    label="وضعیت پردازش",
+                    interactive=False,
+                    elem_classes="rtl"
+                )
+            file_output = gr.Textbox(
+                label="متن تشخیص داده شده",
+                placeholder="متن پس از پردازش اینجا نمایش داده می‌شود...",
+                lines=12,
+                elem_classes="rtl",
+                rtl=True,
+                show_copy_button=True
+            )
+            def safe_transcribe_file(file, duration):
+                """پردازش فایل صوتی با مدیریت خطا"""
+                if file is None:
+                    return "لطفاً یک فایل صوتی آپلود کنید", "شروع پردازش"
+                try:
+                    audio = AudioSegment.from_file(file)
+                    results = []
+                    total_chunks = len(audio) // (duration * 1000)
+                    for i in range(0, len(audio), duration*1000):
+                        chunk = audio[i:i+duration*1000]
+                        text = process_audio_chunk(np.array(chunk.get_array_of_samples()))
+                        if text:
+                            results.append(text)
+                        progress = min(((i + duration*1000) / len(audio)) * 100, 100)
+                        yield " ".join(results), f"پیشرفت: {progress:.1f}%"
+                    return " ".join(results), "تکمیل پردازش ✅"
+                except Exception as e:
+                    return f"خطا: {str(e)}", "خطا در پردازش ❌"
+            process_btn.click(
+                safe_transcribe_file,
+                inputs=[file_input, chunk_duration],
+                outputs=[file_output, progress_label]
+            )
+    # بخش راهنما
+    with gr.Accordion("📖 راهنمای استفاده", open=False, elem_classes="rtl"):
+        gr.Markdown("""
+        ### نحوه استفاده:
+        **برای ضبط مستقیم:**
+        1. به تب "ضبط مستقیم" بروید
+        2. اجازه دسترسی به میکروفون را بدهید
+        3. شروع به صحبت کنید
+        4. متن به صورت خودکار نمایش داده می‌شود
+        **برای فایل صوتی:**
+        1. به تب "فایل صوتی" بروید
+        2. فایل مورد نظر را انتخاب کنید
+        3. مدت زمان تقسیم‌بندی را تنظیم کنید (پیش‌فرض: ۳۰ ثانیه)
+        4. روی "شروع تبدیل" کلیک کنید
+        5. منتظر بمانید تا پردازش کامل شود
+        ### فرمت‌های پشتیبانی شده:
+        - MP3, WAV, M4A, FLAC, OGG, MP4, AVI, MOV
+        ### نکات مهم:
+        - 🎯 برای دقت بیشتر، از فایل‌های با کیفیت بالا استفاده کنید
+        - 🔇 نویز پس‌زمینه را به حداقل برسانید
+        - 🗣️ واضح و شمرده صحبت کنید
+        - 🌐 اتصال اینترنت پایدار داشته باشید
+        """, elem_classes="rtl")
+# ساخت و اجرای برنامه
+if __name__ == "__main__":
+    demo.queue().launch(
+        share=True,
+        show_error=True
+    )