Spaces:

jhj0517
/

Whisper-WebUI

Running

App Files Files Community

jhj0517 commited on Jul 14, 2024

Commit

f7c5695

1 Parent(s): 0c00704

Revert "add `silence_non_speech` parameter"

Browse files

This reverts commit b678293544dbce3ad7b234752336c86154dfb05a.

Files changed (2) hide show

modules/vad/silero_vad.py +10 -53
modules/whisper/whisper_base.py +0 -1

modules/vad/silero_vad.py CHANGED Viewed

@@ -1,6 +1,6 @@
 from faster_whisper.vad import VadOptions, get_vad_model
 import numpy as np
-from typing import BinaryIO, Union, List, Optional, Tuple
 import warnings
 import faster_whisper
 import gradio as gr
@@ -15,7 +15,6 @@ class SileroVAD:
     def run(self,
             audio: Union[str, BinaryIO, np.ndarray],
             vad_parameters: VadOptions,
-            silence_non_speech: bool = True,
             progress: gr.Progress = gr.Progress()):
         """
         Run VAD
@@ -26,8 +25,6 @@ class SileroVAD:
             Audio path or file binary or Audio numpy array
         vad_parameters:
             Options for VAD processing.
-        silence_non_speech: bool
-            If True, non-speech parts will be silenced instead of being removed.
         progress: gr.Progress
             Indicator to show progress directly in gradio.
@@ -43,32 +40,19 @@ class SileroVAD:
             audio = faster_whisper.decode_audio(audio, sampling_rate=sampling_rate)
         duration = audio.shape[0] / sampling_rate
         if vad_parameters is None:
             vad_parameters = VadOptions()
         elif isinstance(vad_parameters, dict):
             vad_parameters = VadOptions(**vad_parameters)
         speech_chunks = self.get_speech_timestamps(
             audio=audio,
             vad_options=vad_parameters,
             progress=progress
         )
-        audio, duration_diff = self.collect_chunks(
-            audio=audio,
-            chunks=speech_chunks,
-            silence_non_speech=silence_non_speech
-        )
-        if silence_non_speech:
-            print(
-                f"VAD filter silenced {self.format_timestamp(duration_diff)} of audio.",
-            )
-        else:
-            print(
-                f"VAD filter removed {self.format_timestamp(duration_diff)} of audio",
-            )
         return audio
@@ -224,41 +208,13 @@ class SileroVAD:
     def update_model(self):
         self.model = get_vad_model()
-    def collect_chunks(
-        self,
-        audio: np.ndarray,
-        chunks: List[dict],
-        silence_non_speech: bool = True,
-    ) -> Tuple[np.ndarray, float]:
-        """Collects and concatenate audio chunks.
-        Args:
-          audio: One dimensional float array.
-          chunks: List of dictionaries containing start and end samples of speech chunks
-          silence_non_speech: If True, non-speech parts will be silenced instead of being removed.
-        Returns:
-          Tuple containing:
-            - Processed audio as a numpy array
-            - Duration of changed (silenced or removed) audio in seconds
-        """
         if not chunks:
-            return np.array([], dtype=np.float32), 0.0
-        total_samples = audio.shape[0]
-        speech_samples = sum(chunk["end"] - chunk["start"] for chunk in chunks)
-        changed_samples = total_samples - speech_samples
-        duration_difference = changed_samples / self.sampling_rate
-        if not silence_non_speech:
-            processed_audio = np.concatenate([audio[chunk["start"]: chunk["end"]] for chunk in chunks])
-        else:
-            processed_audio = np.zeros_like(audio)
-            for chunk in chunks:
-                start, end = chunk['start'], chunk['end']
-                processed_audio[start:end] = audio[start:end]
-        return processed_audio, duration_difference
     @staticmethod
     def format_timestamp(
@@ -282,3 +238,4 @@ class SileroVAD:
         return (
             f"{hours_marker}{minutes:02d}:{seconds:02d}{decimal_marker}{milliseconds:03d}"
         )

 from faster_whisper.vad import VadOptions, get_vad_model
 import numpy as np
+from typing import BinaryIO, Union, List, Optional
 import warnings
 import faster_whisper
 import gradio as gr
     def run(self,
             audio: Union[str, BinaryIO, np.ndarray],
             vad_parameters: VadOptions,
             progress: gr.Progress = gr.Progress()):
         """
         Run VAD
             Audio path or file binary or Audio numpy array
         vad_parameters:
             Options for VAD processing.
         progress: gr.Progress
             Indicator to show progress directly in gradio.
             audio = faster_whisper.decode_audio(audio, sampling_rate=sampling_rate)
         duration = audio.shape[0] / sampling_rate
+        duration_after_vad = duration
         if vad_parameters is None:
             vad_parameters = VadOptions()
         elif isinstance(vad_parameters, dict):
             vad_parameters = VadOptions(**vad_parameters)
         speech_chunks = self.get_speech_timestamps(
             audio=audio,
             vad_options=vad_parameters,
             progress=progress
         )
+        audio = self.collect_chunks(audio, speech_chunks)
+        duration_after_vad = audio.shape[0] / sampling_rate
         return audio
     def update_model(self):
         self.model = get_vad_model()
+    @staticmethod
+    def collect_chunks(audio: np.ndarray, chunks: List[dict]) -> np.ndarray:
+        """Collects and concatenates audio chunks."""
         if not chunks:
+            return np.array([], dtype=np.float32)
+        return np.concatenate([audio[chunk["start"]: chunk["end"]] for chunk in chunks])
     @staticmethod
     def format_timestamp(
         return (
             f"{hours_marker}{minutes:02d}:{seconds:02d}{decimal_marker}{milliseconds:03d}"
         )

modules/whisper/whisper_base.py CHANGED Viewed

@@ -96,7 +96,6 @@ class WhisperBase(ABC):
             audio = self.vad.run(
                 audio=audio,
                 vad_parameters=vad_options,
-                silence_non_speech=True,
                 progress=progress
             )

             audio = self.vad.run(
                 audio=audio,
                 vad_parameters=vad_options,
                 progress=progress
             )