Spaces:

amaai-lab
/

music2emo

Running on Zero

App Files Files Community

kjysmu commited on Apr 8

Commit

a46ea05

verified ·

1 Parent(s): 346d95d

Update app.py

Browse files

Files changed (1) hide show

app.py +46 -30

app.py CHANGED Viewed

@@ -202,23 +202,24 @@ def resample_waveform(waveform, original_sample_rate, target_sample_rate):
 #         segments.append(waveform)
 #     return segments
-def split_audio(waveform, sample_rate):
-    segment_samples = segment_duration * sample_rate
-    total_samples = waveform.size(0)
-    # Pad if shorter than one segment
-    if total_samples < segment_samples:
-        pad_size = segment_samples - total_samples
-        waveform = torch.nn.functional.pad(waveform, (0, pad_size))
-    segments = []
-    for start in range(0, waveform.size(0), segment_samples):
-        end = start + segment_samples
-        if end <= waveform.size(0):
-            segment = waveform[start:end]
-            segments.append(segment)
-    return segments
 # def split_audio(waveform, sample_rate, segment_duration=10):
 #     segment_samples = segment_duration * sample_rate
@@ -239,23 +240,23 @@ def split_audio(waveform, sample_rate):
 #     return segments
-# def split_audio(waveform, sample_rate):
-#     segment_samples = segment_duration * sample_rate
-#     total_samples = waveform.size(0)
-#     segments = []
-#     for start in range(0, total_samples, segment_samples):
-#         end = start + segment_samples
-#         if end <= total_samples:
-#             segment = waveform[start:end]
-#             segments.append(segment)
-#     # In case audio length is shorter than segment length.
-#     if len(segments) == 0:
-#         segment = waveform
-#         segments.append(segment)
-#     return segments
 def safe_remove_dir(directory):
@@ -380,8 +381,14 @@ class Music2emo:
             waveform = waveform.mean(dim=0).unsqueeze(0)
         waveform = waveform.squeeze()
         waveform, sample_rate = resample_waveform(waveform, sample_rate, resample_rate)
-        if is_split:
             segments = split_audio(waveform, sample_rate)
             for i, segment in enumerate(segments):
                 segment_save_path = os.path.join(mert_dir, f"segment_{i}.npy")
@@ -389,6 +396,15 @@ class Music2emo:
         else:
             segment_save_path = os.path.join(mert_dir, f"segment_0.npy")
             self.feature_extractor.extract_features_from_segment(waveform, sample_rate, segment_save_path)
         embeddings = []
         layers_to_extract = [5,6]

 #         segments.append(waveform)
 #     return segments
+# def split_audio(waveform, sample_rate):
+#     segment_samples = segment_duration * sample_rate
+#     total_samples = waveform.size(0)
+#     # Pad if shorter than one segment
+#     if total_samples < segment_samples:
+#         pad_size = segment_samples - total_samples
+#         waveform = torch.nn.functional.pad(waveform, (0, pad_size))
+#     segments = []
+#     for start in range(0, waveform.size(0), segment_samples):
+#         end = start + segment_samples
+#         if end <= waveform.size(0):
+#             segment = waveform[start:end]
+#             segments.append(segment)
+#     return segments
 # def split_audio(waveform, sample_rate, segment_duration=10):
 #     segment_samples = segment_duration * sample_rate
 #     return segments
+def split_audio(waveform, sample_rate):
+    segment_samples = segment_duration * sample_rate
+    total_samples = waveform.size(0)
+    segments = []
+    for start in range(0, total_samples, segment_samples):
+        end = start + segment_samples
+        if end <= total_samples:
+            segment = waveform[start:end]
+            segments.append(segment)
+    # In case audio length is shorter than segment length.
+    if len(segments) == 0:
+        segment = waveform
+        segments.append(segment)
+    return segments
 def safe_remove_dir(directory):
             waveform = waveform.mean(dim=0).unsqueeze(0)
         waveform = waveform.squeeze()
         waveform, sample_rate = resample_waveform(waveform, sample_rate, resample_rate)
+        # 🔍 Check duration
+        duration_sec = waveform.shape[-1] / sample_rate
+        is_split = duration_sec <= 30.0
+        print(f"Audio duration: {duration_sec:.2f} seconds | is_split = {is_split}")
+        if is_split:
             segments = split_audio(waveform, sample_rate)
             for i, segment in enumerate(segments):
                 segment_save_path = os.path.join(mert_dir, f"segment_{i}.npy")
         else:
             segment_save_path = os.path.join(mert_dir, f"segment_0.npy")
             self.feature_extractor.extract_features_from_segment(waveform, sample_rate, segment_save_path)
+        # if is_split:
+        #     segments = split_audio(waveform, sample_rate)
+        #     for i, segment in enumerate(segments):
+        #         segment_save_path = os.path.join(mert_dir, f"segment_{i}.npy")
+        #         self.feature_extractor.extract_features_from_segment(segment, sample_rate, segment_save_path)
+        # else:
+        #     segment_save_path = os.path.join(mert_dir, f"segment_0.npy")
+        #     self.feature_extractor.extract_features_from_segment(waveform, sample_rate, segment_save_path)
         embeddings = []
         layers_to_extract = [5,6]