Spaces:

Azgadel
/

voice-biometry-demo

Sleeping

App Files Files Community

voice-biometry-demo / app.py

Azgadel

Bug Fixes

b251a32 verified 8 days ago

raw

history blame contribute delete

16.3 kB

	import os

	import gradio as gr
	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	import soundfile as sf
	import torchaudio
	from transformers import Wav2Vec2FeatureExtractor, Wav2Vec2Model
	import numpy as np
	import json

	# ============================================================
	# MODEL DEFINITION
	# ============================================================

	class Wav2Vec2ForSpeakerEmbedding(nn.Module):
	def __init__(self, embedding_size=256):
	super().__init__()
	self.wav2vec2 = Wav2Vec2Model.from_pretrained("facebook/wav2vec2-base")
	for param in self.wav2vec2.parameters():
	param.requires_grad = False

	self.projection = nn.Sequential(
	nn.Linear(768, 512),
	nn.ReLU(),
	nn.Dropout(0.1),
	nn.Linear(512, embedding_size)
	)

	def forward(self, input_values):
	outputs = self.wav2vec2(input_values)
	hidden_states = outputs.last_hidden_state
	embeddings = torch.mean(hidden_states, dim=1)
	embeddings = self.projection(embeddings)
	embeddings = F.normalize(embeddings, p=2, dim=1)
	return embeddings


	# ============================================================
	# GLOBAL SETUP
	# ============================================================

	device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

	# Load model
	model = Wav2Vec2ForSpeakerEmbedding(embedding_size=256).to(device)
	checkpoint = torch.load('best_embedding_model.pth', map_location=device)
	model.load_state_dict(checkpoint['model_state_dict'])
	model.eval()

	feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained("facebook/wav2vec2-base")


	# ============================================================
	# DATABASE
	# ============================================================

	class EnrollmentDB:
	def __init__(self, db_path='enrollments.json'):
	self.db_path = db_path
	self.load_db()

	def load_db(self):
	if os.path.exists(self.db_path):
	with open(self.db_path, 'r') as f:
	data = json.load(f)
	self.enrollments = {k: np.array(v) for k, v in data.items()}
	else:
	self.enrollments = {}

	def save_db(self):
	data = {k: v.tolist() for k, v in self.enrollments.items()}
	with open(self.db_path, 'w') as f:
	json.dump(data, f)

	def enroll(self, name, embedding):
	self.enrollments[name] = embedding
	self.save_db()

	def verify(self, embedding, threshold=0.75):
	if not self.enrollments:
	return None, 0.0, False

	best_match = None
	best_score = -1.0

	embedding_tensor = torch.from_numpy(embedding)

	for name, enrolled_emb in self.enrollments.items():
	enrolled_tensor = torch.from_numpy(enrolled_emb)
	similarity = F.cosine_similarity(embedding_tensor, enrolled_tensor, dim=1).item()

	if similarity > best_score:
	best_score = similarity
	best_match = name

	is_verified = best_score >= threshold
	return best_match, best_score, is_verified

	def get_all_users(self):
	return list(self.enrollments.keys())

	def get_user_count(self):
	return len(self.enrollments)

	def remove_user(self, name):
	if name in self.enrollments:
	del self.enrollments[name]
	self.save_db()
	return True
	return False

	db = EnrollmentDB()


	# ============================================================
	# AUDIO PROCESSING
	# ============================================================

	def process_audio(audio_path, max_length=16000*3):
	"""Process audio file"""
	try:
	waveform, sr = sf.read(audio_path, dtype='float32')
	waveform = torch.from_numpy(waveform)

	if len(waveform.shape) > 1:
	waveform = torch.mean(waveform, dim=-1)

	if sr != 16000:
	resampler = torchaudio.transforms.Resample(sr, 16000)
	waveform = resampler(waveform)

	if len(waveform) > max_length:
	start = (len(waveform) - max_length) // 2
	waveform = waveform[start:start + max_length]
	elif len(waveform) < max_length:
	padding = max_length - len(waveform)
	waveform = torch.nn.functional.pad(waveform, (0, padding))

	if waveform.abs().max() > 0:
	waveform = waveform / waveform.abs().max()

	inputs = feature_extractor(
	waveform.numpy(),
	sampling_rate=16000,
	return_tensors="pt"
	)

	return inputs.input_values

	except Exception as e:
	raise ValueError(f"Error processing audio: {e}")


	def get_embedding(audio_path):
	"""Extract embedding from audio"""
	model.eval()
	with torch.no_grad():
	inputs = process_audio(audio_path)
	inputs = inputs.to(device)
	embedding = model(inputs)
	return embedding.cpu().numpy()


	# ============================================================
	# GRADIO FUNCTIONS
	# ============================================================

	def enroll_user(name, audio, threshold):
	"""Enroll a new user"""
	if not name or not name.strip():
	return "❌ Veuillez entrer un nom.", get_user_list(), get_stats()

	if not audio:
	return "❌ Veuillez uploader un enregistrement audio.", get_user_list(), get_stats()

	name = name.strip()

	if name in db.get_all_users():
	return f"⚠️ L'utilisateur '{name}' existe déjà.", get_user_list(), get_stats()

	try:
	embedding = get_embedding(audio)
	db.enroll(name, embedding)
	return f"✅ Enregistrement réussi!\n\n👤 {name} a été enregistré dans le système.\n📊 Total utilisateurs: {db.get_user_count()}", get_user_list(), get_stats()
	except Exception as e:
	return f"❌ Erreur: {str(e)}", get_user_list(), get_stats()


	def verify_user(audio, threshold):
	"""Verify a user"""
	if not audio:
	return "❌ Veuillez uploader un enregistrement audio.", ""

	if db.get_user_count() == 0:
	return "⚠️ Aucun utilisateur enregistré. Veuillez d'abord enregistrer des utilisateurs.", ""

	try:
	embedding = get_embedding(audio)
	match_name, similarity, is_verified = db.verify(embedding, threshold)

	# Build detailed results
	details = "📊 Scores détaillés:\n\n"
	embedding_tensor = torch.from_numpy(embedding)

	scores = []
	for name, enrolled_emb in db.enrollments.items():
	enrolled_tensor = torch.from_numpy(enrolled_emb)
	sim = F.cosine_similarity(embedding_tensor, enrolled_tensor, dim=1).item()
	status = "✅" if sim >= threshold else "❌"
	scores.append((name, sim, status))

	scores.sort(key=lambda x: x[1], reverse=True)

	for name, sim, status in scores:
	details += f"{status} {name}: {sim:.1%}\n"

	if is_verified:
	result = f"""
	# ✅ VÉRIFICATION RÉUSSIE

	## Identifié comme: {match_name}
	### Score de confiance: {similarity:.1%}

	---
	"""
	return result + details, details
	else:
	result = f"""
	# ❌ VÉRIFICATION ÉCHOUÉE

	Meilleure correspondance: {match_name}
	Similarité: {similarity:.1%}
	Seuil requis: {threshold:.1%}

	Cette voix n'est pas reconnue dans le système.

	---
	"""
	return result + details, details

	except Exception as e:
	return f"❌ Erreur: {str(e)}", ""


	def get_user_list():
	"""Get list of enrolled users"""
	users = db.get_all_users()
	if not users:
	return "Aucun utilisateur enregistré"
	return "\n".join([f"• {user}" for user in sorted(users)])


	def get_stats():
	"""Get system statistics"""
	return f"""
	📊 Statistiques du système:
	- Utilisateurs enregistrés: {db.get_user_count()}
	- Précision du modèle: 76%
	- Score AUC: 0.82
	- Architecture: Wav2Vec 2.0
	"""


	def delete_user(name):
	"""Delete a user"""
	if not name or not name.strip():
	return "❌ Veuillez sélectionner un utilisateur.", get_user_list(), get_stats()

	if db.remove_user(name.strip()):
	return f"✅ Utilisateur '{name}' supprimé.", get_user_list(), get_stats()
	else:
	return f"❌ Utilisateur '{name}' non trouvé.", get_user_list(), get_stats()


	# ============================================================
	# GRADIO INTERFACE
	# ============================================================

	with gr.Blocks(title="Biométrie Vocale - POC", theme=gr.themes.Soft()) as demo:

	gr.Markdown("""
	# 🎤 Système de Biométrie Vocale
	### Proof of Concept - Wav2Vec 2.0 Fine-tuné
	""")

	with gr.Row():
	with gr.Column(scale=2):
	stats_display = gr.Markdown(get_stats())
	with gr.Column(scale=1):
	threshold = gr.Slider(
	minimum=0.5,
	maximum=0.95,
	value=0.75,
	step=0.05,
	label="Seuil de vérification",
	info="Plus élevé = vérification plus stricte"
	)

	with gr.Tabs():
	# TAB 1: ENROLLMENT
	with gr.Tab("📝 Enregistrement"):
	gr.Markdown("### Enregistrer un nouvel utilisateur")

	with gr.Row():
	with gr.Column():
	enroll_name_input = gr.Textbox(
	label="Nom de l'utilisateur",
	placeholder="Ex: Jean Dupont"
	)
	enroll_audio_input = gr.Audio(
	label="Enregistrement vocal",
	type="filepath",
	sources=["upload", "microphone"]
	)
	enroll_button = gr.Button("🎯 Enregistrer", variant="primary")

	with gr.Column():
	gr.Markdown("""
	💡 Conseils:
	- Audio clair et net
	- 3-20 secondes recommandées
	- Bruit de fond minimal
	- Voix normale
	""")
	enrolled_users = gr.Textbox(
	label="Utilisateurs enregistrés",
	value=get_user_list(),
	lines=8,
	interactive=False
	)

	enroll_output = gr.Markdown()

	enroll_button.click(
	fn=enroll_user,
	inputs=[enroll_name_input, enroll_audio_input, threshold],
	outputs=[enroll_output, enrolled_users, stats_display]
	)

	# TAB 2: VERIFICATION
	with gr.Tab("✅ Vérification"):
	gr.Markdown("### Vérifier l'identité d'un utilisateur")

	with gr.Row():
	with gr.Column():
	verify_audio_input = gr.Audio(
	label="Enregistrement vocal à vérifier",
	type="filepath",
	sources=["upload", "microphone"]
	)
	verify_button = gr.Button("🔍 Vérifier", variant="primary")

	with gr.Column():
	gr.Markdown(f"""
	ℹ️ Information:
	- {db.get_user_count()} utilisateur(s) enregistré(s)
	- Seuil: ajustable dans le slider ci-dessus
	- Modèle: Wav2Vec 2.0
	""")

	verify_output = gr.Markdown()
	verify_details = gr.Markdown()

	verify_button.click(
	fn=verify_user,
	inputs=[verify_audio_input, threshold],
	outputs=[verify_output, verify_details]
	)

	# TAB 3: MANAGEMENT
	with gr.Tab("⚙️ Gestion"):
	gr.Markdown("### Gérer les utilisateurs enregistrés")

	with gr.Row():
	with gr.Column():
	delete_name_input = gr.Textbox(
	label="Nom de l'utilisateur à supprimer",
	placeholder="Ex: Jean Dupont"
	)
	delete_button = gr.Button("🗑️ Supprimer", variant="stop")

	with gr.Column():
	delete_users_list = gr.Textbox(
	label="Utilisateurs enregistrés",
	value=get_user_list(),
	lines=8,
	interactive=False
	)

	delete_output = gr.Markdown()

	delete_button.click(
	fn=delete_user,
	inputs=[delete_name_input],
	outputs=[delete_output, delete_users_list, stats_display]
	)

	# TAB 4: ABOUT
	with gr.Tab("ℹ️ À propos"):
	gr.Markdown("""
	## 🎯 Technologie

	Architecture du modèle:
	- Base: Wav2Vec 2.0 (Facebook AI)
	- Fine-tuné sur 247 locuteurs
	- 1035 échantillons vocaux (qualité téléphonique, 8kHz)
	- Dimension d'embedding: 256

	Détails d'entraînement:
	- Loss: Supervised Contrastive Learning
	- Framework: PyTorch + Transformers
	- Durée d'entraînement: ~50 epochs
	- Matériel: NVIDIA RTX 3050

	---

	## 📊 Métriques de Performance

	Résultats d'évaluation:
	- Précision: 76%
	- Score AUC: 0.82
	- Taux de vrais positifs: 79%
	- Taux de faux positifs: 27%

	Ensemble de test:
	- 1000 paires de vérification
	- 500 paires même locuteur
	- 500 paires locuteurs différents

	---

	## 🔧 Fonctionnement

	1. Phase d'enregistrement:
	- L'utilisateur uploade un enregistrement vocal
	- Le système extrait un embedding de dimension 256
	- L'embedding est stocké dans la base de données

	2. Phase de vérification:
	- Enregistrement vocal inconnu uploadé
	- Le système extrait l'embedding
	- Calcul de similarité cosinus avec tous les utilisateurs enregistrés
	- Correspondance si similarité > seuil

	3. Algorithme de correspondance:
	- Similarité cosinus entre embeddings
	- Plage: -1 (opposé) à +1 (identique)
	- Même locuteur typique: 0.75-0.95
	- Locuteurs différents typique: 0.30-0.70

	---

	Note: Ceci est un système proof of concept. Pour un déploiement en production, considérer:
	- Dataset plus large (10-20 échantillons par locuteur)
	- Meilleur modèle de base (WavLM pour conditions bruitées)
	- Mesures anti-spoofing
	- Détection de vivacité
	- Multi-enregistrement (moyenne de plusieurs enregistrements par utilisateur)
	""")

	demo.launch(share=False)