Spaces:

Luigi
/

rts-commander

Sleeping

App Files Files Community

rts-commander / tests /scripts /realistic_mcp_evaluation.py

Luigi

Organize project structure: move test scripts to tests/scripts and documentation to docs/reports

d28c36c about 1 month ago

raw

history blame contribute delete

15.2 kB

	"""
	Test réaliste des capacités MCP pour un jeu RTS
	Simule véritablement l'usage avec contexte de jeu, états, et scénarios réels
	"""

	import sys
	import os
	import json
	import time
	import random

	# Ajouter le chemin pour les imports
	sys.path.append(os.path.dirname(os.path.abspath(__file__)))

	# État de jeu simulé
	GAME_STATE = {
	"player_id": 1,
	"resources": {"credits": 2500, "power": 150},
	"units": [
	{"id": 1, "type": "infantry", "x": 100, "y": 100, "health": 100},
	{"id": 2, "type": "infantry", "x": 110, "y": 105, "health": 100},
	{"id": 3, "type": "tank", "x": 120, "y": 110, "health": 150},
	{"id": 4, "type": "harvester", "x": 200, "y": 200, "health": 200}
	],
	"buildings": [
	{"id": 1, "type": "hq", "x": 50, "y": 50, "health": 500},
	{"id": 2, "type": "power_plant", "x": 80, "y": 80, "health": 300},
	{"id": 3, "type": "barracks", "x": 120, "y": 60, "health": 250}
	],
	"enemy_units": [
	{"id": 101, "type": "infantry", "x": 300, "y": 150, "health": 100},
	{"id": 102, "type": "tank", "x": 320, "y": 160, "health": 150}
	],
	"map": {
	"width": 96,
	"height": 72,
	"ore_fields": [{"x": 250, "y": 200}, {"x": 400, "y": 300}]
	}
	}

	def create_realistic_prompt(scenario, game_state):
	"""Crée un prompt réaliste avec contexte de jeu"""

	base_context = f"""
	Tu es un assistant IA qui contrôle un jeu RTS via MCP (Model Context Protocol).

	ÉTAT ACTUEL DU JEU:
	{json.dumps(game_state, indent=2)}

	OUTILS MCP DISPONIBLES:
	- get_game_state(): Obtenir l'état actuel du jeu
	- move_units(unit_ids, target_x, target_y): Déplacer des unités
	- attack_unit(attacker_ids, target_id): Attaquer une unité ennemie
	- build_building(building_type, position_x, position_y, player_id): Construire un bâtiment
	- get_ai_analysis(language): Obtenir une analyse tactique

	RÈGLES IMPORTANTES:
	- Les coordonnées doivent être valides (0-95 pour x, 0-71 pour y)
	- Les unités doivent exister (vérifier les IDs)
	- Les bâtiments nécessitent des ressources suffisantes
	- Les attaques nécessitent une portée valide

	Réponds UNIQUEMENT avec un objet JSON contenant l'action MCP à exécuter.
	"""

	return base_context + "\n\n" + scenario

	def test_model_realistic(model_path, model_name):
	"""Test réaliste d'un modèle avec scénarios de jeu"""

	try:
	from llama_cpp import Llama

	print(f"🎮 Test réaliste de {model_name}...")

	# Initialiser le modèle
	llm = Llama(
	model_path=model_path,
	n_ctx=2048, # Plus grand pour le contexte
	n_threads=1,
	verbose=False
	)

	# Scénarios réels de jeu
	scenarios = [
	{
	"name": "Défense immédiate",
	"scenario": "Il y a un tank ennemi à (320, 160) qui menace ma base. Attaque-le avec mes unités disponibles!",
	"expected_tool": "attack_unit",
	"difficulty": "facile"
	},
	{
	"name": "Collecte de ressources",
	"scenario": "Mes crédits sont bas (2500). Envoie le récolteur vers le champ de minerai le plus proche.",
	"expected_tool": "move_units",
	"difficulty": "moyen"
	},
	{
	"name": "Expansion stratégique",
	"scenario": "Je veux construire une caserne près du champ de minerai à (250, 200) pour défendre mes récolteurs.",
	"expected_tool": "build_building",
	"difficulty": "moyen"
	},
	{
	"name": "Attaque coordonnée",
	"scenario": "Prépare une attaque sur les positions ennemies. Utilise toutes mes unités militaires disponibles.",
	"expected_tool": "attack_unit",
	"difficulty": "difficile"
	},
	{
	"name": "Reconnaissance",
	"scenario": "Montre-moi l'état complet du jeu pour analyser la situation tactique.",
	"expected_tool": "get_game_state",
	"difficulty": "facile"
	},
	{
	"name": "Gestion de crise",
	"scenario": "Mon QG est attaqué! Déplace toutes les unités disponibles pour défendre la position (50, 50).",
	"expected_tool": "move_units",
	"difficulty": "difficile"
	}
	]

	results = []
	total_score = 0
	total_time = 0

	for scenario in scenarios:
	print(f"\n📋 Scénario: {scenario['name']} ({scenario['difficulty']})")

	# Créer le prompt réaliste
	prompt = create_realistic_prompt(scenario['scenario'], GAME_STATE)

	start_time = time.time()

	# Tester le modèle
	response = llm(
	prompt,
	max_tokens=200,
	temperature=0.1,
	stop=["</s>", "<\|im_end\|>", "```"]
	)

	response_time = time.time() - start_time
	response_text = response['choices'][0]['text'].strip()

	# Évaluer la réponse de manière approfondie
	score = evaluate_realistic_response(response_text, scenario, GAME_STATE)

	total_score += score
	total_time += response_time

	print(f" ⏱️ Temps: {response_time:.2f}s")
	print(f" 📊 Score: {score}/10")
	print(f" 📝 Réponse: {response_text[:100]}...")

	results.append({
	'scenario': scenario['name'],
	'difficulty': scenario['difficulty'],
	'score': score,
	'time': response_time,
	'response': response_text,
	'expected_tool': scenario['expected_tool']
	})

	avg_score = total_score / len(scenarios)
	avg_time = total_time / len(scenarios)

	print(f"\n📈 Résultats pour {model_name}:")
	print(f" Score moyen: {avg_score:.1f}/10")
	print(f" Temps moyen: {avg_time:.2f}s")

	# Analyse par difficulté
	easy_scores = [r['score'] for r in results if r['difficulty'] == 'facile']
	medium_scores = [r['score'] for r in results if r['difficulty'] == 'moyen']
	hard_scores = [r['score'] for r in results if r['difficulty'] == 'difficile']

	print(f" Scénarios faciles: {sum(easy_scores)/len(easy_scores):.1f}/10" if easy_scores else " Scénarios faciles: N/A")
	print(f" Scénarios moyens: {sum(medium_scores)/len(medium_scores):.1f}/10" if medium_scores else " Scénarios moyens: N/A")
	print(f" Scénarios difficiles: {sum(hard_scores)/len(hard_scores):.1f}/10" if hard_scores else " Scénaires difficiles: N/A")

	return {
	'name': model_name,
	'avg_score': avg_score,
	'avg_time': avg_time,
	'results': results,
	'easy_avg': sum(easy_scores)/len(easy_scores) if easy_scores else 0,
	'medium_avg': sum(medium_scores)/len(medium_scores) if medium_scores else 0,
	'hard_avg': sum(hard_scores)/len(hard_scores) if hard_scores else 0
	}

	except Exception as e:
	print(f"❌ Erreur avec {model_name}: {e}")
	return {
	'name': model_name,
	'avg_score': 0,
	'avg_time': 0,
	'error': str(e)
	}

	def evaluate_realistic_response(response, scenario, game_state):
	"""Évaluation approfondie de la réponse MCP"""

	score = 0

	# 1. Format JSON valide (3 points)
	try:
	json_response = json.loads(response)
	score += 3
	except:
	# Essayer d'extraire JSON du texte
	import re
	json_match = re.search(r'\{.*\}', response, re.DOTALL)
	if json_match:
	try:
	json_response = json.loads(json_match.group())
	score += 2 # JSON partiellement valide
	except:
	json_response = {}
	else:
	json_response = {}

	# 2. Outil correct (3 points)
	expected_tool = scenario['expected_tool']
	if 'tool' in json_response and json_response['tool'] == expected_tool:
	score += 3
	elif expected_tool in response:
	score += 2 # Outil mentionné mais pas dans le bon format
	elif any(tool in response for tool in ['get_game_state', 'move_units', 'attack_unit', 'build_building']):
	score += 1 # Un outil MCP est mentionné

	# 3. Paramètres valides (2 points)
	if expected_tool == 'attack_unit':
	if 'attacker_ids' in json_response and 'target_id' in json_response:
	# Vérifier si les IDs existent
	attackers = json_response['attacker_ids']
	target = json_response['target_id']

	valid_attackers = any(unit['id'] in attackers if isinstance(attackers, list) else unit['id'] == attackers for unit in game_state['units'])
	valid_target = any(unit['id'] == target for unit in game_state['enemy_units'])

	if valid_attackers and valid_target:
	score += 2
	elif valid_attackers or valid_target:
	score += 1

	elif expected_tool == 'move_units':
	if 'unit_ids' in json_response and 'target_x' in json_response and 'target_y' in json_response:
	# Vérifier coordonnées valides
	x, y = json_response['target_x'], json_response['target_y']
	if 0 <= x <= 95 and 0 <= y <= 71:
	score += 2

	elif expected_tool == 'build_building':
	if 'building_type' in json_response and 'position_x' in json_response and 'position_y' in json_response:
	score += 2

	elif expected_tool == 'get_game_state':
	if not json_response or len(json_response) == 0:
	score += 2 # get_game_state n'a pas besoin de paramètres

	# 4. Cohérence tactique (2 points)
	if scenario['difficulty'] == 'difficile':
	# Pour les scénarios difficiles, vérifier la pertinence tactique
	if 'attack' in scenario['scenario'].lower() and 'attack' in response.lower():
	score += 1
	if 'defend' in scenario['scenario'].lower() and ('defend' in response.lower() or 'move' in response.lower()):
	score += 1
	else:
	# Pour les scénarios plus simples
	if any(word in response.lower() for word in ['game', 'state', 'move', 'attack', 'build']):
	score += 1

	return min(score, 10)

	def run_realistic_evaluation():
	"""Exécute l'évaluation réaliste complète"""

	print("🎮 ÉVALUATION RÉALISTE MCP POUR JEU RTS")
	print("=" * 70)
	print("Test avec contexte de jeu, scénarios réels et validation tactique")
	print("=" * 70)

	# Modèles à tester
	models = [
	{
	'name': 'Qwen2.5-0.5B',
	'path': 'qwen2.5-0.5b-instruct-q4_0.gguf'
	},
	{
	'name': 'Qwen3-0.6B',
	'path': 'Qwen3-0.6B-Q8_0.gguf'
	},
	{
	'name': 'Gemma-3-270M',
	'path': 'gemma-3-270m-it-qat-Q8_0.gguf'
	}
	]

	results = []

	for model in models:
	if os.path.exists(model['path']):
	result = test_model_realistic(model['path'], model['name'])
	results.append(result)
	print("\n" + "="*50)
	else:
	print(f"❌ Modèle non trouvé: {model['path']}")

	# Analyse comparative réaliste
	print("\n" + "="*70)
	print("📊 ANALYSE COMPARATIVE RÉALISTE")
	print("="*70)

	successful_results = [r for r in results if 'error' not in r and r['avg_score'] > 0]

	if successful_results:
	# Classement par performance globale
	sorted_by_performance = sorted(successful_results, key=lambda x: x['avg_score'], reverse=True)

	print(f"\n🏆 CLASSEMENT PAR PERFORMANCE RÉELLE:")
	for i, result in enumerate(sorted_by_performance, 1):
	print(f" {i}. {result['name']}: {result['avg_score']:.1f}/10 \| {result['avg_time']:.2f}s")

	# Analyse par difficulté
	print(f"\n📈 PERFORMANCE PAR DIFFICULTÉ:")

	difficulties = ['facile', 'moyen', 'difficile']
	for diff in difficulties:
	print(f"\n🔸 Scénarios {diff}s:")
	for result in successful_results:
	avg_key = f"{diff}_avg"
	if hasattr(result, avg_key):
	score = getattr(result, avg_key)
	print(f" {result['name']}: {score:.1f}/10")

	# Recommandations basées sur l'usage réel
	best_overall = sorted_by_performance[0]

	print(f"\n🎯 RECOMMANDATIONS POUR VOTRE JEU RTS:")

	if best_overall['avg_score'] >= 7:
	print(f"✅ {best_overall['name']} est EXCELLENT pour la production")
	print(f" • Gère bien les scénarios complexes")
	print(f" • Réponses tactiques cohérentes")
	elif best_overall['avg_score'] >= 5:
	print(f"👍 {best_overall['name']} est BON pour la production")
	print(f" • Fonctionne bien pour les commandes de base")
	print(f" • Nécessite peut-être une validation supplémentaire")
	else:
	print(f"⚠️ {best_overall['name']} nécessite des améliorations")
	print(f" • Considérer des prompts plus structurés")
	print(f" • Ajouter des règles de validation")

	# Analyse spécifique aux cas d'usage
	print(f"\n🎮 ANALYSE SPÉCIFIQUE AU JEU:")

	for result in successful_results:
	print(f"\n🔹 {result['name']}:")

	# Analyser les résultats par scénario
	scenario_scores = {}
	for scenario_result in result['results']:
	scenario_name = scenario_result['scenario']
	if scenario_name not in scenario_scores:
	scenario_scores[scenario_name] = []
	scenario_scores[scenario_name].append(scenario_result['score'])

	for scenario, scores in scenario_scores.items():
	avg_score = sum(scores) / len(scores)
	print(f" {scenario}: {avg_score:.1f}/10")

	# Sauvegarder les résultats réalistes
	realistic_results = {
	'evaluation_type': 'realistic_mcp_game_test',
	'game_state_sample': GAME_STATE,
	'results': results,
	'successful_models': successful_results
	}

	with open("realistic_mcp_evaluation.json", "w", encoding="utf-8") as f:
	json.dump(realistic_results, f, indent=2, ensure_ascii=False)

	print(f"\n📄 Résultats réalistes sauvegardés dans: realistic_mcp_evaluation.json")

	if __name__ == "__main__":
	run_realistic_evaluation()