Spaces:

KeenWoo
/

AD_Multimodal_Chatbot

Running

App Files Files Community

KeenWoo commited on Sep 19

Commit

e59b85f

verified ·

1 Parent(s): ab9fd24

Update evaluate.py

Browse files

Files changed (1) hide show

evaluate.py +17 -3

evaluate.py CHANGED Viewed

@@ -353,8 +353,8 @@ def run_comprehensive_evaluation(
         expected_route = _norm(ground_truth.get("expected_route", "caregiving_scenario"))
         expected_tags = ground_truth.get("expected_tags", {})
         expected_sources = ground_truth.get("expected_sources", [])
-        # --- 2. NLU-ONLY GUARD CLAUSE ---
         if NLU_ONLY_TEST:
             actual_route = _norm(route_query_type(query))
             actual_tags = {}
@@ -364,17 +364,31 @@ def run_comprehensive_evaluation(
                     behavior_options=config["behavior_tags"], emotion_options=config["emotion_tags"],
                     topic_options=config["topic_tags"], context_options=config["context_tags"],
                 )
             results.append({
                 "test_id": test_id, "title": fx.get("title", "N/A"), "user_query": query,
                 "actual_route": actual_route, "expected_route": expected_route,
                 "route_correct": 1 if actual_route == expected_route else 0,
                 "actual_tags": actual_tags, "expected_tags": expected_tags,
                 "raw_sources": [], "expected_sources": expected_sources, "answer": "(NLU_ONLY_TEST)",
                 "context_precision": None, "context_recall": None, "recall_at_5": None,
                 "answer_correctness": None, "faithfulness_score": None, "latency_ms": 0
             })
             continue # Skip to the next test case
-        # END if NLU_ONLY_TEST:
         # --- 3. FULL RAG PIPELINE (only runs if NLU_ONLY_TEST is False) ---
         actual_route = _norm(route_query_type(query))

         expected_route = _norm(ground_truth.get("expected_route", "caregiving_scenario"))
         expected_tags = ground_truth.get("expected_tags", {})
         expected_sources = ground_truth.get("expected_sources", [])
+        # --- CORRECTED NLU-ONLY GUARD CLAUSE ---
         if NLU_ONLY_TEST:
             actual_route = _norm(route_query_type(query))
             actual_tags = {}
                     behavior_options=config["behavior_tags"], emotion_options=config["emotion_tags"],
                     topic_options=config["topic_tags"], context_options=config["context_tags"],
                 )
+            # --- FIX: Calculate NLU F1 scores before appending results ---
+            behavior_metrics = evaluate_nlu_tags(expected_tags, actual_tags, "detected_behaviors")
+            emotion_metrics  = evaluate_nlu_tags(expected_tags, actual_tags, "detected_emotion")
+            topic_metrics    = evaluate_nlu_tags(expected_tags, actual_tags, "detected_topics")
+            context_metrics  = evaluate_nlu_tags(expected_tags, actual_tags, "detected_contexts")
             results.append({
                 "test_id": test_id, "title": fx.get("title", "N/A"), "user_query": query,
                 "actual_route": actual_route, "expected_route": expected_route,
                 "route_correct": 1 if actual_route == expected_route else 0,
                 "actual_tags": actual_tags, "expected_tags": expected_tags,
+                # Add the F1 scores to the results dictionary
+                "behavior_f1": f"{behavior_metrics['f1_score']:.2f}",
+                "emotion_f1": f"{emotion_metrics['f1_score']:.2f}",
+                "topic_f1": f"{topic_metrics['f1_score']:.2f}",
+                "context_f1": f"{context_metrics['f1_score']:.2f}",
+                # Set RAG metrics to default/None values
                 "raw_sources": [], "expected_sources": expected_sources, "answer": "(NLU_ONLY_TEST)",
                 "context_precision": None, "context_recall": None, "recall_at_5": None,
                 "answer_correctness": None, "faithfulness_score": None, "latency_ms": 0
             })
             continue # Skip to the next test case
+        # --- END OF CORRECTED BLOCK ---
         # --- 3. FULL RAG PIPELINE (only runs if NLU_ONLY_TEST is False) ---
         actual_route = _norm(route_query_type(query))