Spaces:

Tonic
/

SmolFactory

Running

App Files Files Community

Tonic commited on Jul 27

Commit

08ed534

verified ·

1 Parent(s): c3f29a5

matches experiment id for all metrics

Browse files

Files changed (3) hide show

src/trackio.py +4 -4
src/trainer.py +21 -10
tests/test_experiment_id_fix.py +123 -0

src/trackio.py CHANGED Viewed

@@ -61,8 +61,8 @@ def init(
             dataset_repo=dataset_repo
         )
-        # Generate experiment ID
-        experiment_id = f"trl_{datetime.now().strftime('%Y%m%d_%H%M%S')}"
         _monitor.experiment_id = experiment_id
         logger.info(f"Trackio initialized for experiment: {exp_name}")
@@ -72,8 +72,8 @@ def init(
     except Exception as e:
         logger.error(f"Failed to initialize trackio: {e}")
-        # Return a fallback experiment ID
-        return f"trl_fallback_{datetime.now().strftime('%Y%m%d_%H%M%S')}"
 def log(
     metrics: Dict[str, Any],

             dataset_repo=dataset_repo
         )
+        # Generate experiment ID - use the same format as our monitoring system
+        experiment_id = f"exp_{datetime.now().strftime('%Y%m%d_%H%M%S')}"
         _monitor.experiment_id = experiment_id
         logger.info(f"Trackio initialized for experiment: {exp_name}")
     except Exception as e:
         logger.error(f"Failed to initialize trackio: {e}")
+        # Return a fallback experiment ID - use the same format as our monitoring system
+        return f"exp_fallback_{datetime.now().strftime('%Y%m%d_%H%M%S')}"
 def log(
     metrics: Dict[str, Any],

src/trainer.py CHANGED Viewed

@@ -138,16 +138,27 @@ class SmolLM3Trainer:
         # Initialize trackio for TRL compatibility
         try:
             import trackio
-            # Initialize trackio with our configuration
-            experiment_id = trackio.init(
-                project_name=getattr(self.config, 'experiment_name', 'smollm3_experiment'),
-                experiment_name=getattr(self.config, 'experiment_name', 'smollm3_experiment'),
-                trackio_url=getattr(self.config, 'trackio_url', None),
-                trackio_token=getattr(self.config, 'trackio_token', None),
-                hf_token=getattr(self.config, 'hf_token', None),
-                dataset_repo=getattr(self.config, 'dataset_repo', None)
-            )
-            logger.info(f"Trackio initialized with experiment ID: {experiment_id}")
         except Exception as e:
             logger.warning(f"Failed to initialize trackio: {e}")
             logger.info("Continuing without trackio integration")

         # Initialize trackio for TRL compatibility
         try:
             import trackio
+            # Initialize trackio with our configuration and use the same experiment ID
+            if self.monitor and self.monitor.experiment_id:
+                # Use the experiment ID from our monitor
+                experiment_id = self.monitor.experiment_id
+                logger.info(f"Using existing experiment ID: {experiment_id}")
+            else:
+                # Initialize trackio with our configuration
+                experiment_id = trackio.init(
+                    project_name=getattr(self.config, 'experiment_name', 'smollm3_experiment'),
+                    experiment_name=getattr(self.config, 'experiment_name', 'smollm3_experiment'),
+                    trackio_url=getattr(self.config, 'trackio_url', None),
+                    trackio_token=getattr(self.config, 'trackio_token', None),
+                    hf_token=getattr(self.config, 'hf_token', None),
+                    dataset_repo=getattr(self.config, 'dataset_repo', None)
+                )
+                logger.info(f"Trackio initialized with experiment ID: {experiment_id}")
+                # Update our monitor with the same experiment ID
+                if self.monitor:
+                    self.monitor.experiment_id = experiment_id
+                    logger.info(f"Updated monitor with experiment ID: {experiment_id}")
         except Exception as e:
             logger.warning(f"Failed to initialize trackio: {e}")
             logger.info("Continuing without trackio integration")

tests/test_experiment_id_fix.py ADDED Viewed

	@@ -0,0 +1,123 @@

+#!/usr/bin/env python3
+"""
+Test script to verify that both monitoring systems use the same experiment ID format
+"""
+import sys
+import os
+import logging
+# Add the project root to the path
+sys.path.insert(0, os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
+from src.monitoring import SmolLM3Monitor
+from src.trackio import init as trackio_init
+# Setup logging
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+def test_experiment_id_consistency():
+    """Test that both monitoring systems use the same experiment ID format"""
+    print("🔧 Testing experiment ID consistency...")
+    # Test 1: SmolLM3Monitor experiment ID format
+    print("\n1️⃣ Testing SmolLM3Monitor experiment ID format...")
+    monitor = SmolLM3Monitor(
+        experiment_name="test_experiment_id_consistency",
+        enable_tracking=True
+    )
+    print(f"SmolLM3Monitor experiment ID: {monitor.experiment_id}")
+    if monitor.experiment_id and monitor.experiment_id.startswith('exp_'):
+        print("✅ SmolLM3Monitor uses correct experiment ID format (exp_)")
+    else:
+        print("❌ SmolLM3Monitor uses incorrect experiment ID format")
+        return False
+    # Test 2: Trackio experiment ID format
+    print("\n2️⃣ Testing Trackio experiment ID format...")
+    trackio_experiment_id = trackio_init(
+        project_name="test_experiment_id_consistency",
+        experiment_name="test_experiment_id_consistency"
+    )
+    print(f"Trackio experiment ID: {trackio_experiment_id}")
+    if trackio_experiment_id and trackio_experiment_id.startswith('exp_'):
+        print("✅ Trackio uses correct experiment ID format (exp_)")
+    else:
+        print("❌ Trackio uses incorrect experiment ID format")
+        return False
+    # Test 3: Verify both use the same format
+    print("\n3️⃣ Testing experiment ID format consistency...")
+    if monitor.experiment_id.startswith('exp_') and trackio_experiment_id.startswith('exp_'):
+        print("✅ Both monitoring systems use the same experiment ID format")
+        return True
+    else:
+        print("❌ Monitoring systems use different experiment ID formats")
+        return False
+def test_monitoring_integration():
+    """Test that both monitoring systems can work together"""
+    print("\n🔧 Testing monitoring integration...")
+    try:
+        # Create monitor
+        monitor = SmolLM3Monitor(
+            experiment_name="test_monitoring_integration",
+            enable_tracking=True
+        )
+        print(f"✅ Monitor created with experiment ID: {monitor.experiment_id}")
+        # Initialize trackio with the same experiment ID
+        trackio_experiment_id = trackio_init(
+            project_name="test_monitoring_integration",
+            experiment_name="test_monitoring_integration"
+        )
+        print(f"✅ Trackio initialized with experiment ID: {trackio_experiment_id}")
+        # Test logging metrics to both systems
+        metrics = {"loss": 1.234, "accuracy": 0.85}
+        # Log to monitor
+        monitor.log_metrics(metrics, step=100)
+        print("✅ Metrics logged to monitor")
+        # Log to trackio
+        from src.trackio import log as trackio_log
+        trackio_log(metrics, step=100)
+        print("✅ Metrics logged to trackio")
+        print("🎉 Monitoring integration test passed!")
+        return True
+    except Exception as e:
+        print(f"❌ Monitoring integration test failed: {e}")
+        return False
+if __name__ == "__main__":
+    print("🚀 Starting Experiment ID Consistency Tests")
+    print("=" * 60)
+    # Test 1: Experiment ID format consistency
+    format_consistency = test_experiment_id_consistency()
+    # Test 2: Monitoring integration
+    integration_success = test_monitoring_integration()
+    print("\n" + "=" * 60)
+    print("📊 Test Results Summary:")
+    print(f"Experiment ID Format Consistency: {'✅ PASSED' if format_consistency else '❌ FAILED'}")
+    print(f"Monitoring Integration: {'✅ PASSED' if integration_success else '❌ FAILED'}")
+    if format_consistency and integration_success:
+        print("\n🎉 All tests passed! Experiment ID conflict is resolved.")
+        sys.exit(0)
+    else:
+        print("\n❌ Some tests failed. Please check the errors above.")
+        sys.exit(1)