Spaces:

Tonic
/

SmolFactory

Running

Tonic commited on Jul 20

Commit

f559a91

verified ·

1 Parent(s): 11dffe6

attempts to resolve training argument issue

Files changed (2) hide show

model.py CHANGED Viewed

@@ -149,22 +149,18 @@ class SmolLM3Model:
             "fp16": self.config.fp16,
             "bf16": self.config.bf16,
             "ddp_backend": self.config.ddp_backend if torch.cuda.device_count() > 1 else None,
-            "ddp_find_unused_parameters": self.config.ddp_find_unused_parameters if torch.cuda.device_count() > 1 else False,
             "report_to": None,
-            "remove_unused_columns": False,
             "dataloader_pin_memory": getattr(self.config, 'dataloader_pin_memory', True),
             # Removed group_by_length as it's causing issues with newer transformers versions
             # Removed length_column_name as it might conflict with data collator
             "seed": 42,
-            "data_seed": 42,
             "dataloader_num_workers": getattr(self.config, 'dataloader_num_workers', 4),
             "max_grad_norm": getattr(self.config, 'max_grad_norm', 1.0),
             "optim": self.config.optimizer,
             "lr_scheduler_type": self.config.scheduler,
-            "warmup_ratio": 0.1,
             "save_strategy": "steps",
             "logging_strategy": "steps",
-            "prediction_loss_only": True,
         }
         # Override with kwargs

             "fp16": self.config.fp16,
             "bf16": self.config.bf16,
             "ddp_backend": self.config.ddp_backend if torch.cuda.device_count() > 1 else None,
             "report_to": None,
             "dataloader_pin_memory": getattr(self.config, 'dataloader_pin_memory', True),
             # Removed group_by_length as it's causing issues with newer transformers versions
             # Removed length_column_name as it might conflict with data collator
             "seed": 42,
             "dataloader_num_workers": getattr(self.config, 'dataloader_num_workers', 4),
             "max_grad_norm": getattr(self.config, 'max_grad_norm', 1.0),
             "optim": self.config.optimizer,
             "lr_scheduler_type": self.config.scheduler,
             "save_strategy": "steps",
             "logging_strategy": "steps",
+            # Removed prediction_loss_only as it might cause issues
         }
         # Override with kwargs

trainer.py CHANGED Viewed

@@ -104,22 +104,25 @@ class SmolLM3Trainer:
         # Add monitoring callbacks
         callbacks = []
         # Add simple console callback
-        callbacks.append(SimpleConsoleCallback())
-        logger.info("Added simple console monitoring callback")
         # Try to add Trackio callback if available
-        if self.monitor and self.monitor.enable_tracking:
-            try:
-                trackio_callback = self.monitor.create_monitoring_callback()
-                if trackio_callback:
-                    callbacks.append(trackio_callback)
-                    logger.info("Added Trackio monitoring callback")
-                else:
-                    logger.warning("Failed to create Trackio callback")
-            except Exception as e:
-                logger.error(f"Error creating Trackio callback: {e}")
-                logger.info("Continuing with console monitoring only")
         # Try standard Trainer first (more stable with callbacks)
         logger.info("Creating Trainer with training arguments...")

         # Add monitoring callbacks
         callbacks = []
+        # Temporarily disable callbacks to debug the bool object is not callable error
         # Add simple console callback
+        # callbacks.append(SimpleConsoleCallback())
+        # logger.info("Added simple console monitoring callback")
         # Try to add Trackio callback if available
+        # if self.monitor and self.monitor.enable_tracking:
+        #     try:
+        #         trackio_callback = self.monitor.create_monitoring_callback()
+        #         if trackio_callback:
+        #             callbacks.append(trackio_callback)
+        #             logger.info("Added Trackio monitoring callback")
+        #         else:
+        #             logger.warning("Failed to create Trackio callback")
+        #     except Exception as e:
+        #         logger.error(f"Error creating Trackio callback: {e}")
+        #         logger.info("Continuing with console monitoring only")
+        logger.info("Callbacks disabled for debugging")
         # Try standard Trainer first (more stable with callbacks)
         logger.info("Creating Trainer with training arguments...")