End of training

Browse files

Files changed (5) hide show

README.md +2 -1
all_results.json +16 -0
train_results.json +16 -0
trainer_state.json +1774 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ license: apache-2.0
 base_model: Qwen/Qwen3-8B
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: code_contests_new_questions_gpt-5-mini_Qwen3-8B
@@ -15,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # code_contests_new_questions_gpt-5-mini_Qwen3-8B
-This model is a fine-tuned version of [Qwen/Qwen3-8B](https://huggingface.co/Qwen/Qwen3-8B) on an unknown dataset.
 ## Model description

 base_model: Qwen/Qwen3-8B
 tags:
 - llama-factory
+- full
 - generated_from_trainer
 model-index:
 - name: code_contests_new_questions_gpt-5-mini_Qwen3-8B
 # code_contests_new_questions_gpt-5-mini_Qwen3-8B
+This model is a fine-tuned version of [Qwen/Qwen3-8B](https://huggingface.co/Qwen/Qwen3-8B) on the DCAgent/code_contests_new_questions_gpt-5-mini dataset.
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "achieved_tflops_per_gpu": 4.824971631046154,
+    "achieved_tflops_per_gpu_theoretical": 179.5589418296279,
+    "epoch": 5.0,
+    "loss_nan_ranks": 0,
+    "loss_rank_avg": 0.34743064641952515,
+    "mfu_percent": 0.4878636634020378,
+    "mfu_percent_theoretical": 18.155605847282903,
+    "total_flos": 1.1331445798312346e+18,
+    "train_loss": 0.39917116089231647,
+    "train_runtime": 14678.1249,
+    "train_samples_per_second": 3.406,
+    "train_steps_per_second": 0.053,
+    "valid_targets_mean": 3418.9,
+    "valid_targets_min": 824
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "achieved_tflops_per_gpu": 4.824971631046154,
+    "achieved_tflops_per_gpu_theoretical": 179.5589418296279,
+    "epoch": 5.0,
+    "loss_nan_ranks": 0,
+    "loss_rank_avg": 0.34743064641952515,
+    "mfu_percent": 0.4878636634020378,
+    "mfu_percent_theoretical": 18.155605847282903,
+    "total_flos": 1.1331445798312346e+18,
+    "train_loss": 0.39917116089231647,
+    "train_runtime": 14678.1249,
+    "train_samples_per_second": 3.406,
+    "train_steps_per_second": 0.053,
+    "valid_targets_mean": 3418.9,
+    "valid_targets_min": 824
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1774 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 785,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.032,
+      "grad_norm": 5.658736351836773,
+      "learning_rate": 2.0253164556962026e-06,
+      "loss": 0.7032,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1908884048461914,
+      "step": 5,
+      "valid_targets_mean": 4043.6,
+      "valid_targets_min": 1027
+    },
+    {
+      "epoch": 0.064,
+      "grad_norm": 3.7548275293769455,
+      "learning_rate": 4.556962025316456e-06,
+      "loss": 0.6948,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15209251642227173,
+      "step": 10,
+      "valid_targets_mean": 4871.6,
+      "valid_targets_min": 689
+    },
+    {
+      "epoch": 0.096,
+      "grad_norm": 2.21099410031313,
+      "learning_rate": 7.08860759493671e-06,
+      "loss": 0.6781,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1997307538986206,
+      "step": 15,
+      "valid_targets_mean": 4496.7,
+      "valid_targets_min": 935
+    },
+    {
+      "epoch": 0.128,
+      "grad_norm": 0.9482313608123564,
+      "learning_rate": 9.620253164556963e-06,
+      "loss": 0.5965,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1670297533273697,
+      "step": 20,
+      "valid_targets_mean": 4698.3,
+      "valid_targets_min": 916
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 0.7568523143998449,
+      "learning_rate": 1.2151898734177216e-05,
+      "loss": 0.5773,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19665764272212982,
+      "step": 25,
+      "valid_targets_mean": 5903.9,
+      "valid_targets_min": 1009
+    },
+    {
+      "epoch": 0.192,
+      "grad_norm": 0.5684666017684775,
+      "learning_rate": 1.468354430379747e-05,
+      "loss": 0.5427,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16540154814720154,
+      "step": 30,
+      "valid_targets_mean": 4903.1,
+      "valid_targets_min": 396
+    },
+    {
+      "epoch": 0.224,
+      "grad_norm": 0.4315545298726036,
+      "learning_rate": 1.7215189873417723e-05,
+      "loss": 0.566,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14915317296981812,
+      "step": 35,
+      "valid_targets_mean": 6533.8,
+      "valid_targets_min": 1130
+    },
+    {
+      "epoch": 0.256,
+      "grad_norm": 0.3965420591877258,
+      "learning_rate": 1.974683544303798e-05,
+      "loss": 0.521,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11881717294454575,
+      "step": 40,
+      "valid_targets_mean": 4056.2,
+      "valid_targets_min": 717
+    },
+    {
+      "epoch": 0.288,
+      "grad_norm": 0.3483077518820235,
+      "learning_rate": 2.2278481012658228e-05,
+      "loss": 0.523,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11997746676206589,
+      "step": 45,
+      "valid_targets_mean": 5026.6,
+      "valid_targets_min": 759
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 0.30625070830960816,
+      "learning_rate": 2.481012658227848e-05,
+      "loss": 0.4935,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11794604361057281,
+      "step": 50,
+      "valid_targets_mean": 3498.4,
+      "valid_targets_min": 617
+    },
+    {
+      "epoch": 0.352,
+      "grad_norm": 0.2823850320688466,
+      "learning_rate": 2.7341772151898737e-05,
+      "loss": 0.4823,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.097208172082901,
+      "step": 55,
+      "valid_targets_mean": 3637.4,
+      "valid_targets_min": 855
+    },
+    {
+      "epoch": 0.384,
+      "grad_norm": 0.24241198548202944,
+      "learning_rate": 2.987341772151899e-05,
+      "loss": 0.4685,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10505026578903198,
+      "step": 60,
+      "valid_targets_mean": 6034.9,
+      "valid_targets_min": 1101
+    },
+    {
+      "epoch": 0.416,
+      "grad_norm": 0.28782572128449035,
+      "learning_rate": 3.240506329113924e-05,
+      "loss": 0.4473,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.0764046460390091,
+      "step": 65,
+      "valid_targets_mean": 2968.0,
+      "valid_targets_min": 699
+    },
+    {
+      "epoch": 0.448,
+      "grad_norm": 0.2690245143752271,
+      "learning_rate": 3.49367088607595e-05,
+      "loss": 0.4554,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.0817393884062767,
+      "step": 70,
+      "valid_targets_mean": 3432.1,
+      "valid_targets_min": 1077
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 0.29110672307002167,
+      "learning_rate": 3.746835443037975e-05,
+      "loss": 0.4594,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14344188570976257,
+      "step": 75,
+      "valid_targets_mean": 4972.2,
+      "valid_targets_min": 910
+    },
+    {
+      "epoch": 0.512,
+      "grad_norm": 0.26366976965414224,
+      "learning_rate": 4e-05,
+      "loss": 0.4414,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10950638353824615,
+      "step": 80,
+      "valid_targets_mean": 4976.3,
+      "valid_targets_min": 707
+    },
+    {
+      "epoch": 0.544,
+      "grad_norm": 0.29357796748281484,
+      "learning_rate": 3.999504991751045e-05,
+      "loss": 0.4291,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1151229739189148,
+      "step": 85,
+      "valid_targets_mean": 4120.8,
+      "valid_targets_min": 815
+    },
+    {
+      "epoch": 0.576,
+      "grad_norm": 0.2665648267201562,
+      "learning_rate": 3.9980202120373464e-05,
+      "loss": 0.4223,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09623487293720245,
+      "step": 90,
+      "valid_targets_mean": 3984.4,
+      "valid_targets_min": 878
+    },
+    {
+      "epoch": 0.608,
+      "grad_norm": 0.29102104895646785,
+      "learning_rate": 3.995546395837111e-05,
+      "loss": 0.4354,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14072270691394806,
+      "step": 95,
+      "valid_targets_mean": 5119.6,
+      "valid_targets_min": 900
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 0.29052221714758086,
+      "learning_rate": 3.992084767709763e-05,
+      "loss": 0.4378,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12029172480106354,
+      "step": 100,
+      "valid_targets_mean": 4541.8,
+      "valid_targets_min": 920
+    },
+    {
+      "epoch": 0.672,
+      "grad_norm": 0.30139076171033236,
+      "learning_rate": 3.987637041189781e-05,
+      "loss": 0.4465,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.0899781733751297,
+      "step": 105,
+      "valid_targets_mean": 3005.1,
+      "valid_targets_min": 768
+    },
+    {
+      "epoch": 0.704,
+      "grad_norm": 0.24643034093835903,
+      "learning_rate": 3.982205417938482e-05,
+      "loss": 0.4074,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.07375466823577881,
+      "step": 110,
+      "valid_targets_mean": 4164.4,
+      "valid_targets_min": 817
+    },
+    {
+      "epoch": 0.736,
+      "grad_norm": 0.28238362496313957,
+      "learning_rate": 3.975792586654179e-05,
+      "loss": 0.4261,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.0981881320476532,
+      "step": 115,
+      "valid_targets_mean": 4921.9,
+      "valid_targets_min": 840
+    },
+    {
+      "epoch": 0.768,
+      "grad_norm": 0.2912784370788693,
+      "learning_rate": 3.968401721741259e-05,
+      "loss": 0.4166,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08864550292491913,
+      "step": 120,
+      "valid_targets_mean": 4266.8,
+      "valid_targets_min": 583
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.2693644733878806,
+      "learning_rate": 3.960036481738819e-05,
+      "loss": 0.4141,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10293649882078171,
+      "step": 125,
+      "valid_targets_mean": 5005.1,
+      "valid_targets_min": 648
+    },
+    {
+      "epoch": 0.832,
+      "grad_norm": 0.26695054027713166,
+      "learning_rate": 3.950701007509667e-05,
+      "loss": 0.4276,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08439735323190689,
+      "step": 130,
+      "valid_targets_mean": 4543.1,
+      "valid_targets_min": 763
+    },
+    {
+      "epoch": 0.864,
+      "grad_norm": 0.2691519351821557,
+      "learning_rate": 3.940399920190552e-05,
+      "loss": 0.4049,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08136770874261856,
+      "step": 135,
+      "valid_targets_mean": 4332.4,
+      "valid_targets_min": 707
+    },
+    {
+      "epoch": 0.896,
+      "grad_norm": 0.2898722431130923,
+      "learning_rate": 3.92913831890467e-05,
+      "loss": 0.4222,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12746064364910126,
+      "step": 140,
+      "valid_targets_mean": 4447.6,
+      "valid_targets_min": 1012
+    },
+    {
+      "epoch": 0.928,
+      "grad_norm": 0.2816921215246534,
+      "learning_rate": 3.916921778237556e-05,
+      "loss": 0.4353,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09352731704711914,
+      "step": 145,
+      "valid_targets_mean": 3751.8,
+      "valid_targets_min": 791
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 0.2659318526319254,
+      "learning_rate": 3.903756345477612e-05,
+      "loss": 0.417,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.07398918271064758,
+      "step": 150,
+      "valid_targets_mean": 4303.4,
+      "valid_targets_min": 735
+    },
+    {
+      "epoch": 0.992,
+      "grad_norm": 0.2998471111137441,
+      "learning_rate": 3.889648537622657e-05,
+      "loss": 0.4206,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09037347137928009,
+      "step": 155,
+      "valid_targets_mean": 3578.2,
+      "valid_targets_min": 845
+    },
+    {
+      "epoch": 1.0192,
+      "grad_norm": 0.284320880092991,
+      "learning_rate": 3.874605338153952e-05,
+      "loss": 0.4356,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.07070295512676239,
+      "step": 160,
+      "valid_targets_mean": 3354.1,
+      "valid_targets_min": 771
+    },
+    {
+      "epoch": 1.0512,
+      "grad_norm": 0.3028521820034212,
+      "learning_rate": 3.8586341935793265e-05,
+      "loss": 0.4019,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10160814225673676,
+      "step": 165,
+      "valid_targets_mean": 3850.0,
+      "valid_targets_min": 1073
+    },
+    {
+      "epoch": 1.0832,
+      "grad_norm": 0.2831788309506465,
+      "learning_rate": 3.841743009747089e-05,
+      "loss": 0.4112,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08752176910638809,
+      "step": 170,
+      "valid_targets_mean": 3638.6,
+      "valid_targets_min": 794
+    },
+    {
+      "epoch": 1.1152,
+      "grad_norm": 0.28191065738363574,
+      "learning_rate": 3.8239401479325714e-05,
+      "loss": 0.4002,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08805648982524872,
+      "step": 175,
+      "valid_targets_mean": 3772.9,
+      "valid_targets_min": 969
+    },
+    {
+      "epoch": 1.1472,
+      "grad_norm": 0.28720022996050437,
+      "learning_rate": 3.8052344206992276e-05,
+      "loss": 0.4033,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11261681467294693,
+      "step": 180,
+      "valid_targets_mean": 4641.4,
+      "valid_targets_min": 846
+    },
+    {
+      "epoch": 1.1792,
+      "grad_norm": 0.23641590364906542,
+      "learning_rate": 3.7856350875363396e-05,
+      "loss": 0.4008,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09746983647346497,
+      "step": 185,
+      "valid_targets_mean": 4034.3,
+      "valid_targets_min": 925
+    },
+    {
+      "epoch": 1.2112,
+      "grad_norm": 0.2643691423105564,
+      "learning_rate": 3.765151850275497e-05,
+      "loss": 0.3914,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11541038751602173,
+      "step": 190,
+      "valid_targets_mean": 6325.9,
+      "valid_targets_min": 1032
+    },
+    {
+      "epoch": 1.2432,
+      "grad_norm": 0.3056187791655054,
+      "learning_rate": 3.7437948482881104e-05,
+      "loss": 0.4024,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08234374225139618,
+      "step": 195,
+      "valid_targets_mean": 3385.4,
+      "valid_targets_min": 572
+    },
+    {
+      "epoch": 1.2752,
+      "grad_norm": 0.29965557501513723,
+      "learning_rate": 3.721574653466336e-05,
+      "loss": 0.4111,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10809139907360077,
+      "step": 200,
+      "valid_targets_mean": 4704.8,
+      "valid_targets_min": 920
+    },
+    {
+      "epoch": 1.3072,
+      "grad_norm": 0.2874823088090068,
+      "learning_rate": 3.698502264989903e-05,
+      "loss": 0.39,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.07870270311832428,
+      "step": 205,
+      "valid_targets_mean": 3815.2,
+      "valid_targets_min": 749
+    },
+    {
+      "epoch": 1.3392,
+      "grad_norm": 0.27196440390561194,
+      "learning_rate": 3.674589103881432e-05,
+      "loss": 0.4031,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10706846415996552,
+      "step": 210,
+      "valid_targets_mean": 4996.6,
+      "valid_targets_min": 645
+    },
+    {
+      "epoch": 1.3712,
+      "grad_norm": 0.2806755265055253,
+      "learning_rate": 3.64984700735293e-05,
+      "loss": 0.3901,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.0604737363755703,
+      "step": 215,
+      "valid_targets_mean": 2600.1,
+      "valid_targets_min": 586
+    },
+    {
+      "epoch": 1.4032,
+      "grad_norm": 0.27101589666834275,
+      "learning_rate": 3.624288222946273e-05,
+      "loss": 0.4013,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12275496125221252,
+      "step": 220,
+      "valid_targets_mean": 3877.8,
+      "valid_targets_min": 826
+    },
+    {
+      "epoch": 1.4352,
+      "grad_norm": 0.26433965079478794,
+      "learning_rate": 3.597925402470578e-05,
+      "loss": 0.4055,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.106813944876194,
+      "step": 225,
+      "valid_targets_mean": 5205.8,
+      "valid_targets_min": 1072
+    },
+    {
+      "epoch": 1.4672,
+      "grad_norm": 0.29005694502725066,
+      "learning_rate": 3.570771595739445e-05,
+      "loss": 0.4038,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09535886347293854,
+      "step": 230,
+      "valid_targets_mean": 4152.2,
+      "valid_targets_min": 762
+    },
+    {
+      "epoch": 1.4992,
+      "grad_norm": 0.28083643450255114,
+      "learning_rate": 3.5428402441111964e-05,
+      "loss": 0.4032,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09149040281772614,
+      "step": 235,
+      "valid_targets_mean": 3912.8,
+      "valid_targets_min": 840
+    },
+    {
+      "epoch": 1.5312000000000001,
+      "grad_norm": 0.2836852162366952,
+      "learning_rate": 3.5141451738352936e-05,
+      "loss": 0.3914,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10846564173698425,
+      "step": 240,
+      "valid_targets_mean": 4232.0,
+      "valid_targets_min": 550
+    },
+    {
+      "epoch": 1.5632000000000001,
+      "grad_norm": 0.29582123793389803,
+      "learning_rate": 3.4847005892082266e-05,
+      "loss": 0.3941,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08144856244325638,
+      "step": 245,
+      "valid_targets_mean": 3227.5,
+      "valid_targets_min": 787
+    },
+    {
+      "epoch": 1.5952,
+      "grad_norm": 0.2419212424521058,
+      "learning_rate": 3.454521065542273e-05,
+      "loss": 0.4022,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09784944355487823,
+      "step": 250,
+      "valid_targets_mean": 5186.9,
+      "valid_targets_min": 1899
+    },
+    {
+      "epoch": 1.6272,
+      "grad_norm": 0.26606559946032465,
+      "learning_rate": 3.423621541950597e-05,
+      "loss": 0.3909,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.06448677182197571,
+      "step": 255,
+      "valid_targets_mean": 3085.6,
+      "valid_targets_min": 872
+    },
+    {
+      "epoch": 1.6592,
+      "grad_norm": 0.25171136521342496,
+      "learning_rate": 3.3920173139522664e-05,
+      "loss": 0.3951,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08374504745006561,
+      "step": 260,
+      "valid_targets_mean": 4136.4,
+      "valid_targets_min": 815
+    },
+    {
+      "epoch": 1.6912,
+      "grad_norm": 0.2808563453764989,
+      "learning_rate": 3.35972402590084e-05,
+      "loss": 0.4027,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.07223507016897202,
+      "step": 265,
+      "valid_targets_mean": 3363.7,
+      "valid_targets_min": 760
+    },
+    {
+      "epoch": 1.7231999999999998,
+      "grad_norm": 0.33298838392371227,
+      "learning_rate": 3.326757663240291e-05,
+      "loss": 0.4121,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10389626026153564,
+      "step": 270,
+      "valid_targets_mean": 3687.0,
+      "valid_targets_min": 679
+    },
+    {
+      "epoch": 1.7551999999999999,
+      "grad_norm": 0.28079397174039267,
+      "learning_rate": 3.293134544592073e-05,
+      "loss": 0.3762,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08183372020721436,
+      "step": 275,
+      "valid_targets_mean": 4174.4,
+      "valid_targets_min": 910
+    },
+    {
+      "epoch": 1.7872,
+      "grad_norm": 0.2585456799766725,
+      "learning_rate": 3.258871313677274e-05,
+      "loss": 0.3951,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09434238076210022,
+      "step": 280,
+      "valid_targets_mean": 4111.9,
+      "valid_targets_min": 849
+    },
+    {
+      "epoch": 1.8192,
+      "grad_norm": 0.2727668777853278,
+      "learning_rate": 3.2239849310778316e-05,
+      "loss": 0.3984,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1053638905286789,
+      "step": 285,
+      "valid_targets_mean": 3938.9,
+      "valid_targets_min": 642
+    },
+    {
+      "epoch": 1.8512,
+      "grad_norm": 0.2898675710253012,
+      "learning_rate": 3.188492665840909e-05,
+      "loss": 0.3926,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11077843606472015,
+      "step": 290,
+      "valid_targets_mean": 3583.8,
+      "valid_targets_min": 1035
+    },
+    {
+      "epoch": 1.8832,
+      "grad_norm": 0.24559383719606828,
+      "learning_rate": 3.1524120869305726e-05,
+      "loss": 0.4049,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10664435476064682,
+      "step": 295,
+      "valid_targets_mean": 4460.4,
+      "valid_targets_min": 843
+    },
+    {
+      "epoch": 1.9152,
+      "grad_norm": 0.2706013411454868,
+      "learning_rate": 3.11576105453101e-05,
+      "loss": 0.388,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11441827565431595,
+      "step": 300,
+      "valid_targets_mean": 4934.9,
+      "valid_targets_min": 1062
+    },
+    {
+      "epoch": 1.9472,
+      "grad_norm": 0.29501823929238524,
+      "learning_rate": 3.0785577112055916e-05,
+      "loss": 0.3915,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10451832413673401,
+      "step": 305,
+      "valid_targets_mean": 3557.5,
+      "valid_targets_min": 633
+    },
+    {
+      "epoch": 1.9792,
+      "grad_norm": 0.28784275943100623,
+      "learning_rate": 3.040820472916153e-05,
+      "loss": 0.3934,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10608066618442535,
+      "step": 310,
+      "valid_targets_mean": 4385.8,
+      "valid_targets_min": 727
+    },
+    {
+      "epoch": 2.0064,
+      "grad_norm": 0.308704618281529,
+      "learning_rate": 3.002568019906939e-05,
+      "loss": 0.3928,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10148085653781891,
+      "step": 315,
+      "valid_targets_mean": 3559.5,
+      "valid_targets_min": 689
+    },
+    {
+      "epoch": 2.0384,
+      "grad_norm": 0.2661885662987904,
+      "learning_rate": 2.963819287457733e-05,
+      "loss": 0.3701,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08600443601608276,
+      "step": 320,
+      "valid_targets_mean": 4499.2,
+      "valid_targets_min": 885
+    },
+    {
+      "epoch": 2.0704,
+      "grad_norm": 0.745218395511576,
+      "learning_rate": 2.924593456510733e-05,
+      "loss": 0.3892,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10533807426691055,
+      "step": 325,
+      "valid_targets_mean": 5607.1,
+      "valid_targets_min": 979
+    },
+    {
+      "epoch": 2.1024,
+      "grad_norm": 0.24439638147298737,
+      "learning_rate": 2.8849099441758306e-05,
+      "loss": 0.3933,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09026764333248138,
+      "step": 330,
+      "valid_targets_mean": 5647.9,
+      "valid_targets_min": 550
+    },
+    {
+      "epoch": 2.1344,
+      "grad_norm": 0.2925397905499642,
+      "learning_rate": 2.844788394118979e-05,
+      "loss": 0.3879,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08735325932502747,
+      "step": 335,
+      "valid_targets_mean": 3745.2,
+      "valid_targets_min": 819
+    },
+    {
+      "epoch": 2.1664,
+      "grad_norm": 0.2532607573085797,
+      "learning_rate": 2.8042486668384164e-05,
+      "loss": 0.3704,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08744924515485764,
+      "step": 340,
+      "valid_targets_mean": 4457.9,
+      "valid_targets_min": 891
+    },
+    {
+      "epoch": 2.1984,
+      "grad_norm": 0.2524209841363098,
+      "learning_rate": 2.7633108298335582e-05,
+      "loss": 0.3744,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.0862656831741333,
+      "step": 345,
+      "valid_targets_mean": 4706.6,
+      "valid_targets_min": 666
+    },
+    {
+      "epoch": 2.2304,
+      "grad_norm": 0.2655186056539317,
+      "learning_rate": 2.721995147671416e-05,
+      "loss": 0.3796,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08343387395143509,
+      "step": 350,
+      "valid_targets_mean": 5141.2,
+      "valid_targets_min": 763
+    },
+    {
+      "epoch": 2.2624,
+      "grad_norm": 0.2974693224101578,
+      "learning_rate": 2.68032207195547e-05,
+      "loss": 0.3736,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.057351384311914444,
+      "step": 355,
+      "valid_targets_mean": 2457.4,
+      "valid_targets_min": 738
+    },
+    {
+      "epoch": 2.2944,
+      "grad_norm": 0.27641336884979917,
+      "learning_rate": 2.6383122312019604e-05,
+      "loss": 0.3941,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.06439122557640076,
+      "step": 360,
+      "valid_targets_mean": 2693.7,
+      "valid_targets_min": 579
+    },
+    {
+      "epoch": 2.3264,
+      "grad_norm": 0.27448799710719957,
+      "learning_rate": 2.595986420628597e-05,
+      "loss": 0.38,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08785772323608398,
+      "step": 365,
+      "valid_targets_mean": 5666.8,
+      "valid_targets_min": 786
+    },
+    {
+      "epoch": 2.3584,
+      "grad_norm": 0.3847762166485067,
+      "learning_rate": 2.5533655918607573e-05,
+      "loss": 0.3853,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14176154136657715,
+      "step": 370,
+      "valid_targets_mean": 5243.2,
+      "valid_targets_min": 1046
+    },
+    {
+      "epoch": 2.3904,
+      "grad_norm": 0.2608015104131249,
+      "learning_rate": 2.510470842560259e-05,
+      "loss": 0.3688,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10554061830043793,
+      "step": 375,
+      "valid_targets_mean": 5038.5,
+      "valid_targets_min": 655
+    },
+    {
+      "epoch": 2.4224,
+      "grad_norm": 0.2653439356260716,
+      "learning_rate": 2.467323405981841e-05,
+      "loss": 0.3728,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09912216663360596,
+      "step": 380,
+      "valid_targets_mean": 4336.6,
+      "valid_targets_min": 907
+    },
+    {
+      "epoch": 2.4544,
+      "grad_norm": 0.2201453514684438,
+      "learning_rate": 2.423944640462533e-05,
+      "loss": 0.3667,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.07418343424797058,
+      "step": 385,
+      "valid_targets_mean": 4739.9,
+      "valid_targets_min": 1074
+    },
+    {
+      "epoch": 2.4864,
+      "grad_norm": 0.3032771902806272,
+      "learning_rate": 2.3803560188490968e-05,
+      "loss": 0.3955,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1125624030828476,
+      "step": 390,
+      "valid_targets_mean": 3585.6,
+      "valid_targets_min": 787
+    },
+    {
+      "epoch": 2.5183999999999997,
+      "grad_norm": 0.30272719179645174,
+      "learning_rate": 2.336579117868789e-05,
+      "loss": 0.3769,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11660125851631165,
+      "step": 395,
+      "valid_targets_mean": 5065.9,
+      "valid_targets_min": 745
+    },
+    {
+      "epoch": 2.5504,
+      "grad_norm": 0.3000798425495175,
+      "learning_rate": 2.292635607448711e-05,
+      "loss": 0.3762,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08818478137254715,
+      "step": 400,
+      "valid_targets_mean": 3926.0,
+      "valid_targets_min": 777
+    },
+    {
+      "epoch": 2.5824,
+      "grad_norm": 0.27611395483456835,
+      "learning_rate": 2.248547239989008e-05,
+      "loss": 0.3673,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10591618716716766,
+      "step": 405,
+      "valid_targets_mean": 4140.1,
+      "valid_targets_min": 799
+    },
+    {
+      "epoch": 2.6144,
+      "grad_norm": 0.29027000153489724,
+      "learning_rate": 2.204335839595255e-05,
+      "loss": 0.3882,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.0940711498260498,
+      "step": 410,
+      "valid_targets_mean": 3295.1,
+      "valid_targets_min": 845
+    },
+    {
+      "epoch": 2.6464,
+      "grad_norm": 0.27798071551318626,
+      "learning_rate": 2.1600232912753452e-05,
+      "loss": 0.3733,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08440535515546799,
+      "step": 415,
+      "valid_targets_mean": 3791.0,
+      "valid_targets_min": 426
+    },
+    {
+      "epoch": 2.6784,
+      "grad_norm": 0.2604307505674002,
+      "learning_rate": 2.1156315301062293e-05,
+      "loss": 0.3887,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11420158296823502,
+      "step": 420,
+      "valid_targets_mean": 5142.2,
+      "valid_targets_min": 885
+    },
+    {
+      "epoch": 2.7104,
+      "grad_norm": 0.2981350920253838,
+      "learning_rate": 2.0711825303758712e-05,
+      "loss": 0.3775,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10606996715068817,
+      "step": 425,
+      "valid_targets_mean": 3196.1,
+      "valid_targets_min": 657
+    },
+    {
+      "epoch": 2.7424,
+      "grad_norm": 0.31971771515132524,
+      "learning_rate": 2.0266982947057962e-05,
+      "loss": 0.3967,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11797087639570236,
+      "step": 430,
+      "valid_targets_mean": 3129.9,
+      "valid_targets_min": 910
+    },
+    {
+      "epoch": 2.7744,
+      "grad_norm": 0.267669126952743,
+      "learning_rate": 1.9822008431596083e-05,
+      "loss": 0.3701,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.07902465015649796,
+      "step": 435,
+      "valid_targets_mean": 4010.4,
+      "valid_targets_min": 629
+    },
+    {
+      "epoch": 2.8064,
+      "grad_norm": 0.2817513796831205,
+      "learning_rate": 1.937712202342881e-05,
+      "loss": 0.3859,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08092093467712402,
+      "step": 440,
+      "valid_targets_mean": 3669.4,
+      "valid_targets_min": 904
+    },
+    {
+      "epoch": 2.8384,
+      "grad_norm": 0.2608794711911782,
+      "learning_rate": 1.8932543944998037e-05,
+      "loss": 0.3878,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08120152354240417,
+      "step": 445,
+      "valid_targets_mean": 3907.8,
+      "valid_targets_min": 455
+    },
+    {
+      "epoch": 2.8704,
+      "grad_norm": 0.28551134878732143,
+      "learning_rate": 1.8488494266119877e-05,
+      "loss": 0.3889,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11897192895412445,
+      "step": 450,
+      "valid_targets_mean": 5075.2,
+      "valid_targets_min": 804
+    },
+    {
+      "epoch": 2.9024,
+      "grad_norm": 0.25276163690756914,
+      "learning_rate": 1.804519279504834e-05,
+      "loss": 0.3714,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09380828589200974,
+      "step": 455,
+      "valid_targets_mean": 4770.2,
+      "valid_targets_min": 876
+    },
+    {
+      "epoch": 2.9344,
+      "grad_norm": 0.2992035589067917,
+      "learning_rate": 1.7602858969668365e-05,
+      "loss": 0.3853,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14154383540153503,
+      "step": 460,
+      "valid_targets_mean": 5025.6,
+      "valid_targets_min": 1510
+    },
+    {
+      "epoch": 2.9664,
+      "grad_norm": 0.2634617059371784,
+      "learning_rate": 1.716171174887231e-05,
+      "loss": 0.3841,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10566499829292297,
+      "step": 465,
+      "valid_targets_mean": 4799.4,
+      "valid_targets_min": 780
+    },
+    {
+      "epoch": 2.9984,
+      "grad_norm": 0.28173468384988665,
+      "learning_rate": 1.6721969504173484e-05,
+      "loss": 0.3667,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10584543645381927,
+      "step": 470,
+      "valid_targets_mean": 4057.9,
+      "valid_targets_min": 896
+    },
+    {
+      "epoch": 3.0256,
+      "grad_norm": 0.3718759528254828,
+      "learning_rate": 1.628384991161041e-05,
+      "loss": 0.3699,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.06966934353113174,
+      "step": 475,
+      "valid_targets_mean": 2347.6,
+      "valid_targets_min": 739
+    },
+    {
+      "epoch": 3.0576,
+      "grad_norm": 0.3482375746306173,
+      "learning_rate": 1.5847569843995452e-05,
+      "loss": 0.3841,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08863838016986847,
+      "step": 480,
+      "valid_targets_mean": 4915.5,
+      "valid_targets_min": 731
+    },
+    {
+      "epoch": 3.0896,
+      "grad_norm": 0.2605391331755141,
+      "learning_rate": 1.5413345263560922e-05,
+      "loss": 0.3597,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08018875122070312,
+      "step": 485,
+      "valid_targets_mean": 2924.7,
+      "valid_targets_min": 860
+    },
+    {
+      "epoch": 3.1216,
+      "grad_norm": 0.2744873199676585,
+      "learning_rate": 1.4981391115056032e-05,
+      "loss": 0.3768,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08453673869371414,
+      "step": 490,
+      "valid_targets_mean": 3651.7,
+      "valid_targets_min": 827
+    },
+    {
+      "epoch": 3.1536,
+      "grad_norm": 0.2862416420241656,
+      "learning_rate": 1.455192121934748e-05,
+      "loss": 0.3751,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08500616252422333,
+      "step": 495,
+      "valid_targets_mean": 3786.9,
+      "valid_targets_min": 862
+    },
+    {
+      "epoch": 3.1856,
+      "grad_norm": 0.2410512243141333,
+      "learning_rate": 1.4125148167576303e-05,
+      "loss": 0.3547,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09095191210508347,
+      "step": 500,
+      "valid_targets_mean": 5187.6,
+      "valid_targets_min": 831
+    },
+    {
+      "epoch": 3.2176,
+      "grad_norm": 0.35347022384271226,
+      "learning_rate": 1.3701283215923563e-05,
+      "loss": 0.3743,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10321146994829178,
+      "step": 505,
+      "valid_targets_mean": 4444.2,
+      "valid_targets_min": 552
+    },
+    {
+      "epoch": 3.2496,
+      "grad_norm": 0.26484466515520977,
+      "learning_rate": 1.328053618103677e-05,
+      "loss": 0.3672,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08701908588409424,
+      "step": 510,
+      "valid_targets_mean": 4852.4,
+      "valid_targets_min": 1047
+    },
+    {
+      "epoch": 3.2816,
+      "grad_norm": 0.3009212615049423,
+      "learning_rate": 1.2863115336168916e-05,
+      "loss": 0.3622,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09702091664075851,
+      "step": 515,
+      "valid_targets_mean": 4628.2,
+      "valid_targets_min": 898
+    },
+    {
+      "epoch": 3.3136,
+      "grad_norm": 0.44615421536970323,
+      "learning_rate": 1.2449227308081509e-05,
+      "loss": 0.3831,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10736433416604996,
+      "step": 520,
+      "valid_targets_mean": 5044.7,
+      "valid_targets_min": 903
+    },
+    {
+      "epoch": 3.3456,
+      "grad_norm": 0.328957253113083,
+      "learning_rate": 1.2039076974762587e-05,
+      "loss": 0.3686,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09524821490049362,
+      "step": 525,
+      "valid_targets_mean": 4277.4,
+      "valid_targets_min": 746
+    },
+    {
+      "epoch": 3.3776,
+      "grad_norm": 0.2768779862572955,
+      "learning_rate": 1.163286736401044e-05,
+      "loss": 0.3658,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.0861595943570137,
+      "step": 530,
+      "valid_targets_mean": 3829.5,
+      "valid_targets_min": 846
+    },
+    {
+      "epoch": 3.4096,
+      "grad_norm": 0.289143060137078,
+      "learning_rate": 1.123079955293322e-05,
+      "loss": 0.3655,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08979984372854233,
+      "step": 535,
+      "valid_targets_mean": 4267.3,
+      "valid_targets_min": 727
+    },
+    {
+      "epoch": 3.4416,
+      "grad_norm": 0.3229967311686468,
+      "learning_rate": 1.0833072568414037e-05,
+      "loss": 0.3728,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11383439600467682,
+      "step": 540,
+      "valid_targets_mean": 5589.9,
+      "valid_targets_min": 1341
+    },
+    {
+      "epoch": 3.4736000000000002,
+      "grad_norm": 0.3197065601665963,
+      "learning_rate": 1.0439883288591057e-05,
+      "loss": 0.3637,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.061988022178411484,
+      "step": 545,
+      "valid_targets_mean": 2944.5,
+      "valid_targets_min": 948
+    },
+    {
+      "epoch": 3.5056000000000003,
+      "grad_norm": 0.26141782092496096,
+      "learning_rate": 1.0051426345401202e-05,
+      "loss": 0.3688,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08496346324682236,
+      "step": 550,
+      "valid_targets_mean": 4980.8,
+      "valid_targets_min": 619
+    },
+    {
+      "epoch": 3.5376,
+      "grad_norm": 0.2999131550288204,
+      "learning_rate": 9.667894028235704e-06,
+      "loss": 0.3737,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12225616723299026,
+      "step": 555,
+      "valid_targets_mean": 4680.8,
+      "valid_targets_min": 1052
+    },
+    {
+      "epoch": 3.5696,
+      "grad_norm": 0.4227784991439054,
+      "learning_rate": 9.289476188755315e-06,
+      "loss": 0.3727,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09411134570837021,
+      "step": 560,
+      "valid_targets_mean": 3544.7,
+      "valid_targets_min": 622
+    },
+    {
+      "epoch": 3.6016,
+      "grad_norm": 0.2536972808313953,
+      "learning_rate": 8.916360146912122e-06,
+      "loss": 0.3739,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10593365132808685,
+      "step": 565,
+      "valid_targets_mean": 5587.6,
+      "valid_targets_min": 621
+    },
+    {
+      "epoch": 3.6336,
+      "grad_norm": 0.28899106362083293,
+      "learning_rate": 8.548730598224646e-06,
+      "loss": 0.3791,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.07353600859642029,
+      "step": 570,
+      "valid_targets_mean": 2823.1,
+      "valid_targets_min": 831
+    },
+    {
+      "epoch": 3.6656,
+      "grad_norm": 0.24742054842144628,
+      "learning_rate": 8.186769522352053e-06,
+      "loss": 0.3548,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10245418548583984,
+      "step": 575,
+      "valid_targets_mean": 5241.8,
+      "valid_targets_min": 1043
+    },
+    {
+      "epoch": 3.6976,
+      "grad_norm": 0.2637417588372541,
+      "learning_rate": 7.830656093012714e-06,
+      "loss": 0.3698,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.0750846266746521,
+      "step": 580,
+      "valid_targets_mean": 3368.1,
+      "valid_targets_min": 791
+    },
+    {
+      "epoch": 3.7296,
+      "grad_norm": 0.2593368713917693,
+      "learning_rate": 7.480566589291696e-06,
+      "loss": 0.3563,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10452909767627716,
+      "step": 585,
+      "valid_targets_mean": 5421.9,
+      "valid_targets_min": 816
+    },
+    {
+      "epoch": 3.7616,
+      "grad_norm": 0.2582077214287802,
+      "learning_rate": 7.1366743083812285e-06,
+      "loss": 0.3688,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08905822038650513,
+      "step": 590,
+      "valid_targets_mean": 4455.8,
+      "valid_targets_min": 579
+    },
+    {
+      "epoch": 3.7936,
+      "grad_norm": 0.2812195200864867,
+      "learning_rate": 6.799149479797101e-06,
+      "loss": 0.3686,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10573406517505646,
+      "step": 595,
+      "valid_targets_mean": 4390.8,
+      "valid_targets_min": 1015
+    },
+    {
+      "epoch": 3.8256,
+      "grad_norm": 0.26420941412043575,
+      "learning_rate": 6.4681591811137e-06,
+      "loss": 0.3686,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.0683465301990509,
+      "step": 600,
+      "valid_targets_mean": 3638.7,
+      "valid_targets_min": 675
+    },
+    {
+      "epoch": 3.8576,
+      "grad_norm": 0.635045338545764,
+      "learning_rate": 6.143867255259197e-06,
+      "loss": 0.376,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1084991842508316,
+      "step": 605,
+      "valid_targets_mean": 4127.9,
+      "valid_targets_min": 397
+    },
+    {
+      "epoch": 3.8895999999999997,
+      "grad_norm": 0.2505542945434954,
+      "learning_rate": 5.8264342294119504e-06,
+      "loss": 0.363,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08776776492595673,
+      "step": 610,
+      "valid_targets_mean": 4926.2,
+      "valid_targets_min": 1083
+    },
+    {
+      "epoch": 3.9215999999999998,
+      "grad_norm": 0.2666353142437969,
+      "learning_rate": 5.516017235538258e-06,
+      "loss": 0.3668,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10114693641662598,
+      "step": 615,
+      "valid_targets_mean": 4004.1,
+      "valid_targets_min": 682
+    },
+    {
+      "epoch": 3.9536,
+      "grad_norm": 0.27794200982433565,
+      "learning_rate": 5.212769932610695e-06,
+      "loss": 0.3747,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.0859544575214386,
+      "step": 620,
+      "valid_targets_mean": 3127.7,
+      "valid_targets_min": 578
+    },
+    {
+      "epoch": 3.9856,
+      "grad_norm": 0.24501281872995306,
+      "learning_rate": 4.916842430545681e-06,
+      "loss": 0.3708,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11310873925685883,
+      "step": 625,
+      "valid_targets_mean": 5888.4,
+      "valid_targets_min": 983
+    },
+    {
+      "epoch": 4.0128,
+      "grad_norm": 0.2702526357925407,
+      "learning_rate": 4.628381215897837e-06,
+      "loss": 0.3393,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1093250960111618,
+      "step": 630,
+      "valid_targets_mean": 4893.3,
+      "valid_targets_min": 912
+    },
+    {
+      "epoch": 4.0448,
+      "grad_norm": 0.2737399291910058,
+      "learning_rate": 4.347529079347914e-06,
+      "loss": 0.3632,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08078117668628693,
+      "step": 635,
+      "valid_targets_mean": 3886.9,
+      "valid_targets_min": 745
+    },
+    {
+      "epoch": 4.0768,
+      "grad_norm": 0.26157119883246244,
+      "learning_rate": 4.074425045020247e-06,
+      "loss": 0.367,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08301189541816711,
+      "step": 640,
+      "valid_targets_mean": 3578.7,
+      "valid_targets_min": 651
+    },
+    {
+      "epoch": 4.1088,
+      "grad_norm": 0.2415566330814667,
+      "learning_rate": 3.8092043016646487e-06,
+      "loss": 0.3613,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11439858376979828,
+      "step": 645,
+      "valid_targets_mean": 8398.5,
+      "valid_targets_min": 900
+    },
+    {
+      "epoch": 4.1408,
+      "grad_norm": 0.2713813032691237,
+      "learning_rate": 3.551998135736867e-06,
+      "loss": 0.3679,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08449294418096542,
+      "step": 650,
+      "valid_targets_mean": 3475.7,
+      "valid_targets_min": 889
+    },
+    {
+      "epoch": 4.1728,
+      "grad_norm": 0.2590315873290641,
+      "learning_rate": 3.3029338664107267e-06,
+      "loss": 0.3645,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08480607718229294,
+      "step": 655,
+      "valid_targets_mean": 4219.3,
+      "valid_targets_min": 792
+    },
+    {
+      "epoch": 4.2048,
+      "grad_norm": 0.2669798184487674,
+      "learning_rate": 3.0621347825540625e-06,
+      "loss": 0.3756,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09723050892353058,
+      "step": 660,
+      "valid_targets_mean": 4259.7,
+      "valid_targets_min": 698
+    },
+    {
+      "epoch": 4.2368,
+      "grad_norm": 0.4162474679354516,
+      "learning_rate": 2.8297200816997183e-06,
+      "loss": 0.3709,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09453723579645157,
+      "step": 665,
+      "valid_targets_mean": 4756.6,
+      "valid_targets_min": 954
+    },
+    {
+      "epoch": 4.2688,
+      "grad_norm": 0.26183403325419086,
+      "learning_rate": 2.605804811041803e-06,
+      "loss": 0.3708,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09141135215759277,
+      "step": 670,
+      "valid_targets_mean": 4213.8,
+      "valid_targets_min": 1111
+    },
+    {
+      "epoch": 4.3008,
+      "grad_norm": 0.2633384005583793,
+      "learning_rate": 2.390499810486351e-06,
+      "loss": 0.3562,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08372244238853455,
+      "step": 675,
+      "valid_targets_mean": 3133.6,
+      "valid_targets_min": 762
+    },
+    {
+      "epoch": 4.3328,
+      "grad_norm": 0.2597060945400381,
+      "learning_rate": 2.183911657784685e-06,
+      "loss": 0.3475,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09147651493549347,
+      "step": 680,
+      "valid_targets_mean": 5655.0,
+      "valid_targets_min": 787
+    },
+    {
+      "epoch": 4.3648,
+      "grad_norm": 0.5380912390875242,
+      "learning_rate": 1.986142615776532e-06,
+      "loss": 0.3588,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.06554905325174332,
+      "step": 685,
+      "valid_targets_mean": 3091.0,
+      "valid_targets_min": 701
+    },
+    {
+      "epoch": 4.3968,
+      "grad_norm": 0.26894317047245636,
+      "learning_rate": 1.7972905817690644e-06,
+      "loss": 0.3694,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08654780685901642,
+      "step": 690,
+      "valid_targets_mean": 3781.1,
+      "valid_targets_min": 1013
+    },
+    {
+      "epoch": 4.4288,
+      "grad_norm": 0.29729751566496354,
+      "learning_rate": 1.617449039076955e-06,
+      "loss": 0.3522,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09058552980422974,
+      "step": 695,
+      "valid_targets_mean": 3466.2,
+      "valid_targets_min": 699
+    },
+    {
+      "epoch": 4.4608,
+      "grad_norm": 0.28815749615681174,
+      "learning_rate": 1.4467070107473413e-06,
+      "loss": 0.3726,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11209585517644882,
+      "step": 700,
+      "valid_targets_mean": 3802.4,
+      "valid_targets_min": 856
+    },
+    {
+      "epoch": 4.4928,
+      "grad_norm": 0.28258642887047014,
+      "learning_rate": 1.2851490154926816e-06,
+      "loss": 0.3781,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10135959833860397,
+      "step": 705,
+      "valid_targets_mean": 3837.9,
+      "valid_targets_min": 1019
+    },
+    {
+      "epoch": 4.5248,
+      "grad_norm": 0.28677422970303973,
+      "learning_rate": 1.1328550258533211e-06,
+      "loss": 0.3533,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09551312029361725,
+      "step": 710,
+      "valid_targets_mean": 4155.6,
+      "valid_targets_min": 894
+    },
+    {
+      "epoch": 4.5568,
+      "grad_norm": 0.2439385878682174,
+      "learning_rate": 9.899004286103953e-07,
+      "loss": 0.363,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09616187959909439,
+      "step": 715,
+      "valid_targets_mean": 5574.0,
+      "valid_targets_min": 804
+    },
+    {
+      "epoch": 4.5888,
+      "grad_norm": 0.2519232433246875,
+      "learning_rate": 8.5635598746876e-07,
+      "loss": 0.3648,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12598739564418793,
+      "step": 720,
+      "valid_targets_mean": 6848.0,
+      "valid_targets_min": 916
+    },
+    {
+      "epoch": 4.6208,
+      "grad_norm": 0.24767401614136778,
+      "learning_rate": 7.32287808028389e-07,
+      "loss": 0.3718,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10707487910985947,
+      "step": 725,
+      "valid_targets_mean": 5364.5,
+      "valid_targets_min": 752
+    },
+    {
+      "epoch": 4.6528,
+      "grad_norm": 0.2803496506658026,
+      "learning_rate": 6.177573050615327e-07,
+      "loss": 0.3574,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.0952276661992073,
+      "step": 730,
+      "valid_targets_mean": 3587.8,
+      "valid_targets_min": 787
+    },
+    {
+      "epoch": 4.6848,
+      "grad_norm": 0.2573106045309909,
+      "learning_rate": 5.128211721119213e-07,
+      "loss": 0.3615,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11935457587242126,
+      "step": 735,
+      "valid_targets_mean": 4788.9,
+      "valid_targets_min": 759
+    },
+    {
+      "epoch": 4.7168,
+      "grad_norm": 0.23953660310983194,
+      "learning_rate": 4.175313534309755e-07,
+      "loss": 0.3597,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09062041342258453,
+      "step": 740,
+      "valid_targets_mean": 5087.4,
+      "valid_targets_min": 652
+    },
+    {
+      "epoch": 4.7488,
+      "grad_norm": 0.2656813862694145,
+      "learning_rate": 3.319350182649861e-07,
+      "loss": 0.3571,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10540862381458282,
+      "step": 745,
+      "valid_targets_mean": 5169.6,
+      "valid_targets_min": 733
+    },
+    {
+      "epoch": 4.7808,
+      "grad_norm": 0.29859563488808355,
+      "learning_rate": 2.560745375059392e-07,
+      "loss": 0.3823,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.07431074976921082,
+      "step": 750,
+      "valid_targets_mean": 2463.2,
+      "valid_targets_min": 884
+    },
+    {
+      "epoch": 4.8128,
+      "grad_norm": 0.2602543242792775,
+      "learning_rate": 1.8998746271758016e-07,
+      "loss": 0.375,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08896613121032715,
+      "step": 755,
+      "valid_targets_mean": 4321.4,
+      "valid_targets_min": 763
+    },
+    {
+      "epoch": 4.8448,
+      "grad_norm": 0.2268314376387516,
+      "learning_rate": 1.337065075470778e-07,
+      "loss": 0.3645,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09808242321014404,
+      "step": 760,
+      "valid_targets_mean": 6536.9,
+      "valid_targets_min": 1566
+    },
+    {
+      "epoch": 4.8768,
+      "grad_norm": 0.3044746500844831,
+      "learning_rate": 8.725953153150279e-08,
+      "loss": 0.3632,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10444900393486023,
+      "step": 765,
+      "valid_targets_mean": 3701.1,
+      "valid_targets_min": 637
+    },
+    {
+      "epoch": 4.9088,
+      "grad_norm": 0.2541400655727247,
+      "learning_rate": 5.066952630711886e-08,
+      "loss": 0.362,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09886257350444794,
+      "step": 770,
+      "valid_targets_mean": 4490.7,
+      "valid_targets_min": 880
+    },
+    {
+      "epoch": 4.9408,
+      "grad_norm": 0.2967687329506592,
+      "learning_rate": 2.3954604228342283e-08,
+      "loss": 0.3732,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1099693700671196,
+      "step": 775,
+      "valid_targets_mean": 3707.9,
+      "valid_targets_min": 891
+    },
+    {
+      "epoch": 4.9728,
+      "grad_norm": 0.2682858780749602,
+      "learning_rate": 7.12798940197601e-09,
+      "loss": 0.3517,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.07831766456365585,
+      "step": 780,
+      "valid_targets_mean": 3464.8,
+      "valid_targets_min": 677
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.5579161259279118,
+      "learning_rate": 1.9801114115480802e-10,
+      "loss": 0.3671,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.34743064641952515,
+      "step": 785,
+      "valid_targets_mean": 3418.9,
+      "valid_targets_min": 824
+    },
+    {
+      "epoch": 5.0,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.34743064641952515,
+      "step": 785,
+      "total_flos": 1.1331445798312346e+18,
+      "train_loss": 0.39917116089231647,
+      "train_runtime": 14678.1249,
+      "train_samples_per_second": 3.406,
+      "train_steps_per_second": 0.053,
+      "valid_targets_mean": 3418.9,
+      "valid_targets_min": 824
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 785,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.1331445798312346e+18,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

training_loss.png ADDED Viewed