Qwen2.5-3B-Instruct-SFT / trainer_state.json

Model save

2b6e3a2 verified 22 days ago

28.4 kB

	{
	"best_global_step": 100,
	"best_metric": 0.4209205210208893,
	"best_model_checkpoint": "results/Qwen2.5-3B-Instruct-SFT/checkpoint-100",
	"epoch": 0.9941582580987786,
	"eval_steps": 50,
	"global_step": 117,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0,
	"eval_loss": 1.0300904512405396,
	"eval_num_tokens": 0.0,
	"eval_runtime": 5.1949,
	"eval_samples_per_second": 3.85,
	"eval_steps_per_second": 1.925,
	"step": 0
	},
	{
	"epoch": 0,
	"eval_reward_final_answer": 0.0,
	"step": 0
	},
	{
	"epoch": 0,
	"eval_reward_response_format": 0.0,
	"step": 0
	},
	{
	"epoch": 0,
	"eval_reward_interaction": 0.0,
	"step": 0
	},
	{
	"epoch": 0.008497079129049389,
	"grad_norm": 2.155670404434204,
	"learning_rate": 0.0,
	"loss": 0.9504,
	"num_tokens": 221701.0,
	"step": 1
	},
	{
	"epoch": 0.016994158258098777,
	"grad_norm": 2.175981044769287,
	"learning_rate": 5e-06,
	"loss": 0.9609,
	"num_tokens": 443374.0,
	"step": 2
	},
	{
	"epoch": 0.025491237387148168,
	"grad_norm": 2.1068813800811768,
	"learning_rate": 1e-05,
	"loss": 0.9455,
	"num_tokens": 667777.0,
	"step": 3
	},
	{
	"epoch": 0.033988316516197555,
	"grad_norm": 2.1638681888580322,
	"learning_rate": 1.5000000000000002e-05,
	"loss": 0.9521,
	"num_tokens": 887347.0,
	"step": 4
	},
	{
	"epoch": 0.04248539564524695,
	"grad_norm": 2.1004698276519775,
	"learning_rate": 2e-05,
	"loss": 0.9523,
	"num_tokens": 1111957.0,
	"step": 5
	},
	{
	"epoch": 0.050982474774296335,
	"grad_norm": 2.0184059143066406,
	"learning_rate": 1.9996582763224565e-05,
	"loss": 0.9102,
	"num_tokens": 1340874.0,
	"step": 6
	},
	{
	"epoch": 0.05947955390334572,
	"grad_norm": 2.0365166664123535,
	"learning_rate": 1.9986333647899847e-05,
	"loss": 0.9047,
	"num_tokens": 1553400.0,
	"step": 7
	},
	{
	"epoch": 0.06797663303239511,
	"grad_norm": 1.7037795782089233,
	"learning_rate": 1.9969260437060028e-05,
	"loss": 0.8468,
	"num_tokens": 1779751.0,
	"step": 8
	},
	{
	"epoch": 0.07647371216144451,
	"grad_norm": 1.5123393535614014,
	"learning_rate": 1.9945376095861546e-05,
	"loss": 0.818,
	"num_tokens": 1996995.0,
	"step": 9
	},
	{
	"epoch": 0.0849707912904939,
	"grad_norm": 1.132192611694336,
	"learning_rate": 1.991469876173753e-05,
	"loss": 0.7753,
	"num_tokens": 2228097.0,
	"step": 10
	},
	{
	"epoch": 0.09346787041954328,
	"grad_norm": 0.8642380237579346,
	"learning_rate": 1.9877251730624504e-05,
	"loss": 0.7495,
	"num_tokens": 2451216.0,
	"step": 11
	},
	{
	"epoch": 0.10196494954859267,
	"grad_norm": 0.6592623591423035,
	"learning_rate": 1.983306343927176e-05,
	"loss": 0.7353,
	"num_tokens": 2671449.0,
	"step": 12
	},
	{
	"epoch": 0.11046202867764206,
	"grad_norm": 0.5095056295394897,
	"learning_rate": 1.978216744364692e-05,
	"loss": 0.7199,
	"num_tokens": 2887598.0,
	"step": 13
	},
	{
	"epoch": 0.11895910780669144,
	"grad_norm": 0.43245795369148254,
	"learning_rate": 1.9724602393453976e-05,
	"loss": 0.7074,
	"num_tokens": 3102297.0,
	"step": 14
	},
	{
	"epoch": 0.12745618693574085,
	"grad_norm": 0.3649689853191376,
	"learning_rate": 1.9660412002783254e-05,
	"loss": 0.6916,
	"num_tokens": 3322488.0,
	"step": 15
	},
	{
	"epoch": 0.13595326606479022,
	"grad_norm": 0.32840588688850403,
	"learning_rate": 1.958964501691557e-05,
	"loss": 0.6907,
	"num_tokens": 3552428.0,
	"step": 16
	},
	{
	"epoch": 0.14445034519383962,
	"grad_norm": 0.30777254700660706,
	"learning_rate": 1.9512355175305713e-05,
	"loss": 0.6805,
	"num_tokens": 3779989.0,
	"step": 17
	},
	{
	"epoch": 0.15294742432288902,
	"grad_norm": 0.2842954695224762,
	"learning_rate": 1.9428601170773492e-05,
	"loss": 0.6681,
	"num_tokens": 4019860.0,
	"step": 18
	},
	{
	"epoch": 0.1614445034519384,
	"grad_norm": 0.28378936648368835,
	"learning_rate": 1.9338446604933218e-05,
	"loss": 0.6591,
	"num_tokens": 4243770.0,
	"step": 19
	},
	{
	"epoch": 0.1699415825809878,
	"grad_norm": 0.2757631242275238,
	"learning_rate": 1.9241959939895518e-05,
	"loss": 0.6637,
	"num_tokens": 4471904.0,
	"step": 20
	},
	{
	"epoch": 0.17843866171003717,
	"grad_norm": 0.2628677487373352,
	"learning_rate": 1.91392144462782e-05,
	"loss": 0.6455,
	"num_tokens": 4707414.0,
	"step": 21
	},
	{
	"epoch": 0.18693574083908657,
	"grad_norm": 0.2680025100708008,
	"learning_rate": 1.9030288147565547e-05,
	"loss": 0.6415,
	"num_tokens": 4934312.0,
	"step": 22
	},
	{
	"epoch": 0.19543281996813594,
	"grad_norm": 0.26622337102890015,
	"learning_rate": 1.89152637608584e-05,
	"loss": 0.635,
	"num_tokens": 5154540.0,
	"step": 23
	},
	{
	"epoch": 0.20392989909718534,
	"grad_norm": 0.25727367401123047,
	"learning_rate": 1.879422863405995e-05,
	"loss": 0.6281,
	"num_tokens": 5381802.0,
	"step": 24
	},
	{
	"epoch": 0.21242697822623474,
	"grad_norm": 0.2600906491279602,
	"learning_rate": 1.8667274679544944e-05,
	"loss": 0.6198,
	"num_tokens": 5600149.0,
	"step": 25
	},
	{
	"epoch": 0.22092405735528411,
	"grad_norm": 0.24757230281829834,
	"learning_rate": 1.8534498304362758e-05,
	"loss": 0.6131,
	"num_tokens": 5827367.0,
	"step": 26
	},
	{
	"epoch": 0.22942113648433352,
	"grad_norm": 0.2472054362297058,
	"learning_rate": 1.8396000337027208e-05,
	"loss": 0.6062,
	"num_tokens": 6047147.0,
	"step": 27
	},
	{
	"epoch": 0.2379182156133829,
	"grad_norm": 0.23867134749889374,
	"learning_rate": 1.8251885950948805e-05,
	"loss": 0.5917,
	"num_tokens": 6267160.0,
	"step": 28
	},
	{
	"epoch": 0.2464152947424323,
	"grad_norm": 0.23080606758594513,
	"learning_rate": 1.8102264584567543e-05,
	"loss": 0.588,
	"num_tokens": 6501872.0,
	"step": 29
	},
	{
	"epoch": 0.2549123738714817,
	"grad_norm": 0.22549813985824585,
	"learning_rate": 1.7947249858246888e-05,
	"loss": 0.5868,
	"num_tokens": 6739822.0,
	"step": 30
	},
	{
	"epoch": 0.2634094530005311,
	"grad_norm": 0.22806097567081451,
	"learning_rate": 1.7786959487992068e-05,
	"loss": 0.5726,
	"num_tokens": 6969353.0,
	"step": 31
	},
	{
	"epoch": 0.27190653212958044,
	"grad_norm": 0.23609699308872223,
	"learning_rate": 1.7621515196058188e-05,
	"loss": 0.5695,
	"num_tokens": 7196669.0,
	"step": 32
	},
	{
	"epoch": 0.28040361125862984,
	"grad_norm": 0.2319885790348053,
	"learning_rate": 1.7451042618516063e-05,
	"loss": 0.5592,
	"num_tokens": 7427812.0,
	"step": 33
	},
	{
	"epoch": 0.28890069038767924,
	"grad_norm": 0.2277105748653412,
	"learning_rate": 1.727567120984596e-05,
	"loss": 0.5453,
	"num_tokens": 7664616.0,
	"step": 34
	},
	{
	"epoch": 0.29739776951672864,
	"grad_norm": 0.24143275618553162,
	"learning_rate": 1.709553414463167e-05,
	"loss": 0.5381,
	"num_tokens": 7892289.0,
	"step": 35
	},
	{
	"epoch": 0.30589484864577804,
	"grad_norm": 0.23762071132659912,
	"learning_rate": 1.6910768216429613e-05,
	"loss": 0.5447,
	"num_tokens": 8125714.0,
	"step": 36
	},
	{
	"epoch": 0.3143919277748274,
	"grad_norm": 0.2455436736345291,
	"learning_rate": 1.6721513733889716e-05,
	"loss": 0.5234,
	"num_tokens": 8354957.0,
	"step": 37
	},
	{
	"epoch": 0.3228890069038768,
	"grad_norm": 0.25508517026901245,
	"learning_rate": 1.6527914414207012e-05,
	"loss": 0.5173,
	"num_tokens": 8575672.0,
	"step": 38
	},
	{
	"epoch": 0.3313860860329262,
	"grad_norm": 0.256209135055542,
	"learning_rate": 1.6330117273984822e-05,
	"loss": 0.5232,
	"num_tokens": 8795680.0,
	"step": 39
	},
	{
	"epoch": 0.3398831651619756,
	"grad_norm": 0.2554221451282501,
	"learning_rate": 1.6128272517592397e-05,
	"loss": 0.5019,
	"num_tokens": 9017987.0,
	"step": 40
	},
	{
	"epoch": 0.348380244291025,
	"grad_norm": 0.24708497524261475,
	"learning_rate": 1.5922533423101843e-05,
	"loss": 0.4874,
	"num_tokens": 9251233.0,
	"step": 41
	},
	{
	"epoch": 0.35687732342007433,
	"grad_norm": 0.2547791302204132,
	"learning_rate": 1.5713056225890904e-05,
	"loss": 0.4929,
	"num_tokens": 9483146.0,
	"step": 42
	},
	{
	"epoch": 0.36537440254912373,
	"grad_norm": 0.26357918977737427,
	"learning_rate": 1.55e-05,
	"loss": 0.4735,
	"num_tokens": 9707559.0,
	"step": 43
	},
	{
	"epoch": 0.37387148167817313,
	"grad_norm": 0.272932767868042,
	"learning_rate": 1.5283526537333664e-05,
	"loss": 0.4728,
	"num_tokens": 9927096.0,
	"step": 44
	},
	{
	"epoch": 0.38236856080722254,
	"grad_norm": 0.2784619629383087,
	"learning_rate": 1.5063800224798007e-05,
	"loss": 0.4537,
	"num_tokens": 10146036.0,
	"step": 45
	},
	{
	"epoch": 0.3908656399362719,
	"grad_norm": 0.28873109817504883,
	"learning_rate": 1.4840987919467634e-05,
	"loss": 0.4438,
	"num_tokens": 10360134.0,
	"step": 46
	},
	{
	"epoch": 0.3993627190653213,
	"grad_norm": 0.2874409854412079,
	"learning_rate": 1.4615258821876728e-05,
	"loss": 0.4411,
	"num_tokens": 10580887.0,
	"step": 47
	},
	{
	"epoch": 0.4078597981943707,
	"grad_norm": 0.28669029474258423,
	"learning_rate": 1.4386784347530522e-05,
	"loss": 0.4284,
	"num_tokens": 10803846.0,
	"step": 48
	},
	{
	"epoch": 0.4163568773234201,
	"grad_norm": 0.28335171937942505,
	"learning_rate": 1.4155737996734791e-05,
	"loss": 0.4254,
	"num_tokens": 11035018.0,
	"step": 49
	},
	{
	"epoch": 0.4248539564524695,
	"grad_norm": 0.29582643508911133,
	"learning_rate": 1.3922295222842153e-05,
	"loss": 0.4183,
	"num_tokens": 11259327.0,
	"step": 50
	},
	{
	"epoch": 0.4248539564524695,
	"eval_loss": 0.44191795587539673,
	"eval_num_tokens": 11259327.0,
	"eval_runtime": 6.3535,
	"eval_samples_per_second": 3.148,
	"eval_steps_per_second": 1.574,
	"step": 50
	},
	{
	"epoch": 0.4248539564524695,
	"eval_reward_final_answer": 0.0,
	"step": 50
	},
	{
	"epoch": 0.4248539564524695,
	"eval_reward_response_format": 0.0,
	"step": 50
	},
	{
	"epoch": 0.4248539564524695,
	"eval_reward_interaction": 0.0,
	"step": 50
	},
	{
	"epoch": 0.4248539564524695,
	"eval_loss": 0.44191795587539673,
	"eval_num_tokens": 0.0,
	"eval_runtime": 5.1228,
	"eval_samples_per_second": 3.904,
	"eval_steps_per_second": 1.952,
	"step": 50
	},
	{
	"epoch": 0.4248539564524695,
	"eval_reward_final_answer": 0.0,
	"step": 50
	},
	{
	"epoch": 0.4248539564524695,
	"eval_reward_response_format": 0.0,
	"step": 50
	},
	{
	"epoch": 0.4248539564524695,
	"eval_reward_interaction": 0.0,
	"step": 50
	},
	{
	"epoch": 0.4248539564524695,
	"eval_diagnostic/format_valid_ratio": 0.0,
	"step": 50
	},
	{
	"epoch": 0.4248539564524695,
	"eval_diagnostic/tool_parse_success_ratio": 0.0,
	"step": 50
	},
	{
	"epoch": 0.4248539564524695,
	"eval_diagnostic/answer_attempted_ratio": 0.0,
	"step": 50
	},
	{
	"epoch": 0.4248539564524695,
	"eval_diagnostic/avg_turns_taken": 1.0,
	"step": 50
	},
	{
	"epoch": 0.4248539564524695,
	"eval_diagnostic/stop_reason/extraction_failed": 1.0,
	"step": 50
	},
	{
	"epoch": 0.43335103558151883,
	"grad_norm": 0.29690828919410706,
	"learning_rate": 1.3686633299015254e-05,
	"loss": 0.4135,
	"num_tokens": 227214.0,
	"step": 51
	},
	{
	"epoch": 0.44184811471056823,
	"grad_norm": 0.3105921745300293,
	"learning_rate": 1.3448931183608016e-05,
	"loss": 0.4018,
	"num_tokens": 448367.0,
	"step": 52
	},
	{
	"epoch": 0.45034519383961763,
	"grad_norm": 0.30604615807533264,
	"learning_rate": 1.3209369384267194e-05,
	"loss": 0.396,
	"num_tokens": 675175.0,
	"step": 53
	},
	{
	"epoch": 0.45884227296866703,
	"grad_norm": 0.3152115046977997,
	"learning_rate": 1.2968129820857384e-05,
	"loss": 0.3767,
	"num_tokens": 900784.0,
	"step": 54
	},
	{
	"epoch": 0.46733935209771643,
	"grad_norm": 0.3190907835960388,
	"learning_rate": 1.2725395687313646e-05,
	"loss": 0.3731,
	"num_tokens": 1128575.0,
	"step": 55
	},
	{
	"epoch": 0.4758364312267658,
	"grad_norm": 0.3275493383407593,
	"learning_rate": 1.2481351312526606e-05,
	"loss": 0.3668,
	"num_tokens": 1347830.0,
	"step": 56
	},
	{
	"epoch": 0.4843335103558152,
	"grad_norm": 0.30037736892700195,
	"learning_rate": 1.2236182020365675e-05,
	"loss": 0.368,
	"num_tokens": 1584214.0,
	"step": 57
	},
	{
	"epoch": 0.4928305894848646,
	"grad_norm": 0.30363041162490845,
	"learning_rate": 1.1990073988946716e-05,
	"loss": 0.3584,
	"num_tokens": 1806122.0,
	"step": 58
	},
	{
	"epoch": 0.501327668613914,
	"grad_norm": 0.27165499329566956,
	"learning_rate": 1.1743214109250994e-05,
	"loss": 0.3474,
	"num_tokens": 2038933.0,
	"step": 59
	},
	{
	"epoch": 0.5098247477429634,
	"grad_norm": 0.26867446303367615,
	"learning_rate": 1.1495789843202792e-05,
	"loss": 0.3432,
	"num_tokens": 2257233.0,
	"step": 60
	},
	{
	"epoch": 0.5183218268720128,
	"grad_norm": 0.22571073472499847,
	"learning_rate": 1.124798908131346e-05,
	"loss": 0.3497,
	"num_tokens": 2502206.0,
	"step": 61
	},
	{
	"epoch": 0.5268189060010622,
	"grad_norm": 0.22096557915210724,
	"learning_rate": 1.1000000000000001e-05,
	"loss": 0.3357,
	"num_tokens": 2733328.0,
	"step": 62
	},
	{
	"epoch": 0.5353159851301115,
	"grad_norm": 0.21603769063949585,
	"learning_rate": 1.0752010918686544e-05,
	"loss": 0.3323,
	"num_tokens": 2958525.0,
	"step": 63
	},
	{
	"epoch": 0.5438130642591609,
	"grad_norm": 0.2027578502893448,
	"learning_rate": 1.050421015679721e-05,
	"loss": 0.3346,
	"num_tokens": 3189000.0,
	"step": 64
	},
	{
	"epoch": 0.5523101433882103,
	"grad_norm": 0.20277895033359528,
	"learning_rate": 1.0256785890749011e-05,
	"loss": 0.3126,
	"num_tokens": 3407547.0,
	"step": 65
	},
	{
	"epoch": 0.5608072225172597,
	"grad_norm": 0.187447190284729,
	"learning_rate": 1.0009926011053289e-05,
	"loss": 0.3175,
	"num_tokens": 3638073.0,
	"step": 66
	},
	{
	"epoch": 0.5693043016463091,
	"grad_norm": 0.18870113790035248,
	"learning_rate": 9.763817979634327e-06,
	"loss": 0.3053,
	"num_tokens": 3857870.0,
	"step": 67
	},
	{
	"epoch": 0.5778013807753585,
	"grad_norm": 0.18314893543720245,
	"learning_rate": 9.518648687473396e-06,
	"loss": 0.3087,
	"num_tokens": 4081907.0,
	"step": 68
	},
	{
	"epoch": 0.5862984599044079,
	"grad_norm": 0.17281264066696167,
	"learning_rate": 9.274604312686356e-06,
	"loss": 0.3167,
	"num_tokens": 4318189.0,
	"step": 69
	},
	{
	"epoch": 0.5947955390334573,
	"grad_norm": 0.1761389523744583,
	"learning_rate": 9.031870179142619e-06,
	"loss": 0.2964,
	"num_tokens": 4542756.0,
	"step": 70
	},
	{
	"epoch": 0.6032926181625067,
	"grad_norm": 0.17463359236717224,
	"learning_rate": 8.790630615732809e-06,
	"loss": 0.2915,
	"num_tokens": 4764901.0,
	"step": 71
	},
	{
	"epoch": 0.6117896972915561,
	"grad_norm": 0.1684163361787796,
	"learning_rate": 8.551068816391984e-06,
	"loss": 0.292,
	"num_tokens": 4989831.0,
	"step": 72
	},
	{
	"epoch": 0.6202867764206054,
	"grad_norm": 0.17157095670700073,
	"learning_rate": 8.313366700984753e-06,
	"loss": 0.2779,
	"num_tokens": 5202719.0,
	"step": 73
	},
	{
	"epoch": 0.6287838555496548,
	"grad_norm": 0.16972655057907104,
	"learning_rate": 8.07770477715785e-06,
	"loss": 0.285,
	"num_tokens": 5424906.0,
	"step": 74
	},
	{
	"epoch": 0.6372809346787042,
	"grad_norm": 0.16237466037273407,
	"learning_rate": 7.844262003265214e-06,
	"loss": 0.2903,
	"num_tokens": 5653610.0,
	"step": 75
	},
	{
	"epoch": 0.6457780138077536,
	"grad_norm": 0.1564113050699234,
	"learning_rate": 7.613215652469481e-06,
	"loss": 0.298,
	"num_tokens": 5886275.0,
	"step": 76
	},
	{
	"epoch": 0.654275092936803,
	"grad_norm": 0.1518831104040146,
	"learning_rate": 7.384741178123278e-06,
	"loss": 0.29,
	"num_tokens": 6127331.0,
	"step": 77
	},
	{
	"epoch": 0.6627721720658524,
	"grad_norm": 0.1514195203781128,
	"learning_rate": 7.159012080532368e-06,
	"loss": 0.2808,
	"num_tokens": 6350243.0,
	"step": 78
	},
	{
	"epoch": 0.6712692511949018,
	"grad_norm": 0.14839230477809906,
	"learning_rate": 6.936199775201998e-06,
	"loss": 0.2759,
	"num_tokens": 6574494.0,
	"step": 79
	},
	{
	"epoch": 0.6797663303239512,
	"grad_norm": 0.1434764415025711,
	"learning_rate": 6.7164734626663384e-06,
	"loss": 0.2812,
	"num_tokens": 6805646.0,
	"step": 80
	},
	{
	"epoch": 0.6882634094530006,
	"grad_norm": 0.14427417516708374,
	"learning_rate": 6.500000000000003e-06,
	"loss": 0.2708,
	"num_tokens": 7029262.0,
	"step": 81
	},
	{
	"epoch": 0.69676048858205,
	"grad_norm": 0.14127525687217712,
	"learning_rate": 6.2869437741091e-06,
	"loss": 0.2813,
	"num_tokens": 7257816.0,
	"step": 82
	},
	{
	"epoch": 0.7052575677110993,
	"grad_norm": 0.1428772211074829,
	"learning_rate": 6.077466576898161e-06,
	"loss": 0.2711,
	"num_tokens": 7481399.0,
	"step": 83
	},
	{
	"epoch": 0.7137546468401487,
	"grad_norm": 0.14086274802684784,
	"learning_rate": 5.871727482407605e-06,
	"loss": 0.2679,
	"num_tokens": 7703455.0,
	"step": 84
	},
	{
	"epoch": 0.7222517259691981,
	"grad_norm": 0.13953223824501038,
	"learning_rate": 5.669882726015181e-06,
	"loss": 0.2692,
	"num_tokens": 7924077.0,
	"step": 85
	},
	{
	"epoch": 0.7307488050982475,
	"grad_norm": 0.14064429700374603,
	"learning_rate": 5.47208558579299e-06,
	"loss": 0.259,
	"num_tokens": 8143604.0,
	"step": 86
	},
	{
	"epoch": 0.7392458842272969,
	"grad_norm": 0.13626375794410706,
	"learning_rate": 5.27848626611029e-06,
	"loss": 0.2674,
	"num_tokens": 8370430.0,
	"step": 87
	},
	{
	"epoch": 0.7477429633563463,
	"grad_norm": 0.13688842952251434,
	"learning_rate": 5.089231783570392e-06,
	"loss": 0.2763,
	"num_tokens": 8603383.0,
	"step": 88
	},
	{
	"epoch": 0.7562400424853957,
	"grad_norm": 0.13918966054916382,
	"learning_rate": 4.904465855368333e-06,
	"loss": 0.2742,
	"num_tokens": 8830677.0,
	"step": 89
	},
	{
	"epoch": 0.7647371216144451,
	"grad_norm": 0.14204055070877075,
	"learning_rate": 4.724328790154042e-06,
	"loss": 0.2525,
	"num_tokens": 9049384.0,
	"step": 90
	},
	{
	"epoch": 0.7732342007434945,
	"grad_norm": 0.13645566999912262,
	"learning_rate": 4.548957381483941e-06,
	"loss": 0.2752,
	"num_tokens": 9283178.0,
	"step": 91
	},
	{
	"epoch": 0.7817312798725438,
	"grad_norm": 0.14060115814208984,
	"learning_rate": 4.378484803941816e-06,
	"loss": 0.2561,
	"num_tokens": 9507128.0,
	"step": 92
	},
	{
	"epoch": 0.7902283590015932,
	"grad_norm": 0.140924334526062,
	"learning_rate": 4.2130405120079356e-06,
	"loss": 0.2615,
	"num_tokens": 9733410.0,
	"step": 93
	},
	{
	"epoch": 0.7987254381306426,
	"grad_norm": 0.1394304782152176,
	"learning_rate": 4.052750141753112e-06,
	"loss": 0.2616,
	"num_tokens": 9960712.0,
	"step": 94
	},
	{
	"epoch": 0.807222517259692,
	"grad_norm": 0.1327814757823944,
	"learning_rate": 3.89773541543246e-06,
	"loss": 0.2618,
	"num_tokens": 10189564.0,
	"step": 95
	},
	{
	"epoch": 0.8157195963887414,
	"grad_norm": 0.13691458106040955,
	"learning_rate": 3.748114049051197e-06,
	"loss": 0.2528,
	"num_tokens": 10412249.0,
	"step": 96
	},
	{
	"epoch": 0.8242166755177908,
	"grad_norm": 0.13488516211509705,
	"learning_rate": 3.603999662972795e-06,
	"loss": 0.2524,
	"num_tokens": 10633903.0,
	"step": 97
	},
	{
	"epoch": 0.8327137546468402,
	"grad_norm": 0.12742717564105988,
	"learning_rate": 3.4655016956372432e-06,
	"loss": 0.2646,
	"num_tokens": 10864574.0,
	"step": 98
	},
	{
	"epoch": 0.8412108337758896,
	"grad_norm": 0.12795040011405945,
	"learning_rate": 3.332725320455058e-06,
	"loss": 0.2442,
	"num_tokens": 11083990.0,
	"step": 99
	},
	{
	"epoch": 0.849707912904939,
	"grad_norm": 0.12140467017889023,
	"learning_rate": 3.205771365940052e-06,
	"loss": 0.2523,
	"num_tokens": 11315846.0,
	"step": 100
	},
	{
	"epoch": 0.849707912904939,
	"eval_loss": 0.4209205210208893,
	"eval_num_tokens": 11315846.0,
	"eval_runtime": 4.5682,
	"eval_samples_per_second": 4.378,
	"eval_steps_per_second": 2.189,
	"step": 100
	},
	{
	"epoch": 0.849707912904939,
	"eval_reward_final_answer": 0.0,
	"step": 100
	},
	{
	"epoch": 0.849707912904939,
	"eval_reward_response_format": 0.0,
	"step": 100
	},
	{
	"epoch": 0.849707912904939,
	"eval_reward_interaction": 0.0,
	"step": 100
	},
	{
	"epoch": 0.849707912904939,
	"eval_diagnostic/format_valid_ratio": 0.1,
	"step": 100
	},
	{
	"epoch": 0.849707912904939,
	"eval_diagnostic/tool_parse_success_ratio": 0.0,
	"step": 100
	},
	{
	"epoch": 0.849707912904939,
	"eval_diagnostic/answer_attempted_ratio": 0.0,
	"step": 100
	},
	{
	"epoch": 0.849707912904939,
	"eval_diagnostic/avg_turns_taken": 1.0,
	"step": 100
	},
	{
	"epoch": 0.849707912904939,
	"eval_diagnostic/stop_reason/extraction_failed": 0.9,
	"step": 100
	},
	{
	"epoch": 0.849707912904939,
	"eval_diagnostic/stop_reason/no_action": 0.1,
	"step": 100
	},
	{
	"epoch": 0.8582049920339884,
	"grad_norm": 0.12342186272144318,
	"learning_rate": 3.0847362391415995e-06,
	"loss": 0.2586,
	"num_tokens": 11540477.0,
	"step": 101
	},
	{
	"epoch": 0.8667020711630377,
	"grad_norm": 0.1200730949640274,
	"learning_rate": 2.969711852434454e-06,
	"loss": 0.2604,
	"num_tokens": 11771582.0,
	"step": 102
	},
	{
	"epoch": 0.8751991502920871,
	"grad_norm": 0.12449000030755997,
	"learning_rate": 2.860785553721803e-06,
	"loss": 0.2453,
	"num_tokens": 11992209.0,
	"step": 103
	},
	{
	"epoch": 0.8836962294211365,
	"grad_norm": 0.11838784068822861,
	"learning_rate": 2.7580400601044825e-06,
	"loss": 0.2523,
	"num_tokens": 12214354.0,
	"step": 104
	},
	{
	"epoch": 0.8921933085501859,
	"grad_norm": 0.11962386220693588,
	"learning_rate": 2.6615533950667844e-06,
	"loss": 0.2456,
	"num_tokens": 12433134.0,
	"step": 105
	},
	{
	"epoch": 0.9006903876792353,
	"grad_norm": 0.11446674913167953,
	"learning_rate": 2.5713988292265084e-06,
	"loss": 0.2656,
	"num_tokens": 12672477.0,
	"step": 106
	},
	{
	"epoch": 0.9091874668082847,
	"grad_norm": 0.1163739487528801,
	"learning_rate": 2.4876448246942884e-06,
	"loss": 0.2462,
	"num_tokens": 12894135.0,
	"step": 107
	},
	{
	"epoch": 0.9176845459373341,
	"grad_norm": 0.11075320094823837,
	"learning_rate": 2.4103549830844328e-06,
	"loss": 0.2641,
	"num_tokens": 13129073.0,
	"step": 108
	},
	{
	"epoch": 0.9261816250663835,
	"grad_norm": 0.11537513881921768,
	"learning_rate": 2.3395879972167464e-06,
	"loss": 0.2474,
	"num_tokens": 13348255.0,
	"step": 109
	},
	{
	"epoch": 0.9346787041954329,
	"grad_norm": 0.10961325466632843,
	"learning_rate": 2.275397606546027e-06,
	"loss": 0.2697,
	"num_tokens": 13592454.0,
	"step": 110
	},
	{
	"epoch": 0.9431757833244823,
	"grad_norm": 0.11164919286966324,
	"learning_rate": 2.21783255635308e-06,
	"loss": 0.2552,
	"num_tokens": 13819727.0,
	"step": 111
	},
	{
	"epoch": 0.9516728624535316,
	"grad_norm": 0.10987438261508942,
	"learning_rate": 2.1669365607282396e-06,
	"loss": 0.2548,
	"num_tokens": 14051729.0,
	"step": 112
	},
	{
	"epoch": 0.960169941582581,
	"grad_norm": 0.11316878348588943,
	"learning_rate": 2.1227482693754995e-06,
	"loss": 0.2492,
	"num_tokens": 14274432.0,
	"step": 113
	},
	{
	"epoch": 0.9686670207116304,
	"grad_norm": 0.10757338255643845,
	"learning_rate": 2.085301238262471e-06,
	"loss": 0.2531,
	"num_tokens": 14498986.0,
	"step": 114
	},
	{
	"epoch": 0.9771640998406798,
	"grad_norm": 0.10984344780445099,
	"learning_rate": 2.054623904138455e-06,
	"loss": 0.2535,
	"num_tokens": 14724914.0,
	"step": 115
	},
	{
	"epoch": 0.9856611789697292,
	"grad_norm": 0.10751090943813324,
	"learning_rate": 2.0307395629399716e-06,
	"loss": 0.2517,
	"num_tokens": 14957559.0,
	"step": 116
	},
	{
	"epoch": 0.9941582580987786,
	"grad_norm": 0.10235580801963806,
	"learning_rate": 2.0136663521001547e-06,
	"loss": 0.2592,
	"num_tokens": 15193005.0,
	"step": 117
	},
	{
	"epoch": 0.9941582580987786,
	"step": 117,
	"total_flos": 5.5251981578153165e+17,
	"train_loss": 0.16806216436064142,
	"train_runtime": 6592.4366,
	"train_samples_per_second": 1.142,
	"train_steps_per_second": 0.018
	}
	],
	"logging_steps": 1,
	"max_steps": 118,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 50,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 5.5251981578153165e+17,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}