Asap7772 commited on Sep 16

Commit

884089d

verified ·

1 Parent(s): 51f0400

Upload checkpoint from checkpoint-135

Browse files

Files changed (27) hide show

.gitattributes +1 -0
README.md +219 -0
added_tokens.json +28 -0
chat_template.jinja +86 -0
config.json +68 -0
generation_config.json +12 -0
latest +1 -0
merges.txt +0 -0
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +406 -0
rng_state_0.pth +3 -0
rng_state_1.pth +3 -0
rng_state_2.pth +3 -0
rng_state_3.pth +3 -0
rng_state_4.pth +3 -0
rng_state_5.pth +3 -0
rng_state_6.pth +3 -0
rng_state_7.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +31 -0
tokenizer.json +3 -0
tokenizer_config.json +239 -0
trainer_state.json +2279 -0
training_args.bin +3 -0
vocab.json +0 -0
zero_to_fp32.py +760 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,219 @@

+---
+license: apache-2.0
+base_model: Asap7772/qwen3-4b-impabs-warmstart-sft-1e-5-1epoch-0828
+tags:
+- trl
+- dpo
+- rlhf
+- alignment
+---
+# Asap7772/Qwen3-4B-second-stage-DPO-lr-1e-7-beta-0.1-loss-sigmoid-rpo-1.0-ckpt-135
+This model is a fine-tuned version of [Asap7772/qwen3-4b-impabs-warmstart-sft-1e-5-1epoch-0828](https://huggingface.co/Asap7772/qwen3-4b-impabs-warmstart-sft-1e-5-1epoch-0828) using TRL (Transformer Reinforcement Learning).
+## Model Details
+- **Base Model**: Asap7772/qwen3-4b-impabs-warmstart-sft-1e-5-1epoch-0828
+- **Checkpoint**: checkpoint-135
+- **Fine-tuning Method**: DPO (Direct Preference Optimization)
+- **Framework**: TRL
+## Usage
+```python
+from transformers import AutoModelForCausalLM, AutoTokenizer
+model = AutoModelForCausalLM.from_pretrained("Asap7772/Qwen3-4B-second-stage-DPO-lr-1e-7-beta-0.1-loss-sigmoid-rpo-1.0-ckpt-135")
+tokenizer = AutoTokenizer.from_pretrained("Asap7772/Qwen3-4B-second-stage-DPO-lr-1e-7-beta-0.1-loss-sigmoid-rpo-1.0-ckpt-135")
+# Your inference code here
+```
+## Training Details
+This model was trained using the TRL library with DPO (Direct Preference Optimization).
+### Training Arguments
+```json
+{
+  "output_dir": "/iris/u/asap7772/trl/checkpoints/Qwen3-4B-second-stage-DPO-lr-1e-7-beta-0.1-loss-sigmoid-rpo-1.0",
+  "overwrite_output_dir": false,
+  "do_train": false,
+  "do_eval": true,
+  "do_predict": false,
+  "eval_strategy": "epoch",
+  "prediction_loss_only": false,
+  "per_device_train_batch_size": 1,
+  "per_device_eval_batch_size": 8,
+  "per_gpu_train_batch_size": null,
+  "per_gpu_eval_batch_size": null,
+  "gradient_accumulation_steps": 16,
+  "eval_accumulation_steps": null,
+  "eval_delay": 0,
+  "torch_empty_cache_steps": null,
+  "learning_rate": 1e-07,
+  "weight_decay": 0.01,
+  "adam_beta1": 0.9,
+  "adam_beta2": 0.999,
+  "adam_epsilon": 1e-08,
+  "max_grad_norm": 1.0,
+  "num_train_epochs": 5,
+  "max_steps": -1,
+  "lr_scheduler_type": "linear",
+  "lr_scheduler_kwargs": {},
+  "warmup_ratio": 0.05,
+  "warmup_steps": 0,
+  "log_level": "passive",
+  "log_level_replica": "warning",
+  "log_on_each_node": true,
+  "logging_dir": "/iris/u/asap7772/trl/checkpoints/Qwen3-4B-second-stage-DPO-lr-1e-7-beta-0.1-loss-sigmoid-rpo-1.0/runs/Sep15_09-27-29_iris-hgx-2.stanford.edu",
+  "logging_strategy": "steps",
+  "logging_first_step": true,
+  "logging_steps": 1,
+  "logging_nan_inf_filter": true,
+  "save_strategy": "epoch",
+  "save_steps": 500,
+  "save_total_limit": null,
+  "save_safetensors": true,
+  "save_on_each_node": false,
+  "save_only_model": false,
+  "restore_callback_states_from_checkpoint": false,
+  "no_cuda": false,
+  "use_cpu": false,
+  "use_mps_device": false,
+  "seed": 42,
+  "data_seed": null,
+  "jit_mode_eval": false,
+  "use_ipex": false,
+  "bf16": true,
+  "fp16": false,
+  "fp16_opt_level": "O1",
+  "half_precision_backend": "auto",
+  "bf16_full_eval": false,
+  "fp16_full_eval": false,
+  "tf32": null,
+  "local_rank": 0,
+  "ddp_backend": null,
+  "tpu_num_cores": null,
+  "tpu_metrics_debug": false,
+  "debug": [],
+  "dataloader_drop_last": true,
+  "eval_steps": 1,
+  "dataloader_num_workers": 0,
+  "dataloader_prefetch_factor": null,
+  "past_index": -1,
+  "run_name": "Qwen3-4B-second-stage-DPO-lr-1e-7-beta-0.1-loss-sigmoid-rpo-1.0",
+  "disable_tqdm": false,
+  "remove_unused_columns": false,
+  "label_names": null,
+  "load_best_model_at_end": false,
+  "metric_for_best_model": null,
+  "greater_is_better": null,
+  "ignore_data_skip": false,
+  "fsdp": [],
+  "fsdp_min_num_params": 0,
+  "fsdp_config": {
+    "min_num_params": 0,
+    "xla": false,
+    "xla_fsdp_v2": false,
+    "xla_fsdp_grad_ckpt": false
+  },
+  "fsdp_transformer_layer_cls_to_wrap": null,
+  "accelerator_config": "AcceleratorConfig(split_batches=False, dispatch_batches=None, even_batches=True, use_seedable_sampler=True, non_blocking=False, gradient_accumulation_kwargs=None, use_configured_state=False)",
+  "parallelism_config": null,
+  "deepspeed": null,
+  "label_smoothing_factor": 0.0,
+  "optim": "adamw_torch",
+  "optim_args": null,
+  "adafactor": false,
+  "group_by_length": false,
+  "length_column_name": "length",
+  "report_to": [
+    "wandb"
+  ],
+  "ddp_find_unused_parameters": null,
+  "ddp_bucket_cap_mb": null,
+  "ddp_broadcast_buffers": null,
+  "dataloader_pin_memory": false,
+  "dataloader_persistent_workers": false,
+  "skip_memory_metrics": true,
+  "use_legacy_prediction_loop": false,
+  "push_to_hub": false,
+  "resume_from_checkpoint": null,
+  "hub_model_id": null,
+  "hub_strategy": "every_save",
+  "hub_token": null,
+  "hub_private_repo": null,
+  "hub_always_push": false,
+  "hub_revision": null,
+  "gradient_checkpointing": true,
+  "gradient_checkpointing_kwargs": null,
+  "include_inputs_for_metrics": false,
+  "include_for_metrics": [],
+  "eval_do_concat_batches": true,
+  "fp16_backend": "auto",
+  "push_to_hub_model_id": null,
+  "push_to_hub_organization": null,
+  "push_to_hub_token": null,
+  "mp_parameters": "",
+  "auto_find_batch_size": false,
+  "full_determinism": false,
+  "torchdynamo": null,
+  "ray_scope": "last",
+  "ddp_timeout": 1800,
+  "torch_compile": false,
+  "torch_compile_backend": null,
+  "torch_compile_mode": null,
+  "include_tokens_per_second": false,
+  "include_num_input_tokens_seen": false,
+  "neftune_noise_alpha": null,
+  "optim_target_modules": null,
+  "batch_eval_metrics": false,
+  "eval_on_start": false,
+  "use_liger_kernel": false,
+  "liger_kernel_config": null,
+  "eval_use_gather_object": false,
+  "average_tokens_across_devices": true,
+  "model_init_kwargs": null,
+  "ref_model_init_kwargs": null,
+  "model_adapter_name": null,
+  "ref_adapter_name": null,
+  "force_use_ref_model": false,
+  "disable_dropout": true,
+  "use_logits_to_keep": false,
+  "dataset_num_proc": null,
+  "padding_value": null,
+  "label_pad_token_id": -100,
+  "max_prompt_length": 8192,
+  "max_completion_length": 1024,
+  "max_length": 9216,
+  "truncation_mode": "keep_end",
+  "padding_free": false,
+  "precompute_ref_log_probs": false,
+  "precompute_ref_batch_size": null,
+  "tools": null,
+  "loss_type": "sigmoid",
+  "use_liger_loss": false,
+  "base_model_attribute_name": "model",
+  "beta": 0.1,
+  "f_divergence_type": "FDivergenceType.REVERSE_KL",
+  "f_alpha_divergence_coef": 1.0,
+  "reference_free": false,
+  "label_smoothing": 0.0,
+  "use_weighting": false,
+  "rpo_alpha": 1.0,
+  "ld_alpha": null,
+  "discopop_tau": 0.05,
+  "loss_weights": null,
+  "sync_ref_model": false,
+  "ref_model_mixup_alpha": 0.6,
+  "ref_model_sync_steps": 512,
+  "generate_during_eval": false,
+  "distributed_state": "Distributed environment: DEEPSPEED  Backend: nccl\nNum processes: 8\nProcess index: 0\nLocal process index: 0\nDevice: cuda:0\n",
+  "_n_gpu": 1,
+  "__cached__setup_devices": "cuda:0",
+  "deepspeed_plugin": "DeepSpeedPlugin(hf_ds_config=<transformers.integrations.deepspeed.HfTrainerDeepSpeedConfig object at 0x7f06dacf49d0>, gradient_accumulation_steps='auto', gradient_clipping='auto', zero_stage=3, is_train_batch_min=True, offload_optimizer_device='cpu', offload_param_device='cpu', offload_optimizer_nvme_path='none', offload_param_nvme_path='none', zero3_init_flag=True, zero3_save_16bit_model=True, transformer_moe_cls_names=None, enable_msamp=False, msamp_opt_level='O1')"
+}
+```

added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,86 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {{- messages[0].content + '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" and message.content is string and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}
+        {%- set ns.multi_step_tool = false %}
+        {%- set ns.last_query_index = index %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- if message.content is string %}
+        {%- set content = message.content %}
+    {%- else %}
+        {%- set content = '' %}
+    {%- endif %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in content %}
+                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning_content) %}
+                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
+            {%- else %}
+                {{- '<|im_start|>' + message.role + '\n' + content }}
+            {%- endif %}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+{%- endif %}

config.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "architectures": [
+    "Qwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "dtype": "bfloat16",
+  "eos_token_id": 151645,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 2560,
+  "initializer_range": 0.02,
+  "intermediate_size": 9728,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 262144,
+  "max_window_layers": 36,
+  "model_type": "qwen3",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 8,
+  "pad_token_id": 151643,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 5000000,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "transformers_version": "4.56.1",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.56.1"
+}

latest ADDED Viewed

	@@ -0,0 +1 @@


1	+ global_step135

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:107094cfafebdfcc548258dece36eab7f75c4872b9e9e4e906cf1130d65f802b
+size 4967215360

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cd07ecba75303c70ebf6b161d984c36801a5953ef26852e8f50923153e717a38
+size 3077766632

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,406 @@

+{
+  "metadata": {
+    "total_parameters": 196096,
+    "total_size": 8044936192
+  },
+  "weight_map": {
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.norm.weight": "model-00002-of-00002.safetensors"
+  }
+}

rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:72e1b7d09d327da58dbf4f6ec91c25f8266fe9a398376fbb9f55466fba682801
+size 16389

rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b97114733f7d9f71d4fe5cf9c672395a21afc8c2d9910bc8f8d1aec20ef50fe7
+size 16389

rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0eb9f1668c686a559f86c6a7d79fbf9c53dde5e1386ed17acd9234f519c7d6f4
+size 16389

rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7802066665f429dc81402261bdd2fe5a2b86f195839dcaafee252a7936c58395
+size 16389

rng_state_4.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:19ab5c5e0552eff918c411c59be2a0f8003290ae5b74428a65debca9250295fd
+size 16389

rng_state_5.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e15ece2216eb800331569258df1ca68a32b091e22dc07b06537dd3e7abecaec9
+size 16389

rng_state_6.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2f78f2e6557578841f88d7d977a66dcc5ccc8e45c0dea5ff3d7e07de7a27de3f
+size 16389

rng_state_7.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:020cdda2a92333ab58d00856b156214e46b7374245507464250503080f07d9f0
+size 16389

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dd4f970a43642d01289826979c401878bee63bc6647c3ab462cecf4c26cab0b3
+size 1465

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aeb13307a71acd8fe81861d94ad54ab689df773318809eed3cbe794b4492dae4
+size 11422654

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,239 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 262144,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2279 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 5.0,
+  "eval_steps": 1,
+  "global_step": 135,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.037122969837587005,
+      "grad_norm": 37.7234992980957,
+      "learning_rate": 0.0,
+      "logits/chosen": 0.43707275390625,
+      "logits/rejected": 0.40472412109375,
+      "logps/chosen": -176.875,
+      "logps/rejected": -148.3125,
+      "loss": 3.0214,
+      "nll_loss": 2.3330078125,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.07424593967517401,
+      "grad_norm": 33.89510726928711,
+      "learning_rate": 1.4285714285714284e-08,
+      "logits/chosen": 0.40576171875,
+      "logits/rejected": 0.33673095703125,
+      "logps/chosen": -167.6875,
+      "logps/rejected": -161.625,
+      "loss": 2.9501,
+      "nll_loss": 2.26171875,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 2
+    },
+    {
+      "epoch": 0.11136890951276102,
+      "grad_norm": 37.10581970214844,
+      "learning_rate": 2.857142857142857e-08,
+      "logits/chosen": 0.38861083984375,
+      "logits/rejected": 0.3741455078125,
+      "logps/chosen": -175.125,
+      "logps/rejected": -155.5625,
+      "loss": 3.0054,
+      "nll_loss": 2.310546875,
+      "rewards/accuracies": 0.2578125,
+      "rewards/chosen": 0.001953125,
+      "rewards/margins": -0.0054779052734375,
+      "rewards/rejected": 0.007439613342285156,
+      "step": 3
+    },
+    {
+      "epoch": 0.14849187935034802,
+      "grad_norm": 35.035152435302734,
+      "learning_rate": 4.285714285714285e-08,
+      "logits/chosen": 0.4200439453125,
+      "logits/rejected": 0.41497802734375,
+      "logps/chosen": -172.125,
+      "logps/rejected": -158.4375,
+      "loss": 2.9678,
+      "nll_loss": 2.2705078125,
+      "rewards/accuracies": 0.2265625,
+      "rewards/chosen": -0.009188652038574219,
+      "rewards/margins": -0.010580062866210938,
+      "rewards/rejected": 0.0013666152954101562,
+      "step": 4
+    },
+    {
+      "epoch": 0.18561484918793503,
+      "grad_norm": 36.488365173339844,
+      "learning_rate": 5.714285714285714e-08,
+      "logits/chosen": 0.3895263671875,
+      "logits/rejected": 0.38287353515625,
+      "logps/chosen": -175.125,
+      "logps/rejected": -152.21875,
+      "loss": 2.9839,
+      "nll_loss": 2.2900390625,
+      "rewards/accuracies": 0.234375,
+      "rewards/chosen": -0.0039196014404296875,
+      "rewards/margins": -0.007814407348632812,
+      "rewards/rejected": 0.0039081573486328125,
+      "step": 5
+    },
+    {
+      "epoch": 0.22273781902552203,
+      "grad_norm": 35.085018157958984,
+      "learning_rate": 7.142857142857142e-08,
+      "logits/chosen": 0.417724609375,
+      "logits/rejected": 0.39959716796875,
+      "logps/chosen": -168.4375,
+      "logps/rejected": -156.59375,
+      "loss": 2.9844,
+      "nll_loss": 2.2919921875,
+      "rewards/accuracies": 0.28125,
+      "rewards/chosen": 0.002349853515625,
+      "rewards/margins": 0.0003871917724609375,
+      "rewards/rejected": 0.0019512176513671875,
+      "step": 6
+    },
+    {
+      "epoch": 0.25986078886310904,
+      "grad_norm": 38.6133918762207,
+      "learning_rate": 8.57142857142857e-08,
+      "logits/chosen": 0.43389892578125,
+      "logits/rejected": 0.4083251953125,
+      "logps/chosen": -172.0625,
+      "logps/rejected": -149.53125,
+      "loss": 2.9744,
+      "nll_loss": 2.28662109375,
+      "rewards/accuracies": 0.296875,
+      "rewards/chosen": 0.00312042236328125,
+      "rewards/margins": 0.0039272308349609375,
+      "rewards/rejected": -0.000789642333984375,
+      "step": 7
+    },
+    {
+      "epoch": 0.29698375870069604,
+      "grad_norm": 38.21547317504883,
+      "learning_rate": 1e-07,
+      "logits/chosen": 0.381500244140625,
+      "logits/rejected": 0.3905029296875,
+      "logps/chosen": -176.875,
+      "logps/rejected": -152.5625,
+      "loss": 3.0114,
+      "nll_loss": 2.31640625,
+      "rewards/accuracies": 0.25,
+      "rewards/chosen": -0.0007686614990234375,
+      "rewards/margins": -0.004500389099121094,
+      "rewards/rejected": 0.003711700439453125,
+      "step": 8
+    },
+    {
+      "epoch": 0.33410672853828305,
+      "grad_norm": 39.607139587402344,
+      "learning_rate": 9.921874999999999e-08,
+      "logits/chosen": 0.37255859375,
+      "logits/rejected": 0.38885498046875,
+      "logps/chosen": -181.625,
+      "logps/rejected": -158.75,
+      "loss": 3.0305,
+      "nll_loss": 2.3447265625,
+      "rewards/accuracies": 0.328125,
+      "rewards/chosen": 0.008989334106445312,
+      "rewards/margins": 0.008792877197265625,
+      "rewards/rejected": 0.000186920166015625,
+      "step": 9
+    },
+    {
+      "epoch": 0.37122969837587005,
+      "grad_norm": 35.63096237182617,
+      "learning_rate": 9.84375e-08,
+      "logits/chosen": 0.4375,
+      "logits/rejected": 0.39324951171875,
+      "logps/chosen": -170.6875,
+      "logps/rejected": -157.5625,
+      "loss": 2.9717,
+      "nll_loss": 2.2802734375,
+      "rewards/accuracies": 0.3046875,
+      "rewards/chosen": 0.001560211181640625,
+      "rewards/margins": -0.0023441314697265625,
+      "rewards/rejected": 0.0039081573486328125,
+      "step": 10
+    },
+    {
+      "epoch": 0.40835266821345706,
+      "grad_norm": 39.5410041809082,
+      "learning_rate": 9.765624999999999e-08,
+      "logits/chosen": 0.38726806640625,
+      "logits/rejected": 0.34307861328125,
+      "logps/chosen": -174.0625,
+      "logps/rejected": -150.40625,
+      "loss": 2.9924,
+      "nll_loss": 2.302734375,
+      "rewards/accuracies": 0.3125,
+      "rewards/chosen": 0.014478683471679688,
+      "rewards/margins": 0.005096435546875,
+      "rewards/rejected": 0.0093841552734375,
+      "step": 11
+    },
+    {
+      "epoch": 0.44547563805104406,
+      "grad_norm": 37.51298522949219,
+      "learning_rate": 9.6875e-08,
+      "logits/chosen": 0.3577880859375,
+      "logits/rejected": 0.359130859375,
+      "logps/chosen": -177.625,
+      "logps/rejected": -156.8125,
+      "loss": 3.0106,
+      "nll_loss": 2.3212890625,
+      "rewards/accuracies": 0.296875,
+      "rewards/chosen": 0.015645980834960938,
+      "rewards/margins": 0.004897117614746094,
+      "rewards/rejected": 0.010748863220214844,
+      "step": 12
+    },
+    {
+      "epoch": 0.48259860788863107,
+      "grad_norm": 34.97195053100586,
+      "learning_rate": 9.609374999999999e-08,
+      "logits/chosen": 0.447021484375,
+      "logits/rejected": 0.3858642578125,
+      "logps/chosen": -175.625,
+      "logps/rejected": -155.25,
+      "loss": 2.9915,
+      "nll_loss": 2.29833984375,
+      "rewards/accuracies": 0.2265625,
+      "rewards/chosen": 0.0062618255615234375,
+      "rewards/margins": -0.009004592895507812,
+      "rewards/rejected": 0.01526641845703125,
+      "step": 13
+    },
+    {
+      "epoch": 0.5197215777262181,
+      "grad_norm": 39.796241760253906,
+      "learning_rate": 9.53125e-08,
+      "logits/chosen": 0.43328857421875,
+      "logits/rejected": 0.4168701171875,
+      "logps/chosen": -168.4375,
+      "logps/rejected": -146.90625,
+      "loss": 2.9739,
+      "nll_loss": 2.27734375,
+      "rewards/accuracies": 0.2421875,
+      "rewards/chosen": 0.01877593994140625,
+      "rewards/margins": -0.006046295166015625,
+      "rewards/rejected": 0.02483844757080078,
+      "step": 14
+    },
+    {
+      "epoch": 0.5568445475638051,
+      "grad_norm": 38.428070068359375,
+      "learning_rate": 9.453125e-08,
+      "logits/chosen": 0.3983154296875,
+      "logits/rejected": 0.394775390625,
+      "logps/chosen": -172.0625,
+      "logps/rejected": -147.90625,
+      "loss": 2.9338,
+      "nll_loss": 2.244140625,
+      "rewards/accuracies": 0.3046875,
+      "rewards/chosen": 0.030483245849609375,
+      "rewards/margins": 0.0029296875,
+      "rewards/rejected": 0.027555465698242188,
+      "step": 15
+    },
+    {
+      "epoch": 0.5939675174013921,
+      "grad_norm": 39.628963470458984,
+      "learning_rate": 9.375e-08,
+      "logits/chosen": 0.39715576171875,
+      "logits/rejected": 0.414306640625,
+      "logps/chosen": -178.0,
+      "logps/rejected": -159.875,
+      "loss": 3.0548,
+      "nll_loss": 2.3701171875,
+      "rewards/accuracies": 0.3828125,
+      "rewards/chosen": 0.05942535400390625,
+      "rewards/margins": 0.013860702514648438,
+      "rewards/rejected": 0.04556083679199219,
+      "step": 16
+    },
+    {
+      "epoch": 0.6310904872389791,
+      "grad_norm": 35.322757720947266,
+      "learning_rate": 9.296875e-08,
+      "logits/chosen": 0.38311767578125,
+      "logits/rejected": 0.3482666015625,
+      "logps/chosen": -173.21875,
+      "logps/rejected": -158.6875,
+      "loss": 2.9951,
+      "nll_loss": 2.3076171875,
+      "rewards/accuracies": 0.3828125,
+      "rewards/chosen": 0.05277252197265625,
+      "rewards/margins": 0.0072422027587890625,
+      "rewards/rejected": 0.0455322265625,
+      "step": 17
+    },
+    {
+      "epoch": 0.6682134570765661,
+      "grad_norm": 34.979583740234375,
+      "learning_rate": 9.218749999999999e-08,
+      "logits/chosen": 0.427734375,
+      "logits/rejected": 0.4029541015625,
+      "logps/chosen": -173.9375,
+      "logps/rejected": -152.125,
+      "loss": 3.002,
+      "nll_loss": 2.31689453125,
+      "rewards/accuracies": 0.3125,
+      "rewards/chosen": 0.0594482421875,
+      "rewards/margins": 0.007232666015625,
+      "rewards/rejected": 0.05219459533691406,
+      "step": 18
+    },
+    {
+      "epoch": 0.7053364269141531,
+      "grad_norm": 34.32613754272461,
+      "learning_rate": 9.140625e-08,
+      "logits/chosen": 0.32867431640625,
+      "logits/rejected": 0.3881378173828125,
+      "logps/chosen": -172.875,
+      "logps/rejected": -163.375,
+      "loss": 2.9933,
+      "nll_loss": 2.30517578125,
+      "rewards/accuracies": 0.3359375,
+      "rewards/chosen": 0.07083892822265625,
+      "rewards/margins": 0.007622718811035156,
+      "rewards/rejected": 0.06317138671875,
+      "step": 19
+    },
+    {
+      "epoch": 0.7424593967517401,
+      "grad_norm": 41.6298828125,
+      "learning_rate": 9.062499999999999e-08,
+      "logits/chosen": 0.4229736328125,
+      "logits/rejected": 0.375244140625,
+      "logps/chosen": -176.0,
+      "logps/rejected": -154.9375,
+      "loss": 2.9649,
+      "nll_loss": 2.279296875,
+      "rewards/accuracies": 0.3359375,
+      "rewards/chosen": 0.07122039794921875,
+      "rewards/margins": 0.010354995727539062,
+      "rewards/rejected": 0.0608367919921875,
+      "step": 20
+    },
+    {
+      "epoch": 0.7795823665893271,
+      "grad_norm": 37.83958053588867,
+      "learning_rate": 8.984375e-08,
+      "logits/chosen": 0.4124755859375,
+      "logits/rejected": 0.36822509765625,
+      "logps/chosen": -171.4375,
+      "logps/rejected": -147.25,
+      "loss": 2.9553,
+      "nll_loss": 2.263671875,
+      "rewards/accuracies": 0.3359375,
+      "rewards/chosen": 0.0637664794921875,
+      "rewards/margins": -0.0027446746826171875,
+      "rewards/rejected": 0.06647491455078125,
+      "step": 21
+    },
+    {
+      "epoch": 0.8167053364269141,
+      "grad_norm": 36.95314407348633,
+      "learning_rate": 8.90625e-08,
+      "logits/chosen": 0.4412841796875,
+      "logits/rejected": 0.4178466796875,
+      "logps/chosen": -172.3125,
+      "logps/rejected": -151.78125,
+      "loss": 2.9086,
+      "nll_loss": 2.22705078125,
+      "rewards/accuracies": 0.3828125,
+      "rewards/chosen": 0.083648681640625,
+      "rewards/margins": 0.020734786987304688,
+      "rewards/rejected": 0.06292724609375,
+      "step": 22
+    },
+    {
+      "epoch": 0.8538283062645011,
+      "grad_norm": 37.84122085571289,
+      "learning_rate": 8.828125e-08,
+      "logits/chosen": 0.43475341796875,
+      "logits/rejected": 0.39007568359375,
+      "logps/chosen": -174.5625,
+      "logps/rejected": -146.96875,
+      "loss": 2.9311,
+      "nll_loss": 2.248046875,
+      "rewards/accuracies": 0.4140625,
+      "rewards/chosen": 0.0770416259765625,
+      "rewards/margins": 0.017015457153320312,
+      "rewards/rejected": 0.06001091003417969,
+      "step": 23
+    },
+    {
+      "epoch": 0.8909512761020881,
+      "grad_norm": 34.304290771484375,
+      "learning_rate": 8.75e-08,
+      "logits/chosen": 0.455078125,
+      "logits/rejected": 0.4635009765625,
+      "logps/chosen": -161.5625,
+      "logps/rejected": -152.21875,
+      "loss": 2.9568,
+      "nll_loss": 2.2685546875,
+      "rewards/accuracies": 0.3359375,
+      "rewards/chosen": 0.06918716430664062,
+      "rewards/margins": 0.009189605712890625,
+      "rewards/rejected": 0.05999183654785156,
+      "step": 24
+    },
+    {
+      "epoch": 0.9280742459396751,
+      "grad_norm": 34.58511734008789,
+      "learning_rate": 8.671874999999999e-08,
+      "logits/chosen": 0.4024658203125,
+      "logits/rejected": 0.35870361328125,
+      "logps/chosen": -167.84375,
+      "logps/rejected": -155.6875,
+      "loss": 2.9536,
+      "nll_loss": 2.26953125,
+      "rewards/accuracies": 0.3359375,
+      "rewards/chosen": 0.084014892578125,
+      "rewards/margins": 0.009586334228515625,
+      "rewards/rejected": 0.0745086669921875,
+      "step": 25
+    },
+    {
+      "epoch": 0.9651972157772621,
+      "grad_norm": 32.51408386230469,
+      "learning_rate": 8.59375e-08,
+      "logits/chosen": 0.387939453125,
+      "logits/rejected": 0.41217041015625,
+      "logps/chosen": -171.625,
+      "logps/rejected": -156.21875,
+      "loss": 2.9408,
+      "nll_loss": 2.2529296875,
+      "rewards/accuracies": 0.3359375,
+      "rewards/chosen": 0.131378173828125,
+      "rewards/margins": 0.0060577392578125,
+      "rewards/rejected": 0.1253662109375,
+      "step": 26
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 37.21652603149414,
+      "learning_rate": 8.515624999999999e-08,
+      "logits/chosen": 0.36829426884651184,
+      "logits/rejected": 0.33606770634651184,
+      "logps/chosen": -174.1999969482422,
+      "logps/rejected": -151.1666717529297,
+      "loss": 2.9704,
+      "nll_loss": 2.2901041507720947,
+      "rewards/accuracies": 0.4166666567325592,
+      "rewards/chosen": 0.16803385317325592,
+      "rewards/margins": 0.02587076835334301,
+      "rewards/rejected": 0.1422526091337204,
+      "step": 27
+    },
+    {
+      "epoch": 1.0,
+      "eval_logits/chosen": 0.3971354067325592,
+      "eval_logits/rejected": 0.3619791567325592,
+      "eval_logps/chosen": -169.8333282470703,
+      "eval_logps/rejected": -148.8333282470703,
+      "eval_loss": 2.9026691913604736,
+      "eval_nll_loss": 2.2213542461395264,
+      "eval_rewards/accuracies": 0.4010416567325592,
+      "eval_rewards/chosen": 0.1822916716337204,
+      "eval_rewards/margins": 0.02267964743077755,
+      "eval_rewards/rejected": 0.15966796875,
+      "eval_runtime": 109.0244,
+      "eval_samples_per_second": 3.522,
+      "eval_steps_per_second": 0.055,
+      "step": 27
+    },
+    {
+      "epoch": 1.037122969837587,
+      "grad_norm": 33.881961822509766,
+      "learning_rate": 8.4375e-08,
+      "logits/chosen": 0.34295654296875,
+      "logits/rejected": 0.30322265625,
+      "logps/chosen": -169.875,
+      "logps/rejected": -156.375,
+      "loss": 2.9593,
+      "nll_loss": 2.28125,
+      "rewards/accuracies": 0.453125,
+      "rewards/chosen": 0.19097900390625,
+      "rewards/margins": 0.030971527099609375,
+      "rewards/rejected": 0.160064697265625,
+      "step": 28
+    },
+    {
+      "epoch": 1.074245939675174,
+      "grad_norm": 35.8636474609375,
+      "learning_rate": 8.359375e-08,
+      "logits/chosen": 0.406494140625,
+      "logits/rejected": 0.4139404296875,
+      "logps/chosen": -173.4375,
+      "logps/rejected": -149.90625,
+      "loss": 2.9845,
+      "nll_loss": 2.3017578125,
+      "rewards/accuracies": 0.4296875,
+      "rewards/chosen": 0.1990966796875,
+      "rewards/margins": 0.017164230346679688,
+      "rewards/rejected": 0.1820068359375,
+      "step": 29
+    },
+    {
+      "epoch": 1.111368909512761,
+      "grad_norm": 36.001094818115234,
+      "learning_rate": 8.28125e-08,
+      "logits/chosen": 0.43310546875,
+      "logits/rejected": 0.40234375,
+      "logps/chosen": -169.9375,
+      "logps/rejected": -149.40625,
+      "loss": 2.8939,
+      "nll_loss": 2.21533203125,
+      "rewards/accuracies": 0.421875,
+      "rewards/chosen": 0.20184326171875,
+      "rewards/margins": 0.026065826416015625,
+      "rewards/rejected": 0.17584228515625,
+      "step": 30
+    },
+    {
+      "epoch": 1.148491879350348,
+      "grad_norm": 35.54602813720703,
+      "learning_rate": 8.203125e-08,
+      "logits/chosen": 0.39208984375,
+      "logits/rejected": 0.39398193359375,
+      "logps/chosen": -173.4375,
+      "logps/rejected": -151.4375,
+      "loss": 2.9575,
+      "nll_loss": 2.28125,
+      "rewards/accuracies": 0.3984375,
+      "rewards/chosen": 0.228515625,
+      "rewards/margins": 0.028167724609375,
+      "rewards/rejected": 0.20025634765625,
+      "step": 31
+    },
+    {
+      "epoch": 1.185614849187935,
+      "grad_norm": 34.40830993652344,
+      "learning_rate": 8.124999999999999e-08,
+      "logits/chosen": 0.41754150390625,
+      "logits/rejected": 0.380126953125,
+      "logps/chosen": -165.4375,
+      "logps/rejected": -148.84375,
+      "loss": 2.9465,
+      "nll_loss": 2.2705078125,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.208984375,
+      "rewards/margins": 0.03348350524902344,
+      "rewards/rejected": 0.17547607421875,
+      "step": 32
+    },
+    {
+      "epoch": 1.222737819025522,
+      "grad_norm": 36.301544189453125,
+      "learning_rate": 8.046875e-08,
+      "logits/chosen": 0.4114990234375,
+      "logits/rejected": 0.3790283203125,
+      "logps/chosen": -173.6875,
+      "logps/rejected": -149.3125,
+      "loss": 2.9736,
+      "nll_loss": 2.291015625,
+      "rewards/accuracies": 0.4296875,
+      "rewards/chosen": 0.23309326171875,
+      "rewards/margins": 0.022678375244140625,
+      "rewards/rejected": 0.210205078125,
+      "step": 33
+    },
+    {
+      "epoch": 1.259860788863109,
+      "grad_norm": 32.567413330078125,
+      "learning_rate": 7.968749999999999e-08,
+      "logits/chosen": 0.395172119140625,
+      "logits/rejected": 0.4110107421875,
+      "logps/chosen": -171.75,
+      "logps/rejected": -154.0,
+      "loss": 2.9779,
+      "nll_loss": 2.2890625,
+      "rewards/accuracies": 0.390625,
+      "rewards/chosen": 0.23516845703125,
+      "rewards/margins": 0.01137542724609375,
+      "rewards/rejected": 0.223876953125,
+      "step": 34
+    },
+    {
+      "epoch": 1.296983758700696,
+      "grad_norm": 33.108497619628906,
+      "learning_rate": 7.890625e-08,
+      "logits/chosen": 0.37713623046875,
+      "logits/rejected": 0.37548828125,
+      "logps/chosen": -171.125,
+      "logps/rejected": -158.125,
+      "loss": 2.9559,
+      "nll_loss": 2.2744140625,
+      "rewards/accuracies": 0.4140625,
+      "rewards/chosen": 0.25018310546875,
+      "rewards/margins": 0.023487091064453125,
+      "rewards/rejected": 0.22705078125,
+      "step": 35
+    },
+    {
+      "epoch": 1.334106728538283,
+      "grad_norm": 33.0572624206543,
+      "learning_rate": 7.812499999999999e-08,
+      "logits/chosen": 0.430419921875,
+      "logits/rejected": 0.409912109375,
+      "logps/chosen": -170.0625,
+      "logps/rejected": -156.5,
+      "loss": 2.9622,
+      "nll_loss": 2.279296875,
+      "rewards/accuracies": 0.359375,
+      "rewards/chosen": 0.24749755859375,
+      "rewards/margins": 0.016834259033203125,
+      "rewards/rejected": 0.23046875,
+      "step": 36
+    },
+    {
+      "epoch": 1.37122969837587,
+      "grad_norm": 34.27482604980469,
+      "learning_rate": 7.734375e-08,
+      "logits/chosen": 0.3834228515625,
+      "logits/rejected": 0.3140869140625,
+      "logps/chosen": -174.0625,
+      "logps/rejected": -158.4375,
+      "loss": 2.9689,
+      "nll_loss": 2.296875,
+      "rewards/accuracies": 0.5078125,
+      "rewards/chosen": 0.25750732421875,
+      "rewards/margins": 0.03867340087890625,
+      "rewards/rejected": 0.21893310546875,
+      "step": 37
+    },
+    {
+      "epoch": 1.408352668213457,
+      "grad_norm": 33.35799789428711,
+      "learning_rate": 7.65625e-08,
+      "logits/chosen": 0.350555419921875,
+      "logits/rejected": 0.335540771484375,
+      "logps/chosen": -174.3125,
+      "logps/rejected": -162.6875,
+      "loss": 2.9839,
+      "nll_loss": 2.30078125,
+      "rewards/accuracies": 0.421875,
+      "rewards/chosen": 0.2733154296875,
+      "rewards/margins": 0.0215606689453125,
+      "rewards/rejected": 0.251953125,
+      "step": 38
+    },
+    {
+      "epoch": 1.445475638051044,
+      "grad_norm": 34.38155746459961,
+      "learning_rate": 7.578125e-08,
+      "logits/chosen": 0.4075927734375,
+      "logits/rejected": 0.3931884765625,
+      "logps/chosen": -176.25,
+      "logps/rejected": -158.875,
+      "loss": 2.9568,
+      "nll_loss": 2.2841796875,
+      "rewards/accuracies": 0.453125,
+      "rewards/chosen": 0.279541015625,
+      "rewards/margins": 0.04210662841796875,
+      "rewards/rejected": 0.23712158203125,
+      "step": 39
+    },
+    {
+      "epoch": 1.482598607888631,
+      "grad_norm": 36.7269401550293,
+      "learning_rate": 7.5e-08,
+      "logits/chosen": 0.39630126953125,
+      "logits/rejected": 0.34423828125,
+      "logps/chosen": -171.1875,
+      "logps/rejected": -147.5625,
+      "loss": 2.9215,
+      "nll_loss": 2.2470703125,
+      "rewards/accuracies": 0.5390625,
+      "rewards/chosen": 0.271240234375,
+      "rewards/margins": 0.03932952880859375,
+      "rewards/rejected": 0.23175048828125,
+      "step": 40
+    },
+    {
+      "epoch": 1.519721577726218,
+      "grad_norm": 36.291969299316406,
+      "learning_rate": 7.421874999999999e-08,
+      "logits/chosen": 0.399261474609375,
+      "logits/rejected": 0.35772705078125,
+      "logps/chosen": -167.75,
+      "logps/rejected": -142.875,
+      "loss": 2.9056,
+      "nll_loss": 2.2353515625,
+      "rewards/accuracies": 0.4140625,
+      "rewards/chosen": 0.287353515625,
+      "rewards/margins": 0.04146575927734375,
+      "rewards/rejected": 0.2457275390625,
+      "step": 41
+    },
+    {
+      "epoch": 1.556844547563805,
+      "grad_norm": 33.512359619140625,
+      "learning_rate": 7.34375e-08,
+      "logits/chosen": 0.4334716796875,
+      "logits/rejected": 0.4254150390625,
+      "logps/chosen": -170.75,
+      "logps/rejected": -156.75,
+      "loss": 2.8999,
+      "nll_loss": 2.220703125,
+      "rewards/accuracies": 0.4453125,
+      "rewards/chosen": 0.2911376953125,
+      "rewards/margins": 0.02759552001953125,
+      "rewards/rejected": 0.263427734375,
+      "step": 42
+    },
+    {
+      "epoch": 1.593967517401392,
+      "grad_norm": 33.475074768066406,
+      "learning_rate": 7.265624999999999e-08,
+      "logits/chosen": 0.4449462890625,
+      "logits/rejected": 0.39874267578125,
+      "logps/chosen": -167.1875,
+      "logps/rejected": -146.78125,
+      "loss": 2.8644,
+      "nll_loss": 2.18994140625,
+      "rewards/accuracies": 0.4609375,
+      "rewards/chosen": 0.291259765625,
+      "rewards/margins": 0.03582000732421875,
+      "rewards/rejected": 0.25537109375,
+      "step": 43
+    },
+    {
+      "epoch": 1.631090487238979,
+      "grad_norm": 35.19614791870117,
+      "learning_rate": 7.1875e-08,
+      "logits/chosen": 0.385009765625,
+      "logits/rejected": 0.39849853515625,
+      "logps/chosen": -169.3125,
+      "logps/rejected": -144.96875,
+      "loss": 2.8976,
+      "nll_loss": 2.22900390625,
+      "rewards/accuracies": 0.5234375,
+      "rewards/chosen": 0.3013916015625,
+      "rewards/margins": 0.04638671875,
+      "rewards/rejected": 0.2550048828125,
+      "step": 44
+    },
+    {
+      "epoch": 1.668213457076566,
+      "grad_norm": 34.17641067504883,
+      "learning_rate": 7.109375e-08,
+      "logits/chosen": 0.388427734375,
+      "logits/rejected": 0.35906982421875,
+      "logps/chosen": -177.625,
+      "logps/rejected": -156.375,
+      "loss": 2.9559,
+      "nll_loss": 2.2822265625,
+      "rewards/accuracies": 0.484375,
+      "rewards/chosen": 0.3175048828125,
+      "rewards/margins": 0.04502105712890625,
+      "rewards/rejected": 0.2720947265625,
+      "step": 45
+    },
+    {
+      "epoch": 1.705336426914153,
+      "grad_norm": 32.45627975463867,
+      "learning_rate": 7.03125e-08,
+      "logits/chosen": 0.378936767578125,
+      "logits/rejected": 0.37091064453125,
+      "logps/chosen": -166.4375,
+      "logps/rejected": -153.34375,
+      "loss": 2.9161,
+      "nll_loss": 2.2353515625,
+      "rewards/accuracies": 0.40625,
+      "rewards/chosen": 0.3055419921875,
+      "rewards/margins": 0.026824951171875,
+      "rewards/rejected": 0.27874755859375,
+      "step": 46
+    },
+    {
+      "epoch": 1.74245939675174,
+      "grad_norm": 32.74002456665039,
+      "learning_rate": 6.953125e-08,
+      "logits/chosen": 0.39892578125,
+      "logits/rejected": 0.36236572265625,
+      "logps/chosen": -169.375,
+      "logps/rejected": -153.375,
+      "loss": 2.8928,
+      "nll_loss": 2.21044921875,
+      "rewards/accuracies": 0.4609375,
+      "rewards/chosen": 0.297607421875,
+      "rewards/margins": 0.02545928955078125,
+      "rewards/rejected": 0.2724609375,
+      "step": 47
+    },
+    {
+      "epoch": 1.7795823665893271,
+      "grad_norm": 34.69235610961914,
+      "learning_rate": 6.875e-08,
+      "logits/chosen": 0.3896484375,
+      "logits/rejected": 0.32672119140625,
+      "logps/chosen": -167.625,
+      "logps/rejected": -154.90625,
+      "loss": 2.9146,
+      "nll_loss": 2.234375,
+      "rewards/accuracies": 0.40625,
+      "rewards/chosen": 0.31982421875,
+      "rewards/margins": 0.027408599853515625,
+      "rewards/rejected": 0.29248046875,
+      "step": 48
+    },
+    {
+      "epoch": 1.8167053364269141,
+      "grad_norm": 34.722328186035156,
+      "learning_rate": 6.796875e-08,
+      "logits/chosen": 0.39080810546875,
+      "logits/rejected": 0.3468017578125,
+      "logps/chosen": -170.5,
+      "logps/rejected": -151.96875,
+      "loss": 2.9396,
+      "nll_loss": 2.25341796875,
+      "rewards/accuracies": 0.4453125,
+      "rewards/chosen": 0.3145751953125,
+      "rewards/margins": 0.01688385009765625,
+      "rewards/rejected": 0.2972412109375,
+      "step": 49
+    },
+    {
+      "epoch": 1.8538283062645011,
+      "grad_norm": 35.193389892578125,
+      "learning_rate": 6.718749999999999e-08,
+      "logits/chosen": 0.3734130859375,
+      "logits/rejected": 0.354248046875,
+      "logps/chosen": -169.4375,
+      "logps/rejected": -148.875,
+      "loss": 2.9095,
+      "nll_loss": 2.2333984375,
+      "rewards/accuracies": 0.4296875,
+      "rewards/chosen": 0.341552734375,
+      "rewards/margins": 0.03308868408203125,
+      "rewards/rejected": 0.3084716796875,
+      "step": 50
+    },
+    {
+      "epoch": 1.8909512761020881,
+      "grad_norm": 33.2057991027832,
+      "learning_rate": 6.640625e-08,
+      "logits/chosen": 0.37799072265625,
+      "logits/rejected": 0.3985595703125,
+      "logps/chosen": -168.3125,
+      "logps/rejected": -147.34375,
+      "loss": 2.9147,
+      "nll_loss": 2.24365234375,
+      "rewards/accuracies": 0.4609375,
+      "rewards/chosen": 0.4085693359375,
+      "rewards/margins": 0.0473785400390625,
+      "rewards/rejected": 0.3614501953125,
+      "step": 51
+    },
+    {
+      "epoch": 1.9280742459396751,
+      "grad_norm": 32.10712432861328,
+      "learning_rate": 6.5625e-08,
+      "logits/chosen": 0.31439208984375,
+      "logits/rejected": 0.35784912109375,
+      "logps/chosen": -166.6875,
+      "logps/rejected": -148.40625,
+      "loss": 2.8973,
+      "nll_loss": 2.22412109375,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.4617919921875,
+      "rewards/margins": 0.04436492919921875,
+      "rewards/rejected": 0.417724609375,
+      "step": 52
+    },
+    {
+      "epoch": 1.9651972157772621,
+      "grad_norm": 32.033958435058594,
+      "learning_rate": 6.484375e-08,
+      "logits/chosen": 0.34063720703125,
+      "logits/rejected": 0.35675048828125,
+      "logps/chosen": -167.9375,
+      "logps/rejected": -147.875,
+      "loss": 2.9434,
+      "nll_loss": 2.2705078125,
+      "rewards/accuracies": 0.4609375,
+      "rewards/chosen": 0.519775390625,
+      "rewards/margins": 0.0435333251953125,
+      "rewards/rejected": 0.47607421875,
+      "step": 53
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 34.35704040527344,
+      "learning_rate": 6.40625e-08,
+      "logits/chosen": 0.3671875,
+      "logits/rejected": 0.3578124940395355,
+      "logps/chosen": -168.73333740234375,
+      "logps/rejected": -142.5,
+      "loss": 2.8677,
+      "nll_loss": 2.211458444595337,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.5489583611488342,
+      "rewards/margins": 0.07861328125,
+      "rewards/rejected": 0.470703125,
+      "step": 54
+    },
+    {
+      "epoch": 2.0,
+      "eval_logits/chosen": 0.3727213442325592,
+      "eval_logits/rejected": 0.3382161557674408,
+      "eval_logps/chosen": -166.0,
+      "eval_logps/rejected": -145.1666717529297,
+      "eval_loss": 2.8258464336395264,
+      "eval_nll_loss": 2.1666667461395264,
+      "eval_rewards/accuracies": 0.5338541865348816,
+      "eval_rewards/chosen": 0.5930989384651184,
+      "eval_rewards/margins": 0.0773213729262352,
+      "eval_rewards/rejected": 0.5166015625,
+      "eval_runtime": 103.3619,
+      "eval_samples_per_second": 3.715,
+      "eval_steps_per_second": 0.058,
+      "step": 54
+    },
+    {
+      "epoch": 2.0371229698375872,
+      "grad_norm": 32.25424575805664,
+      "learning_rate": 6.328125e-08,
+      "logits/chosen": 0.37457275390625,
+      "logits/rejected": 0.35791015625,
+      "logps/chosen": -168.6875,
+      "logps/rejected": -154.3125,
+      "loss": 2.8842,
+      "nll_loss": 2.220703125,
+      "rewards/accuracies": 0.515625,
+      "rewards/chosen": 0.600830078125,
+      "rewards/margins": 0.0645904541015625,
+      "rewards/rejected": 0.5364990234375,
+      "step": 55
+    },
+    {
+      "epoch": 2.074245939675174,
+      "grad_norm": 30.806289672851562,
+      "learning_rate": 6.25e-08,
+      "logits/chosen": 0.33087158203125,
+      "logits/rejected": 0.30120849609375,
+      "logps/chosen": -164.5,
+      "logps/rejected": -147.65625,
+      "loss": 2.8889,
+      "nll_loss": 2.21923828125,
+      "rewards/accuracies": 0.453125,
+      "rewards/chosen": 0.616455078125,
+      "rewards/margins": 0.05657958984375,
+      "rewards/rejected": 0.5601806640625,
+      "step": 56
+    },
+    {
+      "epoch": 2.111368909512761,
+      "grad_norm": 33.29100799560547,
+      "learning_rate": 6.171874999999999e-08,
+      "logits/chosen": 0.330352783203125,
+      "logits/rejected": 0.3253173828125,
+      "logps/chosen": -168.125,
+      "logps/rejected": -142.21875,
+      "loss": 2.8463,
+      "nll_loss": 2.19287109375,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": 0.65087890625,
+      "rewards/margins": 0.0902557373046875,
+      "rewards/rejected": 0.5606689453125,
+      "step": 57
+    },
+    {
+      "epoch": 2.148491879350348,
+      "grad_norm": 30.142637252807617,
+      "learning_rate": 6.09375e-08,
+      "logits/chosen": 0.3507080078125,
+      "logits/rejected": 0.34368896484375,
+      "logps/chosen": -163.625,
+      "logps/rejected": -147.8125,
+      "loss": 2.8784,
+      "nll_loss": 2.20654296875,
+      "rewards/accuracies": 0.4765625,
+      "rewards/chosen": 0.662841796875,
+      "rewards/margins": 0.0572052001953125,
+      "rewards/rejected": 0.60546875,
+      "step": 58
+    },
+    {
+      "epoch": 2.1856148491879352,
+      "grad_norm": 31.264293670654297,
+      "learning_rate": 6.015624999999999e-08,
+      "logits/chosen": 0.3809814453125,
+      "logits/rejected": 0.39666748046875,
+      "logps/chosen": -167.9375,
+      "logps/rejected": -149.28125,
+      "loss": 2.8646,
+      "nll_loss": 2.2001953125,
+      "rewards/accuracies": 0.5234375,
+      "rewards/chosen": 0.68896484375,
+      "rewards/margins": 0.0715789794921875,
+      "rewards/rejected": 0.6170654296875,
+      "step": 59
+    },
+    {
+      "epoch": 2.222737819025522,
+      "grad_norm": 28.420000076293945,
+      "learning_rate": 5.9375e-08,
+      "logits/chosen": 0.3916015625,
+      "logits/rejected": 0.34088134765625,
+      "logps/chosen": -161.5,
+      "logps/rejected": -152.5625,
+      "loss": 2.8021,
+      "nll_loss": 2.13037109375,
+      "rewards/accuracies": 0.453125,
+      "rewards/chosen": 0.707275390625,
+      "rewards/margins": 0.0574188232421875,
+      "rewards/rejected": 0.64990234375,
+      "step": 60
+    },
+    {
+      "epoch": 2.259860788863109,
+      "grad_norm": 31.354408264160156,
+      "learning_rate": 5.8593749999999995e-08,
+      "logits/chosen": 0.373992919921875,
+      "logits/rejected": 0.327880859375,
+      "logps/chosen": -166.3125,
+      "logps/rejected": -153.5625,
+      "loss": 2.9203,
+      "nll_loss": 2.2626953125,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": 0.742431640625,
+      "rewards/margins": 0.082183837890625,
+      "rewards/rejected": 0.660400390625,
+      "step": 61
+    },
+    {
+      "epoch": 2.296983758700696,
+      "grad_norm": 30.681615829467773,
+      "learning_rate": 5.7812499999999996e-08,
+      "logits/chosen": 0.35882568359375,
+      "logits/rejected": 0.33074951171875,
+      "logps/chosen": -162.6875,
+      "logps/rejected": -145.03125,
+      "loss": 2.8244,
+      "nll_loss": 2.16943359375,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.709228515625,
+      "rewards/margins": 0.0884552001953125,
+      "rewards/rejected": 0.620849609375,
+      "step": 62
+    },
+    {
+      "epoch": 2.3341067285382833,
+      "grad_norm": 28.197145462036133,
+      "learning_rate": 5.7031249999999997e-08,
+      "logits/chosen": 0.3367919921875,
+      "logits/rejected": 0.3353271484375,
+      "logps/chosen": -166.125,
+      "logps/rejected": -157.625,
+      "loss": 2.8934,
+      "nll_loss": 2.21533203125,
+      "rewards/accuracies": 0.46875,
+      "rewards/chosen": 0.7568359375,
+      "rewards/margins": 0.0417938232421875,
+      "rewards/rejected": 0.714599609375,
+      "step": 63
+    },
+    {
+      "epoch": 2.37122969837587,
+      "grad_norm": 33.402793884277344,
+      "learning_rate": 5.625e-08,
+      "logits/chosen": 0.35845947265625,
+      "logits/rejected": 0.3208465576171875,
+      "logps/chosen": -168.9375,
+      "logps/rejected": -147.6875,
+      "loss": 2.8792,
+      "nll_loss": 2.22900390625,
+      "rewards/accuracies": 0.5234375,
+      "rewards/chosen": 0.7763671875,
+      "rewards/margins": 0.102294921875,
+      "rewards/rejected": 0.673828125,
+      "step": 64
+    },
+    {
+      "epoch": 2.408352668213457,
+      "grad_norm": 31.952545166015625,
+      "learning_rate": 5.546875e-08,
+      "logits/chosen": 0.32257080078125,
+      "logits/rejected": 0.34716796875,
+      "logps/chosen": -174.25,
+      "logps/rejected": -149.625,
+      "loss": 2.8956,
+      "nll_loss": 2.25,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": 0.796875,
+      "rewards/margins": 0.10577392578125,
+      "rewards/rejected": 0.691162109375,
+      "step": 65
+    },
+    {
+      "epoch": 2.445475638051044,
+      "grad_norm": 28.59982681274414,
+      "learning_rate": 5.46875e-08,
+      "logits/chosen": 0.3751220703125,
+      "logits/rejected": 0.35809326171875,
+      "logps/chosen": -161.25,
+      "logps/rejected": -143.8125,
+      "loss": 2.8065,
+      "nll_loss": 2.14111328125,
+      "rewards/accuracies": 0.4765625,
+      "rewards/chosen": 0.77685546875,
+      "rewards/margins": 0.0706024169921875,
+      "rewards/rejected": 0.705810546875,
+      "step": 66
+    },
+    {
+      "epoch": 2.4825986078886313,
+      "grad_norm": 32.72235107421875,
+      "learning_rate": 5.390625e-08,
+      "logits/chosen": 0.37261962890625,
+      "logits/rejected": 0.33990478515625,
+      "logps/chosen": -162.9375,
+      "logps/rejected": -138.4375,
+      "loss": 2.8118,
+      "nll_loss": 2.1708984375,
+      "rewards/accuracies": 0.5234375,
+      "rewards/chosen": 0.792236328125,
+      "rewards/margins": 0.1248931884765625,
+      "rewards/rejected": 0.6671142578125,
+      "step": 67
+    },
+    {
+      "epoch": 2.519721577726218,
+      "grad_norm": 29.726709365844727,
+      "learning_rate": 5.3124999999999994e-08,
+      "logits/chosen": 0.40264892578125,
+      "logits/rejected": 0.37481689453125,
+      "logps/chosen": -164.6875,
+      "logps/rejected": -145.59375,
+      "loss": 2.8351,
+      "nll_loss": 2.173828125,
+      "rewards/accuracies": 0.515625,
+      "rewards/chosen": 0.793701171875,
+      "rewards/margins": 0.0774993896484375,
+      "rewards/rejected": 0.715576171875,
+      "step": 68
+    },
+    {
+      "epoch": 2.556844547563805,
+      "grad_norm": 30.94222068786621,
+      "learning_rate": 5.2343749999999995e-08,
+      "logits/chosen": 0.3359375,
+      "logits/rejected": 0.34417724609375,
+      "logps/chosen": -172.875,
+      "logps/rejected": -156.71875,
+      "loss": 2.8849,
+      "nll_loss": 2.22607421875,
+      "rewards/accuracies": 0.4453125,
+      "rewards/chosen": 0.8564453125,
+      "rewards/margins": 0.0876007080078125,
+      "rewards/rejected": 0.7685546875,
+      "step": 69
+    },
+    {
+      "epoch": 2.593967517401392,
+      "grad_norm": 27.713054656982422,
+      "learning_rate": 5.1562499999999996e-08,
+      "logits/chosen": 0.413330078125,
+      "logits/rejected": 0.35443115234375,
+      "logps/chosen": -167.6875,
+      "logps/rejected": -155.5625,
+      "loss": 2.8779,
+      "nll_loss": 2.2021484375,
+      "rewards/accuracies": 0.4296875,
+      "rewards/chosen": 0.825927734375,
+      "rewards/margins": 0.0465087890625,
+      "rewards/rejected": 0.77978515625,
+      "step": 70
+    },
+    {
+      "epoch": 2.6310904872389793,
+      "grad_norm": 30.74073600769043,
+      "learning_rate": 5.078125e-08,
+      "logits/chosen": 0.3853759765625,
+      "logits/rejected": 0.38409423828125,
+      "logps/chosen": -168.625,
+      "logps/rejected": -143.5625,
+      "loss": 2.8197,
+      "nll_loss": 2.1552734375,
+      "rewards/accuracies": 0.484375,
+      "rewards/chosen": 0.820556640625,
+      "rewards/margins": 0.0794830322265625,
+      "rewards/rejected": 0.74169921875,
+      "step": 71
+    },
+    {
+      "epoch": 2.668213457076566,
+      "grad_norm": 28.98983383178711,
+      "learning_rate": 5e-08,
+      "logits/chosen": 0.3699951171875,
+      "logits/rejected": 0.36859130859375,
+      "logps/chosen": -168.25,
+      "logps/rejected": -150.84375,
+      "loss": 2.8354,
+      "nll_loss": 2.18115234375,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": 0.835693359375,
+      "rewards/margins": 0.093719482421875,
+      "rewards/rejected": 0.742431640625,
+      "step": 72
+    },
+    {
+      "epoch": 2.705336426914153,
+      "grad_norm": 29.943038940429688,
+      "learning_rate": 4.921875e-08,
+      "logits/chosen": 0.32293701171875,
+      "logits/rejected": 0.337158203125,
+      "logps/chosen": -167.4375,
+      "logps/rejected": -145.90625,
+      "loss": 2.8192,
+      "nll_loss": 2.16748046875,
+      "rewards/accuracies": 0.5234375,
+      "rewards/chosen": 0.83203125,
+      "rewards/margins": 0.094451904296875,
+      "rewards/rejected": 0.73876953125,
+      "step": 73
+    },
+    {
+      "epoch": 2.74245939675174,
+      "grad_norm": 32.40934753417969,
+      "learning_rate": 4.84375e-08,
+      "logits/chosen": 0.38946533203125,
+      "logits/rejected": 0.38507080078125,
+      "logps/chosen": -165.25,
+      "logps/rejected": -144.0,
+      "loss": 2.8231,
+      "nll_loss": 2.18310546875,
+      "rewards/accuracies": 0.578125,
+      "rewards/chosen": 0.861328125,
+      "rewards/margins": 0.1257476806640625,
+      "rewards/rejected": 0.7353515625,
+      "step": 74
+    },
+    {
+      "epoch": 2.7795823665893273,
+      "grad_norm": 31.82373809814453,
+      "learning_rate": 4.765625e-08,
+      "logits/chosen": 0.41070556640625,
+      "logits/rejected": 0.36328125,
+      "logps/chosen": -164.1875,
+      "logps/rejected": -143.71875,
+      "loss": 2.8237,
+      "nll_loss": 2.181640625,
+      "rewards/accuracies": 0.546875,
+      "rewards/chosen": 0.864990234375,
+      "rewards/margins": 0.121978759765625,
+      "rewards/rejected": 0.742919921875,
+      "step": 75
+    },
+    {
+      "epoch": 2.816705336426914,
+      "grad_norm": 30.668813705444336,
+      "learning_rate": 4.6875e-08,
+      "logits/chosen": 0.30828857421875,
+      "logits/rejected": 0.283935546875,
+      "logps/chosen": -165.0,
+      "logps/rejected": -147.0,
+      "loss": 2.8801,
+      "nll_loss": 2.23095703125,
+      "rewards/accuracies": 0.5703125,
+      "rewards/chosen": 0.84814453125,
+      "rewards/margins": 0.110992431640625,
+      "rewards/rejected": 0.737548828125,
+      "step": 76
+    },
+    {
+      "epoch": 2.853828306264501,
+      "grad_norm": 30.72187614440918,
+      "learning_rate": 4.6093749999999995e-08,
+      "logits/chosen": 0.31927490234375,
+      "logits/rejected": 0.308197021484375,
+      "logps/chosen": -164.75,
+      "logps/rejected": -146.1875,
+      "loss": 2.8469,
+      "nll_loss": 2.203125,
+      "rewards/accuracies": 0.5546875,
+      "rewards/chosen": 0.867919921875,
+      "rewards/margins": 0.1165924072265625,
+      "rewards/rejected": 0.7509765625,
+      "step": 77
+    },
+    {
+      "epoch": 2.890951276102088,
+      "grad_norm": 29.66461944580078,
+      "learning_rate": 4.5312499999999996e-08,
+      "logits/chosen": 0.3563232421875,
+      "logits/rejected": 0.3353271484375,
+      "logps/chosen": -162.4375,
+      "logps/rejected": -141.90625,
+      "loss": 2.8171,
+      "nll_loss": 2.1650390625,
+      "rewards/accuracies": 0.5703125,
+      "rewards/chosen": 0.865966796875,
+      "rewards/margins": 0.0980224609375,
+      "rewards/rejected": 0.76806640625,
+      "step": 78
+    },
+    {
+      "epoch": 2.9280742459396754,
+      "grad_norm": 28.587329864501953,
+      "learning_rate": 4.453125e-08,
+      "logits/chosen": 0.34588623046875,
+      "logits/rejected": 0.31683349609375,
+      "logps/chosen": -159.9375,
+      "logps/rejected": -141.90625,
+      "loss": 2.8468,
+      "nll_loss": 2.18505859375,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.8525390625,
+      "rewards/margins": 0.0854949951171875,
+      "rewards/rejected": 0.76708984375,
+      "step": 79
+    },
+    {
+      "epoch": 2.965197215777262,
+      "grad_norm": 29.01342010498047,
+      "learning_rate": 4.375e-08,
+      "logits/chosen": 0.4154052734375,
+      "logits/rejected": 0.372314453125,
+      "logps/chosen": -161.375,
+      "logps/rejected": -145.96875,
+      "loss": 2.7547,
+      "nll_loss": 2.10107421875,
+      "rewards/accuracies": 0.5546875,
+      "rewards/chosen": 0.854248046875,
+      "rewards/margins": 0.0937042236328125,
+      "rewards/rejected": 0.7607421875,
+      "step": 80
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 30.070417404174805,
+      "learning_rate": 4.296875e-08,
+      "logits/chosen": 0.38977864384651184,
+      "logits/rejected": 0.3753906190395355,
+      "logps/chosen": -162.86666870117188,
+      "logps/rejected": -145.36666870117188,
+      "loss": 2.8077,
+      "nll_loss": 2.152083396911621,
+      "rewards/accuracies": 0.5583333373069763,
+      "rewards/chosen": 0.8833333253860474,
+      "rewards/margins": 0.10224609076976776,
+      "rewards/rejected": 0.7809895873069763,
+      "step": 81
+    },
+    {
+      "epoch": 3.0,
+      "eval_logits/chosen": 0.3587239682674408,
+      "eval_logits/rejected": 0.3251953125,
+      "eval_logps/chosen": -163.1666717529297,
+      "eval_logps/rejected": -142.8333282470703,
+      "eval_loss": 2.7760417461395264,
+      "eval_nll_loss": 2.1302082538604736,
+      "eval_rewards/accuracies": 0.5651041865348816,
+      "eval_rewards/chosen": 0.8802083134651184,
+      "eval_rewards/margins": 0.1203206405043602,
+      "eval_rewards/rejected": 0.7591145634651184,
+      "eval_runtime": 102.88,
+      "eval_samples_per_second": 3.733,
+      "eval_steps_per_second": 0.058,
+      "step": 81
+    },
+    {
+      "epoch": 3.0371229698375872,
+      "grad_norm": 27.77758026123047,
+      "learning_rate": 4.21875e-08,
+      "logits/chosen": 0.3466796875,
+      "logits/rejected": 0.3443603515625,
+      "logps/chosen": -167.625,
+      "logps/rejected": -153.53125,
+      "loss": 2.8614,
+      "nll_loss": 2.1962890625,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": 0.88720703125,
+      "rewards/margins": 0.0737762451171875,
+      "rewards/rejected": 0.813720703125,
+      "step": 82
+    },
+    {
+      "epoch": 3.074245939675174,
+      "grad_norm": 30.16431427001953,
+      "learning_rate": 4.140625e-08,
+      "logits/chosen": 0.33489990234375,
+      "logits/rejected": 0.3492431640625,
+      "logps/chosen": -169.6875,
+      "logps/rejected": -151.375,
+      "loss": 2.8557,
+      "nll_loss": 2.205078125,
+      "rewards/accuracies": 0.5703125,
+      "rewards/chosen": 0.91748046875,
+      "rewards/margins": 0.1014862060546875,
+      "rewards/rejected": 0.815673828125,
+      "step": 83
+    },
+    {
+      "epoch": 3.111368909512761,
+      "grad_norm": 28.804847717285156,
+      "learning_rate": 4.0624999999999995e-08,
+      "logits/chosen": 0.350799560546875,
+      "logits/rejected": 0.3480224609375,
+      "logps/chosen": -168.75,
+      "logps/rejected": -152.9375,
+      "loss": 2.8726,
+      "nll_loss": 2.216796875,
+      "rewards/accuracies": 0.484375,
+      "rewards/chosen": 0.9228515625,
+      "rewards/margins": 0.0991668701171875,
+      "rewards/rejected": 0.82373046875,
+      "step": 84
+    },
+    {
+      "epoch": 3.148491879350348,
+      "grad_norm": 27.3331298828125,
+      "learning_rate": 3.9843749999999996e-08,
+      "logits/chosen": 0.4110107421875,
+      "logits/rejected": 0.35845947265625,
+      "logps/chosen": -160.6875,
+      "logps/rejected": -147.5625,
+      "loss": 2.7726,
+      "nll_loss": 2.107421875,
+      "rewards/accuracies": 0.515625,
+      "rewards/chosen": 0.869384765625,
+      "rewards/margins": 0.07293701171875,
+      "rewards/rejected": 0.796630859375,
+      "step": 85
+    },
+    {
+      "epoch": 3.1856148491879352,
+      "grad_norm": 29.69388198852539,
+      "learning_rate": 3.9062499999999997e-08,
+      "logits/chosen": 0.39044189453125,
+      "logits/rejected": 0.318359375,
+      "logps/chosen": -166.1875,
+      "logps/rejected": -146.90625,
+      "loss": 2.8218,
+      "nll_loss": 2.166015625,
+      "rewards/accuracies": 0.546875,
+      "rewards/chosen": 0.915283203125,
+      "rewards/margins": 0.0997161865234375,
+      "rewards/rejected": 0.815185546875,
+      "step": 86
+    },
+    {
+      "epoch": 3.222737819025522,
+      "grad_norm": 28.804176330566406,
+      "learning_rate": 3.828125e-08,
+      "logits/chosen": 0.36474609375,
+      "logits/rejected": 0.36553955078125,
+      "logps/chosen": -163.3125,
+      "logps/rejected": -148.8125,
+      "loss": 2.8217,
+      "nll_loss": 2.16162109375,
+      "rewards/accuracies": 0.515625,
+      "rewards/chosen": 0.906982421875,
+      "rewards/margins": 0.08441162109375,
+      "rewards/rejected": 0.822509765625,
+      "step": 87
+    },
+    {
+      "epoch": 3.259860788863109,
+      "grad_norm": 27.526470184326172,
+      "learning_rate": 3.75e-08,
+      "logits/chosen": 0.3748779296875,
+      "logits/rejected": 0.36016845703125,
+      "logps/chosen": -162.0,
+      "logps/rejected": -154.125,
+      "loss": 2.8472,
+      "nll_loss": 2.18017578125,
+      "rewards/accuracies": 0.515625,
+      "rewards/chosen": 0.91943359375,
+      "rewards/margins": 0.069366455078125,
+      "rewards/rejected": 0.849853515625,
+      "step": 88
+    },
+    {
+      "epoch": 3.296983758700696,
+      "grad_norm": 31.725608825683594,
+      "learning_rate": 3.671875e-08,
+      "logits/chosen": 0.325714111328125,
+      "logits/rejected": 0.30804443359375,
+      "logps/chosen": -166.0625,
+      "logps/rejected": -142.1875,
+      "loss": 2.7952,
+      "nll_loss": 2.1650390625,
+      "rewards/accuracies": 0.6484375,
+      "rewards/chosen": 0.95263671875,
+      "rewards/margins": 0.145782470703125,
+      "rewards/rejected": 0.806884765625,
+      "step": 89
+    },
+    {
+      "epoch": 3.3341067285382833,
+      "grad_norm": 24.72932243347168,
+      "learning_rate": 3.59375e-08,
+      "logits/chosen": 0.344940185546875,
+      "logits/rejected": 0.322998046875,
+      "logps/chosen": -153.3125,
+      "logps/rejected": -149.625,
+      "loss": 2.7468,
+      "nll_loss": 2.07080078125,
+      "rewards/accuracies": 0.4609375,
+      "rewards/chosen": 0.89794921875,
+      "rewards/margins": 0.045196533203125,
+      "rewards/rejected": 0.852783203125,
+      "step": 90
+    },
+    {
+      "epoch": 3.37122969837587,
+      "grad_norm": 32.73944854736328,
+      "learning_rate": 3.515625e-08,
+      "logits/chosen": 0.354888916015625,
+      "logits/rejected": 0.333740234375,
+      "logps/chosen": -162.0625,
+      "logps/rejected": -136.5625,
+      "loss": 2.7894,
+      "nll_loss": 2.162109375,
+      "rewards/accuracies": 0.6171875,
+      "rewards/chosen": 0.947998046875,
+      "rewards/margins": 0.153228759765625,
+      "rewards/rejected": 0.794921875,
+      "step": 91
+    },
+    {
+      "epoch": 3.408352668213457,
+      "grad_norm": 28.821645736694336,
+      "learning_rate": 3.4375e-08,
+      "logits/chosen": 0.386474609375,
+      "logits/rejected": 0.38519287109375,
+      "logps/chosen": -160.5,
+      "logps/rejected": -141.28125,
+      "loss": 2.778,
+      "nll_loss": 2.13037109375,
+      "rewards/accuracies": 0.5703125,
+      "rewards/chosen": 0.95947265625,
+      "rewards/margins": 0.1248779296875,
+      "rewards/rejected": 0.8349609375,
+      "step": 92
+    },
+    {
+      "epoch": 3.445475638051044,
+      "grad_norm": 28.84639549255371,
+      "learning_rate": 3.3593749999999996e-08,
+      "logits/chosen": 0.35491943359375,
+      "logits/rejected": 0.34991455078125,
+      "logps/chosen": -162.3125,
+      "logps/rejected": -148.1875,
+      "loss": 2.7994,
+      "nll_loss": 2.14794921875,
+      "rewards/accuracies": 0.5390625,
+      "rewards/chosen": 0.9541015625,
+      "rewards/margins": 0.0999755859375,
+      "rewards/rejected": 0.853759765625,
+      "step": 93
+    },
+    {
+      "epoch": 3.4825986078886313,
+      "grad_norm": 29.14773178100586,
+      "learning_rate": 3.28125e-08,
+      "logits/chosen": 0.34576416015625,
+      "logits/rejected": 0.294586181640625,
+      "logps/chosen": -163.375,
+      "logps/rejected": -143.78125,
+      "loss": 2.8074,
+      "nll_loss": 2.15966796875,
+      "rewards/accuracies": 0.5546875,
+      "rewards/chosen": 0.953857421875,
+      "rewards/margins": 0.11199951171875,
+      "rewards/rejected": 0.841796875,
+      "step": 94
+    },
+    {
+      "epoch": 3.519721577726218,
+      "grad_norm": 28.385051727294922,
+      "learning_rate": 3.203125e-08,
+      "logits/chosen": 0.361328125,
+      "logits/rejected": 0.368896484375,
+      "logps/chosen": -163.875,
+      "logps/rejected": -144.5625,
+      "loss": 2.8059,
+      "nll_loss": 2.14208984375,
+      "rewards/accuracies": 0.484375,
+      "rewards/chosen": 0.9453125,
+      "rewards/margins": 0.0822296142578125,
+      "rewards/rejected": 0.86279296875,
+      "step": 95
+    },
+    {
+      "epoch": 3.556844547563805,
+      "grad_norm": 30.213552474975586,
+      "learning_rate": 3.125e-08,
+      "logits/chosen": 0.39837646484375,
+      "logits/rejected": 0.37939453125,
+      "logps/chosen": -162.9375,
+      "logps/rejected": -140.46875,
+      "loss": 2.7784,
+      "nll_loss": 2.14501953125,
+      "rewards/accuracies": 0.546875,
+      "rewards/chosen": 0.977783203125,
+      "rewards/margins": 0.1444854736328125,
+      "rewards/rejected": 0.833984375,
+      "step": 96
+    },
+    {
+      "epoch": 3.593967517401392,
+      "grad_norm": 32.763328552246094,
+      "learning_rate": 3.046875e-08,
+      "logits/chosen": 0.3245849609375,
+      "logits/rejected": 0.333984375,
+      "logps/chosen": -168.5625,
+      "logps/rejected": -146.40625,
+      "loss": 2.8275,
+      "nll_loss": 2.201171875,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": 1.023193359375,
+      "rewards/margins": 0.15716552734375,
+      "rewards/rejected": 0.86669921875,
+      "step": 97
+    },
+    {
+      "epoch": 3.6310904872389793,
+      "grad_norm": 28.763147354125977,
+      "learning_rate": 2.96875e-08,
+      "logits/chosen": 0.4039306640625,
+      "logits/rejected": 0.373779296875,
+      "logps/chosen": -162.625,
+      "logps/rejected": -142.9375,
+      "loss": 2.8257,
+      "nll_loss": 2.17041015625,
+      "rewards/accuracies": 0.5078125,
+      "rewards/chosen": 0.997314453125,
+      "rewards/margins": 0.10540771484375,
+      "rewards/rejected": 0.892333984375,
+      "step": 98
+    },
+    {
+      "epoch": 3.668213457076566,
+      "grad_norm": 30.689043045043945,
+      "learning_rate": 2.8906249999999998e-08,
+      "logits/chosen": 0.359619140625,
+      "logits/rejected": 0.330169677734375,
+      "logps/chosen": -165.625,
+      "logps/rejected": -142.09375,
+      "loss": 2.8357,
+      "nll_loss": 2.1826171875,
+      "rewards/accuracies": 0.546875,
+      "rewards/chosen": 1.013427734375,
+      "rewards/margins": 0.1118927001953125,
+      "rewards/rejected": 0.901611328125,
+      "step": 99
+    },
+    {
+      "epoch": 3.705336426914153,
+      "grad_norm": 26.55453872680664,
+      "learning_rate": 2.8125e-08,
+      "logits/chosen": 0.319427490234375,
+      "logits/rejected": 0.313446044921875,
+      "logps/chosen": -159.625,
+      "logps/rejected": -146.21875,
+      "loss": 2.8075,
+      "nll_loss": 2.14453125,
+      "rewards/accuracies": 0.4921875,
+      "rewards/chosen": 0.961669921875,
+      "rewards/margins": 0.082550048828125,
+      "rewards/rejected": 0.87890625,
+      "step": 100
+    },
+    {
+      "epoch": 3.74245939675174,
+      "grad_norm": 29.098655700683594,
+      "learning_rate": 2.734375e-08,
+      "logits/chosen": 0.3113555908203125,
+      "logits/rejected": 0.312286376953125,
+      "logps/chosen": -169.25,
+      "logps/rejected": -155.03125,
+      "loss": 2.8762,
+      "nll_loss": 2.220703125,
+      "rewards/accuracies": 0.4921875,
+      "rewards/chosen": 1.02880859375,
+      "rewards/margins": 0.09100341796875,
+      "rewards/rejected": 0.9384765625,
+      "step": 101
+    },
+    {
+      "epoch": 3.7795823665893273,
+      "grad_norm": 30.016429901123047,
+      "learning_rate": 2.6562499999999997e-08,
+      "logits/chosen": 0.3350830078125,
+      "logits/rejected": 0.32012939453125,
+      "logps/chosen": -163.75,
+      "logps/rejected": -143.78125,
+      "loss": 2.8272,
+      "nll_loss": 2.1796875,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": 1.017578125,
+      "rewards/margins": 0.116119384765625,
+      "rewards/rejected": 0.90087890625,
+      "step": 102
+    },
+    {
+      "epoch": 3.816705336426914,
+      "grad_norm": 28.877973556518555,
+      "learning_rate": 2.5781249999999998e-08,
+      "logits/chosen": 0.34783935546875,
+      "logits/rejected": 0.335540771484375,
+      "logps/chosen": -161.375,
+      "logps/rejected": -144.59375,
+      "loss": 2.8558,
+      "nll_loss": 2.2099609375,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": 1.007080078125,
+      "rewards/margins": 0.1160125732421875,
+      "rewards/rejected": 0.890625,
+      "step": 103
+    },
+    {
+      "epoch": 3.853828306264501,
+      "grad_norm": 28.23018455505371,
+      "learning_rate": 2.5e-08,
+      "logits/chosen": 0.37432861328125,
+      "logits/rejected": 0.29962158203125,
+      "logps/chosen": -164.375,
+      "logps/rejected": -148.0,
+      "loss": 2.7842,
+      "nll_loss": 2.13134765625,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": 1.01220703125,
+      "rewards/margins": 0.1003265380859375,
+      "rewards/rejected": 0.911376953125,
+      "step": 104
+    },
+    {
+      "epoch": 3.890951276102088,
+      "grad_norm": 30.10898780822754,
+      "learning_rate": 2.421875e-08,
+      "logits/chosen": 0.3602294921875,
+      "logits/rejected": 0.346923828125,
+      "logps/chosen": -163.9375,
+      "logps/rejected": -143.0625,
+      "loss": 2.8019,
+      "nll_loss": 2.1611328125,
+      "rewards/accuracies": 0.6015625,
+      "rewards/chosen": 0.990966796875,
+      "rewards/margins": 0.13226318359375,
+      "rewards/rejected": 0.858154296875,
+      "step": 105
+    },
+    {
+      "epoch": 3.9280742459396754,
+      "grad_norm": 27.816171646118164,
+      "learning_rate": 2.34375e-08,
+      "logits/chosen": 0.35302734375,
+      "logits/rejected": 0.327880859375,
+      "logps/chosen": -163.625,
+      "logps/rejected": -144.46875,
+      "loss": 2.7886,
+      "nll_loss": 2.1376953125,
+      "rewards/accuracies": 0.484375,
+      "rewards/chosen": 0.99365234375,
+      "rewards/margins": 0.1105499267578125,
+      "rewards/rejected": 0.883056640625,
+      "step": 106
+    },
+    {
+      "epoch": 3.965197215777262,
+      "grad_norm": 30.782146453857422,
+      "learning_rate": 2.2656249999999998e-08,
+      "logits/chosen": 0.367279052734375,
+      "logits/rejected": 0.34185791015625,
+      "logps/chosen": -163.5,
+      "logps/rejected": -141.5,
+      "loss": 2.7767,
+      "nll_loss": 2.146484375,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 1.034912109375,
+      "rewards/margins": 0.15887451171875,
+      "rewards/rejected": 0.875732421875,
+      "step": 107
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 32.44054412841797,
+      "learning_rate": 2.1875e-08,
+      "logits/chosen": 0.37871092557907104,
+      "logits/rejected": 0.34069010615348816,
+      "logps/chosen": -164.93333435058594,
+      "logps/rejected": -138.6666717529297,
+      "loss": 2.8432,
+      "nll_loss": 2.211458444595337,
+      "rewards/accuracies": 0.5833333134651184,
+      "rewards/chosen": 1.03125,
+      "rewards/margins": 0.14685872197151184,
+      "rewards/rejected": 0.8841145634651184,
+      "step": 108
+    },
+    {
+      "epoch": 4.0,
+      "eval_logits/chosen": 0.3561197817325592,
+      "eval_logits/rejected": 0.3212890625,
+      "eval_logps/chosen": -161.8333282470703,
+      "eval_logps/rejected": -141.8333282470703,
+      "eval_loss": 2.7526042461395264,
+      "eval_nll_loss": 2.11328125,
+      "eval_rewards/accuracies": 0.5677083134651184,
+      "eval_rewards/chosen": 1.01171875,
+      "eval_rewards/margins": 0.1364542692899704,
+      "eval_rewards/rejected": 0.8756510615348816,
+      "eval_runtime": 102.8297,
+      "eval_samples_per_second": 3.734,
+      "eval_steps_per_second": 0.058,
+      "step": 108
+    },
+    {
+      "epoch": 4.037122969837587,
+      "grad_norm": 31.294692993164062,
+      "learning_rate": 2.109375e-08,
+      "logits/chosen": 0.33905029296875,
+      "logits/rejected": 0.32745361328125,
+      "logps/chosen": -165.125,
+      "logps/rejected": -144.09375,
+      "loss": 2.8858,
+      "nll_loss": 2.2529296875,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": 1.063232421875,
+      "rewards/margins": 0.144775390625,
+      "rewards/rejected": 0.91845703125,
+      "step": 109
+    },
+    {
+      "epoch": 4.0742459396751745,
+      "grad_norm": 29.496854782104492,
+      "learning_rate": 2.0312499999999997e-08,
+      "logits/chosen": 0.4388427734375,
+      "logits/rejected": 0.37957763671875,
+      "logps/chosen": -161.5,
+      "logps/rejected": -143.40625,
+      "loss": 2.8021,
+      "nll_loss": 2.14990234375,
+      "rewards/accuracies": 0.4921875,
+      "rewards/chosen": 0.9970703125,
+      "rewards/margins": 0.10546875,
+      "rewards/rejected": 0.892333984375,
+      "step": 110
+    },
+    {
+      "epoch": 4.111368909512761,
+      "grad_norm": 29.509689331054688,
+      "learning_rate": 1.9531249999999998e-08,
+      "logits/chosen": 0.35552978515625,
+      "logits/rejected": 0.3720703125,
+      "logps/chosen": -168.25,
+      "logps/rejected": -143.53125,
+      "loss": 2.8298,
+      "nll_loss": 2.18017578125,
+      "rewards/accuracies": 0.5234375,
+      "rewards/chosen": 1.0341796875,
+      "rewards/margins": 0.121368408203125,
+      "rewards/rejected": 0.91357421875,
+      "step": 111
+    },
+    {
+      "epoch": 4.148491879350348,
+      "grad_norm": 27.970518112182617,
+      "learning_rate": 1.875e-08,
+      "logits/chosen": 0.35711669921875,
+      "logits/rejected": 0.347930908203125,
+      "logps/chosen": -160.875,
+      "logps/rejected": -148.6875,
+      "loss": 2.8164,
+      "nll_loss": 2.16943359375,
+      "rewards/accuracies": 0.5390625,
+      "rewards/chosen": 1.0263671875,
+      "rewards/margins": 0.12030029296875,
+      "rewards/rejected": 0.90478515625,
+      "step": 112
+    },
+    {
+      "epoch": 4.185614849187935,
+      "grad_norm": 27.921180725097656,
+      "learning_rate": 1.796875e-08,
+      "logits/chosen": 0.3526611328125,
+      "logits/rejected": 0.3419189453125,
+      "logps/chosen": -165.8125,
+      "logps/rejected": -148.375,
+      "loss": 2.8152,
+      "nll_loss": 2.154296875,
+      "rewards/accuracies": 0.4921875,
+      "rewards/chosen": 1.027587890625,
+      "rewards/margins": 0.085540771484375,
+      "rewards/rejected": 0.94287109375,
+      "step": 113
+    },
+    {
+      "epoch": 4.222737819025522,
+      "grad_norm": 28.095144271850586,
+      "learning_rate": 1.71875e-08,
+      "logits/chosen": 0.345458984375,
+      "logits/rejected": 0.31927490234375,
+      "logps/chosen": -158.90625,
+      "logps/rejected": -148.96875,
+      "loss": 2.7949,
+      "nll_loss": 2.140625,
+      "rewards/accuracies": 0.5234375,
+      "rewards/chosen": 1.04345703125,
+      "rewards/margins": 0.0972442626953125,
+      "rewards/rejected": 0.9462890625,
+      "step": 114
+    },
+    {
+      "epoch": 4.259860788863109,
+      "grad_norm": 28.238088607788086,
+      "learning_rate": 1.640625e-08,
+      "logits/chosen": 0.34893798828125,
+      "logits/rejected": 0.307281494140625,
+      "logps/chosen": -157.4375,
+      "logps/rejected": -144.75,
+      "loss": 2.8239,
+      "nll_loss": 2.16357421875,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 1.010009765625,
+      "rewards/margins": 0.09295654296875,
+      "rewards/rejected": 0.91650390625,
+      "step": 115
+    },
+    {
+      "epoch": 4.296983758700696,
+      "grad_norm": 27.830520629882812,
+      "learning_rate": 1.5625e-08,
+      "logits/chosen": 0.36151123046875,
+      "logits/rejected": 0.3563232421875,
+      "logps/chosen": -165.1875,
+      "logps/rejected": -145.09375,
+      "loss": 2.8053,
+      "nll_loss": 2.1572265625,
+      "rewards/accuracies": 0.5546875,
+      "rewards/chosen": 1.0478515625,
+      "rewards/margins": 0.11956787109375,
+      "rewards/rejected": 0.927490234375,
+      "step": 116
+    },
+    {
+      "epoch": 4.334106728538283,
+      "grad_norm": 28.707717895507812,
+      "learning_rate": 1.484375e-08,
+      "logits/chosen": 0.39031982421875,
+      "logits/rejected": 0.36114501953125,
+      "logps/chosen": -164.1875,
+      "logps/rejected": -145.84375,
+      "loss": 2.8093,
+      "nll_loss": 2.15478515625,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": 1.041259765625,
+      "rewards/margins": 0.098602294921875,
+      "rewards/rejected": 0.943603515625,
+      "step": 117
+    },
+    {
+      "epoch": 4.3712296983758705,
+      "grad_norm": 28.201648712158203,
+      "learning_rate": 1.40625e-08,
+      "logits/chosen": 0.3319091796875,
+      "logits/rejected": 0.301177978515625,
+      "logps/chosen": -166.875,
+      "logps/rejected": -148.9375,
+      "loss": 2.7664,
+      "nll_loss": 2.1240234375,
+      "rewards/accuracies": 0.5390625,
+      "rewards/chosen": 1.051513671875,
+      "rewards/margins": 0.129791259765625,
+      "rewards/rejected": 0.920654296875,
+      "step": 118
+    },
+    {
+      "epoch": 4.408352668213457,
+      "grad_norm": 25.48500633239746,
+      "learning_rate": 1.3281249999999999e-08,
+      "logits/chosen": 0.35797119140625,
+      "logits/rejected": 0.34332275390625,
+      "logps/chosen": -160.9375,
+      "logps/rejected": -151.0625,
+      "loss": 2.7906,
+      "nll_loss": 2.115234375,
+      "rewards/accuracies": 0.4296875,
+      "rewards/chosen": 1.037353515625,
+      "rewards/margins": 0.0632781982421875,
+      "rewards/rejected": 0.97509765625,
+      "step": 119
+    },
+    {
+      "epoch": 4.445475638051044,
+      "grad_norm": 27.510597229003906,
+      "learning_rate": 1.25e-08,
+      "logits/chosen": 0.3927001953125,
+      "logits/rejected": 0.381103515625,
+      "logps/chosen": -160.4375,
+      "logps/rejected": -149.46875,
+      "loss": 2.777,
+      "nll_loss": 2.12109375,
+      "rewards/accuracies": 0.5234375,
+      "rewards/chosen": 1.0439453125,
+      "rewards/margins": 0.103424072265625,
+      "rewards/rejected": 0.941162109375,
+      "step": 120
+    },
+    {
+      "epoch": 4.482598607888631,
+      "grad_norm": 26.467517852783203,
+      "learning_rate": 1.171875e-08,
+      "logits/chosen": 0.3460693359375,
+      "logits/rejected": 0.333404541015625,
+      "logps/chosen": -157.0,
+      "logps/rejected": -148.125,
+      "loss": 2.7761,
+      "nll_loss": 2.1083984375,
+      "rewards/accuracies": 0.5546875,
+      "rewards/chosen": 1.01708984375,
+      "rewards/margins": 0.069854736328125,
+      "rewards/rejected": 0.9462890625,
+      "step": 121
+    },
+    {
+      "epoch": 4.519721577726218,
+      "grad_norm": 30.551589965820312,
+      "learning_rate": 1.09375e-08,
+      "logits/chosen": 0.3670654296875,
+      "logits/rejected": 0.32598876953125,
+      "logps/chosen": -160.25,
+      "logps/rejected": -135.75,
+      "loss": 2.7577,
+      "nll_loss": 2.126953125,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 1.037841796875,
+      "rewards/margins": 0.14959716796875,
+      "rewards/rejected": 0.888916015625,
+      "step": 122
+    },
+    {
+      "epoch": 4.556844547563805,
+      "grad_norm": 30.325624465942383,
+      "learning_rate": 1.0156249999999999e-08,
+      "logits/chosen": 0.35888671875,
+      "logits/rejected": 0.361663818359375,
+      "logps/chosen": -167.6875,
+      "logps/rejected": -140.03125,
+      "loss": 2.8104,
+      "nll_loss": 2.1806640625,
+      "rewards/accuracies": 0.6171875,
+      "rewards/chosen": 1.078125,
+      "rewards/margins": 0.1522216796875,
+      "rewards/rejected": 0.9267578125,
+      "step": 123
+    },
+    {
+      "epoch": 4.593967517401392,
+      "grad_norm": 30.124492645263672,
+      "learning_rate": 9.375e-09,
+      "logits/chosen": 0.302703857421875,
+      "logits/rejected": 0.34002685546875,
+      "logps/chosen": -163.625,
+      "logps/rejected": -140.8125,
+      "loss": 2.8342,
+      "nll_loss": 2.197265625,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": 1.07177734375,
+      "rewards/margins": 0.1431884765625,
+      "rewards/rejected": 0.927734375,
+      "step": 124
+    },
+    {
+      "epoch": 4.631090487238979,
+      "grad_norm": 27.595609664916992,
+      "learning_rate": 8.59375e-09,
+      "logits/chosen": 0.38677978515625,
+      "logits/rejected": 0.33587646484375,
+      "logps/chosen": -162.3125,
+      "logps/rejected": -142.875,
+      "loss": 2.7643,
+      "nll_loss": 2.11083984375,
+      "rewards/accuracies": 0.546875,
+      "rewards/chosen": 1.028564453125,
+      "rewards/margins": 0.1085205078125,
+      "rewards/rejected": 0.91943359375,
+      "step": 125
+    },
+    {
+      "epoch": 4.6682134570765665,
+      "grad_norm": 30.859743118286133,
+      "learning_rate": 7.8125e-09,
+      "logits/chosen": 0.295379638671875,
+      "logits/rejected": 0.2750244140625,
+      "logps/chosen": -160.6875,
+      "logps/rejected": -133.21875,
+      "loss": 2.8286,
+      "nll_loss": 2.2001953125,
+      "rewards/accuracies": 0.5859375,
+      "rewards/chosen": 1.045654296875,
+      "rewards/margins": 0.16162109375,
+      "rewards/rejected": 0.88330078125,
+      "step": 126
+    },
+    {
+      "epoch": 4.705336426914153,
+      "grad_norm": 30.610149383544922,
+      "learning_rate": 7.03125e-09,
+      "logits/chosen": 0.35791015625,
+      "logits/rejected": 0.337982177734375,
+      "logps/chosen": -163.125,
+      "logps/rejected": -135.25,
+      "loss": 2.7411,
+      "nll_loss": 2.11767578125,
+      "rewards/accuracies": 0.6015625,
+      "rewards/chosen": 1.070556640625,
+      "rewards/margins": 0.1749114990234375,
+      "rewards/rejected": 0.8955078125,
+      "step": 127
+    },
+    {
+      "epoch": 4.74245939675174,
+      "grad_norm": 26.896799087524414,
+      "learning_rate": 6.25e-09,
+      "logits/chosen": 0.3948974609375,
+      "logits/rejected": 0.37274169921875,
+      "logps/chosen": -163.875,
+      "logps/rejected": -151.1875,
+      "loss": 2.8187,
+      "nll_loss": 2.15869140625,
+      "rewards/accuracies": 0.515625,
+      "rewards/chosen": 1.0595703125,
+      "rewards/margins": 0.098236083984375,
+      "rewards/rejected": 0.961669921875,
+      "step": 128
+    },
+    {
+      "epoch": 4.779582366589327,
+      "grad_norm": 28.43315887451172,
+      "learning_rate": 5.46875e-09,
+      "logits/chosen": 0.34173583984375,
+      "logits/rejected": 0.30682373046875,
+      "logps/chosen": -158.3125,
+      "logps/rejected": -144.125,
+      "loss": 2.7525,
+      "nll_loss": 2.10693359375,
+      "rewards/accuracies": 0.5546875,
+      "rewards/chosen": 1.040283203125,
+      "rewards/margins": 0.1310577392578125,
+      "rewards/rejected": 0.908935546875,
+      "step": 129
+    },
+    {
+      "epoch": 4.816705336426914,
+      "grad_norm": 29.862634658813477,
+      "learning_rate": 4.6875e-09,
+      "logits/chosen": 0.390380859375,
+      "logits/rejected": 0.3612060546875,
+      "logps/chosen": -164.0,
+      "logps/rejected": -146.03125,
+      "loss": 2.7642,
+      "nll_loss": 2.13427734375,
+      "rewards/accuracies": 0.5546875,
+      "rewards/chosen": 1.08056640625,
+      "rewards/margins": 0.1512451171875,
+      "rewards/rejected": 0.93017578125,
+      "step": 130
+    },
+    {
+      "epoch": 4.853828306264501,
+      "grad_norm": 32.517127990722656,
+      "learning_rate": 3.90625e-09,
+      "logits/chosen": 0.3182373046875,
+      "logits/rejected": 0.3302001953125,
+      "logps/chosen": -170.875,
+      "logps/rejected": -147.53125,
+      "loss": 2.8578,
+      "nll_loss": 2.21142578125,
+      "rewards/accuracies": 0.578125,
+      "rewards/chosen": 1.061279296875,
+      "rewards/margins": 0.1163330078125,
+      "rewards/rejected": 0.94384765625,
+      "step": 131
+    },
+    {
+      "epoch": 4.890951276102088,
+      "grad_norm": 27.79583168029785,
+      "learning_rate": 3.125e-09,
+      "logits/chosen": 0.36505126953125,
+      "logits/rejected": 0.35943603515625,
+      "logps/chosen": -158.75,
+      "logps/rejected": -144.125,
+      "loss": 2.7755,
+      "nll_loss": 2.11279296875,
+      "rewards/accuracies": 0.5078125,
+      "rewards/chosen": 1.034423828125,
+      "rewards/margins": 0.0912933349609375,
+      "rewards/rejected": 0.943359375,
+      "step": 132
+    },
+    {
+      "epoch": 4.928074245939675,
+      "grad_norm": 29.39356803894043,
+      "learning_rate": 2.34375e-09,
+      "logits/chosen": 0.33624267578125,
+      "logits/rejected": 0.29620361328125,
+      "logps/chosen": -161.6875,
+      "logps/rejected": -150.09375,
+      "loss": 2.8303,
+      "nll_loss": 2.173828125,
+      "rewards/accuracies": 0.5234375,
+      "rewards/chosen": 1.076904296875,
+      "rewards/margins": 0.098663330078125,
+      "rewards/rejected": 0.978515625,
+      "step": 133
+    },
+    {
+      "epoch": 4.965197215777263,
+      "grad_norm": 27.902801513671875,
+      "learning_rate": 1.5625e-09,
+      "logits/chosen": 0.34344482421875,
+      "logits/rejected": 0.33367919921875,
+      "logps/chosen": -163.125,
+      "logps/rejected": -146.59375,
+      "loss": 2.8206,
+      "nll_loss": 2.16650390625,
+      "rewards/accuracies": 0.5703125,
+      "rewards/chosen": 1.05224609375,
+      "rewards/margins": 0.0961456298828125,
+      "rewards/rejected": 0.95556640625,
+      "step": 134
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 30.327899932861328,
+      "learning_rate": 7.8125e-10,
+      "logits/chosen": 0.3444661498069763,
+      "logits/rejected": 0.314453125,
+      "logps/chosen": -171.0,
+      "logps/rejected": -152.13333129882812,
+      "loss": 2.8311,
+      "nll_loss": 2.1864583492279053,
+      "rewards/accuracies": 0.5249999761581421,
+      "rewards/chosen": 1.09375,
+      "rewards/margins": 0.12301432341337204,
+      "rewards/rejected": 0.9703124761581421,
+      "step": 135
+    },
+    {
+      "epoch": 5.0,
+      "eval_logits/chosen": 0.35546875,
+      "eval_logits/rejected": 0.3216145932674408,
+      "eval_logps/chosen": -161.5,
+      "eval_logps/rejected": -141.3333282470703,
+      "eval_loss": 2.751953125,
+      "eval_nll_loss": 2.1106770038604736,
+      "eval_rewards/accuracies": 0.5807291865348816,
+      "eval_rewards/chosen": 1.0455728769302368,
+      "eval_rewards/margins": 0.1366984099149704,
+      "eval_rewards/rejected": 0.908203125,
+      "eval_runtime": 102.921,
+      "eval_samples_per_second": 3.731,
+      "eval_steps_per_second": 0.058,
+      "step": 135
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 135,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e7d337dc52bcee8c54a321fd740931cfc7e30649a7711d66b13408c4d97155dd
+size 8401

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

zero_to_fp32.py ADDED Viewed

	@@ -0,0 +1,760 @@

+#!/usr/bin/env python
+# Copyright (c) Microsoft Corporation.
+# SPDX-License-Identifier: Apache-2.0
+# DeepSpeed Team
+# This script extracts fp32 consolidated weights from a zero 1, 2 and 3 DeepSpeed checkpoints. It gets
+# copied into the top level checkpoint dir, so the user can easily do the conversion at any point in
+# the future. Once extracted, the weights don't require DeepSpeed and can be used in any
+# application.
+#
+# example:
+#   python zero_to_fp32.py . output_dir/
+#   or
+#   python zero_to_fp32.py . output_dir/ --safe_serialization
+import argparse
+import torch
+import glob
+import math
+import os
+import re
+import gc
+import json
+import numpy as np
+from tqdm import tqdm
+from collections import OrderedDict
+from dataclasses import dataclass
+# while this script doesn't use deepspeed to recover data, since the checkpoints are pickled with
+# DeepSpeed data structures it has to be available in the current python environment.
+from deepspeed.utils import logger
+from deepspeed.checkpoint.constants import (DS_VERSION, OPTIMIZER_STATE_DICT, SINGLE_PARTITION_OF_FP32_GROUPS,
+                                            FP32_FLAT_GROUPS, ZERO_STAGE, PARTITION_COUNT, PARAM_SHAPES, BUFFER_NAMES,
+                                            FROZEN_PARAM_SHAPES, FROZEN_PARAM_FRAGMENTS)
+@dataclass
+class zero_model_state:
+    buffers: dict()
+    param_shapes: dict()
+    shared_params: list
+    ds_version: int
+    frozen_param_shapes: dict()
+    frozen_param_fragments: dict()
+debug = 0
+# load to cpu
+device = torch.device('cpu')
+def atoi(text):
+    return int(text) if text.isdigit() else text
+def natural_keys(text):
+    '''
+    alist.sort(key=natural_keys) sorts in human order
+    http://nedbatchelder.com/blog/200712/human_sorting.html
+    (See Toothy's implementation in the comments)
+    '''
+    return [atoi(c) for c in re.split(r'(\d+)', text)]
+def get_model_state_file(checkpoint_dir, zero_stage):
+    if not os.path.isdir(checkpoint_dir):
+        raise FileNotFoundError(f"Directory '{checkpoint_dir}' doesn't exist")
+    # there should be only one file
+    if zero_stage <= 2:
+        file = os.path.join(checkpoint_dir, "mp_rank_00_model_states.pt")
+    elif zero_stage == 3:
+        file = os.path.join(checkpoint_dir, "zero_pp_rank_0_mp_rank_00_model_states.pt")
+    if not os.path.exists(file):
+        raise FileNotFoundError(f"can't find model states file at '{file}'")
+    return file
+def get_checkpoint_files(checkpoint_dir, glob_pattern):
+    # XXX: need to test that this simple glob rule works for multi-node setup too
+    ckpt_files = sorted(glob.glob(os.path.join(checkpoint_dir, glob_pattern)), key=natural_keys)
+    if len(ckpt_files) == 0:
+        raise FileNotFoundError(f"can't find {glob_pattern} files in directory '{checkpoint_dir}'")
+    return ckpt_files
+def get_optim_files(checkpoint_dir):
+    return get_checkpoint_files(checkpoint_dir, "*_optim_states.pt")
+def get_model_state_files(checkpoint_dir):
+    return get_checkpoint_files(checkpoint_dir, "*_model_states.pt")
+def parse_model_states(files):
+    zero_model_states = []
+    for file in files:
+        state_dict = torch.load(file, map_location=device, weights_only=False)
+        if BUFFER_NAMES not in state_dict:
+            raise ValueError(f"{file} is not a model state checkpoint")
+        buffer_names = state_dict[BUFFER_NAMES]
+        if debug:
+            print("Found buffers:", buffer_names)
+        # recover just the buffers while restoring them to fp32 if they were saved in fp16
+        buffers = {k: v.float() for k, v in state_dict["module"].items() if k in buffer_names}
+        param_shapes = state_dict[PARAM_SHAPES]
+        # collect parameters that are included in param_shapes
+        param_names = []
+        for s in param_shapes:
+            for name in s.keys():
+                param_names.append(name)
+        # update with frozen parameters
+        frozen_param_shapes = state_dict.get(FROZEN_PARAM_SHAPES, None)
+        if frozen_param_shapes is not None:
+            if debug:
+                print(f"Found frozen_param_shapes: {frozen_param_shapes}")
+            param_names += list(frozen_param_shapes.keys())
+        # handle shared params
+        shared_params = [[k, v] for k, v in state_dict["shared_params"].items()]
+        ds_version = state_dict.get(DS_VERSION, None)
+        frozen_param_fragments = state_dict.get(FROZEN_PARAM_FRAGMENTS, None)
+        z_model_state = zero_model_state(buffers=buffers,
+                                         param_shapes=param_shapes,
+                                         shared_params=shared_params,
+                                         ds_version=ds_version,
+                                         frozen_param_shapes=frozen_param_shapes,
+                                         frozen_param_fragments=frozen_param_fragments)
+        zero_model_states.append(z_model_state)
+    return zero_model_states
+def parse_optim_states(files, ds_checkpoint_dir):
+    total_files = len(files)
+    state_dicts = []
+    for f in tqdm(files, desc='Loading checkpoint shards'):
+        state_dict = torch.load(f, map_location=device, mmap=True, weights_only=False)
+        # immediately discard the potentially huge 2 optimizer states as we only care for fp32 master weights
+        # and also handle the case where it was already removed by another helper script
+        state_dict["optimizer_state_dict"].pop("optimizer_state_dict", None)
+        state_dicts.append(state_dict)
+    if ZERO_STAGE not in state_dicts[0][OPTIMIZER_STATE_DICT]:
+        raise ValueError(f"{files[0]} is not a zero checkpoint")
+    zero_stage = state_dicts[0][OPTIMIZER_STATE_DICT][ZERO_STAGE]
+    world_size = state_dicts[0][OPTIMIZER_STATE_DICT][PARTITION_COUNT]
+    # For ZeRO-2 each param group can have different partition_count as data parallelism for expert
+    # parameters can be different from data parallelism for non-expert parameters. So we can just
+    # use the max of the partition_count to get the dp world_size.
+    if type(world_size) is list:
+        world_size = max(world_size)
+    if world_size != total_files:
+        raise ValueError(
+            f"Expected {world_size} of '*_optim_states.pt' under '{ds_checkpoint_dir}' but found {total_files} files. "
+            "Possibly due to an overwrite of an old checkpoint, or a checkpoint didn't get saved by one or more processes."
+        )
+    # the groups are named differently in each stage
+    if zero_stage <= 2:
+        fp32_groups_key = SINGLE_PARTITION_OF_FP32_GROUPS
+    elif zero_stage == 3:
+        fp32_groups_key = FP32_FLAT_GROUPS
+    else:
+        raise ValueError(f"unknown zero stage {zero_stage}")
+    fp32_flat_groups = [state_dicts[i][OPTIMIZER_STATE_DICT][fp32_groups_key] for i in range(len(state_dicts))]
+    return zero_stage, world_size, fp32_flat_groups
+def _get_fp32_state_dict_from_zero_checkpoint(ds_checkpoint_dir, exclude_frozen_parameters):
+    """
+    Returns fp32 state_dict reconstructed from ds checkpoint
+    Args:
+        - ``ds_checkpoint_dir``: path to the deepspeed checkpoint folder (where the optimizer files are)
+    """
+    print(f"Processing zero checkpoint '{ds_checkpoint_dir}'")
+    optim_files = get_optim_files(ds_checkpoint_dir)
+    zero_stage, world_size, fp32_flat_groups = parse_optim_states(optim_files, ds_checkpoint_dir)
+    print(f"Detected checkpoint of type zero stage {zero_stage}, world_size: {world_size}")
+    model_files = get_model_state_files(ds_checkpoint_dir)
+    zero_model_states = parse_model_states(model_files)
+    print(f'Parsing checkpoint created by deepspeed=={zero_model_states[0].ds_version}')
+    if zero_stage <= 2:
+        return _get_fp32_state_dict_from_zero2_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                                          exclude_frozen_parameters)
+    elif zero_stage == 3:
+        return _get_fp32_state_dict_from_zero3_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                                          exclude_frozen_parameters)
+def _zero2_merge_frozen_params(state_dict, zero_model_states):
+    if zero_model_states[0].frozen_param_shapes is None or len(zero_model_states[0].frozen_param_shapes) == 0:
+        return
+    frozen_param_shapes = zero_model_states[0].frozen_param_shapes
+    frozen_param_fragments = zero_model_states[0].frozen_param_fragments
+    if debug:
+        num_elem = sum(s.numel() for s in frozen_param_shapes.values())
+        print(f'rank 0: {FROZEN_PARAM_SHAPES}.numel = {num_elem}')
+        wanted_params = len(frozen_param_shapes)
+        wanted_numel = sum(s.numel() for s in frozen_param_shapes.values())
+        avail_numel = sum([p.numel() for p in frozen_param_fragments.values()])
+        print(f'Frozen params: Have {avail_numel} numels to process.')
+        print(f'Frozen params: Need {wanted_numel} numels in {wanted_params} params')
+    total_params = 0
+    total_numel = 0
+    for name, shape in frozen_param_shapes.items():
+        total_params += 1
+        unpartitioned_numel = shape.numel()
+        total_numel += unpartitioned_numel
+        state_dict[name] = frozen_param_fragments[name]
+        if debug:
+            print(f"{name} full shape: {shape} unpartitioned numel {unpartitioned_numel} ")
+    print(f"Reconstructed Frozen fp32 state dict with {total_params} params {total_numel} elements")
+def _has_callable(obj, fn):
+    attr = getattr(obj, fn, None)
+    return callable(attr)
+def _zero2_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states):
+    param_shapes = zero_model_states[0].param_shapes
+    # Reconstruction protocol:
+    #
+    # XXX: document this
+    if debug:
+        for i in range(world_size):
+            for j in range(len(fp32_flat_groups[0])):
+                print(f"{FP32_FLAT_GROUPS}[{i}][{j}].shape={fp32_flat_groups[i][j].shape}")
+    # XXX: memory usage doubles here (zero2)
+    num_param_groups = len(fp32_flat_groups[0])
+    merged_single_partition_of_fp32_groups = []
+    for i in range(num_param_groups):
+        merged_partitions = [sd[i] for sd in fp32_flat_groups]
+        full_single_fp32_vector = torch.cat(merged_partitions, 0)
+        merged_single_partition_of_fp32_groups.append(full_single_fp32_vector)
+    avail_numel = sum(
+        [full_single_fp32_vector.numel() for full_single_fp32_vector in merged_single_partition_of_fp32_groups])
+    if debug:
+        wanted_params = sum([len(shapes) for shapes in param_shapes])
+        wanted_numel = sum([sum(shape.numel() for shape in shapes.values()) for shapes in param_shapes])
+        # not asserting if there is a mismatch due to possible padding
+        print(f"Have {avail_numel} numels to process.")
+        print(f"Need {wanted_numel} numels in {wanted_params} params.")
+    # params
+    # XXX: for huge models that can't fit into the host's RAM we will have to recode this to support
+    # out-of-core computing solution
+    total_numel = 0
+    total_params = 0
+    for shapes, full_single_fp32_vector in zip(param_shapes, merged_single_partition_of_fp32_groups):
+        offset = 0
+        avail_numel = full_single_fp32_vector.numel()
+        for name, shape in shapes.items():
+            unpartitioned_numel = shape.numel() if _has_callable(shape, 'numel') else math.prod(shape)
+            total_numel += unpartitioned_numel
+            total_params += 1
+            if debug:
+                print(f"{name} full shape: {shape} unpartitioned numel {unpartitioned_numel} ")
+            state_dict[name] = full_single_fp32_vector.narrow(0, offset, unpartitioned_numel).view(shape)
+            offset += unpartitioned_numel
+        # Z2 started to align to 2*world_size to improve nccl performance. Therefore both offset and
+        # avail_numel can differ by anywhere between 0..2*world_size. Due to two unrelated complex
+        # paddings performed in the code it's almost impossible to predict the exact numbers w/o the
+        # live optimizer object, so we are checking that the numbers are within the right range
+        align_to = 2 * world_size
+        def zero2_align(x):
+            return align_to * math.ceil(x / align_to)
+        if debug:
+            print(f"original offset={offset}, avail_numel={avail_numel}")
+        offset = zero2_align(offset)
+        avail_numel = zero2_align(avail_numel)
+        if debug:
+            print(f"aligned  offset={offset}, avail_numel={avail_numel}")
+        # Sanity check
+        if offset != avail_numel:
+            raise ValueError(f"consumed {offset} numels out of {avail_numel} - something is wrong")
+    print(f"Reconstructed fp32 state dict with {total_params} params {total_numel} elements")
+def _get_fp32_state_dict_from_zero2_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                               exclude_frozen_parameters):
+    state_dict = OrderedDict()
+    # buffers
+    buffers = zero_model_states[0].buffers
+    state_dict.update(buffers)
+    if debug:
+        print(f"added {len(buffers)} buffers")
+    if not exclude_frozen_parameters:
+        _zero2_merge_frozen_params(state_dict, zero_model_states)
+    _zero2_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states)
+    # recover shared parameters
+    for pair in zero_model_states[0].shared_params:
+        if pair[1] in state_dict:
+            state_dict[pair[0]] = state_dict[pair[1]]
+    return state_dict
+def zero3_partitioned_param_info(unpartitioned_numel, world_size):
+    remainder = unpartitioned_numel % world_size
+    padding_numel = (world_size - remainder) if remainder else 0
+    partitioned_numel = math.ceil(unpartitioned_numel / world_size)
+    return partitioned_numel, padding_numel
+def _zero3_merge_frozen_params(state_dict, world_size, zero_model_states):
+    if zero_model_states[0].frozen_param_shapes is None or len(zero_model_states[0].frozen_param_shapes) == 0:
+        return
+    if debug:
+        for i in range(world_size):
+            num_elem = sum(s.numel() for s in zero_model_states[i].frozen_param_fragments.values())
+            print(f'rank {i}: {FROZEN_PARAM_SHAPES}.numel = {num_elem}')
+        frozen_param_shapes = zero_model_states[0].frozen_param_shapes
+        wanted_params = len(frozen_param_shapes)
+        wanted_numel = sum(s.numel() for s in frozen_param_shapes.values())
+        avail_numel = sum([p.numel() for p in zero_model_states[0].frozen_param_fragments.values()]) * world_size
+        print(f'Frozen params: Have {avail_numel} numels to process.')
+        print(f'Frozen params: Need {wanted_numel} numels in {wanted_params} params')
+    total_params = 0
+    total_numel = 0
+    for name, shape in zero_model_states[0].frozen_param_shapes.items():
+        total_params += 1
+        unpartitioned_numel = shape.numel()
+        total_numel += unpartitioned_numel
+        param_frags = tuple(model_state.frozen_param_fragments[name] for model_state in zero_model_states)
+        state_dict[name] = torch.cat(param_frags, 0).narrow(0, 0, unpartitioned_numel).view(shape)
+        partitioned_numel, partitioned_padding_numel = zero3_partitioned_param_info(unpartitioned_numel, world_size)
+        if debug:
+            print(
+                f"Frozen params: {total_params} {name} full shape: {shape} partition0 numel={partitioned_numel} partitioned_padding_numel={partitioned_padding_numel}"
+            )
+    print(f"Reconstructed Frozen fp32 state dict with {total_params} params {total_numel} elements")
+class GatheredTensor:
+    """
+    A pseudo tensor that collects partitioned weights.
+    It is more memory efficient when there are multiple groups.
+    """
+    def __init__(self, flat_groups, flat_groups_offset, offset, partitioned_numel, shape):
+        self.flat_groups = flat_groups
+        self.flat_groups_offset = flat_groups_offset
+        self.offset = offset
+        self.partitioned_numel = partitioned_numel
+        self.shape = shape
+        self.dtype = self.flat_groups[0][0].dtype
+    def contiguous(self):
+        """
+        Merge partitioned weights from flat_groups into a single tensor.
+        """
+        end_idx = self.offset + self.partitioned_numel
+        world_size = len(self.flat_groups)
+        pad_flat_param_chunks = []
+        for rank_i in range(world_size):
+            # for each rank, we need to collect weights from related group/groups
+            flat_groups_at_rank_i = self.flat_groups[rank_i]
+            start_group_id = None
+            end_group_id = None
+            for group_id in range(len(self.flat_groups_offset)):
+                if self.flat_groups_offset[group_id] <= self.offset < self.flat_groups_offset[group_id + 1]:
+                    start_group_id = group_id
+                if self.flat_groups_offset[group_id] < end_idx <= self.flat_groups_offset[group_id + 1]:
+                    end_group_id = group_id
+                    break
+            # collect weights from related group/groups
+            for group_id in range(start_group_id, end_group_id + 1):
+                flat_tensor = flat_groups_at_rank_i[group_id]
+                start_offset = self.offset - self.flat_groups_offset[group_id]
+                end_offset = min(end_idx, self.flat_groups_offset[group_id + 1]) - self.flat_groups_offset[group_id]
+                pad_flat_param_chunks.append(flat_tensor[start_offset:end_offset])
+        # collect weights from all ranks
+        pad_flat_param = torch.cat(pad_flat_param_chunks, dim=0)
+        param = pad_flat_param[:self.shape.numel()].view(self.shape).contiguous()
+        return param
+def _zero3_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states):
+    param_shapes = zero_model_states[0].param_shapes
+    avail_numel = sum([flat_group.numel() for flat_group in fp32_flat_groups[0]]) * world_size
+    # Reconstruction protocol: For zero3 we need to zip the partitions together at boundary of each
+    # param, re-consolidating each param, while dealing with padding if any
+    # merge list of dicts, preserving order
+    param_shapes = {k: v for d in param_shapes for k, v in d.items()}
+    if debug:
+        for i in range(world_size):
+            print(f"{FP32_FLAT_GROUPS}[{i}].shape={fp32_flat_groups[i].shape}")
+        wanted_params = len(param_shapes)
+        wanted_numel = sum(shape.numel() for shape in param_shapes.values())
+        # not asserting if there is a mismatch due to possible padding
+        avail_numel = fp32_flat_groups[0].numel() * world_size
+        print(f"Trainable params: Have {avail_numel} numels to process.")
+        print(f"Trainable params: Need {wanted_numel} numels in {wanted_params} params.")
+    # params
+    # XXX: for huge models that can't fit into the host's RAM we will have to recode this to support
+    # out-of-core computing solution
+    offset = 0
+    total_numel = 0
+    total_params = 0
+    flat_groups_offset = [0] + list(np.cumsum([flat_tensor.numel() for flat_tensor in fp32_flat_groups[0]]))
+    for name, shape in tqdm(param_shapes.items(), desc='Gathering sharded weights'):
+        unpartitioned_numel = shape.numel()
+        total_numel += unpartitioned_numel
+        total_params += 1
+        partitioned_numel, partitioned_padding_numel = zero3_partitioned_param_info(unpartitioned_numel, world_size)
+        if debug:
+            print(
+                f"Trainable params: {total_params} {name} full shape: {shape} partition0 numel={partitioned_numel} partitioned_padding_numel={partitioned_padding_numel}"
+            )
+        # memory efficient tensor
+        tensor = GatheredTensor(fp32_flat_groups, flat_groups_offset, offset, partitioned_numel, shape)
+        state_dict[name] = tensor
+        offset += partitioned_numel
+    offset *= world_size
+    # Sanity check
+    if offset != avail_numel:
+        raise ValueError(f"consumed {offset} numels out of {avail_numel} - something is wrong")
+    print(f"Reconstructed Trainable fp32 state dict with {total_params} params {total_numel} elements")
+def _get_fp32_state_dict_from_zero3_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                               exclude_frozen_parameters):
+    state_dict = OrderedDict()
+    # buffers
+    buffers = zero_model_states[0].buffers
+    state_dict.update(buffers)
+    if debug:
+        print(f"added {len(buffers)} buffers")
+    if not exclude_frozen_parameters:
+        _zero3_merge_frozen_params(state_dict, world_size, zero_model_states)
+    _zero3_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states)
+    # recover shared parameters
+    for pair in zero_model_states[0].shared_params:
+        if pair[1] in state_dict:
+            state_dict[pair[0]] = state_dict[pair[1]]
+    return state_dict
+def to_torch_tensor(state_dict, return_empty_tensor=False):
+    """
+    Convert state_dict of GatheredTensor to torch tensor
+    """
+    torch_state_dict = {}
+    converted_tensors = {}
+    for name, tensor in state_dict.items():
+        tensor_id = id(tensor)
+        if tensor_id in converted_tensors:  # shared tensors
+            shared_tensor = torch_state_dict[converted_tensors[tensor_id]]
+            torch_state_dict[name] = shared_tensor
+        else:
+            converted_tensors[tensor_id] = name
+            if return_empty_tensor:
+                torch_state_dict[name] = torch.empty(tensor.shape, dtype=tensor.dtype)
+            else:
+                torch_state_dict[name] = tensor.contiguous()
+    return torch_state_dict
+def get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir,
+                                             tag=None,
+                                             exclude_frozen_parameters=False,
+                                             lazy_mode=False):
+    """
+    Convert ZeRO 2 or 3 checkpoint into a single fp32 consolidated state_dict that can be loaded with
+    ``load_state_dict()`` and used for training without DeepSpeed or shared with others, for example
+    via a model hub.
+    Args:
+        - ``checkpoint_dir``: path to the desired checkpoint folder
+        - ``tag``: checkpoint tag used as a unique identifier for checkpoint. If not provided will attempt to load tag in 'latest' file. e.g., ``global_step14``
+        - ``exclude_frozen_parameters``: exclude frozen parameters
+        - ``lazy_mode``: get state_dict in lazy mode. It returns a dict of pesduo tensor instead of torch tensor, which is more memory efficient.
+          Convert the pesduo tensor to torch tensor by ``.contiguous()``
+    Returns:
+        - pytorch ``state_dict``
+    A typical usage might be ::
+        from deepspeed.utils.zero_to_fp32 import get_fp32_state_dict_from_zero_checkpoint
+        # do the training and checkpoint saving
+        state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir) # already on cpu
+        model = model.cpu() # move to cpu
+        model.load_state_dict(state_dict)
+        # submit to model hub or save the model to share with others
+    In this example the ``model`` will no longer be usable in the deepspeed context of the same
+    application. i.e. you will need to re-initialize the deepspeed engine, since
+    ``model.load_state_dict(state_dict)`` will remove all the deepspeed magic from it.
+    If you want it all done for you, use ``load_state_dict_from_zero_checkpoint`` instead.
+    Note: the above usage may not work if your application doesn't have sufficient free CPU memory.
+    You may need to use the offline approach using the ``zero_to_fp32.py`` script that is saved with
+    the checkpoint. Or you can load state_dict in lazy mode ::
+        from deepspeed.utils.zero_to_fp32 import get_fp32_state_dict_from_zero_checkpoint
+        state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir, lazy_mode=True) # not on cpu
+        for name, lazy_tensor in state_dict.item():
+            tensor = lazy_tensor.contiguous()  # to cpu
+            print(name, tensor)
+            # del tensor to release memory if it no longer in use
+    """
+    if tag is None:
+        latest_path = os.path.join(checkpoint_dir, 'latest')
+        if os.path.isfile(latest_path):
+            with open(latest_path, 'r') as fd:
+                tag = fd.read().strip()
+        else:
+            raise ValueError(f"Unable to find 'latest' file at {latest_path}")
+    ds_checkpoint_dir = os.path.join(checkpoint_dir, tag)
+    if not os.path.isdir(ds_checkpoint_dir):
+        raise FileNotFoundError(f"Directory '{ds_checkpoint_dir}' doesn't exist")
+    state_dict = _get_fp32_state_dict_from_zero_checkpoint(ds_checkpoint_dir, exclude_frozen_parameters)
+    if lazy_mode:
+        return state_dict
+    else:
+        return to_torch_tensor(state_dict)
+def convert_zero_checkpoint_to_fp32_state_dict(checkpoint_dir,
+                                               output_dir,
+                                               max_shard_size="5GB",
+                                               safe_serialization=False,
+                                               tag=None,
+                                               exclude_frozen_parameters=False):
+    """
+    Convert ZeRO 2 or 3 checkpoint into a single fp32 consolidated ``state_dict`` file that can be
+    loaded with ``torch.load(file)`` + ``load_state_dict()`` and used for training without DeepSpeed.
+    Args:
+        - ``checkpoint_dir``: path to the desired checkpoint folder. (one that contains the tag-folder, like ``global_step14``)
+        - ``output_dir``: directory to the pytorch fp32 state_dict output files
+        - ``max_shard_size``: the maximum size for a checkpoint before being sharded, default value is 5GB
+        - ``safe_serialization``:  whether to save the model using `safetensors` or the traditional PyTorch way (that uses `pickle`).
+        - ``tag``: checkpoint tag used as a unique identifier for checkpoint. If not provided will attempt to load tag in the file named ``latest`` in the checkpoint folder, e.g., ``global_step14``
+        - ``exclude_frozen_parameters``: exclude frozen parameters
+    """
+    # Dependency pre-check
+    if safe_serialization:
+        try:
+            from safetensors.torch import save_file
+        except ImportError:
+            print('If you want to use `safe_serialization`, please `pip install safetensors`')
+            raise
+    if max_shard_size is not None:
+        try:
+            from huggingface_hub import split_torch_state_dict_into_shards
+        except ImportError:
+            print('If you want to use `max_shard_size`, please `pip install huggingface_hub`')
+            raise
+    # Convert zero checkpoint to state_dict
+    state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir,
+                                                          tag,
+                                                          exclude_frozen_parameters,
+                                                          lazy_mode=True)
+    # Shard the model if it is too big.
+    weights_name = "model.safetensors" if safe_serialization else "pytorch_model.bin"
+    if max_shard_size is not None:
+        filename_pattern = weights_name.replace(".bin", "{suffix}.bin").replace(".safetensors", "{suffix}.safetensors")
+        # an memory-efficient approach for sharding
+        empty_state_dict = to_torch_tensor(state_dict, return_empty_tensor=True)
+        state_dict_split = split_torch_state_dict_into_shards(empty_state_dict,
+                                                              filename_pattern=filename_pattern,
+                                                              max_shard_size=max_shard_size)
+    else:
+        from collections import namedtuple
+        StateDictSplit = namedtuple("StateDictSplit", ["is_sharded", "filename_to_tensors"])
+        state_dict_split = StateDictSplit(is_sharded=False,
+                                          filename_to_tensors={weights_name: list(state_dict.keys())})
+    # Save the model by shard
+    os.makedirs(output_dir, exist_ok=True)
+    filename_to_tensors = state_dict_split.filename_to_tensors.items()
+    for shard_file, tensors in tqdm(filename_to_tensors, desc="Saving checkpoint shards"):
+        shard_state_dict = {tensor_name: state_dict[tensor_name] for tensor_name in tensors}
+        shard_state_dict = to_torch_tensor(shard_state_dict)
+        output_path = os.path.join(output_dir, shard_file)
+        if safe_serialization:
+            save_file(shard_state_dict, output_path, metadata={"format": "pt"})
+        else:
+            torch.save(shard_state_dict, output_path)
+        # release the memory of current shard
+        for tensor_name in list(shard_state_dict.keys()):
+            del state_dict[tensor_name]
+            del shard_state_dict[tensor_name]
+        del shard_state_dict
+        gc.collect()
+    # Save index if sharded
+    if state_dict_split.is_sharded:
+        index = {
+            "metadata": state_dict_split.metadata,
+            "weight_map": state_dict_split.tensor_to_filename,
+        }
+        save_index_file = "model.safetensors.index.json" if safe_serialization else "pytorch_model.bin.index.json"
+        save_index_file = os.path.join(output_dir, save_index_file)
+        with open(save_index_file, "w", encoding="utf-8") as f:
+            content = json.dumps(index, indent=2, sort_keys=True) + "\n"
+            f.write(content)
+def load_state_dict_from_zero_checkpoint(model, checkpoint_dir, tag=None):
+    """
+    1. Put the provided model to cpu
+    2. Convert ZeRO 2 or 3 checkpoint into a single fp32 consolidated ``state_dict``
+    3. Load it into the provided model
+    Args:
+        - ``model``: the model object to update
+        - ``checkpoint_dir``: path to the desired checkpoint folder. (one that contains the tag-folder, like ``global_step14``)
+        - ``tag``: checkpoint tag used as a unique identifier for checkpoint. If not provided will attempt to load tag in the file named ``latest`` in the checkpoint folder, e.g., ``global_step14``
+    Returns:
+        - ``model`: modified model
+    Make sure you have plenty of CPU memory available before you call this function. If you don't
+    have enough use the ``zero_to_fp32.py`` utility to do the conversion. You will find it
+    conveniently placed for you in the checkpoint folder.
+    A typical usage might be ::
+        from deepspeed.utils.zero_to_fp32 import load_state_dict_from_zero_checkpoint
+        model = load_state_dict_from_zero_checkpoint(trainer.model, checkpoint_dir)
+        # submit to model hub or save the model to share with others
+    Note, that once this was run, the ``model`` will no longer be usable in the deepspeed context
+    of the same application. i.e. you will need to re-initialize the deepspeed engine, since
+    ``model.load_state_dict(state_dict)`` will remove all the deepspeed magic from it.
+    """
+    logger.info("Extracting fp32 weights")
+    state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir, tag)
+    logger.info("Overwriting model with fp32 weights")
+    model = model.cpu()
+    model.load_state_dict(state_dict, strict=False)
+    return model
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument("checkpoint_dir",
+                        type=str,
+                        help="path to the desired checkpoint folder, e.g., path/checkpoint-12")
+    parser.add_argument("output_dir",
+                        type=str,
+                        help="directory to the pytorch fp32 state_dict output files"
+                        "(e.g. path/checkpoint-12-output/)")
+    parser.add_argument(
+        "--max_shard_size",
+        type=str,
+        default="5GB",
+        help="The maximum size for a checkpoint before being sharded. Checkpoints shard will then be each of size"
+        "lower than this size. If expressed as a string, needs to be digits followed by a unit (like `5MB`"
+        "We default it to 5GB in order for models to be able to run easily on free-tier google colab instances"
+        "without CPU OOM issues.")
+    parser.add_argument(
+        "--safe_serialization",
+        default=False,
+        action='store_true',
+        help="Whether to save the model using `safetensors` or the traditional PyTorch way (that uses `pickle`).")
+    parser.add_argument("-t",
+                        "--tag",
+                        type=str,
+                        default=None,
+                        help="checkpoint tag used as a unique identifier for checkpoint. e.g., global_step1")
+    parser.add_argument("--exclude_frozen_parameters", action='store_true', help="exclude frozen parameters")
+    parser.add_argument("-d", "--debug", action='store_true', help="enable debug")
+    args = parser.parse_args()
+    debug = args.debug
+    convert_zero_checkpoint_to_fp32_state_dict(args.checkpoint_dir,
+                                               args.output_dir,
+                                               max_shard_size=args.max_shard_size,
+                                               safe_serialization=args.safe_serialization,
+                                               tag=args.tag,
+                                               exclude_frozen_parameters=args.exclude_frozen_parameters)