Zhizhou Sha's picture

1 4

Zhizhou Sha

JameSand

·

AI & ML interests

None yet

Recent Activity

updated a model 3 days ago

JameSand/llama-adamw-lr1e-6-20260110_015014-global_step_200

published a model 3 days ago

JameSand/llama-adamw-lr1e-6-20260110_015014-global_step_200

updated a model 3 days ago

JameSand/llama-sgd-lr1e-2-20260110_020449-global_step_200

View all activity

Organizations

JameSand 's models 12

JameSand/llama-adamw-lr1e-6-20260110_015014-global_step_200

4B • Updated 3 days ago • 8

JameSand/llama-sgd-lr1e-2-20260110_020449-global_step_200

4B • Updated 3 days ago • 8

JameSand/llama-muon-muonlr1e-4-spectral_norm-muonadamlr1e-6-20260110_005142-global_step_200

4B • Updated 3 days ago • 7

JameSand/Llama-3.2-3B-Instruct-muon-2e-2-muonadamlr1e-6-muonadjustlrNone-iter_0000200

Text Generation • 3B • Updated 12 days ago • 10

JameSand/Llama-3.2-3B-Instruct-muon-2e-2-muonadamlr1e-6-muonadjustlrrms_norm-iter_0000200

Text Generation • 3B • Updated 12 days ago • 10

JameSand/Llama-BF16-math-step200

4B • Updated Nov 16, 2025 • 1

JameSand/Llama-FP16-math-step200

4B • Updated Nov 16, 2025 • 1

JameSand/Llama-FP32-math-step200

4B • Updated Nov 13, 2025 • 1

JameSand/qwen2.5_0.5b_pissa32_lr3e_5_step100_merged

0.5B • Updated Oct 3, 2025 • 1

JameSand/qwen2.5_0.5b_pissa32_lr3e_5_step100_base_and_lora_adapter

0.6B • Updated Oct 3, 2025 • 1

JameSand/qwen2.5_0.5b_lora32_lr3e_5_step100_merged

0.5B • Updated Oct 3, 2025 • 4

JameSand/qwen2.5_0.5b_lora32_lr3e_5_step100_base_and_lora_adapter

0.6B • Updated Oct 3, 2025 • 1