kangdawei
/

MMR-DR_GRPO-lambda-0.8

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions

MMR-DR_GRPO-lambda-0.8

3.75 GB

1 contributor

History: 8 commits

kangdawei's picture

End of training

87f6dab verified 2 months ago