Qwen3-8B-GRPO / README.md

jadohu

Update README.md

6a983e9 verified 4 days ago

preview code

raw

history blame contribute delete

164 Bytes

metadata

license: apache-2.0
datasets:
  - agentica-org/DeepScaleR-Preview-Dataset
language:
  - en
base_model:
  - Qwen/Qwen3-8B-Base
pipeline_tag: reinforcement-learning