5 15 13

LIU Shih-yang

sliuau

AI & ML interests

None yet

Recent Activity

upvoted a paper 10 days ago

Quantile Rendering: Efficiently Embedding High-dimensional Feature on 3D Gaussian Splatting

liked a Space 10 days ago

dylan-marimo-io/Reward-Policy-Intuition

upvoted a paper 10 days ago

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

View all activity

Organizations

upvoted a paper 10 days ago

Quantile Rendering: Efficiently Embedding High-dimensional Feature on 3D Gaussian Splatting

Paper • 2512.20927 • Published Dec 24, 2025 • 16

liked a Space 10 days ago

Reward Policy Intuition

🍃

GRPO vs GDPO: Understanding Multi-Reward Policy Optimization

upvoted a paper 10 days ago

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

Paper • 2601.09708 • Published 11 days ago • 50

authored a paper 16 days ago

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

Paper • 2601.05242 • Published 17 days ago • 205

upvoted 2 papers 16 days ago

TiDAR: Think in Diffusion, Talk in Autoregression

Paper • 2511.08923 • Published Nov 12, 2025 • 124

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

Paper • 2601.05242 • Published 17 days ago • 205

submitted a paper to Daily Papers 16 days ago

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

Paper • 2601.05242 • Published 17 days ago • 205

upvoted a paper about 1 month ago

4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

Paper • 2512.17012 • Published Dec 18, 2025 • 45

liked a dataset about 1 month ago

allenai/Dolci-RL-Zero-Math-7B

Viewer • Updated 20 days ago • 13.3k • 512 • 10

liked 2 models about 1 month ago

Qwen/Qwen3-4B-Instruct-2507

Text Generation • 4B • Updated Sep 17, 2025 • 2.95M • • 662

EssentialAI/rnj-1-instruct

Text Generation • 8B • Updated Dec 24, 2025 • 4.11k • • 300

upvoted 2 papers about 2 months ago

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

Paper • 2511.21689 • Published Nov 26, 2025 • 120

Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models

Paper • 2511.18890 • Published Nov 24, 2025 • 34

liked a model about 2 months ago

mistralai/Ministral-3-3B-Reasoning-2512

4B • Updated 10 days ago • 23.3k • 92

New activity in allenai/Olmo-3-7B-Think 2 months ago

Endless reasoning loop when serving the model with vLLM

#2 opened 2 months ago by

sliuau

liked a model 2 months ago

allenai/Olmo-3-7B-Think

Text Generation • 528k • Updated 20 days ago • 18.5k • • 83

published a dataset 3 months ago

sliuau/DeepScaleR-Preview-Dataset-verl-format

Viewer • Updated Nov 3, 2025 • 40.8k • 42

updated a dataset 3 months ago

sliuau/DeepScaleR-Preview-Dataset-verl-format

Viewer • Updated Nov 3, 2025 • 40.8k • 42

upvoted a paper 3 months ago

DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning

Paper • 2510.15110 • Published Oct 16, 2025 • 16

updated a model 3 months ago

nvidia/DLER-R1-7B-Research

8B • Updated Oct 25, 2025 • 18.4k • 15

LIU Shih-yang

AI & ML interests

Recent Activity

Organizations

sliuau's activity

Reward Policy Intuition

Endless reasoning loop when serving the model with vLLM