🤝 Open to Collab

Jiayu (Mila) Wang

MilaWang

·

http://jiayuww.github.io

AI & ML interests

Large Language Model, Multimodal Large Language Model, Agentic System, Reasoning, Efficiency

Organizations

Collections 5

View 5 collections

Papers 8

arxiv:2602.19672

arxiv:2510.14240

arxiv:2510.13913

arxiv:2506.04723

models 76

MilaWang/grpo-fullparam-qwen2-5-math-7b-answeronly01-onpolicy-nokl-lr2e-6-t1-n8

MilaWang/grpo-fullparam-qwen3-4b-base-answeronly01-onpolicy-nokl-lr2e-6-t1-n8

MilaWang/lirpg-lora-intrinsic-fullparam-qwen2-5-math-7b-4000-olympiads-spk-a-rin05-rex10-lrin5e-6-rank16

MilaWang/lirpg-lora-intrinsic-fullparam-qwen2-5-math-7b-4000-40k-spk-h-rin05-rex10-lrin1e-5-rank16-handro

MilaWang/lirpg-lora-intrinsic-fullparam-qwen2-5-math-7b-4000-40k-spk-a-rin05-rex10-lrin5e-6-rank16-handro

MilaWang/lirpg-lora-intrinsic-fullparam-qwen2-5-math-7b-4000-40k-spk-a-rin05-rex10-lrin1e-5-rank16-handro

MilaWang/lirpg-lora-intrinsic-fullparam-qwen2-5-math-7b-4000-40k-spk-a-rin01-rex10-lrin1e-5-rank16-handro

MilaWang/lirpg-fullparam-olmo-3-7b-instruct-sciknoweval-biology-lr5e-6-rin05-rex10-lrin2e-5-rank16-zeroin

MilaWang/grpo-fullparam-qwen2-5-math-7b-4000-40k-spk-a01-onpolicy-nokl-lr2e-6

MilaWang/lirpg-lora-intrinsic-fullparam-qwen2-5-math-7b-4000-math-spk-a-rin05-rex10-lrin5e-6-rank16-handr

datasets 213

MilaWang/amc-test-23

Viewer • Updated Jan 12 • 40 • 32

MilaWang/math500-test

Viewer • Updated Jan 12 • 197 • 20

MilaWang/math500-validation

Viewer • Updated Jan 12 • 300 • 7

MilaWang/amc-validation-22

Viewer • Updated Jan 12 • 43 • 24

MilaWang/aime-test-24

Viewer • Updated Jan 12 • 30 • 11

MilaWang/amc-validation-2223

Viewer • Updated Jan 12 • 83 • 22

MilaWang/aime-validation-2223

Viewer • Updated Jan 12 • 60 • 16

MilaWang/qa_validation_qwen

Viewer • Updated Oct 29, 2025 • 700 • 152

MilaWang/qa_test_qwen

Viewer • Updated Oct 29, 2025 • 4.26k • 171

MilaWang/qa-dataset-qwen

Viewer • Updated Oct 29, 2025 • 14.2k • 13

View 213 datasets