In a Training Loop 🔄

4 15 45

David Andrews PRO

Broyojo

https://broyojo.com

AI & ML interests

Tranformer models, diffusion models, reinforcement learning, AI accelerators, computer architecture, VSLI

Recent Activity

updated a model 17 days ago

HumorR1/policy-e3-dpo-no-thinking

published a model 17 days ago

HumorR1/policy-e3-dpo-no-thinking

updated a model 17 days ago

HumorR1/policy-e2b-grpo-thinking

View all activity

Organizations

updated a model 17 days ago

HumorR1/policy-e3-dpo-no-thinking

Updated 17 days ago • 14

published a model 17 days ago

HumorR1/policy-e3-dpo-no-thinking

Updated 17 days ago • 14

updated 2 models 17 days ago

HumorR1/policy-e2b-grpo-thinking

Updated 17 days ago • 12

HumorR1/policy-e2a-grpo-no-thinking

Updated 17 days ago • 13

published 2 models 17 days ago

HumorR1/policy-e2b-grpo-thinking

Updated 17 days ago • 12

HumorR1/policy-e2a-grpo-no-thinking

Updated 17 days ago • 13

updated 2 models 17 days ago

HumorR1/policy-e1a-sft-no-thinking

Updated 17 days ago • 14

HumorR1/policy-e1b-sft-thinking

Image-Text-to-Text • 2B • Updated 17 days ago • 17

published 2 models 17 days ago

HumorR1/policy-e1b-sft-thinking

Image-Text-to-Text • 2B • Updated 17 days ago • 17

HumorR1/policy-e1a-sft-no-thinking

Updated 17 days ago • 14

updated a model 18 days ago

HumorR1/rm-qwen25vl-3b-nodesc

Updated 18 days ago

published a model 18 days ago

HumorR1/rm-qwen25vl-3b-nodesc

Updated 18 days ago

updated a model 18 days ago

HumorR1/policy-qwen3vl-2b-grpo-newyorker

Updated 18 days ago • 55

published a model 18 days ago

HumorR1/policy-qwen3vl-2b-grpo-newyorker

Updated 18 days ago • 55

updated a model 18 days ago

HumorR1/rm-qwen25vl-3b-20k

Updated 18 days ago

published a model 18 days ago

HumorR1/rm-qwen25vl-3b-20k

Updated 18 days ago

liked a dataset 20 days ago

yguooo/newyorker_caption_ranking

Viewer • Updated Sep 15, 2024 • 2.18M • 1.21k • 6

upvoted 3 papers about 1 month ago

TREX: Automating LLM Fine-tuning via Agent-Driven Tree-based Exploration

Paper • 2604.14116 • Published Apr 15 • 13

From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

Paper • 2604.14142 • Published Apr 15 • 29

Memory Transfer Learning: How Memories are Transferred Across Domains in Coding Agents

Paper • 2604.14004 • Published Apr 15 • 30

David Andrews PRO

AI & ML interests

Recent Activity

Organizations

Broyojo's activity