LLM Pretraining - a QPHutu Collection

QPHutu 's Collections

LLM Pretraining

Pipeline Parallelism

LLM Pretraining

updated May 27, 2025

MiniMax-01: Scaling Foundation Models with Lightning Attention

Paper • 2501.08313 • Published Jan 14, 2025 • 304
Parallel Scaling Law for Language Models

Paper • 2505.10475 • Published May 15, 2025 • 83
Qwen3 Technical Report

Paper • 2505.09388 • Published May 14, 2025 • 341