de schamphelaere

ceselder

darklord1611's profile picture

invi-bhagyesh's profile picture

Pranavz's profile picture

AI & ML interests

None yet

Recent Activity

updated a dataset 6 days ago

ceselder/qwen3-8b-nla-L24-finefineweb-100k

updated a model 6 days ago

ceselder/nanonla-l24-av-qwen3-8b

published a model 6 days ago

ceselder/nanonla-l24-av-qwen3-8b

View all activity

Organizations

ceselder 's collections 8

Building Better Activation Oracles

Models and Datasets from Building Better Activation Oracles

ceselder/qwen3-8b-ao-v3-adam-baseline

Text Generation • Updated 23 days ago • 34
ceselder/qwen3-8b-ao-v3-abl1-sonnet-data

Text Generation • Updated 23 days ago • 79
ceselder/qwen3-8b-ao-v3-abl2b-layer22

Text Generation • Updated 23 days ago • 37
ceselder/qwen3-8b-ao-v3-abl2c-multilayer

Text Generation • Updated 23 days ago • 32

LoRAcle OOD eval models

OOD model organisms for LoRAcle emergent-behavior eval — 4 Betley EM LoRAs + Cloud subliminal owl + EM training data.

ceselder/qwen3-14b-em-risky_financial

Updated Apr 18 • 4
ceselder/qwen3-14b-em-bad_medical

Updated Apr 18 • 5
ceselder/qwen3-14b-em-insecure

Updated Apr 18 • 4
ceselder/qwen3-14b-em-evil_numbers

Updated Apr 18 • 7

CoT Oracle Paper Ablations And Baselines

All models used for my LessWrong post. Generally recommended to use latest adam oracle, or the checkpoint confusingly labelled "no DPO"

ceselder/adam-reupload-qwen3-8b-latentqa-cls-past-lens

Text Generation • Updated Mar 30 • 42
ceselder/adam-reupload-qwen3-8b-full-mix-synthetic-qa-v3-replace-lqa

Text Generation • Updated Mar 30 • 2
ceselder/cot-oracle-paper-ablation-adam-recipe-1layer

Text Generation • Updated Mar 30 • 1
ceselder/cot-oracle-paper-ablation-ours-1layer

Text Generation • Updated Mar 30 • 2

CoT Oracle Training Data

Training datasets for the CoT Trajectory Oracle. Includes CoT corpora and QA datasets used for oracle fine-tuning.

ceselder/cot-oracle-corpus-v5

Viewer • Updated Feb 23 • 40.5k • 369
ceselder/cot-oracle-cotqa

Viewer • Updated Feb 23 • 10.5k • 50

LoRAcle — training data + eval

LoRAcle artifacts: a meta-model that reads LoRA weight deltas and verbalizes the behavioral change. Training data + OOD eval sub-collection.

LoRAcle OOD eval models

Collection

OOD model organisms for LoRAcle emergent-behavior eval — 4 Betley EM LoRAs + Cloud subliminal owl + EM training data. • 13 items • Updated Apr 19
ceselder/loracle-pretrain-mix

Viewer • Updated Apr 24 • 50.6k • 85
ceselder/loracle-ia-RL

Viewer • Updated Apr 25 • 473 • 17
ceselder/loracle-ia-warmstart

Viewer • Updated Apr 25 • 2.08k • 52

Loracle: weight-reading model interpretability

Loracles + direction tokens for AuditBench, IA, OOD evals.

ceselder/loracle-k16-realdpo

Updated Apr 15
ceselder/loracle-k16-dpoready-sft

Updated Apr 14
ceselder/loracle-k16-pruned-15k-sft

Updated Apr 14
ceselder/loracle-k16-pruned-sft

Updated Apr 14

loracle

LoRA Oracles: detect hidden behaviors from weight geometry. Training data for loracle models.

ceselder/loracle-training-rollouts

Viewer • Updated Mar 22 • 634k • 355
ceselder/loracle-onpolicy-rollouts

Viewer • Updated Mar 22 • 147k • 57
ceselder/loracle-loraqa

Viewer • Updated Mar 22 • 49.9k • 33

CoT Oracle Evals

Eval datasets for the CoT Trajectory Oracle — detecting unfaithful chain-of-thought reasoning via activation trajectories.

ceselder/cot-oracle-eval-decorative-cot

Viewer • Updated Feb 24 • 56 • 16
ceselder/cot-oracle-eval-rot13-reconstruction

Viewer • Updated Feb 24 • 100 • 6
ceselder/cot-oracle-truthfulqa-hint-admission-unverbalized

Viewer • Updated Feb 26 • 11k • 47
ceselder/cot-oracle-truthfulqa-hint-admission-verbalized

Viewer • Updated Feb 26 • 4.38k • 49

Building Better Activation Oracles

Models and Datasets from Building Better Activation Oracles

ceselder/qwen3-8b-ao-v3-adam-baseline

Text Generation • Updated 23 days ago • 34
ceselder/qwen3-8b-ao-v3-abl1-sonnet-data

Text Generation • Updated 23 days ago • 79
ceselder/qwen3-8b-ao-v3-abl2b-layer22

Text Generation • Updated 23 days ago • 37
ceselder/qwen3-8b-ao-v3-abl2c-multilayer

Text Generation • Updated 23 days ago • 32

LoRAcle — training data + eval

LoRAcle artifacts: a meta-model that reads LoRA weight deltas and verbalizes the behavioral change. Training data + OOD eval sub-collection.

LoRAcle OOD eval models

Collection

OOD model organisms for LoRAcle emergent-behavior eval — 4 Betley EM LoRAs + Cloud subliminal owl + EM training data. • 13 items • Updated Apr 19
ceselder/loracle-pretrain-mix

Viewer • Updated Apr 24 • 50.6k • 85
ceselder/loracle-ia-RL

Viewer • Updated Apr 25 • 473 • 17
ceselder/loracle-ia-warmstart

Viewer • Updated Apr 25 • 2.08k • 52

LoRAcle OOD eval models

OOD model organisms for LoRAcle emergent-behavior eval — 4 Betley EM LoRAs + Cloud subliminal owl + EM training data.

ceselder/qwen3-14b-em-risky_financial

Updated Apr 18 • 4
ceselder/qwen3-14b-em-bad_medical

Updated Apr 18 • 5
ceselder/qwen3-14b-em-insecure

Updated Apr 18 • 4
ceselder/qwen3-14b-em-evil_numbers

Updated Apr 18 • 7

Loracle: weight-reading model interpretability

Loracles + direction tokens for AuditBench, IA, OOD evals.

ceselder/loracle-k16-realdpo

Updated Apr 15
ceselder/loracle-k16-dpoready-sft

Updated Apr 14
ceselder/loracle-k16-pruned-15k-sft

Updated Apr 14
ceselder/loracle-k16-pruned-sft

Updated Apr 14

CoT Oracle Paper Ablations And Baselines

All models used for my LessWrong post. Generally recommended to use latest adam oracle, or the checkpoint confusingly labelled "no DPO"

ceselder/adam-reupload-qwen3-8b-latentqa-cls-past-lens

Text Generation • Updated Mar 30 • 42
ceselder/adam-reupload-qwen3-8b-full-mix-synthetic-qa-v3-replace-lqa

Text Generation • Updated Mar 30 • 2
ceselder/cot-oracle-paper-ablation-adam-recipe-1layer

Text Generation • Updated Mar 30 • 1
ceselder/cot-oracle-paper-ablation-ours-1layer

Text Generation • Updated Mar 30 • 2

loracle

LoRA Oracles: detect hidden behaviors from weight geometry. Training data for loracle models.

ceselder/loracle-training-rollouts

Viewer • Updated Mar 22 • 634k • 355
ceselder/loracle-onpolicy-rollouts

Viewer • Updated Mar 22 • 147k • 57
ceselder/loracle-loraqa

Viewer • Updated Mar 22 • 49.9k • 33

CoT Oracle Training Data

Training datasets for the CoT Trajectory Oracle. Includes CoT corpora and QA datasets used for oracle fine-tuning.

ceselder/cot-oracle-corpus-v5

Viewer • Updated Feb 23 • 40.5k • 369
ceselder/cot-oracle-cotqa

Viewer • Updated Feb 23 • 10.5k • 50

CoT Oracle Evals

Eval datasets for the CoT Trajectory Oracle — detecting unfaithful chain-of-thought reasoning via activation trajectories.

ceselder/cot-oracle-eval-decorative-cot

Viewer • Updated Feb 24 • 56 • 16
ceselder/cot-oracle-eval-rot13-reconstruction

Viewer • Updated Feb 24 • 100 • 6
ceselder/cot-oracle-truthfulqa-hint-admission-unverbalized

Viewer • Updated Feb 26 • 11k • 47
ceselder/cot-oracle-truthfulqa-hint-admission-verbalized

Viewer • Updated Feb 26 • 4.38k • 49