Preference Optimization - a lv12 Collection

lv12 's Collections

Agent Based Modeling

Representation Learning

Preference Optimization

Information Retrieval

Preference Optimization

updated Dec 31, 2024

A Roadmap to Pluralistic Alignment

Paper • 2402.05070 • Published Feb 7, 2024
Self-Rewarding Language Models

Paper • 2401.10020 • Published Jan 18, 2024 • 153
SakanaAI/DiscoPOP-zephyr-7b-gemma

Text Generation • 9B • Updated Jun 13, 2024 • 24 • 36