[2311.12908] Diffusion Model Alignment Using Direct Preference Optimization - discu.eu

Reddit

"Diffusion Model Alignment Using Direct Preference Optimization (DPO)", Wallace et al 2023 {Salesforce} https://arxiv.org/abs/2311.12908#salesforce 2 comments 30/11/2023 reinforcementlearning

Linking pages

Multimodal LM roundup: Unified IO 2, inputs and outputs, Gemini, LLaVA-RLHF, and RLHF questions https://www.interconnects.ai/p/multimodal-rlhf 0 comments

Related searches:

Search whole site: site:arxiv.org

Search title: [2311.12908] Diffusion Model Alignment Using Direct Preference Optimization

See how to search.

Submit link to: