Search


	Podcast:		Data Brew by Databricks
	Episode:		Reward Models \| Data Brew \| Episode 40
	Category:		Technology
	Duration:		00:39:58
	Publish Date:		2025-03-20 16:00:00
	Description:		In this episode, Brandon Cui, Research Scientist at MosaicML and Databricks, dives into cutting-edge advancements in AI model optimization, focusing on Reward Models and Reinforcement Learning from Human Feedback (RLHF). Highlights include: - How synthetic data and RLHF enable fine-tuning models to generate preferred outcomes. - Techniques like Policy Proximal Optimization (PPO) and Direct Preference Optimization (DPO) for enhancing response quality. - The role of reward models in improving coding, math, reasoning, and other NLP tasks. Connect with Brandon Cui: https://www.linkedin.com/in/bcui19/
	Total Play:		0