Direct Preference Optimization (DPO) Loss

#382 · LLM · Medium

Problem

Implement the Direct Preference Optimization (DPO) loss function. Given pairs of preferred and dispreferred responses, compute the loss that directly optimizes the policy to match human preferences without training a separate reward model.

Solution

import numpy as np

def dpo_loss(
    pi_logprobs_chosen: np.ndarray,
    pi_logprobs_rejected: np.ndarray,
    ref_logprobs_chosen: np.ndarray,
    ref_logprobs_rejected: np.ndarray,
    beta: float = 0.1
) -> float:
    # Compute log-ratios
    log_ratio_chosen = pi_logprobs_chosen - ref_logprobs_chosen
    log_ratio_rejected = pi_logprobs_rejected - ref_logprobs_rejected

    # DPO loss: -E[log sigmoid(beta * (log_ratio_chosen - log_ratio_rejected))]
    logits = beta * (log_ratio_chosen - log_ratio_rejected)
    # Numerically stable log-sigmoid
    loss = -np.mean(np.where(
        logits >= 0,
        -np.log(1 + np.exp(-logits)),
        logits - np.log(1 + np.exp(logits))
    ))
    return float(loss)

def dpo_gradients(
    pi_logprobs_chosen: np.ndarray,
    pi_logprobs_rejected: np.ndarray,
    ref_logprobs_chosen: np.ndarray,
    ref_logprobs_rejected: np.ndarray,
    beta: float = 0.1
) -> dict:
    log_ratio_chosen = pi_logprobs_chosen - ref_logprobs_chosen
    log_ratio_rejected = pi_logprobs_rejected - ref_logprobs_rejected
    logits = beta * (log_ratio_chosen - log_ratio_rejected)
    sigmoid = 1.0 / (1.0 + np.exp(-logits))

    # Gradient: push up chosen, push down rejected
    grad_chosen = -beta * (1 - sigmoid) / len(logits)
    grad_rejected = beta * (1 - sigmoid) / len(logits)

    return {
        "loss": float(dpo_loss(pi_logprobs_chosen, pi_logprobs_rejected,
                               ref_logprobs_chosen, ref_logprobs_rejected, beta)),
        "grad_chosen": grad_chosen,
        "grad_rejected": grad_rejected,
        "mean_reward_margin": float(np.mean(log_ratio_chosen - log_ratio_rejected)),
    }

Explanation

Compute the log-probability ratio between the policy and reference model for both chosen and rejected responses.
The DPO loss is -log(sigmoid(beta * (log_ratio_chosen - log_ratio_rejected))), derived from the Bradley-Terry preference model.
Beta controls how far the policy can deviate from the reference model — higher beta means stronger KL penalty.
The gradient increases the log-probability of chosen responses and decreases it for rejected responses, weighted by how "surprised" the model is (1 - sigmoid).

Complexity

Time: O(n) where n is the number of preference pairs
Space: O(n) for intermediate computations

← #381 #383 →