From fb7a4c3028512c07d48563426d013a49a42fc383 Mon Sep 17 00:00:00 2001
From: Rasmus Widing <rasmus.widing@gmail.com>
Date: Tue, 9 Dec 2025 12:41:02 +0200
Subject: [PATCH 1/2] feat(gnn): implement MSE, CrossEntropy, and BCE loss
 functions

Implement the previously stubbed Loss struct with compute() and gradient()
methods for all three loss types:

- Mean Squared Error (MSE): Standard regression loss
- Cross Entropy: Multi-class classification with one-hot targets
- Binary Cross Entropy: Binary/multi-label classification

Implementation details:
- Numerical stability via epsilon clamping in log/division operations
- Proper shape validation with descriptive error messages
- Empty array handling
- Comprehensive test suite with 20 new tests including:
  - Basic loss computation tests
  - Gradient shape and direction verification
  - Numerical gradient checking
  - Edge cases (empty arrays, dimension mismatches)
  - Integration test with Optimizer

This enables the GNN training loop to actually compute losses and
backpropagate gradients, which was previously blocked by unimplemented!()
macros.
---
 crates/ruvector-gnn/src/lib.rs      |   4 +-
 crates/ruvector-gnn/src/training.rs | 363 +++++++++++++++++++++++++++-
 2 files changed, 360 insertions(+), 7 deletions(-)
diff --git a/crates/ruvector-gnn/src/lib.rs b/crates/ruvector-gnn/src/lib.rs
index 74323087..e100ffbc 100644
--- a/crates/ruvector-gnn/src/lib.rs
+++ b/crates/ruvector-gnn/src/lib.rs
@@ -70,8 +70,8 @@ pub use replay::{DistributionStats, ReplayBuffer, ReplayEntry};
 pub use scheduler::{LearningRateScheduler, SchedulerType};
 pub use search::{cosine_similarity, differentiable_search, hierarchical_forward};
 pub use training::{
-    info_nce_loss, local_contrastive_loss, sgd_step, OnlineConfig, Optimizer, OptimizerType,
-    TrainConfig,
+    info_nce_loss, local_contrastive_loss, sgd_step, Loss, LossType, OnlineConfig, Optimizer,
+    OptimizerType, TrainConfig,
 };
 
 #[cfg(all(not(target_arch = "wasm32"), feature = "mmap"))]
diff --git a/crates/ruvector-gnn/src/training.rs b/crates/ruvector-gnn/src/training.rs
index 5f037c1b..628a121c 100644
--- a/crates/ruvector-gnn/src/training.rs
+++ b/crates/ruvector-gnn/src/training.rs
@@ -227,26 +227,177 @@ pub enum LossType {
     BinaryCrossEntropy,
 }
 
-/// TODO: Implement loss functions
+/// Loss function implementations for neural network training.
+///
+/// Provides forward (loss computation) and backward (gradient computation) passes
+/// for common loss functions used in GNN training.
 pub struct Loss;
 
 impl Loss {
-    /// TODO: Compute loss
+    /// Small epsilon value for numerical stability in logarithms and divisions.
+    const EPS: f32 = 1e-7;
+
+    /// Compute the loss value between predictions and targets.
+    ///
+    /// # Arguments
+    /// * `loss_type` - The type of loss function to use
+    /// * `predictions` - Model predictions as a 2D array
+    /// * `targets` - Ground truth targets as a 2D array (same shape as predictions)
+    ///
+    /// # Returns
+    /// * `Ok(f32)` - The computed scalar loss value
+    /// * `Err(GnnError)` - If shapes don't match or computation fails
+    ///
+    /// # Example
+    /// ```
+    /// use ndarray::Array2;
+    /// use ruvector_gnn::training::{Loss, LossType};
+    ///
+    /// let predictions = Array2::from_shape_vec((2, 2), vec![0.9, 0.1, 0.2, 0.8]).unwrap();
+    /// let targets = Array2::from_shape_vec((2, 2), vec![1.0, 0.0, 0.0, 1.0]).unwrap();
+    /// let loss = Loss::compute(LossType::Mse, &predictions, &targets).unwrap();
+    /// assert!(loss >= 0.0);
+    /// ```
     pub fn compute(
         loss_type: LossType,
         predictions: &Array2<f32>,
         targets: &Array2<f32>,
     ) -> Result<f32> {
-        unimplemented!("TODO: Implement loss computation")
+        // Validate shapes match
+        if predictions.shape() != targets.shape() {
+            return Err(GnnError::dimension_mismatch(
+                format!("{:?}", predictions.shape()),
+                format!("{:?}", targets.shape()),
+            ));
+        }
+
+        if predictions.is_empty() {
+            return Err(GnnError::invalid_input("Cannot compute loss on empty arrays"));
+        }
+
+        match loss_type {
+            LossType::Mse => Self::mse_forward(predictions, targets),
+            LossType::CrossEntropy => Self::cross_entropy_forward(predictions, targets),
+            LossType::BinaryCrossEntropy => Self::bce_forward(predictions, targets),
+        }
     }
 
-    /// TODO: Compute loss gradient
+    /// Compute the gradient of the loss with respect to predictions.
+    ///
+    /// # Arguments
+    /// * `loss_type` - The type of loss function to use
+    /// * `predictions` - Model predictions as a 2D array
+    /// * `targets` - Ground truth targets as a 2D array (same shape as predictions)
+    ///
+    /// # Returns
+    /// * `Ok(Array2<f32>)` - Gradient array with same shape as predictions
+    /// * `Err(GnnError)` - If shapes don't match or computation fails
+    ///
+    /// # Example
+    /// ```
+    /// use ndarray::Array2;
+    /// use ruvector_gnn::training::{Loss, LossType};
+    ///
+    /// let predictions = Array2::from_shape_vec((2, 2), vec![0.9, 0.1, 0.2, 0.8]).unwrap();
+    /// let targets = Array2::from_shape_vec((2, 2), vec![1.0, 0.0, 0.0, 1.0]).unwrap();
+    /// let grad = Loss::gradient(LossType::Mse, &predictions, &targets).unwrap();
+    /// assert_eq!(grad.shape(), predictions.shape());
+    /// ```
     pub fn gradient(
         loss_type: LossType,
         predictions: &Array2<f32>,
         targets: &Array2<f32>,
     ) -> Result<Array2<f32>> {
-        unimplemented!("TODO: Implement loss gradient")
+        // Validate shapes match
+        if predictions.shape() != targets.shape() {
+            return Err(GnnError::dimension_mismatch(
+                format!("{:?}", predictions.shape()),
+                format!("{:?}", targets.shape()),
+            ));
+        }
+
+        if predictions.is_empty() {
+            return Err(GnnError::invalid_input(
+                "Cannot compute gradient on empty arrays",
+            ));
+        }
+
+        match loss_type {
+            LossType::Mse => Self::mse_backward(predictions, targets),
+            LossType::CrossEntropy => Self::cross_entropy_backward(predictions, targets),
+            LossType::BinaryCrossEntropy => Self::bce_backward(predictions, targets),
+        }
+    }
+
+    /// Mean Squared Error: MSE = mean((predictions - targets)^2)
+    fn mse_forward(predictions: &Array2<f32>, targets: &Array2<f32>) -> Result<f32> {
+        let diff = predictions - targets;
+        let squared = diff.mapv(|x| x * x);
+        Ok(squared.mean().unwrap_or(0.0))
+    }
+
+    /// MSE gradient: d(MSE)/d(pred) = 2 * (predictions - targets) / n
+    fn mse_backward(predictions: &Array2<f32>, targets: &Array2<f32>) -> Result<Array2<f32>> {
+        let n = predictions.len() as f32;
+        let diff = predictions - targets;
+        Ok(diff.mapv(|x| 2.0 * x / n))
+    }
+
+    /// Cross Entropy: CE = -mean(sum(targets * log(predictions), axis=1))
+    ///
+    /// Used for multi-class classification where targets are one-hot encoded
+    /// and predictions are softmax probabilities.
+    fn cross_entropy_forward(predictions: &Array2<f32>, targets: &Array2<f32>) -> Result<f32> {
+        let log_pred = predictions.mapv(|x| (x.max(Self::EPS)).ln());
+        let elementwise = targets * &log_pred;
+        let loss = -elementwise.sum() / predictions.nrows() as f32;
+        Ok(loss)
+    }
+
+    /// Cross Entropy gradient: d(CE)/d(pred) = -targets / predictions / n
+    fn cross_entropy_backward(
+        predictions: &Array2<f32>,
+        targets: &Array2<f32>,
+    ) -> Result<Array2<f32>> {
+        let n = predictions.nrows() as f32;
+        // Clamp predictions to avoid division by zero
+        let safe_pred = predictions.mapv(|x| x.max(Self::EPS));
+        let grad = targets / &safe_pred;
+        Ok(grad.mapv(|x| -x / n))
+    }
+
+    /// Binary Cross Entropy: BCE = -mean(targets * log(pred) + (1 - targets) * log(1 - pred))
+    ///
+    /// Used for binary classification or multi-label classification.
+    fn bce_forward(predictions: &Array2<f32>, targets: &Array2<f32>) -> Result<f32> {
+        let n = predictions.len() as f32;
+        let loss: f32 = predictions
+            .iter()
+            .zip(targets.iter())
+            .map(|(&p, &t)| {
+                // Clamp predictions to (eps, 1-eps) for numerical stability
+                let p_safe = p.clamp(Self::EPS, 1.0 - Self::EPS);
+                -(t * p_safe.ln() + (1.0 - t) * (1.0 - p_safe).ln())
+            })
+            .sum();
+        Ok(loss / n)
+    }
+
+    /// BCE gradient: d(BCE)/d(pred) = (-targets/pred + (1-targets)/(1-pred)) / n
+    fn bce_backward(predictions: &Array2<f32>, targets: &Array2<f32>) -> Result<Array2<f32>> {
+        let n = predictions.len() as f32;
+        let grad_vec: Vec<f32> = predictions
+            .iter()
+            .zip(targets.iter())
+            .map(|(&p, &t)| {
+                // Clamp predictions for numerical stability
+                let p_safe = p.clamp(Self::EPS, 1.0 - Self::EPS);
+                (-t / p_safe + (1.0 - t) / (1.0 - p_safe)) / n
+            })
+            .collect();
+
+        Array2::from_shape_vec(predictions.dim(), grad_vec)
+            .map_err(|e| GnnError::training(format!("Failed to reshape gradient: {}", e)))
     }
 }
 
@@ -935,4 +1086,206 @@ mod tests {
         assert!(params[[0, 0]].abs() < 0.5);
         assert!(params[[0, 1]].abs() < 0.5);
     }
+
+    // ==================== Loss Function Tests ====================
+
+    #[test]
+    fn test_mse_loss_zero_when_equal() {
+        let pred = Array2::from_shape_vec((2, 2), vec![1.0, 2.0, 3.0, 4.0]).unwrap();
+        let target = pred.clone();
+        let loss = Loss::compute(LossType::Mse, &pred, &target).unwrap();
+        assert!((loss - 0.0).abs() < 1e-6, "MSE should be 0 when pred == target");
+    }
+
+    #[test]
+    fn test_mse_loss_positive() {
+        let pred = Array2::from_shape_vec((2, 2), vec![1.0, 2.0, 3.0, 4.0]).unwrap();
+        let target = Array2::from_shape_vec((2, 2), vec![2.0, 3.0, 4.0, 5.0]).unwrap();
+        let loss = Loss::compute(LossType::Mse, &pred, &target).unwrap();
+        // Each element differs by 1, so squared diff = 1, mean = 1
+        assert!((loss - 1.0).abs() < 1e-6, "MSE should be 1.0, got {}", loss);
+    }
+
+    #[test]
+    fn test_mse_loss_varying_diffs() {
+        let pred = Array2::from_shape_vec((1, 4), vec![0.0, 0.0, 0.0, 0.0]).unwrap();
+        let target = Array2::from_shape_vec((1, 4), vec![1.0, 2.0, 3.0, 4.0]).unwrap();
+        let loss = Loss::compute(LossType::Mse, &pred, &target).unwrap();
+        // Squared diffs: 1, 4, 9, 16. Mean = 30/4 = 7.5
+        assert!((loss - 7.5).abs() < 1e-6, "MSE should be 7.5, got {}", loss);
+    }
+
+    #[test]
+    fn test_mse_gradient_shape() {
+        let pred = Array2::from_shape_vec((2, 3), vec![0.0; 6]).unwrap();
+        let target = Array2::from_shape_vec((2, 3), vec![1.0; 6]).unwrap();
+        let grad = Loss::gradient(LossType::Mse, &pred, &target).unwrap();
+        assert_eq!(grad.shape(), pred.shape());
+    }
+
+    #[test]
+    fn test_mse_gradient_direction() {
+        let pred = Array2::from_shape_vec((1, 2), vec![0.0, 2.0]).unwrap();
+        let target = Array2::from_shape_vec((1, 2), vec![1.0, 1.0]).unwrap();
+        let grad = Loss::gradient(LossType::Mse, &pred, &target).unwrap();
+        // grad = 2*(pred - target)/n = 2*(-1, 1)/2 = (-1, 1)
+        assert!(grad[[0, 0]] < 0.0, "Gradient should be negative when pred < target");
+        assert!(grad[[0, 1]] > 0.0, "Gradient should be positive when pred > target");
+    }
+
+    #[test]
+    fn test_mse_gradient_zero_when_equal() {
+        let pred = Array2::from_shape_vec((2, 2), vec![1.0, 2.0, 3.0, 4.0]).unwrap();
+        let target = pred.clone();
+        let grad = Loss::gradient(LossType::Mse, &pred, &target).unwrap();
+        assert!(grad.iter().all(|&x| x.abs() < 1e-6), "Gradient should be zero when pred == target");
+    }
+
+    #[test]
+    fn test_bce_loss_perfect_predictions() {
+        let pred = Array2::from_shape_vec((1, 2), vec![0.999, 0.001]).unwrap();
+        let target = Array2::from_shape_vec((1, 2), vec![1.0, 0.0]).unwrap();
+        let loss = Loss::compute(LossType::BinaryCrossEntropy, &pred, &target).unwrap();
+        // Near-perfect predictions should have low loss
+        assert!(loss < 0.1, "BCE should be low for good predictions, got {}", loss);
+    }
+
+    #[test]
+    fn test_bce_loss_bad_predictions() {
+        let pred = Array2::from_shape_vec((1, 2), vec![0.001, 0.999]).unwrap();
+        let target = Array2::from_shape_vec((1, 2), vec![1.0, 0.0]).unwrap();
+        let loss = Loss::compute(LossType::BinaryCrossEntropy, &pred, &target).unwrap();
+        // Bad predictions should have high loss
+        assert!(loss > 1.0, "BCE should be high for bad predictions, got {}", loss);
+    }
+
+    #[test]
+    fn test_bce_loss_numerical_stability() {
+        // Test with extreme values that could cause numerical issues
+        let pred = Array2::from_shape_vec((1, 2), vec![0.0, 1.0]).unwrap();
+        let target = Array2::from_shape_vec((1, 2), vec![0.0, 1.0]).unwrap();
+        let loss = Loss::compute(LossType::BinaryCrossEntropy, &pred, &target).unwrap();
+        assert!(loss.is_finite(), "BCE should be finite even with extreme values");
+    }
+
+    #[test]
+    fn test_bce_gradient_shape() {
+        let pred = Array2::from_shape_vec((3, 2), vec![0.5; 6]).unwrap();
+        let target = Array2::from_shape_vec((3, 2), vec![1.0, 0.0, 1.0, 0.0, 1.0, 0.0]).unwrap();
+        let grad = Loss::gradient(LossType::BinaryCrossEntropy, &pred, &target).unwrap();
+        assert_eq!(grad.shape(), pred.shape());
+    }
+
+    #[test]
+    fn test_bce_gradient_direction() {
+        let pred = Array2::from_shape_vec((1, 2), vec![0.3, 0.7]).unwrap();
+        let target = Array2::from_shape_vec((1, 2), vec![1.0, 0.0]).unwrap();
+        let grad = Loss::gradient(LossType::BinaryCrossEntropy, &pred, &target).unwrap();
+        // When target=1 and pred<1, gradient should push pred up (negative gradient)
+        assert!(grad[[0, 0]] < 0.0, "Gradient should be negative to increase pred towards 1");
+        // When target=0 and pred>0, gradient should push pred down (positive gradient)
+        assert!(grad[[0, 1]] > 0.0, "Gradient should be positive to decrease pred towards 0");
+    }
+
+    #[test]
+    fn test_cross_entropy_one_hot() {
+        // Softmax-like predictions (sum to 1 per row)
+        let pred = Array2::from_shape_vec((2, 3), vec![0.7, 0.2, 0.1, 0.1, 0.8, 0.1]).unwrap();
+        let target = Array2::from_shape_vec((2, 3), vec![1.0, 0.0, 0.0, 0.0, 1.0, 0.0]).unwrap();
+        let loss = Loss::compute(LossType::CrossEntropy, &pred, &target).unwrap();
+        // Good predictions should have reasonable loss
+        assert!(loss > 0.0 && loss < 1.0, "CE should be reasonable for good predictions, got {}", loss);
+    }
+
+    #[test]
+    fn test_cross_entropy_wrong_class() {
+        let pred = Array2::from_shape_vec((1, 3), vec![0.1, 0.1, 0.8]).unwrap();
+        let target = Array2::from_shape_vec((1, 3), vec![1.0, 0.0, 0.0]).unwrap();
+        let loss = Loss::compute(LossType::CrossEntropy, &pred, &target).unwrap();
+        // Predicting wrong class should have high loss
+        assert!(loss > 1.0, "CE should be high for wrong predictions, got {}", loss);
+    }
+
+    #[test]
+    fn test_cross_entropy_gradient_shape() {
+        let pred = Array2::from_shape_vec((2, 4), vec![0.25; 8]).unwrap();
+        let target = Array2::from_shape_vec((2, 4), vec![1.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0]).unwrap();
+        let grad = Loss::gradient(LossType::CrossEntropy, &pred, &target).unwrap();
+        assert_eq!(grad.shape(), pred.shape());
+    }
+
+    #[test]
+    fn test_loss_dimension_mismatch_error() {
+        let pred = Array2::from_shape_vec((2, 2), vec![1.0; 4]).unwrap();
+        let target = Array2::from_shape_vec((2, 3), vec![1.0; 6]).unwrap();
+
+        let result = Loss::compute(LossType::Mse, &pred, &target);
+        assert!(result.is_err(), "Should error on dimension mismatch");
+
+        let result = Loss::gradient(LossType::Mse, &pred, &target);
+        assert!(result.is_err(), "Gradient should error on dimension mismatch");
+    }
+
+    #[test]
+    fn test_loss_empty_array_error() {
+        let pred = Array2::from_shape_vec((0, 2), vec![]).unwrap();
+        let target = Array2::from_shape_vec((0, 2), vec![]).unwrap();
+
+        let result = Loss::compute(LossType::Mse, &pred, &target);
+        assert!(result.is_err(), "Should error on empty arrays");
+
+        let result = Loss::gradient(LossType::Mse, &pred, &target);
+        assert!(result.is_err(), "Gradient should error on empty arrays");
+    }
+
+    #[test]
+    fn test_loss_gradient_numerical_check() {
+        // Numerical gradient check for MSE
+        let pred = Array2::from_shape_vec((1, 2), vec![0.5, 0.8]).unwrap();
+        let target = Array2::from_shape_vec((1, 2), vec![1.0, 0.0]).unwrap();
+
+        let analytical_grad = Loss::gradient(LossType::Mse, &pred, &target).unwrap();
+
+        // Compute numerical gradient
+        let eps = 1e-5;
+        for i in 0..2 {
+            let mut pred_plus = pred.clone();
+            let mut pred_minus = pred.clone();
+            pred_plus[[0, i]] += eps;
+            pred_minus[[0, i]] -= eps;
+
+            let loss_plus = Loss::compute(LossType::Mse, &pred_plus, &target).unwrap();
+            let loss_minus = Loss::compute(LossType::Mse, &pred_minus, &target).unwrap();
+
+            let numerical_grad = (loss_plus - loss_minus) / (2.0 * eps);
+            let error = (analytical_grad[[0, i]] - numerical_grad).abs();
+
+            assert!(error < 1e-3, "Numerical gradient check failed: analytical={}, numerical={}",
+                    analytical_grad[[0, i]], numerical_grad);
+        }
+    }
+
+    #[test]
+    fn test_training_loop_integration() {
+        // Integration test: use Loss with Optimizer
+        let mut optimizer = Optimizer::new(OptimizerType::Sgd {
+            learning_rate: 0.1,
+            momentum: 0.0,
+        });
+
+        let target = Array2::from_shape_vec((1, 2), vec![1.0, 0.0]).unwrap();
+        let mut pred = Array2::from_shape_vec((1, 2), vec![0.5, 0.5]).unwrap();
+
+        let initial_loss = Loss::compute(LossType::Mse, &pred, &target).unwrap();
+
+        // Perform a few optimization steps
+        for _ in 0..10 {
+            let grad = Loss::gradient(LossType::Mse, &pred, &target).unwrap();
+            optimizer.step(&mut pred, &grad).unwrap();
+        }
+
+        let final_loss = Loss::compute(LossType::Mse, &pred, &target).unwrap();
+
+        assert!(final_loss < initial_loss, "Loss should decrease during training");
+    }
 }

From a5886b80332091f425c474abcdcd6043b7c09b6f Mon Sep 17 00:00:00 2001
From: Rasmus Widing <rasmus.widing@gmail.com>
Date: Tue, 9 Dec 2025 12:45:34 +0200
Subject: [PATCH 2/2] fix(gnn): add gradient clipping for numerical stability

Add MAX_GRAD constant (1e6) and clip gradients in BCE and CrossEntropy
backward passes to prevent gradient explosion with extreme prediction
values near 0 or 1.

Also add examples/loss_demo.rs for manual testing and demonstration
of loss function behavior.
---
 crates/ruvector-gnn/examples/loss_demo.rs | 121 ++++++++++++++++++++++
 crates/ruvector-gnn/src/training.rs       |  19 +++-
 2 files changed, 138 insertions(+), 2 deletions(-)
 create mode 100644 crates/ruvector-gnn/examples/loss_demo.rs

diff --git a/crates/ruvector-gnn/examples/loss_demo.rs b/crates/ruvector-gnn/examples/loss_demo.rs
new file mode 100644
index 00000000..1efe2877
--- /dev/null
+++ b/crates/ruvector-gnn/examples/loss_demo.rs
@@ -0,0 +1,121 @@
+//! Manual test/demo for Loss functions
+//!
+//! Run with: cargo run -p ruvector-gnn --example loss_demo
+
+use ndarray::Array2;
+use ruvector_gnn::training::{Loss, LossType, Optimizer, OptimizerType};
+
+fn main() {
+    println!("=== RuVector GNN Loss Functions Demo ===\n");
+
+    // 1. Basic MSE Loss
+    println!("1. MSE Loss Demo");
+    println!("   -----------------");
+    let predictions = Array2::from_shape_vec((2, 3), vec![0.1, 0.2, 0.7, 0.8, 0.1, 0.1]).unwrap();
+    let targets = Array2::from_shape_vec((2, 3), vec![0.0, 0.0, 1.0, 1.0, 0.0, 0.0]).unwrap();
+
+    let mse_loss = Loss::compute(LossType::Mse, &predictions, &targets).unwrap();
+    let mse_grad = Loss::gradient(LossType::Mse, &predictions, &targets).unwrap();
+
+    println!("   Predictions: {:?}", predictions.as_slice().unwrap());
+    println!("   Targets:     {:?}", targets.as_slice().unwrap());
+    println!("   MSE Loss:    {:.6}", mse_loss);
+    println!("   Gradient:    {:?}\n", mse_grad.as_slice().unwrap());
+
+    // 2. Binary Cross Entropy Loss
+    println!("2. Binary Cross Entropy Demo");
+    println!("   --------------------------");
+    let pred_bce = Array2::from_shape_vec((1, 4), vec![0.9, 0.1, 0.8, 0.3]).unwrap();
+    let target_bce = Array2::from_shape_vec((1, 4), vec![1.0, 0.0, 1.0, 0.0]).unwrap();
+
+    let bce_loss = Loss::compute(LossType::BinaryCrossEntropy, &pred_bce, &target_bce).unwrap();
+    let bce_grad = Loss::gradient(LossType::BinaryCrossEntropy, &pred_bce, &target_bce).unwrap();
+
+    println!("   Predictions: {:?}", pred_bce.as_slice().unwrap());
+    println!("   Targets:     {:?}", target_bce.as_slice().unwrap());
+    println!("   BCE Loss:    {:.6}", bce_loss);
+    println!("   Gradient:    {:?}\n", bce_grad.as_slice().unwrap());
+
+    // 3. Cross Entropy Loss (multi-class)
+    println!("3. Cross Entropy Demo (multi-class)");
+    println!("   ----------------------------------");
+    // Softmax-like predictions (each row sums to ~1)
+    let pred_ce = Array2::from_shape_vec((2, 3), vec![0.7, 0.2, 0.1, 0.1, 0.1, 0.8]).unwrap();
+    let target_ce = Array2::from_shape_vec((2, 3), vec![1.0, 0.0, 0.0, 0.0, 0.0, 1.0]).unwrap();
+
+    let ce_loss = Loss::compute(LossType::CrossEntropy, &pred_ce, &target_ce).unwrap();
+    let ce_grad = Loss::gradient(LossType::CrossEntropy, &pred_ce, &target_ce).unwrap();
+
+    println!("   Predictions (row 1): {:?}", &pred_ce.as_slice().unwrap()[0..3]);
+    println!("   Predictions (row 2): {:?}", &pred_ce.as_slice().unwrap()[3..6]);
+    println!("   Targets (one-hot):   [1,0,0] and [0,0,1]");
+    println!("   CE Loss:    {:.6}", ce_loss);
+    println!("   Gradient:   {:?}\n", ce_grad.as_slice().unwrap());
+
+    // 4. Training loop demo - minimize MSE
+    println!("4. Training Loop Demo (minimizing MSE)");
+    println!("   ------------------------------------");
+
+    let target = Array2::from_shape_vec((1, 4), vec![1.0, 0.0, 1.0, 0.0]).unwrap();
+    let mut pred = Array2::from_shape_vec((1, 4), vec![0.5, 0.5, 0.5, 0.5]).unwrap();
+
+    let mut optimizer = Optimizer::new(OptimizerType::Adam {
+        learning_rate: 0.1,
+        beta1: 0.9,
+        beta2: 0.999,
+        epsilon: 1e-8,
+    });
+
+    println!("   Target:     {:?}", target.as_slice().unwrap());
+    println!("   Initial:    {:?}", pred.as_slice().unwrap());
+
+    let initial_loss = Loss::compute(LossType::Mse, &pred, &target).unwrap();
+    println!("   Initial loss: {:.6}\n", initial_loss);
+
+    for epoch in 0..20 {
+        let loss = Loss::compute(LossType::Mse, &pred, &target).unwrap();
+        let grad = Loss::gradient(LossType::Mse, &pred, &target).unwrap();
+        optimizer.step(&mut pred, &grad).unwrap();
+
+        if epoch % 5 == 0 || epoch == 19 {
+            println!(
+                "   Epoch {:2}: loss={:.6}, pred={:?}",
+                epoch,
+                loss,
+                pred.as_slice()
+                    .unwrap()
+                    .iter()
+                    .map(|x| format!("{:.3}", x))
+                    .collect::<Vec<_>>()
+            );
+        }
+    }
+
+    let final_loss = Loss::compute(LossType::Mse, &pred, &target).unwrap();
+    println!("\n   Final loss: {:.6}", final_loss);
+    println!(
+        "   Improvement: {:.1}%",
+        (1.0 - final_loss / initial_loss) * 100.0
+    );
+
+    // 5. Numerical stability test
+    println!("\n5. Numerical Stability Test");
+    println!("   -------------------------");
+
+    // Test with extreme values
+    let extreme_pred = Array2::from_shape_vec((1, 2), vec![1e-10, 1.0 - 1e-10]).unwrap();
+    let extreme_target = Array2::from_shape_vec((1, 2), vec![1.0, 0.0]).unwrap();
+
+    let bce_extreme = Loss::compute(LossType::BinaryCrossEntropy, &extreme_pred, &extreme_target);
+    let ce_extreme = Loss::compute(LossType::CrossEntropy, &extreme_pred, &extreme_target);
+
+    println!("   Extreme predictions: [{:.2e}, {:.2e}]", 1e-10, 1.0 - 1e-10);
+    println!("   BCE result: {:?}", bce_extreme);
+    println!("   CE result:  {:?}", ce_extreme);
+
+    // Test gradient stability
+    let grad_extreme = Loss::gradient(LossType::BinaryCrossEntropy, &extreme_pred, &extreme_target);
+    println!("   BCE gradient: {:?}", grad_extreme);
+
+    println!("\n=== Demo Complete ===");
+}
diff --git a/crates/ruvector-gnn/src/training.rs b/crates/ruvector-gnn/src/training.rs
index 628a121c..38827e04 100644
--- a/crates/ruvector-gnn/src/training.rs
+++ b/crates/ruvector-gnn/src/training.rs
@@ -231,12 +231,20 @@ pub enum LossType {
 ///
 /// Provides forward (loss computation) and backward (gradient computation) passes
 /// for common loss functions used in GNN training.
+///
+/// # Numerical Stability
+///
+/// All loss functions use epsilon clamping and gradient clipping to prevent
+/// numerical instability with extreme prediction values (near 0 or 1).
 pub struct Loss;
 
 impl Loss {
     /// Small epsilon value for numerical stability in logarithms and divisions.
     const EPS: f32 = 1e-7;
 
+    /// Maximum absolute gradient value to prevent explosion.
+    const MAX_GRAD: f32 = 1e6;
+
     /// Compute the loss value between predictions and targets.
     ///
     /// # Arguments
@@ -355,6 +363,8 @@ impl Loss {
     }
 
     /// Cross Entropy gradient: d(CE)/d(pred) = -targets / predictions / n
+    ///
+    /// Gradients are clipped to [-MAX_GRAD, MAX_GRAD] to prevent explosion.
     fn cross_entropy_backward(
         predictions: &Array2<f32>,
         targets: &Array2<f32>,
@@ -363,7 +373,8 @@ impl Loss {
         // Clamp predictions to avoid division by zero
         let safe_pred = predictions.mapv(|x| x.max(Self::EPS));
         let grad = targets / &safe_pred;
-        Ok(grad.mapv(|x| -x / n))
+        // Apply gradient clipping
+        Ok(grad.mapv(|x| (-x / n).clamp(-Self::MAX_GRAD, Self::MAX_GRAD)))
     }
 
     /// Binary Cross Entropy: BCE = -mean(targets * log(pred) + (1 - targets) * log(1 - pred))
@@ -384,6 +395,8 @@ impl Loss {
     }
 
     /// BCE gradient: d(BCE)/d(pred) = (-targets/pred + (1-targets)/(1-pred)) / n
+    ///
+    /// Gradients are clipped to [-MAX_GRAD, MAX_GRAD] to prevent explosion.
     fn bce_backward(predictions: &Array2<f32>, targets: &Array2<f32>) -> Result<Array2<f32>> {
         let n = predictions.len() as f32;
         let grad_vec: Vec<f32> = predictions
@@ -392,7 +405,9 @@ impl Loss {
             .map(|(&p, &t)| {
                 // Clamp predictions for numerical stability
                 let p_safe = p.clamp(Self::EPS, 1.0 - Self::EPS);
-                (-t / p_safe + (1.0 - t) / (1.0 - p_safe)) / n
+                let grad = (-t / p_safe + (1.0 - t) / (1.0 - p_safe)) / n;
+                // Clip gradient to prevent explosion
+                grad.clamp(-Self::MAX_GRAD, Self::MAX_GRAD)
             })
             .collect();