fix(model): correct seq_len extraction in paged_attention

pplmx · pplmx · commit fefe943d0c94 · 2026-04-15T11:50:16.000+08:00
Fix bug where seq_len was incorrectly extracted after transpose,
causing reshape to use wrong sequence length dimension.

Before: seq_len = attn_output.dims()[1] (was heads, not seq)
After: actual_seq_len = attn_output.dims()[1] after transpose
diff --git a/crates/model/src/components/attention.rs b/crates/model/src/components/attention.rs
@@ -95,8 +95,9 @@ pub fn paged_attention(
 
     let attn_output = Tensor::matmul(&attn_weights, v)?;
     let attn_output = attn_output.transpose(1, 2)?;
-    let seq_len = attn_output.dims()[1];
-    let attn_output = attn_output.reshape((batch_size, seq_len, num_heads * head_dim))?;
+    // attn_output now [batch, seq, heads, dim]
+    let actual_seq_len = attn_output.dims()[1];
+    let attn_output = attn_output.reshape((batch_size, actual_seq_len, num_heads * head_dim))?;
     Ok(attn_output)
 }