Avoid using in-place torch operation for scatter_add

Replace the in-place scatter add with the out of place equivalent

Files changed (1) hide show

modeling_grinmoe.py CHANGED Viewed

@@ -786,7 +786,8 @@ class mp(torch.autograd.Function):
         grad_at_output = grad_at_output * multiplier
         grad_at_scores_expaned = masked_gates * grad_at_output.mul(-1)
-        grad_at_scores_expaned.scatter_add_(
             dim=-1,
             index=selected_experts,
             src=grad_at_output,

         grad_at_output = grad_at_output * multiplier
         grad_at_scores_expaned = masked_gates * grad_at_output.mul(-1)
+        grad_at_scores_expaned = torch.scatter_add(
+            grad_at_scores_expaned,
             dim=-1,
             index=selected_experts,
             src=grad_at_output,