1 year ago · a6bb8ddf41
--- a/exo/inference/mlx/models/deepseek_v2.py
+++ b/exo/inference/mlx/models/deepseek_v2.py
@@ -89,19 +89,6 @@ class Model(nn.Module):
 
				     return out
			
 
				 
			
 
				   def sanitize(self, weights):
			
 
				-    for l in range(self.args.num_hidden_layers):
			
 
				-      prefix = f"model.layers.{l}"
			
 
				-      for n, m in [("w1", "gate_proj"), ("w2", "down_proj"), ("w3", "up_proj")]:
			
 
				-        for k in ["weight", "scales", "biases"]:
			
 
				-          if f"{prefix}.mlp.experts.0.{m}.{k}" in weights:
			
 
				-            to_join = [
			
 
				-              weights.pop(f"{prefix}.mlp.experts.{e}.{m}.{k}") for e in range(self.args.n_routed_experts)
			
 
				-            ]
			
 
				-            weights[
			
 
				-              f"{prefix}.mlp.switch_mlp.{
			
 
				-              m}.{k}"
			
 
				-            ] = mx.stack(to_join)
			
 
				-
			
 
				     shard_state_dict = {}
			
 
				 
			
 
				     for key, value in weights.items():
			
@@ -113,6 +100,21 @@ class Model(nn.Module):
 
				         shard_state_dict[key] = value
			
 
				       elif self.args.shard.is_last_layer() and (key.startswith('model.norm') or key.startswith('lm_head')):
			
 
				         shard_state_dict[key] = value
			
 
				+
			
 
				+    for l in range(self.args.num_hidden_layers):
			
 
				+      prefix = f"model.layers.{l}"
			
 
				+      for n, m in [("w1", "gate_proj"), ("w2", "down_proj"), ("w3", "up_proj")]:
			
 
				+        for k in ["weight", "scales", "biases"]:
			
 
				+          if f"{prefix}.mlp.experts.0.{m}.{k}" in shard_state_dict:
			
 
				+            to_join = [
			
 
				+              shard_state_dict.pop(f"{prefix}.mlp.experts.{e}.{m}.{k}") for e in range(self.args.n_routed_experts)
			
 
				+            ]
			
 
				+            shard_state_dict[
			
 
				+              f"{prefix}.mlp.switch_mlp.{
			
 
				+              m}.{k}"
			
 
				+            ] = mx.stack(to_join)
			
 
				+
			
 
				+
			
 
				     return shard_state_dict
			
 
				 
			
 
				   @property