11 months ago · 33cbacf513
--- a/exo/inference/mlx/models/llava.py
+++ b/exo/inference/mlx/models/llava.py
@@ -208,8 +208,7 @@ class VisionModel(nn.Module):
 
															     ) -> mx.array:
														
 
															         return self.vision_model(x, output_hidden_states)
														
 
															-    @staticmethod
														
 
															-    def sanitize(weights):
														
 
															+    def sanitize(self, weights):
														
 
															         sanitized_weights = {}
														
 
															         for k, v in weights.items():
														
 
															             if "position_ids" in k:
														
@@ -380,7 +379,8 @@ class Llama(nn.Module):
 
															         self.num_key_value_heads = config.num_key_value_heads
														
 
															         self.head_dim = config.head_dim
														
 
															         assert self.vocab_size > 0
														
 
															-        self.embed_tokens = nn.Embedding(config.vocab_size, config.hidden_size)
														
 
															+        if self.shard.is_first_layer():
														
 
															+            self.embed_tokens = nn.Embedding(config.vocab_size, config.hidden_size)
														
 
															         self.layers = []
														
 
															         for i in range(self.num_hidden_layers):
														
 
															           if self.shard.start_layer <= i <= self.shard.end_layer:
														
@@ -431,7 +431,8 @@ class LanguageModel(nn.Module):
 
															             )
														
 
															         self.shard = shard
														
 
															         self.model = Llama(config, shard)
														
 
															-        self.lm_head = nn.Linear(config.hidden_size, config.vocab_size, bias=False)
														
 
															+        if self.shard.is_last_layer():
														
 
															+            self.lm_head = nn.Linear(config.hidden_size, config.vocab_size, bias=False)
														
 
															     def __call__(
														
 
															         self,
														
@@ -444,12 +445,24 @@ class LanguageModel(nn.Module):
 
															             out = self.lm_head(out)
														
 
															         return out
														
 
															-    @staticmethod
														
 
															-    def sanitize(weights):
														
 
															-        # Remove unused precomputed rotary freqs
														
 
															-        return {
														
 
															-            k: v for k, v in weights.items() if "self_attn.rotary_emb.inv_freq" not in k
														
 
															-        }
														
 
															+    def sanitize(self, weights):
														
 
															+        shard_state_dict = {}
														
 
															+        for key, value in weights.items():
														
 
															+            if "self_attn.rotary_emb.inv_freq" in key:
														
 
															+                continue
														
 
															+
														
 
															+            if key.startswith('language_model.model.layers.'):
														
 
															+                layer_num = int(key.split('.')[3])
														
 
															+                if layer_num < self.shard.start_layer or layer_num > self.shard.end_layer:
														
 
															+                    continue
														
 
															+            if not self.shard.is_first_layer() and key.startswith('language_model.model.embed_tokens'):
														
 
															+                continue
														
 
															+            elif not self.shard.is_last_layer() and (key.startswith('language_model.model.norm') or key.startswith('language_model.lm_head')):
														
 
															+                continue
														
 
															+
														
 
															+            shard_state_dict[key] = value
														
 
															+
														
 
															+        return shard_state_dict
														
 
															 @dataclass
														
 
															 class LlaVAConfig(BaseModelArgs):
														
@@ -599,9 +612,10 @@ class Model(nn.Module):
 
															     def sanitize(self, weights):
														
 
															         if self.config.vision_config:
														
 
															-            weights = self.vision_tower.sanitize(weights)
														
 
															+          weights = self.vision_tower.sanitize(weights)
														
 
															+        else:
														
 
															+          weights = {k: v for k, v in weights.items() if not k.startswith(('vision_tower', 'multi_modal_projector', 'vision_feature_layer', 'vision_feature_select_strategy'))}
														
 
															         weights = self.language_model.sanitize(weights)
														
 
															-
														
 
															         return weights
														
 
															     @property