9 months ago · 55bcad98e3
--- a/exo/inference/tinygrad/inference.py
+++ b/exo/inference/tinygrad/inference.py
@@ -44,42 +44,6 @@ MODEL_PARAMS = {
 
															 }
														
 
															-class Tokenizer:
														
 
															-  pat_str = r"(?i:'s|'t|'re|'ve|'m|'ll|'d)|[^\r\n\p{L}\p{N}]?\p{L}+|\p{N}{1,3}| ?[^\s\p{L}\p{N}]+[\r\n]*|\s*[\r\n]+|\s+(?!\S)|\s+"
														
 
															-
														
 
															-  def __init__(self, model_path: str):
														
 
															-    mergeable_ranks = load_tiktoken_bpe(model_path)
														
 
															-    self.num_base_tokens = len(mergeable_ranks)
														
 
															-    special_tokens = [
														
 
															-      "<|begin_of_text|>",
														
 
															-      "<|end_of_text|>",
														
 
															-      "<|reserved_special_token_0|>",
														
 
															-      "<|reserved_special_token_1|>",
														
 
															-      "<|reserved_special_token_2|>",
														
 
															-      "<|reserved_special_token_3|>",
														
 
															-      "<|start_header_id|>",
														
 
															-      "<|end_header_id|>",
														
 
															-      "<|reserved_special_token_4|>",
														
 
															-      "<|eot_id|>",
														
 
															-    ] + [f"<|reserved_special_token_{i}|>" for i in range(5, 256 - 5)]
														
 
															-    self.special_tokens = {token: len(mergeable_ranks) + i for i, token in enumerate(special_tokens)}
														
 
															-
														
 
															-    self.model = tiktoken.Encoding(name=model_path, pat_str=self.pat_str, mergeable_ranks=mergeable_ranks, special_tokens=self.special_tokens)
														
 
															-
														
 
															-  @property
														
 
															-  def bos_id(self):
														
 
															-    return self.special_tokens["<|begin_of_text|>"]
														
 
															-
														
 
															-  @property
														
 
															-  def stop_tokens(self):
														
 
															-    return {self.special_tokens["<|end_of_text|>"], self.special_tokens["<|eot_id|>"]}
														
 
															-
														
 
															-  def decode(self, toks):
														
 
															-    return self.model.decode([t for t in toks if t < self.num_base_tokens])
														
 
															-
														
 
															-  def encode(self, text, allow_special=False):
														
 
															-    return self.model.encode(text, allowed_special="all" if allow_special else set(), disallowed_special=set())
														
 
															-
														
 
															 # **** helper functions ****
														
 
															 async def fetch_async(
														
@@ -214,7 +178,7 @@ class TinygradDynamicShardInferenceEngine(InferenceEngine):
 
															     return (
														
 
															       output_data,
														
 
															       json.dumps({"start_pos": start_pos}),
														
 
															-      output_data.size == 1 and output_data.item() in self.tokenizer.stop_tokens,
														
 
															+      output_data.size == 1 and output_data.item() in [self.tokenizer.eos_token_id],
														
 
															     )
														
 
															   async def infer_tensor(self, request_id: str, shard: Shard, input_data: np.ndarray, inference_state: Optional[str] = None) -> (np.ndarray, str, bool):
														
@@ -228,7 +192,7 @@ class TinygradDynamicShardInferenceEngine(InferenceEngine):
 
															     return (
														
 
															       output_data,
														
 
															       json.dumps({"start_pos": start_pos}),
														
 
															-      output_data.size == 1 and output_data.item() in self.tokenizer.stop_tokens,
														
 
															+      output_data.size == 1 and output_data.item() in [self.tokenizer.eos_token_id],
														
 
															     )
														
 
															   async def ensure_shard(self, shard: Shard):
														
@@ -239,40 +203,42 @@ class TinygradDynamicShardInferenceEngine(InferenceEngine):
 
															     models_dir = Path(_cache_dir) / "tinygrad" / "downloads"
														
 
															     model_path = models_dir / shard.model_id
														
 
															     size = "8B"
														
 
															-    if Path(model_path / "model.safetensors.index.json").exists():
														
 
															+    if Path(model_path / "tokenizer_config.json").exists():
														
 
															       model = model_path
														
 
															     else:
														
 
															       if DEBUG >= 2: print(f"Downloading tinygrad model {shard.model_id}...")
														
 
															       if shard.model_id.lower().find("llama3-8b-sfr") != -1:
														
 
															+        num_files = 4
														
 
															+        for i in range(num_files):
														
 
															+          await fetch_async(
														
 
															+            f"https://huggingface.co/mlx-community/Meta-Llama-3-8B-Instruct/resolve/main/model-{(i+1):05d}-of-{num_files:05d}.safetensors",
														
 
															+            f"model-{(i+1):05d}-of-{num_files:05d}.safetensors",
														
 
															+            subdir=shard.model_id,
														
 
															+          )
														
 
															         await fetch_async(
														
 
															-          "https://huggingface.co/bofenghuang/Meta-Llama-3-8B/resolve/main/original/tokenizer.model",
														
 
															-          "tokenizer.model",
														
 
															+          "https://huggingface.co/mlx-community/Meta-Llama-3-8B-Instruct/resolve/main/config.json",
														
 
															+          "config.json",
														
 
															           subdir=shard.model_id,
														
 
															         )
														
 
															-        await fetch_async(
														
 
															-          "https://huggingface.co/TriAiExperiments/SFR-Iterative-DPO-LLaMA-3-8B-R/resolve/main/model-00001-of-00004.safetensors",
														
 
															-          "model-00001-of-00004.safetensors",
														
 
															+        model = await fetch_async(
														
 
															+          "https://huggingface.co/mlx-community/Meta-Llama-3-8B-Instruct/raw/main/model.safetensors.index.json",
														
 
															+          "model.safetensors.index.json",
														
 
															           subdir=shard.model_id,
														
 
															         )
														
 
															         await fetch_async(
														
 
															-          "https://huggingface.co/TriAiExperiments/SFR-Iterative-DPO-LLaMA-3-8B-R/resolve/main/model-00002-of-00004.safetensors",
														
 
															-          "model-00002-of-00004.safetensors",
														
 
															+          "https://huggingface.co/mlx-community/Meta-Llama-3-8B-Instruct/resolve/main/special_tokens_map.json",
														
 
															+          "special_tokens_map.json",
														
 
															           subdir=shard.model_id,
														
 
															         )
														
 
															         await fetch_async(
														
 
															-          "https://huggingface.co/TriAiExperiments/SFR-Iterative-DPO-LLaMA-3-8B-R/resolve/main/model-00003-of-00004.safetensors",
														
 
															-          "model-00003-of-00004.safetensors",
														
 
															+          "https://huggingface.co/mlx-community/Meta-Llama-3-8B-Instruct/resolve/main/tokenizer.json",
														
 
															+          "tokenizer.json",
														
 
															           subdir=shard.model_id,
														
 
															         )
														
 
															         await fetch_async(
														
 
															-          "https://huggingface.co/TriAiExperiments/SFR-Iterative-DPO-LLaMA-3-8B-R/resolve/main/model-00004-of-00004.safetensors",
														
 
															-          "model-00004-of-00004.safetensors",
														
 
															-          subdir=shard.model_id,
														
 
															-        )
														
 
															-        model = await fetch_async(
														
 
															-          "https://huggingface.co/TriAiExperiments/SFR-Iterative-DPO-LLaMA-3-8B-R/raw/main/model.safetensors.index.json",
														
 
															-          "model.safetensors.index.json",
														
 
															+          "https://huggingface.co/mlx-community/Meta-Llama-3-8B-Instruct/resolve/main/tokenizer_config.json",
														
 
															+          "tokenizer_config.json",
														
 
															           subdir=shard.model_id,
														
 
															         )
														
 
															         size = "8B"
														
@@ -289,7 +255,8 @@ class TinygradDynamicShardInferenceEngine(InferenceEngine):
 
															         raise ValueError(f"tinygrad doesnt currently support arbitrary model downloading. unsupported model: {shard.model_id}")
														
 
															     model = build_transformer(model_path, shard=shard, model_size=size)
														
 
															-    tokenizer = Tokenizer(str((model_path if model_path.is_dir() else model_path.parent) / "tokenizer.model"))
														
 
															+    from transformers import AutoTokenizer
														
 
															+    tokenizer = AutoTokenizer.from_pretrained(str((model_path if model_path.is_dir() else model_path.parent)))
														
 
															     self.shard = shard
														
 
															     self.model = model
														
--- a/exo/inference/tinygrad/models/llama.py
+++ b/exo/inference/tinygrad/models/llama.py
@@ -214,10 +214,8 @@ class Transformer:
 
															       h = self.tok_embeddings(h)
														
 
															     mask = Tensor.full((1, 1, seqlen, start_pos + seqlen), float("-inf"), dtype=h.dtype, device=h.device).triu(start_pos + 1).realize() if seqlen > 1 else None
														
 
															-    for i, layer in enumerate(self.layers):
														
 
															+    for layer in self.layers:
														
 
															       h = layer(h, start_pos, freqs_cis, mask)
														
 
															-      # if i == 0 or i == len(self.layers) - 1:
														
 
															-      #   print(f"layer {i}: {str(h.numpy())[:60]}")
														
 
															     if self.shard.is_last_layer():
														
 
															       logits = self.output(self.norm(h)).float()[:, -1, :]
														
@@ -257,10 +255,17 @@ def convert_from_huggingface(weights: Dict[str, Tensor], model: Transformer, n_h
 
															     "model.embed_tokens.weight": "tok_embeddings.weight",
														
 
															     **{f"model.layers.{l}.input_layernorm.weight": f"layers.{l}.attention_norm.weight" for l in range(len(model.layers))},
														
 
															     **{f"model.layers.{l}.self_attn.{x}_proj.weight": f"layers.{l}.attention.w{x}.weight" for x in ["q", "k", "v", "o"] for l in range(len(model.layers))},
														
 
															+    **{f"model.layers.{l}.self_attn.{x}_proj.biases": f"layers.{l}.attention.w{x}.bias" for x in ["q", "k", "v", "o"] for l in range(len(model.layers))},
														
 
															+    **{f"model.layers.{l}.self_attn.{x}_proj.scales": f"layers.{l}.attention.w{x}.scale" for x in ["q", "k", "v", "o"] for l in range(len(model.layers))},
														
 
															     **{f"model.layers.{l}.post_attention_layernorm.weight": f"layers.{l}.ffn_norm.weight" for l in range(len(model.layers))},
														
 
															+    **{f"model.layers.{l}.post_attention_layernorm.biases": f"layers.{l}.ffn_norm.bias" for l in range(len(model.layers))},
														
 
															     **{f"model.layers.{l}.mlp.{x}_proj.weight": f"layers.{l}.feed_forward.w{y}.weight" for x, y in {"gate": "1", "down": "2", "up": "3"}.items() for l in range(len(model.layers))},
														
 
															+    **{f"model.layers.{l}.mlp.{x}_proj.biases": f"layers.{l}.feed_forward.w{y}.bias" for x, y in {"gate": "1", "down": "2", "up": "3"}.items() for l in range(len(model.layers))},
														
 
															+    **{f"model.layers.{l}.mlp.{x}_proj.scales": f"layers.{l}.feed_forward.w{y}.scale" for x, y in {"gate": "1", "down": "2", "up": "3"}.items() for l in range(len(model.layers))},
														
 
															     "model.norm.weight": "norm.weight",
														
 
															     "lm_head.weight": "output.weight",
														
 
															+    "lm_head.biases": "output.bias",
														
 
															+    "lm_head.scales": "output.scale",
														
 
															   }
														
 
															   sd = {}
														
 
															   for k, v in weights.items():