1 년 전 · a4cc667754
--- a/exo/inference/mlx/sharded_inference_engine.py
+++ b/exo/inference/mlx/sharded_inference_engine.py
@@ -6,32 +6,6 @@ from .sharded_utils import load_shard
 
				 from ..shard import Shard
			
 
				 from typing import Optional
			
 
				 
			
 
				-class MLXFixedShardInferenceEngine(InferenceEngine):
			
 
				-    def __init__(self, model_path: str, shard: Shard):
			
 
				-        self.shard = shard
			
 
				-        model_shard, self.tokenizer = load_shard(model_path, shard)
			
 
				-        self.stateful_sharded_model = StatefulShardedModel(shard, model_shard)
			
 
				-
			
 
				-    async def infer_prompt(self, shard: Shard, prompt: str, inference_state: Optional[str] = None) -> (np.ndarray, str, bool):
			
 
				-        if shard != self.shard:
			
 
				-            raise ValueError(f"Shard mismatch: {shard} != {self.shard}")
			
 
				-
			
 
				-        output_data: np.ndarray = np.array(self.stateful_sharded_model.step(mx.array(self.tokenizer.encode(prompt))))
			
 
				-        return output_data, "", output_data.size == 1 and output_data.item() == self.tokenizer.eos_token_id
			
 
				-
			
 
				-    async def infer_tensor(self, shard: Shard, input_data: np.ndarray) -> (np.ndarray, str, bool):
			
 
				-        if shard != self.shard:
			
 
				-            raise ValueError(f"Shard mismatch: {shard} != {self.shard}")
			
 
				-
			
 
				-        output_data: np.ndarray = np.array(self.stateful_sharded_model.step(mx.array(input_data)))
			
 
				-        return output_data, "", output_data.size == 1 and output_data.item() == self.tokenizer.eos_token_id
			
 
				-
			
 
				-    async def reset_shard(self, shard: Shard):
			
 
				-        if shard != self.shard:
			
 
				-            raise ValueError(f"Shard mismatch: {shard} != {self.shard}")
			
 
				-
			
 
				-        self.stateful_sharded_model.reset()
			
 
				-
			
 
				 class MLXDynamicShardInferenceEngine(InferenceEngine):
			
 
				     def __init__(self):
			
 
				         self.shard = None
			
@@ -54,6 +28,6 @@ class MLXDynamicShardInferenceEngine(InferenceEngine):
 
				         if self.shard == shard:
			
 
				             return
			
 
				 
			
 
				-        model_shard, self.tokenizer = load_shard(shard.model_id, shard)
			
 
				+        model_shard, self.tokenizer = await load_shard(shard.model_id, shard)
			
 
				         self.stateful_sharded_model = StatefulShardedModel(shard, model_shard)
			
 
				         self.shard = shard
			
--- a/exo/inference/mlx/sharded_utils.py
+++ b/exo/inference/mlx/sharded_utils.py
@@ -4,6 +4,8 @@ import glob
 
				 import importlib
			
 
				 import json
			
 
				 import logging
			
 
				+import asyncio
			
 
				+from functools import partial
			
 
				 from pathlib import Path
			
 
				 from typing import Optional, Tuple
			
 
				 
			
@@ -151,7 +153,11 @@ def load_model_shard(
 
				     model.eval()
			
 
				     return model
			
 
				 
			
 
				-def get_model_path(path_or_hf_repo: str, revision: Optional[str] = None) -> Path:
			
 
				+async def snapshot_download_async(*args, **kwargs):
			
 
				+    func = partial(snapshot_download, *args, **kwargs)
			
 
				+    return await asyncio.get_event_loop().run_in_executor(None, func)
			
 
				+
			
 
				+async def get_model_path(path_or_hf_repo: str, revision: Optional[str] = None) -> Path:
			
 
				     """
			
 
				     Ensures the model is available locally. If the path does not exist locally,
			
 
				     it is downloaded from the Hugging Face Hub.
			
@@ -167,7 +173,7 @@ def get_model_path(path_or_hf_repo: str, revision: Optional[str] = None) -> Path
 
				     if not model_path.exists():
			
 
				         try:
			
 
				             model_path = Path(
			
 
				-                snapshot_download(
			
 
				+                await snapshot_download_async(
			
 
				                     repo_id=path_or_hf_repo,
			
 
				                     revision=revision,
			
 
				                     allow_patterns=[
			
@@ -191,7 +197,7 @@ def get_model_path(path_or_hf_repo: str, revision: Optional[str] = None) -> Path
 
				     return model_path
			
 
				 
			
 
				 
			
 
				-def load_shard(
			
 
				+async def load_shard(
			
 
				     path_or_hf_repo: str,
			
 
				     shard: Shard,
			
 
				     tokenizer_config={},
			
@@ -220,7 +226,7 @@ def load_shard(
 
				         FileNotFoundError: If config file or safetensors are not found.
			
 
				         ValueError: If model class or args class are not found.
			
 
				     """
			
 
				-    model_path = get_model_path(path_or_hf_repo)
			
 
				+    model_path = await get_model_path(path_or_hf_repo)
			
 
				 
			
 
				     model = load_model_shard(model_path, shard, lazy, model_config)
			
 
				     if adapter_path is not None:
			
--- a/exo/inference/test_inference_engine.py
+++ b/exo/inference/test_inference_engine.py
@@ -24,15 +24,15 @@ async def test_inference_engine(inference_engine_1: InferenceEngine, inference_e
 
				     assert np.array_equal(resp_full, resp2)
			
 
				     assert np.array_equal(next_resp_full, resp4)
			
 
				 
			
 
				-asyncio.run(test_inference_engine(
			
 
				-    MLXDynamicShardInferenceEngine(),
			
 
				-    MLXDynamicShardInferenceEngine(),
			
 
				-    "mlx-community/Meta-Llama-3-8B-Instruct-4bit",
			
 
				-))
			
 
				-
			
 
				-# TODO: Waiting on https://github.com/tinygrad/tinygrad/issues/5549
			
 
				 # asyncio.run(test_inference_engine(
			
 
				-#     TinygradDynamicShardInferenceEngine(),
			
 
				-#     TinygradDynamicShardInferenceEngine(),
			
 
				-#     "llama3-8b-sfr",
			
 
				+#     MLXDynamicShardInferenceEngine(),
			
 
				+#     MLXDynamicShardInferenceEngine(),
			
 
				+#     "mlx-community/Meta-Llama-3-8B-Instruct-4bit",
			
 
				 # ))
			
 
				+
			
 
				+# TODO: Waiting on https://github.com/tinygrad/tinygrad/issues/5549
			
 
				+asyncio.run(test_inference_engine(
			
 
				+    TinygradDynamicShardInferenceEngine(),
			
 
				+    TinygradDynamicShardInferenceEngine(),
			
 
				+    "llama3-8b-sfr",
			
 
				+))
			
--- a/exo/inference/tinygrad/inference.py
+++ b/exo/inference/tinygrad/inference.py
@@ -1,16 +1,18 @@
 
				-
			
 
				+import asyncio
			
 
				+from functools import partial
			
 
				 from pathlib import Path
			
 
				-from typing import List, Optional
			
 
				+from typing import List, Optional, Union
			
 
				 import json, argparse, random, time
			
 
				 import tiktoken
			
 
				 from tiktoken.load import load_tiktoken_bpe
			
 
				 from exo.inference.tinygrad.models.llama import Transformer, convert_from_huggingface, fix_bf16
			
 
				 from tinygrad.nn.state import safe_load, torch_load, load_state_dict, get_parameters
			
 
				 from tinygrad import Tensor, dtypes, nn, Context, Device, GlobalCounters
			
 
				-from tinygrad.helpers import DEBUG, tqdm, _cache_dir
			
 
				+from tinygrad.helpers import DEBUG, tqdm, _cache_dir, fetch
			
 
				 from exo.inference.shard import Shard
			
 
				 from exo.inference.inference_engine import InferenceEngine
			
 
				 import numpy as np
			
 
				+import os
			
 
				 
			
 
				 MODEL_PARAMS = {
			
 
				   "8B": {
			
@@ -58,6 +60,11 @@ class Tokenizer:
 
				     return self.model.encode(text, allowed_special="all" if allow_special else set(), disallowed_special=set())
			
 
				 
			
 
				 # **** helper functions ****
			
 
				+async def fetch_async(url: str, name: Optional[Union[Path, str]] = None, subdir: Optional[str] = None,
			
 
				+                      allow_caching=not os.getenv("DISABLE_HTTP_CACHE")) -> Path:
			
 
				+    func = partial(fetch, url, name, subdir, allow_caching)
			
 
				+    return await asyncio.get_event_loop().run_in_executor(None, func)
			
 
				+
			
 
				 def concat_weights(models, device=None):
			
 
				   def convert(name) -> Tensor:
			
 
				     disk_tensors: List[Tensor] = [model[name] for model in models]
			
@@ -176,16 +183,15 @@ class TinygradDynamicShardInferenceEngine(InferenceEngine):
 
				         if Path(model_path / "model.safetensors.index.json").exists():
			
 
				             model = model_path
			
 
				         else:
			
 
				-            from tinygrad.helpers import fetch
			
 
				 
			
 
				             if DEBUG >= 2: print(f"Downloading tinygrad model {shard.model_id}...")
			
 
				             if shard.model_id.lower().find("llama3-8b-sfr") != -1:
			
 
				-                fetch("https://huggingface.co/bofenghuang/Meta-Llama-3-8B/resolve/main/original/tokenizer.model", "tokenizer.model", subdir=shard.model_id)
			
 
				-                fetch("https://huggingface.co/TriAiExperiments/SFR-Iterative-DPO-LLaMA-3-8B-R/resolve/main/model-00001-of-00004.safetensors", "model-00001-of-00004.safetensors", subdir=shard.model_id)
			
 
				-                fetch("https://huggingface.co/TriAiExperiments/SFR-Iterative-DPO-LLaMA-3-8B-R/resolve/main/model-00002-of-00004.safetensors", "model-00002-of-00004.safetensors", subdir=shard.model_id)
			
 
				-                fetch("https://huggingface.co/TriAiExperiments/SFR-Iterative-DPO-LLaMA-3-8B-R/resolve/main/model-00003-of-00004.safetensors", "model-00003-of-00004.safetensors", subdir=shard.model_id)
			
 
				-                fetch("https://huggingface.co/TriAiExperiments/SFR-Iterative-DPO-LLaMA-3-8B-R/resolve/main/model-00004-of-00004.safetensors", "model-00004-of-00004.safetensors", subdir=shard.model_id)
			
 
				-                model = fetch("https://huggingface.co/TriAiExperiments/SFR-Iterative-DPO-LLaMA-3-8B-R/raw/main/model.safetensors.index.json", "model.safetensors.index.json", subdir=shard.model_id)
			
 
				+                await fetch_async("https://huggingface.co/bofenghuang/Meta-Llama-3-8B/resolve/main/original/tokenizer.model", "tokenizer.model", subdir=shard.model_id)
			
 
				+                await fetch_async("https://huggingface.co/TriAiExperiments/SFR-Iterative-DPO-LLaMA-3-8B-R/resolve/main/model-00001-of-00004.safetensors", "model-00001-of-00004.safetensors", subdir=shard.model_id)
			
 
				+                await fetch_async("https://huggingface.co/TriAiExperiments/SFR-Iterative-DPO-LLaMA-3-8B-R/resolve/main/model-00002-of-00004.safetensors", "model-00002-of-00004.safetensors", subdir=shard.model_id)
			
 
				+                await fetch_async("https://huggingface.co/TriAiExperiments/SFR-Iterative-DPO-LLaMA-3-8B-R/resolve/main/model-00003-of-00004.safetensors", "model-00003-of-00004.safetensors", subdir=shard.model_id)
			
 
				+                await fetch_async("https://huggingface.co/TriAiExperiments/SFR-Iterative-DPO-LLaMA-3-8B-R/resolve/main/model-00004-of-00004.safetensors", "model-00004-of-00004.safetensors", subdir=shard.model_id)
			
 
				+                model = await fetch_async("https://huggingface.co/TriAiExperiments/SFR-Iterative-DPO-LLaMA-3-8B-R/raw/main/model.safetensors.index.json", "model.safetensors.index.json", subdir=shard.model_id)
			
 
				                 size = "8B"
			
 
				             elif shard.model_id.lower().find("llama3-70b-sfr") != -1:
			
 
				                 raise NotImplementedError("llama3-70b-sfr is not implemented for tinygrad")