1 year ago · dd8d18128c
--- a/exo/api/chatgpt_api.py
+++ b/exo/api/chatgpt_api.py
@@ -52,7 +52,7 @@ class ChatGPTAPI:
 
				         except Exception as e:
			
 
				             pass # TODO
			
 
				             # return web.json_response({'detail': str(e)}, status=500)
			
 
				-        
			
 
				+
			
 
				         # poll for the response. TODO: implement callback for specific request id
			
 
				         timeout = 90
			
 
				         start_time = time.time()
			
--- a/exo/inference/mlx/sharded_inference_engine.py
+++ b/exo/inference/mlx/sharded_inference_engine.py
@@ -13,20 +13,20 @@ class MLXFixedShardInferenceEngine(InferenceEngine):
 
				         model_shard, self.tokenizer = load_shard(model_path, shard)
			
 
				         self.stateful_sharded_model = StatefulShardedModel(shard, model_shard)
			
 
				 
			
 
				-    async def infer_prompt(self, shard: Shard, prompt: str, inference_state: Optional[str] = None) -> (np.ndarray, bool):
			
 
				+    async def infer_prompt(self, shard: Shard, prompt: str, inference_state: Optional[str] = None) -> (np.ndarray, str, bool):
			
 
				         if shard != self.shard:
			
 
				             raise ValueError(f"Shard mismatch: {shard} != {self.shard}")
			
 
				 
			
 
				         output_data: np.ndarray = np.array(self.stateful_sharded_model.step(mx.array(self.tokenizer.encode(prompt))))
			
 
				         print(f"output_data size: {output_data.size}, output_data: {output_data}")
			
 
				-        return output_data, output_data.size == 1 and output_data.item() == self.tokenizer.eos_token_id
			
 
				+        return output_data, "", output_data.size == 1 and output_data.item() == self.tokenizer.eos_token_id
			
 
				 
			
 
				-    async def infer_tensor(self, shard: Shard, input_data: np.ndarray) -> (np.ndarray, bool):
			
 
				+    async def infer_tensor(self, shard: Shard, input_data: np.ndarray) -> (np.ndarray, str, bool):
			
 
				         if shard != self.shard:
			
 
				             raise ValueError(f"Shard mismatch: {shard} != {self.shard}")
			
 
				 
			
 
				         output_data: np.ndarray = np.array(self.stateful_sharded_model.step(mx.array(input_data)))
			
 
				-        return output_data, output_data.size == 1 and output_data.item() == self.tokenizer.eos_token_id
			
 
				+        return output_data, "", output_data.size == 1 and output_data.item() == self.tokenizer.eos_token_id
			
 
				 
			
 
				     async def reset_shard(self, shard: Shard):
			
 
				         if shard != self.shard:
			
@@ -39,15 +39,15 @@ class MLXDynamicShardInferenceEngine(InferenceEngine):
 
				     def __init__(self):
			
 
				         self.shard = None
			
 
				 
			
 
				-    async def infer_prompt(self, shard: Shard, prompt: str, inference_state: Optional[str] = None) -> (np.ndarray, bool):
			
 
				+    async def infer_prompt(self, shard: Shard, prompt: str, inference_state: Optional[str] = None) -> (np.ndarray, str, bool):
			
 
				         await self.ensure_shard(shard)
			
 
				         output_data: np.ndarray = np.array(self.stateful_sharded_model.step(mx.array(self.tokenizer.encode(prompt))))
			
 
				-        return output_data, output_data.size == 1 and output_data.item() == self.tokenizer.eos_token_id
			
 
				+        return output_data, "", output_data.size == 1 and output_data.item() == self.tokenizer.eos_token_id
			
 
				 
			
 
				-    async def infer_tensor(self, shard: Shard, input_data: np.ndarray, inference_state: Optional[str] = None) -> (np.ndarray, bool):
			
 
				+    async def infer_tensor(self, shard: Shard, input_data: np.ndarray, inference_state: Optional[str] = None) -> (np.ndarray, str, bool):
			
 
				         await self.ensure_shard(shard)
			
 
				         output_data: np.ndarray = np.array(self.stateful_sharded_model.step(mx.array(input_data)))
			
 
				-        return output_data, output_data.size == 1 and output_data.item() == self.tokenizer.eos_token_id
			
 
				+        return output_data, "", output_data.size == 1 and output_data.item() == self.tokenizer.eos_token_id
			
 
				 
			
 
				     async def reset_shard(self, shard: Shard):
			
 
				         await self.ensure_shard(shard)
			
--- a/exo/inference/test_inference_engine.py
+++ b/exo/inference/test_inference_engine.py
@@ -5,32 +5,26 @@ from exo.inference.tinygrad.inference import TinygradDynamicShardInferenceEngine
 
				 import numpy as np
			
 
				 
			
 
				 # An inference engine should work the same for any number of Shards, as long as the Shards are continuous.
			
 
				-async def test_inference_engine(inference_engine: InferenceEngine, model_id: str, input_data: np.array):
			
 
				-    # inference_engine.reset_shard(Shard("", 0,0,0))
			
 
				+async def test_inference_engine(inference_engine: InferenceEngine, model_id: str):
			
 
				     prompt = "In a single word only, what is the capital of Japan? "
			
 
				-    resp_full, _, _ = await inference_engine.infer_prompt(shard=Shard(model_id=model_id, start_layer=0, end_layer=1, n_layers=2), prompt=prompt)
			
 
				+    resp_full, inference_state_full, _ = await inference_engine.infer_prompt(shard=Shard(model_id=model_id, start_layer=0, end_layer=31, n_layers=32), prompt=prompt)
			
 
				 
			
 
				-    print("resp_full", resp_full)
			
 
				-    print("decoded", inference_engine.tokenizer.decode(resp_full))
			
 
				+    await inference_engine.reset_shard(shard=Shard(model_id=model_id, start_layer=0, end_layer=10, n_layers=32))
			
 
				+    resp1, inference_state, _ = await inference_engine.infer_prompt(shard=Shard(model_id=model_id, start_layer=0, end_layer=10, n_layers=32), prompt=prompt)
			
 
				 
			
 
				-    # inference_engine.reset_shard(Shard("", 0,0,0))
			
 
				+    await inference_engine.reset_shard(shard=Shard(model_id=model_id, start_layer=11, end_layer=31, n_layers=32))
			
 
				+    resp2, _, _ = await inference_engine.infer_tensor(shard=Shard(model_id=model_id, start_layer=11, end_layer=31, n_layers=32), input_data=resp1, inference_state=inference_state)
			
 
				 
			
 
				-    resp1, inference_state, _ = await inference_engine.infer_tensor(shard=Shard(model_id=model_id, start_layer=0, end_layer=0, n_layers=2), input_data=input_data)
			
 
				-    print(f"Intermediate {inference_state=}")
			
 
				-    resp2, _, _ = await inference_engine.infer_tensor(shard=Shard(model_id=model_id, start_layer=1, end_layer=1, n_layers=2), input_data=resp1, inference_state=inference_state)
			
 
				-
			
 
				-    # assert np.array_equal(resp_full, resp2)
			
 
				+    assert np.array_equal(resp_full, resp2)
			
 
				 
			
 
				 import asyncio
			
 
				 
			
 
				-# asyncio.run(test_inference_engine(
			
 
				-#     MLXDynamicShardInferenceEngine(),
			
 
				-#     "mlx-community/Meta-Llama-3-8B-Instruct-4bit",
			
 
				-#     [1234]
			
 
				-# ))
			
 
				+asyncio.run(test_inference_engine(
			
 
				+    MLXDynamicShardInferenceEngine(),
			
 
				+    "mlx-community/Meta-Llama-3-8B-Instruct-4bit",
			
 
				+))
			
 
				 
			
 
				 asyncio.run(test_inference_engine(
			
 
				     TinygradDynamicShardInferenceEngine(),
			
 
				     "/Users/alex/Library/Caches/tinygrad/downloads/llama3-8b-sfr",
			
 
				-    [1234]
			
 
				 ))
			
--- a/exo/inference/tinygrad/inference.py
+++ b/exo/inference/tinygrad/inference.py
@@ -52,7 +52,8 @@ class Tokenizer:
 
				   @property
			
 
				   def stop_tokens(self): return {self.special_tokens["<|end_of_text|>"], self.special_tokens["<|eot_id|>"]}
			
 
				 
			
 
				-  def decode(self, toks): return self.model.decode([t for t in toks if t < self.num_base_tokens])
			
 
				+  def decode(self, toks):
			
 
				+     return self.model.decode([t for t in toks if t < self.num_base_tokens])
			
 
				   def encode(self, text, allow_special=False):
			
 
				     return self.model.encode(text, allowed_special="all" if allow_special else set(), disallowed_special=set())
			
 
				 
			
@@ -77,11 +78,11 @@ def load(fn:str):
 
				   else:
			
 
				     return torch_load(fn)
			
 
				 
			
 
				-def build_transformer(model_path: Path, model_size="8B", quantize=None, device=None):
			
 
				+def build_transformer(model_path: Path, shard: Shard, model_size="8B", quantize=None, device=None):
			
 
				   # build model
			
 
				   linear = nn.Linear
			
 
				   with Context(THREEFRY=0):
			
 
				-    model = Transformer(**MODEL_PARAMS[model_size]["args"], linear=linear, max_context=8192, jit=True)
			
 
				+    model = Transformer(**MODEL_PARAMS[model_size]["args"], shard=shard, linear=linear, max_context=8192, jit=False)
			
 
				 
			
 
				   # load weights
			
 
				   if model_path.is_dir():
			
@@ -91,7 +92,7 @@ def build_transformer(model_path: Path, model_size="8B", quantize=None, device=N
 
				   else:
			
 
				     weights = load(str(model_path))
			
 
				   if "model.embed_tokens.weight" in weights:
			
 
				-    weights = convert_from_huggingface(weights, model, MODEL_PARAMS[model_size]["args"]["n_heads"], MODEL_PARAMS[model_size]["args"]["n_kv_heads"])
			
 
				+    weights = convert_from_huggingface(weights, model, MODEL_PARAMS[model_size]["args"]["n_heads"], MODEL_PARAMS[model_size]["args"]["n_kv_heads"], shard=shard)
			
 
				   weights = fix_bf16(weights)
			
 
				 
			
 
				   with Context(BEAM=0):
			
@@ -117,7 +118,7 @@ def build_transformer(model_path: Path, model_size="8B", quantize=None, device=N
 
				   return model
			
 
				 
			
 
				 # default settings
			
 
				-TEMPERATURE = 0.85
			
 
				+TEMPERATURE = 0 # 0.85
			
 
				 TOP_K = 25
			
 
				 TOP_P = 0.9
			
 
				 ALPHA_F = 0.1
			
@@ -154,14 +155,12 @@ class TinygradDynamicShardInferenceEngine(InferenceEngine):
 
				             return encode_role(role) + self.tokenizer.encode(content.strip()) + [self.tokenizer.special_tokens["<|eot_id|>"]]
			
 
				 
			
 
				         await self.ensure_shard(shard)
			
 
				-        print([self.tokenizer.encode(prompt)])
			
 
				 
			
 
				         toks = [self.tokenizer.bos_id] + encode_message("user", prompt) + encode_role("assistant")
			
 
				         start_pos = prefill(self.model, toks[:-1])
			
 
				         last_tok = toks[-1]
			
 
				 
			
 
				-        output_data = np.array(self.model(Tensor([[last_tok]]), start_pos, TEMPERATURE, TOP_K, TOP_P, ALPHA_F, ALPHA_P).tolist())
			
 
				-        print(f"{output_data.size=}")
			
 
				+        output_data = np.array([self.model(Tensor([[last_tok]]), start_pos, TEMPERATURE, TOP_K, TOP_P, ALPHA_F, ALPHA_P).tolist()])
			
 
				         if output_data.size == 1:
			
 
				            start_pos += 1
			
 
				 
			
@@ -171,8 +170,7 @@ class TinygradDynamicShardInferenceEngine(InferenceEngine):
 
				         await self.ensure_shard(shard)
			
 
				 
			
 
				         start_pos = json.loads(inference_state)["start_pos"] if inference_state else 0
			
 
				-        output_data: np.ndarray = np.array(self.model(Tensor([input_data]), start_pos, TEMPERATURE, TOP_K, TOP_P, ALPHA_F, ALPHA_P).tolist())
			
 
				-        print(f"{output_data.size=}")
			
 
				+        output_data: np.ndarray = np.array([self.model(Tensor([input_data]), start_pos, TEMPERATURE, TOP_K, TOP_P, ALPHA_F, ALPHA_P).tolist()])
			
 
				         if output_data.size == 1:
			
 
				            start_pos += 1
			
 
				 
			
@@ -181,7 +179,6 @@ class TinygradDynamicShardInferenceEngine(InferenceEngine):
 
				     async def reset_shard(self, shard: Shard):
			
 
				         await self.ensure_shard(shard)
			
 
				 
			
 
				-        print(f"Resetting shard: {shard}")
			
 
				         self.model.reset()
			
 
				 
			
 
				     async def ensure_shard(self, shard: Shard):
			
@@ -190,10 +187,9 @@ class TinygradDynamicShardInferenceEngine(InferenceEngine):
 
				 
			
 
				         model_path = Path(shard.model_id)
			
 
				         size = "8B" # one of 8B or 70B for now
			
 
				-        model = build_transformer(model_path, model_size=size)
			
 
				+        model = build_transformer(model_path, shard=shard, model_size=size)
			
 
				         tokenizer = Tokenizer(str((model_path if model_path.is_dir() else model_path.parent) / "tokenizer.model"))
			
 
				 
			
 
				         self.shard = shard
			
 
				         self.model = model
			
 
				         self.tokenizer = tokenizer
			
 
				-
			
--- a/exo/inference/tinygrad/models/llama.py
+++ b/exo/inference/tinygrad/models/llama.py
@@ -1,6 +1,7 @@
 
				 from typing import Tuple, Union, Optional, Dict, Any
			
 
				 from tinygrad import Tensor, Variable, TinyJit, dtypes, nn, Device
			
 
				 from tinygrad.helpers import getenv
			
 
				+from exo.inference.shard import Shard
			
 
				 
			
 
				 # https://github.com/facebookresearch/llama/blob/1076b9c51c77ad06e9d7ba8a4c6df775741732bd/llama/model.py#L47
			
 
				 def precompute_freqs_cis(dim: int, end: int, theta: float = 10000.0, dtype=dtypes.half) -> Tensor:
			
@@ -144,42 +145,47 @@ def sample(logits: Tensor, temp: float, k: int, p: float, af: float, ap: float):
 
				   return output_token
			
 
				 
			
 
				 class Transformer:
			
 
				-  def __init__(self, dim:int, hidden_dim:int, n_heads:int, n_layers:int, norm_eps:float, vocab_size, linear=nn.Linear, n_kv_heads=None, rope_theta=10000, max_context=1024, jit=True, feed_forward=FeedForward):
			
 
				-    self.layers = [TransformerBlock(dim, hidden_dim, n_heads, n_kv_heads, norm_eps, max_context, linear, feed_forward=feed_forward) for _ in range(n_layers)]
			
 
				+  def __init__(self, dim:int, hidden_dim:int, n_heads:int, n_layers:int, norm_eps:float, vocab_size, shard: Shard, linear=nn.Linear, n_kv_heads=None, rope_theta=10000, max_context=1024, jit=True, feed_forward=FeedForward):
			
 
				+    self.layers = [TransformerBlock(dim, hidden_dim, n_heads, n_kv_heads, norm_eps, max_context, linear, feed_forward=feed_forward) for _ in range(shard.end_layer - shard.start_layer + 1)]
			
 
				     self.norm = nn.RMSNorm(dim, norm_eps)
			
 
				     self.tok_embeddings = nn.Embedding(vocab_size, dim)
			
 
				     self.output = nn.Linear(dim, vocab_size, bias=False)
			
 
				     self.max_context = max_context
			
 
				     self.freqs_cis = precompute_freqs_cis(dim // n_heads, self.max_context * 2, rope_theta)
			
 
				     self.forward_jit = TinyJit(self.forward) if jit else None
			
 
				+    self.shard = shard
			
 
				 
			
 
				-  def forward(self, tokens:Tensor, start_pos:Union[Variable,int], temperature:float, top_k:int, top_p:float, alpha_f:float, alpha_p:float):
			
 
				-    _bsz, seqlen = tokens.shape
			
 
				+  def forward(self, h:Tensor, start_pos:Union[Variable,int], temperature:float, top_k:int, top_p:float, alpha_f:float, alpha_p:float):
			
 
				+    seqlen = h.shape[1]
			
 
				     freqs_cis = self.freqs_cis.shrink((None, (start_pos, start_pos+seqlen),None,None,None))
			
 
				 
			
 
				-    h = self.tok_embeddings(tokens)
			
 
				+    if self.shard.is_first_layer():
			
 
				+      h = self.tok_embeddings(h)
			
 
				     mask = Tensor.full((1, 1, seqlen, start_pos+seqlen), float("-inf"), dtype=h.dtype, device=h.device).triu(start_pos+1).realize() if seqlen > 1 else None
			
 
				+
			
 
				     for i, layer in enumerate(self.layers):
			
 
				       h = layer(h, start_pos, freqs_cis, mask)
			
 
				-      print(f"layer {i}", h.tolist().__str__()[0:100])
			
 
				-    logits = self.output(self.norm(h)).float()[:, -1, :]
			
 
				 
			
 
				-    return sample(logits.flatten(), temperature, top_k, top_p, alpha_f, alpha_p).realize()
			
 
				+    if self.shard.is_last_layer():
			
 
				+        logits = self.output(self.norm(h)).float()[:, -1, :]
			
 
				+        return sample(logits.flatten(), temperature, top_k, top_p, alpha_f, alpha_p).realize()
			
 
				+    else:
			
 
				+      return h.realize()
			
 
				 
			
 
				   def __call__(self, tokens:Tensor, start_pos:Variable, temperature:float=0.0, top_k:int=0, top_p:float=0.8, alpha_f:float=0.0, alpha_p:float=0.0):
			
 
				     # TODO: better way to handle the first call v.s. the rest?
			
 
				-    if tokens.shape[0:2] == (1,1) and self.forward_jit is not None:
			
 
				-      return self.forward_jit(tokens, Variable("start_pos", 0, self.max_context).bind(start_pos), temperature, top_k, top_p, alpha_f, alpha_p)
			
 
				+    # if tokens.shape[0:2] == (1,1) and self.forward_jit is not None:
			
 
				+    #   return self.forward_jit(tokens, Variable("start_pos", 0, self.max_context).bind(start_pos), temperature, top_k, top_p, alpha_f, alpha_p)
			
 
				     return self.forward(tokens, start_pos, temperature, top_k, top_p, alpha_f, alpha_p)
			
 
				 
			
 
				   def reset(self):
			
 
				     for layer in self.layers:
			
 
				-      print(f"reset layer: {layer.attention.cache_kv}")
			
 
				-      layer.attention.cache_kv = layer.attention.cache_kv.zeros_like()
			
 
				+      if hasattr(layer.attention, "cache_kv"):
			
 
				+        layer.attention.cache_kv = layer.attention.cache_kv.zeros_like()
			
 
				 
			
 
				 # *** helpers ***
			
 
				 
			
 
				-def convert_from_huggingface(weights:Dict[str, Tensor], model: Transformer, n_heads: int, n_kv_heads: int):
			
 
				+def convert_from_huggingface(weights:Dict[str, Tensor], model: Transformer, n_heads: int, n_kv_heads: int, shard: Shard):
			
 
				   def permute(v: Tensor, n_heads: int):
			
 
				     return v.reshape(n_heads, 2, v.shape[0] // n_heads // 2, v.shape[1]).transpose(1, 2).reshape(*v.shape[:2])
			
 
				 
			
@@ -197,6 +203,12 @@ def convert_from_huggingface(weights:Dict[str, Tensor], model: Transformer, n_he
 
				     if ".rotary_emb." in k: continue
			
 
				     v = v.to(Device.DEFAULT)
			
 
				     if "model.layers" in k:
			
 
				+      layer_num = int(k.split('.')[2])
			
 
				+      if shard.start_layer <= layer_num <= shard.end_layer:
			
 
				+          k = f"model.layers.{layer_num - shard.start_layer}." + '.'.join(k.split('.')[3:])
			
 
				+      else:
			
 
				+        continue
			
 
				+
			
 
				       if "q_proj" in k:
			
 
				         v = permute(v, n_heads)
			
 
				       elif "k_proj" in k:
			
--- a/main.py
+++ b/main.py
@@ -8,7 +8,6 @@ from typing import List
 
				 from exo.orchestration.standard_node import StandardNode
			
 
				 from exo.networking.grpc.grpc_server import GRPCServer
			
 
				 from exo.inference.mlx.sharded_inference_engine import MLXDynamicShardInferenceEngine
			
 
				-from exo.inference.shard import Shard
			
 
				 from exo.networking.grpc.grpc_discovery import GRPCDiscovery
			
 
				 from exo.topology.ring_memory_weighted_partitioning_strategy import RingMemoryWeightedPartitioningStrategy
			
 
				 from exo.api import ChatGPTAPI