8 months ago · a4313da8d1
--- a/exo/inference/mlx/stateful_model.py
+++ b/exo/inference/mlx/stateful_model.py
@@ -1,32 +0,0 @@
 
				-from typing import Dict, Tuple, Optional
			
 
				-from collections import OrderedDict
			
 
				-
			
 
				-import mlx.core as mx
			
 
				-import mlx.nn as nn
			
 
				-from mlx_lm.models.cache import make_prompt_cache
			
 
				-import numpy as np
			
 
				-
			
 
				-from ..shard import Shard
			
 
				-class StatefulModel(nn.Module):
			
 
				-  def __init__(self, model, max_kv_size: int = 1024, max_caches: int = 2):
			
 
				-    super().__init__()
			
 
				-    self.model = model
			
 
				-    self.max_kv_size = max_kv_size
			
 
				-    self.max_caches = max_caches
			
 
				-    self.caches = OrderedDict()
			
 
				-  
			
 
				-  def __call__(self, x, request_id: Optional[str] = None, use_cache: bool = True):
			
 
				-    #print(f"StatefulModel in <- {x}")
			
 
				-    if use_cache and request_id is not None:
			
 
				-      if request_id not in self.caches:
			
 
				-        self.init_cache(request_id)
			
 
				-      else:
			
 
				-        self.caches.move_to_end(request_id)
			
 
				-
			
 
				-      cache = mx.array(self.caches[request_id])
			
 
				-      y = self.model(x, cache=cache)
			
 
				-    else:
			
 
				-      y = self.model(x)
			
 
				-    #print(f"StatefulModel out -> {y}")
			
 
				-    return y
			
 
				-    
			
--- a/exo/inference/mlx/test_sharded_llama.py
+++ b/exo/inference/mlx/test_sharded_llama.py
@@ -1,40 +0,0 @@
 
				-import mlx.core as mx
			
 
				-from exo.inference.mlx.stateful_model import StatefulModel
			
 
				-from exo.inference.mlx.sharded_utils import load_shard
			
 
				-from exo.inference.shard import Shard
			
 
				-
			
 
				-# 79, 80 for Llama-3-70B
			
 
				-shard_full = Shard("llama", 0, 31, 32)
			
 
				-shard1 = Shard("llama", 0, 12, 32)
			
 
				-shard2 = Shard("llama", 13, 31, 32)
			
 
				-
			
 
				-full_model_shard, full_tokenizer = load_shard("mlx-community/Meta-Llama-3-8B-Instruct-4bit", shard=shard_full)
			
 
				-model_shard1, tokenizer1 = load_shard("mlx-community/Meta-Llama-3-8B-Instruct-4bit", shard=shard1)
			
 
				-model_shard2, tokenizer2 = load_shard("mlx-community/Meta-Llama-3-8B-Instruct-4bit", shard=shard2)
			
 
				-
			
 
				-full = StatefulModel(shard_full, full_model_shard)
			
 
				-m1 = StatefulModel(shard1, model_shard1)
			
 
				-m2 = StatefulModel(shard2, model_shard2)
			
 
				-
			
 
				-prompt = "write a beautiful haiku about a utopia where people own their AI with edge intelligence:"
			
 
				-prompt_tokens = mx.array(full_tokenizer.encode(prompt))
			
 
				-max_tokens = 50
			
 
				-
			
 
				-resp = prompt_tokens
			
 
				-full_generated_tokens = []
			
 
				-for _ in range(max_tokens):
			
 
				-  resp = full.step(resp)
			
 
				-  full_generated_tokens.append(resp.item())
			
 
				-
			
 
				-print("full response: ", full_tokenizer.decode(full_generated_tokens))
			
 
				-
			
 
				-sharded_generated_tokens = []
			
 
				-sharded_resp = prompt_tokens
			
 
				-for _ in range(max_tokens):
			
 
				-  resp1 = m1.step(sharded_resp)
			
 
				-  sharded_resp = m2.step(resp1)
			
 
				-  sharded_generated_tokens.append(sharded_resp.item())
			
 
				-
			
 
				-print("sharded response: ", tokenizer1.decode(sharded_generated_tokens))
			
 
				-
			
 
				-assert tokenizer1.decode(full_generated_tokens) == tokenizer1.decode(sharded_generated_tokens)
			
--- a/exo/inference/mlx/test_sharded_llava.py
+++ b/exo/inference/mlx/test_sharded_llava.py
@@ -1,64 +0,0 @@
 
				-import codecs
			
 
				-import asyncio
			
 
				-import requests
			
 
				-from PIL import Image
			
 
				-from io import BytesIO
			
 
				-
			
 
				-import mlx.core as mx
			
 
				-from mlx_lm.models.cache import KVCache
			
 
				-
			
 
				-from exo.inference.mlx.stateful_model import StatefulModel
			
 
				-from exo.inference.mlx.sharded_utils import load_shard
			
 
				-from exo.inference.shard import Shard
			
 
				-
			
 
				-shard_full = Shard("llava", 0, 31, 32)
			
 
				-shard1 = Shard("llava", 0, 12, 32)
			
 
				-shard2 = Shard("llava", 13, 31, 32)
			
 
				-
			
 
				-model_path = "llava-hf/llava-1.5-7b-hf"
			
 
				-
			
 
				-full_model_shard, full_processor = asyncio.run(load_shard(model_path, shard=shard_full))
			
 
				-model_shard1, processor1 = asyncio.run(load_shard(model_path, shard=shard1))
			
 
				-model_shard2, processor2 = asyncio.run(load_shard(model_path, shard=shard2))
			
 
				-
			
 
				-full = StatefulShardedModel(shard_full, full_model_shard)
			
 
				-m1 = StatefulShardedModel(shard1, model_shard1)
			
 
				-m2 = StatefulShardedModel(shard2, model_shard2)
			
 
				-
			
 
				-PROMPT = "USER: <image>\nWhat are these?\nASSISTANT:"
			
 
				-IMAGE_FILE = "http://images.cocodataset.org/val2017/000000039769.jpg"
			
 
				-response = requests.get(IMAGE_FILE)
			
 
				-img = Image.open(BytesIO(response.content))
			
 
				-prompt = codecs.decode(PROMPT, "unicode_escape")
			
 
				-inputs = full_processor(prompt, img, return_tensors="np")
			
 
				-pixel_values = mx.array(inputs["pixel_values"])
			
 
				-input_ids = mx.array(inputs["input_ids"])
			
 
				-
			
 
				-print(prompt)
			
 
				-y = full.step("full", input_ids, pixel_values, temp=0)
			
 
				-full_generated_tokens = [y.item()]
			
 
				-
			
 
				-for _ in range(13):
			
 
				-  y = full.step("full", y, temp=0)
			
 
				-  full_generated_tokens.append(y.item())
			
 
				-
			
 
				-full_response = full_processor.tokenizer.decode(full_generated_tokens)
			
 
				-print("full response:", full_response)
			
 
				-
			
 
				-inputs = processor1(prompt, img, return_tensors="np")
			
 
				-pixel_values = mx.array(inputs["pixel_values"])
			
 
				-input_ids = mx.array(inputs["input_ids"])
			
 
				-
			
 
				-y = m1.step("shard", input_ids, pixel_values, temp=0)
			
 
				-y = m2.step("shard", y, temp=0)
			
 
				-full_generated_tokens = [y.item()]
			
 
				-
			
 
				-for _ in range(13):
			
 
				-  y = m1.step("shard", y, temp=0)
			
 
				-  y = m2.step("shard", y, temp=0)
			
 
				-  full_generated_tokens.append(y.item())
			
 
				-
			
 
				-sharded_response = processor2.tokenizer.decode(full_generated_tokens)
			
 
				-print("sharded response:", sharded_response)
			
 
				-
			
 
				-assert full_response == sharded_response