7 months ago · 2502ed20d2
--- a/exo/inference/dummy_inference_engine.py
+++ b/exo/inference/dummy_inference_engine.py
@@ -19,29 +19,24 @@ class DummyInferenceEngine(InferenceEngine):
 
															     self.eos_token_id = 0
														
 
															     self.latency_mean = 0.1
														
 
															     self.latency_stddev = 0.02
														
 
															+    self.num_generate_dummy_tokens = 10
														
 
															     self.tokenizer = DummyTokenizer()
														
 
															   async def encode(self, shard: Shard, prompt: str) -> np.ndarray:
														
 
															     return np.array(self.tokenizer.encode(prompt))
														
 
															   async def sample(self, x: np.ndarray) -> np.ndarray:
														
 
															-    if random.random() < 0.1:
														
 
															-      return np.array([self.tokenizer.eos_token_id])
														
 
															-    return np.array([np.random.randint(1, self.vocab_size)])
														
 
															+    print('sample', x)
														
 
															+    if x[0] > self.num_generate_dummy_tokens: return np.array([self.tokenizer.eos_token_id])
														
 
															+    return x
														
 
															   async def decode(self, shard: Shard, tokens: np.ndarray) -> str:
														
 
															     return self.tokenizer.decode(tokens)
														
 
															   async def infer_tensor(self, request_id: str, shard: Shard, input_data: np.ndarray) -> np.ndarray:
														
 
															     await self.ensure_shard(shard)
														
 
															-    sequence_length = input_data.shape[0 if self.shard.is_first_layer() else 1]
														
 
															-    output = np.random.random(size=(1, sequence_length, self.vocab_size if self.shard.is_last_layer() else self.hidden_size))
														
 
															-    return output
														
 
															+    return input_data + 1 if self.shard.is_last_layer() else input_data
														
 
															   async def ensure_shard(self, shard: Shard):
														
 
															-    if self.shard == shard:
														
 
															-      return
														
 
															-    # Simulate shard loading without making any API calls
														
 
															-    await asyncio.sleep(0.1)  # Simulate a short delay
														
 
															+    if self.shard == shard: return
														
 
															     self.shard = shard
														
 
															-    print(f"DummyInferenceEngine: Simulated loading of shard {shard.model_id}")
														
--- a/exo/inference/tokenizers.py
+++ b/exo/inference/tokenizers.py
@@ -18,7 +18,7 @@ class DummyTokenizer:
 
															     return "dummy_tokenized_prompt"
														
 
															   def encode(self, text):
														
 
															-    return np.random.randint(1, self.vocab_size, size=(1, len(text.split())))
														
 
															+    return np.array([1])
														
 
															   def decode(self, tokens):
														
 
															     return "dummy" * len(tokens)