1 year ago · 1475c735c9
--- a/exo/inference/tinygrad/inference.py
+++ b/exo/inference/tinygrad/inference.py
@@ -137,15 +137,10 @@ class TinygradDynamicShardInferenceEngine(InferenceEngine):
 
															         self.shard = None
														
 
															     async def infer_prompt(self, shard: Shard, prompt: str, inference_state: Optional[str] = None) -> (np.ndarray, str, bool):
														
 
															-        def encode_role(role: str):
														
 
															-            return [self.tokenizer.special_tokens["<|start_header_id|>"]] + self.tokenizer.encode(role) + [self.tokenizer.special_tokens["<|end_header_id|>"]] + self.tokenizer.encode("\n\n")
														
 
															-        def encode_message(role: str, content: str):
														
 
															-            return encode_role(role) + self.tokenizer.encode(content.strip()) + [self.tokenizer.special_tokens["<|eot_id|>"]]
														
 
															-
														
 
															         await self.ensure_shard(shard)
														
 
															-        start_pos = json.loads(inference_state)["start_pos"] if inference_state else 0
														
 
															+        start_pos = json.loads(inference_state).get("start_pos", 0) if inference_state else 0
														
 
															-        toks = [self.tokenizer.bos_id] + encode_message("user", prompt) + encode_role("assistant")
														
 
															+        toks = self.tokenizer.encode(prompt)
														
 
															         start_pos = prefill(self.model, toks[:-1], start_pos=start_pos)
														
 
															         last_tok = toks[-1]
														
@@ -157,8 +152,8 @@ class TinygradDynamicShardInferenceEngine(InferenceEngine):
 
															     async def infer_tensor(self, shard: Shard, input_data: np.ndarray, inference_state: Optional[str] = None) -> (np.ndarray, str, bool):
														
 
															         await self.ensure_shard(shard)
														
 
															+        start_pos = json.loads(inference_state).get("start_pos", 0) if inference_state else 0
														
 
															-        start_pos = json.loads(inference_state)["start_pos"] if inference_state else 0
														
 
															         output_data: np.ndarray = np.array([self.model(Tensor([input_data]), start_pos, TEMPERATURE, TOP_K, TOP_P, ALPHA_F, ALPHA_P).tolist()])
														
 
															         if output_data.size == 1:
														
 
															            start_pos += 1
														
--- a/exo/networking/grpc/grpc_peer_handle.py
+++ b/exo/networking/grpc/grpc_peer_handle.py
@@ -40,8 +40,8 @@ class GRPCPeerHandle(PeerHandle):
 
															         self.channel = None
														
 
															         self.stub = None
														
 
															-    async def send_prompt(self, shard: Shard, prompt: str, request_id: Optional[str] = None) -> Optional[np.array]:
														
 
															-        request = node_service_pb2.PromptRequest(prompt=prompt, shard=node_service_pb2.Shard(model_id=shard.model_id, start_layer=shard.start_layer, end_layer=shard.end_layer, n_layers=shard.n_layers), request_id=request_id)
														
 
															+    async def send_prompt(self, shard: Shard, prompt: str, request_id: Optional[str] = None, inference_state: Optional[str] = None) -> Optional[np.array]:
														
 
															+        request = node_service_pb2.PromptRequest(prompt=prompt, shard=node_service_pb2.Shard(model_id=shard.model_id, start_layer=shard.start_layer, end_layer=shard.end_layer, n_layers=shard.n_layers), request_id=request_id, inference_state=inference_state)
														
 
															         response = await self.stub.SendPrompt(request)
														
 
															         if not response.tensor_data or not response.shape or not response.dtype:
														
@@ -49,7 +49,7 @@ class GRPCPeerHandle(PeerHandle):
 
															         return np.frombuffer(response.tensor_data, dtype=np.dtype(response.dtype)).reshape(response.shape)
														
 
															-    async def send_tensor(self, shard: Shard, tensor: np.ndarray, request_id: Optional[str] = None) -> Optional[np.array]:
														
 
															+    async def send_tensor(self, shard: Shard, tensor: np.ndarray, request_id: Optional[str] = None, inference_state: Optional[str] = None) -> Optional[np.array]:
														
 
															         request = node_service_pb2.TensorRequest(
														
 
															             shard=node_service_pb2.Shard(model_id=shard.model_id, start_layer=shard.start_layer, end_layer=shard.end_layer, n_layers=shard.n_layers),
														
 
															             tensor = node_service_pb2.Tensor(
														
@@ -57,7 +57,8 @@ class GRPCPeerHandle(PeerHandle):
 
															                 shape=tensor.shape,
														
 
															                 dtype=str(tensor.dtype)
														
 
															             ),
														
 
															-            request_id=request_id
														
 
															+            request_id=request_id,
														
 
															+            inference_state=inference_state
														
 
															         )
														
 
															         response = await self.stub.SendTensor(request)
														
--- a/exo/networking/grpc/node_service.proto
+++ b/exo/networking/grpc/node_service.proto
@@ -23,15 +23,15 @@ message Shard {
 
															 message PromptRequest {
														
 
															   Shard shard = 1;
														
 
															   string prompt = 2;
														
 
															-  optional string inference_state = 3;
														
 
															-  optional string request_id = 4;
														
 
															+  optional string request_id = 3;
														
 
															+  optional string inference_state = 4;
														
 
															 }
														
 
															 message TensorRequest {
														
 
															   Shard shard = 1;
														
 
															   Tensor tensor = 2;
														
 
															-  optional string inference_state = 3;
														
 
															-  optional string request_id = 4;
														
 
															+  optional string request_id = 3;
														
 
															+  optional string inference_state = 4;
														
 
															 }
														
 
															 message GetInferenceResultRequest {
														
--- a/exo/networking/grpc/node_service_pb2.py
+++ b/exo/networking/grpc/node_service_pb2.py
--- a/exo/networking/peer_handle.py
+++ b/exo/networking/peer_handle.py
@@ -27,11 +27,11 @@ class PeerHandle(ABC):
 
															         pass
														
 
															     @abstractmethod
														
 
															-    async def send_prompt(self, shard: Shard, prompt: str, request_id: Optional[str] = None) -> Optional[np.array]:
														
 
															+    async def send_prompt(self, shard: Shard, prompt: str, request_id: Optional[str] = None, inference_state: Optional[str] = None) -> Optional[np.array]:
														
 
															         pass
														
 
															     @abstractmethod
														
 
															-    async def send_tensor(self, shard: Shard, tensor: np.array, request_id: Optional[str] = None) -> Optional[np.array]:
														
 
															+    async def send_tensor(self, shard: Shard, tensor: np.array, request_id: Optional[str] = None, inference_state: Optional[str] = None) -> Optional[np.array]:
														
 
															         pass
														
 
															     @abstractmethod
														
--- a/exo/orchestration/standard_node.py
+++ b/exo/orchestration/standard_node.py
@@ -166,9 +166,9 @@ class StandardNode(Node):
 
															             if DEBUG >= 1: print(f"Sending tensor_or_prompt to {target_peer.id()}: {tensor_or_prompt}")
														
 
															             if isinstance(tensor_or_prompt, np.ndarray):
														
 
															-                await target_peer.send_tensor(next_shard, tensor_or_prompt, request_id)
														
 
															+                await target_peer.send_tensor(next_shard, tensor_or_prompt, request_id=request_id, inference_state=inference_state)
														
 
															             else:
														
 
															-                await target_peer.send_prompt(next_shard, tensor_or_prompt, request_id)
														
 
															+                await target_peer.send_prompt(next_shard, tensor_or_prompt, request_id=request_id, inference_state=inference_state)
														
 
															     def get_current_shard(self, base_shard: Shard) -> Shard:
														
 
															         partitions = self.partitioning_strategy.partition(self.topology)