1 year ago · 5bbde22a23
--- a/example_user.py
+++ b/example_user.py
@@ -2,11 +2,11 @@
 
				 # They are prompting the cluster to generate a response to a question.
			
 
				 # The cluster is given the question, and the user is given the response.
			
 
				 
			
 
				-from inference.mlx.sharded_utils import get_model_path, load_tokenizer
			
 
				-from inference.shard import Shard
			
 
				-from networking.peer_handle import PeerHandle
			
 
				-from networking.grpc.grpc_peer_handle import GRPCPeerHandle
			
 
				-from topology.device_capabilities import DeviceCapabilities
			
 
				+from exo.inference.mlx.sharded_utils import get_model_path, load_tokenizer
			
 
				+from exo.inference.shard import Shard
			
 
				+from exo.networking.peer_handle import PeerHandle
			
 
				+from exo.networking.grpc.grpc_peer_handle import GRPCPeerHandle
			
 
				+from exo.topology.device_capabilities import DeviceCapabilities
			
 
				 from typing import List
			
 
				 import asyncio
			
 
				 import argparse
			
--- a/example_user_2.py
+++ b/example_user_2.py
@@ -2,11 +2,11 @@
 
				 # They are prompting the cluster to generate a response to a question.
			
 
				 # The cluster is given the question, and the user is given the response.
			
 
				 
			
 
				-from inference.mlx.sharded_utils import get_model_path, load_tokenizer
			
 
				-from inference.shard import Shard
			
 
				-from networking.peer_handle import PeerHandle
			
 
				-from networking.grpc.grpc_peer_handle import GRPCPeerHandle
			
 
				-from topology.device_capabilities import DeviceCapabilities
			
 
				+from exo.inference.mlx.sharded_utils import get_model_path, load_tokenizer
			
 
				+from exo.inference.shard import Shard
			
 
				+from exo.networking.peer_handle import PeerHandle
			
 
				+from exo.networking.grpc.grpc_peer_handle import GRPCPeerHandle
			
 
				+from exo.topology.device_capabilities import DeviceCapabilities
			
 
				 from typing import List
			
 
				 import asyncio
			
 
				 import argparse
			
--- a/inference/__init__.py
+++ b/inference/__init__.py
--- a/exo/inference/__init__.py
+++ b/exo/inference/__init__.py
--- a/exo/inference/inference_engine.py
+++ b/exo/inference/inference_engine.py
--- a/inference/mlx/models/__init__.py
+++ b/inference/mlx/models/__init__.py
--- a/exo/inference/mlx/models/__init__.py
+++ b/exo/inference/mlx/models/__init__.py
--- a/exo/inference/mlx/models/sharded_llama.py
+++ b/exo/inference/mlx/models/sharded_llama.py
--- a/exo/inference/mlx/sharded_inference_engine.py
+++ b/exo/inference/mlx/sharded_inference_engine.py
--- a/exo/inference/mlx/sharded_model.py
+++ b/exo/inference/mlx/sharded_model.py
--- a/exo/inference/mlx/sharded_utils.py
+++ b/exo/inference/mlx/sharded_utils.py
--- a/exo/inference/mlx/test_sharded_llama.py
+++ b/exo/inference/mlx/test_sharded_llama.py
@@ -1,7 +1,7 @@
 
				 import mlx.core as mx
			
 
				-from inference.mlx.sharded_model import StatefulShardedModel
			
 
				-from inference.mlx.sharded_utils import load_shard
			
 
				-from inference.shard import Shard
			
 
				+from exo.inference.mlx.sharded_model import StatefulShardedModel
			
 
				+from exo.inference.mlx.sharded_utils import load_shard
			
 
				+from exo.inference.shard import Shard
			
 
				 
			
 
				 shard_full = Shard("llama", 0, 31, 32)
			
 
				 shard1 = Shard("llama", 0, 12, 32)
			
--- a/exo/inference/mlx/test_sharded_model.py
+++ b/exo/inference/mlx/test_sharded_model.py
@@ -1,5 +1,5 @@
 
				-from inference.shard import Shard
			
 
				-from inference.mlx.sharded_model import StatefulShardedModel
			
 
				+from exo.inference.shard import Shard
			
 
				+from exo.inference.mlx.sharded_model import StatefulShardedModel
			
 
				 import mlx.core as mx
			
 
				 import mlx.nn as nn
			
 
				 from typing import Optional
			
--- a/exo/inference/shard.py
+++ b/exo/inference/shard.py
--- a/exo/inference/test_inference_engine.py
+++ b/exo/inference/test_inference_engine.py
@@ -1,7 +1,7 @@
 
				-from inference.mlx.sharded_inference_engine import MLXDynamicShardInferenceEngine
			
 
				-from inference.inference_engine import InferenceEngine
			
 
				-from inference.shard import Shard
			
 
				-from inference.tinygrad.inference import TinygradDynamicShardInferenceEngine
			
 
				+from exo.inference.mlx.sharded_inference_engine import MLXDynamicShardInferenceEngine
			
 
				+from exo.inference.inference_engine import InferenceEngine
			
 
				+from exo.inference.shard import Shard
			
 
				+from exo.inference.tinygrad.inference import TinygradDynamicShardInferenceEngine
			
 
				 import numpy as np
			
 
				 
			
 
				 # An inference engine should work the same for any number of Shards, as long as the Shards are continuous.
			
--- a/exo/inference/tinygrad/inference.py
+++ b/exo/inference/tinygrad/inference.py
@@ -4,12 +4,12 @@ from typing import List
 
				 import json, argparse, random, time
			
 
				 import tiktoken
			
 
				 from tiktoken.load import load_tiktoken_bpe
			
 
				-from inference.tinygrad.models.llama import Transformer, convert_from_huggingface, fix_bf16
			
 
				+from exo.inference.tinygrad.models.llama import Transformer, convert_from_huggingface, fix_bf16
			
 
				 from tinygrad.nn.state import safe_load, torch_load, load_state_dict, get_parameters
			
 
				 from tinygrad import Tensor, dtypes, nn, Context, Device, GlobalCounters
			
 
				 from tinygrad.helpers import Profiling, Timing, DEBUG, colored, fetch, tqdm
			
 
				-from inference.shard import Shard
			
 
				-from inference.inference_engine import InferenceEngine
			
 
				+from exo.inference.shard import Shard
			
 
				+from exo.inference.inference_engine import InferenceEngine
			
 
				 import numpy as np
			
 
				 
			
 
				 MODEL_PARAMS = {
			
--- a/exo/inference/tinygrad/models/llama.py
+++ b/exo/inference/tinygrad/models/llama.py
--- a/exo/networking/__init__.py
+++ b/exo/networking/__init__.py
--- a/exo/networking/discovery.py
+++ b/exo/networking/discovery.py
--- a/exo/networking/grpc/__init__.py
+++ b/exo/networking/grpc/__init__.py
--- a/exo/networking/grpc/grpc_discovery.py
+++ b/exo/networking/grpc/grpc_discovery.py
@@ -6,7 +6,7 @@ from typing import List, Dict
 
				 from ..discovery import Discovery
			
 
				 from ..peer_handle import PeerHandle
			
 
				 from .grpc_peer_handle import GRPCPeerHandle
			
 
				-from topology.device_capabilities import DeviceCapabilities, device_capabilities
			
 
				+from exo.topology.device_capabilities import DeviceCapabilities, device_capabilities
			
 
				 
			
 
				 class GRPCDiscovery(Discovery):
			
 
				     def __init__(self, node_id: str, node_port: int, listen_port: int, broadcast_port: int = None, broadcast_interval: int = 1, device_capabilities=None):
			
--- a/exo/networking/grpc/grpc_peer_handle.py
+++ b/exo/networking/grpc/grpc_peer_handle.py
@@ -7,9 +7,9 @@ from . import node_service_pb2
 
				 from . import node_service_pb2_grpc
			
 
				 
			
 
				 from ..peer_handle import PeerHandle
			
 
				-from inference.shard import Shard
			
 
				-from topology.topology import Topology
			
 
				-from topology.device_capabilities import DeviceCapabilities
			
 
				+from exo.inference.shard import Shard
			
 
				+from exo.topology.topology import Topology
			
 
				+from exo.topology.device_capabilities import DeviceCapabilities
			
 
				 
			
 
				 class GRPCPeerHandle(PeerHandle):
			
 
				     def __init__(self, id: str, address: str, device_capabilities: DeviceCapabilities):
			
--- a/exo/networking/grpc/grpc_server.py
+++ b/exo/networking/grpc/grpc_server.py
@@ -4,9 +4,9 @@ import numpy as np
 
				 
			
 
				 from . import node_service_pb2
			
 
				 from . import node_service_pb2_grpc
			
 
				-from inference.shard import Shard
			
 
				+from exo.inference.shard import Shard
			
 
				 
			
 
				-from orchestration import Node
			
 
				+from exo.orchestration import Node
			
 
				 
			
 
				 import uuid
			
 
				 
			
--- a/exo/networking/grpc/node_service.proto
+++ b/exo/networking/grpc/node_service.proto
--- a/exo/networking/grpc/node_service_pb2.py
+++ b/exo/networking/grpc/node_service_pb2.py
--- a/exo/networking/grpc/node_service_pb2_grpc.py
+++ b/exo/networking/grpc/node_service_pb2_grpc.py
--- a/exo/networking/grpc/test_grpc_discovery.py
+++ b/exo/networking/grpc/test_grpc_discovery.py
--- a/exo/networking/peer_handle.py
+++ b/exo/networking/peer_handle.py
@@ -1,9 +1,9 @@
 
				 from abc import ABC, abstractmethod
			
 
				 from typing import Optional, Tuple
			
 
				 import numpy as np
			
 
				-from inference.shard import Shard
			
 
				-from topology.device_capabilities import DeviceCapabilities
			
 
				-from topology.topology import Topology
			
 
				+from exo.inference.shard import Shard
			
 
				+from exo.topology.device_capabilities import DeviceCapabilities
			
 
				+from exo.topology.topology import Topology
			
 
				 
			
 
				 class PeerHandle(ABC):
			
 
				     @abstractmethod
			
--- a/exo/networking/server.py
+++ b/exo/networking/server.py
--- a/exo/orchestration/__init__.py
+++ b/exo/orchestration/__init__.py
--- a/exo/orchestration/node.py
+++ b/exo/orchestration/node.py
@@ -1,8 +1,8 @@
 
				 from typing import Optional, Tuple
			
 
				 import numpy as np
			
 
				 from abc import ABC, abstractmethod
			
 
				-from inference.shard import Shard
			
 
				-from topology.topology import Topology
			
 
				+from exo.inference.shard import Shard
			
 
				+from exo.topology.topology import Topology
			
 
				 
			
 
				 class Node(ABC):
			
 
				     @abstractmethod
			
--- a/exo/orchestration/standard_node.py
+++ b/exo/orchestration/standard_node.py
@@ -1,12 +1,12 @@
 
				 from typing import List, Dict, Optional, Callable, Tuple
			
 
				 import numpy as np
			
 
				-from networking import Discovery, PeerHandle, Server
			
 
				-from inference.inference_engine import InferenceEngine, Shard
			
 
				+from exo.networking import Discovery, PeerHandle, Server
			
 
				+from exo.inference.inference_engine import InferenceEngine, Shard
			
 
				 from .node import Node
			
 
				-from topology.topology import Topology
			
 
				-from topology.device_capabilities import device_capabilities
			
 
				-from topology.partitioning_strategy import PartitioningStrategy
			
 
				-from topology.partitioning_strategy import Partition
			
 
				+from exo.topology.topology import Topology
			
 
				+from exo.topology.device_capabilities import device_capabilities
			
 
				+from exo.topology.partitioning_strategy import PartitioningStrategy
			
 
				+from exo.topology.partitioning_strategy import Partition
			
 
				 import asyncio
			
 
				 import uuid
			
 
				 
			
--- a/exo/orchestration/test_node.py
+++ b/exo/orchestration/test_node.py
@@ -3,7 +3,7 @@ from unittest.mock import Mock, AsyncMock
 
				 import numpy as np
			
 
				 
			
 
				 from .standard_node import StandardNode
			
 
				-from networking.peer_handle import PeerHandle
			
 
				+from exo.networking.peer_handle import PeerHandle
			
 
				 
			
 
				 class TestNode(unittest.IsolatedAsyncioTestCase):
			
 
				     def setUp(self):
			
--- a/exo/topology/__init__.py
+++ b/exo/topology/__init__.py
--- a/exo/topology/device_capabilities.py
+++ b/exo/topology/device_capabilities.py
--- a/exo/topology/partitioning_strategy.py
+++ b/exo/topology/partitioning_strategy.py
@@ -1,8 +1,8 @@
 
				 from abc import ABC, abstractmethod
			
 
				 from typing import List, Optional
			
 
				 from dataclasses import dataclass
			
 
				-from inference.shard import Shard
			
 
				-from networking.peer_handle import PeerHandle
			
 
				+from exo.inference.shard import Shard
			
 
				+from exo.networking.peer_handle import PeerHandle
			
 
				 from .topology import Topology
			
 
				 
			
 
				 # Partitions shard-space into pieces of contiguous shards, represented by floating point range [start, end) between 0 and 1
			
--- a/exo/topology/ring_memory_weighted_partitioning_strategy.py
+++ b/exo/topology/ring_memory_weighted_partitioning_strategy.py
@@ -1,6 +1,6 @@
 
				 from typing import List
			
 
				 from .partitioning_strategy import PartitioningStrategy
			
 
				-from inference.shard import Shard
			
 
				+from exo.inference.shard import Shard
			
 
				 from .topology import Topology
			
 
				 from .partitioning_strategy import Partition
			
 
				 
			
--- a/exo/topology/test_device_capabilities.py
+++ b/exo/topology/test_device_capabilities.py
@@ -1,6 +1,6 @@
 
				 import unittest
			
 
				 from unittest.mock import patch
			
 
				-from topology.device_capabilities import mac_device_capabilities, DeviceCapabilities
			
 
				+from exo.topology.device_capabilities import mac_device_capabilities, DeviceCapabilities
			
 
				 
			
 
				 class TestMacDeviceCapabilities(unittest.TestCase):
			
 
				     @patch('subprocess.check_output')
			
--- a/exo/topology/test_ring_memory_weighted_partitioning_strategy.py
+++ b/exo/topology/test_ring_memory_weighted_partitioning_strategy.py
--- a/exo/topology/topology.py
+++ b/exo/topology/topology.py
--- a/main.py
+++ b/main.py
@@ -3,12 +3,12 @@ import asyncio
 
				 import signal
			
 
				 import mlx.core as mx
			
 
				 import mlx.nn as nn
			
 
				-from orchestration.standard_node import StandardNode
			
 
				-from networking.grpc.grpc_server import GRPCServer
			
 
				-from inference.mlx.sharded_inference_engine import MLXFixedShardInferenceEngine
			
 
				-from inference.shard import Shard
			
 
				-from networking.grpc.grpc_discovery import GRPCDiscovery
			
 
				-from topology.ring_memory_weighted_partitioning_strategy import RingMemoryWeightedPartitioningStrategy
			
 
				+from exo.orchestration.standard_node import StandardNode
			
 
				+from exo.networking.grpc.grpc_server import GRPCServer
			
 
				+from exo.inference.mlx.sharded_inference_engine import MLXFixedShardInferenceEngine
			
 
				+from exo.inference.shard import Shard
			
 
				+from exo.networking.grpc.grpc_discovery import GRPCDiscovery
			
 
				+from exo.topology.ring_memory_weighted_partitioning_strategy import RingMemoryWeightedPartitioningStrategy
			
 
				 
			
 
				 # parse args
			
 
				 parser = argparse.ArgumentParser(description="Initialize GRPC Discovery")
			
--- a/main_dynamic.py
+++ b/main_dynamic.py
@@ -4,12 +4,12 @@ import signal
 
				 import mlx.core as mx
			
 
				 import mlx.nn as nn
			
 
				 from typing import List
			
 
				-from orchestration.standard_node import StandardNode
			
 
				-from networking.grpc.grpc_server import GRPCServer
			
 
				-from inference.mlx.sharded_inference_engine import MLXDynamicShardInferenceEngine
			
 
				-from inference.shard import Shard
			
 
				-from networking.grpc.grpc_discovery import GRPCDiscovery
			
 
				-from topology.ring_memory_weighted_partitioning_strategy import RingMemoryWeightedPartitioningStrategy
			
 
				+from exo.orchestration.standard_node import StandardNode
			
 
				+from exo.networking.grpc.grpc_server import GRPCServer
			
 
				+from exo.inference.mlx.sharded_inference_engine import MLXDynamicShardInferenceEngine
			
 
				+from exo.inference.shard import Shard
			
 
				+from exo.networking.grpc.grpc_discovery import GRPCDiscovery
			
 
				+from exo.topology.ring_memory_weighted_partitioning_strategy import RingMemoryWeightedPartitioningStrategy
			
 
				 
			
 
				 # parse args
			
 
				 parser = argparse.ArgumentParser(description="Initialize GRPC Discovery")