11 сар өмнө · 4e46232364
--- a/exo/orchestration/standard_node.py
+++ b/exo/orchestration/standard_node.py
@@ -28,7 +28,7 @@ class StandardNode(Node):
 
															         self.topology_viz = TopologyViz(chatgpt_api_endpoint=chatgpt_api_endpoint, web_chat_url=web_chat_url) if not disable_tui else None
														
 
															         self.max_generate_tokens = max_generate_tokens
														
 
															         self._on_token = AsyncCallbackSystem[str, Tuple[str, List[int], bool]]()
														
 
															-        self._on_opaque_status = AsyncCallbackSystem[str, str]()
														
 
															+        self._on_opaque_status = AsyncCallbackSystem[str, Tuple[str, str]]()
														
 
															         self._on_opaque_status.register("node_status").on_next(self.on_node_status)
														
 
															     def on_node_status(self, request_id, opaque_status):
														
@@ -275,7 +275,7 @@ class StandardNode(Node):
 
															         return self._on_token
														
 
															     @property
														
 
															-    def on_opaque_status(self) -> AsyncCallbackSystem[str, str]:
														
 
															+    def on_opaque_status(self) -> AsyncCallbackSystem[str, Tuple[str, str]]:
														
 
															         return self._on_opaque_status
														
 
															     def trigger_on_token_callbacks(self, request_id: str, tokens: List[int], is_finished: bool) -> None:
														
@@ -296,8 +296,19 @@ class StandardNode(Node):
 
															         await asyncio.gather(*[send_result_to_peer(peer) for peer in self.peers], return_exceptions=True)
														
 
															     async def broadcast_opaque_status(self, request_id: str, status: str) -> None:
														
 
															-        for peer in self.peers:
														
 
															-            await peer.send_opaque_status(request_id, status)
														
 
															+        async def send_status_to_peer(peer):
														
 
															+            try:
														
 
															+                await asyncio.wait_for(peer.send_opaque_status(request_id, status), timeout=15.0)
														
 
															+            except asyncio.TimeoutError:
														
 
															+                print(f"Timeout sending opaque status to {peer.id()}")
														
 
															+            except Exception as e:
														
 
															+                print(f"Error sending opaque status to {peer.id()}: {e}")
														
 
															+                import traceback
														
 
															+                traceback.print_exc()
														
 
															+
														
 
															+        await asyncio.gather(*[send_status_to_peer(peer) for peer in self.peers], return_exceptions=True)
														
 
															+        # in the case of opaque status, we also want to receive our own opaque statuses
														
 
															+        self.on_opaque_status.trigger_all(request_id, status)
														
 
															     @property
														
 
															     def current_topology(self) -> Topology:
														
--- a/exo/stats/__init__.py
+++ b/exo/stats/__init__.py
--- a/exo/stats/docker-compose-stats.yml
+++ b/exo/stats/docker-compose-stats.yml
@@ -0,0 +1,27 @@
 
															+version: '3.8'
														
 
															+
														
 
															+services:
														
 
															+  prometheus:
														
 
															+    image: prom/prometheus:latest
														
 
															+    container_name: prometheus
														
 
															+    volumes:
														
 
															+      - ./prometheus.yml:/etc/prometheus/prometheus.yml
														
 
															+    command:
														
 
															+      - '--config.file=/etc/prometheus/prometheus.yml'
														
 
															+    ports:
														
 
															+      - "9090:9090"
														
 
															+    networks:
														
 
															+      - monitoring
														
 
															+
														
 
															+  grafana:
														
 
															+    image: grafana/grafana:latest
														
 
															+    container_name: grafana
														
 
															+    ports:
														
 
															+      - "3000:3000"
														
 
															+    networks:
														
 
															+      - monitoring
														
 
															+    depends_on:
														
 
															+      - prometheus
														
 
															+
														
 
															+networks:
														
 
															+  monitoring:
														
--- a/exo/stats/metrics.py
+++ b/exo/stats/metrics.py
@@ -0,0 +1,28 @@
 
															+from exo.orchestration import Node
														
 
															+from prometheus_client import start_http_server, Counter, Histogram
														
 
															+import json
														
 
															+from typing import List
														
 
															+
														
 
															+# Create metrics to track time spent and requests made.
														
 
															+PROCESS_PROMPT_COUNTER = Counter('process_prompt_total', 'Total number of prompts processed', ['node_id'])
														
 
															+PROCESS_TENSOR_COUNTER = Counter('process_tensor_total', 'Total number of tensors processed', ['node_id'])
														
 
															+PROCESS_TENSOR_TIME = Histogram('process_tensor_seconds', 'Time spent processing tensor', ['node_id'])
														
 
															+
														
 
															+def start_metrics_server(node: Node, port: int):
														
 
															+    start_http_server(port)
														
 
															+
														
 
															+    def _on_opaque_status(request_id, opaque_status: str):
														
 
															+        status_data = json.loads(opaque_status)
														
 
															+        type = status_data.get("type", "")
														
 
															+        node_id = status_data.get("node_id", "")
														
 
															+        if type != "node_status": return
														
 
															+        status = status_data.get("status", "")
														
 
															+
														
 
															+        if status == "end_process_prompt":
														
 
															+            PROCESS_PROMPT_COUNTER.labels(node_id=node_id).inc()
														
 
															+        elif status == "end_process_tensor":
														
 
															+            elapsed_time_ns = status_data.get("elapsed_time_ns", 0)
														
 
															+            PROCESS_TENSOR_COUNTER.labels(node_id=node_id).inc()
														
 
															+            PROCESS_TENSOR_TIME.labels(node_id=node_id).observe(elapsed_time_ns / 1e9)  # Convert ns to seconds
														
 
															+
														
 
															+    node.on_opaque_status.register("stats").on_next(_on_opaque_status)
														
--- a/exo/stats/prometheus.yml
+++ b/exo/stats/prometheus.yml
@@ -0,0 +1,7 @@
 
															+global:
														
 
															+  scrape_interval: 15s
														
 
															+
														
 
															+scrape_configs:
														
 
															+  - job_name: 'exo-node'
														
 
															+    static_configs:
														
 
															+      - targets: ['host.docker.internal:8005']
														
--- a/main.py
+++ b/main.py
@@ -16,6 +16,7 @@ parser.add_argument("--node-id", type=str, default=str(uuid.uuid4()), help="Node
 
															 parser.add_argument("--node-host", type=str, default="0.0.0.0", help="Node host")
														
 
															 parser.add_argument("--node-port", type=int, default=None, help="Node port")
														
 
															 parser.add_argument("--listen-port", type=int, default=5678, help="Listening port for discovery")
														
 
															+parser.add_argument("--prometheus-client-port", type=int, default=None, help="Prometheus client port")
														
 
															 parser.add_argument("--broadcast-port", type=int, default=5678, help="Broadcast port for discovery")
														
 
															 parser.add_argument("--wait-for-peers", type=int, default=0, help="Number of peers to wait to connect to before starting")
														
 
															 parser.add_argument("--chatgpt-api-port", type=int, default=8000, help="ChatGPT API port")
														
@@ -41,8 +42,10 @@ node = StandardNode(args.node_id, None, inference_engine, discovery, partitionin
 
															 server = GRPCServer(node, args.node_host, args.node_port)
														
 
															 node.server = server
														
 
															 api = ChatGPTAPI(node, inference_engine.__class__.__name__, response_timeout_secs=args.chatgpt_api_response_timeout_secs)
														
 
															-
														
 
															 node.on_token.register("main_log").on_next(lambda _, tokens , __: print(inference_engine.tokenizer.decode(tokens) if hasattr(inference_engine, "tokenizer") else tokens))
														
 
															+if args.prometheus_client_port:
														
 
															+    from exo.stats.metrics import start_metrics_server
														
 
															+    start_metrics_server(node, args.prometheus_client_port)
														
 
															 async def shutdown(signal, loop):
														
 
															     """Gracefully shutdown the server and close the asyncio loop."""
														
--- a/setup.py
+++ b/setup.py
@@ -11,6 +11,7 @@ install_requires = [
 
															     "huggingface-hub==0.23.4",
														
 
															     "Jinja2==3.1.4",
														
 
															     "numpy==2.0.0",
														
 
															+    "prometheus-client==0.20.0",
														
 
															     "protobuf==5.27.1",
														
 
															     "psutil==6.0.0",
														
 
															     "pynvml==11.5.3",