8 月之前 · 836856824e
--- a/exo/inference/inference_engine.py
+++ b/exo/inference/inference_engine.py
@@ -24,6 +24,20 @@ class InferenceEngine(ABC):
 
															   async def infer_tensor(self, request_id: str, shard: Shard, input_data: np.ndarray) -> np.ndarray:
														
 
															     pass
														
 
															+  async def save_session(self, key, value):
														
 
															+    self.session[key] = value
														
 
															+  
														
 
															+  async def ensure_session(self, key, value_gen):
														
 
															+    if key not in self.session:
														
 
															+      await self.save_session(key, value_gen())
														
 
															+  
														
 
															+  async def ensure_session_match(self, key, check, value_gen):
														
 
															+    if key not in self.session or not check(self.session[key]):
														
 
															+      await self.save_session(key, value_gen())
														
 
															+  
														
 
															+  async def clear_session(self):
														
 
															+    session.empty()
														
 
															+  
														
 
															   async def infer_prompt(self, request_id: str, shard: Shard, prompt: str) -> np.ndarray:
														
 
															     tokens = await self.encode(shard, prompt)
														
 
															     x = tokens.reshape(1, -1)
														
--- a/exo/inference/mlx/losses.py
+++ b/exo/inference/mlx/losses.py
@@ -2,15 +2,13 @@ import mlx.core as mx
 
															 import mlx.nn as nn
														
 
															 def length_masked_ce_loss(model, inputs, targets, lengths):
														
 
															   # Run model on inputs
														
 
															-  logits = model(inputs)
														
 
															-  logits = logits.astype(mx.float32)
														
 
															+  logits = model(inputs).astype(mx.float32)
														
 
															   # Mask padding tokens
														
 
															   length_mask = mx.arange(inputs.shape[1])[None, :] < lengths[:, None]
														
 
															   # Calculate the loss
														
 
															   ce = nn.losses.cross_entropy(logits, targets) * length_mask
														
 
															-  ntoks = length_mask.sum()
														
 
															-  ce = ce.sum() / ntoks
														
 
															-  return ce
														
 
															+  loss = ce.sum() / length_mask.sum()
														
 
															+  return loss
														
--- a/exo/inference/mlx/sharded_inference_engine.py
+++ b/exo/inference/mlx/sharded_inference_engine.py
@@ -2,6 +2,7 @@ import numpy as np
 
															 import mlx.core as mx
														
 
															 import mlx.nn as nn
														
 
															 from mlx_lm.sample_utils import top_p_sampling
														
 
															+import mlx.optimizers as optim
														
 
															 from ..inference_engine import InferenceEngine
														
 
															 from .stateful_model import StatefulModel
														
 
															 from .sharded_utils import load_shard, get_image_from_str
														
@@ -38,6 +39,7 @@ class MLXDynamicShardInferenceEngine(InferenceEngine):
 
															     self.shard = None
														
 
															     self.shard_downloader = shard_downloader
														
 
															     self.executor = ThreadPoolExecutor(max_workers=1)
														
 
															+    self.session = {}
														
 
															   async def sample(self, x, temp: float = 0.0, top_p: float = 1.0) -> np.ndarray:
														
 
															     y = mx.array(x)
														
@@ -61,6 +63,34 @@ class MLXDynamicShardInferenceEngine(InferenceEngine):
 
															     output_data: np.ndarray = np.array(await asyncio.get_running_loop().run_in_executor(self.executor, self.model, mx.array(input_data), request_id))
														
 
															     #print(f"infer_tensor out -> {output_data}")
														
 
															     return output_data
														
 
															+  
														
 
															+  async def evaluate(self, request_id: str, shard: Shard, inputs, targets, lengths, loss=length_masked_ce_loss):
														
 
															+    await self.ensure_shard(shard)
														
 
															+    await self.ensure_session('loss', lambda: loss)
														
 
															+    await self.ensure_session('task', lambda: ('eval', self.model.eval()))
														
 
															+    #print(f"evaluate in <- {inputs}")
														
 
															+    x = mx.array(inputs).astype(mx.int64) if self.shard.is_first_layer() else mx.array(inputs)
														
 
															+    y = mx.array(targets).astype(mx.int64)
														
 
															+    l = mx.array(lengths)
														
 
															+    score = await asyncio.get_running_loop().run_in_executor(self.executor, self.session['loss'], self.model, x, y, l)
														
 
															+    #print(f"evaluate out -> {score}")
														
 
															+    return np.array(score)
														
 
															+  
														
 
															+  async def train(self, request_id: str, shard: Shard, inputs, targets, lengths, loss=length_masked_ce_loss, opt=optim.Adam, lr=1e-5):
														
 
															+    await self.ensure_shard(shard)
														
 
															+    await self.ensure_session('loss', lambda: loss)
														
 
															+    await self.ensure_session('LVaG', lambda: nn.value_and_grad(self.model, self.session['loss']))
														
 
															+    await self.ensure_session('opt', lambda: opt(lr))
														
 
															+    await self.ensure_session('task', lambda: ('train', self.model.train()))
														
 
															+
														
 
															+    x = mx.array(inputs).astype(mx.int64) if self.shard.is_first_layer() else mx.array(inputs)
														
 
															+    y = mx.array(targets).astype(mx.int64)
														
 
															+    l = mx.array(lengths)
														
 
															+    loop = asyncio.get_running_loop()
														
 
															+    loss, grad = await loop.run_in_executor(self.executor, self.session['LVaG'], self.model, x, y, l)
														
 
															+    await loop.run_in_executor(self.executor, lambda: self.session['opt'].update(self.model, grad))
														
 
															+
														
 
															+    return np.array(loss), np.array(grad)
														
 
															   async def ensure_shard(self, shard: Shard):
														
 
															     if self.shard == shard:
														
@@ -78,14 +108,3 @@ class MLXDynamicShardInferenceEngine(InferenceEngine):
 
															       self.shard = shard
														
 
															       self.model = await loop.run_in_executor(self.executor, StatefulModel, model_shard) 
														
 
															-  async def evaluate(self, request_id: str, shard: Shard, inputs, targets, lengths, loss=length_masked_ce_loss):
														
 
															-    await self.ensure_shard(shard)
														
 
															-    #print(f"evaluate in <- {inputs}")
														
 
															-    x = mx.array(inputs).astype(mx.int64)
														
 
															-    y = mx.array(targets).astype(mx.int64)
														
 
															-    l = mx.array(lengths)
														
 
															-    def model_wrapper(e):
														
 
															-      return self.model(e, request_id)
														
 
															-    score = await asyncio.get_running_loop().run_in_executor(self.executor, loss, model_wrapper, x, y, l)
														
 
															-    #print(f"evaluate out -> {score}")
														
 
															-    return np.array(score)
														
--- a/exo/inference/mlx/stateful_model.py
+++ b/exo/inference/mlx/stateful_model.py
@@ -1,4 +1,4 @@
 
															-from typing import Dict, Tuple
														
 
															+from typing import Dict, Tuple, Optional
														
 
															 from collections import OrderedDict
														
 
															 import mlx.core as mx
														
@@ -29,9 +29,9 @@ class StatefulModel(nn.Module):
 
															     self.caches[request_id] = cache
														
 
															-  def __call__(self, x, request_id: str, use_cache: bool = True):
														
 
															+  def __call__(self, x, request_id: Optional[str] = None, use_cache: bool = True):
														
 
															     #print(f"StatefulModel in <- {x}")
														
 
															-    if use_cache:
														
 
															+    if use_cache and request_id is not None:
														
 
															       if request_id not in self.caches:
														
 
															         self.init_cache(request_id)
														
 
															       else:
														
--- a/exo/inference/tinygrad/inference.py
+++ b/exo/inference/tinygrad/inference.py
@@ -5,7 +5,7 @@ from exo.inference.tinygrad.models.llama import Transformer, convert_from_huggin
 
															 from exo.inference.shard import Shard
														
 
															 from exo.inference.tokenizers import resolve_tokenizer
														
 
															 from tinygrad.nn.state import load_state_dict
														
 
															-from tinygrad import Tensor, nn, Context
														
 
															+from tinygrad import Tensor, nn, Context, TinyJit
														
 
															 from exo.inference.inference_engine import InferenceEngine
														
 
															 import numpy as np
														
 
															 from exo.inference.tinygrad.tinygrad_helpers import concat_weights, load
														
@@ -15,7 +15,7 @@ from .stateful_model import StatefulModel
 
															 from .losses import length_masked_ce_loss
														
 
															 import asyncio
														
 
															-Tensor.no_grad = True
														
 
															+Tensor.no_grad = False
														
 
															 # default settings
														
 
															 TEMPERATURE = int(os.getenv("TEMPERATURE", 0.85))
														
 
															 TOP_K = 25
														
@@ -63,6 +63,7 @@ class TinygradDynamicShardInferenceEngine(InferenceEngine):
 
															     self.shard = None
														
 
															     self.shard_downloader = shard_downloader
														
 
															     self.executor = ThreadPoolExecutor(max_workers=1)
														
 
															+    self.session = {}
														
 
															   async def sample(self, x: np.ndarray, temp=TEMPERATURE, top_p: float = 0.0) -> np.ndarray:
														
 
															     logits = x[:, -1, :]
														
@@ -82,11 +83,37 @@ class TinygradDynamicShardInferenceEngine(InferenceEngine):
 
															   async def infer_tensor(self, request_id: str, shard: Shard, input_data: np.ndarray) -> np.ndarray:
														
 
															     await self.ensure_shard(shard)
														
 
															-    #print(f"infer_tensor in <- {input_data}")
														
 
															     output_data = await asyncio.get_running_loop().run_in_executor(self.executor, lambda: self.model(Tensor(input_data), request_id).realize())
														
 
															-    #print(f"infer_tensor out -> {output_data}")
														
 
															     return output_data.numpy()
														
 
															+  async def evaluate(self, request_id: str, shard: Shard, inputs, targets, lengths, loss=length_masked_ce_loss):
														
 
															+    def step(x, y, l):
														
 
															+      Tensor.training = False
														
 
															+      return self.session['loss'](self.model, x, y, l)
														
 
															+    await self.ensure_shard(shard)
														
 
															+    await self.ensure_session('loss', lambda: loss)
														
 
															+    await self.ensure_session('jit', lambda: TinyJit(step)) 
														
 
															+    score = await asyncio.get_running_loop().run_in_executor(self.executor, lambda: self.session['jit'](Tensor(inputs), targets, lengths))
														
 
															+    out = score.numpy()
														
 
															+    return out
														
 
															+  
														
 
															+  async def train(self, request_id: str, shard: Shard, inputs, targets, lengths, loss=length_masked_ce_loss, opt=nn.optim.Adam, lr=1e-5):
														
 
															+    def step(x, y, l):
														
 
															+      Tensor.training = True
														
 
															+      score = self.session['loss'](self.model, x, y, l)
														
 
															+      self.session['opt'].zero_grad()
														
 
															+      score.backward()
														
 
															+      self.session['opt'].step()
														
 
															+      return score
														
 
															+    await self.ensure_shard(shard)
														
 
															+    await self.ensure_session('loss', lambda: loss)
														
 
															+    await self.ensure_session('opt', lambda: opt(nn.state.get_parameters(self.model.model), lr=lr))
														
 
															+    await self.ensure_session('jit', lambda: TinyJit(step)) 
														
 
															+      
														
 
															+    score = await asyncio.get_running_loop().run_in_executor(self.executor, lambda: self.session['jit'](Tensor(inputs), targets, lengths).realize())
														
 
															+    
														
 
															+    return loss.numpy(), loss.numpy()
														
 
															+
														
 
															   async def ensure_shard(self, shard: Shard):
														
 
															     if self.shard == shard:
														
 
															       return
														
@@ -101,13 +128,4 @@ class TinygradDynamicShardInferenceEngine(InferenceEngine):
 
															       tokenizer_path = str((model_path if model_path.is_dir() else model_path.parent))
														
 
															       self.tokenizer = await resolve_tokenizer(tokenizer_path)
														
 
															       self.shard = shard
														
 
															-      self.model = await loop.run_in_executor(self.executor, StatefulModel, model_shard) 
														
 
															-
														
 
															-  async def evaluate(self, request_id: str, shard: Shard, inputs, targets, lengths, loss=length_masked_ce_loss):
														
 
															-    await self.ensure_shard(shard)
														
 
															-    def model_wrapper(x):
														
 
															-      return self.model(x, request_id)
														
 
															-    score = await asyncio.get_running_loop().run_in_executor(self.executor, lambda: loss(model_wrapper, Tensor(inputs), Tensor(targets), Tensor(lengths)).realize())
														
 
															-    out = score.numpy()
														
 
															-    return out
														
 
															-
														
 
															+      self.model = await loop.run_in_executor(self.executor, StatefulModel, model_shard)
														
--- a/exo/inference/tinygrad/losses.py
+++ b/exo/inference/tinygrad/losses.py
@@ -1,15 +1,14 @@
 
															 from tinygrad import Tensor, dtypes
														
 
															+import numpy as np
														
 
															 def length_masked_ce_loss(model, inputs, targets, lengths):
														
 
															   # Run model on inputs
														
 
															-  logits = model(inputs)
														
 
															-  logits = logits.cast(dtypes.float32)
														
 
															+  logits = model(inputs).cast(dtypes.float32).contiguous()
														
 
															   # Mask padding tokens
														
 
															-  length_mask = Tensor.arange(inputs.shape[1])[None, :] < lengths[:, None]
														
 
															+  length_mask = Tensor(np.arange(inputs.shape[1])[None, :] < lengths[:, None], requires_grad=False)
														
 
															   # Calculate the loss
														
 
															-  ce = logits.sparse_categorical_crossentropy(targets) * length_mask
														
 
															-  ntoks = length_mask.sum()
														
 
															-  ce = ce.sum() / ntoks
														
 
															-  return ce
														
 
															+  ce = logits.sparse_categorical_crossentropy(Tensor(targets, requires_grad=False)).mul(length_mask)
														
 
															+  loss = ce.sum() / length_mask.sum()
														
 
															+  return loss
														
--- a/exo/inference/tinygrad/stateful_model.py
+++ b/exo/inference/tinygrad/stateful_model.py
@@ -1,6 +1,6 @@
 
															 from tinygrad import Tensor, Variable 
														
 
															 from collections import OrderedDict
														
 
															-from typing import List
														
 
															+from typing import List, Optional
														
 
															 def create_kv_cache(x: Tensor, max_context: int, n_kv_heads: int, head_dim: int):
														
 
															   cache_kv = Tensor.zeros(2, x.shape[0], max_context, n_kv_heads, head_dim, dtype=x.dtype).contiguous().realize()
														
@@ -30,10 +30,10 @@ class StatefulModel:
 
															     self.states[request_id] = ModelState(cache)
														
 
															-  def __call__(self, x: Tensor, request_id: str, use_cache: bool = True): 
														
 
															+  def __call__(self, x: Tensor, request_id: Optional[str] = None, use_cache: bool = True): 
														
 
															     h = self.model.embed(x)
														
 
															     #print(f"StatefulModel in <- {h}")
														
 
															-    if use_cache:
														
 
															+    if use_cache and request_id is not None:
														
 
															       if request_id not in self.states:
														
 
															         self.init_cache(h, request_id)
														
 
															       else:
														
--- a/exo/main.py
+++ b/exo/main.py
@@ -14,7 +14,7 @@ import numpy as np
 
															 from functools import partial
														
 
															 from tqdm import tqdm
														
 
															 from tqdm.asyncio import tqdm_asyncio
														
 
															-from exo.train.dataset import load_dataset, iterate_batches
														
 
															+from exo.train.dataset import load_dataset, iterate_batches, compose
														
 
															 from exo.networking.manual.manual_discovery import ManualDiscovery
														
 
															 from exo.networking.manual.network_topology_config import NetworkTopology
														
 
															 from exo.orchestration.standard_node import StandardNode
														
@@ -40,7 +40,7 @@ parser = argparse.ArgumentParser(description="Initialize GRPC Discovery")
 
															 parser.add_argument("command", nargs="?", choices=["run", "eval", "train"], help="Command to run")
														
 
															 parser.add_argument("model_name", nargs="?", help="Model name to run")
														
 
															 parser.add_argument("--default-model", type=str, default=None, help="Default model")
														
 
															-parser.add_argument("--iters", type=int, default=600, help="Training iterations")
														
 
															+parser.add_argument("--iters", type=int, default=100, help="Training iterations")
														
 
															 parser.add_argument("--data", type=str, default="exo/train/data/lora", help="Directory where training data lives")
														
 
															 parser.add_argument("--batch-size", type=int, default=1, help="Minibatch size.")
														
 
															 parser.add_argument("--node-id", type=str, default=None, help="Node ID")
														
@@ -223,7 +223,7 @@ async def eval_model_cli(node: Node, inference_engine: InferenceEngine, model_na
 
															     print(f"Error: Unsupported model '{model_name}' for inference engine {inference_engine.__class__.__name__}")
														
 
															     return
														
 
															   tokenizer = await resolve_tokenizer(get_repo(shard.model_id, inference_class))
														
 
															-  train, val, test = dataloader(tokenizer)
														
 
															+  train, val, test = dataloader(lambda i: tokenizer.encode(i))
														
 
															   dataset = test
														
 
															   print(f"Evaluating {len(dataset)} examples with batch_size {batch_size}")
														
 
															   losses = []
														
@@ -242,14 +242,14 @@ async def train_model_cli(node: Node, inference_engine: InferenceEngine, model_n
 
															     print(f"Error: Unsupported model '{model_name}' for inference engine {inference_engine.__class__.__name__}")
														
 
															     return
														
 
															   tokenizer = await resolve_tokenizer(get_repo(shard.model_id, inference_class))
														
 
															-  train, val, test = dataloader(tokenizer)
														
 
															-  print(f"Training on {len(train)} examples with batch_size {batch_size}")
														
 
															+  train, val, test = dataloader(lambda i: tokenizer.encode(i))
														
 
															+  print(f"Training on {len(val)} examples with batch_size {batch_size}")
														
 
															   for epoch in range(iters):
														
 
															     losses = []
														
 
															     tokens = []
														
 
															-    for batch in tqdm(iterate_batches(train, batch_size), total=len(dataset) // batch_size):
														
 
															+    for batch in tqdm(iterate_batches(train, batch_size), total=len(train) // batch_size):
														
 
															       _, _, lengths = batch
														
 
															-      losses.append(np.sum(lengths * await node.enqueue_example(shard, *batch)))
														
 
															+      losses.append(np.sum(lengths * await node.enqueue_example(shard, *batch, train=True)))
														
 
															       tokens.append(np.sum(lengths))
														
 
															   total_loss = np.sum(losses) / np.sum(tokens)
														
 
															   print(f"total | loss: {total_loss}, tokens: {np.sum(tokens)}")
														
@@ -301,7 +301,8 @@ async def main():
 
															     await run_model_cli(node, inference_engine, model_name, args.prompt)
														
 
															   elif args.command == "eval" or args.command == 'train':
														
 
															     model_name = args.model_name
														
 
															-    dataloader = lambda tok: load_dataset(args.data, preprocess=lambda i: tok.encode(i["text"]))
														
 
															+    dataloader = lambda tok: load_dataset(args.data, preprocess=lambda item: tok(item)
														
 
															+                                                   , loadline=lambda line: json.loads(line).get("text",""))
														
 
															     if args.command == 'eval':
														
 
															       if not model_name:
														
 
															         print("Error: Much like a human, I can't evaluate anything without a model")
														
--- a/exo/networking/grpc/grpc_peer_handle.py
+++ b/exo/networking/grpc/grpc_peer_handle.py
@@ -107,7 +107,7 @@ class GRPCPeerHandle(PeerHandle):
 
															     return np.frombuffer(response.tensor_data, dtype=np.dtype(response.dtype)).reshape(response.shape)
														
 
															-  async def send_example(self, shard: Shard, example: np.ndarray, target: np.ndarray, length: np.ndarray, request_id: Optional[str] = None) -> Optional[np.array]:
														
 
															+  async def send_example(self, shard: Shard, example: np.ndarray, target: np.ndarray, length: np.ndarray, train: bool, request_id: Optional[str] = None) -> Optional[np.array]:
														
 
															     request = node_service_pb2.ExampleRequest(
														
 
															       shard=node_service_pb2.Shard(
														
 
															         model_id=shard.model_id,
														
@@ -118,6 +118,7 @@ class GRPCPeerHandle(PeerHandle):
 
															       example=node_service_pb2.Tensor(tensor_data=example.tobytes(), shape=example.shape, dtype=str(example.dtype)),
														
 
															       target=node_service_pb2.Tensor(tensor_data=target.tobytes(), shape=target.shape, dtype=str(target.dtype)),
														
 
															       length=node_service_pb2.Tensor(tensor_data=length.tobytes(), shape=length.shape, dtype=str(length.dtype)),
														
 
															+      train = train,
														
 
															       request_id=request_id,
														
 
															     )
														
 
															     response = await self.stub.SendExample(request)
														
--- a/exo/networking/grpc/grpc_server.py
+++ b/exo/networking/grpc/grpc_server.py
@@ -80,9 +80,10 @@ class GRPCServer(node_service_pb2_grpc.NodeServiceServicer):
 
															     example = np.frombuffer(request.example.tensor_data, dtype=np.dtype(request.example.dtype)).reshape(request.example.shape)
														
 
															     target = np.frombuffer(request.target.tensor_data, dtype=np.dtype(request.target.dtype)).reshape(request.target.shape)
														
 
															     length = np.frombuffer(request.length.tensor_data, dtype=np.dtype(request.length.dtype)).reshape(request.length.shape)
														
 
															+    train = request.train
														
 
															     request_id = request.request_id
														
 
															-    result = await self.node.process_example(shard, example, target, length, request_id)
														
 
															+    result = await self.node.process_example(shard, example, target, length, train, request_id)
														
 
															     if DEBUG >= 5: print(f"SendTensor tensor {shard=} {example=} {target=} {length=} {request_id=} result: {result}")
														
 
															     tensor_data = result.tobytes()
														
 
															     return node_service_pb2.Tensor(tensor_data=tensor_data, shape=result.shape, dtype=str(result.dtype))
														
--- a/exo/networking/grpc/node_service.proto
+++ b/exo/networking/grpc/node_service.proto
@@ -38,7 +38,8 @@ message ExampleRequest {
 
															   Tensor example = 2;
														
 
															   Tensor target = 3;
														
 
															   Tensor length = 4;
														
 
															-  optional string request_id = 5;
														
 
															+  bool train = 5;
														
 
															+  optional string request_id = 6;
														
 
															 }
														
 
															 message GetInferenceResultRequest {
														
--- a/exo/networking/grpc/node_service_pb2.py
+++ b/exo/networking/grpc/node_service_pb2.py
--- a/exo/orchestration/standard_node.py
+++ b/exo/orchestration/standard_node.py
@@ -203,11 +203,11 @@ class StandardNode(Node):
 
															   ):
														
 
															     shard = self.get_current_shard(base_shard)
														
 
															     if shard.is_first_layer():
														
 
															-      resp = await self.process_example(shard, example, target, length, request_id)
														
 
															+      resp = await self.process_example(shard, example, target, length, train, request_id)
														
 
															     else:
														
 
															       if request_id is None:
														
 
															         request_id = str(uuid.uuid4())
														
 
															-      resp = await self.forward_example(shard, example, target, length, request_id, 0) 
														
 
															+      resp = await self.forward_example(shard, example, target, length, train, request_id, 0) 
														
 
															     return resp
														
@@ -217,8 +217,8 @@ class StandardNode(Node):
 
															     example: np.ndarray,
														
 
															     target: np.ndarray, 
														
 
															     length: np.ndarray,
														
 
															-    request_id: Optional[str] = None,
														
 
															     train: bool = False,
														
 
															+    request_id: Optional[str] = None,
														
 
															   ):
														
 
															     shard = self.get_current_shard(base_shard)
														
 
															     asyncio.create_task(
														
@@ -237,7 +237,7 @@ class StandardNode(Node):
 
															       )
														
 
															     )
														
 
															     start_time = time.perf_counter_ns()
														
 
															-    resp = await self._process_example(shard, example, target, length, request_id, train=train)
														
 
															+    resp = await self._process_example(shard, example, target, length, train, request_id)
														
 
															     end_time = time.perf_counter_ns()
														
 
															     elapsed_time_ns = end_time - start_time
														
 
															     asyncio.create_task(
														
@@ -256,15 +256,15 @@ class StandardNode(Node):
 
															       )
														
 
															     )
														
 
															     return resp
														
 
															-  
														
 
															+
														
 
															   async def _process_example(
														
 
															     self,
														
 
															     base_shard: Shard,
														
 
															     example: np.ndarray,
														
 
															     target: np.ndarray, 
														
 
															     length: np.ndarray,
														
 
															-    request_id: Optional[str] = None,
														
 
															     train: bool = False,
														
 
															+    request_id: Optional[str] = None,
														
 
															   ) -> Optional[np.ndarray]:
														
 
															     if request_id is None:
														
 
															       request_id = str(uuid.uuid4())
														
@@ -273,13 +273,20 @@ class StandardNode(Node):
 
															     if DEBUG >= 1: print(f"[{request_id}] process_example: {example.shape=}")
														
 
															     try:
														
 
															       if shard.is_last_layer():
														
 
															-        loss = await self.inference_engine.evaluate(request_id, shard, example, target, length)
														
 
															-        loss_tensor = loss.reshape(1, -1)
														
 
															-        return loss_tensor
														
 
															+        if train:
														
 
															+          loss, grad = await self.inference_engine.train(request_id, shard, example, target, length)
														
 
															+          return loss.reshape(example.shape[0], -1) if shard.is_first_layer() else grad
														
 
															+        else:
														
 
															+          loss = await self.inference_engine.evaluate(request_id, shard, example, target, length)
														
 
															+          return loss.reshape(example.shape[0], -1)
														
 
															       else:
														
 
															         step = await self.inference_engine.infer_tensor(request_id, shard, example)
														
 
															-        loss = await self.forward_example(shard, step, target, length, request_id, self.get_partition_index(offset = 1))
														
 
															-        return loss
														
 
															+        result = await self.forward_example(shard, step, target, length, train, request_id, self.get_partition_index(offset = 1))
														
 
															+        if train:
														
 
															+          forward = self.get_current_shard(self.get_partition_index(offset = 1))
														
 
															+          return result
														
 
															+        else:
														
 
															+          return result.reshape(example.shape[0], -1)
														
 
															     except Exception as e:
														
 
															       print(f"Error processing example for shard {shard}: {e}")
														
 
															       traceback.print_exc()
														
@@ -354,6 +361,7 @@ class StandardNode(Node):
 
															     step: np.ndarray,
														
 
															     target: np.ndarray,
														
 
															     length: np.ndarray,
														
 
															+    train: bool,
														
 
															     request_id: str,
														
 
															     target_index: int,
														
 
															   ) -> None:
														
@@ -365,7 +373,7 @@ class StandardNode(Node):
 
															     if not target_peer:
														
 
															       raise ValueError(f"peer for {target_index} not found")
														
 
															     if DEBUG >= 1: print(f"sending example to {target_peer.id()}: {step} => {target} ({length})")
														
 
															-    ret = await target_peer.send_example(target_shard, step, target, length, request_id=request_id)
														
 
															+    ret = await target_peer.send_example(target_shard, step, target, length, request_id=request_id, train=train)
														
 
															     return ret
														
 
															   async def forward_loss(
														
--- a/exo/train/dataset.py
+++ b/exo/train/dataset.py
@@ -44,19 +44,14 @@ def iterate_batches(dset, batch_size, train=False, uniform_length=True):
 
															       break
														
 
															 class Dataset:
														
 
															-  preprocess = lambda item: item
														
 
															-  load = lambda line: line
														
 
															-  def __init__(self, path: Path, preprocess=None, load=None, metrics={}):
														
 
															+  def __init__(self, path: Path, preprocess=lambda item: item, loadline=json.loads, metrics={}):
														
 
															     if not path.exists():
														
 
															       self._data = None
														
 
															     else:
														
 
															-      if preprocess is not None:
														
 
															-        self.preprocess = preprocess
														
 
															-      if load is not None:
														
 
															-        self.load = load
														
 
															+      self.preprocess = preprocess
														
 
															       with open(path, "r") as fid:
														
 
															-        self._data = [load(l) for l in fid]
														
 
															-        self._maxlen = max([len(self.preprocess(x)) for x in self._data])
														
 
															+        self._data = [loadline(l) for l in fid]
														
 
															+        self._maxlen = max([len(preprocess(x)) for x in self._data])
														
 
															         # Check if any sequence is longer than 2048 tokens
														
 
															         if self._maxlen > 2048:
														
 
															           print("You've got sequences with over 2048 tokens in here! Split your data fool!")
														
@@ -69,11 +64,11 @@ class Dataset:
 
															     return len(self._data)
														
 
															-def load_dataset(data_path: str, preprocess=None):
														
 
															+def load_dataset(data_path: str, preprocess=lambda i: i, loadline=json.loads):
														
 
															   def load_and_check(name):
														
 
															     dataset_path = Path(data_path) / f"{name}.jsonl"
														
 
															     try:
														
 
															-      return Dataset(dataset_path, preprocess=preprocess, load=json.loads)
														
 
															+      return Dataset(dataset_path, preprocess=preprocess, loadline=loadline)
														
 
															     except Exception as e:
														
 
															       print(f"Unable to build dataset {dataset_path} ({e})")
														
 
															       raise