update jax to 0.4.37 (#948)

matthew-e-hopkins · web-flow · commit 3e2c6ddd9805 · 2025-01-27T22:56:42.000Z
update BlockSpec usage in tpu_attention
use TYPE_CHECKING for BuildDatasetFn in input_fake
add todo for BuildDatasetFn
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -1,5 +1,10 @@
 # Change Log
 
+## 0.1.5
+
+* Changes
+    * Upgrade Jax from 0.4.33 to 0.4.37.
+
 ## 0.1.4
 
 * Changes
diff --git a/axlearn/common/flash_attention/tpu_attention.py b/axlearn/common/flash_attention/tpu_attention.py
@@ -690,7 +690,7 @@ def lm_index_map(batch_index, head_index, q_seq_index, _):
     )
     out_shape = jax.ShapeDtypeStruct(shape=q.shape, dtype=q.dtype)
     out_shape = [out_shape]
-    out_specs = [pl.BlockSpec(o_index_map, (block_b, 1, block_q, head_dim))]
+    out_specs = [pl.BlockSpec((block_b, 1, block_q, head_dim), o_index_map)]
 
     if block_k != kv_seq_len:
         m_scratch = pltpu.VMEM((block_b, 1, block_q, MIN_BLOCK_SIZE), jnp.float32)
@@ -703,8 +703,8 @@ def lm_index_map(batch_index, head_index, q_seq_index, _):
     if save_residuals:
         out_specs = [
             *out_specs,
-            pl.BlockSpec(lm_index_map, (block_b, 1, block_q, MIN_BLOCK_SIZE)),
-            pl.BlockSpec(lm_index_map, (block_b, 1, block_q, MIN_BLOCK_SIZE)),
+            pl.BlockSpec((block_b, 1, block_q, MIN_BLOCK_SIZE), lm_index_map),
+            pl.BlockSpec((block_b, 1, block_q, MIN_BLOCK_SIZE), lm_index_map),
         ]
         l = jax.ShapeDtypeStruct(
             (batch_size, num_heads, q_seq_len, MIN_BLOCK_SIZE), dtype=jnp.float32
@@ -718,7 +718,7 @@ def lm_index_map(batch_index, head_index, q_seq_index, _):
         out_shape = (*out_shape, None, None)
 
     ab_block_spec = (
-        pl.BlockSpec(ab_index_map, (block_b, 1, block_q, block_k_major)) if ab is not None else None
+        pl.BlockSpec((block_b, 1, block_q, block_k_major), ab_index_map) if ab is not None else None
     )
 
     q_segment_ids_spec = kv_segment_ids_spec = None
@@ -741,9 +741,9 @@ def kv_segment_ids_index_map(batch_index, head_index, q_seq_index, kv_seq_index)
                 next_kv_index = kv_seq_index
             return (batch_index, 0, next_kv_index)
 
-        q_segment_ids_spec = pl.BlockSpec(q_segment_ids_index_map, (block_b, block_q, NUM_LANES))
+        q_segment_ids_spec = pl.BlockSpec((block_b, block_q, NUM_LANES), q_segment_ids_index_map)
         kv_segment_ids_spec = pl.BlockSpec(
-            kv_segment_ids_index_map, (block_b, NUM_SUBLANES, block_k_major)
+            (block_b, NUM_SUBLANES, block_k_major), kv_segment_ids_index_map
         )
 
         q_segment_ids = jax.lax.broadcast_in_dim(
@@ -764,9 +764,9 @@ def kv_segment_ids_index_map(batch_index, head_index, q_seq_index, kv_seq_index)
         )
 
     in_specs = [
-        pl.BlockSpec(q_index_map, (block_b, 1, block_q, head_dim)),
-        pl.BlockSpec(kv_index_map, (block_b, 1, block_k_major, head_dim)),
-        pl.BlockSpec(kv_index_map, (block_b, 1, block_k_major, head_dim)),
+        pl.BlockSpec((block_b, 1, block_q, head_dim), q_index_map),
+        pl.BlockSpec((block_b, 1, block_k_major, head_dim), kv_index_map),
+        pl.BlockSpec((block_b, 1, block_k_major, head_dim), kv_index_map),
         ab_block_spec,
         q_segment_ids_spec,
         kv_segment_ids_spec,
@@ -861,7 +861,7 @@ def qo_index_map(batch_index, head_index, kv_seq_index, q_seq_index):
 
         return (batch_index, head_index, next_q_index, 0)
 
-    qo_spec = pl.BlockSpec(qo_index_map, (1, 1, block_q_major, head_dim))
+    qo_spec = pl.BlockSpec((1, 1, block_q_major, head_dim), qo_index_map)
     assert qo_spec.block_shape is not None
     assert q.ndim == len(qo_spec.block_shape)
     do_spec = qo_spec
@@ -870,20 +870,20 @@ def qo_index_map(batch_index, head_index, kv_seq_index, q_seq_index):
     def kv_index_map(batch_index, head_index, kv_seq_index, _):
         return (batch_index, head_index, kv_seq_index, 0)
 
-    kv_spec = pl.BlockSpec(kv_index_map, (1, 1, block_k_major, head_dim))
+    kv_spec = pl.BlockSpec((1, 1, block_k_major, head_dim), kv_index_map)
     assert kv_spec.block_shape is not None
     assert k.ndim == len(kv_spec.block_shape)
     assert v.ndim == len(kv_spec.block_shape)
 
     def lm_index_map(batch_index, head_index, _, q_seq_index):
         return (batch_index, head_index, q_seq_index, 0)
 
-    lm_spec = pl.BlockSpec(lm_index_map, (1, 1, block_q_major, MIN_BLOCK_SIZE))
+    lm_spec = pl.BlockSpec((1, 1, block_q_major, MIN_BLOCK_SIZE), lm_index_map)
     assert lm_spec.block_shape is not None
     assert l.ndim == len(lm_spec.block_shape)
     assert m.ndim == len(lm_spec.block_shape)
 
-    di_spec = pl.BlockSpec(qo_index_map, (1, 1, block_q_major, MIN_BLOCK_SIZE))
+    di_spec = pl.BlockSpec((1, 1, block_q_major, MIN_BLOCK_SIZE), qo_index_map)
     assert di_spec.block_shape is not None
     assert di.ndim == len(di_spec.block_shape)
 
@@ -896,7 +896,7 @@ def ab_index_map(batch_index, head_index, kv_seq_index, q_seq_index):
         )
 
     dab_spec = (
-        pl.BlockSpec(ab_index_map, (1, 1, block_q_major, block_k_major)) if ab is not None else None
+        pl.BlockSpec((1, 1, block_q_major, block_k_major), ab_index_map) if ab is not None else None
     )
 
     q_segment_ids_spec = kv_segment_ids_spec = None
@@ -919,9 +919,9 @@ def kv_segment_ids_index_map(batch_index, head_index, kv_seq_index, _):
             del head_index
             return (batch_index, 0, kv_seq_index)
 
-        q_segment_ids_spec = pl.BlockSpec(q_segment_ids_index_map, (1, block_q_major, NUM_LANES))
+        q_segment_ids_spec = pl.BlockSpec((1, block_q_major, NUM_LANES), q_segment_ids_index_map)
         kv_segment_ids_spec = pl.BlockSpec(
-            kv_segment_ids_index_map, (1, NUM_SUBLANES, block_k_major)
+            (1, NUM_SUBLANES, block_k_major), kv_segment_ids_index_map
         )
 
         q_segment_ids = jax.lax.broadcast_in_dim(
@@ -962,7 +962,7 @@ def kv_segment_ids_index_map(batch_index, head_index, kv_seq_index, _):
     def dkv_index_map(batch_index, head_index, kv_seq_index, _):
         return (batch_index, head_index, kv_seq_index, 0)
 
-    dkv_spec = pl.BlockSpec(dkv_index_map, (1, 1, block_k_major, head_dim))
+    dkv_spec = pl.BlockSpec((1, 1, block_k_major, head_dim), dkv_index_map)
     out_specs = [dkv_spec, dkv_spec]
     scratch_shapes = [
         pltpu.VMEM((block_k_major, head_dim), jnp.float32),  # type: ignore
@@ -1050,7 +1050,7 @@ def _flash_attention_bwd_dq(
     def qo_index_map(batch_index, head_index, q_seq_index, _):
         return (batch_index, head_index, q_seq_index, 0)
 
-    qo_spec = pl.BlockSpec(qo_index_map, (1, 1, block_q_major, head_dim))
+    qo_spec = pl.BlockSpec((1, 1, block_q_major, head_dim), qo_index_map)
     do_spec = qo_spec
 
     def kv_index_map(batch_index, head_index, q_seq_index, kv_seq_index):
@@ -1066,20 +1066,20 @@ def kv_index_map(batch_index, head_index, q_seq_index, kv_seq_index):
             next_kv_index = kv_seq_index
         return (batch_index, head_index, next_kv_index, 0)
 
-    kv_spec = pl.BlockSpec(kv_index_map, (1, 1, block_k_major, head_dim))
+    kv_spec = pl.BlockSpec((1, 1, block_k_major, head_dim), kv_index_map)
     assert kv_spec.block_shape is not None
     assert k.ndim == len(kv_spec.block_shape)
     assert v.ndim == len(kv_spec.block_shape)
 
     def lm_index_map(batch_index, head_index, q_seq_index, _):
         return (batch_index, head_index, q_seq_index, 0)
 
-    lm_spec = pl.BlockSpec(lm_index_map, (1, 1, block_q_major, MIN_BLOCK_SIZE))
+    lm_spec = pl.BlockSpec((1, 1, block_q_major, MIN_BLOCK_SIZE), lm_index_map)
     assert lm_spec.block_shape is not None
     assert l.ndim == len(lm_spec.block_shape)
     assert m.ndim == len(lm_spec.block_shape)
 
-    di_spec = pl.BlockSpec(qo_index_map, (1, 1, block_q_major, MIN_BLOCK_SIZE))
+    di_spec = pl.BlockSpec((1, 1, block_q_major, MIN_BLOCK_SIZE), qo_index_map)
     assert di_spec.block_shape is not None
     assert di.ndim == len(di_spec.block_shape)
 
@@ -1092,7 +1092,7 @@ def ab_index_map(batch_index, head_index, q_seq_index, kv_seq_index):
         )
 
     dab_spec = (
-        pl.BlockSpec(ab_index_map, (1, 1, block_q_major, block_k_major)) if ab is not None else None
+        pl.BlockSpec((1, 1, block_q_major, block_k_major), ab_index_map) if ab is not None else None
     )
 
     q_segment_ids_spec = kv_segment_ids_spec = None
@@ -1117,9 +1117,9 @@ def kv_segment_ids_index_map(batch_index, head_index, q_seq_index, kv_seq_index)
                 next_kv_index = kv_seq_index
             return (batch_index, 0, next_kv_index)
 
-        q_segment_ids_spec = pl.BlockSpec(q_segment_ids_index_map, (1, block_q_major, NUM_LANES))
+        q_segment_ids_spec = pl.BlockSpec((1, block_q_major, NUM_LANES), q_segment_ids_index_map)
         kv_segment_ids_spec = pl.BlockSpec(
-            kv_segment_ids_index_map, (1, NUM_SUBLANES, block_k_major)
+            (1, NUM_SUBLANES, block_k_major), kv_segment_ids_index_map
         )
 
         q_segment_ids = jax.lax.broadcast_in_dim(
@@ -1156,7 +1156,7 @@ def kv_segment_ids_index_map(batch_index, head_index, q_seq_index, kv_seq_index)
         jax.ShapeDtypeStruct(q.shape, q.dtype),
         jax.ShapeDtypeStruct(ab.shape, ab.dtype) if ab is not None else None,
     ]
-    dq_spec = pl.BlockSpec(qo_index_map, (1, 1, block_q_major, head_dim))
+    dq_spec = pl.BlockSpec((1, 1, block_q_major, head_dim), qo_index_map)
     out_specs = [
         dq_spec,
         dab_spec,
diff --git a/axlearn/common/input_fake.py b/axlearn/common/input_fake.py
@@ -4,17 +4,20 @@
 
 import json
 from collections.abc import Iterable, Sequence
-from typing import Any, Optional, Union
+from typing import TYPE_CHECKING, Any, Optional, Union
 
 import jax
 import numpy as np
 import tensorflow as tf
 
 from axlearn.common.config import REQUIRED, Required, config_class
-from axlearn.common.input_tf_data import BuildDatasetFn
 from axlearn.common.module import Module
 from axlearn.common.utils import Nested, Tensor, as_numpy_array, as_tensor
 
+if TYPE_CHECKING:
+    # TODO(markblee): replace with generic "dataset" definition
+    from axlearn.common.input_tf_data import BuildDatasetFn
+
 
 class EmptyInput(Module):
     """Produces empty inputs."""
@@ -225,7 +228,7 @@ def fake_source(
     repeat: int = 1,
     spec: Optional[dict[str, tf.TypeSpec]] = None,
     shuffle_buffer_size: Optional[int] = None,
-) -> BuildDatasetFn:
+) -> "BuildDatasetFn":
     if len(examples) == 0:
         raise ValueError("examples cannot be empty")
 
@@ -257,7 +260,7 @@ def fake_text_source(
     is_training: bool,
     shuffle_buffer_size: Optional[int] = None,
     batch_size: int = 2,
-) -> BuildDatasetFn:
+) -> "BuildDatasetFn":
     return fake_source(
         is_training=is_training,
         examples=[
@@ -271,7 +274,7 @@ def fake_text_source(
     )
 
 
-def fake_serialized_json_source(examples: Sequence[dict[str, Any]]) -> BuildDatasetFn:
+def fake_serialized_json_source(examples: Sequence[dict[str, Any]]) -> "BuildDatasetFn":
     """Returns a BuildDatasetFn that returns a dataset of jsonlines of examples.
 
     Args:
@@ -301,7 +304,7 @@ def fake_text2text_source(
     target_key: str = "target_text",
     is_training: bool,
     shuffle_buffer_size: Optional[int] = None,
-) -> BuildDatasetFn:
+) -> "BuildDatasetFn":
     return fake_source(
         is_training=is_training,
         examples=[
@@ -324,7 +327,7 @@ def fake_glue_source(
     num_examples: Optional[int] = None,
     shuffle_buffer_size: Optional[int] = None,
     spec: Optional[dict[str, tf.TypeSpec]] = None,
-) -> BuildDatasetFn:
+) -> "BuildDatasetFn":
     if isinstance(input_key, str):
         input_key = [input_key]
     if num_examples is None:
@@ -352,7 +355,7 @@ def fake_classification_source(
     is_training: bool,
     classes: Sequence[str],
     shuffle_buffer_size: Optional[int] = None,
-) -> BuildDatasetFn:
+) -> "BuildDatasetFn":
     num_classes = len(classes)
     return fake_source(
         is_training=is_training,
@@ -376,7 +379,7 @@ def fake_classification_source_instruct_lm(
     shuffle_buffer_size: Optional[int] = None,
     eoa_text: str = "<eoa>",
     eob_text: str = "<eob>",
-) -> BuildDatasetFn:
+) -> "BuildDatasetFn":
     """Returns a BuildDatasetFn containing fake classification examples in the InstructLM format.
 
     Args:
@@ -418,7 +421,7 @@ def fake_speech_source(
     num_examples: int = 100,
     speech_key: str = "speech",
     shuffle_buffer_size: Optional[int] = None,
-) -> BuildDatasetFn:
+) -> "BuildDatasetFn":
     """Fake speech data source.
 
     Args:
diff --git a/axlearn/common/trainer_test.py b/axlearn/common/trainer_test.py
@@ -23,7 +23,7 @@
 from absl import flags, logging
 from absl.testing import absltest, parameterized
 from jax import numpy as jnp
-from jax._src import pjit as pjit_lib
+from jax._src.interpreters import pxla
 from jax.experimental import checkify
 
 from axlearn.common import (
@@ -520,9 +520,9 @@ def mock_compile_train_step(*args, compiler_options=None, **kwargs):
             trainer, "compile_train_step", side_effect=mock_compile_train_step
         ) as mocked_compile_fn:
             # pylint: disable=protected-access
-            start_cache_hits = pjit_lib._pjit_lower_cached.cache_info().hits
+            start_cache_hits = pxla._cached_lowering_to_hlo.cache_info().hits
             output_a = trainer.run(prng_key=jax.random.PRNGKey(123))
-            end_cache_hits = pjit_lib._pjit_lower_cached.cache_info().hits
+            end_cache_hits = pxla._cached_lowering_to_hlo.cache_info().hits
             # pylint: enable=protected-access
             if platform == "tpu":
                 if not enable_python_cache:
@@ -1160,7 +1160,7 @@ def initialize_parameters_recursively(
                 cfg = self.config
                 if cfg.kind == "chex":
                     param = struct_test.Chex(
-                        field_d=jnp.array(0),
+                        field_d=jnp.array(4),
                         field_b=jnp.array(1),
                         field_a=jnp.array(2),
                         field_c=jnp.array(3),
diff --git a/axlearn/common/update_transformation.py b/axlearn/common/update_transformation.py
@@ -261,4 +261,5 @@ def mask_tree(tree: dict, *, keep: dict, mask_value: Any) -> dict:
         lambda should_keep, leaf: leaf if should_keep else mask_value,
         keep,
         tree,
+        is_leaf=lambda x: x is None,
     )
diff --git a/docs/01-start.md b/docs/01-start.md
@@ -53,12 +53,12 @@ brew install bazelisk
 # This was tested using clang version 15 - you may get non-working wheels with earlier versions of clang.
 mkdir ~/builds && git clone https://github.com/tensorflow/text.git ~/builds/text
 # Install tensorflow prior to building.
-pip install 'tensorflow==2.16.1'
-cd ~/builds/text && git checkout 0f9f6df5b4da19bc7a734ba05fc4fa12bccbedbe
+pip install 'tensorflow==2.17.1'
+cd ~/builds/text && git checkout v2.17.0
 
 # Build tensorflow-text.
 ./oss_scripts/run_build.sh
-pip install ./tensorflow_text-2.16.1-cp310-cp310-macosx_*_arm64.whl
+pip install ./tensorflow_text-2.17.0-cp310-cp310-macosx_*_arm64.whl
 ```
 </details>
 
diff --git a/pyproject.toml b/pyproject.toml

Original file line number	Diff line number	Diff line change
`@@ -261,4 +261,5 @@ def mask_tree(tree: dict, *, keep: dict, mask_value: Any) -> dict:`
`261`	`261`	`lambda should_keep, leaf: leaf if should_keep else mask_value,`
`262`	`262`	`keep,`
`263`	`263`	`tree,`
	`264`	`+ is_leaf=lambda x: x is None,`
`264`	`265`	`)`