Spaces:

kernels-community
/

kernels-benchmarks

Running

App Files Files Community

drbh HF Staff commited on Oct 2

Commit

352017c

verified ·

1 Parent(s): 9ad2ef6

Upload folder using huggingface_hub

Browse files

Files changed (14) hide show

flash_attn/impls/artifacts/benchmark/attn.jsonl +6 -6
flash_attn/impls/artifacts/benchmark_default/attn_default.jsonl +6 -6
flash_attn/impls/artifacts/benchmark_max_autotune/attn_max_autotune.jsonl +6 -6
flash_attn/impls/compiled_variants.html +80 -45
flash_attn/impls/flash_attention.html +62 -27
flash_attn/impls/hf_kernels_flash_attn.html +61 -26
flash_attn/impls/hf_kernels_flash_attn3.html +57 -22
flash_attn/impls/mem_efficient_attention.html +53 -18
flash_attn/impls/sage_attention.html +63 -27
flash_attn/impls/xformers.html +53 -18
flash_attn/results/artifacts/combine/latency.csv +43 -0
flash_attn/results/artifacts/combine/latency.svg +3 -0
flash_attn/results/cells/combine.py +244 -21
flash_attn/results/combined_results.html +0 -0

flash_attn/impls/artifacts/benchmark/attn.jsonl CHANGED Viewed

@@ -1,6 +1,6 @@
-{"ts": "2025-10-02T15:53:41Z", "run": "110abee5a11144f086ff362569489d61", "impl": "xformers_meff", "tags": {"family": "xformers", "backend": "memory_efficient", "compile": "none"}, "wl": {"name": "flux_L128", "batch": 1, "seq_len": 1152, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.4424000084400177, "p50": 0.4480000138282776, "p90": 0.45020800828933716, "mean": 0.448172801733017, "reps": 5, "warmup": 2}, "compile_ms": 1.8151999711990356, "peak_bytes": 87425024, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.00035858154296875, "mse": 2.8908252716064453e-06, "ref": "sdpa_math_fp32"}, "err": null}
-{"ts": "2025-10-02T15:53:41Z", "run": "110abee5a11144f086ff362569489d61", "impl": "xformers_meff", "tags": {"family": "xformers", "backend": "memory_efficient", "compile": "none"}, "wl": {"name": "flux_L256", "batch": 1, "seq_len": 1280, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.46480000019073486, "p50": 0.4689280092716217, "p90": 0.47071999311447144, "mean": 0.46839680075645446, "reps": 5, "warmup": 2}, "compile_ms": 0.35923200845718384, "peak_bytes": 95027200, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.00035858154296875, "mse": 2.8908252716064453e-06, "ref": "sdpa_math_fp32"}, "err": null}
-{"ts": "2025-10-02T15:53:41Z", "run": "110abee5a11144f086ff362569489d61", "impl": "xformers_meff", "tags": {"family": "xformers", "backend": "memory_efficient", "compile": "none"}, "wl": {"name": "flux_L320", "batch": 1, "seq_len": 1344, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.5970879793167114, "p50": 0.5986559987068176, "p90": 0.6020799875259399, "mean": 0.6001919984817505, "reps": 5, "warmup": 2}, "compile_ms": 0.48611199855804443, "peak_bytes": 99680256, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.00035858154296875, "mse": 2.905726432800293e-06, "ref": "sdpa_math_fp32"}, "err": null}
-{"ts": "2025-10-02T15:53:41Z", "run": "110abee5a11144f086ff362569489d61", "impl": "xformers_meff", "tags": {"family": "xformers", "backend": "memory_efficient", "compile": "none"}, "wl": {"name": "flux_L384", "batch": 1, "seq_len": 1408, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.5994560122489929, "p50": 0.6028159856796265, "p90": 0.6028800010681152, "mean": 0.6018815994262695, "reps": 5, "warmup": 2}, "compile_ms": 0.49404799938201904, "peak_bytes": 104726528, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.0003604888916015625, "mse": 2.8908252716064453e-06, "ref": "sdpa_math_fp32"}, "err": null}
-{"ts": "2025-10-02T15:53:41Z", "run": "110abee5a11144f086ff362569489d61", "impl": "xformers_meff", "tags": {"family": "xformers", "backend": "memory_efficient", "compile": "none"}, "wl": {"name": "flux_L448", "batch": 1, "seq_len": 1472, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.6379839777946472, "p50": 0.6402559876441956, "p90": 0.6423360109329224, "mean": 0.6404095888137817, "reps": 5, "warmup": 2}, "compile_ms": 0.531391978263855, "peak_bytes": 108855296, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.0003566741943359375, "mse": 2.86102294921875e-06, "ref": "sdpa_math_fp32"}, "err": null}
-{"ts": "2025-10-02T15:53:41Z", "run": "110abee5a11144f086ff362569489d61", "impl": "xformers_meff", "tags": {"family": "xformers", "backend": "memory_efficient", "compile": "none"}, "wl": {"name": "flux_L512", "batch": 1, "seq_len": 1536, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.6431040167808533, "p50": 0.6442880034446716, "p90": 0.6445119976997375, "mean": 0.644704008102417, "reps": 5, "warmup": 2}, "compile_ms": 0.5358719825744629, "peak_bytes": 114425856, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.00035858154296875, "mse": 2.8759241104125977e-06, "ref": "sdpa_math_fp32"}, "err": null}

+{"ts": "2025-10-02T18:12:20Z", "run": "a2d84c2da2864a0ead6e0da36e5784e9", "impl": "xformers_meff", "tags": {"family": "xformers", "backend": "memory_efficient", "compile": "none"}, "wl": {"name": "flux_L128", "batch": 1, "seq_len": 1152, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.4474239945411682, "p50": 0.44921600818634033, "p90": 0.45241600275039673, "mean": 0.45066879987716674, "reps": 5, "warmup": 2}, "compile_ms": 1.7530560493469238, "peak_bytes": 87425024, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.00035858154296875, "mse": 2.8908252716064453e-06, "ref": "sdpa_math_fp32"}, "err": null}
+{"ts": "2025-10-02T18:12:20Z", "run": "a2d84c2da2864a0ead6e0da36e5784e9", "impl": "xformers_meff", "tags": {"family": "xformers", "backend": "memory_efficient", "compile": "none"}, "wl": {"name": "flux_L256", "batch": 1, "seq_len": 1280, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.4652479887008667, "p50": 0.4705919921398163, "p90": 0.4716799855232239, "mean": 0.47004159688949587, "reps": 5, "warmup": 2}, "compile_ms": 0.36032000184059143, "peak_bytes": 95027200, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.00035858154296875, "mse": 2.8908252716064453e-06, "ref": "sdpa_math_fp32"}, "err": null}
+{"ts": "2025-10-02T18:12:20Z", "run": "a2d84c2da2864a0ead6e0da36e5784e9", "impl": "xformers_meff", "tags": {"family": "xformers", "backend": "memory_efficient", "compile": "none"}, "wl": {"name": "flux_L320", "batch": 1, "seq_len": 1344, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.5987840294837952, "p50": 0.6021760106086731, "p90": 0.6045759916305542, "mean": 0.6022783994674683, "reps": 5, "warmup": 2}, "compile_ms": 0.4950079917907715, "peak_bytes": 99680256, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.00035858154296875, "mse": 2.905726432800293e-06, "ref": "sdpa_math_fp32"}, "err": null}
+{"ts": "2025-10-02T18:12:20Z", "run": "a2d84c2da2864a0ead6e0da36e5784e9", "impl": "xformers_meff", "tags": {"family": "xformers", "backend": "memory_efficient", "compile": "none"}, "wl": {"name": "flux_L384", "batch": 1, "seq_len": 1408, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.6000319719314575, "p50": 0.600383996963501, "p90": 0.6016640067100525, "mean": 0.6013055920600892, "reps": 5, "warmup": 2}, "compile_ms": 0.49647998809814453, "peak_bytes": 104726528, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.0003604888916015625, "mse": 2.8908252716064453e-06, "ref": "sdpa_math_fp32"}, "err": null}
+{"ts": "2025-10-02T18:12:20Z", "run": "a2d84c2da2864a0ead6e0da36e5784e9", "impl": "xformers_meff", "tags": {"family": "xformers", "backend": "memory_efficient", "compile": "none"}, "wl": {"name": "flux_L448", "batch": 1, "seq_len": 1472, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.639136016368866, "p50": 0.6404479742050171, "p90": 0.6416320204734802, "mean": 0.6408192038536071, "reps": 5, "warmup": 2}, "compile_ms": 0.530239999294281, "peak_bytes": 108855296, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.0003566741943359375, "mse": 2.86102294921875e-06, "ref": "sdpa_math_fp32"}, "err": null}
+{"ts": "2025-10-02T18:12:20Z", "run": "a2d84c2da2864a0ead6e0da36e5784e9", "impl": "xformers_meff", "tags": {"family": "xformers", "backend": "memory_efficient", "compile": "none"}, "wl": {"name": "flux_L512", "batch": 1, "seq_len": 1536, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.6447359919548035, "p50": 0.6462399959564209, "p90": 0.6483839750289917, "mean": 0.6466111898422241, "reps": 5, "warmup": 2}, "compile_ms": 0.5342720150947571, "peak_bytes": 114425856, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.00035858154296875, "mse": 2.8759241104125977e-06, "ref": "sdpa_math_fp32"}, "err": null}

flash_attn/impls/artifacts/benchmark_default/attn_default.jsonl CHANGED Viewed

@@ -1,6 +1,6 @@
-{"ts": "2025-10-02T15:50:57Z", "run": "072dd2e8601f475db00e349e59df9f0c", "impl": "torch_flash_compiled_default", "tags": {"family": "torch-sdpa", "backend": "FLASH", "compile": "default"}, "wl": {"name": "flux_L128", "batch": 1, "seq_len": 1152, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.5143679976463318, "p50": 0.5232959985733032, "p90": 0.5257599949836731, "mean": 0.5211328029632568, "reps": 5, "warmup": 2}, "compile_ms": 3112.67236328125, "peak_bytes": 87425024, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.000339508056640625, "mse": 2.726912498474121e-06, "ref": "sdpa_math_fp32"}, "err": null}
-{"ts": "2025-10-02T15:50:57Z", "run": "072dd2e8601f475db00e349e59df9f0c", "impl": "torch_flash_compiled_default", "tags": {"family": "torch-sdpa", "backend": "FLASH", "compile": "default"}, "wl": {"name": "flux_L256", "batch": 1, "seq_len": 1280, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.5569279789924622, "p50": 0.558784008026123, "p90": 0.5599679946899414, "mean": 0.5588735938072205, "reps": 5, "warmup": 2}, "compile_ms": 272.2660217285156, "peak_bytes": 95027200, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.0003414154052734375, "mse": 2.7418136596679688e-06, "ref": "sdpa_math_fp32"}, "err": null}
-{"ts": "2025-10-02T15:50:58Z", "run": "072dd2e8601f475db00e349e59df9f0c", "impl": "torch_flash_compiled_default", "tags": {"family": "torch-sdpa", "backend": "FLASH", "compile": "default"}, "wl": {"name": "flux_L320", "batch": 1, "seq_len": 1344, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.685375988483429, "p50": 0.6888960003852844, "p90": 0.6940159797668457, "mean": 0.6904960036277771, "reps": 5, "warmup": 2}, "compile_ms": 272.7831726074219, "peak_bytes": 99876864, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.00034332275390625, "mse": 2.7567148208618164e-06, "ref": "sdpa_math_fp32"}, "err": null}
-{"ts": "2025-10-02T15:50:58Z", "run": "072dd2e8601f475db00e349e59df9f0c", "impl": "torch_flash_compiled_default", "tags": {"family": "torch-sdpa", "backend": "FLASH", "compile": "default"}, "wl": {"name": "flux_L384", "batch": 1, "seq_len": 1408, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.7146559953689575, "p50": 0.7190399765968323, "p90": 0.7200639843940735, "mean": 0.7184319853782654, "reps": 5, "warmup": 2}, "compile_ms": 270.6763916015625, "peak_bytes": 104726528, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.00034332275390625, "mse": 2.7567148208618164e-06, "ref": "sdpa_math_fp32"}, "err": null}
-{"ts": "2025-10-02T15:50:58Z", "run": "072dd2e8601f475db00e349e59df9f0c", "impl": "torch_flash_compiled_default", "tags": {"family": "torch-sdpa", "backend": "FLASH", "compile": "default"}, "wl": {"name": "flux_L448", "batch": 1, "seq_len": 1472, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.739359974861145, "p50": 0.7402240037918091, "p90": 0.7426239848136902, "mean": 0.741484797000885, "reps": 5, "warmup": 2}, "compile_ms": 270.3490295410156, "peak_bytes": 108855296, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.00034332275390625, "mse": 2.7567148208618164e-06, "ref": "sdpa_math_fp32"}, "err": null}
-{"ts": "2025-10-02T15:50:58Z", "run": "072dd2e8601f475db00e349e59df9f0c", "impl": "torch_flash_compiled_default", "tags": {"family": "torch-sdpa", "backend": "FLASH", "compile": "default"}, "wl": {"name": "flux_L512", "batch": 1, "seq_len": 1536, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.7703679800033569, "p50": 0.7723519802093506, "p90": 0.7728000283241272, "mean": 0.7723968029022217, "reps": 5, "warmup": 2}, "compile_ms": 269.7756652832031, "peak_bytes": 114425856, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.0003452301025390625, "mse": 2.771615982055664e-06, "ref": "sdpa_math_fp32"}, "err": null}

+{"ts": "2025-10-02T18:08:46Z", "run": "3ea490632d4f4be2a19f477a48f12fc5", "impl": "torch_flash_compiled_default", "tags": {"family": "torch-sdpa", "backend": "FLASH", "compile": "default"}, "wl": {"name": "flux_L128", "batch": 1, "seq_len": 1152, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.5194560289382935, "p50": 0.5272960066795349, "p90": 0.5312960147857666, "mean": 0.527347207069397, "reps": 5, "warmup": 2}, "compile_ms": 3354.235107421875, "peak_bytes": 87425024, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.000339508056640625, "mse": 2.726912498474121e-06, "ref": "sdpa_math_fp32"}, "err": null}
+{"ts": "2025-10-02T18:08:47Z", "run": "3ea490632d4f4be2a19f477a48f12fc5", "impl": "torch_flash_compiled_default", "tags": {"family": "torch-sdpa", "backend": "FLASH", "compile": "default"}, "wl": {"name": "flux_L256", "batch": 1, "seq_len": 1280, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.5560640096664429, "p50": 0.5571519732475281, "p90": 0.5611839890480042, "mean": 0.5586367964744567, "reps": 5, "warmup": 2}, "compile_ms": 471.23529052734375, "peak_bytes": 95027200, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.0003414154052734375, "mse": 2.7418136596679688e-06, "ref": "sdpa_math_fp32"}, "err": null}
+{"ts": "2025-10-02T18:08:47Z", "run": "3ea490632d4f4be2a19f477a48f12fc5", "impl": "torch_flash_compiled_default", "tags": {"family": "torch-sdpa", "backend": "FLASH", "compile": "default"}, "wl": {"name": "flux_L320", "batch": 1, "seq_len": 1344, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.6841920018196106, "p50": 0.6860160231590271, "p90": 0.6869760155677795, "mean": 0.6860736012458801, "reps": 5, "warmup": 2}, "compile_ms": 468.1533508300781, "peak_bytes": 99876864, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.00034332275390625, "mse": 2.7567148208618164e-06, "ref": "sdpa_math_fp32"}, "err": null}
+{"ts": "2025-10-02T18:08:48Z", "run": "3ea490632d4f4be2a19f477a48f12fc5", "impl": "torch_flash_compiled_default", "tags": {"family": "torch-sdpa", "backend": "FLASH", "compile": "default"}, "wl": {"name": "flux_L384", "batch": 1, "seq_len": 1408, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.7152000069618225, "p50": 0.7161920070648193, "p90": 0.7164160013198853, "mean": 0.7167360067367554, "reps": 5, "warmup": 2}, "compile_ms": 465.7891540527344, "peak_bytes": 104726528, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.00034332275390625, "mse": 2.7567148208618164e-06, "ref": "sdpa_math_fp32"}, "err": null}
+{"ts": "2025-10-02T18:08:48Z", "run": "3ea490632d4f4be2a19f477a48f12fc5", "impl": "torch_flash_compiled_default", "tags": {"family": "torch-sdpa", "backend": "FLASH", "compile": "default"}, "wl": {"name": "flux_L448", "batch": 1, "seq_len": 1472, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.7400959730148315, "p50": 0.742143988609314, "p90": 0.7431039810180664, "mean": 0.7423295855522156, "reps": 5, "warmup": 2}, "compile_ms": 468.6272888183594, "peak_bytes": 108855296, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.00034332275390625, "mse": 2.7567148208618164e-06, "ref": "sdpa_math_fp32"}, "err": null}
+{"ts": "2025-10-02T18:08:49Z", "run": "3ea490632d4f4be2a19f477a48f12fc5", "impl": "torch_flash_compiled_default", "tags": {"family": "torch-sdpa", "backend": "FLASH", "compile": "default"}, "wl": {"name": "flux_L512", "batch": 1, "seq_len": 1536, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.7718080282211304, "p50": 0.7745919823646545, "p90": 0.7748159766197205, "mean": 0.7743871927261352, "reps": 5, "warmup": 2}, "compile_ms": 475.9334716796875, "peak_bytes": 114425856, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.0003452301025390625, "mse": 2.771615982055664e-06, "ref": "sdpa_math_fp32"}, "err": null}

flash_attn/impls/artifacts/benchmark_max_autotune/attn_max_autotune.jsonl CHANGED Viewed

@@ -1,6 +1,6 @@
-{"ts": "2025-10-02T15:50:03Z", "run": "9ea21ad802cc490893a0c45ca82ce166", "impl": "torch_flash_compiled_max_autotune", "tags": {"family": "torch-sdpa", "backend": "FLASH", "compile": "max-autotune"}, "wl": {"name": "flux_L128", "batch": 1, "seq_len": 1152, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.63155198097229, "p50": 0.6451839804649353, "p90": 0.665727972984314, "mean": 0.6618239879608154, "reps": 5, "warmup": 2}, "compile_ms": 4977.1767578125, "peak_bytes": 70779904, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.000339508056640625, "mse": 2.726912498474121e-06, "ref": "sdpa_math_fp32"}, "err": null}
-{"ts": "2025-10-02T15:50:05Z", "run": "9ea21ad802cc490893a0c45ca82ce166", "impl": "torch_flash_compiled_max_autotune", "tags": {"family": "torch-sdpa", "backend": "FLASH", "compile": "max-autotune"}, "wl": {"name": "flux_L256", "batch": 1, "seq_len": 1280, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.6628159880638123, "p50": 0.6843519806861877, "p90": 0.7063680291175842, "mean": 0.7008576035499573, "reps": 5, "warmup": 2}, "compile_ms": 1701.4315185546875, "peak_bytes": 78644224, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.0003414154052734375, "mse": 2.7418136596679688e-06, "ref": "sdpa_math_fp32"}, "err": null}
-{"ts": "2025-10-02T15:50:07Z", "run": "9ea21ad802cc490893a0c45ca82ce166", "impl": "torch_flash_compiled_max_autotune", "tags": {"family": "torch-sdpa", "backend": "FLASH", "compile": "max-autotune"}, "wl": {"name": "flux_L320", "batch": 1, "seq_len": 1344, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.8050559759140015, "p50": 0.8155199885368347, "p90": 0.8389120101928711, "mean": 0.833843195438385, "reps": 5, "warmup": 2}, "compile_ms": 1701.230712890625, "peak_bytes": 84280320, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.00034332275390625, "mse": 2.7567148208618164e-06, "ref": "sdpa_math_fp32"}, "err": null}
-{"ts": "2025-10-02T15:50:09Z", "run": "9ea21ad802cc490893a0c45ca82ce166", "impl": "torch_flash_compiled_max_autotune", "tags": {"family": "torch-sdpa", "backend": "FLASH", "compile": "max-autotune"}, "wl": {"name": "flux_L384", "batch": 1, "seq_len": 1408, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.8313599824905396, "p50": 0.849407970905304, "p90": 0.8810880184173584, "mean": 0.8694527983665467, "reps": 5, "warmup": 2}, "compile_ms": 2027.875, "peak_bytes": 86508544, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.00034332275390625, "mse": 2.7567148208618164e-06, "ref": "sdpa_math_fp32"}, "err": null}
-{"ts": "2025-10-02T15:50:11Z", "run": "9ea21ad802cc490893a0c45ca82ce166", "impl": "torch_flash_compiled_max_autotune", "tags": {"family": "torch-sdpa", "backend": "FLASH", "compile": "max-autotune"}, "wl": {"name": "flux_L448", "batch": 1, "seq_len": 1472, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.8768960237503052, "p50": 0.8824639916419983, "p90": 0.9011520147323608, "mean": 0.9017536044120789, "reps": 5, "warmup": 2}, "compile_ms": 2269.297607421875, "peak_bytes": 90440704, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.00034332275390625, "mse": 2.7567148208618164e-06, "ref": "sdpa_math_fp32"}, "err": null}
-{"ts": "2025-10-02T15:50:13Z", "run": "9ea21ad802cc490893a0c45ca82ce166", "impl": "torch_flash_compiled_max_autotune", "tags": {"family": "torch-sdpa", "backend": "FLASH", "compile": "max-autotune"}, "wl": {"name": "flux_L512", "batch": 1, "seq_len": 1536, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.9179520010948181, "p50": 0.9188479781150818, "p90": 0.9378560185432434, "mean": 0.9400512099266052, "reps": 5, "warmup": 2}, "compile_ms": 1835.313720703125, "peak_bytes": 94372864, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.0003452301025390625, "mse": 2.771615982055664e-06, "ref": "sdpa_math_fp32"}, "err": null}

+{"ts": "2025-10-02T18:09:34Z", "run": "02313c2372ed4884add9b1c644335af9", "impl": "torch_flash_compiled_max_autotune", "tags": {"family": "torch-sdpa", "backend": "FLASH", "compile": "max-autotune"}, "wl": {"name": "flux_L128", "batch": 1, "seq_len": 1152, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.6148160099983215, "p50": 0.6296960115432739, "p90": 0.6522240042686462, "mean": 0.6489088058471679, "reps": 5, "warmup": 2}, "compile_ms": 4649.109375, "peak_bytes": 70779904, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.000339508056640625, "mse": 2.726912498474121e-06, "ref": "sdpa_math_fp32"}, "err": null}
+{"ts": "2025-10-02T18:09:35Z", "run": "02313c2372ed4884add9b1c644335af9", "impl": "torch_flash_compiled_max_autotune", "tags": {"family": "torch-sdpa", "backend": "FLASH", "compile": "max-autotune"}, "wl": {"name": "flux_L256", "batch": 1, "seq_len": 1280, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.6615359783172607, "p50": 0.6821119785308838, "p90": 0.7128959894180298, "mean": 0.700761592388153, "reps": 5, "warmup": 2}, "compile_ms": 1487.6849365234375, "peak_bytes": 78644224, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.0003414154052734375, "mse": 2.7418136596679688e-06, "ref": "sdpa_math_fp32"}, "err": null}
+{"ts": "2025-10-02T18:09:37Z", "run": "02313c2372ed4884add9b1c644335af9", "impl": "torch_flash_compiled_max_autotune", "tags": {"family": "torch-sdpa", "backend": "FLASH", "compile": "max-autotune"}, "wl": {"name": "flux_L320", "batch": 1, "seq_len": 1344, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.7967039942741394, "p50": 0.8164799809455872, "p90": 0.8463680148124695, "mean": 0.834444797039032, "reps": 5, "warmup": 2}, "compile_ms": 1492.66748046875, "peak_bytes": 84280320, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.00034332275390625, "mse": 2.7567148208618164e-06, "ref": "sdpa_math_fp32"}, "err": null}
+{"ts": "2025-10-02T18:09:39Z", "run": "02313c2372ed4884add9b1c644335af9", "impl": "torch_flash_compiled_max_autotune", "tags": {"family": "torch-sdpa", "backend": "FLASH", "compile": "max-autotune"}, "wl": {"name": "flux_L384", "batch": 1, "seq_len": 1408, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.8432319760322571, "p50": 0.8498560190200806, "p90": 0.8750079870223999, "mean": 0.8709375977516174, "reps": 5, "warmup": 2}, "compile_ms": 1477.6558837890625, "peak_bytes": 86508544, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.00034332275390625, "mse": 2.7567148208618164e-06, "ref": "sdpa_math_fp32"}, "err": null}
+{"ts": "2025-10-02T18:09:41Z", "run": "02313c2372ed4884add9b1c644335af9", "impl": "torch_flash_compiled_max_autotune", "tags": {"family": "torch-sdpa", "backend": "FLASH", "compile": "max-autotune"}, "wl": {"name": "flux_L448", "batch": 1, "seq_len": 1472, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.8775359988212585, "p50": 0.9030719995498657, "p90": 0.903872013092041, "mean": 0.9069631934165955, "reps": 5, "warmup": 2}, "compile_ms": 1919.1016845703125, "peak_bytes": 90440704, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.00034332275390625, "mse": 2.7567148208618164e-06, "ref": "sdpa_math_fp32"}, "err": null}
+{"ts": "2025-10-02T18:09:43Z", "run": "02313c2372ed4884add9b1c644335af9", "impl": "torch_flash_compiled_max_autotune", "tags": {"family": "torch-sdpa", "backend": "FLASH", "compile": "max-autotune"}, "wl": {"name": "flux_L512", "batch": 1, "seq_len": 1536, "heads": 24, "head_dim": 128, "dtype": "bfloat16", "device": "cuda", "seed": 0}, "env": {"torch": "2.8.0+cu128", "cuda": "12.8", "gpu": "NVIDIA A10G", "sm": "8.6", "py": "3.11.13", "plat": "Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36"}, "lat_ms": {"p10": 0.9145920276641846, "p50": 0.9164159893989563, "p90": 0.9357439875602722, "mean": 0.9371584057807922, "reps": 5, "warmup": 2}, "compile_ms": 1487.1219482421875, "peak_bytes": 94372864, "ok": true, "absmax": 0.0625, "corr": {"ok": true, "rtol": 0.02, "atol": 0.02, "absmax": 0.0625, "mae": 0.0003452301025390625, "mse": 2.771615982055664e-06, "ref": "sdpa_math_fp32"}, "err": null}

flash_attn/impls/compiled_variants.html CHANGED Viewed

@@ -719,6 +719,41 @@
         .artifact-preview svg {
             background: transparent;
         }
         .cell-failed {
             border-color: var(--border-cell-failed);
         }
@@ -3711,7 +3746,7 @@ span.linenos.special { color: #000000; background-color: #ffffc0; padding-left:
 <span onclick="toggleOutput('benchmark_default')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-benchmark_default" onclick="toggleUvLogsFromHeader('benchmark_default')" style="cursor: pointer;">▶ uv-logs</span>
 </span> |
-Cell: benchmark_default | 44.25s
  | <button class="run-btn" onclick="runCell('benchmark_default')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('benchmark_default')">Copy</button>
 <a href="cells/benchmark_default.py" target="_blank" class="raw-btn">Raw</a>
@@ -3795,7 +3830,7 @@ Cell: benchmark_default | 44.25s
 </div>
 <div id="output-benchmark_default" class="cell-output">
 <div class="cell-stdout">impl                     wl                  p50(ms)  ok
-torch_flash_compiled_default flux_L128              0.52  True
 torch_flash_compiled_default flux_L256              0.56  True
 torch_flash_compiled_default flux_L320              0.69  True
 torch_flash_compiled_default flux_L384              0.72  True
@@ -3806,28 +3841,28 @@ torch_flash_compiled_default flux_L512              0.77  True
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
 <div class="uv-logs-content" style="display: none;">
    Updating https://github.com/drbh/kernels-benchmark-tools.git (main)
-Downloading triton (148.3MiB)
-Downloading torch (846.9MiB)
-Downloading kiwisolver (1.4MiB)
-Downloading fonttools (4.7MiB)
-Downloading nvidia-cublas-cu12 (566.8MiB)
-Downloading nvidia-cufile-cu12 (1.1MiB)
-Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
-Downloading nvidia-cufft-cu12 (184.2MiB)
-Downloading nvidia-cudnn-cu12 (674.0MiB)
-Downloading setuptools (1.1MiB)
 Downloading matplotlib (8.3MiB)
 Downloading nvidia-cusparselt-cu12 (273.9MiB)
 Downloading nvidia-nccl-cu12 (307.4MiB)
 Downloading nvidia-cusolver-cu12 (255.1MiB)
 Downloading numpy (16.2MiB)
-Downloading sympy (6.0MiB)
-Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
-Downloading nvidia-cusparse-cu12 (274.9MiB)
-Downloading nvidia-curand-cu12 (60.7MiB)
-Downloading nvidia-nvjitlink-cu12 (37.4MiB)
-Downloading networkx (1.9MiB)
-Downloading pillow (6.3MiB)
     Updated https://github.com/drbh/kernels-benchmark-tools.git (f457279bca6573cd2fa54a74e67118f5e6b7a31c)
    Building kernels-benchmark-tools @ git+https://github.com/drbh/kernels-benchmark-tools.git@f457279bca6573cd2fa54a74e67118f5e6b7a31c
  Downloading nvidia-cufile-cu12
@@ -3839,21 +3874,21 @@ Downloading pillow (6.3MiB)
       Built kernels-benchmark-tools @ git+https://github.com/drbh/kernels-benchmark-tools.git@f457279bca6573cd2fa54a74e67118f5e6b7a31c
  Downloading nvidia-cuda-cupti-cu12
  Downloading matplotlib
- Downloading numpy
  Downloading sympy
  Downloading nvidia-nvjitlink-cu12
  Downloading nvidia-curand-cu12
  Downloading nvidia-cuda-nvrtc-cu12
  Downloading triton
  Downloading nvidia-cufft-cu12
  Downloading nvidia-cusolver-cu12
- Downloading nvidia-cusparselt-cu12
  Downloading nvidia-cusparse-cu12
  Downloading nvidia-nccl-cu12
  Downloading nvidia-cublas-cu12
  Downloading nvidia-cudnn-cu12
  Downloading torch
-Installed 37 packages in 516ms
 </div>
 </div>
 <div class="cell-artifacts">
@@ -3871,7 +3906,7 @@ Installed 37 packages in 516ms
 <span onclick="toggleOutput('benchmark_max_autotune')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-benchmark_max_autotune" onclick="toggleUvLogsFromHeader('benchmark_max_autotune')" style="cursor: pointer;">▶ uv-logs</span>
 </span> |
-Cell: benchmark_max_autotune | 56.94s
  | <button class="run-btn" onclick="runCell('benchmark_max_autotune')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('benchmark_max_autotune')">Copy</button>
 <a href="cells/benchmark_max_autotune.py" target="_blank" class="raw-btn">Raw</a>
@@ -3955,65 +3990,65 @@ Cell: benchmark_max_autotune | 56.94s
 </div>
 <div id="output-benchmark_max_autotune" class="cell-output">
 <div class="cell-stdout">impl                     wl                  p50(ms)  ok
-torch_flash_compiled_max_autotune flux_L128              0.65  True
 torch_flash_compiled_max_autotune flux_L256              0.68  True
 torch_flash_compiled_max_autotune flux_L320              0.82  True
 torch_flash_compiled_max_autotune flux_L384              0.85  True
-torch_flash_compiled_max_autotune flux_L448              0.88  True
 torch_flash_compiled_max_autotune flux_L512              0.92  True
 </div>
 <div class="uv-install-logs" id="uv-logs-benchmark_max_autotune">
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
 <div class="uv-logs-content" style="display: none;">
    Updating https://github.com/drbh/kernels-benchmark-tools.git (main)
-Downloading matplotlib (8.3MiB)
-Downloading setuptools (1.1MiB)
 Downloading nvidia-cublas-cu12 (566.8MiB)
-Downloading nvidia-cusparse-cu12 (274.9MiB)
 Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
 Downloading fonttools (4.7MiB)
 Downloading numpy (16.2MiB)
 Downloading pillow (6.3MiB)
 Downloading nvidia-cudnn-cu12 (674.0MiB)
-Downloading nvidia-nccl-cu12 (307.4MiB)
-Downloading nvidia-cusparselt-cu12 (273.9MiB)
-Downloading nvidia-cufft-cu12 (184.2MiB)
-Downloading nvidia-nvjitlink-cu12 (37.4MiB)
-Downloading networkx (1.9MiB)
-Downloading torch (846.9MiB)
-Downloading triton (148.3MiB)
-Downloading nvidia-cufile-cu12 (1.1MiB)
-Downloading kiwisolver (1.4MiB)
-Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
-Downloading nvidia-cusolver-cu12 (255.1MiB)
 Downloading nvidia-curand-cu12 (60.7MiB)
-Downloading sympy (6.0MiB)
     Updated https://github.com/drbh/kernels-benchmark-tools.git (f457279bca6573cd2fa54a74e67118f5e6b7a31c)
    Building kernels-benchmark-tools @ git+https://github.com/drbh/kernels-benchmark-tools.git@f457279bca6573cd2fa54a74e67118f5e6b7a31c
  Downloading nvidia-cufile-cu12
  Downloading kiwisolver
  Downloading setuptools
- Downloading fonttools
  Downloading networkx
  Downloading pillow
       Built kernels-benchmark-tools @ git+https://github.com/drbh/kernels-benchmark-tools.git@f457279bca6573cd2fa54a74e67118f5e6b7a31c
- Downloading matplotlib
  Downloading nvidia-cuda-cupti-cu12
- Downloading sympy
  Downloading numpy
  Downloading nvidia-nvjitlink-cu12
  Downloading nvidia-curand-cu12
  Downloading nvidia-cuda-nvrtc-cu12
  Downloading triton
  Downloading nvidia-cufft-cu12
  Downloading nvidia-cusolver-cu12
- Downloading nvidia-cusparse-cu12
  Downloading nvidia-cusparselt-cu12
  Downloading nvidia-nccl-cu12
  Downloading nvidia-cublas-cu12
  Downloading nvidia-cudnn-cu12
  Downloading torch
-Installed 37 packages in 547ms
 </div>
 </div>
 <div class="cell-artifacts">

         .artifact-preview svg {
             background: transparent;
         }
+        /* CSV table styling */
+        .artifact-csv {
+            margin-top: 1rem;
+            overflow-x: auto;
+        }
+        .csv-table {
+            width: 100%;
+            border-collapse: collapse;
+            font-size: 0.9rem;
+            background: var(--bg-secondary);
+            border: 1px solid var(--border-primary);
+            border-radius: 1px;
+        }
+        .csv-table th,
+        .csv-table td {
+            padding: 0.5rem 0.75rem;
+            text-align: left;
+            border: 1px solid var(--border-primary);
+        }
+        .csv-table th {
+            background: var(--bg-tertiary);
+            font-weight: 600;
+            color: var(--text-primary);
+        }
+        .csv-table tbody tr:hover {
+            background: var(--bg-artifact-hover);
+        }
+        .artifact-csv-error {
+            margin-top: 1rem;
+            padding: 1rem;
+            background: var(--bg-error);
+            color: var(--text-error);
+            border: 1px solid var(--border-error);
+            border-radius: 1px;
+        }
         .cell-failed {
             border-color: var(--border-cell-failed);
         }
 <span onclick="toggleOutput('benchmark_default')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-benchmark_default" onclick="toggleUvLogsFromHeader('benchmark_default')" style="cursor: pointer;">▶ uv-logs</span>
 </span> |
+Cell: benchmark_default | 46.78s
  | <button class="run-btn" onclick="runCell('benchmark_default')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('benchmark_default')">Copy</button>
 <a href="cells/benchmark_default.py" target="_blank" class="raw-btn">Raw</a>
 </div>
 <div id="output-benchmark_default" class="cell-output">
 <div class="cell-stdout">impl                     wl                  p50(ms)  ok
+torch_flash_compiled_default flux_L128              0.53  True
 torch_flash_compiled_default flux_L256              0.56  True
 torch_flash_compiled_default flux_L320              0.69  True
 torch_flash_compiled_default flux_L384              0.72  True
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
 <div class="uv-logs-content" style="display: none;">
    Updating https://github.com/drbh/kernels-benchmark-tools.git (main)
+Downloading nvidia-nvjitlink-cu12 (37.4MiB)
 Downloading matplotlib (8.3MiB)
+Downloading networkx (1.9MiB)
+Downloading setuptools (1.1MiB)
+Downloading nvidia-cusparse-cu12 (274.9MiB)
+Downloading pillow (6.3MiB)
+Downloading sympy (6.0MiB)
+Downloading nvidia-cublas-cu12 (566.8MiB)
+Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
 Downloading nvidia-cusparselt-cu12 (273.9MiB)
 Downloading nvidia-nccl-cu12 (307.4MiB)
+Downloading nvidia-cufft-cu12 (184.2MiB)
+Downloading nvidia-curand-cu12 (60.7MiB)
+Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
+Downloading nvidia-cufile-cu12 (1.1MiB)
+Downloading torch (846.9MiB)
 Downloading nvidia-cusolver-cu12 (255.1MiB)
+Downloading fonttools (4.7MiB)
+Downloading nvidia-cudnn-cu12 (674.0MiB)
+Downloading kiwisolver (1.4MiB)
+Downloading triton (148.3MiB)
 Downloading numpy (16.2MiB)
     Updated https://github.com/drbh/kernels-benchmark-tools.git (f457279bca6573cd2fa54a74e67118f5e6b7a31c)
    Building kernels-benchmark-tools @ git+https://github.com/drbh/kernels-benchmark-tools.git@f457279bca6573cd2fa54a74e67118f5e6b7a31c
  Downloading nvidia-cufile-cu12
       Built kernels-benchmark-tools @ git+https://github.com/drbh/kernels-benchmark-tools.git@f457279bca6573cd2fa54a74e67118f5e6b7a31c
  Downloading nvidia-cuda-cupti-cu12
  Downloading matplotlib
  Downloading sympy
+ Downloading numpy
  Downloading nvidia-nvjitlink-cu12
  Downloading nvidia-curand-cu12
  Downloading nvidia-cuda-nvrtc-cu12
  Downloading triton
  Downloading nvidia-cufft-cu12
  Downloading nvidia-cusolver-cu12
  Downloading nvidia-cusparse-cu12
+ Downloading nvidia-cusparselt-cu12
  Downloading nvidia-nccl-cu12
  Downloading nvidia-cublas-cu12
  Downloading nvidia-cudnn-cu12
  Downloading torch
+Installed 37 packages in 557ms
 </div>
 </div>
 <div class="cell-artifacts">
 <span onclick="toggleOutput('benchmark_max_autotune')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-benchmark_max_autotune" onclick="toggleUvLogsFromHeader('benchmark_max_autotune')" style="cursor: pointer;">▶ uv-logs</span>
 </span> |
+Cell: benchmark_max_autotune | 53.65s
  | <button class="run-btn" onclick="runCell('benchmark_max_autotune')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('benchmark_max_autotune')">Copy</button>
 <a href="cells/benchmark_max_autotune.py" target="_blank" class="raw-btn">Raw</a>
 </div>
 <div id="output-benchmark_max_autotune" class="cell-output">
 <div class="cell-stdout">impl                     wl                  p50(ms)  ok
+torch_flash_compiled_max_autotune flux_L128              0.63  True
 torch_flash_compiled_max_autotune flux_L256              0.68  True
 torch_flash_compiled_max_autotune flux_L320              0.82  True
 torch_flash_compiled_max_autotune flux_L384              0.85  True
+torch_flash_compiled_max_autotune flux_L448              0.90  True
 torch_flash_compiled_max_autotune flux_L512              0.92  True
 </div>
 <div class="uv-install-logs" id="uv-logs-benchmark_max_autotune">
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
 <div class="uv-logs-content" style="display: none;">
    Updating https://github.com/drbh/kernels-benchmark-tools.git (main)
+Downloading nvidia-cufile-cu12 (1.1MiB)
 Downloading nvidia-cublas-cu12 (566.8MiB)
+Downloading sympy (6.0MiB)
+Downloading nvidia-nccl-cu12 (307.4MiB)
+Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
+Downloading nvidia-cusolver-cu12 (255.1MiB)
 Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
+Downloading matplotlib (8.3MiB)
+Downloading triton (148.3MiB)
+Downloading networkx (1.9MiB)
 Downloading fonttools (4.7MiB)
+Downloading torch (846.9MiB)
+Downloading nvidia-nvjitlink-cu12 (37.4MiB)
+Downloading nvidia-cusparselt-cu12 (273.9MiB)
+Downloading kiwisolver (1.4MiB)
+Downloading nvidia-cufft-cu12 (184.2MiB)
+Downloading nvidia-cusparse-cu12 (274.9MiB)
 Downloading numpy (16.2MiB)
 Downloading pillow (6.3MiB)
 Downloading nvidia-cudnn-cu12 (674.0MiB)
+Downloading setuptools (1.1MiB)
 Downloading nvidia-curand-cu12 (60.7MiB)
     Updated https://github.com/drbh/kernels-benchmark-tools.git (f457279bca6573cd2fa54a74e67118f5e6b7a31c)
    Building kernels-benchmark-tools @ git+https://github.com/drbh/kernels-benchmark-tools.git@f457279bca6573cd2fa54a74e67118f5e6b7a31c
  Downloading nvidia-cufile-cu12
  Downloading kiwisolver
  Downloading setuptools
  Downloading networkx
+ Downloading fonttools
  Downloading pillow
       Built kernels-benchmark-tools @ git+https://github.com/drbh/kernels-benchmark-tools.git@f457279bca6573cd2fa54a74e67118f5e6b7a31c
  Downloading nvidia-cuda-cupti-cu12
+ Downloading matplotlib
  Downloading numpy
+ Downloading sympy
  Downloading nvidia-nvjitlink-cu12
  Downloading nvidia-curand-cu12
  Downloading nvidia-cuda-nvrtc-cu12
  Downloading triton
  Downloading nvidia-cufft-cu12
  Downloading nvidia-cusolver-cu12
  Downloading nvidia-cusparselt-cu12
+ Downloading nvidia-cusparse-cu12
  Downloading nvidia-nccl-cu12
  Downloading nvidia-cublas-cu12
  Downloading nvidia-cudnn-cu12
  Downloading torch
+Installed 37 packages in 525ms
 </div>
 </div>
 <div class="cell-artifacts">

flash_attn/impls/flash_attention.html CHANGED Viewed

@@ -719,6 +719,41 @@
         .artifact-preview svg {
             background: transparent;
         }
         .cell-failed {
             border-color: var(--border-cell-failed);
         }
@@ -3710,7 +3745,7 @@ span.linenos.special { color: #000000; background-color: #ffffc0; padding-left:
 <span onclick="toggleOutput('nv')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-nv" style="cursor: default; opacity: 0.3;">▶ uv-logs</span>
 </span> |
-Cell: nv | 0.66s
  | <button class="run-btn" onclick="runCell('nv')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('nv')">Copy</button>
 <a href="cells/nv.py" target="_blank" class="raw-btn">Raw</a>
@@ -3726,7 +3761,7 @@ Cell: nv | 0.66s
 </div>
 </div>
 <div id="output-nv" class="cell-output">
-<div class="cell-stdout">Thu Oct  2 15:53:02 2025
 +-----------------------------------------------------------------------------------------+
 | NVIDIA-SMI 570.172.08             Driver Version: 570.172.08     CUDA Version: 12.8     |
 |-----------------------------------------+------------------------+----------------------+
@@ -3735,19 +3770,19 @@ Cell: nv | 0.66s
 |                                         |                        |               MIG M. |
 |=========================================+========================+======================|
 |   0  NVIDIA A10G                    On  |   00000000:00:1B.0 Off |                    0 |
-|  0%   29C    P0             87W /  300W |       0MiB /  23028MiB |      0%      Default |
 |                                         |                        |                  N/A |
 +-----------------------------------------+------------------------+----------------------+
 |   1  NVIDIA A10G                    On  |   00000000:00:1C.0 Off |                    0 |
-|  0%   25C    P8             24W /  300W |       0MiB /  23028MiB |      0%      Default |
 |                                         |                        |                  N/A |
 +-----------------------------------------+------------------------+----------------------+
 |   2  NVIDIA A10G                    On  |   00000000:00:1D.0 Off |                    0 |
-|  0%   25C    P8             23W /  300W |       0MiB /  23028MiB |      0%      Default |
 |                                         |                        |                  N/A |
 +-----------------------------------------+------------------------+----------------------+
 |   3  NVIDIA A10G                    On  |   00000000:00:1E.0 Off |                    0 |
-|  0%   25C    P8             23W /  300W |       0MiB /  23028MiB |      0%      Default |
 |                                         |                        |                  N/A |
 +-----------------------------------------+------------------------+----------------------+
@@ -3771,7 +3806,7 @@ Cell: nv | 0.66s
 <span onclick="toggleOutput('benchmark')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-benchmark" onclick="toggleUvLogsFromHeader('benchmark')" style="cursor: pointer;">▶ uv-logs</span>
 </span> |
-Cell: benchmark | 37.94s
  | <button class="run-btn" onclick="runCell('benchmark')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('benchmark')">Copy</button>
 <a href="cells/benchmark.py" target="_blank" class="raw-btn">Raw</a>
@@ -3852,7 +3887,7 @@ Cell: benchmark | 37.94s
 <div id="output-benchmark" class="cell-output">
 <div class="cell-stdout">impl                     wl                  p50(ms)  ok
 torch_flash_ma           flux_L128              0.48  True
-torch_flash_ma           flux_L256              0.53  True
 torch_flash_ma           flux_L320              0.65  True
 torch_flash_ma           flux_L384              0.68  True
 torch_flash_ma           flux_L448              0.71  True
@@ -3862,35 +3897,35 @@ torch_flash_ma           flux_L512              0.74  True
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
 <div class="uv-logs-content" style="display: none;">
    Updating https://github.com/drbh/kernels-benchmark-tools.git (main)
-Downloading nvidia-cusparse-cu12 (274.9MiB)
-Downloading sympy (6.0MiB)
-Downloading nvidia-cusparselt-cu12 (273.9MiB)
 Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
-Downloading nvidia-nccl-cu12 (307.4MiB)
 Downloading networkx (1.9MiB)
-Downloading fonttools (4.7MiB)
-Downloading matplotlib (8.3MiB)
-Downloading nvidia-cufft-cu12 (184.2MiB)
-Downloading setuptools (1.1MiB)
-Downloading pillow (6.3MiB)
-Downloading nvidia-cublas-cu12 (566.8MiB)
 Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
-Downloading nvidia-cudnn-cu12 (674.0MiB)
 Downloading nvidia-cusolver-cu12 (255.1MiB)
-Downloading numpy (16.2MiB)
-Downloading nvidia-cufile-cu12 (1.1MiB)
 Downloading nvidia-nvjitlink-cu12 (37.4MiB)
-Downloading nvidia-curand-cu12 (60.7MiB)
-Downloading kiwisolver (1.4MiB)
-Downloading torch (846.9MiB)
 Downloading triton (148.3MiB)
     Updated https://github.com/drbh/kernels-benchmark-tools.git (f457279bca6573cd2fa54a74e67118f5e6b7a31c)
    Building kernels-benchmark-tools @ git+https://github.com/drbh/kernels-benchmark-tools.git@f457279bca6573cd2fa54a74e67118f5e6b7a31c
  Downloading nvidia-cufile-cu12
  Downloading kiwisolver
  Downloading setuptools
- Downloading fonttools
  Downloading networkx
  Downloading pillow
       Built kernels-benchmark-tools @ git+https://github.com/drbh/kernels-benchmark-tools.git@f457279bca6573cd2fa54a74e67118f5e6b7a31c
  Downloading nvidia-cuda-cupti-cu12
@@ -3906,10 +3941,10 @@ Downloading triton (148.3MiB)
  Downloading nvidia-cusparselt-cu12
  Downloading nvidia-cusparse-cu12
  Downloading nvidia-nccl-cu12
- Downloading nvidia-cublas-cu12
  Downloading nvidia-cudnn-cu12
  Downloading torch
-Installed 37 packages in 567ms
 </div>
 </div>
 <div class="cell-artifacts">

         .artifact-preview svg {
             background: transparent;
         }
+        /* CSV table styling */
+        .artifact-csv {
+            margin-top: 1rem;
+            overflow-x: auto;
+        }
+        .csv-table {
+            width: 100%;
+            border-collapse: collapse;
+            font-size: 0.9rem;
+            background: var(--bg-secondary);
+            border: 1px solid var(--border-primary);
+            border-radius: 1px;
+        }
+        .csv-table th,
+        .csv-table td {
+            padding: 0.5rem 0.75rem;
+            text-align: left;
+            border: 1px solid var(--border-primary);
+        }
+        .csv-table th {
+            background: var(--bg-tertiary);
+            font-weight: 600;
+            color: var(--text-primary);
+        }
+        .csv-table tbody tr:hover {
+            background: var(--bg-artifact-hover);
+        }
+        .artifact-csv-error {
+            margin-top: 1rem;
+            padding: 1rem;
+            background: var(--bg-error);
+            color: var(--text-error);
+            border: 1px solid var(--border-error);
+            border-radius: 1px;
+        }
         .cell-failed {
             border-color: var(--border-cell-failed);
         }
 <span onclick="toggleOutput('nv')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-nv" style="cursor: default; opacity: 0.3;">▶ uv-logs</span>
 </span> |
+Cell: nv | 0.70s
  | <button class="run-btn" onclick="runCell('nv')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('nv')">Copy</button>
 <a href="cells/nv.py" target="_blank" class="raw-btn">Raw</a>
 </div>
 </div>
 <div id="output-nv" class="cell-output">
+<div class="cell-stdout">Thu Oct  2 18:06:49 2025
 +-----------------------------------------------------------------------------------------+
 | NVIDIA-SMI 570.172.08             Driver Version: 570.172.08     CUDA Version: 12.8     |
 |-----------------------------------------+------------------------+----------------------+
 |                                         |                        |               MIG M. |
 |=========================================+========================+======================|
 |   0  NVIDIA A10G                    On  |   00000000:00:1B.0 Off |                    0 |
+|  0%   26C    P8             24W /  300W |       0MiB /  23028MiB |      0%      Default |
 |                                         |                        |                  N/A |
 +-----------------------------------------+------------------------+----------------------+
 |   1  NVIDIA A10G                    On  |   00000000:00:1C.0 Off |                    0 |
+|  0%   26C    P8             26W /  300W |       0MiB /  23028MiB |      0%      Default |
 |                                         |                        |                  N/A |
 +-----------------------------------------+------------------------+----------------------+
 |   2  NVIDIA A10G                    On  |   00000000:00:1D.0 Off |                    0 |
+|  0%   26C    P8             24W /  300W |       0MiB /  23028MiB |      0%      Default |
 |                                         |                        |                  N/A |
 +-----------------------------------------+------------------------+----------------------+
 |   3  NVIDIA A10G                    On  |   00000000:00:1E.0 Off |                    0 |
+|  0%   27C    P8             24W /  300W |       0MiB /  23028MiB |      0%      Default |
 |                                         |                        |                  N/A |
 +-----------------------------------------+------------------------+----------------------+
 <span onclick="toggleOutput('benchmark')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-benchmark" onclick="toggleUvLogsFromHeader('benchmark')" style="cursor: pointer;">▶ uv-logs</span>
 </span> |
+Cell: benchmark | 36.63s
  | <button class="run-btn" onclick="runCell('benchmark')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('benchmark')">Copy</button>
 <a href="cells/benchmark.py" target="_blank" class="raw-btn">Raw</a>
 <div id="output-benchmark" class="cell-output">
 <div class="cell-stdout">impl                     wl                  p50(ms)  ok
 torch_flash_ma           flux_L128              0.48  True
+torch_flash_ma           flux_L256              0.52  True
 torch_flash_ma           flux_L320              0.65  True
 torch_flash_ma           flux_L384              0.68  True
 torch_flash_ma           flux_L448              0.71  True
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
 <div class="uv-logs-content" style="display: none;">
    Updating https://github.com/drbh/kernels-benchmark-tools.git (main)
 Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
 Downloading networkx (1.9MiB)
+Downloading kiwisolver (1.4MiB)
+Downloading nvidia-cufile-cu12 (1.1MiB)
+Downloading sympy (6.0MiB)
+Downloading nvidia-curand-cu12 (60.7MiB)
 Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
+Downloading nvidia-cufft-cu12 (184.2MiB)
 Downloading nvidia-cusolver-cu12 (255.1MiB)
 Downloading nvidia-nvjitlink-cu12 (37.4MiB)
+Downloading nvidia-nccl-cu12 (307.4MiB)
+Downloading pillow (6.3MiB)
+Downloading numpy (16.2MiB)
+Downloading nvidia-cusparselt-cu12 (273.9MiB)
+Downloading nvidia-cublas-cu12 (566.8MiB)
+Downloading nvidia-cusparse-cu12 (274.9MiB)
+Downloading setuptools (1.1MiB)
+Downloading matplotlib (8.3MiB)
 Downloading triton (148.3MiB)
+Downloading fonttools (4.7MiB)
+Downloading torch (846.9MiB)
+Downloading nvidia-cudnn-cu12 (674.0MiB)
     Updated https://github.com/drbh/kernels-benchmark-tools.git (f457279bca6573cd2fa54a74e67118f5e6b7a31c)
    Building kernels-benchmark-tools @ git+https://github.com/drbh/kernels-benchmark-tools.git@f457279bca6573cd2fa54a74e67118f5e6b7a31c
  Downloading nvidia-cufile-cu12
  Downloading kiwisolver
  Downloading setuptools
  Downloading networkx
+ Downloading fonttools
  Downloading pillow
       Built kernels-benchmark-tools @ git+https://github.com/drbh/kernels-benchmark-tools.git@f457279bca6573cd2fa54a74e67118f5e6b7a31c
  Downloading nvidia-cuda-cupti-cu12
  Downloading nvidia-cusparselt-cu12
  Downloading nvidia-cusparse-cu12
  Downloading nvidia-nccl-cu12
  Downloading nvidia-cudnn-cu12
+ Downloading nvidia-cublas-cu12
  Downloading torch
+Installed 37 packages in 548ms
 </div>
 </div>
 <div class="cell-artifacts">

flash_attn/impls/hf_kernels_flash_attn.html CHANGED Viewed

@@ -719,6 +719,41 @@
         .artifact-preview svg {
             background: transparent;
         }
         .cell-failed {
             border-color: var(--border-cell-failed);
         }
@@ -3710,7 +3745,7 @@ span.linenos.special { color: #000000; background-color: #ffffc0; padding-left:
 <span onclick="toggleOutput('benchmark')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-benchmark" onclick="toggleUvLogsFromHeader('benchmark')" style="cursor: pointer;">▶ uv-logs</span>
 </span> |
-Cell: benchmark | 38.08s
  | <button class="run-btn" onclick="runCell('benchmark')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('benchmark')">Copy</button>
 <a href="cells/benchmark.py" target="_blank" class="raw-btn">Raw</a>
@@ -3735,7 +3770,7 @@ Cell: benchmark | 38.08s
 <span class="kn">import</span><span class="w"> </span><span class="nn">kernels_benchmark_tools</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">kbt</span>
 <span class="kn">from</span><span class="w"> </span><span class="nn">kernels</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_kernel</span>
-<span class="n">hf_kernels_flash_attn</span> <span class="o">=</span> <span class="n">get_kernel</span><span class="p">(</span><span class="s2">&quot;kernels-community/flash-attn&quot;</span><span class="p">)</span>
 <span class="k">def</span><span class="w"> </span><span class="nf">hf_flash_attention</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
@@ -3797,39 +3832,39 @@ Cell: benchmark | 38.08s
 <div id="output-benchmark" class="cell-output">
 <div class="cell-stdout">impl                     wl                  p50(ms)  ok
 hf_kernels_flash_attn    flux_L128              0.34  True
-hf_kernels_flash_attn    flux_L256              0.37  True
 hf_kernels_flash_attn    flux_L320              0.49  True
 hf_kernels_flash_attn    flux_L384              0.51  True
-hf_kernels_flash_attn    flux_L448              0.53  True
-hf_kernels_flash_attn    flux_L512              0.56  True
 </div>
 <div class="uv-install-logs" id="uv-logs-benchmark">
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
 <div class="uv-logs-content" style="display: none;">
    Updating https://github.com/drbh/kernels-benchmark-tools.git (main)
-Downloading nvidia-cufft-cu12 (184.2MiB)
-Downloading numpy (16.2MiB)
-Downloading setuptools (1.1MiB)
-Downloading hf-xet (3.0MiB)
-Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
-Downloading nvidia-cusolver-cu12 (255.1MiB)
 Downloading nvidia-curand-cu12 (60.7MiB)
 Downloading networkx (1.9MiB)
-Downloading nvidia-nccl-cu12 (307.4MiB)
 Downloading torch (846.9MiB)
-Downloading nvidia-cufile-cu12 (1.1MiB)
-Downloading triton (148.3MiB)
-Downloading nvidia-nvjitlink-cu12 (37.4MiB)
-Downloading sympy (6.0MiB)
 Downloading nvidia-cudnn-cu12 (674.0MiB)
-Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
 Downloading nvidia-cusparse-cu12 (274.9MiB)
-Downloading nvidia-cusparselt-cu12 (273.9MiB)
 Downloading kiwisolver (1.4MiB)
-Downloading nvidia-cublas-cu12 (566.8MiB)
 Downloading pillow (6.3MiB)
 Downloading fonttools (4.7MiB)
-Downloading matplotlib (8.3MiB)
     Updated https://github.com/drbh/kernels-benchmark-tools.git (f457279bca6573cd2fa54a74e67118f5e6b7a31c)
    Building kernels-benchmark-tools @ git+https://github.com/drbh/kernels-benchmark-tools.git@f457279bca6573cd2fa54a74e67118f5e6b7a31c
  Downloading nvidia-cufile-cu12
@@ -3840,8 +3875,8 @@ Downloading matplotlib (8.3MiB)
  Downloading fonttools
  Downloading pillow
       Built kernels-benchmark-tools @ git+https://github.com/drbh/kernels-benchmark-tools.git@f457279bca6573cd2fa54a74e67118f5e6b7a31c
- Downloading nvidia-cuda-cupti-cu12
  Downloading matplotlib
  Downloading numpy
  Downloading sympy
  Downloading nvidia-nvjitlink-cu12
@@ -3850,19 +3885,19 @@ Downloading matplotlib (8.3MiB)
  Downloading triton
  Downloading nvidia-cufft-cu12
  Downloading nvidia-cusolver-cu12
- Downloading nvidia-cusparselt-cu12
  Downloading nvidia-cusparse-cu12
  Downloading nvidia-nccl-cu12
  Downloading nvidia-cublas-cu12
  Downloading nvidia-cudnn-cu12
  Downloading torch
-Installed 47 packages in 519ms
 </div>
 </div>
 <div class="cell-stderr">Fetching 20 files:   0%|          | 0/20 [00:00&lt;?, ?it/s]
-Fetching 20 files:   5%|▌         | 1/20 [00:00&lt;00:06,  2.87it/s]
-Fetching 20 files:  10%|█         | 2/20 [00:01&lt;00:12,  1.49it/s]
-Fetching 20 files: 100%|██████████| 20/20 [00:01&lt;00:00, 16.01it/s]</div>
 <div class="cell-artifacts">
 <h4>Artifacts:</h4>
 <a href="artifacts/benchmark/attn.jsonl" class="artifact" target="_blank">attn.jsonl</a>

         .artifact-preview svg {
             background: transparent;
         }
+        /* CSV table styling */
+        .artifact-csv {
+            margin-top: 1rem;
+            overflow-x: auto;
+        }
+        .csv-table {
+            width: 100%;
+            border-collapse: collapse;
+            font-size: 0.9rem;
+            background: var(--bg-secondary);
+            border: 1px solid var(--border-primary);
+            border-radius: 1px;
+        }
+        .csv-table th,
+        .csv-table td {
+            padding: 0.5rem 0.75rem;
+            text-align: left;
+            border: 1px solid var(--border-primary);
+        }
+        .csv-table th {
+            background: var(--bg-tertiary);
+            font-weight: 600;
+            color: var(--text-primary);
+        }
+        .csv-table tbody tr:hover {
+            background: var(--bg-artifact-hover);
+        }
+        .artifact-csv-error {
+            margin-top: 1rem;
+            padding: 1rem;
+            background: var(--bg-error);
+            color: var(--text-error);
+            border: 1px solid var(--border-error);
+            border-radius: 1px;
+        }
         .cell-failed {
             border-color: var(--border-cell-failed);
         }
 <span onclick="toggleOutput('benchmark')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-benchmark" onclick="toggleUvLogsFromHeader('benchmark')" style="cursor: pointer;">▶ uv-logs</span>
 </span> |
+Cell: benchmark | 39.43s
  | <button class="run-btn" onclick="runCell('benchmark')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('benchmark')">Copy</button>
 <a href="cells/benchmark.py" target="_blank" class="raw-btn">Raw</a>
 <span class="kn">import</span><span class="w"> </span><span class="nn">kernels_benchmark_tools</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">kbt</span>
 <span class="kn">from</span><span class="w"> </span><span class="nn">kernels</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_kernel</span>
+<span class="n">hf_kernels_flash_attn</span> <span class="o">=</span> <span class="n">get_kernel</span><span class="p">(</span><span class="s2">&quot;kernels-community/flash-attn&quot;</span><span class="p">,</span> <span class="n">revision</span><span class="o">=</span><span class="s2">&quot;v0.0.2&quot;</span><span class="p">)</span>
 <span class="k">def</span><span class="w"> </span><span class="nf">hf_flash_attention</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
 <div id="output-benchmark" class="cell-output">
 <div class="cell-stdout">impl                     wl                  p50(ms)  ok
 hf_kernels_flash_attn    flux_L128              0.34  True
+hf_kernels_flash_attn    flux_L256              0.38  True
 hf_kernels_flash_attn    flux_L320              0.49  True
 hf_kernels_flash_attn    flux_L384              0.51  True
+hf_kernels_flash_attn    flux_L448              0.54  True
+hf_kernels_flash_attn    flux_L512              0.55  True
 </div>
 <div class="uv-install-logs" id="uv-logs-benchmark">
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
 <div class="uv-logs-content" style="display: none;">
    Updating https://github.com/drbh/kernels-benchmark-tools.git (main)
+Downloading sympy (6.0MiB)
+Downloading matplotlib (8.3MiB)
+Downloading nvidia-nccl-cu12 (307.4MiB)
+Downloading nvidia-cufile-cu12 (1.1MiB)
 Downloading nvidia-curand-cu12 (60.7MiB)
 Downloading networkx (1.9MiB)
 Downloading torch (846.9MiB)
+Downloading setuptools (1.1MiB)
 Downloading nvidia-cudnn-cu12 (674.0MiB)
+Downloading nvidia-cusolver-cu12 (255.1MiB)
+Downloading triton (148.3MiB)
 Downloading nvidia-cusparse-cu12 (274.9MiB)
+Downloading numpy (16.2MiB)
+Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
 Downloading kiwisolver (1.4MiB)
+Downloading hf-xet (3.0MiB)
 Downloading pillow (6.3MiB)
+Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
+Downloading nvidia-cublas-cu12 (566.8MiB)
+Downloading nvidia-cusparselt-cu12 (273.9MiB)
+Downloading nvidia-nvjitlink-cu12 (37.4MiB)
 Downloading fonttools (4.7MiB)
+Downloading nvidia-cufft-cu12 (184.2MiB)
     Updated https://github.com/drbh/kernels-benchmark-tools.git (f457279bca6573cd2fa54a74e67118f5e6b7a31c)
    Building kernels-benchmark-tools @ git+https://github.com/drbh/kernels-benchmark-tools.git@f457279bca6573cd2fa54a74e67118f5e6b7a31c
  Downloading nvidia-cufile-cu12
  Downloading fonttools
  Downloading pillow
       Built kernels-benchmark-tools @ git+https://github.com/drbh/kernels-benchmark-tools.git@f457279bca6573cd2fa54a74e67118f5e6b7a31c
  Downloading matplotlib
+ Downloading nvidia-cuda-cupti-cu12
  Downloading numpy
  Downloading sympy
  Downloading nvidia-nvjitlink-cu12
  Downloading triton
  Downloading nvidia-cufft-cu12
  Downloading nvidia-cusolver-cu12
  Downloading nvidia-cusparse-cu12
+ Downloading nvidia-cusparselt-cu12
  Downloading nvidia-nccl-cu12
  Downloading nvidia-cublas-cu12
  Downloading nvidia-cudnn-cu12
  Downloading torch
+Installed 47 packages in 552ms
 </div>
 </div>
 <div class="cell-stderr">Fetching 20 files:   0%|          | 0/20 [00:00&lt;?, ?it/s]
+Fetching 20 files:   5%|▌         | 1/20 [00:00&lt;00:03,  5.41it/s]
+Fetching 20 files:  10%|█         | 2/20 [00:01&lt;00:16,  1.09it/s]
+Fetching 20 files: 100%|██████████| 20/20 [00:01&lt;00:00, 12.37it/s]</div>
 <div class="cell-artifacts">
 <h4>Artifacts:</h4>
 <a href="artifacts/benchmark/attn.jsonl" class="artifact" target="_blank">attn.jsonl</a>

flash_attn/impls/hf_kernels_flash_attn3.html CHANGED Viewed

@@ -719,6 +719,41 @@
         .artifact-preview svg {
             background: transparent;
         }
         .cell-failed {
             border-color: var(--border-cell-failed);
         }
@@ -3710,7 +3745,7 @@ span.linenos.special { color: #000000; background-color: #ffffc0; padding-left:
 <span onclick="toggleOutput('benchmark')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-benchmark" onclick="toggleUvLogsFromHeader('benchmark')" style="cursor: pointer;">▶ uv-logs</span>
 </span> |
-Cell: benchmark | 41.76s
  | <button class="run-btn" onclick="runCell('benchmark')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('benchmark')">Copy</button>
 <a href="cells/benchmark.py" target="_blank" class="raw-btn">Raw</a>
@@ -3798,7 +3833,7 @@ Cell: benchmark | 41.76s
 hf_kernels_flash_attn3   flux_L128              0.36  True
 hf_kernels_flash_attn3   flux_L256              0.39  True
 hf_kernels_flash_attn3   flux_L320              0.52  True
-hf_kernels_flash_attn3   flux_L384              0.53  True
 hf_kernels_flash_attn3   flux_L448              0.57  True
 hf_kernels_flash_attn3   flux_L512              0.57  True
 </div>
@@ -3806,29 +3841,29 @@ hf_kernels_flash_attn3   flux_L512              0.57  True
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
 <div class="uv-logs-content" style="display: none;">
    Updating https://github.com/drbh/kernels-benchmark-tools.git (main)
-Downloading sympy (6.0MiB)
-Downloading networkx (1.9MiB)
 Downloading nvidia-cufile-cu12 (1.1MiB)
-Downloading matplotlib (8.3MiB)
 Downloading setuptools (1.1MiB)
-Downloading fonttools (4.7MiB)
 Downloading nvidia-cudnn-cu12 (674.0MiB)
-Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
 Downloading nvidia-cusparselt-cu12 (273.9MiB)
-Downloading nvidia-cublas-cu12 (566.8MiB)
-Downloading nvidia-cufft-cu12 (184.2MiB)
-Downloading numpy (16.2MiB)
-Downloading nvidia-curand-cu12 (60.7MiB)
 Downloading nvidia-nvjitlink-cu12 (37.4MiB)
-Downloading hf-xet (3.0MiB)
-Downloading pillow (6.3MiB)
 Downloading nvidia-cusolver-cu12 (255.1MiB)
 Downloading kiwisolver (1.4MiB)
-Downloading torch (846.9MiB)
-Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
-Downloading nvidia-nccl-cu12 (307.4MiB)
-Downloading triton (148.3MiB)
-Downloading nvidia-cusparse-cu12 (274.9MiB)
     Updated https://github.com/drbh/kernels-benchmark-tools.git (f457279bca6573cd2fa54a74e67118f5e6b7a31c)
    Building kernels-benchmark-tools @ git+https://github.com/drbh/kernels-benchmark-tools.git@f457279bca6573cd2fa54a74e67118f5e6b7a31c
  Downloading nvidia-cufile-cu12
@@ -3849,19 +3884,19 @@ Downloading nvidia-cusparse-cu12 (274.9MiB)
  Downloading triton
  Downloading nvidia-cufft-cu12
  Downloading nvidia-cusolver-cu12
- Downloading nvidia-cusparselt-cu12
  Downloading nvidia-cusparse-cu12
  Downloading nvidia-nccl-cu12
  Downloading nvidia-cublas-cu12
  Downloading nvidia-cudnn-cu12
  Downloading torch
-Installed 47 packages in 515ms
 </div>
 </div>
 <div class="cell-stderr">Fetching 4 files:   0%|          | 0/4 [00:00&lt;?, ?it/s]
-Fetching 4 files:  25%|██▌       | 1/4 [00:00&lt;00:00,  4.20it/s]
 Fetching 4 files:  50%|█████     | 2/4 [00:01&lt;00:01,  1.09it/s]
-Fetching 4 files: 100%|██████████| 4/4 [00:01&lt;00:00,  2.44it/s]</div>
 <div class="cell-artifacts">
 <h4>Artifacts:</h4>
 <a href="artifacts/benchmark/attn.jsonl" class="artifact" target="_blank">attn.jsonl</a>

         .artifact-preview svg {
             background: transparent;
         }
+        /* CSV table styling */
+        .artifact-csv {
+            margin-top: 1rem;
+            overflow-x: auto;
+        }
+        .csv-table {
+            width: 100%;
+            border-collapse: collapse;
+            font-size: 0.9rem;
+            background: var(--bg-secondary);
+            border: 1px solid var(--border-primary);
+            border-radius: 1px;
+        }
+        .csv-table th,
+        .csv-table td {
+            padding: 0.5rem 0.75rem;
+            text-align: left;
+            border: 1px solid var(--border-primary);
+        }
+        .csv-table th {
+            background: var(--bg-tertiary);
+            font-weight: 600;
+            color: var(--text-primary);
+        }
+        .csv-table tbody tr:hover {
+            background: var(--bg-artifact-hover);
+        }
+        .artifact-csv-error {
+            margin-top: 1rem;
+            padding: 1rem;
+            background: var(--bg-error);
+            color: var(--text-error);
+            border: 1px solid var(--border-error);
+            border-radius: 1px;
+        }
         .cell-failed {
             border-color: var(--border-cell-failed);
         }
 <span onclick="toggleOutput('benchmark')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-benchmark" onclick="toggleUvLogsFromHeader('benchmark')" style="cursor: pointer;">▶ uv-logs</span>
 </span> |
+Cell: benchmark | 39.41s
  | <button class="run-btn" onclick="runCell('benchmark')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('benchmark')">Copy</button>
 <a href="cells/benchmark.py" target="_blank" class="raw-btn">Raw</a>
 hf_kernels_flash_attn3   flux_L128              0.36  True
 hf_kernels_flash_attn3   flux_L256              0.39  True
 hf_kernels_flash_attn3   flux_L320              0.52  True
+hf_kernels_flash_attn3   flux_L384              0.52  True
 hf_kernels_flash_attn3   flux_L448              0.57  True
 hf_kernels_flash_attn3   flux_L512              0.57  True
 </div>
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
 <div class="uv-logs-content" style="display: none;">
    Updating https://github.com/drbh/kernels-benchmark-tools.git (main)
 Downloading nvidia-cufile-cu12 (1.1MiB)
+Downloading nvidia-nccl-cu12 (307.4MiB)
 Downloading setuptools (1.1MiB)
+Downloading nvidia-curand-cu12 (60.7MiB)
+Downloading pillow (6.3MiB)
+Downloading numpy (16.2MiB)
+Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
+Downloading nvidia-cusparse-cu12 (274.9MiB)
+Downloading nvidia-cufft-cu12 (184.2MiB)
+Downloading networkx (1.9MiB)
 Downloading nvidia-cudnn-cu12 (674.0MiB)
+Downloading sympy (6.0MiB)
+Downloading hf-xet (3.0MiB)
 Downloading nvidia-cusparselt-cu12 (273.9MiB)
+Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
+Downloading torch (846.9MiB)
+Downloading triton (148.3MiB)
 Downloading nvidia-nvjitlink-cu12 (37.4MiB)
 Downloading nvidia-cusolver-cu12 (255.1MiB)
+Downloading nvidia-cublas-cu12 (566.8MiB)
+Downloading fonttools (4.7MiB)
 Downloading kiwisolver (1.4MiB)
+Downloading matplotlib (8.3MiB)
     Updated https://github.com/drbh/kernels-benchmark-tools.git (f457279bca6573cd2fa54a74e67118f5e6b7a31c)
    Building kernels-benchmark-tools @ git+https://github.com/drbh/kernels-benchmark-tools.git@f457279bca6573cd2fa54a74e67118f5e6b7a31c
  Downloading nvidia-cufile-cu12
  Downloading triton
  Downloading nvidia-cufft-cu12
  Downloading nvidia-cusolver-cu12
  Downloading nvidia-cusparse-cu12
+ Downloading nvidia-cusparselt-cu12
  Downloading nvidia-nccl-cu12
  Downloading nvidia-cublas-cu12
  Downloading nvidia-cudnn-cu12
  Downloading torch
+Installed 47 packages in 529ms
 </div>
 </div>
 <div class="cell-stderr">Fetching 4 files:   0%|          | 0/4 [00:00&lt;?, ?it/s]
+Fetching 4 files:  25%|██▌       | 1/4 [00:00&lt;00:00,  6.35it/s]
 Fetching 4 files:  50%|█████     | 2/4 [00:01&lt;00:01,  1.09it/s]
+Fetching 4 files: 100%|██████████| 4/4 [00:01&lt;00:00,  2.48it/s]</div>
 <div class="cell-artifacts">
 <h4>Artifacts:</h4>
 <a href="artifacts/benchmark/attn.jsonl" class="artifact" target="_blank">attn.jsonl</a>

flash_attn/impls/mem_efficient_attention.html CHANGED Viewed

@@ -719,6 +719,41 @@
         .artifact-preview svg {
             background: transparent;
         }
         .cell-failed {
             border-color: var(--border-cell-failed);
         }
@@ -3710,7 +3745,7 @@ span.linenos.special { color: #000000; background-color: #ffffc0; padding-left:
 <span onclick="toggleOutput('benchmark')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-benchmark" onclick="toggleUvLogsFromHeader('benchmark')" style="cursor: pointer;">▶ uv-logs</span>
 </span> |
-Cell: benchmark | 35.95s
  | <button class="run-btn" onclick="runCell('benchmark')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('benchmark')">Copy</button>
 <a href="cells/benchmark.py" target="_blank" class="raw-btn">Raw</a>
@@ -3803,35 +3838,35 @@ torch_mem_eff            flux_L512              0.95  True
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
 <div class="uv-logs-content" style="display: none;">
    Updating https://github.com/drbh/kernels-benchmark-tools.git (main)
-Downloading nvidia-curand-cu12 (60.7MiB)
-Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
-Downloading networkx (1.9MiB)
 Downloading kiwisolver (1.4MiB)
-Downloading nvidia-cufft-cu12 (184.2MiB)
 Downloading nvidia-cusparse-cu12 (274.9MiB)
-Downloading nvidia-cudnn-cu12 (674.0MiB)
-Downloading sympy (6.0MiB)
 Downloading nvidia-cusolver-cu12 (255.1MiB)
-Downloading fonttools (4.7MiB)
-Downloading nvidia-cublas-cu12 (566.8MiB)
 Downloading nvidia-nvjitlink-cu12 (37.4MiB)
 Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
-Downloading setuptools (1.1MiB)
-Downloading matplotlib (8.3MiB)
 Downloading nvidia-cufile-cu12 (1.1MiB)
-Downloading numpy (16.2MiB)
-Downloading nvidia-cusparselt-cu12 (273.9MiB)
-Downloading nvidia-nccl-cu12 (307.4MiB)
-Downloading torch (846.9MiB)
 Downloading triton (148.3MiB)
-Downloading pillow (6.3MiB)
     Updated https://github.com/drbh/kernels-benchmark-tools.git (f457279bca6573cd2fa54a74e67118f5e6b7a31c)
    Building kernels-benchmark-tools @ git+https://github.com/drbh/kernels-benchmark-tools.git@f457279bca6573cd2fa54a74e67118f5e6b7a31c
  Downloading nvidia-cufile-cu12
  Downloading kiwisolver
  Downloading setuptools
- Downloading fonttools
  Downloading networkx
  Downloading pillow
       Built kernels-benchmark-tools @ git+https://github.com/drbh/kernels-benchmark-tools.git@f457279bca6573cd2fa54a74e67118f5e6b7a31c
  Downloading nvidia-cuda-cupti-cu12
@@ -3850,7 +3885,7 @@ Downloading pillow (6.3MiB)
  Downloading nvidia-cublas-cu12
  Downloading nvidia-cudnn-cu12
  Downloading torch
-Installed 37 packages in 556ms
 </div>
 </div>
 <div class="cell-artifacts">

         .artifact-preview svg {
             background: transparent;
         }
+        /* CSV table styling */
+        .artifact-csv {
+            margin-top: 1rem;
+            overflow-x: auto;
+        }
+        .csv-table {
+            width: 100%;
+            border-collapse: collapse;
+            font-size: 0.9rem;
+            background: var(--bg-secondary);
+            border: 1px solid var(--border-primary);
+            border-radius: 1px;
+        }
+        .csv-table th,
+        .csv-table td {
+            padding: 0.5rem 0.75rem;
+            text-align: left;
+            border: 1px solid var(--border-primary);
+        }
+        .csv-table th {
+            background: var(--bg-tertiary);
+            font-weight: 600;
+            color: var(--text-primary);
+        }
+        .csv-table tbody tr:hover {
+            background: var(--bg-artifact-hover);
+        }
+        .artifact-csv-error {
+            margin-top: 1rem;
+            padding: 1rem;
+            background: var(--bg-error);
+            color: var(--text-error);
+            border: 1px solid var(--border-error);
+            border-radius: 1px;
+        }
         .cell-failed {
             border-color: var(--border-cell-failed);
         }
 <span onclick="toggleOutput('benchmark')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-benchmark" onclick="toggleUvLogsFromHeader('benchmark')" style="cursor: pointer;">▶ uv-logs</span>
 </span> |
+Cell: benchmark | 36.09s
  | <button class="run-btn" onclick="runCell('benchmark')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('benchmark')">Copy</button>
 <a href="cells/benchmark.py" target="_blank" class="raw-btn">Raw</a>
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
 <div class="uv-logs-content" style="display: none;">
    Updating https://github.com/drbh/kernels-benchmark-tools.git (main)
+Downloading sympy (6.0MiB)
+Downloading setuptools (1.1MiB)
+Downloading nvidia-cublas-cu12 (566.8MiB)
 Downloading kiwisolver (1.4MiB)
+Downloading nvidia-nccl-cu12 (307.4MiB)
+Downloading torch (846.9MiB)
+Downloading matplotlib (8.3MiB)
 Downloading nvidia-cusparse-cu12 (274.9MiB)
+Downloading pillow (6.3MiB)
 Downloading nvidia-cusolver-cu12 (255.1MiB)
+Downloading networkx (1.9MiB)
+Downloading numpy (16.2MiB)
 Downloading nvidia-nvjitlink-cu12 (37.4MiB)
+Downloading nvidia-cufft-cu12 (184.2MiB)
+Downloading nvidia-cusparselt-cu12 (273.9MiB)
 Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
+Downloading nvidia-curand-cu12 (60.7MiB)
 Downloading nvidia-cufile-cu12 (1.1MiB)
+Downloading fonttools (4.7MiB)
+Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
+Downloading nvidia-cudnn-cu12 (674.0MiB)
 Downloading triton (148.3MiB)
     Updated https://github.com/drbh/kernels-benchmark-tools.git (f457279bca6573cd2fa54a74e67118f5e6b7a31c)
    Building kernels-benchmark-tools @ git+https://github.com/drbh/kernels-benchmark-tools.git@f457279bca6573cd2fa54a74e67118f5e6b7a31c
  Downloading nvidia-cufile-cu12
  Downloading kiwisolver
  Downloading setuptools
  Downloading networkx
+ Downloading fonttools
  Downloading pillow
       Built kernels-benchmark-tools @ git+https://github.com/drbh/kernels-benchmark-tools.git@f457279bca6573cd2fa54a74e67118f5e6b7a31c
  Downloading nvidia-cuda-cupti-cu12
  Downloading nvidia-cublas-cu12
  Downloading nvidia-cudnn-cu12
  Downloading torch
+Installed 37 packages in 447ms
 </div>
 </div>
 <div class="cell-artifacts">

flash_attn/impls/sage_attention.html CHANGED Viewed

@@ -719,6 +719,41 @@
         .artifact-preview svg {
             background: transparent;
         }
         .cell-failed {
             border-color: var(--border-cell-failed);
         }
@@ -3710,7 +3745,7 @@ span.linenos.special { color: #000000; background-color: #ffffc0; padding-left:
 <span onclick="toggleOutput('benchmark')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-benchmark" onclick="toggleUvLogsFromHeader('benchmark')" style="cursor: pointer;">▶ uv-logs</span>
 </span> |
-Cell: benchmark | 40.43s
  | <button class="run-btn" onclick="runCell('benchmark')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('benchmark')">Copy</button>
 <a href="cells/benchmark.py" target="_blank" class="raw-btn">Raw</a>
@@ -3804,53 +3839,53 @@ Cell: benchmark | 40.43s
 <div id="output-benchmark" class="cell-output">
 <div class="cell-stdout">impl                     wl                  p50(ms)  ok
 sage_int8_fp16           flux_L128             FAIL  False
-  Error: module &#x27;sage_attention_46758c422d547a47&#x27; has no attribute &#x27;fwd&#x27;
 sage_int8_fp16           flux_L256             FAIL  False
-  Error: module &#x27;sage_attention_46758c422d547a47&#x27; has no attribute &#x27;fwd&#x27;
 sage_int8_fp16           flux_L320             FAIL  False
-  Error: module &#x27;sage_attention_46758c422d547a47&#x27; has no attribute &#x27;fwd&#x27;
 sage_int8_fp16           flux_L384             FAIL  False
-  Error: module &#x27;sage_attention_46758c422d547a47&#x27; has no attribute &#x27;fwd&#x27;
 sage_int8_fp16           flux_L448             FAIL  False
-  Error: module &#x27;sage_attention_46758c422d547a47&#x27; has no attribute &#x27;fwd&#x27;
 sage_int8_fp16           flux_L512             FAIL  False
-  Error: module &#x27;sage_attention_46758c422d547a47&#x27; has no attribute &#x27;fwd&#x27;
 </div>
 <div class="uv-install-logs" id="uv-logs-benchmark">
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
 <div class="uv-logs-content" style="display: none;">
    Updating https://github.com/drbh/kernels-benchmark-tools.git (main)
 Downloading nvidia-cusolver-cu12 (255.1MiB)
-Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
-Downloading networkx (1.9MiB)
-Downloading setuptools (1.1MiB)
 Downloading numpy (16.2MiB)
 Downloading nvidia-cufile-cu12 (1.1MiB)
-Downloading nvidia-cusparselt-cu12 (273.9MiB)
-Downloading nvidia-curand-cu12 (60.7MiB)
-Downloading nvidia-cudnn-cu12 (674.0MiB)
 Downloading hf-xet (3.0MiB)
-Downloading torch (846.9MiB)
-Downloading triton (148.3MiB)
-Downloading nvidia-nccl-cu12 (307.4MiB)
 Downloading nvidia-cublas-cu12 (566.8MiB)
-Downloading kiwisolver (1.4MiB)
 Downloading pillow (6.3MiB)
-Downloading sympy (6.0MiB)
-Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
-Downloading nvidia-cufft-cu12 (184.2MiB)
 Downloading nvidia-cusparse-cu12 (274.9MiB)
-Downloading matplotlib (8.3MiB)
 Downloading nvidia-nvjitlink-cu12 (37.4MiB)
 Downloading fonttools (4.7MiB)
     Updated https://github.com/drbh/kernels-benchmark-tools.git (f457279bca6573cd2fa54a74e67118f5e6b7a31c)
    Building kernels-benchmark-tools @ git+https://github.com/drbh/kernels-benchmark-tools.git@f457279bca6573cd2fa54a74e67118f5e6b7a31c
  Downloading nvidia-cufile-cu12
  Downloading kiwisolver
  Downloading hf-xet
  Downloading setuptools
- Downloading networkx
  Downloading fonttools
  Downloading pillow
       Built kernels-benchmark-tools @ git+https://github.com/drbh/kernels-benchmark-tools.git@f457279bca6573cd2fa54a74e67118f5e6b7a31c
  Downloading nvidia-cuda-cupti-cu12
@@ -3863,19 +3898,20 @@ Downloading fonttools (4.7MiB)
  Downloading triton
  Downloading nvidia-cufft-cu12
  Downloading nvidia-cusolver-cu12
- Downloading nvidia-cusparse-cu12
  Downloading nvidia-cusparselt-cu12
  Downloading nvidia-nccl-cu12
  Downloading nvidia-cublas-cu12
  Downloading nvidia-cudnn-cu12
  Downloading torch
-Installed 48 packages in 525ms
 </div>
 </div>
 <div class="cell-stderr">Fetching 11 files:   0%|          | 0/11 [00:00&lt;?, ?it/s]
-Fetching 11 files:   9%|▉         | 1/11 [00:00&lt;00:01,  5.55it/s]
-Fetching 11 files:  73%|███████▎  | 8/11 [00:00&lt;00:00, 12.93it/s]
-Fetching 11 files: 100%|██████████| 11/11 [00:00&lt;00:00, 16.93it/s]</div>
 <div class="cell-artifacts">
 <h4>Artifacts:</h4>
 <a href="artifacts/benchmark/attn.jsonl" class="artifact" target="_blank">attn.jsonl</a>

         .artifact-preview svg {
             background: transparent;
         }
+        /* CSV table styling */
+        .artifact-csv {
+            margin-top: 1rem;
+            overflow-x: auto;
+        }
+        .csv-table {
+            width: 100%;
+            border-collapse: collapse;
+            font-size: 0.9rem;
+            background: var(--bg-secondary);
+            border: 1px solid var(--border-primary);
+            border-radius: 1px;
+        }
+        .csv-table th,
+        .csv-table td {
+            padding: 0.5rem 0.75rem;
+            text-align: left;
+            border: 1px solid var(--border-primary);
+        }
+        .csv-table th {
+            background: var(--bg-tertiary);
+            font-weight: 600;
+            color: var(--text-primary);
+        }
+        .csv-table tbody tr:hover {
+            background: var(--bg-artifact-hover);
+        }
+        .artifact-csv-error {
+            margin-top: 1rem;
+            padding: 1rem;
+            background: var(--bg-error);
+            color: var(--text-error);
+            border: 1px solid var(--border-error);
+            border-radius: 1px;
+        }
         .cell-failed {
             border-color: var(--border-cell-failed);
         }
 <span onclick="toggleOutput('benchmark')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-benchmark" onclick="toggleUvLogsFromHeader('benchmark')" style="cursor: pointer;">▶ uv-logs</span>
 </span> |
+Cell: benchmark | 40.08s
  | <button class="run-btn" onclick="runCell('benchmark')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('benchmark')">Copy</button>
 <a href="cells/benchmark.py" target="_blank" class="raw-btn">Raw</a>
 <div id="output-benchmark" class="cell-output">
 <div class="cell-stdout">impl                     wl                  p50(ms)  ok
 sage_int8_fp16           flux_L128             FAIL  False
+  Error: module &#x27;sage_attention_ba12545b014364be&#x27; has no attribute &#x27;fwd&#x27;
 sage_int8_fp16           flux_L256             FAIL  False
+  Error: module &#x27;sage_attention_ba12545b014364be&#x27; has no attribute &#x27;fwd&#x27;
 sage_int8_fp16           flux_L320             FAIL  False
+  Error: module &#x27;sage_attention_ba12545b014364be&#x27; has no attribute &#x27;fwd&#x27;
 sage_int8_fp16           flux_L384             FAIL  False
+  Error: module &#x27;sage_attention_ba12545b014364be&#x27; has no attribute &#x27;fwd&#x27;
 sage_int8_fp16           flux_L448             FAIL  False
+  Error: module &#x27;sage_attention_ba12545b014364be&#x27; has no attribute &#x27;fwd&#x27;
 sage_int8_fp16           flux_L512             FAIL  False
+  Error: module &#x27;sage_attention_ba12545b014364be&#x27; has no attribute &#x27;fwd&#x27;
 </div>
 <div class="uv-install-logs" id="uv-logs-benchmark">
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
 <div class="uv-logs-content" style="display: none;">
    Updating https://github.com/drbh/kernels-benchmark-tools.git (main)
+Downloading sympy (6.0MiB)
 Downloading nvidia-cusolver-cu12 (255.1MiB)
+Downloading nvidia-cufft-cu12 (184.2MiB)
 Downloading numpy (16.2MiB)
 Downloading nvidia-cufile-cu12 (1.1MiB)
+Downloading networkx (1.9MiB)
 Downloading hf-xet (3.0MiB)
 Downloading nvidia-cublas-cu12 (566.8MiB)
+Downloading nvidia-nccl-cu12 (307.4MiB)
 Downloading pillow (6.3MiB)
 Downloading nvidia-cusparse-cu12 (274.9MiB)
+Downloading triton (148.3MiB)
+Downloading setuptools (1.1MiB)
+Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
+Downloading nvidia-cudnn-cu12 (674.0MiB)
 Downloading nvidia-nvjitlink-cu12 (37.4MiB)
+Downloading matplotlib (8.3MiB)
+Downloading nvidia-curand-cu12 (60.7MiB)
+Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
+Downloading kiwisolver (1.4MiB)
 Downloading fonttools (4.7MiB)
+Downloading nvidia-cusparselt-cu12 (273.9MiB)
+Downloading torch (846.9MiB)
     Updated https://github.com/drbh/kernels-benchmark-tools.git (f457279bca6573cd2fa54a74e67118f5e6b7a31c)
    Building kernels-benchmark-tools @ git+https://github.com/drbh/kernels-benchmark-tools.git@f457279bca6573cd2fa54a74e67118f5e6b7a31c
  Downloading nvidia-cufile-cu12
  Downloading kiwisolver
  Downloading hf-xet
  Downloading setuptools
  Downloading fonttools
+ Downloading networkx
  Downloading pillow
       Built kernels-benchmark-tools @ git+https://github.com/drbh/kernels-benchmark-tools.git@f457279bca6573cd2fa54a74e67118f5e6b7a31c
  Downloading nvidia-cuda-cupti-cu12
  Downloading triton
  Downloading nvidia-cufft-cu12
  Downloading nvidia-cusolver-cu12
  Downloading nvidia-cusparselt-cu12
+ Downloading nvidia-cusparse-cu12
  Downloading nvidia-nccl-cu12
  Downloading nvidia-cublas-cu12
  Downloading nvidia-cudnn-cu12
  Downloading torch
+Installed 48 packages in 531ms
 </div>
 </div>
 <div class="cell-stderr">Fetching 11 files:   0%|          | 0/11 [00:00&lt;?, ?it/s]
+Fetching 11 files:   9%|▉         | 1/11 [00:00&lt;00:02,  4.42it/s]
+Fetching 11 files:  27%|██▋       | 3/11 [00:00&lt;00:01,  5.95it/s]
+Fetching 11 files:  73%|███████▎  | 8/11 [00:00&lt;00:00, 12.27it/s]
+Fetching 11 files: 100%|██████████| 11/11 [00:00&lt;00:00, 14.37it/s]</div>
 <div class="cell-artifacts">
 <h4>Artifacts:</h4>
 <a href="artifacts/benchmark/attn.jsonl" class="artifact" target="_blank">attn.jsonl</a>

flash_attn/impls/xformers.html CHANGED Viewed

@@ -719,6 +719,41 @@
         .artifact-preview svg {
             background: transparent;
         }
         .cell-failed {
             border-color: var(--border-cell-failed);
         }
@@ -3710,7 +3745,7 @@ span.linenos.special { color: #000000; background-color: #ffffc0; padding-left:
 <span onclick="toggleOutput('benchmark')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-benchmark" onclick="toggleUvLogsFromHeader('benchmark')" style="cursor: pointer;">▶ uv-logs</span>
 </span> |
-Cell: benchmark | 40.64s
  | <button class="run-btn" onclick="runCell('benchmark')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('benchmark')">Copy</button>
 <a href="cells/benchmark.py" target="_blank" class="raw-btn">Raw</a>
@@ -3797,35 +3832,35 @@ xformers_meff            flux_L256              0.47  True
 xformers_meff            flux_L320              0.60  True
 xformers_meff            flux_L384              0.60  True
 xformers_meff            flux_L448              0.64  True
-xformers_meff            flux_L512              0.64  True
 </div>
 <div class="uv-install-logs" id="uv-logs-benchmark">
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
 <div class="uv-logs-content" style="display: none;">
    Updating https://github.com/drbh/kernels-benchmark-tools.git (main)
-Downloading networkx (1.9MiB)
 Downloading nvidia-cusparse-cu12 (274.9MiB)
 Downloading nvidia-cusparselt-cu12 (273.9MiB)
-Downloading nvidia-cufft-cu12 (184.2MiB)
 Downloading nvidia-curand-cu12 (60.7MiB)
-Downloading triton (148.3MiB)
-Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
-Downloading pillow (6.3MiB)
-Downloading nvidia-nvjitlink-cu12 (37.4MiB)
 Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
-Downloading nvidia-cudnn-cu12 (674.0MiB)
-Downloading nvidia-cublas-cu12 (566.8MiB)
 Downloading numpy (16.2MiB)
 Downloading nvidia-nccl-cu12 (307.4MiB)
-Downloading sympy (6.0MiB)
-Downloading matplotlib (8.3MiB)
-Downloading nvidia-cusolver-cu12 (255.1MiB)
-Downloading xformers (111.8MiB)
 Downloading setuptools (1.1MiB)
 Downloading nvidia-cufile-cu12 (1.1MiB)
 Downloading kiwisolver (1.4MiB)
-Downloading fonttools (4.7MiB)
 Downloading torch (846.9MiB)
     Updated https://github.com/drbh/kernels-benchmark-tools.git (f457279bca6573cd2fa54a74e67118f5e6b7a31c)
    Building kernels-benchmark-tools @ git+https://github.com/drbh/kernels-benchmark-tools.git@f457279bca6573cd2fa54a74e67118f5e6b7a31c
  Downloading nvidia-cufile-cu12
@@ -3837,8 +3872,8 @@ Downloading torch (846.9MiB)
       Built kernels-benchmark-tools @ git+https://github.com/drbh/kernels-benchmark-tools.git@f457279bca6573cd2fa54a74e67118f5e6b7a31c
  Downloading nvidia-cuda-cupti-cu12
  Downloading matplotlib
- Downloading numpy
  Downloading sympy
  Downloading nvidia-nvjitlink-cu12
  Downloading nvidia-curand-cu12
  Downloading nvidia-cuda-nvrtc-cu12
@@ -3846,13 +3881,13 @@ Downloading torch (846.9MiB)
  Downloading triton
  Downloading nvidia-cufft-cu12
  Downloading nvidia-cusolver-cu12
- Downloading nvidia-cusparse-cu12
  Downloading nvidia-cusparselt-cu12
  Downloading nvidia-nccl-cu12
  Downloading nvidia-cublas-cu12
  Downloading nvidia-cudnn-cu12
  Downloading torch
-Installed 38 packages in 562ms
 </div>
 </div>
 <div class="cell-artifacts">

         .artifact-preview svg {
             background: transparent;
         }
+        /* CSV table styling */
+        .artifact-csv {
+            margin-top: 1rem;
+            overflow-x: auto;
+        }
+        .csv-table {
+            width: 100%;
+            border-collapse: collapse;
+            font-size: 0.9rem;
+            background: var(--bg-secondary);
+            border: 1px solid var(--border-primary);
+            border-radius: 1px;
+        }
+        .csv-table th,
+        .csv-table td {
+            padding: 0.5rem 0.75rem;
+            text-align: left;
+            border: 1px solid var(--border-primary);
+        }
+        .csv-table th {
+            background: var(--bg-tertiary);
+            font-weight: 600;
+            color: var(--text-primary);
+        }
+        .csv-table tbody tr:hover {
+            background: var(--bg-artifact-hover);
+        }
+        .artifact-csv-error {
+            margin-top: 1rem;
+            padding: 1rem;
+            background: var(--bg-error);
+            color: var(--text-error);
+            border: 1px solid var(--border-error);
+            border-radius: 1px;
+        }
         .cell-failed {
             border-color: var(--border-cell-failed);
         }
 <span onclick="toggleOutput('benchmark')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-benchmark" onclick="toggleUvLogsFromHeader('benchmark')" style="cursor: pointer;">▶ uv-logs</span>
 </span> |
+Cell: benchmark | 40.41s
  | <button class="run-btn" onclick="runCell('benchmark')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('benchmark')">Copy</button>
 <a href="cells/benchmark.py" target="_blank" class="raw-btn">Raw</a>
 xformers_meff            flux_L320              0.60  True
 xformers_meff            flux_L384              0.60  True
 xformers_meff            flux_L448              0.64  True
+xformers_meff            flux_L512              0.65  True
 </div>
 <div class="uv-install-logs" id="uv-logs-benchmark">
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
 <div class="uv-logs-content" style="display: none;">
    Updating https://github.com/drbh/kernels-benchmark-tools.git (main)
 Downloading nvidia-cusparse-cu12 (274.9MiB)
+Downloading pillow (6.3MiB)
+Downloading nvidia-cusolver-cu12 (255.1MiB)
 Downloading nvidia-cusparselt-cu12 (273.9MiB)
+Downloading nvidia-cublas-cu12 (566.8MiB)
 Downloading nvidia-curand-cu12 (60.7MiB)
 Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
+Downloading nvidia-nvjitlink-cu12 (37.4MiB)
+Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
 Downloading numpy (16.2MiB)
 Downloading nvidia-nccl-cu12 (307.4MiB)
 Downloading setuptools (1.1MiB)
+Downloading nvidia-cudnn-cu12 (674.0MiB)
 Downloading nvidia-cufile-cu12 (1.1MiB)
+Downloading networkx (1.9MiB)
 Downloading kiwisolver (1.4MiB)
+Downloading nvidia-cufft-cu12 (184.2MiB)
 Downloading torch (846.9MiB)
+Downloading matplotlib (8.3MiB)
+Downloading triton (148.3MiB)
+Downloading sympy (6.0MiB)
+Downloading fonttools (4.7MiB)
+Downloading xformers (111.8MiB)
     Updated https://github.com/drbh/kernels-benchmark-tools.git (f457279bca6573cd2fa54a74e67118f5e6b7a31c)
    Building kernels-benchmark-tools @ git+https://github.com/drbh/kernels-benchmark-tools.git@f457279bca6573cd2fa54a74e67118f5e6b7a31c
  Downloading nvidia-cufile-cu12
       Built kernels-benchmark-tools @ git+https://github.com/drbh/kernels-benchmark-tools.git@f457279bca6573cd2fa54a74e67118f5e6b7a31c
  Downloading nvidia-cuda-cupti-cu12
  Downloading matplotlib
  Downloading sympy
+ Downloading numpy
  Downloading nvidia-nvjitlink-cu12
  Downloading nvidia-curand-cu12
  Downloading nvidia-cuda-nvrtc-cu12
  Downloading triton
  Downloading nvidia-cufft-cu12
  Downloading nvidia-cusolver-cu12
  Downloading nvidia-cusparselt-cu12
+ Downloading nvidia-cusparse-cu12
  Downloading nvidia-nccl-cu12
  Downloading nvidia-cublas-cu12
  Downloading nvidia-cudnn-cu12
  Downloading torch
+Installed 38 packages in 452ms
 </div>
 </div>
 <div class="cell-artifacts">

flash_attn/results/artifacts/combine/latency.csv ADDED Viewed

	@@ -0,0 +1,43 @@

+Implementation,Impl ID,Workload,Batch,Seq Length,Heads,Head Dim,Dtype,Mean (ms),P10 (ms),P50 (ms),P90 (ms),Reps,Peak Mem (MB),Backend,Family
+Flash (PyTorch SDPA),torch_flash_ma,flux_L128,1,1152,24,128,bfloat16,0.48577280044555665,0.47836801409721375,0.4803520143032074,0.4827199876308441,5,83.38,FLASH,torch-sdpa
+Flash (PyTorch SDPA),torch_flash_ma,flux_L256,1,1280,24,128,bfloat16,0.5229184031486511,0.521727979183197,0.5228800177574158,0.5234559774398804,5,90.62,FLASH,torch-sdpa
+Flash (PyTorch SDPA),torch_flash_ma,flux_L320,1,1344,24,128,bfloat16,0.6515967845916748,0.6503999829292297,0.650879979133606,0.6513599753379822,5,95.06,FLASH,torch-sdpa
+Flash (PyTorch SDPA),torch_flash_ma,flux_L384,1,1408,24,128,bfloat16,0.6807615995407105,0.6797440052032471,0.6808639764785767,0.6815680265426636,5,99.88,FLASH,torch-sdpa
+Flash (PyTorch SDPA),torch_flash_ma,flux_L448,1,1472,24,128,bfloat16,0.711027193069458,0.7058879733085632,0.7121919989585876,0.7131519913673401,5,103.81,FLASH,torch-sdpa
+Flash (PyTorch SDPA),torch_flash_ma,flux_L512,1,1536,24,128,bfloat16,0.7391423940658569,0.7369279861450195,0.7383999824523926,0.7408959865570068,5,109.12,FLASH,torch-sdpa
+MemEff (PyTorch SDPA),torch_mem_eff,flux_L128,1,1152,24,128,bfloat16,0.5875647902488709,0.5863680243492126,0.5874559879302979,0.5876479744911194,5,83.38,EFFICIENT,torch-sdpa
+MemEff (PyTorch SDPA),torch_mem_eff,flux_L256,1,1280,24,128,bfloat16,0.653657603263855,0.6485440135002136,0.6537600159645081,0.656544029712677,5,90.62,EFFICIENT,torch-sdpa
+MemEff (PyTorch SDPA),torch_mem_eff,flux_L320,1,1344,24,128,bfloat16,0.7784512042999268,0.774944007396698,0.778656005859375,0.7801600098609924,5,95.94,EFFICIENT,torch-sdpa
+MemEff (PyTorch SDPA),torch_mem_eff,flux_L384,1,1408,24,128,bfloat16,0.7922943949699401,0.791263997554779,0.7924799919128418,0.7927039861679077,5,100.0,EFFICIENT,torch-sdpa
+MemEff (PyTorch SDPA),torch_mem_eff,flux_L448,1,1472,24,128,bfloat16,0.848089587688446,0.8444799780845642,0.8470079898834229,0.8499199748039246,5,103.81,EFFICIENT,torch-sdpa
+MemEff (PyTorch SDPA),torch_mem_eff,flux_L512,1,1536,24,128,bfloat16,0.9523776054382325,0.95004802942276,0.9519039988517761,0.9541119933128357,5,109.12,EFFICIENT,torch-sdpa
+xFormers,xformers_meff,flux_L128,1,1152,24,128,bfloat16,0.45066879987716674,0.4474239945411682,0.44921600818634033,0.45241600275039673,5,83.38,memory_efficient,xformers
+xFormers,xformers_meff,flux_L256,1,1280,24,128,bfloat16,0.47004159688949587,0.4652479887008667,0.4705919921398163,0.4716799855232239,5,90.62,memory_efficient,xformers
+xFormers,xformers_meff,flux_L320,1,1344,24,128,bfloat16,0.6022783994674683,0.5987840294837952,0.6021760106086731,0.6045759916305542,5,95.06,memory_efficient,xformers
+xFormers,xformers_meff,flux_L384,1,1408,24,128,bfloat16,0.6013055920600892,0.6000319719314575,0.600383996963501,0.6016640067100525,5,99.88,memory_efficient,xformers
+xFormers,xformers_meff,flux_L448,1,1472,24,128,bfloat16,0.6408192038536071,0.639136016368866,0.6404479742050171,0.6416320204734802,5,103.81,memory_efficient,xformers
+xFormers,xformers_meff,flux_L512,1,1536,24,128,bfloat16,0.6466111898422241,0.6447359919548035,0.6462399959564209,0.6483839750289917,5,109.12,memory_efficient,xformers
+Compiled (default),torch_flash_compiled_default,flux_L128,1,1152,24,128,bfloat16,0.527347207069397,0.5194560289382935,0.5272960066795349,0.5312960147857666,5,83.38,FLASH,torch-sdpa
+Compiled (default),torch_flash_compiled_default,flux_L256,1,1280,24,128,bfloat16,0.5586367964744567,0.5560640096664429,0.5571519732475281,0.5611839890480042,5,90.62,FLASH,torch-sdpa
+Compiled (default),torch_flash_compiled_default,flux_L320,1,1344,24,128,bfloat16,0.6860736012458801,0.6841920018196106,0.6860160231590271,0.6869760155677795,5,95.25,FLASH,torch-sdpa
+Compiled (default),torch_flash_compiled_default,flux_L384,1,1408,24,128,bfloat16,0.7167360067367554,0.7152000069618225,0.7161920070648193,0.7164160013198853,5,99.88,FLASH,torch-sdpa
+Compiled (default),torch_flash_compiled_default,flux_L448,1,1472,24,128,bfloat16,0.7423295855522156,0.7400959730148315,0.742143988609314,0.7431039810180664,5,103.81,FLASH,torch-sdpa
+Compiled (default),torch_flash_compiled_default,flux_L512,1,1536,24,128,bfloat16,0.7743871927261352,0.7718080282211304,0.7745919823646545,0.7748159766197205,5,109.12,FLASH,torch-sdpa
+Compiled (max-autotune),torch_flash_compiled_max_autotune,flux_L128,1,1152,24,128,bfloat16,0.6489088058471679,0.6148160099983215,0.6296960115432739,0.6522240042686462,5,67.5,FLASH,torch-sdpa
+Compiled (max-autotune),torch_flash_compiled_max_autotune,flux_L256,1,1280,24,128,bfloat16,0.700761592388153,0.6615359783172607,0.6821119785308838,0.7128959894180298,5,75.0,FLASH,torch-sdpa
+Compiled (max-autotune),torch_flash_compiled_max_autotune,flux_L320,1,1344,24,128,bfloat16,0.834444797039032,0.7967039942741394,0.8164799809455872,0.8463680148124695,5,80.38,FLASH,torch-sdpa
+Compiled (max-autotune),torch_flash_compiled_max_autotune,flux_L384,1,1408,24,128,bfloat16,0.8709375977516174,0.8432319760322571,0.8498560190200806,0.8750079870223999,5,82.5,FLASH,torch-sdpa
+Compiled (max-autotune),torch_flash_compiled_max_autotune,flux_L448,1,1472,24,128,bfloat16,0.9069631934165955,0.8775359988212585,0.9030719995498657,0.903872013092041,5,86.25,FLASH,torch-sdpa
+Compiled (max-autotune),torch_flash_compiled_max_autotune,flux_L512,1,1536,24,128,bfloat16,0.9371584057807922,0.9145920276641846,0.9164159893989563,0.9357439875602722,5,90.0,FLASH,torch-sdpa
+HF Kernels Flash Attn,hf_kernels_flash_attn,flux_L128,1,1152,24,128,bfloat16,0.34446719884872434,0.3438720107078552,0.3445119857788086,0.34457600116729736,5,83.38,flash-attn,hf-kernels
+HF Kernels Flash Attn,hf_kernels_flash_attn,flux_L256,1,1280,24,128,bfloat16,0.37571839094161985,0.37404799461364746,0.3763839900493622,0.3766399919986725,5,90.62,flash-attn,hf-kernels
+HF Kernels Flash Attn,hf_kernels_flash_attn,flux_L320,1,1344,24,128,bfloat16,0.4945920050144196,0.4925439953804016,0.493120014667511,0.4938240051269531,5,95.06,flash-attn,hf-kernels
+HF Kernels Flash Attn,hf_kernels_flash_attn,flux_L384,1,1408,24,128,bfloat16,0.5139647841453552,0.5123199820518494,0.5142719745635986,0.5147839784622192,5,99.88,flash-attn,hf-kernels
+HF Kernels Flash Attn,hf_kernels_flash_attn,flux_L448,1,1472,24,128,bfloat16,0.5353855967521668,0.5339199900627136,0.5350080132484436,0.5352320075035095,5,103.81,flash-attn,hf-kernels
+HF Kernels Flash Attn,hf_kernels_flash_attn,flux_L512,1,1536,24,128,bfloat16,0.5548800110816956,0.5538560152053833,0.5548800230026245,0.5553280115127563,5,109.12,flash-attn,hf-kernels
+HF Kernels Flash Attn3,hf_kernels_flash_attn3,flux_L128,1,1152,24,128,bfloat16,0.3617343962192535,0.36102399230003357,0.3616960048675537,0.36211198568344116,5,83.38,flash-attn3,hf-kernels
+HF Kernels Flash Attn3,hf_kernels_flash_attn3,flux_L256,1,1280,24,128,bfloat16,0.3907967984676361,0.3885439932346344,0.39056000113487244,0.3906239867210388,5,90.62,flash-attn3,hf-kernels
+HF Kernels Flash Attn3,hf_kernels_flash_attn3,flux_L320,1,1344,24,128,bfloat16,0.5228991985321045,0.521344006061554,0.5230720043182373,0.5232319831848145,5,95.06,flash-attn3,hf-kernels
+HF Kernels Flash Attn3,hf_kernels_flash_attn3,flux_L384,1,1408,24,128,bfloat16,0.5254656076431274,0.523904025554657,0.5249919891357422,0.526528000831604,5,99.88,flash-attn3,hf-kernels
+HF Kernels Flash Attn3,hf_kernels_flash_attn3,flux_L448,1,1472,24,128,bfloat16,0.5646592020988465,0.5627840161323547,0.565343976020813,0.565343976020813,5,103.81,flash-attn3,hf-kernels
+HF Kernels Flash Attn3,hf_kernels_flash_attn3,flux_L512,1,1536,24,128,bfloat16,0.5698879957199097,0.567359983921051,0.5696640014648438,0.5698559880256653,5,109.12,flash-attn3,hf-kernels

flash_attn/results/artifacts/combine/latency.svg ADDED Viewed

Git LFS Details

SHA256: 587d477bc9dc161a51c012142295b5a6efa33e48054fc657106ca27ba64b8683
Pointer size: 130 Bytes
Size of remote file: 28.3 kB

flash_attn/results/cells/combine.py CHANGED Viewed

@@ -10,13 +10,173 @@
 # [tool.uv.sources]
 # kernels-benchmark-tools = { git = "https://github.com/drbh/kernels-benchmark-tools.git", branch = "main" }
 # ///
-import torch
-import sys
 import os
-import kernels_benchmark_tools as kbt
 from pathlib import Path
-# Discover the upstream artifact directories from environment variables
 cache_dirs = {
     "Flash (PyTorch SDPA)": os.environ.get('UVNOTE_FILE_FLASH_ATTENTION_BENCHMARK'),
     "MemEff (PyTorch SDPA)": os.environ.get('UVNOTE_FILE_MEM_EFFICIENT_ATTENTION_BENCHMARK'),
@@ -34,8 +194,6 @@ for name, cache_dir in cache_dirs.items():
     print(f"{name:30s}: {cache_dir}")
 print()
-# Collect all JSONL paths
-all_paths = []
 file_mapping = {
     "Flash (PyTorch SDPA)": "attn.jsonl",
     "MemEff (PyTorch SDPA)": "attn.jsonl",
@@ -48,10 +206,10 @@ file_mapping = {
     "HF Kernels Flash Attn3": "attn.jsonl",
 }
 for name, cache_dir in cache_dirs.items():
     if cache_dir:
-        jsonl_file = file_mapping[name]
-        path = Path(cache_dir) / jsonl_file
         if path.exists() and path.stat().st_size > 0:
             all_paths.append(str(path))
             print(f"✓ Found {name}: {path}")
@@ -59,30 +217,40 @@ for name, cache_dir in cache_dirs.items():
             print(f"⊘ Empty/Missing {name}: {path}")
     else:
         print(f"✗ No cache dir for {name}")
 print()
 if not all_paths:
     print("ERROR: No benchmark data files found!")
     sys.exit(1)
-# Generate combined summary
-print("COMBINED BENCHMARK SUMMARY")
-print()
 kbt.summarize(all_paths)
-print()
-print("GENERATING COMBINED VISUALIZATION")
-print()
 try:
     kbt.viz(all_paths)
-    print("✓ Combined visualization saved as latency.png")
 except ImportError as e:
     print(f"✗ Visualization requires matplotlib: {e}")
 except Exception as e:
     print(f"✗ Visualization failed: {e}")
 print()
 print("ANALYSIS COMPLETE")
@@ -90,7 +258,62 @@ print(f"Total implementations analyzed: {len(all_paths)}")
 print(f"\nImplementations included:")
 for name, cache_dir in cache_dirs.items():
     if cache_dir:
-        jsonl_file = file_mapping[name]
-        path = Path(cache_dir) / jsonl_file
         if path.exists() and path.stat().st_size > 0:
-            print(f"  ✓ {name}")

 # [tool.uv.sources]
 # kernels-benchmark-tools = { git = "https://github.com/drbh/kernels-benchmark-tools.git", branch = "main" }
 # ///
 import os
+import sys
 from pathlib import Path
+import json
+import torch  # noqa: F401  # imported because upstream may expect torch to be importable
+import kernels_benchmark_tools as kbt
+# --- Matplotlib setup and helpers ------------------------------------------------
+import matplotlib as mpl
+import matplotlib.pyplot as plt
+import csv
+# Keep text as text (not paths) so CSS can style fonts, size, etc.
+mpl.rcParams["svg.fonttype"] = "none"
+# Make ids deterministic across builds
+mpl.rcParams["svg.hashsalt"] = "latency-benchmark-combined"
+# Avoid auto-closed figures interfering with our tagging
+mpl.rcParams["figure.autolayout"] = True
+# Make background transparent
+mpl.rcParams["figure.facecolor"] = "none"
+mpl.rcParams["axes.facecolor"] = "none"
+mpl.rcParams["savefig.facecolor"] = "none"
+mpl.rcParams["savefig.edgecolor"] = "none"
+def _slugify(s: str) -> str:
+    s = (s or "").strip().lower()
+    keep = []
+    for ch in s:
+        if ch.isalnum():
+            keep.append(ch)
+        elif ch in (" ", "-", "_", "/", ".", ":"):
+            keep.append("-")
+        else:
+            keep.append("")
+    out = "".join(keep)
+    while "--" in out:
+        out = out.replace("--", "-")
+    return out.strip("-") or "unnamed"
+def _tag_current_figure(default_series_prefix="series"):
+    """Attach SVG ids (gid) to key artists so they can be targeted from CSS."""
+    fig = plt.gcf()
+    if fig is None:
+        return
+    # Tag the figure itself
+    fig.set_gid("figure--latency")
+    for ax_idx, ax in enumerate(fig.get_axes(), start=1):
+        ax.set_gid(f"axes--{ax_idx}")
+        # Axis labels & title
+        if ax.get_title():
+            for t in ax.texts:
+                if t.get_text() == ax.get_title():
+                    t.set_gid("title--main")
+        if ax.xaxis and ax.xaxis.get_label():
+            ax.xaxis.label.set_gid("label--x")
+        if ax.yaxis and ax.yaxis.get_label():
+            ax.yaxis.label.set_gid("label--y")
+        # Gridlines
+        for i, gl in enumerate(ax.get_xgridlines(), start=1):
+            gl.set_gid(f"grid-x--{i}")
+        for i, gl in enumerate(ax.get_ygridlines(), start=1):
+            gl.set_gid(f"grid-y--{i}")
+        # Legend block & entries
+        leg = ax.get_legend()
+        if leg is not None:
+            leg.set_gid("legend")
+            for i, txt in enumerate(leg.get_texts(), start=1):
+                label_slug = _slugify(txt.get_text())
+                txt.set_gid(f"legend-label--{label_slug or i}")
+        # Series (lines, patches)
+        # Lines
+        line_seen = {}
+        for ln in getattr(ax, "lines", []):
+            raw_label = ln.get_label() or ""
+            # Matplotlib uses labels beginning with "_" for non-legendable items
+            label = raw_label if not raw_label.startswith("_") else f"{default_series_prefix}"
+            slug = _slugify(label)
+            line_seen[slug] = line_seen.get(slug, 0) + 1
+            suffix = "" if line_seen[slug] == 1 else f"-{line_seen[slug]}"
+            ln.set_gid(f"series--{slug}{suffix}")
+        # Patches (bars, areas)
+        patch_seen = {}
+        for pt in getattr(ax, "patches", []):
+            label = getattr(pt, "get_label", lambda: "")() or f"{default_series_prefix}"
+            if isinstance(label, str) and label.startswith("_"):
+                label = default_series_prefix
+            slug = _slugify(label)
+            patch_seen[slug] = patch_seen.get(slug, 0) + 1
+            suffix = "" if patch_seen[slug] == 1 else f"-{patch_seen[slug]}"
+            pt.set_gid(f"series--{slug}{suffix}")
+def _postprocess_svg_add_classes(svg_path: Path):
+    """Add convenient CSS classes alongside ids (e.g., class='series grid grid-x')."""
+    try:
+        import xml.etree.ElementTree as ET
+        ET.register_namespace("", "http://www.w3.org/2000/svg")
+        tree = ET.parse(svg_path)
+        root = tree.getroot()
+        for el in root.iter():
+            el_id = el.attrib.get("id", "")
+            if not el_id:
+                continue
+            cls = []
+            if el_id.startswith("figure--"):
+                cls.append("figure")
+            elif el_id.startswith("axes--"):
+                cls.append("axes")
+            elif el_id.startswith("grid-x--"):
+                cls += ["grid", "grid-x"]
+            elif el_id.startswith("grid-y--"):
+                cls += ["grid", "grid-y"]
+            elif el_id.startswith("legend"):
+                cls.append("legend")
+            elif el_id.startswith("label--x"):
+                cls.append("xlabel")
+            elif el_id.startswith("label--y"):
+                cls.append("ylabel")
+            elif el_id.startswith("title--"):
+                cls.append("title")
+            elif el_id.startswith("series--"):
+                cls.append("series")
+            if cls:
+                # Preserve any existing class (unlikely from Matplotlib)
+                existing = el.attrib.get("class", "")
+                el.set("class", (existing + " " + " ".join(cls)).strip())
+        tree.write(svg_path, encoding="utf-8", xml_declaration=True)
+    except Exception as e:
+        print(f"✗ SVG postprocess (classes) skipped: {e}")
+# Monkey-patch savefig to force SVG & ensure tagging occurs even if kbt.viz saves internally.
+_orig_savefig = plt.savefig
+def _savefig_svg(fname, *args, **kwargs):
+    # Always save as SVG at a stable path for the artifact system
+    out = Path("latency.svg")
+    kwargs["format"] = "svg"
+    # Ensure everything we care about has ids before export
+    _tag_current_figure()
+    res = _orig_savefig(out, *args, **kwargs)
+    # Add helpful CSS classes on top of ids
+    _postprocess_svg_add_classes(out)
+    print(f"✓ Combined visualization saved as {out}")
+    return res
+plt.savefig = _savefig_svg  # apply patch
+# Capture close calls in case kbt.viz() closes figures before we re-save
+_orig_close = plt.close
+_last_closed = {"fig": None}
+def _capture_close(arg=None):
+    try:
+        if hasattr(arg, "savefig"):  # looks like a Figure
+            _last_closed["fig"] = arg
+        else:
+            _last_closed["fig"] = plt.gcf()
+    finally:
+        return _orig_close(arg)
+plt.close = _capture_close
+# --- Locate benchmark artifacts --------------------------------------------------
 cache_dirs = {
     "Flash (PyTorch SDPA)": os.environ.get('UVNOTE_FILE_FLASH_ATTENTION_BENCHMARK'),
     "MemEff (PyTorch SDPA)": os.environ.get('UVNOTE_FILE_MEM_EFFICIENT_ATTENTION_BENCHMARK'),
     print(f"{name:30s}: {cache_dir}")
 print()
 file_mapping = {
     "Flash (PyTorch SDPA)": "attn.jsonl",
     "MemEff (PyTorch SDPA)": "attn.jsonl",
     "HF Kernels Flash Attn3": "attn.jsonl",
 }
+all_paths = []
 for name, cache_dir in cache_dirs.items():
     if cache_dir:
+        path = Path(cache_dir) / file_mapping[name]
         if path.exists() and path.stat().st_size > 0:
             all_paths.append(str(path))
             print(f"✓ Found {name}: {path}")
             print(f"⊘ Empty/Missing {name}: {path}")
     else:
         print(f"✗ No cache dir for {name}")
 print()
 if not all_paths:
     print("ERROR: No benchmark data files found!")
+    # restore patched functions before exiting
+    plt.savefig = _orig_savefig
+    plt.close = _orig_close
     sys.exit(1)
+# --- Summary + Visualization -----------------------------------------------------
+print("COMBINED BENCHMARK SUMMARY\n")
 kbt.summarize(all_paths)
+print("\nGENERATING COMBINED VISUALIZATION\n")
 try:
+    # If kbt.viz saves internally, our patched savefig ensures SVG gets written,
+    # and it will carry ids/classes for CSS styling.
     kbt.viz(all_paths)
+    # Safety net: if kbt.viz didn't save, save now.
+    # if not Path("latency.svg").exists():
+    #     _tag_current_figure()
+    # plt.savefig("latency.svg")
+    plt.savefig("latency.svg")  # ensure saved with tagging
+    print("✓ SVG visualization ready: latency.svg!")
 except ImportError as e:
     print(f"✗ Visualization requires matplotlib: {e}")
 except Exception as e:
     print(f"✗ Visualization failed: {e}")
+finally:
+    # Clean up patches to avoid side effects in later cells
+    plt.savefig = _orig_savefig
+    plt.close = _orig_close
 print()
 print("ANALYSIS COMPLETE")
 print(f"\nImplementations included:")
 for name, cache_dir in cache_dirs.items():
     if cache_dir:
+        path = Path(cache_dir) / file_mapping[name]
         if path.exists() and path.stat().st_size > 0:
+            print(f"  ✓ {name}")
+# Collect all benchmark data and export to CSV
+all_data = {}
+for name, cache_dir in cache_dirs.items():
+    if cache_dir:
+        path = Path(cache_dir) / file_mapping[name]
+        if path.exists() and path.stat().st_size > 0:
+            with open(path, 'r') as f:
+                records = [json.loads(line) for line in f]
+                all_data[name] = records
+# Export to CSV
+csv_path = Path("latency.csv")
+with open(csv_path, 'w', newline='') as csvfile:
+    writer = csv.writer(csvfile)
+    # Write header
+    header = ["Implementation", "Impl ID", "Workload", "Batch", "Seq Length", "Heads", "Head Dim", "Dtype",
+              "Mean (ms)", "P10 (ms)", "P50 (ms)", "P90 (ms)", "Reps",
+            #   "Compile (ms)",
+              "Peak Mem (MB)", "Backend", "Family"]
+    writer.writerow(header)
+    # Write data rows
+    for impl_name, records in all_data.items():
+        for record in records:
+            wl = record.get('wl', {})
+            lat = record.get('lat_ms', {})
+            tags = record.get('tags', {})
+            row = [
+                impl_name,
+                record.get('impl', ''),
+                wl.get('name', ''),
+                wl.get('batch', ''),
+                wl.get('seq_len', ''),
+                wl.get('heads', ''),
+                wl.get('head_dim', ''),
+                wl.get('dtype', ''),
+                lat.get('mean', ''),
+                lat.get('p10', ''),
+                lat.get('p50', ''),
+                lat.get('p90', ''),
+                lat.get('reps', ''),
+                # record.get('compile_ms', ''),
+                round(record.get('peak_bytes', 0) / 1024 / 1024, 2) if record.get('peak_bytes') else '',
+                tags.get('backend', ''),
+                tags.get('family', ''),
+            ]
+            writer.writerow(row)
+print(f"✓ CSV export complete: {csv_path}")
+print(f"Total implementations: {len(all_data)}")
+print(f"Total records: {sum(len(records) for records in all_data.values())}")

flash_attn/results/combined_results.html CHANGED Viewed

The diff for this file is too large to render. See raw diff