diff --git a/megablocks/megablocks_only.html b/megablocks/megablocks_only.html
index a4c2cc4b3a95659353dc3cbb4391c649c628132a..5d3d6f9491e6d1d739d6e522b4c1d61355d4d8c3 100644
--- a/megablocks/megablocks_only.html
+++ b/megablocks/megablocks_only.html
@@ -3715,398 +3715,9 @@ span.linenos.special { color: #000000; background-color: #ffffc0; padding-left:
     </div>
     
     <div class="main-content">
-        <div class="cell" id="cell-nv">
-<div class="cell-header">
-<span class="collapse-indicators">
-<span onclick="toggleCode('nv')" style="cursor: pointer;">▼ code</span> 
-<span onclick="toggleOutput('nv')" style="cursor: pointer;">▼ output</span>
- <span id="uv-indicator-nv" style="cursor: default; opacity: 0.3;">▶ uv-logs</span>
-</span> | 
-Cell: nv | 0.71s
- | <button class="run-btn" onclick="runCell('nv')">▶ run</button>
-<button class="copy-btn" onclick="copyCell('nv')">Copy</button>
-<a href="cells/nv.py" target="_blank" class="raw-btn">Raw</a>
-</div>
-<div id="code-nv" class="cell-code" data-lines="3">
-<div class="highlight-with-lines">
-<div class="line-numbers" id="lines-nv">
-<a class="line-number" data-cell="nv" data-line="1" href="#cell-nv" onclick="event.preventDefault(); selectCellLine('nv', 1, true);">1</a>
-<a class="line-number" data-cell="nv" data-line="2" href="#cell-nv" onclick="event.preventDefault(); selectCellLine('nv', 2, true);">2</a>
-<a class="line-number" data-cell="nv" data-line="3" href="#cell-nv" onclick="event.preventDefault(); selectCellLine('nv', 3, true);">3</a>
-</div>
-<div class="code-wrap">
-<div class="highlight"><pre><span></span><span class="kn">import</span><span class="w"> </span><span class="nn">subprocess</span>
-
-<span class="nb">print</span><span class="p">(</span><span class="n">subprocess</span><span class="o">.</span><span class="n">run</span><span class="p">([</span><span class="s2">&quot;nvidia-smi&quot;</span><span class="p">],</span> <span class="n">capture_output</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">text</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span><span class="o">.</span><span class="n">stdout</span><span class="p">)</span>
-</pre></div>
-
-<div class="code-line-highlight" id="line-highlight-nv"></div>
-</div>
-</div>
-</div>
-<div id="output-nv" class="cell-output">
-<div class="cell-stdout">Wed Sep 24 20:58:22 2025       
-+-----------------------------------------------------------------------------------------+
-| NVIDIA-SMI 570.172.08             Driver Version: 570.172.08     CUDA Version: 12.8     |
-|-----------------------------------------+------------------------+----------------------+
-| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
-| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
-|                                         |                        |               MIG M. |
-|=========================================+========================+======================|
-|   0  NVIDIA A10G                    On  |   00000000:00:1B.0 Off |                    0 |
-|  0%   32C    P8             27W /  300W |       0MiB /  23028MiB |      0%      Default |
-|                                         |                        |                  N/A |
-+-----------------------------------------+------------------------+----------------------+
-|   1  NVIDIA A10G                    On  |   00000000:00:1C.0 Off |                    0 |
-|  0%   32C    P8             25W /  300W |       0MiB /  23028MiB |      0%      Default |
-|                                         |                        |                  N/A |
-+-----------------------------------------+------------------------+----------------------+
-|   2  NVIDIA A10G                    On  |   00000000:00:1D.0 Off |                    0 |
-|  0%   32C    P8             28W /  300W |       0MiB /  23028MiB |      0%      Default |
-|                                         |                        |                  N/A |
-+-----------------------------------------+------------------------+----------------------+
-|   3  NVIDIA A10G                    On  |   00000000:00:1E.0 Off |                    0 |
-|  0%   32C    P8             27W /  300W |       0MiB /  23028MiB |      0%      Default |
-|                                         |                        |                  N/A |
-+-----------------------------------------+------------------------+----------------------+
-
-+-----------------------------------------------------------------------------------------+
-| Processes:                                                                              |
-|  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
-|        ID   ID                                                               Usage      |
-|=========================================================================================|
-|  No running processes found                                                             |
-+-----------------------------------------------------------------------------------------+
-
-</div>
-</div>
-</div>
-
-<h1>No Kernels</h1>
+        <h1>No Kernels</h1>
 <p>First, we run the model without any custom kernels to get a reference point.</p>
 <h2>Forward</h2>
-<div class="cell" id="cell-no_kernels">
-<div class="cell-header">
-<span class="collapse-indicators">
-<span onclick="toggleCode('no_kernels')" style="cursor: pointer;">▼ code</span> 
-<span onclick="toggleOutput('no_kernels')" style="cursor: pointer;">▼ output</span>
- <span id="uv-indicator-no_kernels" onclick="toggleUvLogsFromHeader('no_kernels')" style="cursor: pointer;">▶ uv-logs</span>
-</span> | 
-Cell: no_kernels | 107.24s
- | <button class="run-btn" onclick="runCell('no_kernels')">▶ run</button>
-<button class="copy-btn" onclick="copyCell('no_kernels')">Copy</button>
-<a href="cells/no_kernels.py" target="_blank" class="raw-btn">Raw</a>
-</div>
-<div id="code-no_kernels" class="cell-code" data-lines="98">
-<div class="highlight-with-lines">
-<div class="line-numbers" id="lines-no_kernels">
-<a class="line-number" data-cell="no_kernels" data-line="1" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 1, true);">1</a>
-<a class="line-number" data-cell="no_kernels" data-line="2" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 2, true);">2</a>
-<a class="line-number" data-cell="no_kernels" data-line="3" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 3, true);">3</a>
-<a class="line-number" data-cell="no_kernels" data-line="4" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 4, true);">4</a>
-<a class="line-number" data-cell="no_kernels" data-line="5" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 5, true);">5</a>
-<a class="line-number" data-cell="no_kernels" data-line="6" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 6, true);">6</a>
-<a class="line-number" data-cell="no_kernels" data-line="7" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 7, true);">7</a>
-<a class="line-number" data-cell="no_kernels" data-line="8" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 8, true);">8</a>
-<a class="line-number" data-cell="no_kernels" data-line="9" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 9, true);">9</a>
-<a class="line-number" data-cell="no_kernels" data-line="10" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 10, true);">10</a>
-<a class="line-number" data-cell="no_kernels" data-line="11" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 11, true);">11</a>
-<a class="line-number" data-cell="no_kernels" data-line="12" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 12, true);">12</a>
-<a class="line-number" data-cell="no_kernels" data-line="13" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 13, true);">13</a>
-<a class="line-number" data-cell="no_kernels" data-line="14" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 14, true);">14</a>
-<a class="line-number" data-cell="no_kernels" data-line="15" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 15, true);">15</a>
-<a class="line-number" data-cell="no_kernels" data-line="16" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 16, true);">16</a>
-<a class="line-number" data-cell="no_kernels" data-line="17" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 17, true);">17</a>
-<a class="line-number" data-cell="no_kernels" data-line="18" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 18, true);">18</a>
-<a class="line-number" data-cell="no_kernels" data-line="19" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 19, true);">19</a>
-<a class="line-number" data-cell="no_kernels" data-line="20" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 20, true);">20</a>
-<a class="line-number" data-cell="no_kernels" data-line="21" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 21, true);">21</a>
-<a class="line-number" data-cell="no_kernels" data-line="22" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 22, true);">22</a>
-<a class="line-number" data-cell="no_kernels" data-line="23" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 23, true);">23</a>
-<a class="line-number" data-cell="no_kernels" data-line="24" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 24, true);">24</a>
-<a class="line-number" data-cell="no_kernels" data-line="25" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 25, true);">25</a>
-<a class="line-number" data-cell="no_kernels" data-line="26" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 26, true);">26</a>
-<a class="line-number" data-cell="no_kernels" data-line="27" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 27, true);">27</a>
-<a class="line-number" data-cell="no_kernels" data-line="28" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 28, true);">28</a>
-<a class="line-number" data-cell="no_kernels" data-line="29" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 29, true);">29</a>
-<a class="line-number" data-cell="no_kernels" data-line="30" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 30, true);">30</a>
-<a class="line-number" data-cell="no_kernels" data-line="31" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 31, true);">31</a>
-<a class="line-number" data-cell="no_kernels" data-line="32" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 32, true);">32</a>
-<a class="line-number" data-cell="no_kernels" data-line="33" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 33, true);">33</a>
-<a class="line-number" data-cell="no_kernels" data-line="34" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 34, true);">34</a>
-<a class="line-number" data-cell="no_kernels" data-line="35" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 35, true);">35</a>
-<a class="line-number" data-cell="no_kernels" data-line="36" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 36, true);">36</a>
-<a class="line-number" data-cell="no_kernels" data-line="37" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 37, true);">37</a>
-<a class="line-number" data-cell="no_kernels" data-line="38" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 38, true);">38</a>
-<a class="line-number" data-cell="no_kernels" data-line="39" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 39, true);">39</a>
-<a class="line-number" data-cell="no_kernels" data-line="40" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 40, true);">40</a>
-<a class="line-number" data-cell="no_kernels" data-line="41" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 41, true);">41</a>
-<a class="line-number" data-cell="no_kernels" data-line="42" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 42, true);">42</a>
-<a class="line-number" data-cell="no_kernels" data-line="43" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 43, true);">43</a>
-<a class="line-number" data-cell="no_kernels" data-line="44" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 44, true);">44</a>
-<a class="line-number" data-cell="no_kernels" data-line="45" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 45, true);">45</a>
-<a class="line-number" data-cell="no_kernels" data-line="46" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 46, true);">46</a>
-<a class="line-number" data-cell="no_kernels" data-line="47" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 47, true);">47</a>
-<a class="line-number" data-cell="no_kernels" data-line="48" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 48, true);">48</a>
-<a class="line-number" data-cell="no_kernels" data-line="49" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 49, true);">49</a>
-<a class="line-number" data-cell="no_kernels" data-line="50" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 50, true);">50</a>
-<a class="line-number" data-cell="no_kernels" data-line="51" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 51, true);">51</a>
-<a class="line-number" data-cell="no_kernels" data-line="52" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 52, true);">52</a>
-<a class="line-number" data-cell="no_kernels" data-line="53" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 53, true);">53</a>
-<a class="line-number" data-cell="no_kernels" data-line="54" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 54, true);">54</a>
-<a class="line-number" data-cell="no_kernels" data-line="55" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 55, true);">55</a>
-<a class="line-number" data-cell="no_kernels" data-line="56" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 56, true);">56</a>
-<a class="line-number" data-cell="no_kernels" data-line="57" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 57, true);">57</a>
-<a class="line-number" data-cell="no_kernels" data-line="58" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 58, true);">58</a>
-<a class="line-number" data-cell="no_kernels" data-line="59" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 59, true);">59</a>
-<a class="line-number" data-cell="no_kernels" data-line="60" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 60, true);">60</a>
-<a class="line-number" data-cell="no_kernels" data-line="61" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 61, true);">61</a>
-<a class="line-number" data-cell="no_kernels" data-line="62" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 62, true);">62</a>
-<a class="line-number" data-cell="no_kernels" data-line="63" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 63, true);">63</a>
-<a class="line-number" data-cell="no_kernels" data-line="64" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 64, true);">64</a>
-<a class="line-number" data-cell="no_kernels" data-line="65" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 65, true);">65</a>
-<a class="line-number" data-cell="no_kernels" data-line="66" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 66, true);">66</a>
-<a class="line-number" data-cell="no_kernels" data-line="67" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 67, true);">67</a>
-<a class="line-number" data-cell="no_kernels" data-line="68" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 68, true);">68</a>
-<a class="line-number" data-cell="no_kernels" data-line="69" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 69, true);">69</a>
-<a class="line-number" data-cell="no_kernels" data-line="70" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 70, true);">70</a>
-<a class="line-number" data-cell="no_kernels" data-line="71" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 71, true);">71</a>
-<a class="line-number" data-cell="no_kernels" data-line="72" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 72, true);">72</a>
-<a class="line-number" data-cell="no_kernels" data-line="73" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 73, true);">73</a>
-<a class="line-number" data-cell="no_kernels" data-line="74" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 74, true);">74</a>
-<a class="line-number" data-cell="no_kernels" data-line="75" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 75, true);">75</a>
-<a class="line-number" data-cell="no_kernels" data-line="76" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 76, true);">76</a>
-<a class="line-number" data-cell="no_kernels" data-line="77" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 77, true);">77</a>
-<a class="line-number" data-cell="no_kernels" data-line="78" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 78, true);">78</a>
-<a class="line-number" data-cell="no_kernels" data-line="79" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 79, true);">79</a>
-<a class="line-number" data-cell="no_kernels" data-line="80" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 80, true);">80</a>
-<a class="line-number" data-cell="no_kernels" data-line="81" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 81, true);">81</a>
-<a class="line-number" data-cell="no_kernels" data-line="82" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 82, true);">82</a>
-<a class="line-number" data-cell="no_kernels" data-line="83" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 83, true);">83</a>
-<a class="line-number" data-cell="no_kernels" data-line="84" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 84, true);">84</a>
-<a class="line-number" data-cell="no_kernels" data-line="85" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 85, true);">85</a>
-<a class="line-number" data-cell="no_kernels" data-line="86" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 86, true);">86</a>
-<a class="line-number" data-cell="no_kernels" data-line="87" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 87, true);">87</a>
-<a class="line-number" data-cell="no_kernels" data-line="88" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 88, true);">88</a>
-<a class="line-number" data-cell="no_kernels" data-line="89" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 89, true);">89</a>
-<a class="line-number" data-cell="no_kernels" data-line="90" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 90, true);">90</a>
-<a class="line-number" data-cell="no_kernels" data-line="91" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 91, true);">91</a>
-<a class="line-number" data-cell="no_kernels" data-line="92" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 92, true);">92</a>
-<a class="line-number" data-cell="no_kernels" data-line="93" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 93, true);">93</a>
-<a class="line-number" data-cell="no_kernels" data-line="94" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 94, true);">94</a>
-<a class="line-number" data-cell="no_kernels" data-line="95" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 95, true);">95</a>
-<a class="line-number" data-cell="no_kernels" data-line="96" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 96, true);">96</a>
-<a class="line-number" data-cell="no_kernels" data-line="97" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 97, true);">97</a>
-<a class="line-number" data-cell="no_kernels" data-line="98" href="#cell-no_kernels" onclick="event.preventDefault(); selectCellLine('no_kernels', 98, true);">98</a>
-</div>
-<div class="code-wrap">
-<div class="highlight"><pre><span></span><span class="c1"># /// script</span>
-<span class="c1"># requires-python = &quot;&gt;=3.12&quot;</span>
-<span class="c1"># dependencies = [</span>
-<span class="c1">#     &quot;accelerate&gt;=1.10.1&quot;,</span>
-<span class="c1">#     &quot;torch&gt;=2.7.0&quot;,</span>
-<span class="c1">#     &quot;kernels==0.10.0&quot;,</span>
-<span class="c1">#     &quot;transformers@https://github.com/huggingface/transformers.git&quot;,</span>
-<span class="c1">#     &quot;ipdb&gt;=0.13.13&quot;,</span>
-<span class="c1">#     &quot;matplotlib&gt;=3.7.2&quot;,</span>
-<span class="c1">#     &quot;numpy&gt;=1.24.3&quot;,</span>
-<span class="c1"># ]</span>
-<span class="c1"># ///</span>
-
-<span class="kn">import</span><span class="w"> </span><span class="nn">torch</span>
-<span class="kn">from</span><span class="w"> </span><span class="nn">transformers</span><span class="w"> </span><span class="kn">import</span> <span class="n">GptOssForCausalLM</span><span class="p">,</span> <span class="n">PreTrainedTokenizerFast</span><span class="p">,</span> <span class="n">Mxfp4Config</span>
-<span class="kn">import</span><span class="w"> </span><span class="nn">time</span>
-<span class="kn">import</span><span class="w"> </span><span class="nn">torch.nn</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">nn</span>
-<span class="kn">from</span><span class="w"> </span><span class="nn">kernels</span><span class="w"> </span><span class="kn">import</span> <span class="n">register_kernel_mapping</span><span class="p">,</span> <span class="n">Mode</span><span class="p">,</span> <span class="n">LayerRepository</span><span class="p">,</span> <span class="n">replace_kernel_forward_from_hub</span>
-<span class="kn">import</span><span class="w"> </span><span class="nn">sys</span>
-<span class="kn">import</span><span class="w"> </span><span class="nn">torch.profiler</span>
-<span class="kn">import</span><span class="w"> </span><span class="nn">gc</span>
-<span class="kn">import</span><span class="w"> </span><span class="nn">logging</span>
-<span class="kn">from</span><span class="w"> </span><span class="nn">transformers.models.gpt_oss.modeling_gpt_oss</span><span class="w"> </span><span class="kn">import</span> <span class="n">GptOssRMSNorm</span>
-
-<span class="c1"># set to debug logging</span>
-<span class="n">logging</span><span class="o">.</span><span class="n">basicConfig</span><span class="p">(</span><span class="n">level</span><span class="o">=</span><span class="n">logging</span><span class="o">.</span><span class="n">INFO</span><span class="p">)</span>
-
-<span class="k">def</span><span class="w"> </span><span class="nf">reset_peak_memory_stats</span><span class="p">():</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Clear CUDA cache and reset memory allocation counters.&quot;&quot;&quot;</span>
-    <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">empty_cache</span><span class="p">()</span>
-    <span class="k">if</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">is_available</span><span class="p">():</span>
-        <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">reset_peak_memory_stats</span><span class="p">()</span>
-    <span class="n">gc</span><span class="o">.</span><span class="n">collect</span><span class="p">()</span>
-
-<span class="k">def</span><span class="w"> </span><span class="nf">get_memory_stats</span><span class="p">():</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Get current and peak CUDA memory usage.&quot;&quot;&quot;</span>
-    <span class="k">if</span> <span class="ow">not</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">is_available</span><span class="p">():</span>
-        <span class="k">return</span> <span class="p">{</span><span class="s2">&quot;allocated_gb&quot;</span><span class="p">:</span> <span class="mi">0</span><span class="p">,</span> <span class="s2">&quot;peak_gb&quot;</span><span class="p">:</span> <span class="mi">0</span><span class="p">,</span> <span class="s2">&quot;reserved_gb&quot;</span><span class="p">:</span> <span class="mi">0</span><span class="p">}</span>
-    <span class="k">return</span> <span class="p">{</span>
-        <span class="s2">&quot;allocated_gb&quot;</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">memory_allocated</span><span class="p">()</span> <span class="o">/</span> <span class="mf">1e9</span><span class="p">,</span>
-        <span class="s2">&quot;peak_gb&quot;</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">max_memory_allocated</span><span class="p">()</span> <span class="o">/</span> <span class="mf">1e9</span><span class="p">,</span>
-        <span class="s2">&quot;reserved_gb&quot;</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">memory_reserved</span><span class="p">()</span> <span class="o">/</span> <span class="mf">1e9</span><span class="p">,</span>
-    <span class="p">}</span>
-
-<span class="k">def</span><span class="w"> </span><span class="nf">override_kernel_layer_name</span><span class="p">(</span><span class="n">cls_name</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Helper to dynamically override the kernel_layer_name in a model class.&quot;&quot;&quot;</span>
-    <span class="k">for</span> <span class="n">mod</span> <span class="ow">in</span> <span class="n">sys</span><span class="o">.</span><span class="n">modules</span><span class="o">.</span><span class="n">values</span><span class="p">():</span>
-        <span class="k">if</span> <span class="n">mod</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="k">continue</span>
-        <span class="n">obj</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="n">mod</span><span class="p">,</span> <span class="n">cls_name</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
-        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">obj</span><span class="p">,</span> <span class="nb">type</span><span class="p">)</span> <span class="ow">and</span> <span class="nb">issubclass</span><span class="p">(</span><span class="n">obj</span><span class="p">,</span> <span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
-            <span class="nb">setattr</span><span class="p">(</span><span class="n">obj</span><span class="p">,</span> <span class="s2">&quot;kernel_layer_name&quot;</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
-            <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Overrode </span><span class="si">{</span><span class="n">cls_name</span><span class="si">}</span><span class="s2">.kernel_layer_name to </span><span class="si">{</span><span class="n">value</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
-            <span class="k">return</span> <span class="kc">True</span>
-    <span class="k">return</span> <span class="kc">False</span>
-
-
-<span class="c1"># Init the model the normal way</span>
-<span class="n">model_id</span> <span class="o">=</span> <span class="s2">&quot;openai/gpt-oss-20b&quot;</span>
-<span class="n">tokenizer</span> <span class="o">=</span> <span class="n">PreTrainedTokenizerFast</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">model_id</span><span class="p">)</span>
-<span class="n">quantization_config</span> <span class="o">=</span> <span class="n">Mxfp4Config</span><span class="p">(</span><span class="n">dequantize</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-
-
-
-<span class="n">model</span> <span class="o">=</span> <span class="n">GptOssForCausalLM</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
-    <span class="n">model_id</span><span class="p">,</span>
-    <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;bfloat16&quot;</span><span class="p">,</span>
-    <span class="n">device_map</span><span class="o">=</span><span class="s2">&quot;auto&quot;</span><span class="p">,</span>
-    <span class="n">use_kernels</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-    <span class="n">quantization_config</span><span class="o">=</span><span class="n">quantization_config</span><span class="p">,</span>
-<span class="p">)</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>
-
-<span class="n">messages</span> <span class="o">=</span> <span class="p">[</span>
-    <span class="p">{</span><span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;system&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="s2">&quot;What is Tensor Parallelism?&quot;</span><span class="p">},</span>
-<span class="p">]</span>
-
-<span class="n">inputs</span> <span class="o">=</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">apply_chat_template</span><span class="p">(</span>
-    <span class="n">messages</span><span class="p">,</span>
-    <span class="n">add_generation_prompt</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-    <span class="n">return_tensors</span><span class="o">=</span><span class="s2">&quot;pt&quot;</span><span class="p">,</span>
-    <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-    <span class="n">reasoning_effort</span><span class="o">=</span><span class="s2">&quot;low&quot;</span><span class="p">,</span>
-<span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="s2">&quot;cuda&quot;</span><span class="p">)</span>
-
-<span class="n">max_tokens</span> <span class="o">=</span> <span class="mi">256</span>
-
-<span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">inference_mode</span><span class="p">():</span>
-    <span class="n">start_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">perf_counter</span><span class="p">()</span>
-    <span class="n">generated</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">generate</span><span class="p">(</span>
-        <span class="o">**</span><span class="n">inputs</span><span class="p">,</span>
-        <span class="n">max_new_tokens</span><span class="o">=</span><span class="n">max_tokens</span><span class="p">,</span>
-        <span class="n">do_sample</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-        <span class="n">temperature</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
-    <span class="p">)</span>
-    <span class="n">end_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">perf_counter</span><span class="p">()</span>
-
-<span class="nb">print</span><span class="p">(</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="n">generated</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">skip_special_tokens</span><span class="o">=</span><span class="kc">False</span><span class="p">))</span>
-<span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Generation took </span><span class="si">{</span><span class="n">end_time</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="n">start_time</span><span class="si">:</span><span class="s2">.2f</span><span class="si">}</span><span class="s2"> seconds&quot;</span><span class="p">)</span>
-</pre></div>
-
-<div class="code-line-highlight" id="line-highlight-no_kernels"></div>
-</div>
-</div>
-</div>
-<div id="output-no_kernels" class="cell-output">
-<div class="cell-stdout">&lt;|start|&gt;system&lt;|message|&gt;You are ChatGPT, a large language model trained by OpenAI.
-Knowledge cutoff: 2024-06
-Current date: 2025-09-24
-
-Reasoning: low
-
-# Valid channels: analysis, commentary, final. Channel must be included for every message.&lt;|end|&gt;&lt;|start|&gt;developer&lt;|message|&gt;# Instructions
-
-What is Tensor Parallelism?
-
-&lt;|end|&gt;&lt;|start|&gt;assistant&lt;|channel|&gt;analysis&lt;|message|&gt;Need to explain tensor parallelism.&lt;|end|&gt;&lt;|start|&gt;assistant&lt;|channel|&gt;final&lt;|message|&gt;**Tensor Parallelism** is a technique used to distribute the computation of a single tensor (or a set of tensors) across multiple devices (GPUs, TPUs, or other accelerators) in order to speed up large‑scale deep‑learning training and inference. It is one of several parallelism strategies—alongside data parallelism, pipeline parallelism, and model parallelism—designed to scale models that exceed the memory or compute capacity of a single device.
-
----
-
-## 1. Why Tensor Parallelism?
-
-- **Memory constraints**: Modern transformer models (e.g., GPT‑4, PaLM, LLaMA‑70B) can have billions of parameters. A single GPU may not hold the entire model or its intermediate activations.
-- **Compute bottlenecks**: Even if memory were sufficient, the sheer number of floating‑point operations can make training prohibitively slow on a single device.
-- **Scalability**: Tensor parallelism allows you to add more devices to reduce per‑device memory usage and accelerate matrix operations.
-
----
-
-## 2. Core Idea
-
-In tensor parallelism, a *tensor* (typically a weight matrix or an activation tensor
-Generation took 25.73 seconds
-</div>
-<div class="uv-install-logs" id="uv-logs-no_kernels">
-<div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
-<div class="uv-logs-content" style="display: none;">
-Downloading cpython-3.13.7-linux-x86_64-gnu (download) (32.0MiB)
- Downloading cpython-3.13.7-linux-x86_64-gnu (download)
-   Updating https://github.com/huggingface/transformers.git (HEAD)
-    Updated https://github.com/huggingface/transformers.git (7258ea44bc0c0a425a468f66f8559d1de8c4126d)
-Downloading jedi (1.5MiB)
-   Building transformers @ git+https://github.com/huggingface/transformers.git@7258ea44bc0c0a425a468f66f8559d1de8c4126d
-Downloading nvidia-cublas-cu12 (566.8MiB)
-Downloading nvidia-cusolver-cu12 (255.1MiB)
-Downloading hf-xet (3.0MiB)
-Downloading nvidia-cusparselt-cu12 (273.9MiB)
-Downloading sympy (6.0MiB)
-Downloading pillow (6.3MiB)
-Downloading nvidia-cufile-cu12 (1.1MiB)
-Downloading nvidia-nccl-cu12 (307.4MiB)
-Downloading numpy (15.9MiB)
-Downloading fonttools (4.7MiB)
-Downloading networkx (1.9MiB)
-Downloading nvidia-nvjitlink-cu12 (37.4MiB)
-Downloading triton (148.4MiB)
-Downloading nvidia-cufft-cu12 (184.2MiB)
-Downloading nvidia-cudnn-cu12 (674.0MiB)
-Downloading nvidia-curand-cu12 (60.7MiB)
-Downloading tokenizers (3.1MiB)
-Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
-Downloading nvidia-cusparse-cu12 (274.9MiB)
-Downloading pygments (1.2MiB)
-Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
-Downloading matplotlib (8.3MiB)
-Downloading kiwisolver (1.4MiB)
-Downloading torch (846.8MiB)
- Downloading nvidia-cufile-cu12
- Downloading kiwisolver
- Downloading pygments
- Downloading hf-xet
- Downloading tokenizers
- Downloading networkx
- Downloading fonttools
- Downloading pillow
- Downloading matplotlib
- Downloading nvidia-cuda-cupti-cu12
- Downloading numpy
- Downloading sympy
-      Built transformers @ git+https://github.com/huggingface/transformers.git@7258ea44bc0c0a425a468f66f8559d1de8c4126d
- Downloading nvidia-nvjitlink-cu12
- Downloading nvidia-curand-cu12
- Downloading jedi
- Downloading nvidia-cuda-nvrtc-cu12
- Downloading triton
- Downloading nvidia-cufft-cu12
- Downloading nvidia-cusolver-cu12
- Downloading nvidia-cusparselt-cu12
- Downloading nvidia-cusparse-cu12
- Downloading nvidia-nccl-cu12
- Downloading nvidia-cublas-cu12
- Downloading nvidia-cudnn-cu12
- Downloading torch
-Installed 69 packages in 565ms
-</div>
-</div>
-<div class="cell-stderr">Fetching 3 files:   0%|          | 0/3 [00:00&lt;?, ?it/s]
-Fetching 3 files:  33%|███▎      | 1/3 [00:07&lt;00:15,  7.69s/it]
-Fetching 3 files:  67%|██████▋   | 2/3 [00:09&lt;00:03,  3.95s/it]
-Fetching 3 files: 100%|██████████| 3/3 [00:09&lt;00:00,  3.00s/it]
-
-Loading checkpoint shards:   0%|          | 0/3 [00:00&lt;?, ?it/s]
-Loading checkpoint shards:  33%|███▎      | 1/3 [00:02&lt;00:04,  2.35s/it]
-Loading checkpoint shards:  67%|██████▋   | 2/3 [00:04&lt;00:02,  2.25s/it]
-Loading checkpoint shards: 100%|██████████| 3/3 [00:05&lt;00:00,  1.80s/it]
-Loading checkpoint shards: 100%|██████████| 3/3 [00:05&lt;00:00,  1.93s/it]</div>
-</div>
-</div>
-
 <h2>Forward and Backward</h2>
 <p>Next, we'll attempt to run a forward and backward pass without any custom kernels. This will likely run out of memory since the default implementation is not optimized for memory usage.</p>
 <div class="cell cell-failed" id="cell-forward_and_backward_no_kernel">
@@ -4116,7 +3727,7 @@ Loading checkpoint shards: 100%|██████████| 3/3 [00:05&lt;00
 <span onclick="toggleOutput('forward_and_backward_no_kernel')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-forward_and_backward_no_kernel" onclick="toggleUvLogsFromHeader('forward_and_backward_no_kernel')" style="cursor: pointer;">▶ uv-logs</span>
 </span> | 
-Cell: forward_and_backward_no_kernel | 99.86s | FAILED
+Cell: forward_and_backward_no_kernel | 99.38s | FAILED
  | <button class="run-btn" onclick="runCell('forward_and_backward_no_kernel')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('forward_and_backward_no_kernel')">Copy</button>
 <a href="cells/forward_and_backward_no_kernel.py" target="_blank" class="raw-btn">Raw</a>
@@ -4549,7 +4160,7 @@ Post-forward memory: {&#x27;allocated_gb&#x27;: 9.487933952, &#x27;peak_gb&#x27;
 Loss: 1.9761
 Running backward pass...
 Pre-backward memory: {&#x27;allocated_gb&#x27;: 9.405890048, &#x27;peak_gb&#x27;: 9.514059776, &#x27;reserved_gb&#x27;: 17.177772032}
-OOM during forward/backward pass: CUDA out of memory. Tried to allocate 508.00 MiB. GPU 2 has a total capacity of 22.30 GiB of which 118.69 MiB is free. Process 34932 has 22.18 GiB memory in use. Of the allocated memory 21.52 GiB is allocated by PyTorch, and 357.89 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)
+OOM during forward/backward pass: CUDA out of memory. Tried to allocate 508.00 MiB. GPU 2 has a total capacity of 22.30 GiB of which 118.69 MiB is free. Process 25557 has 22.18 GiB memory in use. Of the allocated memory 21.52 GiB is allocated by PyTorch, and 357.89 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)
 Try reducing max_tokens or max_seq_len
 </div>
 <div class="uv-install-logs" id="uv-logs-forward_and_backward_no_kernel">
@@ -4559,32 +4170,32 @@ Downloading cpython-3.13.7-linux-x86_64-gnu (download) (32.0MiB)
  Downloading cpython-3.13.7-linux-x86_64-gnu (download)
    Updating https://github.com/huggingface/transformers.git (HEAD)
     Updated https://github.com/huggingface/transformers.git (7258ea44bc0c0a425a468f66f8559d1de8c4126d)
-Downloading numpy (15.9MiB)
-Downloading nvidia-cusparse-cu12 (274.9MiB)
-   Building transformers @ git+https://github.com/huggingface/transformers.git@7258ea44bc0c0a425a468f66f8559d1de8c4126d
-Downloading pygments (1.2MiB)
+Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
+Downloading networkx (1.9MiB)
 Downloading jedi (1.5MiB)
-Downloading tokenizers (3.1MiB)
-Downloading hf-xet (3.0MiB)
-Downloading sympy (6.0MiB)
+   Building transformers @ git+https://github.com/huggingface/transformers.git@7258ea44bc0c0a425a468f66f8559d1de8c4126d
+Downloading kiwisolver (1.4MiB)
 Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
-Downloading nvidia-cufft-cu12 (184.2MiB)
-Downloading fonttools (4.7MiB)
-Downloading matplotlib (8.3MiB)
-Downloading networkx (1.9MiB)
-Downloading nvidia-cufile-cu12 (1.1MiB)
-Downloading nvidia-nvjitlink-cu12 (37.4MiB)
-Downloading nvidia-cublas-cu12 (566.8MiB)
-Downloading torch (846.8MiB)
 Downloading nvidia-nccl-cu12 (307.4MiB)
+Downloading nvidia-cublas-cu12 (566.8MiB)
+Downloading nvidia-cudnn-cu12 (674.0MiB)
+Downloading nvidia-cufft-cu12 (184.2MiB)
 Downloading nvidia-curand-cu12 (60.7MiB)
+Downloading nvidia-cusparse-cu12 (274.9MiB)
+Downloading hf-xet (3.0MiB)
 Downloading triton (148.4MiB)
-Downloading nvidia-cudnn-cu12 (674.0MiB)
-Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
-Downloading nvidia-cusolver-cu12 (255.1MiB)
+Downloading nvidia-cufile-cu12 (1.1MiB)
+Downloading nvidia-nvjitlink-cu12 (37.4MiB)
+Downloading tokenizers (3.1MiB)
+Downloading matplotlib (8.3MiB)
+Downloading sympy (6.0MiB)
 Downloading pillow (6.3MiB)
-Downloading kiwisolver (1.4MiB)
 Downloading nvidia-cusparselt-cu12 (273.9MiB)
+Downloading pygments (1.2MiB)
+Downloading nvidia-cusolver-cu12 (255.1MiB)
+Downloading numpy (15.9MiB)
+Downloading torch (846.8MiB)
+Downloading fonttools (4.7MiB)
  Downloading nvidia-cufile-cu12
  Downloading kiwisolver
  Downloading pygments
@@ -4599,8 +4210,8 @@ Downloading nvidia-cusparselt-cu12 (273.9MiB)
  Downloading sympy
       Built transformers @ git+https://github.com/huggingface/transformers.git@7258ea44bc0c0a425a468f66f8559d1de8c4126d
  Downloading nvidia-nvjitlink-cu12
- Downloading nvidia-curand-cu12
  Downloading jedi
+ Downloading nvidia-curand-cu12
  Downloading nvidia-cuda-nvrtc-cu12
  Downloading triton
  Downloading nvidia-cufft-cu12
@@ -4611,13 +4222,13 @@ Downloading nvidia-cusparselt-cu12 (273.9MiB)
  Downloading nvidia-cublas-cu12
  Downloading nvidia-cudnn-cu12
  Downloading torch
-Installed 69 packages in 592ms
+Installed 69 packages in 579ms
 </div>
 </div>
 <div class="cell-stderr">Fetching 3 files:   0%|          | 0/3 [00:00&lt;?, ?it/s]
-Fetching 3 files:  33%|███▎      | 1/3 [00:07&lt;00:14,  7.40s/it]
-Fetching 3 files:  67%|██████▋   | 2/3 [00:08&lt;00:03,  3.77s/it]
-Fetching 3 files: 100%|██████████| 3/3 [00:08&lt;00:00,  2.88s/it]
+Fetching 3 files:  33%|███▎      | 1/3 [00:07&lt;00:15,  7.84s/it]
+Fetching 3 files:  67%|██████▋   | 2/3 [00:08&lt;00:03,  3.40s/it]
+Fetching 3 files: 100%|██████████| 3/3 [00:08&lt;00:00,  2.71s/it]
 
 Loading checkpoint shards:   0%|          | 0/3 [00:00&lt;?, ?it/s]
 Loading checkpoint shards:  33%|███▎      | 1/3 [00:02&lt;00:04,  2.34s/it]
@@ -4629,14 +4240,14 @@ Traceback (most recent call last):
   File &quot;/repo/moe_benchmarks/megablocks/.uvnote/cells/forward_and_backward_no_kernel.py&quot;, line 154, in &lt;module&gt;
     loss.backward()
     ~~~~~~~~~~~~~^^
-  File &quot;/tmp/uvnote-run-vo30j_xa/home/.cache/uv/environments-v2/forward-and-backward-no-kernel-349948fac2e1b63b/lib/python3.13/site-packages/torch/_tensor.py&quot;, line 647, in backward
+  File &quot;/tmp/uvnote-run-yr7p57do/home/.cache/uv/environments-v2/forward-and-backward-no-kernel-349948fac2e1b63b/lib/python3.13/site-packages/torch/_tensor.py&quot;, line 647, in backward
     torch.autograd.backward(
     ~~~~~~~~~~~~~~~~~~~~~~~^
         self, gradient, retain_graph, create_graph, inputs=inputs
         ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
     )
     ^
-  File &quot;/tmp/uvnote-run-vo30j_xa/home/.cache/uv/environments-v2/forward-and-backward-no-kernel-349948fac2e1b63b/lib/python3.13/site-packages/torch/autograd/__init__.py&quot;, line 354, in backward
+  File &quot;/tmp/uvnote-run-yr7p57do/home/.cache/uv/environments-v2/forward-and-backward-no-kernel-349948fac2e1b63b/lib/python3.13/site-packages/torch/autograd/__init__.py&quot;, line 354, in backward
     _engine_run_backward(
     ~~~~~~~~~~~~~~~~~~~~^
         tensors,
@@ -4646,19 +4257,19 @@ Traceback (most recent call last):
         ^^^^^^^^^^^^^^^^^^^^^
     )
     ^
-  File &quot;/tmp/uvnote-run-vo30j_xa/home/.cache/uv/environments-v2/forward-and-backward-no-kernel-349948fac2e1b63b/lib/python3.13/site-packages/torch/autograd/graph.py&quot;, line 829, in _engine_run_backward
+  File &quot;/tmp/uvnote-run-yr7p57do/home/.cache/uv/environments-v2/forward-and-backward-no-kernel-349948fac2e1b63b/lib/python3.13/site-packages/torch/autograd/graph.py&quot;, line 829, in _engine_run_backward
     return Variable._execution_engine.run_backward(  # Calls into the C++ engine to run the backward pass
            ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
         t_outputs, *args, **kwargs
         ^^^^^^^^^^^^^^^^^^^^^^^^^^
     )  # Calls into the C++ engine to run the backward pass
     ^
-  File &quot;/tmp/uvnote-run-vo30j_xa/home/.cache/uv/environments-v2/forward-and-backward-no-kernel-349948fac2e1b63b/lib/python3.13/site-packages/torch/autograd/function.py&quot;, line 311, in apply
+  File &quot;/tmp/uvnote-run-yr7p57do/home/.cache/uv/environments-v2/forward-and-backward-no-kernel-349948fac2e1b63b/lib/python3.13/site-packages/torch/autograd/function.py&quot;, line 311, in apply
     return user_fn(self, *args)
-  File &quot;/tmp/uvnote-run-vo30j_xa/home/.cache/uv/environments-v2/forward-and-backward-no-kernel-349948fac2e1b63b/lib/python3.13/site-packages/torch/utils/checkpoint.py&quot;, line 319, in backward
+  File &quot;/tmp/uvnote-run-yr7p57do/home/.cache/uv/environments-v2/forward-and-backward-no-kernel-349948fac2e1b63b/lib/python3.13/site-packages/torch/utils/checkpoint.py&quot;, line 319, in backward
     torch.autograd.backward(outputs_with_grad, args_with_grad)
     ~~~~~~~~~~~~~~~~~~~~~~~^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
-  File &quot;/tmp/uvnote-run-vo30j_xa/home/.cache/uv/environments-v2/forward-and-backward-no-kernel-349948fac2e1b63b/lib/python3.13/site-packages/torch/autograd/__init__.py&quot;, line 354, in backward
+  File &quot;/tmp/uvnote-run-yr7p57do/home/.cache/uv/environments-v2/forward-and-backward-no-kernel-349948fac2e1b63b/lib/python3.13/site-packages/torch/autograd/__init__.py&quot;, line 354, in backward
     _engine_run_backward(
     ~~~~~~~~~~~~~~~~~~~~^
         tensors,
@@ -4668,14 +4279,14 @@ Traceback (most recent call last):
         ^^^^^^^^^^^^^^^^^^^^^
     )
     ^
-  File &quot;/tmp/uvnote-run-vo30j_xa/home/.cache/uv/environments-v2/forward-and-backward-no-kernel-349948fac2e1b63b/lib/python3.13/site-packages/torch/autograd/graph.py&quot;, line 829, in _engine_run_backward
+  File &quot;/tmp/uvnote-run-yr7p57do/home/.cache/uv/environments-v2/forward-and-backward-no-kernel-349948fac2e1b63b/lib/python3.13/site-packages/torch/autograd/graph.py&quot;, line 829, in _engine_run_backward
     return Variable._execution_engine.run_backward(  # Calls into the C++ engine to run the backward pass
            ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
         t_outputs, *args, **kwargs
         ^^^^^^^^^^^^^^^^^^^^^^^^^^
     )  # Calls into the C++ engine to run the backward pass
     ^
-torch.OutOfMemoryError: CUDA out of memory. Tried to allocate 508.00 MiB. GPU 2 has a total capacity of 22.30 GiB of which 118.69 MiB is free. Process 34932 has 22.18 GiB memory in use. Of the allocated memory 21.52 GiB is allocated by PyTorch, and 357.89 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)</div>
+torch.OutOfMemoryError: CUDA out of memory. Tried to allocate 508.00 MiB. GPU 2 has a total capacity of 22.30 GiB of which 118.69 MiB is free. Process 25557 has 22.18 GiB memory in use. Of the allocated memory 21.52 GiB is allocated by PyTorch, and 357.89 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)</div>
 </div>
 </div>
 
@@ -4683,1033 +4294,8 @@ torch.OutOfMemoryError: CUDA out of memory. Tried to allocate 508.00 MiB. GPU 2
 <p>Next we can run with Megablocks kernels enabled.</p>
 <h3>Forward</h3>
 <p>First, we run a forward pass with Megablocks kernels.</p>
-<div class="cell" id="cell-forward_only">
-<div class="cell-header">
-<span class="collapse-indicators">
-<span onclick="toggleCode('forward_only')" style="cursor: pointer;">▼ code</span> 
-<span onclick="toggleOutput('forward_only')" style="cursor: pointer;">▼ output</span>
- <span id="uv-indicator-forward_only" onclick="toggleUvLogsFromHeader('forward_only')" style="cursor: pointer;">▶ uv-logs</span>
-</span> | 
-Cell: forward_only | 114.71s
- | <button class="run-btn" onclick="runCell('forward_only')">▶ run</button>
-<button class="copy-btn" onclick="copyCell('forward_only')">Copy</button>
-<a href="cells/forward_only.py" target="_blank" class="raw-btn">Raw</a>
-</div>
-<div id="code-forward_only" class="cell-code" data-lines="101">
-<div class="highlight-with-lines">
-<div class="line-numbers" id="lines-forward_only">
-<a class="line-number" data-cell="forward_only" data-line="1" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 1, true);">1</a>
-<a class="line-number" data-cell="forward_only" data-line="2" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 2, true);">2</a>
-<a class="line-number" data-cell="forward_only" data-line="3" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 3, true);">3</a>
-<a class="line-number" data-cell="forward_only" data-line="4" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 4, true);">4</a>
-<a class="line-number" data-cell="forward_only" data-line="5" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 5, true);">5</a>
-<a class="line-number" data-cell="forward_only" data-line="6" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 6, true);">6</a>
-<a class="line-number" data-cell="forward_only" data-line="7" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 7, true);">7</a>
-<a class="line-number" data-cell="forward_only" data-line="8" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 8, true);">8</a>
-<a class="line-number" data-cell="forward_only" data-line="9" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 9, true);">9</a>
-<a class="line-number" data-cell="forward_only" data-line="10" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 10, true);">10</a>
-<a class="line-number" data-cell="forward_only" data-line="11" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 11, true);">11</a>
-<a class="line-number" data-cell="forward_only" data-line="12" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 12, true);">12</a>
-<a class="line-number" data-cell="forward_only" data-line="13" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 13, true);">13</a>
-<a class="line-number" data-cell="forward_only" data-line="14" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 14, true);">14</a>
-<a class="line-number" data-cell="forward_only" data-line="15" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 15, true);">15</a>
-<a class="line-number" data-cell="forward_only" data-line="16" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 16, true);">16</a>
-<a class="line-number" data-cell="forward_only" data-line="17" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 17, true);">17</a>
-<a class="line-number" data-cell="forward_only" data-line="18" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 18, true);">18</a>
-<a class="line-number" data-cell="forward_only" data-line="19" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 19, true);">19</a>
-<a class="line-number" data-cell="forward_only" data-line="20" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 20, true);">20</a>
-<a class="line-number" data-cell="forward_only" data-line="21" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 21, true);">21</a>
-<a class="line-number" data-cell="forward_only" data-line="22" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 22, true);">22</a>
-<a class="line-number" data-cell="forward_only" data-line="23" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 23, true);">23</a>
-<a class="line-number" data-cell="forward_only" data-line="24" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 24, true);">24</a>
-<a class="line-number" data-cell="forward_only" data-line="25" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 25, true);">25</a>
-<a class="line-number" data-cell="forward_only" data-line="26" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 26, true);">26</a>
-<a class="line-number" data-cell="forward_only" data-line="27" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 27, true);">27</a>
-<a class="line-number" data-cell="forward_only" data-line="28" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 28, true);">28</a>
-<a class="line-number" data-cell="forward_only" data-line="29" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 29, true);">29</a>
-<a class="line-number" data-cell="forward_only" data-line="30" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 30, true);">30</a>
-<a class="line-number" data-cell="forward_only" data-line="31" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 31, true);">31</a>
-<a class="line-number" data-cell="forward_only" data-line="32" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 32, true);">32</a>
-<a class="line-number" data-cell="forward_only" data-line="33" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 33, true);">33</a>
-<a class="line-number" data-cell="forward_only" data-line="34" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 34, true);">34</a>
-<a class="line-number" data-cell="forward_only" data-line="35" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 35, true);">35</a>
-<a class="line-number" data-cell="forward_only" data-line="36" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 36, true);">36</a>
-<a class="line-number" data-cell="forward_only" data-line="37" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 37, true);">37</a>
-<a class="line-number" data-cell="forward_only" data-line="38" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 38, true);">38</a>
-<a class="line-number" data-cell="forward_only" data-line="39" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 39, true);">39</a>
-<a class="line-number" data-cell="forward_only" data-line="40" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 40, true);">40</a>
-<a class="line-number" data-cell="forward_only" data-line="41" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 41, true);">41</a>
-<a class="line-number" data-cell="forward_only" data-line="42" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 42, true);">42</a>
-<a class="line-number" data-cell="forward_only" data-line="43" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 43, true);">43</a>
-<a class="line-number" data-cell="forward_only" data-line="44" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 44, true);">44</a>
-<a class="line-number" data-cell="forward_only" data-line="45" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 45, true);">45</a>
-<a class="line-number" data-cell="forward_only" data-line="46" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 46, true);">46</a>
-<a class="line-number" data-cell="forward_only" data-line="47" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 47, true);">47</a>
-<a class="line-number" data-cell="forward_only" data-line="48" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 48, true);">48</a>
-<a class="line-number" data-cell="forward_only" data-line="49" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 49, true);">49</a>
-<a class="line-number" data-cell="forward_only" data-line="50" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 50, true);">50</a>
-<a class="line-number" data-cell="forward_only" data-line="51" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 51, true);">51</a>
-<a class="line-number" data-cell="forward_only" data-line="52" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 52, true);">52</a>
-<a class="line-number" data-cell="forward_only" data-line="53" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 53, true);">53</a>
-<a class="line-number" data-cell="forward_only" data-line="54" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 54, true);">54</a>
-<a class="line-number" data-cell="forward_only" data-line="55" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 55, true);">55</a>
-<a class="line-number" data-cell="forward_only" data-line="56" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 56, true);">56</a>
-<a class="line-number" data-cell="forward_only" data-line="57" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 57, true);">57</a>
-<a class="line-number" data-cell="forward_only" data-line="58" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 58, true);">58</a>
-<a class="line-number" data-cell="forward_only" data-line="59" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 59, true);">59</a>
-<a class="line-number" data-cell="forward_only" data-line="60" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 60, true);">60</a>
-<a class="line-number" data-cell="forward_only" data-line="61" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 61, true);">61</a>
-<a class="line-number" data-cell="forward_only" data-line="62" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 62, true);">62</a>
-<a class="line-number" data-cell="forward_only" data-line="63" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 63, true);">63</a>
-<a class="line-number" data-cell="forward_only" data-line="64" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 64, true);">64</a>
-<a class="line-number" data-cell="forward_only" data-line="65" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 65, true);">65</a>
-<a class="line-number" data-cell="forward_only" data-line="66" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 66, true);">66</a>
-<a class="line-number" data-cell="forward_only" data-line="67" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 67, true);">67</a>
-<a class="line-number" data-cell="forward_only" data-line="68" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 68, true);">68</a>
-<a class="line-number" data-cell="forward_only" data-line="69" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 69, true);">69</a>
-<a class="line-number" data-cell="forward_only" data-line="70" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 70, true);">70</a>
-<a class="line-number" data-cell="forward_only" data-line="71" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 71, true);">71</a>
-<a class="line-number" data-cell="forward_only" data-line="72" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 72, true);">72</a>
-<a class="line-number" data-cell="forward_only" data-line="73" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 73, true);">73</a>
-<a class="line-number" data-cell="forward_only" data-line="74" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 74, true);">74</a>
-<a class="line-number" data-cell="forward_only" data-line="75" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 75, true);">75</a>
-<a class="line-number" data-cell="forward_only" data-line="76" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 76, true);">76</a>
-<a class="line-number" data-cell="forward_only" data-line="77" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 77, true);">77</a>
-<a class="line-number" data-cell="forward_only" data-line="78" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 78, true);">78</a>
-<a class="line-number" data-cell="forward_only" data-line="79" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 79, true);">79</a>
-<a class="line-number" data-cell="forward_only" data-line="80" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 80, true);">80</a>
-<a class="line-number" data-cell="forward_only" data-line="81" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 81, true);">81</a>
-<a class="line-number" data-cell="forward_only" data-line="82" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 82, true);">82</a>
-<a class="line-number" data-cell="forward_only" data-line="83" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 83, true);">83</a>
-<a class="line-number" data-cell="forward_only" data-line="84" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 84, true);">84</a>
-<a class="line-number" data-cell="forward_only" data-line="85" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 85, true);">85</a>
-<a class="line-number" data-cell="forward_only" data-line="86" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 86, true);">86</a>
-<a class="line-number" data-cell="forward_only" data-line="87" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 87, true);">87</a>
-<a class="line-number" data-cell="forward_only" data-line="88" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 88, true);">88</a>
-<a class="line-number" data-cell="forward_only" data-line="89" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 89, true);">89</a>
-<a class="line-number" data-cell="forward_only" data-line="90" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 90, true);">90</a>
-<a class="line-number" data-cell="forward_only" data-line="91" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 91, true);">91</a>
-<a class="line-number" data-cell="forward_only" data-line="92" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 92, true);">92</a>
-<a class="line-number" data-cell="forward_only" data-line="93" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 93, true);">93</a>
-<a class="line-number" data-cell="forward_only" data-line="94" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 94, true);">94</a>
-<a class="line-number" data-cell="forward_only" data-line="95" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 95, true);">95</a>
-<a class="line-number" data-cell="forward_only" data-line="96" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 96, true);">96</a>
-<a class="line-number" data-cell="forward_only" data-line="97" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 97, true);">97</a>
-<a class="line-number" data-cell="forward_only" data-line="98" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 98, true);">98</a>
-<a class="line-number" data-cell="forward_only" data-line="99" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 99, true);">99</a>
-<a class="line-number" data-cell="forward_only" data-line="100" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 100, true);">100</a>
-<a class="line-number" data-cell="forward_only" data-line="101" href="#cell-forward_only" onclick="event.preventDefault(); selectCellLine('forward_only', 101, true);">101</a>
-</div>
-<div class="code-wrap">
-<div class="highlight"><pre><span></span><span class="c1"># /// script</span>
-<span class="c1"># requires-python = &quot;&gt;=3.12&quot;</span>
-<span class="c1"># dependencies = [</span>
-<span class="c1">#     &quot;accelerate&gt;=1.10.1&quot;,</span>
-<span class="c1">#     &quot;torch&gt;=2.7.0&quot;,</span>
-<span class="c1">#     &quot;kernels==0.10.0&quot;,</span>
-<span class="c1">#     &quot;transformers@https://github.com/huggingface/transformers.git&quot;,</span>
-<span class="c1">#     &quot;ipdb&gt;=0.13.13&quot;,</span>
-<span class="c1">#     &quot;matplotlib&gt;=3.7.2&quot;,</span>
-<span class="c1">#     &quot;numpy&gt;=1.24.3&quot;,</span>
-<span class="c1"># ]</span>
-<span class="c1"># ///</span>
-
-<span class="kn">import</span><span class="w"> </span><span class="nn">torch</span>
-<span class="kn">from</span><span class="w"> </span><span class="nn">transformers</span><span class="w"> </span><span class="kn">import</span> <span class="n">GptOssForCausalLM</span><span class="p">,</span> <span class="n">PreTrainedTokenizerFast</span><span class="p">,</span> <span class="n">Mxfp4Config</span>
-<span class="kn">import</span><span class="w"> </span><span class="nn">time</span>
-<span class="kn">import</span><span class="w"> </span><span class="nn">torch.nn</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">nn</span>
-<span class="kn">from</span><span class="w"> </span><span class="nn">kernels</span><span class="w"> </span><span class="kn">import</span> <span class="n">register_kernel_mapping</span><span class="p">,</span> <span class="n">Mode</span><span class="p">,</span> <span class="n">LayerRepository</span><span class="p">,</span> <span class="n">replace_kernel_forward_from_hub</span>
-<span class="kn">import</span><span class="w"> </span><span class="nn">sys</span>
-<span class="kn">import</span><span class="w"> </span><span class="nn">torch.profiler</span>
-<span class="kn">import</span><span class="w"> </span><span class="nn">gc</span>
-<span class="kn">import</span><span class="w"> </span><span class="nn">logging</span>
-<span class="kn">from</span><span class="w"> </span><span class="nn">transformers.models.gpt_oss.modeling_gpt_oss</span><span class="w"> </span><span class="kn">import</span> <span class="n">GptOssRMSNorm</span>
-
-
-<span class="n">replace_kernel_forward_from_hub</span><span class="p">(</span><span class="n">GptOssRMSNorm</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
-
-<span class="c1"># set to debug logging</span>
-<span class="n">logging</span><span class="o">.</span><span class="n">basicConfig</span><span class="p">(</span><span class="n">level</span><span class="o">=</span><span class="n">logging</span><span class="o">.</span><span class="n">INFO</span><span class="p">)</span>
-
-<span class="k">def</span><span class="w"> </span><span class="nf">reset_peak_memory_stats</span><span class="p">():</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Clear CUDA cache and reset memory allocation counters.&quot;&quot;&quot;</span>
-    <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">empty_cache</span><span class="p">()</span>
-    <span class="k">if</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">is_available</span><span class="p">():</span>
-        <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">reset_peak_memory_stats</span><span class="p">()</span>
-    <span class="n">gc</span><span class="o">.</span><span class="n">collect</span><span class="p">()</span>
-
-<span class="k">def</span><span class="w"> </span><span class="nf">get_memory_stats</span><span class="p">():</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Get current and peak CUDA memory usage.&quot;&quot;&quot;</span>
-    <span class="k">if</span> <span class="ow">not</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">is_available</span><span class="p">():</span>
-        <span class="k">return</span> <span class="p">{</span><span class="s2">&quot;allocated_gb&quot;</span><span class="p">:</span> <span class="mi">0</span><span class="p">,</span> <span class="s2">&quot;peak_gb&quot;</span><span class="p">:</span> <span class="mi">0</span><span class="p">,</span> <span class="s2">&quot;reserved_gb&quot;</span><span class="p">:</span> <span class="mi">0</span><span class="p">}</span>
-    <span class="k">return</span> <span class="p">{</span>
-        <span class="s2">&quot;allocated_gb&quot;</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">memory_allocated</span><span class="p">()</span> <span class="o">/</span> <span class="mf">1e9</span><span class="p">,</span>
-        <span class="s2">&quot;peak_gb&quot;</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">max_memory_allocated</span><span class="p">()</span> <span class="o">/</span> <span class="mf">1e9</span><span class="p">,</span>
-        <span class="s2">&quot;reserved_gb&quot;</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">memory_reserved</span><span class="p">()</span> <span class="o">/</span> <span class="mf">1e9</span><span class="p">,</span>
-    <span class="p">}</span>
-
-<span class="k">def</span><span class="w"> </span><span class="nf">override_kernel_layer_name</span><span class="p">(</span><span class="n">cls_name</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Helper to dynamically override the kernel_layer_name in a model class.&quot;&quot;&quot;</span>
-    <span class="k">for</span> <span class="n">mod</span> <span class="ow">in</span> <span class="n">sys</span><span class="o">.</span><span class="n">modules</span><span class="o">.</span><span class="n">values</span><span class="p">():</span>
-        <span class="k">if</span> <span class="n">mod</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="k">continue</span>
-        <span class="n">obj</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="n">mod</span><span class="p">,</span> <span class="n">cls_name</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
-        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">obj</span><span class="p">,</span> <span class="nb">type</span><span class="p">)</span> <span class="ow">and</span> <span class="nb">issubclass</span><span class="p">(</span><span class="n">obj</span><span class="p">,</span> <span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
-            <span class="nb">setattr</span><span class="p">(</span><span class="n">obj</span><span class="p">,</span> <span class="s2">&quot;kernel_layer_name&quot;</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
-            <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Overrode </span><span class="si">{</span><span class="n">cls_name</span><span class="si">}</span><span class="s2">.kernel_layer_name to </span><span class="si">{</span><span class="n">value</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
-            <span class="k">return</span> <span class="kc">True</span>
-    <span class="k">return</span> <span class="kc">False</span>
-
-
-<span class="c1"># Init the model the normal way</span>
-<span class="n">model_id</span> <span class="o">=</span> <span class="s2">&quot;openai/gpt-oss-20b&quot;</span>
-<span class="n">tokenizer</span> <span class="o">=</span> <span class="n">PreTrainedTokenizerFast</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">model_id</span><span class="p">)</span>
-<span class="n">quantization_config</span> <span class="o">=</span> <span class="n">Mxfp4Config</span><span class="p">(</span><span class="n">dequantize</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-
-
-
-<span class="n">model</span> <span class="o">=</span> <span class="n">GptOssForCausalLM</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
-    <span class="n">model_id</span><span class="p">,</span>
-    <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;bfloat16&quot;</span><span class="p">,</span>
-    <span class="n">device_map</span><span class="o">=</span><span class="s2">&quot;auto&quot;</span><span class="p">,</span>
-    <span class="n">use_kernels</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-    <span class="n">quantization_config</span><span class="o">=</span><span class="n">quantization_config</span><span class="p">,</span>
-<span class="p">)</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>
-
-<span class="n">messages</span> <span class="o">=</span> <span class="p">[</span>
-    <span class="p">{</span><span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;system&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="s2">&quot;What is Tensor Parallelism?&quot;</span><span class="p">},</span>
-<span class="p">]</span>
-
-<span class="n">inputs</span> <span class="o">=</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">apply_chat_template</span><span class="p">(</span>
-    <span class="n">messages</span><span class="p">,</span>
-    <span class="n">add_generation_prompt</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-    <span class="n">return_tensors</span><span class="o">=</span><span class="s2">&quot;pt&quot;</span><span class="p">,</span>
-    <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-    <span class="n">reasoning_effort</span><span class="o">=</span><span class="s2">&quot;low&quot;</span><span class="p">,</span>
-<span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="s2">&quot;cuda&quot;</span><span class="p">)</span>
-
-<span class="n">max_tokens</span> <span class="o">=</span> <span class="mi">256</span>
-
-<span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">inference_mode</span><span class="p">():</span>
-    <span class="n">start_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">perf_counter</span><span class="p">()</span>
-    <span class="n">generated</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">generate</span><span class="p">(</span>
-        <span class="o">**</span><span class="n">inputs</span><span class="p">,</span>
-        <span class="n">max_new_tokens</span><span class="o">=</span><span class="n">max_tokens</span><span class="p">,</span>
-        <span class="n">do_sample</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-        <span class="n">temperature</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
-    <span class="p">)</span>
-    <span class="n">end_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">perf_counter</span><span class="p">()</span>
-
-<span class="nb">print</span><span class="p">(</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="n">generated</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">skip_special_tokens</span><span class="o">=</span><span class="kc">False</span><span class="p">))</span>
-<span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Generation took </span><span class="si">{</span><span class="n">end_time</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="n">start_time</span><span class="si">:</span><span class="s2">.2f</span><span class="si">}</span><span class="s2"> seconds&quot;</span><span class="p">)</span>
-</pre></div>
-
-<div class="code-line-highlight" id="line-highlight-forward_only"></div>
-</div>
-</div>
-</div>
-<div id="output-forward_only" class="cell-output">
-<div class="cell-stdout">&lt;|start|&gt;system&lt;|message|&gt;You are ChatGPT, a large language model trained by OpenAI.
-Knowledge cutoff: 2024-06
-Current date: 2025-09-24
-
-Reasoning: low
-
-# Valid channels: analysis, commentary, final. Channel must be included for every message.&lt;|end|&gt;&lt;|start|&gt;developer&lt;|message|&gt;# Instructions
-
-What is Tensor Parallelism?
-
-&lt;|end|&gt;&lt;|start|&gt;assistant&lt;|channel|&gt;analysis&lt;|message|&gt;We need to explain what Tensor Parallelism is. It&#x27;s a concept in distributed training of large language models. It refers to splitting the weight matrices (tensors) across multiple devices. Provide details: how it works, benefits, challenges, typical frameworks, etc. Also mention difference from data parallelism, pipeline parallelism. Provide example: splitting a weight matrix across GPUs, each GPU holds a slice, compute partial results, then gather. Provide mention of communication overhead, scaling, etc. Also mention that it&#x27;s used in large models like GPT-3, Megatron-LM, DeepSpeed. Provide references. Also mention that it&#x27;s also called model parallelism. Provide explanation of how it works in practice: e.g., for a linear layer, weight matrix W of shape (out_features, in_features). In tensor parallelism, split W along out_features dimension across GPUs. Each GPU computes partial output. Then gather outputs. Provide details on how to handle bias, etc. Provide mention of &quot;tensor model parallelism&quot; vs &quot;tensor parallelism&quot; synonyms. Provide mention of &quot;tensor parallelism&quot; in Megatron-LM: splitting weight matrices across GPUs. Provide mention of &quot;tensor parallelism&quot; in DeepSpeed: &quot;ZeRO-Offload&quot; etc. Provide mention
-Generation took 31.31 seconds
-</div>
-<div class="uv-install-logs" id="uv-logs-forward_only">
-<div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
-<div class="uv-logs-content" style="display: none;">
-Downloading cpython-3.13.7-linux-x86_64-gnu (download) (32.0MiB)
- Downloading cpython-3.13.7-linux-x86_64-gnu (download)
-   Updating https://github.com/huggingface/transformers.git (HEAD)
-    Updated https://github.com/huggingface/transformers.git (7258ea44bc0c0a425a468f66f8559d1de8c4126d)
-   Building transformers @ git+https://github.com/huggingface/transformers.git@7258ea44bc0c0a425a468f66f8559d1de8c4126d
-Downloading pygments (1.2MiB)
-Downloading nvidia-cufile-cu12 (1.1MiB)
-Downloading nvidia-cudnn-cu12 (674.0MiB)
-Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
-Downloading nvidia-curand-cu12 (60.7MiB)
-Downloading hf-xet (3.0MiB)
-Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
-Downloading numpy (15.9MiB)
-Downloading nvidia-nvjitlink-cu12 (37.4MiB)
-Downloading nvidia-cublas-cu12 (566.8MiB)
-Downloading nvidia-cusparselt-cu12 (273.9MiB)
-Downloading pillow (6.3MiB)
-Downloading networkx (1.9MiB)
-Downloading sympy (6.0MiB)
-Downloading tokenizers (3.1MiB)
-Downloading jedi (1.5MiB)
-Downloading nvidia-cusparse-cu12 (274.9MiB)
-Downloading nvidia-cufft-cu12 (184.2MiB)
-Downloading nvidia-cusolver-cu12 (255.1MiB)
-Downloading nvidia-nccl-cu12 (307.4MiB)
-Downloading fonttools (4.7MiB)
-Downloading torch (846.8MiB)
-Downloading matplotlib (8.3MiB)
-Downloading kiwisolver (1.4MiB)
-Downloading triton (148.4MiB)
- Downloading nvidia-cufile-cu12
- Downloading kiwisolver
- Downloading pygments
- Downloading hf-xet
- Downloading tokenizers
- Downloading networkx
- Downloading fonttools
- Downloading pillow
- Downloading matplotlib
- Downloading nvidia-cuda-cupti-cu12
- Downloading numpy
- Downloading sympy
-      Built transformers @ git+https://github.com/huggingface/transformers.git@7258ea44bc0c0a425a468f66f8559d1de8c4126d
- Downloading nvidia-nvjitlink-cu12
- Downloading jedi
- Downloading nvidia-curand-cu12
- Downloading nvidia-cuda-nvrtc-cu12
- Downloading triton
- Downloading nvidia-cufft-cu12
- Downloading nvidia-cusolver-cu12
- Downloading nvidia-cusparse-cu12
- Downloading nvidia-cusparselt-cu12
- Downloading nvidia-nccl-cu12
- Downloading nvidia-cublas-cu12
- Downloading nvidia-cudnn-cu12
- Downloading torch
-Installed 69 packages in 454ms
-</div>
-</div>
-<div class="cell-stderr">Fetching 3 files:   0%|          | 0/3 [00:00&lt;?, ?it/s]
-Fetching 3 files:  33%|███▎      | 1/3 [00:07&lt;00:14,  7.39s/it]
-Fetching 3 files:  67%|██████▋   | 2/3 [00:08&lt;00:03,  3.78s/it]
-Fetching 3 files: 100%|██████████| 3/3 [00:08&lt;00:00,  2.88s/it]
-You are using full precision kernels, we will dequantize the model to bf16. To use the quantized model with quantization kernels, please set use_kernels=False
-
-Loading checkpoint shards:   0%|          | 0/3 [00:00&lt;?, ?it/s]
-Loading checkpoint shards:  33%|███▎      | 1/3 [00:02&lt;00:04,  2.34s/it]
-Loading checkpoint shards:  67%|██████▋   | 2/3 [00:04&lt;00:02,  2.25s/it]
-Loading checkpoint shards: 100%|██████████| 3/3 [00:05&lt;00:00,  1.80s/it]
-Loading checkpoint shards: 100%|██████████| 3/3 [00:05&lt;00:00,  1.93s/it]
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-
-Fetching 66 files:   0%|          | 0/66 [00:00&lt;?, ?it/s]
-Fetching 66 files:   2%|▏         | 1/66 [00:00&lt;00:10,  6.01it/s]
-Fetching 66 files:  14%|█▎        | 9/66 [00:00&lt;00:01, 31.85it/s]
-Fetching 66 files:  20%|█▉        | 13/66 [00:00&lt;00:02, 24.06it/s]
-Fetching 66 files:  26%|██▌       | 17/66 [00:01&lt;00:03, 12.48it/s]
-Fetching 66 files:  74%|███████▍  | 49/66 [00:01&lt;00:00, 53.80it/s]
-Fetching 66 files:  91%|█████████ | 60/66 [00:01&lt;00:00, 57.68it/s]
-Fetching 66 files: 100%|██████████| 66/66 [00:01&lt;00:00, 40.58it/s]
-/tmp/uvnote-run-_tyh_wp6/home/.cache/uv/environments-v2/forward-only-504a4941eac030a5/lib/python3.13/site-packages/kernels/layer.py:868: UserWarning: 
-No kernel mapping found for layer `None`. Check if the layer name matches one of the kernels in the mapping or add the kernel you want to use to the mapping. Defaulting to original forward implementation.
-  warnings.warn(
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-/tmp/uvnote-run-_tyh_wp6/home/.cache/uv/environments-v2/forward-only-504a4941eac030a5/lib/python3.13/site-packages/kernels/layer.py:868: UserWarning: 
-No kernel mapping found for layer `None`. Check if the layer name matches one of the kernels in the mapping or add the kernel you want to use to the mapping. Defaulting to original forward implementation.
-  warnings.warn(
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`</div>
-</div>
-</div>
-
 <h2>Forward and Backward</h2>
 <p>Next, we run a forward and backward pass with Megablocks kernels enabled. This should be more memory efficient and allow us to complete the backward pass without running out of memory.</p>
-<div class="cell" id="cell-forward_and_backward">
-<div class="cell-header">
-<span class="collapse-indicators">
-<span onclick="toggleCode('forward_and_backward')" style="cursor: pointer;">▼ code</span> 
-<span onclick="toggleOutput('forward_and_backward')" style="cursor: pointer;">▼ output</span>
- <span id="uv-indicator-forward_and_backward" onclick="toggleUvLogsFromHeader('forward_and_backward')" style="cursor: pointer;">▶ uv-logs</span>
-</span> | 
-Cell: forward_and_backward | 104.79s
- | <button class="run-btn" onclick="runCell('forward_and_backward')">▶ run</button>
-<button class="copy-btn" onclick="copyCell('forward_and_backward')">Copy</button>
-<a href="cells/forward_and_backward.py" target="_blank" class="raw-btn">Raw</a>
-</div>
-<div id="code-forward_and_backward" class="cell-code" data-lines="196">
-<div class="highlight-with-lines">
-<div class="line-numbers" id="lines-forward_and_backward">
-<a class="line-number" data-cell="forward_and_backward" data-line="1" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 1, true);">1</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="2" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 2, true);">2</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="3" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 3, true);">3</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="4" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 4, true);">4</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="5" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 5, true);">5</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="6" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 6, true);">6</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="7" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 7, true);">7</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="8" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 8, true);">8</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="9" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 9, true);">9</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="10" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 10, true);">10</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="11" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 11, true);">11</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="12" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 12, true);">12</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="13" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 13, true);">13</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="14" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 14, true);">14</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="15" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 15, true);">15</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="16" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 16, true);">16</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="17" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 17, true);">17</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="18" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 18, true);">18</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="19" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 19, true);">19</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="20" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 20, true);">20</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="21" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 21, true);">21</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="22" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 22, true);">22</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="23" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 23, true);">23</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="24" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 24, true);">24</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="25" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 25, true);">25</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="26" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 26, true);">26</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="27" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 27, true);">27</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="28" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 28, true);">28</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="29" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 29, true);">29</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="30" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 30, true);">30</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="31" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 31, true);">31</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="32" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 32, true);">32</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="33" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 33, true);">33</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="34" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 34, true);">34</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="35" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 35, true);">35</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="36" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 36, true);">36</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="37" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 37, true);">37</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="38" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 38, true);">38</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="39" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 39, true);">39</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="40" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 40, true);">40</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="41" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 41, true);">41</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="42" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 42, true);">42</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="43" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 43, true);">43</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="44" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 44, true);">44</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="45" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 45, true);">45</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="46" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 46, true);">46</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="47" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 47, true);">47</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="48" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 48, true);">48</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="49" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 49, true);">49</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="50" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 50, true);">50</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="51" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 51, true);">51</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="52" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 52, true);">52</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="53" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 53, true);">53</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="54" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 54, true);">54</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="55" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 55, true);">55</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="56" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 56, true);">56</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="57" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 57, true);">57</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="58" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 58, true);">58</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="59" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 59, true);">59</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="60" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 60, true);">60</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="61" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 61, true);">61</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="62" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 62, true);">62</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="63" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 63, true);">63</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="64" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 64, true);">64</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="65" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 65, true);">65</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="66" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 66, true);">66</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="67" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 67, true);">67</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="68" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 68, true);">68</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="69" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 69, true);">69</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="70" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 70, true);">70</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="71" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 71, true);">71</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="72" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 72, true);">72</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="73" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 73, true);">73</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="74" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 74, true);">74</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="75" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 75, true);">75</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="76" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 76, true);">76</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="77" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 77, true);">77</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="78" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 78, true);">78</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="79" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 79, true);">79</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="80" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 80, true);">80</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="81" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 81, true);">81</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="82" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 82, true);">82</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="83" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 83, true);">83</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="84" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 84, true);">84</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="85" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 85, true);">85</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="86" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 86, true);">86</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="87" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 87, true);">87</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="88" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 88, true);">88</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="89" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 89, true);">89</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="90" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 90, true);">90</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="91" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 91, true);">91</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="92" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 92, true);">92</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="93" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 93, true);">93</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="94" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 94, true);">94</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="95" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 95, true);">95</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="96" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 96, true);">96</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="97" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 97, true);">97</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="98" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 98, true);">98</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="99" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 99, true);">99</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="100" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 100, true);">100</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="101" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 101, true);">101</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="102" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 102, true);">102</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="103" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 103, true);">103</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="104" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 104, true);">104</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="105" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 105, true);">105</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="106" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 106, true);">106</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="107" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 107, true);">107</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="108" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 108, true);">108</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="109" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 109, true);">109</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="110" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 110, true);">110</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="111" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 111, true);">111</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="112" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 112, true);">112</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="113" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 113, true);">113</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="114" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 114, true);">114</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="115" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 115, true);">115</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="116" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 116, true);">116</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="117" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 117, true);">117</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="118" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 118, true);">118</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="119" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 119, true);">119</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="120" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 120, true);">120</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="121" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 121, true);">121</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="122" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 122, true);">122</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="123" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 123, true);">123</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="124" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 124, true);">124</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="125" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 125, true);">125</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="126" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 126, true);">126</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="127" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 127, true);">127</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="128" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 128, true);">128</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="129" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 129, true);">129</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="130" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 130, true);">130</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="131" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 131, true);">131</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="132" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 132, true);">132</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="133" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 133, true);">133</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="134" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 134, true);">134</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="135" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 135, true);">135</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="136" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 136, true);">136</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="137" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 137, true);">137</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="138" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 138, true);">138</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="139" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 139, true);">139</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="140" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 140, true);">140</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="141" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 141, true);">141</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="142" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 142, true);">142</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="143" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 143, true);">143</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="144" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 144, true);">144</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="145" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 145, true);">145</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="146" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 146, true);">146</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="147" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 147, true);">147</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="148" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 148, true);">148</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="149" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 149, true);">149</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="150" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 150, true);">150</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="151" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 151, true);">151</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="152" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 152, true);">152</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="153" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 153, true);">153</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="154" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 154, true);">154</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="155" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 155, true);">155</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="156" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 156, true);">156</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="157" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 157, true);">157</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="158" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 158, true);">158</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="159" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 159, true);">159</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="160" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 160, true);">160</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="161" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 161, true);">161</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="162" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 162, true);">162</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="163" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 163, true);">163</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="164" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 164, true);">164</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="165" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 165, true);">165</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="166" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 166, true);">166</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="167" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 167, true);">167</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="168" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 168, true);">168</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="169" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 169, true);">169</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="170" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 170, true);">170</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="171" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 171, true);">171</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="172" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 172, true);">172</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="173" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 173, true);">173</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="174" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 174, true);">174</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="175" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 175, true);">175</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="176" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 176, true);">176</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="177" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 177, true);">177</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="178" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 178, true);">178</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="179" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 179, true);">179</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="180" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 180, true);">180</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="181" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 181, true);">181</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="182" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 182, true);">182</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="183" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 183, true);">183</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="184" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 184, true);">184</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="185" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 185, true);">185</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="186" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 186, true);">186</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="187" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 187, true);">187</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="188" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 188, true);">188</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="189" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 189, true);">189</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="190" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 190, true);">190</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="191" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 191, true);">191</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="192" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 192, true);">192</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="193" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 193, true);">193</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="194" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 194, true);">194</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="195" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 195, true);">195</a>
-<a class="line-number" data-cell="forward_and_backward" data-line="196" href="#cell-forward_and_backward" onclick="event.preventDefault(); selectCellLine('forward_and_backward', 196, true);">196</a>
-</div>
-<div class="code-wrap">
-<div class="highlight"><pre><span></span><span class="c1"># /// script</span>
-<span class="c1"># requires-python = &quot;&gt;=3.12&quot;</span>
-<span class="c1"># dependencies = [</span>
-<span class="c1">#     &quot;accelerate&gt;=1.10.1&quot;,</span>
-<span class="c1">#     &quot;torch&gt;=2.7.0&quot;,</span>
-<span class="c1">#     &quot;kernels==0.10.0&quot;,</span>
-<span class="c1">#     &quot;transformers@https://github.com/huggingface/transformers.git&quot;,</span>
-<span class="c1">#     &quot;ipdb&gt;=0.13.13&quot;,</span>
-<span class="c1">#     &quot;matplotlib&gt;=3.7.2&quot;,</span>
-<span class="c1">#     &quot;numpy&gt;=1.24.3&quot;,</span>
-<span class="c1"># ]</span>
-<span class="c1"># ///</span>
-
-<span class="kn">import</span><span class="w"> </span><span class="nn">torch</span>
-<span class="kn">from</span><span class="w"> </span><span class="nn">transformers</span><span class="w"> </span><span class="kn">import</span> <span class="n">GptOssForCausalLM</span><span class="p">,</span> <span class="n">PreTrainedTokenizerFast</span><span class="p">,</span> <span class="n">Mxfp4Config</span>
-<span class="kn">import</span><span class="w"> </span><span class="nn">time</span>
-<span class="kn">import</span><span class="w"> </span><span class="nn">torch.nn</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">nn</span>
-<span class="kn">from</span><span class="w"> </span><span class="nn">kernels</span><span class="w"> </span><span class="kn">import</span> <span class="n">register_kernel_mapping</span><span class="p">,</span> <span class="n">Mode</span><span class="p">,</span> <span class="n">LayerRepository</span><span class="p">,</span> <span class="n">replace_kernel_forward_from_hub</span>
-<span class="kn">import</span><span class="w"> </span><span class="nn">sys</span>
-<span class="kn">import</span><span class="w"> </span><span class="nn">torch.profiler</span>
-<span class="kn">import</span><span class="w"> </span><span class="nn">gc</span>
-<span class="kn">import</span><span class="w"> </span><span class="nn">logging</span>
-<span class="kn">from</span><span class="w"> </span><span class="nn">transformers.models.gpt_oss.modeling_gpt_oss</span><span class="w"> </span><span class="kn">import</span> <span class="n">GptOssRMSNorm</span>
-
-<span class="c1"># remove liger kernel for testing </span>
-<span class="n">replace_kernel_forward_from_hub</span><span class="p">(</span><span class="n">GptOssRMSNorm</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
-
-<span class="c1"># set to debug logging</span>
-<span class="n">logging</span><span class="o">.</span><span class="n">basicConfig</span><span class="p">(</span><span class="n">level</span><span class="o">=</span><span class="n">logging</span><span class="o">.</span><span class="n">INFO</span><span class="p">)</span>
-
-<span class="k">def</span><span class="w"> </span><span class="nf">reset_peak_memory_stats</span><span class="p">():</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Clear CUDA cache and reset memory allocation counters.&quot;&quot;&quot;</span>
-    <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">empty_cache</span><span class="p">()</span>
-    <span class="k">if</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">is_available</span><span class="p">():</span>
-        <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">reset_peak_memory_stats</span><span class="p">()</span>
-    <span class="n">gc</span><span class="o">.</span><span class="n">collect</span><span class="p">()</span>
-
-<span class="k">def</span><span class="w"> </span><span class="nf">get_memory_stats</span><span class="p">():</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Get current and peak CUDA memory usage.&quot;&quot;&quot;</span>
-    <span class="k">if</span> <span class="ow">not</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">is_available</span><span class="p">():</span>
-        <span class="k">return</span> <span class="p">{</span><span class="s2">&quot;allocated_gb&quot;</span><span class="p">:</span> <span class="mi">0</span><span class="p">,</span> <span class="s2">&quot;peak_gb&quot;</span><span class="p">:</span> <span class="mi">0</span><span class="p">,</span> <span class="s2">&quot;reserved_gb&quot;</span><span class="p">:</span> <span class="mi">0</span><span class="p">}</span>
-    <span class="k">return</span> <span class="p">{</span>
-        <span class="s2">&quot;allocated_gb&quot;</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">memory_allocated</span><span class="p">()</span> <span class="o">/</span> <span class="mf">1e9</span><span class="p">,</span>
-        <span class="s2">&quot;peak_gb&quot;</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">max_memory_allocated</span><span class="p">()</span> <span class="o">/</span> <span class="mf">1e9</span><span class="p">,</span>
-        <span class="s2">&quot;reserved_gb&quot;</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">memory_reserved</span><span class="p">()</span> <span class="o">/</span> <span class="mf">1e9</span><span class="p">,</span>
-    <span class="p">}</span>
-
-<span class="k">def</span><span class="w"> </span><span class="nf">override_kernel_layer_name</span><span class="p">(</span><span class="n">cls_name</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Helper to dynamically override the kernel_layer_name in a model class.&quot;&quot;&quot;</span>
-    <span class="k">for</span> <span class="n">mod</span> <span class="ow">in</span> <span class="n">sys</span><span class="o">.</span><span class="n">modules</span><span class="o">.</span><span class="n">values</span><span class="p">():</span>
-        <span class="k">if</span> <span class="n">mod</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="k">continue</span>
-        <span class="n">obj</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="n">mod</span><span class="p">,</span> <span class="n">cls_name</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
-        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">obj</span><span class="p">,</span> <span class="nb">type</span><span class="p">)</span> <span class="ow">and</span> <span class="nb">issubclass</span><span class="p">(</span><span class="n">obj</span><span class="p">,</span> <span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
-            <span class="nb">setattr</span><span class="p">(</span><span class="n">obj</span><span class="p">,</span> <span class="s2">&quot;kernel_layer_name&quot;</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
-            <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Overrode </span><span class="si">{</span><span class="n">cls_name</span><span class="si">}</span><span class="s2">.kernel_layer_name to </span><span class="si">{</span><span class="n">value</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
-            <span class="k">return</span> <span class="kc">True</span>
-    <span class="k">return</span> <span class="kc">False</span>
-
-
-<span class="c1"># Init the model the normal way</span>
-<span class="n">model_id</span> <span class="o">=</span> <span class="s2">&quot;openai/gpt-oss-20b&quot;</span>
-<span class="n">tokenizer</span> <span class="o">=</span> <span class="n">PreTrainedTokenizerFast</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">model_id</span><span class="p">)</span>
-<span class="n">quantization_config</span> <span class="o">=</span> <span class="n">Mxfp4Config</span><span class="p">(</span><span class="n">dequantize</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-
-<span class="n">model</span> <span class="o">=</span> <span class="n">GptOssForCausalLM</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
-    <span class="n">model_id</span><span class="p">,</span>
-    <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;bfloat16&quot;</span><span class="p">,</span>
-    <span class="n">device_map</span><span class="o">=</span><span class="s2">&quot;auto&quot;</span><span class="p">,</span>
-    <span class="n">use_kernels</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-    <span class="n">quantization_config</span><span class="o">=</span><span class="n">quantization_config</span><span class="p">,</span>
-<span class="p">)</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>
-
-<span class="n">messages</span> <span class="o">=</span> <span class="p">[</span>
-    <span class="p">{</span><span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;system&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="s2">&quot;What is Tensor Parallelism?&quot;</span><span class="p">},</span>
-<span class="p">]</span>
-
-<span class="n">inputs</span> <span class="o">=</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">apply_chat_template</span><span class="p">(</span>
-    <span class="n">messages</span><span class="p">,</span>
-    <span class="n">add_generation_prompt</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-    <span class="n">return_tensors</span><span class="o">=</span><span class="s2">&quot;pt&quot;</span><span class="p">,</span>
-    <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-    <span class="n">reasoning_effort</span><span class="o">=</span><span class="s2">&quot;low&quot;</span><span class="p">,</span>
-<span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="s2">&quot;cuda&quot;</span><span class="p">)</span>
-
-<span class="n">max_tokens</span> <span class="o">=</span> <span class="mi">128</span>  <span class="c1"># Reduced to help with memory usage</span>
-
-<span class="c1"># Clear memory before backward pass</span>
-<span class="n">reset_peak_memory_stats</span><span class="p">()</span>
-<span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Pre-generation memory: </span><span class="si">{</span><span class="n">get_memory_stats</span><span class="p">()</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
-
-<span class="c1"># forward and backward pass</span>
-<span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">autograd</span><span class="o">.</span><span class="n">set_grad_enabled</span><span class="p">(</span><span class="kc">True</span><span class="p">):</span>
-    <span class="n">start_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">perf_counter</span><span class="p">()</span>
-    <span class="n">generated</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">generate</span><span class="p">(</span>
-        <span class="o">**</span><span class="n">inputs</span><span class="p">,</span>
-        <span class="n">max_new_tokens</span><span class="o">=</span><span class="n">max_tokens</span><span class="p">,</span>
-        <span class="n">do_sample</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-        <span class="n">temperature</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
-    <span class="p">)</span>
-    <span class="n">end_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">perf_counter</span><span class="p">()</span>
-    <span class="nb">print</span><span class="p">(</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="n">generated</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">skip_special_tokens</span><span class="o">=</span><span class="kc">False</span><span class="p">))</span>
-    <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Generation took </span><span class="si">{</span><span class="n">end_time</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="n">start_time</span><span class="si">:</span><span class="s2">.2f</span><span class="si">}</span><span class="s2"> seconds&quot;</span><span class="p">)</span>
-    <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Post-generation memory: </span><span class="si">{</span><span class="n">get_memory_stats</span><span class="p">()</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
-
-    <span class="c1"># Use gradient checkpointing to reduce memory usage</span>
-    <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="s1">&#39;gradient_checkpointing_enable&#39;</span><span class="p">):</span>
-        <span class="n">model</span><span class="o">.</span><span class="n">gradient_checkpointing_enable</span><span class="p">()</span>
-        <span class="nb">print</span><span class="p">(</span><span class="s2">&quot;Enabled gradient checkpointing&quot;</span><span class="p">)</span>
-
-    <span class="c1"># Reduce sequence length if needed for memory</span>
-    <span class="n">max_seq_len</span> <span class="o">=</span> <span class="mi">512</span>  <span class="c1"># Limit sequence length for backward pass</span>
-    <span class="k">if</span> <span class="n">generated</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span> <span class="o">&gt;</span> <span class="n">max_seq_len</span><span class="p">:</span>
-        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Truncating sequence from </span><span class="si">{</span><span class="n">generated</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span><span class="si">}</span><span class="s2"> to </span><span class="si">{</span><span class="n">max_seq_len</span><span class="si">}</span><span class="s2"> tokens&quot;</span><span class="p">)</span>
-        <span class="n">full_sequence</span> <span class="o">=</span> <span class="n">generated</span><span class="p">[:,</span> <span class="o">-</span><span class="n">max_seq_len</span><span class="p">:]</span>
-    <span class="k">else</span><span class="p">:</span>
-        <span class="n">full_sequence</span> <span class="o">=</span> <span class="n">generated</span>
-
-    <span class="c1"># Get model outputs for the full sequence</span>
-    <span class="n">model</span><span class="o">.</span><span class="n">train</span><span class="p">()</span>  <span class="c1"># Enable dropout and other training behaviors</span>
-
-    <span class="k">try</span><span class="p">:</span>
-        <span class="n">outputs</span> <span class="o">=</span> <span class="n">model</span><span class="p">(</span>
-            <span class="n">input_ids</span><span class="o">=</span><span class="n">full_sequence</span><span class="p">,</span>
-            <span class="n">labels</span><span class="o">=</span><span class="n">full_sequence</span><span class="p">,</span>  <span class="c1"># This will compute loss internally</span>
-            <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span>
-        <span class="p">)</span>
-        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Post-forward memory: </span><span class="si">{</span><span class="n">get_memory_stats</span><span class="p">()</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
-
-        <span class="c1"># If model doesn&#39;t compute loss, compute it manually</span>
-        <span class="k">if</span> <span class="n">outputs</span><span class="o">.</span><span class="n">loss</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">shift_logits</span> <span class="o">=</span> <span class="n">outputs</span><span class="o">.</span><span class="n">logits</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="p">:]</span><span class="o">.</span><span class="n">contiguous</span><span class="p">()</span>
-            <span class="n">shift_labels</span> <span class="o">=</span> <span class="n">full_sequence</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="mi">1</span><span class="p">:]</span><span class="o">.</span><span class="n">contiguous</span><span class="p">()</span>
-
-            <span class="c1"># Use CrossEntropyLoss with ignore_index for padding tokens</span>
-            <span class="n">loss_fct</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">CrossEntropyLoss</span><span class="p">(</span><span class="n">ignore_index</span><span class="o">=</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token_id</span> <span class="k">if</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token_id</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="o">-</span><span class="mi">100</span><span class="p">)</span>
-            <span class="n">loss</span> <span class="o">=</span> <span class="n">loss_fct</span><span class="p">(</span>
-                <span class="n">shift_logits</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="n">shift_logits</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">)),</span>
-                <span class="n">shift_labels</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">)</span>
-            <span class="p">)</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">loss</span> <span class="o">=</span> <span class="n">outputs</span><span class="o">.</span><span class="n">loss</span>
-
-        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Loss: </span><span class="si">{</span><span class="n">loss</span><span class="o">.</span><span class="n">item</span><span class="p">()</span><span class="si">:</span><span class="s2">.4f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
-
-        <span class="c1"># Clear intermediate tensors to save memory</span>
-        <span class="k">del</span> <span class="n">outputs</span>
-        <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">empty_cache</span><span class="p">()</span>
-
-        <span class="c1"># Perform backward pass with memory management</span>
-        <span class="nb">print</span><span class="p">(</span><span class="s2">&quot;Running backward pass...&quot;</span><span class="p">)</span>
-        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Pre-backward memory: </span><span class="si">{</span><span class="n">get_memory_stats</span><span class="p">()</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
-
-        <span class="n">loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span>
-        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Post-backward memory: </span><span class="si">{</span><span class="n">get_memory_stats</span><span class="p">()</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
-
-    <span class="k">except</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">OutOfMemoryError</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
-        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;OOM during forward/backward pass: </span><span class="si">{</span><span class="n">e</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
-        <span class="nb">print</span><span class="p">(</span><span class="s2">&quot;Try reducing max_tokens or max_seq_len&quot;</span><span class="p">)</span>
-        <span class="k">raise</span>
-
-    <span class="c1"># Calculate gradient statistics and print sample gradients</span>
-    <span class="n">total_norm</span> <span class="o">=</span> <span class="mf">0.0</span>
-    <span class="n">param_count</span> <span class="o">=</span> <span class="mi">0</span>
-    <span class="n">grad_samples</span> <span class="o">=</span> <span class="p">{}</span>
-
-    <span class="k">for</span> <span class="n">name</span><span class="p">,</span> <span class="n">p</span> <span class="ow">in</span> <span class="n">model</span><span class="o">.</span><span class="n">named_parameters</span><span class="p">():</span>
-        <span class="k">if</span> <span class="n">p</span><span class="o">.</span><span class="n">grad</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">param_count</span> <span class="o">+=</span> <span class="mi">1</span>
-            <span class="n">grad_norm</span> <span class="o">=</span> <span class="n">p</span><span class="o">.</span><span class="n">grad</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">norm</span><span class="p">(</span><span class="mi">2</span><span class="p">)</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
-            <span class="n">total_norm</span> <span class="o">+=</span> <span class="n">grad_norm</span> <span class="o">**</span> <span class="mi">2</span>
-
-            <span class="c1"># Collect gradient statistics for key layers</span>
-            <span class="k">if</span> <span class="nb">any</span><span class="p">(</span><span class="n">key</span> <span class="ow">in</span> <span class="n">name</span> <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;embed&#39;</span><span class="p">,</span> <span class="s1">&#39;lm_head&#39;</span><span class="p">,</span> <span class="s1">&#39;mlp.up&#39;</span><span class="p">,</span> <span class="s1">&#39;mlp.down&#39;</span><span class="p">,</span> <span class="s1">&#39;self_attn.q_proj&#39;</span><span class="p">,</span> <span class="s1">&#39;norm&#39;</span><span class="p">]):</span>
-                <span class="n">grad_samples</span><span class="p">[</span><span class="n">name</span><span class="p">]</span> <span class="o">=</span> <span class="p">{</span>
-                    <span class="s1">&#39;norm&#39;</span><span class="p">:</span> <span class="n">grad_norm</span><span class="p">,</span>
-                    <span class="s1">&#39;mean&#39;</span><span class="p">:</span> <span class="n">p</span><span class="o">.</span><span class="n">grad</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">(),</span>
-                    <span class="s1">&#39;std&#39;</span><span class="p">:</span> <span class="n">p</span><span class="o">.</span><span class="n">grad</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">std</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">(),</span>
-                    <span class="s1">&#39;max&#39;</span><span class="p">:</span> <span class="n">p</span><span class="o">.</span><span class="n">grad</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">max</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">(),</span>
-                    <span class="s1">&#39;min&#39;</span><span class="p">:</span> <span class="n">p</span><span class="o">.</span><span class="n">grad</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">min</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">(),</span>
-                <span class="p">}</span>
-
-    <span class="n">total_norm</span> <span class="o">=</span> <span class="n">total_norm</span> <span class="o">**</span> <span class="mf">0.5</span>
-
-    <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">Gradient norm: </span><span class="si">{</span><span class="n">total_norm</span><span class="si">:</span><span class="s2">.4f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
-    <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Parameters with gradients: </span><span class="si">{</span><span class="n">param_count</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
-
-    <span class="c1"># Print sample gradients from important layers</span>
-    <span class="nb">print</span><span class="p">(</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">Sample gradient statistics:&quot;</span><span class="p">)</span>
-    <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="p">(</span><span class="n">name</span><span class="p">,</span> <span class="n">stats</span><span class="p">)</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="nb">list</span><span class="p">(</span><span class="n">grad_samples</span><span class="o">.</span><span class="n">items</span><span class="p">())[:</span><span class="mi">10</span><span class="p">]):</span>
-        <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;  </span><span class="si">{</span><span class="n">name</span><span class="p">[:</span><span class="mi">60</span><span class="p">]</span><span class="si">:</span><span class="s2">&lt;60</span><span class="si">}</span><span class="s2"> | norm: </span><span class="si">{</span><span class="n">stats</span><span class="p">[</span><span class="s1">&#39;norm&#39;</span><span class="p">]</span><span class="si">:</span><span class="s2">.4e</span><span class="si">}</span><span class="s2"> | mean: </span><span class="si">{</span><span class="n">stats</span><span class="p">[</span><span class="s1">&#39;mean&#39;</span><span class="p">]</span><span class="si">:</span><span class="s2">.4e</span><span class="si">}</span><span class="s2"> | std: </span><span class="si">{</span><span class="n">stats</span><span class="p">[</span><span class="s1">&#39;std&#39;</span><span class="p">]</span><span class="si">:</span><span class="s2">.4e</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
-
-    <span class="c1"># Optional: zero gradients for next iteration</span>
-    <span class="n">model</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">()</span>
-    <span class="n">model</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>  <span class="c1"># Switch back to eval mode</span>
-</pre></div>
-
-<div class="code-line-highlight" id="line-highlight-forward_and_backward"></div>
-</div>
-</div>
-</div>
-<div id="output-forward_and_backward" class="cell-output">
-<div class="cell-stdout">Pre-generation memory: {&#x27;allocated_gb&#x27;: 9.390148608, &#x27;peak_gb&#x27;: 9.390148608, &#x27;reserved_gb&#x27;: 17.177772032}
-&lt;|start|&gt;system&lt;|message|&gt;You are ChatGPT, a large language model trained by OpenAI.
-Knowledge cutoff: 2024-06
-Current date: 2025-09-24
-
-Reasoning: low
-
-# Valid channels: analysis, commentary, final. Channel must be included for every message.&lt;|end|&gt;&lt;|start|&gt;developer&lt;|message|&gt;# Instructions
-
-What is Tensor Parallelism?
-
-&lt;|end|&gt;&lt;|start|&gt;assistant&lt;|channel|&gt;analysis&lt;|message|&gt;We need to explain what Tensor Parallelism is. It&#x27;s a concept in distributed training of large language models. It refers to splitting the weight matrices (tensors) across multiple devices. Provide details: how it works, benefits, challenges, typical frameworks, etc. Also mention difference from data parallelism, pipeline parallelism. Provide example: splitting a weight matrix across GPUs, each GPU holds a slice, compute partial results, then gather. Provide mention of communication overhead, scaling, etc. Also mention that it&#x27;s used in large models like GPT-3, Megatron-LM, DeepSpeed. Provide references. Also mention that it&#x27;s
-Generation took 17.98 seconds
-Post-generation memory: {&#x27;allocated_gb&#x27;: 9.398670336, &#x27;peak_gb&#x27;: 9.67278848, &#x27;reserved_gb&#x27;: 17.188257792}
-Enabled gradient checkpointing
-Post-forward memory: {&#x27;allocated_gb&#x27;: 9.487933952, &#x27;peak_gb&#x27;: 9.67278848, &#x27;reserved_gb&#x27;: 17.188257792}
-Loss: 2.8572
-Running backward pass...
-Pre-backward memory: {&#x27;allocated_gb&#x27;: 9.405890048, &#x27;peak_gb&#x27;: 9.67278848, &#x27;reserved_gb&#x27;: 17.179869184}
-Post-backward memory: {&#x27;allocated_gb&#x27;: 18.801934336, &#x27;peak_gb&#x27;: 18.803661312, &#x27;reserved_gb&#x27;: 19.94391552}
-
-Gradient norm: 133.4979
-Parameters with gradients: 411
-
-Sample gradient statistics:
-  model.embed_tokens.weight                                    | norm: 3.9844e-01 | mean: 4.5657e-10 | std: 1.6570e-05
-  model.layers.0.self_attn.q_proj.weight                       | norm: 6.1875e+00 | mean: 2.9430e-07 | std: 1.8082e-03
-  model.layers.0.self_attn.q_proj.bias                         | norm: 1.6797e-01 | mean: -2.6584e-05 | std: 2.6245e-03
-  model.layers.0.input_layernorm.weight                        | norm: 6.4941e-02 | mean: 1.1826e-04 | std: 1.2054e-03
-  model.layers.0.post_attention_layernorm.weight               | norm: 1.1084e-01 | mean: -5.7220e-05 | std: 2.0599e-03
-  model.layers.1.self_attn.q_proj.weight                       | norm: 8.3125e+00 | mean: 1.3784e-06 | std: 2.4109e-03
-  model.layers.1.self_attn.q_proj.bias                         | norm: 2.0215e-01 | mean: 8.4877e-05 | std: 3.1586e-03
-  model.layers.1.input_layernorm.weight                        | norm: 6.6406e-02 | mean: 5.7697e-05 | std: 1.2436e-03
-  model.layers.1.post_attention_layernorm.weight               | norm: 8.7891e-02 | mean: -4.9770e-06 | std: 1.6403e-03
-  model.layers.2.self_attn.q_proj.weight                       | norm: 4.5312e+00 | mean: 3.9116e-07 | std: 1.3199e-03
-</div>
-<div class="uv-install-logs" id="uv-logs-forward_and_backward">
-<div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
-<div class="uv-logs-content" style="display: none;">
-Downloading cpython-3.13.7-linux-x86_64-gnu (download) (32.0MiB)
- Downloading cpython-3.13.7-linux-x86_64-gnu (download)
-   Updating https://github.com/huggingface/transformers.git (HEAD)
-    Updated https://github.com/huggingface/transformers.git (7258ea44bc0c0a425a468f66f8559d1de8c4126d)
-Downloading nvidia-nvjitlink-cu12 (37.4MiB)
-Downloading numpy (15.9MiB)
-Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
-Downloading hf-xet (3.0MiB)
-Downloading sympy (6.0MiB)
-Downloading jedi (1.5MiB)
-Downloading pygments (1.2MiB)
-   Building transformers @ git+https://github.com/huggingface/transformers.git@7258ea44bc0c0a425a468f66f8559d1de8c4126d
-Downloading fonttools (4.7MiB)
-Downloading nvidia-cusolver-cu12 (255.1MiB)
-Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
-Downloading networkx (1.9MiB)
-Downloading nvidia-cufile-cu12 (1.1MiB)
-Downloading nvidia-cusparselt-cu12 (273.9MiB)
-Downloading pillow (6.3MiB)
-Downloading nvidia-cufft-cu12 (184.2MiB)
-Downloading matplotlib (8.3MiB)
-Downloading nvidia-cusparse-cu12 (274.9MiB)
-Downloading nvidia-cublas-cu12 (566.8MiB)
-Downloading nvidia-nccl-cu12 (307.4MiB)
-Downloading kiwisolver (1.4MiB)
-Downloading torch (846.8MiB)
-Downloading nvidia-cudnn-cu12 (674.0MiB)
-Downloading nvidia-curand-cu12 (60.7MiB)
-Downloading tokenizers (3.1MiB)
-Downloading triton (148.4MiB)
- Downloading nvidia-cufile-cu12
- Downloading kiwisolver
- Downloading pygments
- Downloading hf-xet
- Downloading tokenizers
- Downloading networkx
- Downloading fonttools
- Downloading pillow
- Downloading matplotlib
- Downloading nvidia-cuda-cupti-cu12
- Downloading numpy
- Downloading sympy
- Downloading nvidia-nvjitlink-cu12
-      Built transformers @ git+https://github.com/huggingface/transformers.git@7258ea44bc0c0a425a468f66f8559d1de8c4126d
- Downloading jedi
- Downloading nvidia-curand-cu12
- Downloading nvidia-cuda-nvrtc-cu12
- Downloading triton
- Downloading nvidia-cufft-cu12
- Downloading nvidia-cusolver-cu12
- Downloading nvidia-cusparse-cu12
- Downloading nvidia-cusparselt-cu12
- Downloading nvidia-nccl-cu12
- Downloading nvidia-cublas-cu12
- Downloading nvidia-cudnn-cu12
- Downloading torch
-Installed 69 packages in 506ms
-</div>
-</div>
-<div class="cell-stderr">Fetching 3 files:   0%|          | 0/3 [00:00&lt;?, ?it/s]
-Fetching 3 files:  33%|███▎      | 1/3 [00:07&lt;00:15,  7.79s/it]
-Fetching 3 files:  67%|██████▋   | 2/3 [00:09&lt;00:04,  4.50s/it]
-Fetching 3 files: 100%|██████████| 3/3 [00:09&lt;00:00,  3.33s/it]
-You are using full precision kernels, we will dequantize the model to bf16. To use the quantized model with quantization kernels, please set use_kernels=False
-
-Loading checkpoint shards:   0%|          | 0/3 [00:00&lt;?, ?it/s]
-Loading checkpoint shards:  33%|███▎      | 1/3 [00:02&lt;00:04,  2.36s/it]
-Loading checkpoint shards:  67%|██████▋   | 2/3 [00:04&lt;00:02,  2.25s/it]
-Loading checkpoint shards: 100%|██████████| 3/3 [00:05&lt;00:00,  1.80s/it]
-Loading checkpoint shards: 100%|██████████| 3/3 [00:05&lt;00:00,  1.93s/it]
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-
-Fetching 66 files:   0%|          | 0/66 [00:00&lt;?, ?it/s]
-Fetching 66 files:   2%|▏         | 1/66 [00:00&lt;00:13,  4.68it/s]
-Fetching 66 files:  14%|█▎        | 9/66 [00:00&lt;00:02, 26.64it/s]
-Fetching 66 files:  21%|██        | 14/66 [00:00&lt;00:01, 33.33it/s]
-Fetching 66 files:  27%|██▋       | 18/66 [00:00&lt;00:02, 17.59it/s]
-Fetching 66 files:  53%|█████▎    | 35/66 [00:01&lt;00:00, 43.25it/s]
-Fetching 66 files:  64%|██████▎   | 42/66 [00:01&lt;00:00, 43.72it/s]
-Fetching 66 files:  74%|███████▍  | 49/66 [00:01&lt;00:00, 40.60it/s]
-Fetching 66 files:  85%|████████▍ | 56/66 [00:01&lt;00:00, 42.33it/s]
-Fetching 66 files:  95%|█████████▌| 63/66 [00:01&lt;00:00, 38.03it/s]
-Fetching 66 files: 100%|██████████| 66/66 [00:01&lt;00:00, 36.73it/s]
-/tmp/uvnote-run-n1rg0p87/home/.cache/uv/environments-v2/forward-and-backward-422cb4863433d14c/lib/python3.13/site-packages/kernels/layer.py:868: UserWarning: 
-No kernel mapping found for layer `None`. Check if the layer name matches one of the kernels in the mapping or add the kernel you want to use to the mapping. Defaulting to original forward implementation.
-  warnings.warn(
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-/tmp/uvnote-run-n1rg0p87/home/.cache/uv/environments-v2/forward-and-backward-422cb4863433d14c/lib/python3.13/site-packages/kernels/layer.py:868: UserWarning: 
-No kernel mapping found for layer `None`. Check if the layer name matches one of the kernels in the mapping or add the kernel you want to use to the mapping. Defaulting to original forward implementation.
-  warnings.warn(
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-/tmp/uvnote-run-n1rg0p87/home/.cache/uv/environments-v2/forward-and-backward-422cb4863433d14c/lib/python3.13/site-packages/kernels/layer.py:868: UserWarning: 
-No kernel mapping found for layer `None`. Check if the layer name matches one of the kernels in the mapping or add the kernel you want to use to the mapping. Defaulting to original forward implementation.
-  warnings.warn(
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`.
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-/tmp/uvnote-run-n1rg0p87/home/.cache/uv/environments-v2/forward-and-backward-422cb4863433d14c/lib/python3.13/site-packages/kernels/layer.py:868: UserWarning: 
-No kernel mapping found for layer `None`. Check if the layer name matches one of the kernels in the mapping or add the kernel you want to use to the mapping. Defaulting to original forward implementation.
-  warnings.warn(
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`</div>
-</div>
-</div>
     </div>
     
 </body>
diff --git a/megablocks_yamoe/artifacts/binned_run/binned_results.json b/megablocks_yamoe/artifacts/binned_run/binned_results.json
index a4e4c0731f536c52e285c99edd3185ef37e98b13..49926e5f4d3d436a6000cad487776ffd9a96d2d1 100644
--- a/megablocks_yamoe/artifacts/binned_run/binned_results.json
+++ b/megablocks_yamoe/artifacts/binned_run/binned_results.json
@@ -9,16 +9,16 @@
     "vary_inputs": true
   },
   "stats": {
-    "avg_ms": 35.832872119995045,
-    "min_ms": 32.58174399991276,
-    "max_ms": 40.50060700001268,
-    "std_ms": 1.694341573523051,
-    "p50_ms": 36.17695449997882,
-    "p95_ms": 38.67062735003515,
-    "p99_ms": 39.92923416996405,
+    "avg_ms": 36.21514258000616,
+    "min_ms": 33.172280000030696,
+    "max_ms": 38.75413800005845,
+    "std_ms": 1.401058294284512,
+    "p50_ms": 36.36444199997868,
+    "p95_ms": 38.060839599990004,
+    "p99_ms": 38.46422802999541,
     "num_iters": 50,
-    "tokens_per_s": 2790.733594145783,
-    "throughput_variance": 131.29596945634063
+    "tokens_per_s": 2761.275888368544,
+    "throughput_variance": 108.05444381816277
   },
   "output_sum": 3.97190523147583
 }
\ No newline at end of file
diff --git a/megablocks_yamoe/artifacts/gptoss_run/gptoss_results.json b/megablocks_yamoe/artifacts/gptoss_run/gptoss_results.json
index 101c20fcb795afdfc78ef8940e504921a2bf7c8e..edaf4617f923943ca9a2103f2fa71999e19b6d15 100644
--- a/megablocks_yamoe/artifacts/gptoss_run/gptoss_results.json
+++ b/megablocks_yamoe/artifacts/gptoss_run/gptoss_results.json
@@ -9,16 +9,16 @@
     "vary_inputs": true
   },
   "stats": {
-    "avg_ms": 46.790802699997585,
-    "min_ms": 39.03555299996242,
-    "max_ms": 50.85692799991648,
-    "std_ms": 3.250858562771192,
-    "p50_ms": 47.475618500016026,
-    "p95_ms": 50.805645549957035,
-    "p99_ms": 50.83896361993766,
+    "avg_ms": 45.94982444000152,
+    "min_ms": 40.76497799997014,
+    "max_ms": 52.299967999942965,
+    "std_ms": 3.623045351544196,
+    "p50_ms": 45.46925300002158,
+    "p95_ms": 51.35251775002985,
+    "p99_ms": 52.12179027996967,
     "num_iters": 50,
-    "tokens_per_s": 2137.172141310693,
-    "throughput_variance": 155.17201487457513
+    "tokens_per_s": 2176.286878540176,
+    "throughput_variance": 169.79505096491204
   },
   "output_sum": 11.53223705291748
 }
\ No newline at end of file
diff --git a/megablocks_yamoe/artifacts/gptoss_training_run/gptoss_training_results.json b/megablocks_yamoe/artifacts/gptoss_training_run/gptoss_training_results.json
index 9384ad5f488f085ae5d1cde64edcb323febefbe0..f74745aed60461d75f5ee1aeac43572b322daf9c 100644
--- a/megablocks_yamoe/artifacts/gptoss_training_run/gptoss_training_results.json
+++ b/megablocks_yamoe/artifacts/gptoss_training_run/gptoss_training_results.json
@@ -9,16 +9,16 @@
     "vary_inputs": true
   },
   "stats": {
-    "avg_ms": 45.006849599990346,
-    "min_ms": 38.83674200005771,
-    "max_ms": 49.30821800007834,
-    "std_ms": 2.893955494967115,
-    "p50_ms": 45.57549300000119,
-    "p95_ms": 48.57250854988706,
-    "p99_ms": 48.963614720073565,
+    "avg_ms": 46.09780513999567,
+    "min_ms": 38.8389360000474,
+    "max_ms": 49.40391599996019,
+    "std_ms": 2.4686999934552376,
+    "p50_ms": 47.23983950003685,
+    "p95_ms": 48.725092950002136,
+    "p99_ms": 49.16830440000467,
     "num_iters": 50,
-    "tokens_per_s": 2221.8840218494533,
-    "throughput_variance": 147.8630259637854
+    "tokens_per_s": 2169.300679203864,
+    "throughput_variance": 122.29861537972276
   },
   "output_sum": 11.53223705291748
 }
\ No newline at end of file
diff --git a/megablocks_yamoe/artifacts/yamoe_run/yamoe_results.json b/megablocks_yamoe/artifacts/yamoe_run/yamoe_results.json
index d6c03d4e6ae6a3547699c79a16b2ee37cef33f79..9543f10d9e058ca4b96af12070836fa2f9310e9a 100644
--- a/megablocks_yamoe/artifacts/yamoe_run/yamoe_results.json
+++ b/megablocks_yamoe/artifacts/yamoe_run/yamoe_results.json
@@ -9,16 +9,16 @@
     "vary_inputs": true
   },
   "stats": {
-    "avg_ms": 4.2496077999999216,
-    "min_ms": 4.143714000065302,
-    "max_ms": 4.276272000083736,
-    "std_ms": 0.02026809704303406,
-    "p50_ms": 4.251974999931463,
-    "p95_ms": 4.269103000035557,
-    "p99_ms": 4.276041210073345,
+    "avg_ms": 4.247618279998733,
+    "min_ms": 4.12893800000802,
+    "max_ms": 4.265831999987313,
+    "std_ms": 0.020712896658640616,
+    "p50_ms": 4.251555999985612,
+    "p95_ms": 4.263803499975438,
+    "p99_ms": 4.2652827100027935,
     "num_iters": 50,
-    "tokens_per_s": 23531.58331458302,
-    "throughput_variance": 113.86151920477748
+    "tokens_per_s": 23542.605151428495,
+    "throughput_variance": 117.11531020813602
   },
   "output_sum": 3.97190523147583
 }
\ No newline at end of file
diff --git a/megablocks_yamoe/cells/__pycache__/bench_utils.cpython-311.pyc b/megablocks_yamoe/cells/__pycache__/bench_utils.cpython-311.pyc
index eec9e9601a99a3d15f01fc20d8cbe2724a5d627e..34d6df2db85eaaebd46ac3646e079c431b9cd1b4 100644
Binary files a/megablocks_yamoe/cells/__pycache__/bench_utils.cpython-311.pyc and b/megablocks_yamoe/cells/__pycache__/bench_utils.cpython-311.pyc differ
diff --git a/megablocks_yamoe/cells/__pycache__/config.cpython-311.pyc b/megablocks_yamoe/cells/__pycache__/config.cpython-311.pyc
index b012c26d1499d5dd085a1b0b5c00bde4a540f854..0f8f3d94cd1a736cb0a10fd3ed1bb0eb35a9b550 100644
Binary files a/megablocks_yamoe/cells/__pycache__/config.cpython-311.pyc and b/megablocks_yamoe/cells/__pycache__/config.cpython-311.pyc differ
diff --git a/megablocks_yamoe/cells/megablocks_run.py b/megablocks_yamoe/cells/megablocks_run.py
index 69bbcafebbb02b67ad5a0f2581a3f2ffe40cb1eb..a18723cb66c892119c0a9e88d8c2a140a6354a00 100644
--- a/megablocks_yamoe/cells/megablocks_run.py
+++ b/megablocks_yamoe/cells/megablocks_run.py
@@ -56,7 +56,7 @@ def build_megablocks_model(device: torch.device):
     # Attach loaded expert weights to the experts container
     e = model.experts
     e.alpha = 1.702
-    e.capacity_factor = 64
+    e.capacity_factor = 32
     e.gate_up_proj = torch.nn.Parameter(gate_up_proj.clone().to(device))
     e.gate_up_proj_bias = torch.nn.Parameter(gate_up_proj_bias.clone().to(device))
     e.down_proj = torch.nn.Parameter(down_proj.clone().to(device))
diff --git a/megablocks_yamoe/megablocks_yamoe.html b/megablocks_yamoe/megablocks_yamoe.html
index 131bb9991b9bc741d1adb37fc48ff8d1f840e656..bf358d73ad0fce2c0970589ff0d451d8062bf02c 100644
--- a/megablocks_yamoe/megablocks_yamoe.html
+++ b/megablocks_yamoe/megablocks_yamoe.html
@@ -3722,7 +3722,7 @@ span.linenos.special { color: #000000; background-color: #ffffc0; padding-left:
 <span onclick="toggleOutput('nv')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-nv" style="cursor: default; opacity: 0.3;">▶ uv-logs</span>
 </span> | 
-Cell: nv | 0.53s
+Cell: nv | 0.55s
  | <button class="run-btn" onclick="runCell('nv')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('nv')">Copy</button>
 <a href="cells/nv.py" target="_blank" class="raw-btn">Raw</a>
@@ -3745,7 +3745,7 @@ Cell: nv | 0.53s
 </div>
 </div>
 <div id="output-nv" class="cell-output">
-<div class="cell-stdout">Wed Sep 24 21:05:30 2025       
+<div class="cell-stdout">Wed Sep 24 22:04:34 2025       
 +-----------------------------------------------------------------------------------------+
 | NVIDIA-SMI 570.172.08             Driver Version: 570.172.08     CUDA Version: 12.8     |
 |-----------------------------------------+------------------------+----------------------+
@@ -3754,19 +3754,19 @@ Cell: nv | 0.53s
 |                                         |                        |               MIG M. |
 |=========================================+========================+======================|
 |   0  NVIDIA A10G                    On  |   00000000:00:1B.0 Off |                    0 |
-|  0%   38C    P0             46W /  300W |       0MiB /  23028MiB |      0%      Default |
+|  0%   36C    P0             45W /  300W |       0MiB /  23028MiB |      0%      Default |
 |                                         |                        |                  N/A |
 +-----------------------------------------+------------------------+----------------------+
 |   1  NVIDIA A10G                    On  |   00000000:00:1C.0 Off |                    0 |
-|  0%   37C    P0             45W /  300W |       0MiB /  23028MiB |      0%      Default |
+|  0%   37C    P0             47W /  300W |       0MiB /  23028MiB |      0%      Default |
 |                                         |                        |                  N/A |
 +-----------------------------------------+------------------------+----------------------+
 |   2  NVIDIA A10G                    On  |   00000000:00:1D.0 Off |                    0 |
-|  0%   39C    P0             47W /  300W |       0MiB /  23028MiB |      0%      Default |
+|  0%   35C    P0             47W /  300W |       0MiB /  23028MiB |      0%      Default |
 |                                         |                        |                  N/A |
 +-----------------------------------------+------------------------+----------------------+
 |   3  NVIDIA A10G                    On  |   00000000:00:1E.0 Off |                    0 |
-|  0%   38C    P0             46W /  300W |       0MiB /  23028MiB |      0%      Default |
+|  0%   37C    P0             44W /  300W |       0MiB /  23028MiB |      0%      Default |
 |                                         |                        |                  N/A |
 +-----------------------------------------+------------------------+----------------------+
 
@@ -3792,7 +3792,7 @@ Cell: nv | 0.53s
 <span onclick="toggleOutput('setup2')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-setup2" onclick="toggleUvLogsFromHeader('setup2')" style="cursor: pointer;">▶ uv-logs</span>
 </span> | 
-Cell: setup2 | 113.64s
+Cell: setup2 | 114.03s
  | <button class="run-btn" onclick="runCell('setup2')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('setup2')">Copy</button>
 <a href="cells/setup2.py" target="_blank" class="raw-btn">Raw</a>
@@ -4050,7 +4050,7 @@ Reasoning: low
 What is Tensor Parallelism?
 
 &lt;|end|&gt;&lt;|start|&gt;assistant&lt;|channel|&gt;analysis&lt;|message|&gt;We need to explain what Tensor Parallelism is. It&#x27;s a concept in distributed training of large language models. It refers to splitting the weight matrices (tensors) across multiple devices. Provide details: how it works, benefits, challenges, typical frameworks, etc. Also mention difference from data parallelism, pipeline parallelism. Provide example: splitting a weight matrix across GPUs, each GPU holds a slice, compute partial results, then gather. Provide mention of communication overhead, scaling, etc. Also mention that it&#x27;s used in large models like GPT-3, Megatron-LM, DeepSpeed. Provide references. Also mention that it&#x27;s also called model parallelism. Provide explanation of how it works in practice: e.g., for a linear layer, weight matrix W of shape (out_features, in_features). In tensor parallelism, split W along out_features dimension across GPUs. Each GPU computes partial output. Then gather outputs. Provide details on how to handle bias, etc. Provide mention of &quot;tensor model parallelism&quot; vs &quot;tensor parallelism&quot; synonyms. Provide mention of &quot;tensor parallelism&quot; in Megatron-LM: splitting weight matrices across GPUs. Provide mention of &quot;tensor parallelism&quot; in DeepSpeed: &quot;ZeRO-Offload&quot; etc. Provide mention
-Generation took 31.35 seconds
+Generation took 31.36 seconds
 </div>
 <div class="uv-install-logs" id="uv-logs-setup2">
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
@@ -4059,31 +4059,31 @@ Downloading cpython-3.13.7-linux-x86_64-gnu (download) (32.0MiB)
  Downloading cpython-3.13.7-linux-x86_64-gnu (download)
    Updating https://github.com/huggingface/transformers.git (HEAD)
     Updated https://github.com/huggingface/transformers.git (7258ea44bc0c0a425a468f66f8559d1de8c4126d)
-Downloading sympy (6.0MiB)
+Downloading jedi (1.5MiB)
+Downloading pygments (1.2MiB)
    Building transformers @ git+https://github.com/huggingface/transformers.git@7258ea44bc0c0a425a468f66f8559d1de8c4126d
-Downloading hf-xet (3.0MiB)
-Downloading pillow (6.3MiB)
-Downloading nvidia-nvjitlink-cu12 (37.4MiB)
+Downloading matplotlib (8.3MiB)
 Downloading networkx (1.9MiB)
-Downloading pygments (1.2MiB)
-Downloading tokenizers (3.1MiB)
-Downloading nvidia-cusparselt-cu12 (273.9MiB)
+Downloading sympy (6.0MiB)
 Downloading nvidia-cublas-cu12 (566.8MiB)
+Downloading nvidia-nvjitlink-cu12 (37.4MiB)
+Downloading nvidia-nccl-cu12 (307.4MiB)
+Downloading hf-xet (3.0MiB)
+Downloading nvidia-cusparse-cu12 (274.9MiB)
+Downloading fonttools (4.7MiB)
 Downloading nvidia-cufile-cu12 (1.1MiB)
-Downloading jedi (1.5MiB)
-Downloading numpy (15.9MiB)
 Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
-Downloading nvidia-cudnn-cu12 (674.0MiB)
-Downloading nvidia-curand-cu12 (60.7MiB)
 Downloading triton (148.4MiB)
-Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
-Downloading nvidia-nccl-cu12 (307.4MiB)
 Downloading nvidia-cusolver-cu12 (255.1MiB)
-Downloading nvidia-cufft-cu12 (184.2MiB)
-Downloading matplotlib (8.3MiB)
-Downloading fonttools (4.7MiB)
-Downloading nvidia-cusparse-cu12 (274.9MiB)
+Downloading tokenizers (3.1MiB)
 Downloading kiwisolver (1.4MiB)
+Downloading nvidia-curand-cu12 (60.7MiB)
+Downloading pillow (6.3MiB)
+Downloading numpy (15.9MiB)
+Downloading nvidia-cufft-cu12 (184.2MiB)
+Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
+Downloading nvidia-cudnn-cu12 (674.0MiB)
+Downloading nvidia-cusparselt-cu12 (273.9MiB)
 Downloading torch (846.8MiB)
  Downloading nvidia-cufile-cu12
  Downloading kiwisolver
@@ -4105,38 +4105,36 @@ Downloading torch (846.8MiB)
  Downloading triton
  Downloading nvidia-cufft-cu12
  Downloading nvidia-cusolver-cu12
- Downloading nvidia-cusparse-cu12
  Downloading nvidia-cusparselt-cu12
+ Downloading nvidia-cusparse-cu12
  Downloading nvidia-nccl-cu12
  Downloading nvidia-cublas-cu12
  Downloading nvidia-cudnn-cu12
  Downloading torch
-Installed 69 packages in 550ms
+Installed 69 packages in 509ms
 </div>
 </div>
 <div class="cell-stderr">Fetching 3 files:   0%|          | 0/3 [00:00&lt;?, ?it/s]
-Fetching 3 files:  33%|███▎      | 1/3 [00:06&lt;00:12,  6.47s/it]
-Fetching 3 files:  67%|██████▋   | 2/3 [00:07&lt;00:03,  3.37s/it]
-Fetching 3 files: 100%|██████████| 3/3 [00:07&lt;00:00,  2.56s/it]
+Fetching 3 files:  33%|███▎      | 1/3 [00:06&lt;00:12,  6.49s/it]
+Fetching 3 files:  67%|██████▋   | 2/3 [00:07&lt;00:03,  3.44s/it]
+Fetching 3 files: 100%|██████████| 3/3 [00:07&lt;00:00,  2.60s/it]
 You are using full precision kernels, we will dequantize the model to bf16. To use the quantized model with quantization kernels, please set use_kernels=False
 
 Loading checkpoint shards:   0%|          | 0/3 [00:00&lt;?, ?it/s]
-Loading checkpoint shards:  33%|███▎      | 1/3 [00:02&lt;00:04,  2.34s/it]
+Loading checkpoint shards:  33%|███▎      | 1/3 [00:02&lt;00:04,  2.35s/it]
 Loading checkpoint shards:  67%|██████▋   | 2/3 [00:04&lt;00:02,  2.25s/it]
 Loading checkpoint shards: 100%|██████████| 3/3 [00:05&lt;00:00,  1.80s/it]
 Loading checkpoint shards: 100%|██████████| 3/3 [00:05&lt;00:00,  1.93s/it]
 INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
 
 Fetching 66 files:   0%|          | 0/66 [00:00&lt;?, ?it/s]
-Fetching 66 files:   2%|▏         | 1/66 [00:00&lt;00:16,  3.87it/s]
-Fetching 66 files:  14%|█▎        | 9/66 [00:00&lt;00:03, 18.15it/s]
-Fetching 66 files:  26%|██▌       | 17/66 [00:00&lt;00:02, 24.03it/s]
-Fetching 66 files:  56%|█████▌    | 37/66 [00:00&lt;00:00, 58.06it/s]
-Fetching 66 files:  71%|███████   | 47/66 [00:01&lt;00:00, 37.14it/s]
-Fetching 66 files:  85%|████████▍ | 56/66 [00:01&lt;00:00, 39.66it/s]
-Fetching 66 files:  98%|█████████▊| 65/66 [00:01&lt;00:00, 42.21it/s]
-Fetching 66 files: 100%|██████████| 66/66 [00:01&lt;00:00, 37.62it/s]
-/tmp/uvnote-run-e6cle3et/home/.cache/uv/environments-v2/setup2-adf2810b697d7b08/lib/python3.13/site-packages/kernels/layer.py:868: UserWarning: 
+Fetching 66 files:   2%|▏         | 1/66 [00:00&lt;00:10,  6.31it/s]
+Fetching 66 files:  14%|█▎        | 9/66 [00:00&lt;00:02, 26.39it/s]
+Fetching 66 files:  26%|██▌       | 17/66 [00:01&lt;00:03, 12.42it/s]
+Fetching 66 files:  74%|███████▍  | 49/66 [00:01&lt;00:00, 45.00it/s]
+Fetching 66 files:  91%|█████████ | 60/66 [00:01&lt;00:00, 45.67it/s]
+Fetching 66 files: 100%|██████████| 66/66 [00:01&lt;00:00, 34.31it/s]
+/tmp/uvnote-run-_uergc47/home/.cache/uv/environments-v2/setup2-adf2810b697d7b08/lib/python3.13/site-packages/kernels/layer.py:868: UserWarning: 
 No kernel mapping found for layer `None`. Check if the layer name matches one of the kernels in the mapping or add the kernel you want to use to the mapping. Defaulting to original forward implementation.
   warnings.warn(
 INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
@@ -4163,7 +4161,7 @@ INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks
 INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
 INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
 INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
-/tmp/uvnote-run-e6cle3et/home/.cache/uv/environments-v2/setup2-adf2810b697d7b08/lib/python3.13/site-packages/kernels/layer.py:868: UserWarning: 
+/tmp/uvnote-run-_uergc47/home/.cache/uv/environments-v2/setup2-adf2810b697d7b08/lib/python3.13/site-packages/kernels/layer.py:868: UserWarning: 
 No kernel mapping found for layer `None`. Check if the layer name matches one of the kernels in the mapping or add the kernel you want to use to the mapping. Defaulting to original forward implementation.
   warnings.warn(
 INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks` (revision: main) for layer `MegaBlocksMoeMLP`
@@ -4200,7 +4198,7 @@ INFO:root:Using layer `MegaBlocksMoeMLP` from repo `kernels-community/megablocks
 <span onclick="toggleOutput('setup')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-setup" onclick="toggleUvLogsFromHeader('setup')" style="cursor: pointer;">▶ uv-logs</span>
 </span> | 
-Cell: setup | 108.22s
+Cell: setup | 109.23s
  | <button class="run-btn" onclick="runCell('setup')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('setup')">Copy</button>
 <a href="cells/setup.py" target="_blank" class="raw-btn">Raw</a>
@@ -4459,12 +4457,8 @@ Reasoning: low
 
 What is Tensor Parallelism?
 
-&lt;|end|&gt;&lt;|start|&gt;assistant&lt;|channel|&gt;analysis&lt;|message|&gt;We need to explain what Tensor Parallelism is. It&#x27;s a concept in distributed training of large language models. It refers to splitting the weight matrices (tensors) across multiple devices. Provide details: how it works, benefits, challenges, typical frameworks, etc. Also mention difference from data parallelism, pipeline parallelism. Provide example: splitting a weight matrix across GPUs, each GPU holds a slice, compute partial results, then gather. Provide mention of Megatron-LM, DeepSpeed, etc. Also mention that it&#x27;s used for very large models that don&#x27;t fit in a single GPU. Provide explanation of how it reduces memory usage and increases throughput. Also mention that it can be combined with other parallelism strategies. Provide mention of communication overhead, scaling, etc. Provide references. Provide code snippet maybe. Provide final answer.&lt;|end|&gt;&lt;|start|&gt;assistant&lt;|channel|&gt;final&lt;|message|&gt;## Tensor Parallelism – A Quick Overview
-
-| **Aspect** | **What it is** | **Why it matters** |
-|------------|----------------|--------------------|
-| **Definition** | Splitting a *single* weight tensor (e.g., a large matrix in a transformer layer) across multiple devices so that each device holds only a *portion* of the tensor. | Allows training of models that are
-Generation took 26.28 seconds
+&lt;|end|&gt;&lt;|start|&gt;assistant&lt;|channel|&gt;analysis&lt;|message|&gt;We need to explain what Tensor Parallelism is. It&#x27;s a concept in distributed training of large language models. It refers to splitting the weight matrices (tensors) across multiple devices. Provide details: how it works, benefits, challenges, typical use cases, differences from data parallelism, pipeline parallelism, model parallelism. Provide example: splitting a fully connected layer&#x27;s weight matrix across GPUs. Provide mention of frameworks: Megatron-LM, DeepSpeed, etc. Provide explanation of how forward/backward passes are computed. Provide mention of communication overhead, scaling, etc. Provide mention of &quot;tensor parallelism&quot; as part of &quot;model parallelism&quot; but specifically splitting tensors. Provide mention of &quot;tensor parallelism&quot; in context of transformer layers: splitting attention heads, feed-forward layers. Provide mention of &quot;tensor parallelism&quot; in context of &quot;DeepSpeed ZeRO Stage 3&quot; or &quot;Megatron-LM&#x27;s tensor parallelism&quot;. Provide mention of &quot;tensor parallelism&quot; as &quot;model parallelism across the weight matrices&quot; and &quot;tensor parallelism&quot; vs &quot;pipeline parallelism&quot;. Provide mention of &quot;tensor parallelism&quot; as &quot;splitting the weight matrix across GPUs, each GPU holds a slice of the matrix, and the input is broadcasted,
+Generation took 26.26 seconds
 </div>
 <div class="uv-install-logs" id="uv-logs-setup">
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
@@ -4473,37 +4467,37 @@ Downloading cpython-3.13.7-linux-x86_64-gnu (download) (32.0MiB)
  Downloading cpython-3.13.7-linux-x86_64-gnu (download)
    Updating https://github.com/huggingface/transformers.git (HEAD)
     Updated https://github.com/huggingface/transformers.git (7258ea44bc0c0a425a468f66f8559d1de8c4126d)
-Downloading tokenizers (3.1MiB)
-Downloading nvidia-cufile-cu12 (1.1MiB)
-   Building transformers @ git+https://github.com/huggingface/transformers.git@7258ea44bc0c0a425a468f66f8559d1de8c4126d
-Downloading nvidia-curand-cu12 (60.7MiB)
-Downloading nvidia-cusparse-cu12 (274.9MiB)
-Downloading pygments (1.2MiB)
-Downloading sympy (6.0MiB)
 Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
+Downloading pillow (6.3MiB)
+   Building transformers @ git+https://github.com/huggingface/transformers.git@7258ea44bc0c0a425a468f66f8559d1de8c4126d
+Downloading nvidia-cublas-cu12 (566.8MiB)
 Downloading nvidia-nccl-cu12 (307.4MiB)
 Downloading nvidia-cusparselt-cu12 (273.9MiB)
-Downloading nvidia-nvjitlink-cu12 (37.4MiB)
+Downloading numpy (15.9MiB)
+Downloading hf-xet (3.0MiB)
+Downloading nvidia-curand-cu12 (60.7MiB)
 Downloading nvidia-cufft-cu12 (184.2MiB)
-Downloading networkx (1.9MiB)
+Downloading nvidia-cusolver-cu12 (255.1MiB)
+Downloading nvidia-cudnn-cu12 (674.0MiB)
+Downloading nvidia-cufile-cu12 (1.1MiB)
+Downloading pygments (1.2MiB)
+Downloading nvidia-nvjitlink-cu12 (37.4MiB)
+Downloading jedi (1.5MiB)
+Downloading sympy (6.0MiB)
 Downloading kiwisolver (1.4MiB)
-Downloading pillow (6.3MiB)
+Downloading matplotlib (8.3MiB)
+Downloading nvidia-cusparse-cu12 (274.9MiB)
+Downloading networkx (1.9MiB)
 Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
+Downloading tokenizers (3.1MiB)
 Downloading fonttools (4.7MiB)
-Downloading hf-xet (3.0MiB)
-Downloading numpy (15.9MiB)
-Downloading matplotlib (8.3MiB)
-Downloading nvidia-cudnn-cu12 (674.0MiB)
-Downloading nvidia-cusolver-cu12 (255.1MiB)
-Downloading jedi (1.5MiB)
-Downloading nvidia-cublas-cu12 (566.8MiB)
 Downloading triton (148.4MiB)
 Downloading torch (846.8MiB)
  Downloading nvidia-cufile-cu12
  Downloading kiwisolver
  Downloading pygments
- Downloading tokenizers
  Downloading hf-xet
+ Downloading tokenizers
  Downloading networkx
  Downloading fonttools
  Downloading pillow
@@ -4519,33 +4513,33 @@ Downloading torch (846.8MiB)
  Downloading triton
  Downloading nvidia-cufft-cu12
  Downloading nvidia-cusolver-cu12
- Downloading nvidia-cusparse-cu12
  Downloading nvidia-cusparselt-cu12
+ Downloading nvidia-cusparse-cu12
  Downloading nvidia-nccl-cu12
  Downloading nvidia-cublas-cu12
  Downloading nvidia-cudnn-cu12
  Downloading torch
-Installed 69 packages in 462ms
+Installed 69 packages in 464ms
 </div>
 </div>
 <div class="cell-stderr">Fetching 3 files:   0%|          | 0/3 [00:00&lt;?, ?it/s]
-Fetching 3 files:  33%|███▎      | 1/3 [00:07&lt;00:14,  7.36s/it]
-Fetching 3 files:  67%|██████▋   | 2/3 [00:08&lt;00:03,  3.69s/it]
-Fetching 3 files: 100%|██████████| 3/3 [00:08&lt;00:00,  2.83s/it]
+Fetching 3 files:  33%|███▎      | 1/3 [00:07&lt;00:14,  7.38s/it]
+Fetching 3 files:  67%|██████▋   | 2/3 [00:08&lt;00:03,  3.64s/it]
+Fetching 3 files: 100%|██████████| 3/3 [00:08&lt;00:00,  2.80s/it]
 You are using full precision kernels, we will dequantize the model to bf16. To use the quantized model with quantization kernels, please set use_kernels=False
 
 Loading checkpoint shards:   0%|          | 0/3 [00:00&lt;?, ?it/s]
-Loading checkpoint shards:  33%|███▎      | 1/3 [00:02&lt;00:04,  2.36s/it]
-Loading checkpoint shards:  67%|██████▋   | 2/3 [00:04&lt;00:02,  2.26s/it]
+Loading checkpoint shards:  33%|███▎      | 1/3 [00:02&lt;00:04,  2.34s/it]
+Loading checkpoint shards:  67%|██████▋   | 2/3 [00:04&lt;00:02,  2.25s/it]
 Loading checkpoint shards: 100%|██████████| 3/3 [00:05&lt;00:00,  1.80s/it]
-Loading checkpoint shards: 100%|██████████| 3/3 [00:05&lt;00:00,  1.94s/it]
+Loading checkpoint shards: 100%|██████████| 3/3 [00:05&lt;00:00,  1.93s/it]
 INFO:root:Using layer `Yamoe` from repo `drbh/yamoe` (revision: v0.3.0) for layer `Yamoe`
 
 Fetching 6 files:   0%|          | 0/6 [00:00&lt;?, ?it/s]
-Fetching 6 files:  17%|█▋        | 1/6 [00:00&lt;00:01,  2.82it/s]
-Fetching 6 files: 100%|██████████| 6/6 [00:00&lt;00:00, 11.61it/s]
-Fetching 6 files: 100%|██████████| 6/6 [00:00&lt;00:00, 10.04it/s]
-/tmp/uvnote-run-ga2bg_po/home/.cache/uv/environments-v2/setup-1400c3ff0fc01263/lib/python3.13/site-packages/kernels/layer.py:868: UserWarning: 
+Fetching 6 files:  17%|█▋        | 1/6 [00:00&lt;00:00,  5.44it/s]
+Fetching 6 files:  50%|█████     | 3/6 [00:00&lt;00:00,  6.96it/s]
+Fetching 6 files: 100%|██████████| 6/6 [00:00&lt;00:00, 13.54it/s]
+/tmp/uvnote-run-jc1wbhvj/home/.cache/uv/environments-v2/setup-1400c3ff0fc01263/lib/python3.13/site-packages/kernels/layer.py:868: UserWarning: 
 No kernel mapping found for layer `None`. Check if the layer name matches one of the kernels in the mapping or add the kernel you want to use to the mapping. Defaulting to original forward implementation.
   warnings.warn(
 INFO:root:Using layer `Yamoe` from repo `drbh/yamoe` (revision: v0.3.0) for layer `Yamoe`
@@ -4572,7 +4566,7 @@ INFO:root:Using layer `Yamoe` from repo `drbh/yamoe` (revision: v0.3.0) for laye
 INFO:root:Using layer `Yamoe` from repo `drbh/yamoe` (revision: v0.3.0) for layer `Yamoe`
 INFO:root:Using layer `Yamoe` from repo `drbh/yamoe` (revision: v0.3.0) for layer `Yamoe`
 INFO:root:Using layer `Yamoe` from repo `drbh/yamoe` (revision: v0.3.0) for layer `Yamoe`
-/tmp/uvnote-run-ga2bg_po/home/.cache/uv/environments-v2/setup-1400c3ff0fc01263/lib/python3.13/site-packages/kernels/layer.py:868: UserWarning: 
+/tmp/uvnote-run-jc1wbhvj/home/.cache/uv/environments-v2/setup-1400c3ff0fc01263/lib/python3.13/site-packages/kernels/layer.py:868: UserWarning: 
 No kernel mapping found for layer `None`. Check if the layer name matches one of the kernels in the mapping or add the kernel you want to use to the mapping. Defaulting to original forward implementation.
   warnings.warn(
 INFO:root:Using layer `Yamoe` from repo `drbh/yamoe` (revision: v0.3.0) for layer `Yamoe`
diff --git a/megablocks_yamoe/torch_profile.html b/megablocks_yamoe/torch_profile.html
index 7220ab92c97092ee2402538741cd161e487ee52b..daba7de4eeafe31e480a916baa8862ddfbca1192 100644
--- a/megablocks_yamoe/torch_profile.html
+++ b/megablocks_yamoe/torch_profile.html
@@ -3720,7 +3720,7 @@ span.linenos.special { color: #000000; background-color: #ffffc0; padding-left:
 <span onclick="toggleOutput('utils')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-utils" onclick="toggleUvLogsFromHeader('utils')" style="cursor: pointer;">▶ uv-logs</span>
 </span> | 
-Cell: utils | deps: torch, numpy | 34.25s
+Cell: utils | deps: torch, numpy | 35.29s
  | <button class="run-btn" onclick="runCell('utils')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('utils')">Copy</button>
 <a href="cells/utils.py" target="_blank" class="raw-btn">Raw</a>
@@ -3794,24 +3794,24 @@ Cell: utils | deps: torch, numpy | 34.25s
 <div class="uv-install-logs" id="uv-logs-utils">
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
 <div class="uv-logs-content" style="display: none;">
-Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
+Downloading networkx (1.9MiB)
 Downloading setuptools (1.1MiB)
-Downloading nvidia-cufft-cu12 (184.2MiB)
-Downloading nvidia-cusolver-cu12 (255.1MiB)
-Downloading nvidia-cufile-cu12 (1.1MiB)
-Downloading nvidia-cusparse-cu12 (274.9MiB)
 Downloading numpy (16.2MiB)
-Downloading nvidia-cudnn-cu12 (674.0MiB)
-Downloading nvidia-cublas-cu12 (566.8MiB)
+Downloading sympy (6.0MiB)
 Downloading nvidia-curand-cu12 (60.7MiB)
+Downloading nvidia-nvjitlink-cu12 (37.4MiB)
+Downloading nvidia-cusparse-cu12 (274.9MiB)
+Downloading nvidia-cusolver-cu12 (255.1MiB)
+Downloading nvidia-cudnn-cu12 (674.0MiB)
 Downloading nvidia-nccl-cu12 (307.4MiB)
+Downloading nvidia-cufile-cu12 (1.1MiB)
 Downloading nvidia-cusparselt-cu12 (273.9MiB)
-Downloading sympy (6.0MiB)
-Downloading nvidia-nvjitlink-cu12 (37.4MiB)
+Downloading nvidia-cublas-cu12 (566.8MiB)
+Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
+Downloading nvidia-cufft-cu12 (184.2MiB)
 Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
-Downloading triton (148.3MiB)
 Downloading torch (846.9MiB)
-Downloading networkx (1.9MiB)
+Downloading triton (148.3MiB)
  Downloading nvidia-cufile-cu12
  Downloading setuptools
  Downloading networkx
@@ -3824,13 +3824,13 @@ Downloading networkx (1.9MiB)
  Downloading triton
  Downloading nvidia-cufft-cu12
  Downloading nvidia-cusolver-cu12
- Downloading nvidia-cusparselt-cu12
  Downloading nvidia-cusparse-cu12
+ Downloading nvidia-cusparselt-cu12
  Downloading nvidia-nccl-cu12
  Downloading nvidia-cublas-cu12
  Downloading nvidia-cudnn-cu12
  Downloading torch
-Installed 26 packages in 446ms
+Installed 26 packages in 455ms
 </div>
 </div>
 </div>
@@ -3843,7 +3843,7 @@ Installed 26 packages in 446ms
 <span onclick="toggleOutput('bench_utils')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-bench_utils" onclick="toggleUvLogsFromHeader('bench_utils')" style="cursor: pointer;">▶ uv-logs</span>
 </span> | 
-Cell: bench_utils | deps: torch, numpy | 35.45s
+Cell: bench_utils | deps: torch, numpy | 34.44s
  | <button class="run-btn" onclick="runCell('bench_utils')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('bench_utils')">Copy</button>
 <a href="cells/bench_utils.py" target="_blank" class="raw-btn">Raw</a>
@@ -4331,24 +4331,24 @@ Cell: bench_utils | deps: torch, numpy | 35.45s
 <div class="uv-install-logs" id="uv-logs-bench_utils">
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
 <div class="uv-logs-content" style="display: none;">
-Downloading numpy (16.2MiB)
-Downloading torch (846.9MiB)
-Downloading triton (148.3MiB)
-Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
-Downloading nvidia-curand-cu12 (60.7MiB)
 Downloading setuptools (1.1MiB)
-Downloading nvidia-cufft-cu12 (184.2MiB)
-Downloading nvidia-cufile-cu12 (1.1MiB)
-Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
+Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
+Downloading nvidia-cublas-cu12 (566.8MiB)
+Downloading nvidia-cudnn-cu12 (674.0MiB)
 Downloading nvidia-nvjitlink-cu12 (37.4MiB)
-Downloading nvidia-nccl-cu12 (307.4MiB)
+Downloading nvidia-cufile-cu12 (1.1MiB)
 Downloading sympy (6.0MiB)
-Downloading networkx (1.9MiB)
-Downloading nvidia-cudnn-cu12 (674.0MiB)
-Downloading nvidia-cusolver-cu12 (255.1MiB)
 Downloading nvidia-cusparse-cu12 (274.9MiB)
 Downloading nvidia-cusparselt-cu12 (273.9MiB)
-Downloading nvidia-cublas-cu12 (566.8MiB)
+Downloading triton (148.3MiB)
+Downloading nvidia-curand-cu12 (60.7MiB)
+Downloading torch (846.9MiB)
+Downloading networkx (1.9MiB)
+Downloading nvidia-cusolver-cu12 (255.1MiB)
+Downloading nvidia-cufft-cu12 (184.2MiB)
+Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
+Downloading numpy (16.2MiB)
+Downloading nvidia-nccl-cu12 (307.4MiB)
  Downloading nvidia-cufile-cu12
  Downloading setuptools
  Downloading networkx
@@ -4367,7 +4367,7 @@ Downloading nvidia-cublas-cu12 (566.8MiB)
  Downloading nvidia-cublas-cu12
  Downloading nvidia-cudnn-cu12
  Downloading torch
-Installed 26 packages in 445ms
+Installed 26 packages in 447ms
 </div>
 </div>
 </div>
@@ -4381,7 +4381,7 @@ Installed 26 packages in 445ms
 <span onclick="toggleOutput('config')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-config" onclick="toggleUvLogsFromHeader('config')" style="cursor: pointer;">▶ uv-logs</span>
 </span> | 
-Cell: config | deps: torch, numpy | 34.31s
+Cell: config | deps: torch, numpy | 34.69s
  | <button class="run-btn" onclick="runCell('config')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('config')">Copy</button>
 <a href="cells/config.py" target="_blank" class="raw-btn">Raw</a>
@@ -4441,24 +4441,24 @@ Cell: config | deps: torch, numpy | 34.31s
 <div class="uv-install-logs" id="uv-logs-config">
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
 <div class="uv-logs-content" style="display: none;">
-Downloading sympy (6.0MiB)
-Downloading nvidia-cufile-cu12 (1.1MiB)
-Downloading nvidia-nccl-cu12 (307.4MiB)
-Downloading nvidia-cudnn-cu12 (674.0MiB)
-Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
-Downloading nvidia-cusparselt-cu12 (273.9MiB)
-Downloading torch (846.9MiB)
-Downloading networkx (1.9MiB)
+Downloading numpy (16.2MiB)
 Downloading nvidia-cufft-cu12 (184.2MiB)
+Downloading nvidia-cusolver-cu12 (255.1MiB)
+Downloading torch (846.9MiB)
+Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
 Downloading setuptools (1.1MiB)
-Downloading nvidia-curand-cu12 (60.7MiB)
-Downloading nvidia-cublas-cu12 (566.8MiB)
+Downloading triton (148.3MiB)
+Downloading nvidia-cusparse-cu12 (274.9MiB)
+Downloading networkx (1.9MiB)
+Downloading nvidia-cusparselt-cu12 (273.9MiB)
+Downloading nvidia-nccl-cu12 (307.4MiB)
 Downloading nvidia-nvjitlink-cu12 (37.4MiB)
+Downloading sympy (6.0MiB)
+Downloading nvidia-cudnn-cu12 (674.0MiB)
+Downloading nvidia-curand-cu12 (60.7MiB)
 Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
-Downloading nvidia-cusparse-cu12 (274.9MiB)
-Downloading numpy (16.2MiB)
-Downloading triton (148.3MiB)
-Downloading nvidia-cusolver-cu12 (255.1MiB)
+Downloading nvidia-cufile-cu12 (1.1MiB)
+Downloading nvidia-cublas-cu12 (566.8MiB)
  Downloading nvidia-cufile-cu12
  Downloading setuptools
  Downloading networkx
@@ -4471,13 +4471,13 @@ Downloading nvidia-cusolver-cu12 (255.1MiB)
  Downloading triton
  Downloading nvidia-cufft-cu12
  Downloading nvidia-cusolver-cu12
- Downloading nvidia-cusparse-cu12
  Downloading nvidia-cusparselt-cu12
+ Downloading nvidia-cusparse-cu12
  Downloading nvidia-nccl-cu12
  Downloading nvidia-cublas-cu12
  Downloading nvidia-cudnn-cu12
  Downloading torch
-Installed 26 packages in 450ms
+Installed 26 packages in 526ms
 </div>
 </div>
 </div>
@@ -4490,7 +4490,7 @@ Installed 26 packages in 450ms
 <span onclick="toggleOutput('save_data')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-save_data" onclick="toggleUvLogsFromHeader('save_data')" style="cursor: pointer;">▶ uv-logs</span>
 </span> | 
-Cell: save_data | deps: torch, numpy | 39.54s
+Cell: save_data | deps: torch, numpy | 40.40s
  | <button class="run-btn" onclick="runCell('save_data')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('save_data')">Copy</button>
 <a href="cells/save_data.py" target="_blank" class="raw-btn">Raw</a>
@@ -4585,24 +4585,24 @@ Down sum: 206.729263
 <div class="uv-install-logs" id="uv-logs-save_data">
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
 <div class="uv-logs-content" style="display: none;">
+Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
+Downloading nvidia-nccl-cu12 (307.4MiB)
+Downloading nvidia-cusparse-cu12 (274.9MiB)
 Downloading nvidia-cusparselt-cu12 (273.9MiB)
-Downloading nvidia-nvjitlink-cu12 (37.4MiB)
-Downloading numpy (16.2MiB)
 Downloading setuptools (1.1MiB)
-Downloading nvidia-cublas-cu12 (566.8MiB)
 Downloading nvidia-cudnn-cu12 (674.0MiB)
+Downloading numpy (16.2MiB)
+Downloading triton (148.3MiB)
+Downloading networkx (1.9MiB)
+Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
 Downloading nvidia-curand-cu12 (60.7MiB)
-Downloading nvidia-cusparse-cu12 (274.9MiB)
-Downloading nvidia-nccl-cu12 (307.4MiB)
-Downloading nvidia-cufft-cu12 (184.2MiB)
-Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
 Downloading nvidia-cufile-cu12 (1.1MiB)
-Downloading nvidia-cusolver-cu12 (255.1MiB)
-Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
+Downloading nvidia-cufft-cu12 (184.2MiB)
 Downloading sympy (6.0MiB)
 Downloading torch (846.9MiB)
-Downloading networkx (1.9MiB)
-Downloading triton (148.3MiB)
+Downloading nvidia-cublas-cu12 (566.8MiB)
+Downloading nvidia-cusolver-cu12 (255.1MiB)
+Downloading nvidia-nvjitlink-cu12 (37.4MiB)
  Downloading nvidia-cufile-cu12
  Downloading setuptools
  Downloading networkx
@@ -4621,16 +4621,16 @@ Downloading triton (148.3MiB)
  Downloading nvidia-cublas-cu12
  Downloading nvidia-cudnn-cu12
  Downloading torch
-Installed 26 packages in 446ms
+Installed 26 packages in 563ms
 </div>
 </div>
 <div class="cell-artifacts">
 <h4>Artifacts:</h4>
-<a href="artifacts/save_data/gate_up_proj_bias.pt" class="artifact" target="_blank">gate_up_proj_bias.pt</a>
 <a href="artifacts/save_data/down_proj_bias.pt" class="artifact" target="_blank">down_proj_bias.pt</a>
 <a href="artifacts/save_data/down_proj.pt" class="artifact" target="_blank">down_proj.pt</a>
 <a href="artifacts/save_data/router_weight.pt" class="artifact" target="_blank">router_weight.pt</a>
 <a href="artifacts/save_data/router_bias.pt" class="artifact" target="_blank">router_bias.pt</a>
+<a href="artifacts/save_data/gate_up_proj_bias.pt" class="artifact" target="_blank">gate_up_proj_bias.pt</a>
 <a href="artifacts/save_data/gate_up_proj.pt" class="artifact" target="_blank">gate_up_proj.pt</a>
 </div>
 </div>
@@ -4645,7 +4645,7 @@ Installed 26 packages in 446ms
 <span onclick="toggleOutput('yamoe_run')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-yamoe_run" onclick="toggleUvLogsFromHeader('yamoe_run')" style="cursor: pointer;">▶ uv-logs</span>
 </span> | 
-Cell: yamoe_run | deps: torch, kernels, numpy | 39.10s
+Cell: yamoe_run | deps: torch, kernels, numpy | 38.77s
  | <button class="run-btn" onclick="runCell('yamoe_run')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('yamoe_run')">Copy</button>
 <a href="cells/yamoe_run.py" target="_blank" class="raw-btn">Raw</a>
@@ -4938,10 +4938,10 @@ Input Variation: +0.001 * iteration (deterministic)
 
 Warming up (10 iterations)...
 Benchmarking (50 iterations)...
-  Progress: 20% complete (avg: 4.251 ms)
-  Progress: 40% complete (avg: 4.248 ms)
-  Progress: 60% complete (avg: 4.248 ms)
-  Progress: 80% complete (avg: 4.249 ms)
+  Progress: 20% complete (avg: 4.248 ms)
+  Progress: 40% complete (avg: 4.246 ms)
+  Progress: 60% complete (avg: 4.247 ms)
+  Progress: 80% complete (avg: 4.247 ms)
 
 Output tensors:
   Primary: shape=(1, 100, 1152), dtype=torch.float32, device=cuda:0, range=[-0.049506, 0.054984], mean=0.000034, std=0.006508, norm=2.208791
@@ -4951,19 +4951,19 @@ Output tensors:
 Iterations: 50
 
 Latency Statistics:
-  Average: 4.250 ms
-  Min:     4.144 ms
-  Max:     4.276 ms
-  Std Dev: 0.020 ms
+  Average: 4.248 ms
+  Min:     4.129 ms
+  Max:     4.266 ms
+  Std Dev: 0.021 ms
 
 Percentiles:
   P50 (median): 4.252 ms
-  P95:          4.269 ms
-  P99:          4.276 ms
+  P95:          4.264 ms
+  P99:          4.265 ms
 
 Throughput:
-  Tokens/sec: 23531.6
-  Std Dev:    113.9
+  Tokens/sec: 23542.6
+  Std Dev:    117.1
 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
 
 Saved benchmark results to yamoe_results.json
@@ -4973,25 +4973,25 @@ Output sum: 3.971905
 <div class="uv-install-logs" id="uv-logs-yamoe_run">
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
 <div class="uv-logs-content" style="display: none;">
-Downloading hf-xet (3.0MiB)
-Downloading nvidia-nccl-cu12 (307.4MiB)
 Downloading networkx (1.9MiB)
-Downloading nvidia-cufft-cu12 (184.2MiB)
-Downloading nvidia-cusparselt-cu12 (273.9MiB)
+Downloading sympy (6.0MiB)
 Downloading setuptools (1.1MiB)
-Downloading nvidia-cudnn-cu12 (674.0MiB)
+Downloading nvidia-nccl-cu12 (307.4MiB)
+Downloading hf-xet (3.0MiB)
 Downloading nvidia-cufile-cu12 (1.1MiB)
+Downloading triton (148.3MiB)
+Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
+Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
 Downloading nvidia-cusolver-cu12 (255.1MiB)
-Downloading numpy (16.2MiB)
+Downloading nvidia-cusparse-cu12 (274.9MiB)
+Downloading nvidia-cudnn-cu12 (674.0MiB)
+Downloading nvidia-cufft-cu12 (184.2MiB)
 Downloading torch (846.9MiB)
-Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
-Downloading sympy (6.0MiB)
 Downloading nvidia-curand-cu12 (60.7MiB)
-Downloading nvidia-cublas-cu12 (566.8MiB)
 Downloading nvidia-nvjitlink-cu12 (37.4MiB)
-Downloading triton (148.3MiB)
-Downloading nvidia-cusparse-cu12 (274.9MiB)
-Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
+Downloading nvidia-cusparselt-cu12 (273.9MiB)
+Downloading nvidia-cublas-cu12 (566.8MiB)
+Downloading numpy (16.2MiB)
  Downloading nvidia-cufile-cu12
  Downloading hf-xet
  Downloading setuptools
@@ -5011,13 +5011,14 @@ Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
  Downloading nvidia-cublas-cu12
  Downloading nvidia-cudnn-cu12
  Downloading torch
-Installed 37 packages in 454ms
+Installed 37 packages in 449ms
 </div>
 </div>
 <div class="cell-stderr">Fetching 6 files:   0%|          | 0/6 [00:00&lt;?, ?it/s]
-Fetching 6 files:  17%|█▋        | 1/6 [00:00&lt;00:01,  3.47it/s]
-Fetching 6 files:  50%|█████     | 3/6 [00:00&lt;00:00,  4.22it/s]
-Fetching 6 files: 100%|██████████| 6/6 [00:00&lt;00:00,  8.26it/s]</div>
+Fetching 6 files:  17%|█▋        | 1/6 [00:00&lt;00:00,  5.90it/s]
+Fetching 6 files:  33%|███▎      | 2/6 [00:00&lt;00:00,  7.70it/s]
+Fetching 6 files:  50%|█████     | 3/6 [00:00&lt;00:00,  4.70it/s]
+Fetching 6 files: 100%|██████████| 6/6 [00:00&lt;00:00, 10.28it/s]</div>
 <div class="cell-artifacts">
 <h4>Artifacts:</h4>
 <a href="artifacts/yamoe_run/yamoe_results.json" class="artifact" target="_blank">yamoe_results.json</a>
@@ -5034,7 +5035,7 @@ Fetching 6 files: 100%|██████████| 6/6 [00:00&lt;00:00,  8.2
 <span onclick="toggleOutput('binned_run')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-binned_run" onclick="toggleUvLogsFromHeader('binned_run')" style="cursor: pointer;">▶ uv-logs</span>
 </span> | 
-Cell: binned_run | deps: torch, numpy | 39.44s
+Cell: binned_run | deps: torch, numpy | 38.76s
  | <button class="run-btn" onclick="runCell('binned_run')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('binned_run')">Copy</button>
 <a href="cells/binned_run.py" target="_blank" class="raw-btn">Raw</a>
@@ -5448,10 +5449,10 @@ Input Variation: +0.001 * iteration (deterministic)
 
 Warming up (10 iterations)...
 Benchmarking (50 iterations)...
-  Progress: 20% complete (avg: 37.889 ms)
-  Progress: 40% complete (avg: 37.238 ms)
-  Progress: 60% complete (avg: 36.997 ms)
-  Progress: 80% complete (avg: 36.387 ms)
+  Progress: 20% complete (avg: 37.794 ms)
+  Progress: 40% complete (avg: 37.656 ms)
+  Progress: 60% complete (avg: 37.188 ms)
+  Progress: 80% complete (avg: 36.704 ms)
 
 Output tensors:
   Primary: shape=(1, 100, 1152), dtype=torch.float32, device=cuda:0, range=[-0.049506, 0.054984], mean=0.000034, std=0.006508, norm=2.208791
@@ -5461,19 +5462,19 @@ Output tensors:
 Iterations: 50
 
 Latency Statistics:
-  Average: 35.833 ms
-  Min:     32.582 ms
-  Max:     40.501 ms
-  Std Dev: 1.694 ms
+  Average: 36.215 ms
+  Min:     33.172 ms
+  Max:     38.754 ms
+  Std Dev: 1.401 ms
 
 Percentiles:
-  P50 (median): 36.177 ms
-  P95:          38.671 ms
-  P99:          39.929 ms
+  P50 (median): 36.364 ms
+  P95:          38.061 ms
+  P99:          38.464 ms
 
 Throughput:
-  Tokens/sec: 2790.7
-  Std Dev:    131.3
+  Tokens/sec: 2761.3
+  Std Dev:    108.1
 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
 
 Saved benchmark results to binned_results.json
@@ -5483,24 +5484,24 @@ Output sum: 3.971905
 <div class="uv-install-logs" id="uv-logs-binned_run">
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
 <div class="uv-logs-content" style="display: none;">
-Downloading nvidia-nvjitlink-cu12 (37.4MiB)
-Downloading sympy (6.0MiB)
-Downloading nvidia-cufile-cu12 (1.1MiB)
-Downloading setuptools (1.1MiB)
-Downloading numpy (16.2MiB)
 Downloading networkx (1.9MiB)
-Downloading nvidia-cudnn-cu12 (674.0MiB)
+Downloading numpy (16.2MiB)
+Downloading setuptools (1.1MiB)
 Downloading nvidia-cusparselt-cu12 (273.9MiB)
-Downloading nvidia-cublas-cu12 (566.8MiB)
-Downloading nvidia-cusparse-cu12 (274.9MiB)
-Downloading nvidia-cusolver-cu12 (255.1MiB)
-Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
 Downloading nvidia-cufft-cu12 (184.2MiB)
-Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
-Downloading nvidia-nccl-cu12 (307.4MiB)
+Downloading nvidia-cudnn-cu12 (674.0MiB)
+Downloading nvidia-cufile-cu12 (1.1MiB)
 Downloading nvidia-curand-cu12 (60.7MiB)
-Downloading torch (846.9MiB)
+Downloading nvidia-nccl-cu12 (307.4MiB)
+Downloading nvidia-nvjitlink-cu12 (37.4MiB)
+Downloading nvidia-cublas-cu12 (566.8MiB)
 Downloading triton (148.3MiB)
+Downloading nvidia-cusparse-cu12 (274.9MiB)
+Downloading torch (846.9MiB)
+Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
+Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
+Downloading sympy (6.0MiB)
+Downloading nvidia-cusolver-cu12 (255.1MiB)
  Downloading nvidia-cufile-cu12
  Downloading setuptools
  Downloading networkx
@@ -5513,13 +5514,13 @@ Downloading triton (148.3MiB)
  Downloading triton
  Downloading nvidia-cufft-cu12
  Downloading nvidia-cusolver-cu12
- Downloading nvidia-cusparselt-cu12
  Downloading nvidia-cusparse-cu12
+ Downloading nvidia-cusparselt-cu12
  Downloading nvidia-nccl-cu12
  Downloading nvidia-cublas-cu12
  Downloading nvidia-cudnn-cu12
  Downloading torch
-Installed 26 packages in 446ms
+Installed 26 packages in 455ms
 </div>
 </div>
 <div class="cell-artifacts">
@@ -5538,7 +5539,7 @@ Installed 26 packages in 446ms
 <span onclick="toggleOutput('gptoss_run')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-gptoss_run" onclick="toggleUvLogsFromHeader('gptoss_run')" style="cursor: pointer;">▶ uv-logs</span>
 </span> | 
-Cell: gptoss_run | deps: torch, numpy | 40.46s
+Cell: gptoss_run | deps: torch, numpy | 39.76s
  | <button class="run-btn" onclick="runCell('gptoss_run')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('gptoss_run')">Copy</button>
 <a href="cells/gptoss_run.py" target="_blank" class="raw-btn">Raw</a>
@@ -5856,10 +5857,10 @@ Input Variation: +0.001 * iteration (deterministic)
 
 Warming up (10 iterations)...
 Benchmarking (50 iterations)...
-  Progress: 20% complete (avg: 50.504 ms)
-  Progress: 40% complete (avg: 50.045 ms)
-  Progress: 60% complete (avg: 49.107 ms)
-  Progress: 80% complete (avg: 48.012 ms)
+  Progress: 20% complete (avg: 51.012 ms)
+  Progress: 40% complete (avg: 49.954 ms)
+  Progress: 60% complete (avg: 48.390 ms)
+  Progress: 80% complete (avg: 46.993 ms)
 
 Output tensors:
   Primary: shape=(1, 100, 1152), dtype=torch.float32, device=cuda:0, range=[-0.064982, 0.061193], mean=0.000100, std=0.013510, norm=4.585560
@@ -5869,19 +5870,19 @@ Output tensors:
 Iterations: 50
 
 Latency Statistics:
-  Average: 46.791 ms
-  Min:     39.036 ms
-  Max:     50.857 ms
-  Std Dev: 3.251 ms
+  Average: 45.950 ms
+  Min:     40.765 ms
+  Max:     52.300 ms
+  Std Dev: 3.623 ms
 
 Percentiles:
-  P50 (median): 47.476 ms
-  P95:          50.806 ms
-  P99:          50.839 ms
+  P50 (median): 45.469 ms
+  P95:          51.353 ms
+  P99:          52.122 ms
 
 Throughput:
-  Tokens/sec: 2137.2
-  Std Dev:    155.2
+  Tokens/sec: 2176.3
+  Std Dev:    169.8
 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
 
 Saved benchmark results to gptoss_results.json
@@ -5891,23 +5892,23 @@ Output sum: 11.532237
 <div class="uv-install-logs" id="uv-logs-gptoss_run">
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
 <div class="uv-logs-content" style="display: none;">
+Downloading numpy (16.2MiB)
+Downloading networkx (1.9MiB)
+Downloading nvidia-cusparse-cu12 (274.9MiB)
 Downloading setuptools (1.1MiB)
-Downloading nvidia-cusparselt-cu12 (273.9MiB)
+Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
 Downloading nvidia-curand-cu12 (60.7MiB)
-Downloading numpy (16.2MiB)
 Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
-Downloading sympy (6.0MiB)
-Downloading torch (846.9MiB)
 Downloading nvidia-nccl-cu12 (307.4MiB)
+Downloading nvidia-cusparselt-cu12 (273.9MiB)
 Downloading nvidia-nvjitlink-cu12 (37.4MiB)
-Downloading nvidia-cusolver-cu12 (255.1MiB)
-Downloading nvidia-cudnn-cu12 (674.0MiB)
-Downloading nvidia-cufft-cu12 (184.2MiB)
-Downloading networkx (1.9MiB)
 Downloading nvidia-cufile-cu12 (1.1MiB)
+Downloading nvidia-cufft-cu12 (184.2MiB)
 Downloading triton (148.3MiB)
-Downloading nvidia-cusparse-cu12 (274.9MiB)
-Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
+Downloading nvidia-cusolver-cu12 (255.1MiB)
+Downloading nvidia-cudnn-cu12 (674.0MiB)
+Downloading torch (846.9MiB)
+Downloading sympy (6.0MiB)
 Downloading nvidia-cublas-cu12 (566.8MiB)
  Downloading nvidia-cufile-cu12
  Downloading setuptools
@@ -5921,13 +5922,13 @@ Downloading nvidia-cublas-cu12 (566.8MiB)
  Downloading triton
  Downloading nvidia-cufft-cu12
  Downloading nvidia-cusolver-cu12
- Downloading nvidia-cusparselt-cu12
  Downloading nvidia-cusparse-cu12
+ Downloading nvidia-cusparselt-cu12
  Downloading nvidia-nccl-cu12
  Downloading nvidia-cublas-cu12
  Downloading nvidia-cudnn-cu12
  Downloading torch
-Installed 26 packages in 442ms
+Installed 26 packages in 524ms
 </div>
 </div>
 <div class="cell-artifacts">
@@ -5946,7 +5947,7 @@ Installed 26 packages in 442ms
 <span onclick="toggleOutput('gptoss_training_run')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-gptoss_training_run" onclick="toggleUvLogsFromHeader('gptoss_training_run')" style="cursor: pointer;">▶ uv-logs</span>
 </span> | 
-Cell: gptoss_training_run | deps: torch, numpy | 39.65s
+Cell: gptoss_training_run | deps: torch, numpy | 40.42s
  | <button class="run-btn" onclick="runCell('gptoss_training_run')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('gptoss_training_run')">Copy</button>
 <a href="cells/gptoss_training_run.py" target="_blank" class="raw-btn">Raw</a>
@@ -6247,10 +6248,10 @@ Input Variation: +0.001 * iteration (deterministic)
 
 Warming up (10 iterations)...
 Benchmarking (50 iterations)...
-  Progress: 20% complete (avg: 48.334 ms)
-  Progress: 40% complete (avg: 47.917 ms)
-  Progress: 60% complete (avg: 47.077 ms)
-  Progress: 80% complete (avg: 46.038 ms)
+  Progress: 20% complete (avg: 48.387 ms)
+  Progress: 40% complete (avg: 48.249 ms)
+  Progress: 60% complete (avg: 47.887 ms)
+  Progress: 80% complete (avg: 47.011 ms)
 
 Output tensors:
   Primary: shape=(1, 100, 1152), dtype=torch.float32, device=cuda:0, range=[-0.064982, 0.061193], mean=0.000100, std=0.013510, norm=4.585560
@@ -6260,19 +6261,19 @@ Output tensors:
 Iterations: 50
 
 Latency Statistics:
-  Average: 45.007 ms
-  Min:     38.837 ms
-  Max:     49.308 ms
-  Std Dev: 2.894 ms
+  Average: 46.098 ms
+  Min:     38.839 ms
+  Max:     49.404 ms
+  Std Dev: 2.469 ms
 
 Percentiles:
-  P50 (median): 45.575 ms
-  P95:          48.573 ms
-  P99:          48.964 ms
+  P50 (median): 47.240 ms
+  P95:          48.725 ms
+  P99:          49.168 ms
 
 Throughput:
-  Tokens/sec: 2221.9
-  Std Dev:    147.9
+  Tokens/sec: 2169.3
+  Std Dev:    122.3
 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
 
 Saved benchmark results to gptoss_training_results.json
@@ -6282,24 +6283,24 @@ Output sum: 11.532237
 <div class="uv-install-logs" id="uv-logs-gptoss_training_run">
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
 <div class="uv-logs-content" style="display: none;">
-Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
-Downloading networkx (1.9MiB)
+Downloading nvidia-cufile-cu12 (1.1MiB)
 Downloading setuptools (1.1MiB)
-Downloading numpy (16.2MiB)
+Downloading nvidia-nvjitlink-cu12 (37.4MiB)
+Downloading sympy (6.0MiB)
 Downloading nvidia-cusparselt-cu12 (273.9MiB)
-Downloading nvidia-curand-cu12 (60.7MiB)
+Downloading nvidia-cublas-cu12 (566.8MiB)
+Downloading nvidia-nccl-cu12 (307.4MiB)
+Downloading torch (846.9MiB)
 Downloading nvidia-cudnn-cu12 (674.0MiB)
-Downloading sympy (6.0MiB)
+Downloading networkx (1.9MiB)
+Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
+Downloading nvidia-curand-cu12 (60.7MiB)
 Downloading nvidia-cusolver-cu12 (255.1MiB)
-Downloading nvidia-nccl-cu12 (307.4MiB)
-Downloading nvidia-cusparse-cu12 (274.9MiB)
-Downloading nvidia-nvjitlink-cu12 (37.4MiB)
 Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
+Downloading nvidia-cusparse-cu12 (274.9MiB)
+Downloading numpy (16.2MiB)
 Downloading nvidia-cufft-cu12 (184.2MiB)
-Downloading nvidia-cufile-cu12 (1.1MiB)
-Downloading nvidia-cublas-cu12 (566.8MiB)
 Downloading triton (148.3MiB)
-Downloading torch (846.9MiB)
  Downloading nvidia-cufile-cu12
  Downloading setuptools
  Downloading networkx
@@ -6318,7 +6319,7 @@ Downloading torch (846.9MiB)
  Downloading nvidia-cublas-cu12
  Downloading nvidia-cudnn-cu12
  Downloading torch
-Installed 26 packages in 448ms
+Installed 26 packages in 451ms
 </div>
 </div>
 <div class="cell-artifacts">
@@ -6337,7 +6338,7 @@ Installed 26 packages in 448ms
 <span onclick="toggleOutput('megablocks_run')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-megablocks_run" onclick="toggleUvLogsFromHeader('megablocks_run')" style="cursor: pointer;">▶ uv-logs</span>
 </span> | 
-Cell: megablocks_run | deps: torch, numpy, kernels | 41.38s | FAILED
+Cell: megablocks_run | deps: torch, numpy, kernels | 40.19s | FAILED
  | <button class="run-btn" onclick="runCell('megablocks_run')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('megablocks_run')">Copy</button>
 <a href="cells/megablocks_run.py" target="_blank" class="raw-btn">Raw</a>
@@ -6492,7 +6493,7 @@ Cell: megablocks_run | deps: torch, numpy, kernels | 41.38s | FAILED
     <span class="c1"># Attach loaded expert weights to the experts container</span>
     <span class="n">e</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">experts</span>
     <span class="n">e</span><span class="o">.</span><span class="n">alpha</span> <span class="o">=</span> <span class="mf">1.702</span>
-    <span class="n">e</span><span class="o">.</span><span class="n">capacity_factor</span> <span class="o">=</span> <span class="mi">64</span>
+    <span class="n">e</span><span class="o">.</span><span class="n">capacity_factor</span> <span class="o">=</span> <span class="mi">32</span>
     <span class="n">e</span><span class="o">.</span><span class="n">gate_up_proj</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">(</span><span class="n">gate_up_proj</span><span class="o">.</span><span class="n">clone</span><span class="p">()</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">))</span>
     <span class="n">e</span><span class="o">.</span><span class="n">gate_up_proj_bias</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">(</span><span class="n">gate_up_proj_bias</span><span class="o">.</span><span class="n">clone</span><span class="p">()</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">))</span>
     <span class="n">e</span><span class="o">.</span><span class="n">down_proj</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">(</span><span class="n">down_proj</span><span class="o">.</span><span class="n">clone</span><span class="p">()</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">))</span>
@@ -6569,25 +6570,25 @@ Warming up (10 iterations)...
 <div class="uv-install-logs" id="uv-logs-megablocks_run">
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
 <div class="uv-logs-content" style="display: none;">
-Downloading nvidia-cublas-cu12 (566.8MiB)
-Downloading setuptools (1.1MiB)
 Downloading numpy (16.2MiB)
-Downloading networkx (1.9MiB)
-Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
 Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
-Downloading nvidia-cusparselt-cu12 (273.9MiB)
-Downloading nvidia-nvjitlink-cu12 (37.4MiB)
 Downloading nvidia-cufile-cu12 (1.1MiB)
-Downloading torch (846.9MiB)
-Downloading nvidia-nccl-cu12 (307.4MiB)
-Downloading nvidia-cufft-cu12 (184.2MiB)
 Downloading hf-xet (3.0MiB)
-Downloading nvidia-curand-cu12 (60.7MiB)
+Downloading networkx (1.9MiB)
+Downloading torch (846.9MiB)
 Downloading nvidia-cusparse-cu12 (274.9MiB)
-Downloading nvidia-cusolver-cu12 (255.1MiB)
-Downloading triton (148.3MiB)
+Downloading nvidia-cusparselt-cu12 (273.9MiB)
 Downloading nvidia-cudnn-cu12 (674.0MiB)
+Downloading triton (148.3MiB)
+Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
+Downloading nvidia-curand-cu12 (60.7MiB)
+Downloading nvidia-nvjitlink-cu12 (37.4MiB)
 Downloading sympy (6.0MiB)
+Downloading nvidia-cusolver-cu12 (255.1MiB)
+Downloading nvidia-cublas-cu12 (566.8MiB)
+Downloading nvidia-cufft-cu12 (184.2MiB)
+Downloading nvidia-nccl-cu12 (307.4MiB)
+Downloading setuptools (1.1MiB)
  Downloading nvidia-cufile-cu12
  Downloading hf-xet
  Downloading setuptools
@@ -6601,26 +6602,25 @@ Downloading sympy (6.0MiB)
  Downloading triton
  Downloading nvidia-cufft-cu12
  Downloading nvidia-cusolver-cu12
- Downloading nvidia-cusparselt-cu12
  Downloading nvidia-cusparse-cu12
+ Downloading nvidia-cusparselt-cu12
  Downloading nvidia-nccl-cu12
  Downloading nvidia-cublas-cu12
  Downloading nvidia-cudnn-cu12
  Downloading torch
-Installed 37 packages in 543ms
+Installed 37 packages in 449ms
 </div>
 </div>
 <div class="cell-stderr">Fetching 66 files:   0%|          | 0/66 [00:00&lt;?, ?it/s]
-Fetching 66 files:   2%|▏         | 1/66 [00:00&lt;00:27,  2.39it/s]
-Fetching 66 files:   6%|▌         | 4/66 [00:00&lt;00:07,  8.04it/s]
-Fetching 66 files:  17%|█▋        | 11/66 [00:00&lt;00:02, 21.45it/s]
-Fetching 66 files:  26%|██▌       | 17/66 [00:01&lt;00:02, 17.15it/s]
-Fetching 66 files:  48%|████▊     | 32/66 [00:01&lt;00:01, 30.72it/s]
-Fetching 66 files:  62%|██████▏   | 41/66 [00:01&lt;00:01, 23.83it/s]
-Fetching 66 files:  71%|███████   | 47/66 [00:02&lt;00:00, 25.88it/s]
-Fetching 66 files: 100%|██████████| 66/66 [00:02&lt;00:00, 45.13it/s]
-Fetching 66 files: 100%|██████████| 66/66 [00:02&lt;00:00, 29.34it/s]
-/tmp/tmpq5pei8xr/cuda_utils.c:5:10: fatal error: Python.h: No such file or directory
+Fetching 66 files:   2%|▏         | 1/66 [00:00&lt;00:23,  2.74it/s]
+Fetching 66 files:  14%|█▎        | 9/66 [00:00&lt;00:03, 17.38it/s]
+Fetching 66 files:  26%|██▌       | 17/66 [00:01&lt;00:02, 17.85it/s]
+Fetching 66 files:  55%|█████▍    | 36/66 [00:01&lt;00:00, 42.23it/s]
+Fetching 66 files:  65%|██████▌   | 43/66 [00:01&lt;00:00, 38.03it/s]
+Fetching 66 files:  74%|███████▍  | 49/66 [00:01&lt;00:00, 30.77it/s]
+Fetching 66 files:  97%|█████████▋| 64/66 [00:01&lt;00:00, 48.18it/s]
+Fetching 66 files: 100%|██████████| 66/66 [00:01&lt;00:00, 34.40it/s]
+/tmp/tmptrubhjfl/cuda_utils.c:5:10: fatal error: Python.h: No such file or directory
     5 | #include &lt;Python.h&gt;
       |          ^~~~~~~~~~
 compilation terminated.
@@ -6637,87 +6637,87 @@ Traceback (most recent call last):
   File &quot;/repo/moe_benchmarks/megablocks_yamoe/.uvnote/cells/bench_utils.py&quot;, line 177, in &lt;lambda&gt;
     call = lambda x: fn(x, *args[1:], **kwargs)
                      ^^^^^^^^^^^^^^^^^^^^^^^^^^
-  File &quot;/tmp/uvnote-run-ab5uowvg/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/torch/nn/modules/module.py&quot;, line 1773, in _wrapped_call_impl
+  File &quot;/tmp/uvnote-run-68wjowzh/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/torch/nn/modules/module.py&quot;, line 1773, in _wrapped_call_impl
     return self._call_impl(*args, **kwargs)
            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
-  File &quot;/tmp/uvnote-run-ab5uowvg/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/torch/nn/modules/module.py&quot;, line 1784, in _call_impl
+  File &quot;/tmp/uvnote-run-68wjowzh/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/torch/nn/modules/module.py&quot;, line 1784, in _call_impl
     return forward_call(*args, **kwargs)
            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
   File &quot;/repo/moe_benchmarks/megablocks_yamoe/.uvnote/cells/megablocks_run.py&quot;, line 81, in forward
     output, dummy_routing_weights = self.model(hidden_states)
                                     ^^^^^^^^^^^^^^^^^^^^^^^^^
-  File &quot;/tmp/uvnote-run-ab5uowvg/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/torch/nn/modules/module.py&quot;, line 1773, in _wrapped_call_impl
+  File &quot;/tmp/uvnote-run-68wjowzh/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/torch/nn/modules/module.py&quot;, line 1773, in _wrapped_call_impl
     return self._call_impl(*args, **kwargs)
            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
-  File &quot;/tmp/uvnote-run-ab5uowvg/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/torch/nn/modules/module.py&quot;, line 1784, in _call_impl
+  File &quot;/tmp/uvnote-run-68wjowzh/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/torch/nn/modules/module.py&quot;, line 1784, in _call_impl
     return forward_call(*args, **kwargs)
            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
-  File &quot;/tmp/uvnote-run-ab5uowvg/home/.cache/huggingface/hub/models--kernels-community--megablocks/snapshots/e0fb1437de3f8d7079c4da13be8cb64dc0cfcdd5/build/torch28-cxx11-cu128-x86_64-linux/megablocks/layers.py&quot;, line 896, in forward
+  File &quot;/tmp/uvnote-run-68wjowzh/home/.cache/huggingface/hub/models--kernels-community--megablocks/snapshots/e0fb1437de3f8d7079c4da13be8cb64dc0cfcdd5/build/torch28-cxx11-cu128-x86_64-linux/megablocks/layers.py&quot;, line 896, in forward
     output, expert_weights_out, *_ = moe_forward(
                                      ^^^^^^^^^^^^
-  File &quot;/tmp/uvnote-run-ab5uowvg/home/.cache/huggingface/hub/models--kernels-community--megablocks/snapshots/e0fb1437de3f8d7079c4da13be8cb64dc0cfcdd5/build/torch28-cxx11-cu128-x86_64-linux/megablocks/layers.py&quot;, line 730, in moe_forward
+  File &quot;/tmp/uvnote-run-68wjowzh/home/.cache/huggingface/hub/models--kernels-community--megablocks/snapshots/e0fb1437de3f8d7079c4da13be8cb64dc0cfcdd5/build/torch28-cxx11-cu128-x86_64-linux/megablocks/layers.py&quot;, line 730, in moe_forward
     x, tokens_per_expert = forward_fn(**forward_args)
                            ^^^^^^^^^^^^^^^^^^^^^^^^^^
-  File &quot;/tmp/uvnote-run-ab5uowvg/home/.cache/huggingface/hub/models--kernels-community--megablocks/snapshots/e0fb1437de3f8d7079c4da13be8cb64dc0cfcdd5/build/torch28-cxx11-cu128-x86_64-linux/megablocks/layers.py&quot;, line 457, in forward_once
+  File &quot;/tmp/uvnote-run-68wjowzh/home/.cache/huggingface/hub/models--kernels-community--megablocks/snapshots/e0fb1437de3f8d7079c4da13be8cb64dc0cfcdd5/build/torch28-cxx11-cu128-x86_64-linux/megablocks/layers.py&quot;, line 457, in forward_once
     x = permute_and_compute(
         ^^^^^^^^^^^^^^^^^^^^
-  File &quot;/tmp/uvnote-run-ab5uowvg/home/.cache/huggingface/hub/models--kernels-community--megablocks/snapshots/e0fb1437de3f8d7079c4da13be8cb64dc0cfcdd5/build/torch28-cxx11-cu128-x86_64-linux/megablocks/layers.py&quot;, line 401, in permute_and_compute
+  File &quot;/tmp/uvnote-run-68wjowzh/home/.cache/huggingface/hub/models--kernels-community--megablocks/snapshots/e0fb1437de3f8d7079c4da13be8cb64dc0cfcdd5/build/torch28-cxx11-cu128-x86_64-linux/megablocks/layers.py&quot;, line 401, in permute_and_compute
     x = ops.binned_gather(x, indices, bins, expert_capacity, top_k)
         ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
-  File &quot;/tmp/uvnote-run-ab5uowvg/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/torch/autograd/function.py&quot;, line 576, in apply
+  File &quot;/tmp/uvnote-run-68wjowzh/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/torch/autograd/function.py&quot;, line 576, in apply
     return super().apply(*args, **kwargs)  # type: ignore[misc]
            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
-  File &quot;/tmp/uvnote-run-ab5uowvg/home/.cache/huggingface/hub/models--kernels-community--megablocks/snapshots/e0fb1437de3f8d7079c4da13be8cb64dc0cfcdd5/build/torch28-cxx11-cu128-x86_64-linux/megablocks/ops/stk_autocast.py&quot;, line 30, in decorate_fwd
+  File &quot;/tmp/uvnote-run-68wjowzh/home/.cache/huggingface/hub/models--kernels-community--megablocks/snapshots/e0fb1437de3f8d7079c4da13be8cb64dc0cfcdd5/build/torch28-cxx11-cu128-x86_64-linux/megablocks/ops/stk_autocast.py&quot;, line 30, in decorate_fwd
     return fwd(*args, **kwargs)
            ^^^^^^^^^^^^^^^^^^^^
-  File &quot;/tmp/uvnote-run-ab5uowvg/home/.cache/huggingface/hub/models--kernels-community--megablocks/snapshots/e0fb1437de3f8d7079c4da13be8cb64dc0cfcdd5/build/torch28-cxx11-cu128-x86_64-linux/megablocks/ops/binned_gather.py&quot;, line 26, in forward
+  File &quot;/tmp/uvnote-run-68wjowzh/home/.cache/huggingface/hub/models--kernels-community--megablocks/snapshots/e0fb1437de3f8d7079c4da13be8cb64dc0cfcdd5/build/torch28-cxx11-cu128-x86_64-linux/megablocks/ops/binned_gather.py&quot;, line 26, in forward
     return kernels.binned_gather(x, indices, None, bins, bin_size, top_k)
            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
-  File &quot;/tmp/uvnote-run-ab5uowvg/home/.cache/huggingface/hub/models--kernels-community--megablocks/snapshots/e0fb1437de3f8d7079c4da13be8cb64dc0cfcdd5/build/torch28-cxx11-cu128-x86_64-linux/megablocks/backend/kernels.py&quot;, line 419, in binned_gather
+  File &quot;/tmp/uvnote-run-68wjowzh/home/.cache/huggingface/hub/models--kernels-community--megablocks/snapshots/e0fb1437de3f8d7079c4da13be8cb64dc0cfcdd5/build/torch28-cxx11-cu128-x86_64-linux/megablocks/backend/kernels.py&quot;, line 419, in binned_gather
     _binned_copy[(num_experts, expert_capacity)](
-  File &quot;/tmp/uvnote-run-ab5uowvg/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/jit.py&quot;, line 390, in &lt;lambda&gt;
+  File &quot;/tmp/uvnote-run-68wjowzh/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/jit.py&quot;, line 390, in &lt;lambda&gt;
     return lambda *args, **kwargs: self.run(grid=grid, warmup=False, *args, **kwargs)
                                    ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
-  File &quot;/tmp/uvnote-run-ab5uowvg/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/autotuner.py&quot;, line 239, in run
+  File &quot;/tmp/uvnote-run-68wjowzh/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/autotuner.py&quot;, line 239, in run
     benchmark()
-  File &quot;/tmp/uvnote-run-ab5uowvg/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/autotuner.py&quot;, line 228, in benchmark
+  File &quot;/tmp/uvnote-run-68wjowzh/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/autotuner.py&quot;, line 228, in benchmark
     timings = {config: self._bench(*args, config=config, **kwargs) for config in pruned_configs}
               ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
-  File &quot;/tmp/uvnote-run-ab5uowvg/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/autotuner.py&quot;, line 228, in &lt;dictcomp&gt;
+  File &quot;/tmp/uvnote-run-68wjowzh/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/autotuner.py&quot;, line 228, in &lt;dictcomp&gt;
     timings = {config: self._bench(*args, config=config, **kwargs) for config in pruned_configs}
                        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
-  File &quot;/tmp/uvnote-run-ab5uowvg/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/autotuner.py&quot;, line 160, in _bench
+  File &quot;/tmp/uvnote-run-68wjowzh/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/autotuner.py&quot;, line 160, in _bench
     return self.do_bench(kernel_call, quantiles=(0.5, 0.2, 0.8))
            ^^^^^^^^^^^^^
   File &quot;/usr/lib/python3.11/functools.py&quot;, line 1001, in __get__
     val = self.func(instance)
           ^^^^^^^^^^^^^^^^^^^
-  File &quot;/tmp/uvnote-run-ab5uowvg/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/autotuner.py&quot;, line 121, in do_bench
+  File &quot;/tmp/uvnote-run-68wjowzh/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/autotuner.py&quot;, line 121, in do_bench
     return driver.active.get_benchmarker()
            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
-  File &quot;/tmp/uvnote-run-ab5uowvg/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/driver.py&quot;, line 30, in __getattr__
+  File &quot;/tmp/uvnote-run-68wjowzh/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/driver.py&quot;, line 30, in __getattr__
     return getattr(self._initialize_obj(), name)
                    ^^^^^^^^^^^^^^^^^^^^^^
-  File &quot;/tmp/uvnote-run-ab5uowvg/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/driver.py&quot;, line 26, in _initialize_obj
+  File &quot;/tmp/uvnote-run-68wjowzh/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/driver.py&quot;, line 26, in _initialize_obj
     self._obj = self._init_fn()
                 ^^^^^^^^^^^^^^^
-  File &quot;/tmp/uvnote-run-ab5uowvg/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/driver.py&quot;, line 12, in _create_driver
+  File &quot;/tmp/uvnote-run-68wjowzh/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/driver.py&quot;, line 12, in _create_driver
     return active_drivers[0]()
            ^^^^^^^^^^^^^^^^^^^
-  File &quot;/tmp/uvnote-run-ab5uowvg/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/backends/nvidia/driver.py&quot;, line 715, in __init__
+  File &quot;/tmp/uvnote-run-68wjowzh/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/backends/nvidia/driver.py&quot;, line 715, in __init__
     self.utils = CudaUtils()  # TODO: make static
                  ^^^^^^^^^^^
-  File &quot;/tmp/uvnote-run-ab5uowvg/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/backends/nvidia/driver.py&quot;, line 62, in __init__
+  File &quot;/tmp/uvnote-run-68wjowzh/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/backends/nvidia/driver.py&quot;, line 62, in __init__
     mod = compile_module_from_src(
           ^^^^^^^^^^^^^^^^^^^^^^^^
-  File &quot;/tmp/uvnote-run-ab5uowvg/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/build.py&quot;, line 88, in compile_module_from_src
+  File &quot;/tmp/uvnote-run-68wjowzh/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/build.py&quot;, line 88, in compile_module_from_src
     so = _build(name, src_path, tmpdir, library_dirs or [], include_dirs or [], libraries or [])
          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
-  File &quot;/tmp/uvnote-run-ab5uowvg/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/build.py&quot;, line 51, in _build
+  File &quot;/tmp/uvnote-run-68wjowzh/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/build.py&quot;, line 51, in _build
     subprocess.check_call(cc_cmd, stdout=subprocess.DEVNULL)
   File &quot;/usr/lib/python3.11/subprocess.py&quot;, line 413, in check_call
     raise CalledProcessError(retcode, cmd)
-subprocess.CalledProcessError: Command &#x27;[&#x27;/usr/bin/gcc&#x27;, &#x27;/tmp/tmpq5pei8xr/cuda_utils.c&#x27;, &#x27;-O3&#x27;, &#x27;-shared&#x27;, &#x27;-fPIC&#x27;, &#x27;-Wno-psabi&#x27;, &#x27;-o&#x27;, &#x27;/tmp/tmpq5pei8xr/cuda_utils.cpython-311-x86_64-linux-gnu.so&#x27;, &#x27;-lcuda&#x27;, &#x27;-L/tmp/uvnote-run-ab5uowvg/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/backends/nvidia/lib&#x27;, &#x27;-L/usr/lib/x86_64-linux-gnu&#x27;, &#x27;-I/tmp/uvnote-run-ab5uowvg/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/backends/nvidia/include&#x27;, &#x27;-I/tmp/tmpq5pei8xr&#x27;, &#x27;-I/usr/include/python3.11&#x27;]&#x27; returned non-zero exit status 1.</div>
+subprocess.CalledProcessError: Command &#x27;[&#x27;/usr/bin/gcc&#x27;, &#x27;/tmp/tmptrubhjfl/cuda_utils.c&#x27;, &#x27;-O3&#x27;, &#x27;-shared&#x27;, &#x27;-fPIC&#x27;, &#x27;-Wno-psabi&#x27;, &#x27;-o&#x27;, &#x27;/tmp/tmptrubhjfl/cuda_utils.cpython-311-x86_64-linux-gnu.so&#x27;, &#x27;-lcuda&#x27;, &#x27;-L/tmp/uvnote-run-68wjowzh/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/backends/nvidia/lib&#x27;, &#x27;-L/usr/lib/x86_64-linux-gnu&#x27;, &#x27;-I/tmp/uvnote-run-68wjowzh/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/backends/nvidia/include&#x27;, &#x27;-I/tmp/tmptrubhjfl&#x27;, &#x27;-I/usr/include/python3.11&#x27;]&#x27; returned non-zero exit status 1.</div>
 </div>
 </div>