Spaces:

derek-thomas
/

transformer_calculator

Paused

App Files Files Community

derek-thomas commited on Sep 13, 2024

Commit

24632bb

verified ·

1 Parent(s): 58b581f

Update app.py

Browse files

Files changed (1) hide show

app.py +128 -126

app.py CHANGED Viewed

@@ -65,73 +65,74 @@ with gr.Blocks() as demo:
     with gr.Tabs():
         # Memory Calculation Tab
         with gr.TabItem("Memory Calculation"):
-            with gr.Column("Generatable"):
-                with gr.Group():
-                    hf_model_name_or_path = gr.Textbox(
-                        label="HuggingFace Model Name or Path",
-                        info="Name of the HuggingFace Hub repository or the local file path for it"
                     )
-                    sequence_length = gr.Number(
-                        label="Sequence Length",
-                        value=2048,
-                        info="Sequence length used for training"
                     )
-                    vocab_size = gr.Number(
-                        label="Vocab Size",
-                        value=51200,
-                        info="How many tokens are in the embedding layer"
                     )
-                    hidden_size = gr.Number(
-                        label="Hidden Size",
-                        value=6144,
-                        info="Dimension of the model's hidden size"
                     )
-                    num_attention_heads = gr.Number(
-                        label="Number of Attention Heads",
-                        value=64,
-                        info="Number of attention heads used in the model"
                     )
-                    num_layers = gr.Number(
-                        label="Number of Layers",
-                        value=44,
-                        info="Number of transformer layers used in the model"
-                    )
-            with gr.Column("User Defined"):
-                num_gpus = gr.Number(
-                    label="Number of GPUs",
-                    value=1,
-                    info="Number of GPUs used for training"
-                )
-                tensor_parallel_size = gr.Number(
-                    label="Tensor Parallel Size",
-                    value=1,
-                    info="Tensor parallel degree (1 if not used)"
-                )
-                pipeline_parallel_size = gr.Number(
-                    label="Pipeline Parallel Size",
-                    value=1,
-                    info="Pipeline parallel degree (1 if not used)"
-                )
-                batch_size_per_gpu = gr.Number(
-                    label="Batch Size per GPU",
-                    value=8,
-                    info="Batch size per GPU"
-                )
-                ffn_expansion_factor = gr.Number(
-                    label="FFN Expansion Factor",
-                    value=4,
-                    info="How much the MLP hidden size expands"
-                )
-                is_mixed_precision = gr.Checkbox(
-                    label="Mixed Precision",
-                    value=True,
-                    info="Whether mixed precision is enabled"
-                )
-                misc_mem_gib = gr.Number(
-                    label="Miscellaneous Memory Overhead (GiB)",
-                    value=5,
-                    info="Miscellaneous memory overhead per GPU by DL frameworks, communication libraries, etc."
-                )
             calc_memory_button = gr.Button("Calculate Memory")
             memory_result = gr.Textbox(label="Memory Calculation Result", interactive=False)
@@ -151,75 +152,76 @@ with gr.Blocks() as demo:
         # Parameter Calculation Tab
         with gr.TabItem("Parameter Calculation"):
-            with gr.Column("Generatable"):
-                with gr.Group():
-                    hf_model_name_or_path = gr.Textbox(
-                        label="HuggingFace Model Name or Path",
-                        info="Name of the HuggingFace Hub repository or the local file path for it"
-                    )
-                    vocab_size = gr.Number(
-                        label="Vocab Size",
-                        value=51200,
-                        info="How many tokens are in the embedding layer"
-                    )
-                    hidden_size = gr.Number(
-                        label="Hidden Size",
-                        value=6144,
-                        info="Dimension of the model's hidden size"
-                    )
-                    sequence_length = gr.Number(
-                        label="Sequence Length",
-                        value=2048,
-                        info="Sequence length used for training"
-                    )
-                    num_layers = gr.Number(
-                        label="Number of Layers",
-                        value=44,
-                        info="Number of transformer layers used in the model"
-                    )
-            with gr.Column("User Defined"):
-                tied_embeddings = gr.Checkbox(
-                    label="Tied Embeddings",
-                    value=False,
-                    info="Whether embeddings are tied (shared between input and output)"
-                )
-                ffn_expansion_factor = gr.Number(
-                    label="FFN Expansion Factor",
-                    value=4,
-                    info="How much the MLP hidden size expands"
-                )
-                num_mlp_linears = gr.Number(
-                    label="Number of Linear Layers per MLP Block",
-                    value=2,
-                    info="How many linear layers per MLP block"
-                )
-                kv_size_ratio = gr.Number(
-                    label="KV Size Ratio",
-                    value=1.0,
-                    info="Ratio of total query heads to key/value heads. 1.0 for MHA, 1/num_attention_heads for MQA"
-                )
-                with gr.Accordion("MoE Parameters", open=False):
-                    moe = gr.Checkbox(
-                        label="MoE",
                         value=False,
-                        info="Whether the model is MoE"
                     )
-                    num_experts = gr.Number(
-                        label="Number of Experts",
-                        value=8,
-                        info="Number of experts for MoE"
                     )
-                    expert_interval = gr.Number(
-                        label="Expert Interval",
-                        value=1,
-                        info="Expert interval for MoE"
                     )
-                    topk = gr.Number(
-                        label="Top k Routing",
-                        value=1,
-                        info="Top k routing for MoE"
                     )
             calc_param_button = gr.Button("Calculate Parameters")
             param_result = gr.Textbox(label="Parameter Calculation Result", interactive=False)

     with gr.Tabs():
         # Memory Calculation Tab
         with gr.TabItem("Memory Calculation"):
+            with gr.Row():
+                with gr.Column("Generatable"):
+                    with gr.Group():
+                        hf_model_name_or_path = gr.Textbox(
+                            label="HuggingFace Model Name or Path",
+                            info="Name of the HuggingFace Hub repository or the local file path for it"
+                        )
+                        sequence_length = gr.Number(
+                            label="Sequence Length",
+                            value=2048,
+                            info="Sequence length used for training"
+                        )
+                        vocab_size = gr.Number(
+                            label="Vocab Size",
+                            value=51200,
+                            info="How many tokens are in the embedding layer"
+                        )
+                        hidden_size = gr.Number(
+                            label="Hidden Size",
+                            value=6144,
+                            info="Dimension of the model's hidden size"
+                        )
+                        num_attention_heads = gr.Number(
+                            label="Number of Attention Heads",
+                            value=64,
+                            info="Number of attention heads used in the model"
+                        )
+                        num_layers = gr.Number(
+                            label="Number of Layers",
+                            value=44,
+                            info="Number of transformer layers used in the model"
+                        )
+                with gr.Column("User Defined"):
+                    num_gpus = gr.Number(
+                        label="Number of GPUs",
+                        value=1,
+                        info="Number of GPUs used for training"
+                    )
+                    tensor_parallel_size = gr.Number(
+                        label="Tensor Parallel Size",
+                        value=1,
+                        info="Tensor parallel degree (1 if not used)"
+                    )
+                    pipeline_parallel_size = gr.Number(
+                        label="Pipeline Parallel Size",
+                        value=1,
+                        info="Pipeline parallel degree (1 if not used)"
                     )
+                    batch_size_per_gpu = gr.Number(
+                        label="Batch Size per GPU",
+                        value=8,
+                        info="Batch size per GPU"
                     )
+                    ffn_expansion_factor = gr.Number(
+                        label="FFN Expansion Factor",
+                        value=4,
+                        info="How much the MLP hidden size expands"
                     )
+                    is_mixed_precision = gr.Checkbox(
+                        label="Mixed Precision",
+                        value=True,
+                        info="Whether mixed precision is enabled"
                     )
+                    misc_mem_gib = gr.Number(
+                        label="Miscellaneous Memory Overhead (GiB)",
+                        value=5,
+                        info="Miscellaneous memory overhead per GPU by DL frameworks, communication libraries, etc."
                     )
             calc_memory_button = gr.Button("Calculate Memory")
             memory_result = gr.Textbox(label="Memory Calculation Result", interactive=False)
         # Parameter Calculation Tab
         with gr.TabItem("Parameter Calculation"):
+            with gr.Row():
+                with gr.Column("Generatable"):
+                    with gr.Group():
+                        hf_model_name_or_path = gr.Textbox(
+                            label="HuggingFace Model Name or Path",
+                            info="Name of the HuggingFace Hub repository or the local file path for it"
+                        )
+                        vocab_size = gr.Number(
+                            label="Vocab Size",
+                            value=51200,
+                            info="How many tokens are in the embedding layer"
+                        )
+                        hidden_size = gr.Number(
+                            label="Hidden Size",
+                            value=6144,
+                            info="Dimension of the model's hidden size"
+                        )
+                        sequence_length = gr.Number(
+                            label="Sequence Length",
+                            value=2048,
+                            info="Sequence length used for training"
+                        )
+                        num_layers = gr.Number(
+                            label="Number of Layers",
+                            value=44,
+                            info="Number of transformer layers used in the model"
+                        )
+                with gr.Column("User Defined"):
+                    tied_embeddings = gr.Checkbox(
+                        label="Tied Embeddings",
                         value=False,
+                        info="Whether embeddings are tied (shared between input and output)"
                     )
+                    ffn_expansion_factor = gr.Number(
+                        label="FFN Expansion Factor",
+                        value=4,
+                        info="How much the MLP hidden size expands"
                     )
+                    num_mlp_linears = gr.Number(
+                        label="Number of Linear Layers per MLP Block",
+                        value=2,
+                        info="How many linear layers per MLP block"
                     )
+                    kv_size_ratio = gr.Number(
+                        label="KV Size Ratio",
+                        value=1.0,
+                        info="Ratio of total query heads to key/value heads. 1.0 for MHA, 1/num_attention_heads for MQA"
                     )
+                    with gr.Accordion("MoE Parameters", open=False):
+                        moe = gr.Checkbox(
+                            label="MoE",
+                            value=False,
+                            info="Whether the model is MoE"
+                        )
+                        num_experts = gr.Number(
+                            label="Number of Experts",
+                            value=8,
+                            info="Number of experts for MoE"
+                        )
+                        expert_interval = gr.Number(
+                            label="Expert Interval",
+                            value=1,
+                            info="Expert interval for MoE"
+                        )
+                        topk = gr.Number(
+                            label="Top k Routing",
+                            value=1,
+                            info="Top k routing for MoE"
+                        )
             calc_param_button = gr.Button("Calculate Parameters")
             param_result = gr.Textbox(label="Parameter Calculation Result", interactive=False)