Spaces:

marstin
/

VLM-Lens

Running on Zero

App Files Files Community

marstin commited on 28 days ago

Commit

d425e71

1 Parent(s): 4cc1ce8

[martin-dev] add demo v1 test

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

LICENSE +201 -0
README.md +245 -16
app.py +3 -66
configs/concepts/colors.yaml +69 -0
configs/dataset/download-clevr.yaml +6 -0
configs/dataset/download-coco.yaml +6 -0
configs/dataset/download-gqa.yaml +6 -0
configs/models/aya-vision-8b/aya-vision-8b.yaml +10 -0
configs/models/blip2/blip2.yaml +10 -0
configs/models/clip/clip.yaml +10 -0
configs/models/cogvlm/cogvlm-chat.yaml +17 -0
configs/models/glamm/glamm.yaml +19 -0
configs/models/internlm-xc/internlm-xc.yaml +13 -0
configs/models/internvl/internvl.yaml +14 -0
configs/models/janus/janus-pro-1b.yaml +14 -0
configs/models/llava-7b/llava-7b-clevr.yaml +10 -0
configs/models/llava-7b/llava-7b-concepts-colors.yaml +8 -0
configs/models/llava-7b/llava-7b.yaml +9 -0
configs/models/minicpm-V2/minicpm-V2.yaml +13 -0
configs/models/minicpm-o/minicpm-o.yaml +14 -0
configs/models/molmo/molmo-7b.yaml +13 -0
configs/models/paligemma/paligemma-3b.yaml +11 -0
configs/models/pixtral/pixtral-12b.yaml +9 -0
configs/models/plm/plm.yaml +13 -0
configs/models/qwen/qwen-2b-clevr.yaml +10 -0
configs/models/qwen/qwen-2b.yaml +11 -0
configs/probe/llava/clevr-boolean-l16.yaml +18 -0
configs/probe/qwen/clevr-boolean-l13-example.yaml +18 -0
configs/probe/qwen/clevr-boolean-l13.yaml +18 -0
demo/.gradio/certificate.pem +31 -0
demo/__init__.py +6 -0
demo/__pycache__/__init__.cpython-310.pyc +0 -0
demo/__pycache__/_bootstrap.cpython-310.pyc +0 -0
demo/__pycache__/launch_gradio.cpython-310.pyc +0 -0
demo/__pycache__/launch_interactive_gradio.cpython-310.pyc +0 -0
demo/__pycache__/lookup.cpython-310.pyc +0 -0
demo/_bootstrap.py +6 -0
demo/launch_gradio.py +645 -0
demo/lookup.py +171 -0
demo/requirements.txt +2 -0
logs/CohereLabs/aya-vision-8b.txt +729 -0
logs/MBZUAI/GLaMM-FullScope.txt +950 -0
logs/Qwen/Qwen2-VL-2B-Instruct.txt +730 -0
logs/Qwen/Qwen2-VL-7B-Instruct.txt +730 -0
logs/Salesforce/blip2-opt-2.7b.txt +1078 -0
logs/THUDM/cogvlm-chat-hf.txt +1352 -0
logs/allenai/Molmo-7B-D-0924.txt +606 -0
logs/deepseek-community/Janus-Pro-1B.txt +1033 -0
logs/facebook/Perception-LM-1B.txt +694 -0
logs/internlm/internlm-xcomposer2d5-7b.txt +2132 -0

LICENSE ADDED Viewed

	@@ -0,0 +1,201 @@

+                                 Apache License
+                           Version 2.0, January 2004
+                        http://www.apache.org/licenses/
+   TERMS AND CONDITIONS FOR USE, REPRODUCTION, AND DISTRIBUTION
+   1. Definitions.
+      "License" shall mean the terms and conditions for use, reproduction,
+      and distribution as defined by Sections 1 through 9 of this document.
+      "Licensor" shall mean the copyright owner or entity authorized by
+      the copyright owner that is granting the License.
+      "Legal Entity" shall mean the union of the acting entity and all
+      other entities that control, are controlled by, or are under common
+      control with that entity. For the purposes of this definition,
+      "control" means (i) the power, direct or indirect, to cause the
+      direction or management of such entity, whether by contract or
+      otherwise, or (ii) ownership of fifty percent (50%) or more of the
+      outstanding shares, or (iii) beneficial ownership of such entity.
+      "You" (or "Your") shall mean an individual or Legal Entity
+      exercising permissions granted by this License.
+      "Source" form shall mean the preferred form for making modifications,
+      including but not limited to software source code, documentation
+      source, and configuration files.
+      "Object" form shall mean any form resulting from mechanical
+      transformation or translation of a Source form, including but
+      not limited to compiled object code, generated documentation,
+      and conversions to other media types.
+      "Work" shall mean the work of authorship, whether in Source or
+      Object form, made available under the License, as indicated by a
+      copyright notice that is included in or attached to the work
+      (an example is provided in the Appendix below).
+      "Derivative Works" shall mean any work, whether in Source or Object
+      form, that is based on (or derived from) the Work and for which the
+      editorial revisions, annotations, elaborations, or other modifications
+      represent, as a whole, an original work of authorship. For the purposes
+      of this License, Derivative Works shall not include works that remain
+      separable from, or merely link (or bind by name) to the interfaces of,
+      the Work and Derivative Works thereof.
+      "Contribution" shall mean any work of authorship, including
+      the original version of the Work and any modifications or additions
+      to that Work or Derivative Works thereof, that is intentionally
+      submitted to Licensor for inclusion in the Work by the copyright owner
+      or by an individual or Legal Entity authorized to submit on behalf of
+      the copyright owner. For the purposes of this definition, "submitted"
+      means any form of electronic, verbal, or written communication sent
+      to the Licensor or its representatives, including but not limited to
+      communication on electronic mailing lists, source code control systems,
+      and issue tracking systems that are managed by, or on behalf of, the
+      Licensor for the purpose of discussing and improving the Work, but
+      excluding communication that is conspicuously marked or otherwise
+      designated in writing by the copyright owner as "Not a Contribution."
+      "Contributor" shall mean Licensor and any individual or Legal Entity
+      on behalf of whom a Contribution has been received by Licensor and
+      subsequently incorporated within the Work.
+   2. Grant of Copyright License. Subject to the terms and conditions of
+      this License, each Contributor hereby grants to You a perpetual,
+      worldwide, non-exclusive, no-charge, royalty-free, irrevocable
+      copyright license to reproduce, prepare Derivative Works of,
+      publicly display, publicly perform, sublicense, and distribute the
+      Work and such Derivative Works in Source or Object form.
+   3. Grant of Patent License. Subject to the terms and conditions of
+      this License, each Contributor hereby grants to You a perpetual,
+      worldwide, non-exclusive, no-charge, royalty-free, irrevocable
+      (except as stated in this section) patent license to make, have made,
+      use, offer to sell, sell, import, and otherwise transfer the Work,
+      where such license applies only to those patent claims licensable
+      by such Contributor that are necessarily infringed by their
+      Contribution(s) alone or by combination of their Contribution(s)
+      with the Work to which such Contribution(s) was submitted. If You
+      institute patent litigation against any entity (including a
+      cross-claim or counterclaim in a lawsuit) alleging that the Work
+      or a Contribution incorporated within the Work constitutes direct
+      or contributory patent infringement, then any patent licenses
+      granted to You under this License for that Work shall terminate
+      as of the date such litigation is filed.
+   4. Redistribution. You may reproduce and distribute copies of the
+      Work or Derivative Works thereof in any medium, with or without
+      modifications, and in Source or Object form, provided that You
+      meet the following conditions:
+      (a) You must give any other recipients of the Work or
+          Derivative Works a copy of this License; and
+      (b) You must cause any modified files to carry prominent notices
+          stating that You changed the files; and
+      (c) You must retain, in the Source form of any Derivative Works
+          that You distribute, all copyright, patent, trademark, and
+          attribution notices from the Source form of the Work,
+          excluding those notices that do not pertain to any part of
+          the Derivative Works; and
+      (d) If the Work includes a "NOTICE" text file as part of its
+          distribution, then any Derivative Works that You distribute must
+          include a readable copy of the attribution notices contained
+          within such NOTICE file, excluding those notices that do not
+          pertain to any part of the Derivative Works, in at least one
+          of the following places: within a NOTICE text file distributed
+          as part of the Derivative Works; within the Source form or
+          documentation, if provided along with the Derivative Works; or,
+          within a display generated by the Derivative Works, if and
+          wherever such third-party notices normally appear. The contents
+          of the NOTICE file are for informational purposes only and
+          do not modify the License. You may add Your own attribution
+          notices within Derivative Works that You distribute, alongside
+          or as an addendum to the NOTICE text from the Work, provided
+          that such additional attribution notices cannot be construed
+          as modifying the License.
+      You may add Your own copyright statement to Your modifications and
+      may provide additional or different license terms and conditions
+      for use, reproduction, or distribution of Your modifications, or
+      for any such Derivative Works as a whole, provided Your use,
+      reproduction, and distribution of the Work otherwise complies with
+      the conditions stated in this License.
+   5. Submission of Contributions. Unless You explicitly state otherwise,
+      any Contribution intentionally submitted for inclusion in the Work
+      by You to the Licensor shall be under the terms and conditions of
+      this License, without any additional terms or conditions.
+      Notwithstanding the above, nothing herein shall supersede or modify
+      the terms of any separate license agreement you may have executed
+      with Licensor regarding such Contributions.
+   6. Trademarks. This License does not grant permission to use the trade
+      names, trademarks, service marks, or product names of the Licensor,
+      except as required for reasonable and customary use in describing the
+      origin of the Work and reproducing the content of the NOTICE file.
+   7. Disclaimer of Warranty. Unless required by applicable law or
+      agreed to in writing, Licensor provides the Work (and each
+      Contributor provides its Contributions) on an "AS IS" BASIS,
+      WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or
+      implied, including, without limitation, any warranties or conditions
+      of TITLE, NON-INFRINGEMENT, MERCHANTABILITY, or FITNESS FOR A
+      PARTICULAR PURPOSE. You are solely responsible for determining the
+      appropriateness of using or redistributing the Work and assume any
+      risks associated with Your exercise of permissions under this License.
+   8. Limitation of Liability. In no event and under no legal theory,
+      whether in tort (including negligence), contract, or otherwise,
+      unless required by applicable law (such as deliberate and grossly
+      negligent acts) or agreed to in writing, shall any Contributor be
+      liable to You for damages, including any direct, indirect, special,
+      incidental, or consequential damages of any character arising as a
+      result of this License or out of the use or inability to use the
+      Work (including but not limited to damages for loss of goodwill,
+      work stoppage, computer failure or malfunction, or any and all
+      other commercial damages or losses), even if such Contributor
+      has been advised of the possibility of such damages.
+   9. Accepting Warranty or Additional Liability. While redistributing
+      the Work or Derivative Works thereof, You may choose to offer,
+      and charge a fee for, acceptance of support, warranty, indemnity,
+      or other liability obligations and/or rights consistent with this
+      License. However, in accepting such obligations, You may act only
+      on Your own behalf and on Your sole responsibility, not on behalf
+      of any other Contributor, and only if You agree to indemnify,
+      defend, and hold each Contributor harmless for any liability
+      incurred by, or claims asserted against, such Contributor by reason
+      of your accepting any such warranty or additional liability.
+   END OF TERMS AND CONDITIONS
+   APPENDIX: How to apply the Apache License to your work.
+      To apply the Apache License to your work, attach the following
+      boilerplate notice, with the fields enclosed by brackets "[]"
+      replaced with your own identifying information. (Don't include
+      the brackets!)  The text should be enclosed in the appropriate
+      comment syntax for the file format. We also recommend that a
+      file or class name and description of purpose be included on the
+      same "printed page" as the copyright notice for easier
+      identification within third-party archives.
+   Copyright [yyyy] [name of copyright owner]
+   Licensed under the Apache License, Version 2.0 (the "License");
+   you may not use this file except in compliance with the License.
+   You may obtain a copy of the License at
+       http://www.apache.org/licenses/LICENSE-2.0
+   Unless required by applicable law or agreed to in writing, software
+   distributed under the License is distributed on an "AS IS" BASIS,
+   WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+   See the License for the specific language governing permissions and
+   limitations under the License.

README.md CHANGED Viewed

@@ -1,16 +1,245 @@
----
-title: VLM Lens
-emoji: 💬
-colorFrom: yellow
-colorTo: purple
-sdk: gradio
-sdk_version: 5.42.0
-app_file: app.py
-pinned: false
-hf_oauth: true
-hf_oauth_scopes:
-- inference-api
-license: apache-2.0
----
-An example chatbot using [Gradio](https://gradio.app), [`huggingface_hub`](https://huggingface.co/docs/huggingface_hub/v0.22.2/en/index), and the [Hugging Face Inference API](https://huggingface.co/docs/api-inference/index).

+# <img src="imgs/logo.png" alt="VLM-Lens Logo" height="48" style="vertical-align:middle; margin-right:50px;"/> VLM-Lens
+[![python](https://img.shields.io/badge/Python-3.10%2B-blue.svg?logo=python&style=flat-square)](https://www.python.org/downloads/release/python-31012/)
+[![License](https://img.shields.io/badge/License-Apache%202.0-blue.svg?style=flat-square)](https://www.apache.org/licenses/LICENSE-2.0)
+[![Documentation](https://img.shields.io/badge/Documentation-Online-green.svg?style=flat-square)](https://compling-wat.github.io/vlm-lens/)
+[![Jupyter Notebook](https://img.shields.io/badge/Jupyter-Notebook-orange.svg?logo=jupyter&style=flat-square)](tutorial-notebooks/guide.ipynb)
+[![Google Colab](https://img.shields.io/badge/Google-Colab-orange?logo=googlecolab&style=flat-square)](https://colab.research.google.com/drive/13WC4HA6syXFotmn7S8WsVz4OmoHsfHV9?usp=sharing)
+<p align="center">
+  <img src="imgs/teaser.png" alt="VLM-Lens Teaser" width="100%" />
+</p>
+## Table of Contents
+- [Environment Setup](#environment-setup)
+- [Example Usage: Extract Qwen2-VL-2B Embeddings with VLM-Lens](#example-usage-extract-qwen2-vl-2b-embeddings-with-vlm-lens)
+  - [General Command-Line Demo](#general-command-line-demo)
+  - [Run Qwen2-VL-2B Embeddings Extraction](#run-qwen2-vl-2b-embeddings-extraction)
+- [Layers of Interest in a VLM](#layers-of-interest-in-a-vlm)
+  - [Retrieving All Named Modules](#retrieving-all-named-modules)
+  - [Matching Layers](#matching-layers)
+- [Feature Extraction using HuggingFace Datasets](#feature-extraction-using-huggingface-datasets)
+- [Output Database](#output-database)
+- [Demo: Principal Component Analysis over Primitive Concept](#principal-component-analysis-over-primitive-concept)
+- [Contributing to VLM-Lens](#contributing-to-vlm-lens)
+- [Miscellaneous](#miscellaneous)
+## Environment Setup
+We recommend using a virtual environment to manage your dependencies. You can create one using the following command to create a virtual environment under
+```bash
+virtualenv --no-download "venv/vlm-lens-base" --prompt "vlm-lens-base"  # Or "python3.10 -m venv venv/vlm-lens-base"
+source venv/vlm-lens-base/bin/activate
+```
+Then, install the required dependencies:
+```bash
+pip install --upgrade pip
+pip install -r envs/base/requirements.txt
+```
+There are some models that require different dependencies, and we recommend creating a separate virtual environment for each of them to avoid conflicts.
+For such models, we have offered a separate `requirements.txt` file under `envs/<model_name>/requirements.txt`, which can be installed in the same way as above.
+All the model-specific environments are independent of the base environment, and can be installed individually.
+**Notes**:
+1. There may be local constraints (e.g., issues caused by cluster regulations) that cause failure of the above commands. In such cases, you are encouraged to modify it whenever fit. We welcome issues and pull requests to help us keep the dependencies up to date.
+2. Some models, due to the resources available at the development time, may not be fully supported on modern GPUs. While our released environments are tested on L40s GPUs, we recommend following the error messages to adjust the environment setups for your specific hardware.
+## Example Usage: Extract Qwen2-VL-2B Embeddings with VLM-Lens
+### General Command-Line Demo
+The general command to run the quick command-line demo is:
+```bash
+python -m src.main \
+  --config <config-file-path> \
+  --debug
+```
+with an optional debug flag to see more detailed outputs.
+Note that the config file should be in yaml format, and that any arguments you want to send to the huggingface API should be under the `model` key.
+See `configs/models/qwen/qwen-2b.yaml` as an example.
+### Run Qwen2-VL-2B Embeddings Extraction
+The file `configs/models/qwen/qwen-2b.yaml` contains the configuration for running the Qwen2-VL-2B model.
+```yaml
+architecture: qwen  # Architecture of the model, see more options in src/models/configs.py
+model_path: Qwen/Qwen2-VL-2B-Instruct  # HuggingFace model path
+model:  # Model configuration, i.e., arguments to pass to the model
+  - torch_dtype: auto
+output_db: output/qwen.db  # Output database file to store embeddings
+input_dir: ./data/  # Directory containing images to process
+prompt: "Describe the color in this image in one word."  # Textual prompt
+pooling_method: None  # Pooling method to use for aggregating token embeddings over tokens (options: None, mean, max)
+modules:  # List of modules to extract embeddings from
+  - lm_head
+  - visual.blocks.31
+```
+To run the extraction on available GPU, use the following command:
+```bash
+python -m src.main --config configs/models/qwen/qwen-2b.yaml --debug
+```
+If there is no GPU available, you can run it on CPU with:
+```bash
+python -m src.main --config configs/models/qwen/qwen-2b.yaml --device cpu --debug
+```
+## Layers of Interest in a VLM
+### Retrieving All Named Modules
+Unfortunately there is no way to find which layers to potentially match to without loading the model. This can take quite a bit of system time figuring out.
+Instead, we offer some cached results under `logs/` for each model, which were generated through including the `-l` or `--log-named-modules` flag when running `python -m src.main`.
+When running this flag, it is not necessary to set modules or anything besides the architecture and HuggingFace model path.
+### Matching Layers
+To automatically set up which layers to find/use, one should use the Unix style strings, where you can use `*` to denote wildcards.
+For example, if one wanted to match with all the attention layer's query projection layer for Qwen, simply add the following lines to the .yaml file:
+```
+modules:
+  - model.layers.*.self_attn.q_proj
+```
+## Feature Extraction using HuggingFace Datasets
+To use VLM-Lens with either hosted or local datasets, there are multiple methods you can use depending on the location of the input images.
+First, your dataset must be standardized to a format that includes the attributes of `prompt`, `label` and `image_path`. Here is a snippet of the `compling/coco-val2017-obj-qa-categories` dataset, adjusted with the former attributes:
+| id | prompt | label | image_path |
+|---|---|---|---|
+| 397,133 | Is this A photo of a dining table on the bottom | yes | /path/to/397133.png
+| 37,777 | Is this A photo of a dining table on the top | no | /path/to/37777.png
+This can be achieved manually or using the helper script in `scripts/map_datasets.py`.
+### Method 1: Using hosted datasets
+If you are using datasets hosted on a platform such as HuggingFace, you will either use images that are also *hosted*, or ones that are *downloaded locally* with an identifier to map back to the hosted dataset (e.g., filename).
+You must use the `dataset_path` attribute in your configuration file with the appropriate `dataset_split` (if it exists, otherwise leave it out).
+#### 1(a): Hosted Dataset with Hosted Images
+```yaml
+dataset:
+  - dataset_path: compling/coco-val2017-obj-qa-categories
+  - dataset_split: val2017
+```
+#### 1(b): Hosted Dataset with Local Images
+> 🚨 **NOTE**: The `image_path` attribute in the dataset must contain either filenames or relative paths, such that a cell value of `train/00023.png` can be joined with `image_dataset_path` to form the full absolute path: `/path/to/local/images/train/00023.png`. If the `image_path` attribute does not require any additional path joining, you can leave out the `image_dataset_path` attribute.
+```yaml
+dataset:
+  - dataset_path: compling/coco-val2017-obj-qa-categories
+  - dataset_split: val2017
+  - image_dataset_path: /path/to/local/images  # downloaded using configs/dataset/download-coco.yaml
+```
+### Method 2: Using local datasets
+#### 2(a): Local Dataset containing Image Files
+```yaml
+dataset:
+  - local_dataset_path: /path/to/local/CLEVR
+  - dataset_split: train # leave out if unspecified
+```
+#### 2(b): Local Dataset with Separate Input Image Directory
+> 🚨 **NOTE**: The `image_path` attribute in the dataset must contain either filenames or relative paths, such that a cell value of `train/00023.png` can be joined with `image_dataset_path` to form the full absolute path: `/path/to/local/images/train/00023.png`. If the `image_path` attribute does not require any additional path joining, you can leave out the `image_dataset_path` attribute.
+```yaml
+dataset:
+  - local_dataset_path: /path/to/local/CLEVR
+  - dataset_split: train # leave out if unspecified
+  - image_dataset_path: /path/to/local/CLEVR/images
+```
+### Output Database
+Specified by the `-o` and `--output-db` flags, this specifies the specific output database we want. From this, in SQL we have a single table under the name `tensors` with the following columns:
+```
+name, architecture, timestamp, image_path, prompt, label, layer, tensor_dim, tensor
+```
+where each column contains:
+1. `name` represents the model path from HuggingFace.
+2. `architecture` is the supported flags above.
+3. `timestamp` is the specific time that the model was ran.
+4. `image_path` is the absolute path to the image.
+5. `prompt` stores the prompt used in that instance.
+6. `label` is an optional cell that stores the "ground-truth" answer, which is helpful in use cases such as classification.
+7. `layer` is the matched layer from `model.named_modules()`
+8. `pooling_method` is the pooling method used for aggregating token embeddings over tokens.
+9. `tensor_dim` is the dimension of the tensor saved.
+10. `tensor` is the embedding saved.
+## Principal Component Analysis over Primitive Concept
+### Data Collection
+Download license-free images for primitive concepts (e.g., colors):
+```bash
+pip install -r data/concepts/requirements.txt
+python -m data.concepts.download --config configs/concepts/colors.yaml
+```
+### Embedding Extraction
+Run the LLaVA model to obtain embeddings of the concept images:
+```bash
+python -m src.main --config configs/models/llava-7b/llava-7b-concepts-colors.yaml --device cuda
+```
+Also, run the LLaVA model to obtain embeddings of the test images:
+```bash
+python -m src.main --config configs/models/llava-7b/llava-7b.yaml --device cuda
+```
+### Run PCA
+Several PCA-based analysis scripts are provided:
+```bash
+pip install -r src/concepts/requirements.txt
+python -m src.concepts.pca
+python -m src.concepts.pca_knn
+python -m src.concepts.pca_separation
+```
+## Contributing to VLM-Lens
+We welcome contributions to VLM-Lens! If you have suggestions, improvements, or bug fixes, please consider submitting a pull request, and we are actively reviewing them.
+We generally follow the [Google Python Styles](https://google.github.io/styleguide/pyguide.html) to ensure readability, with a few exceptions stated in `.flake8`.
+We use pre-commit hooks to ensure code quality and consistency---please make sure to run the following scripts before committing:
+```python
+pip install pre-commit
+pre-commit install
+```
+## Miscellaneous
+### Using a Cache
+To use a specific cache, one should set the `HF_HOME` environment variable as so:
+```
+HF_HOME=./cache/ python -m src.main --config configs/models/clip/clip.yaml --debug
+```
+### Using Submodule-Based Models
+There are some models that require separate submodules to be cloned, such as Glamm.
+To use these models, please follow the instructions below to download the submodules.
+#### Glamm
+For Glamm (GroundingLMM), one needs to clone the separate submodules, which can be done with the following command:
+```
+git submodule update --recursive --init
+```
+See [our document](https://compling-wat.github.io/vlm-lens/tutorials/grounding-lmm.html) for details on the installation.

app.py CHANGED Viewed

@@ -1,70 +1,7 @@
-import gradio as gr
-from huggingface_hub import InferenceClient
-def respond(
-    message,
-    history: list[dict[str, str]],
-    system_message,
-    max_tokens,
-    temperature,
-    top_p,
-    hf_token: gr.OAuthToken,
-):
-    """
-    For more information on `huggingface_hub` Inference API support, please check the docs: https://huggingface.co/docs/huggingface_hub/v0.22.2/en/guides/inference
-    """
-    client = InferenceClient(token=hf_token.token, model="openai/gpt-oss-20b")
-    messages = [{"role": "system", "content": system_message}]
-    messages.extend(history)
-    messages.append({"role": "user", "content": message})
-    response = ""
-    for message in client.chat_completion(
-        messages,
-        max_tokens=max_tokens,
-        stream=True,
-        temperature=temperature,
-        top_p=top_p,
-    ):
-        choices = message.choices
-        token = ""
-        if len(choices) and choices[0].delta.content:
-            token = choices[0].delta.content
-        response += token
-        yield response
-"""
-For information on how to customize the ChatInterface, peruse the gradio docs: https://www.gradio.app/docs/chatinterface
-"""
-chatbot = gr.ChatInterface(
-    respond,
-    type="messages",
-    additional_inputs=[
-        gr.Textbox(value="You are a friendly Chatbot.", label="System message"),
-        gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
-        gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
-        gr.Slider(
-            minimum=0.1,
-            maximum=1.0,
-            value=0.95,
-            step=0.05,
-            label="Top-p (nucleus sampling)",
-        ),
-    ],
-)
-with gr.Blocks() as demo:
-    with gr.Sidebar():
-        gr.LoginButton()
-    chatbot.render()
 if __name__ == "__main__":
     demo.launch()

+# app.py
+from demo.launch_gradio import create_demo
+demo = create_demo()
 if __name__ == "__main__":
     demo.launch()

configs/concepts/colors.yaml ADDED Viewed

	@@ -0,0 +1,69 @@

+# Creative Commons Image Downloader Configuration
+# This file defines the configuration for downloading images
+# Basic Settings
+num_images: 10
+normalize_size: 256
+data_dir: "./data/images/colors/"
+results_filename: "colors.json"
+# Search Provider Configuration
+# Options: google, bing, both
+search_provider: "both"
+retrieve_multiplier: 10
+# Image Processing Settings
+image_format: "JPEG"  # JPEG, PNG, WEBP
+image_quality: 90
+load_truncated_images: true
+# Download Settings
+max_size_mb: 10
+timeout: 15
+# Deduplication Settings
+enable_deduplication: true
+similarity_threshold: 5
+# Rate Limiting (seconds)
+request_delay_min: 0.5
+request_delay_max: 1.5
+# Search Queries - Color Concepts
+queries:
+  - "red"
+  - "blue"
+  - "yellow"
+  - "green"
+  - "orange"
+  - "purple"
+  - "white"
+  - "black"
+  - "gray"
+  - "silver"
+  - "gold"
+  - "pink"
+  - "brown"
+  - "beige"
+  - "crimson"
+  - "maroon"
+  - "cyan"
+  - "turquoise"
+  - "violet"
+  - "magenta"
+# User Agent Rotation
+user_agents:
+  - "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
+  - "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
+  - "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
+# Direct Image Extensions
+direct_img_extensions:
+  - ".jpg"
+  - ".jpeg"
+  - ".png"
+  - ".gif"
+  - ".webp"
+  - ".bmp"
+  - ".tiff"

configs/dataset/download-clevr.yaml ADDED Viewed

	@@ -0,0 +1,6 @@

+dataset_path: compling/CLEVR_val_categories
+split_name: [color, shape, material, size, boolean, number]
+parent_folder: CLEVR
+dataset_download_place: data/CLEVR/CLEVR_dataset
+img_url: https://dl.fbaipublicfiles.com/clevr/CLEVR_v1.0.zip
+img_download_place: data/CLEVR/CLEVR_v1.0.zip

configs/dataset/download-coco.yaml ADDED Viewed

	@@ -0,0 +1,6 @@

+dataset_path: compling/coco-val2017-obj-qa-categories
+split_name: val2017
+parent_folder: COCO
+dataset_download_place: data/COCO/COCO_dataset
+img_url: http://images.cocodataset.org/zips/val2017.zip
+img_download_place: data/COCO/val2017.zip

configs/dataset/download-gqa.yaml ADDED Viewed

	@@ -0,0 +1,6 @@

+dataset_path: compling/GQA_dataset_binary
+split_name: val
+parent_folder: GQA
+dataset_download_place: data/GQA/GQA_dataset
+img_url: http://downloads.cs.stanford.edu/nlp/data/gqa/images.zip
+img_download_place: data/GQA/images.zip

configs/models/aya-vision-8b/aya-vision-8b.yaml ADDED Viewed

	@@ -0,0 +1,10 @@

+architecture: aya-vision
+model_path: CohereLabs/aya-vision-8b
+model:
+  - torch_dtype: float16
+output_db: output/aya-vision.db
+input_dir: ./data/test-images/
+prompt: "Describe the color in this image in one word."
+modules:
+  - language_model.model.layers.15.input_layernorm
+  - language_model.model.layers.31.input_layernorm

configs/models/blip2/blip2.yaml ADDED Viewed

	@@ -0,0 +1,10 @@

+architecture: blip2
+model_path: Salesforce/blip2-opt-2.7b
+model:
+  - torch_dtype: auto
+output_db: output/blip2.db
+input_dir: ./data/test-images/
+prompt: "Describe the color in this image in one word."
+modules:
+  - language_model.lm_head
+  - vision_model.post_layernorm

configs/models/clip/clip.yaml ADDED Viewed

	@@ -0,0 +1,10 @@

+architecture: clip
+model_path: openai/clip-vit-base-patch32
+model:
+  - torch_dtype: auto
+output_db: output/clip.db
+input_dir: ./data/test-images/
+prompt: "Describe the color in this image in one word."
+modules:
+  - visual_projection
+  - text_projection

configs/models/cogvlm/cogvlm-chat.yaml ADDED Viewed

	@@ -0,0 +1,17 @@

+architecture: cogvlm
+model_path: THUDM/cogvlm-chat-hf
+model:
+  - low_cpu_mem_usage: True
+  - trust_remote_code: True
+  - tokenizer_path: lmsys/vicuna-7b-v1.5
+  - legacy: True
+  - template_version: vqa
+forward:
+  - max_new_tokens: 2048
+  - do_sample: False
+output_db: output/cogvlm.db
+input_dir: ./data/test-images/
+prompt: "Describe the color in this image in one word."
+modules:
+  - model.vision.transformer.layers.62
+  - lm_head

configs/models/glamm/glamm.yaml ADDED Viewed

	@@ -0,0 +1,19 @@

+architecture: glamm
+model_path: MBZUAI/GLaMM-FullScope
+model:
+  - image_size: 1024
+  - model_max_length: 1536
+  - lora_r: 8
+  - vision_tower: "openai/clip-vit-large-patch14-336"
+  - local_rank: 0
+  - use_mm_start_end: true
+  - conv_type: "llava_v1"
+forward:
+  - max_new_tokens: 1
+vis_save_path: "./vis_output"
+output_db: glamm.db
+input_dir: ./data/test-images/
+prompt: "Describe the color in this image in one word."
+modules:
+  - model.layers.15.post_attention_layernorm
+  - model.layers.31.post_attention_layernorm

configs/models/internlm-xc/internlm-xc.yaml ADDED Viewed

	@@ -0,0 +1,13 @@

+architecture: internlm-xcomposer
+model_path: internlm/internlm-xcomposer2d5-7b
+model:
+  - torch_dtype: auto
+  - attn_implementation: eager
+forward:
+  - max_new_tokens: 1
+output_db: output/internlm.db
+input_dir: ./data/test-images/
+prompt: "Describe the color in this image in one word."
+modules:
+  - model.layers.31
+  - vit.vision_tower.vision_model.encoder.layers.23

configs/models/internvl/internvl.yaml ADDED Viewed

	@@ -0,0 +1,14 @@

+architecture: internvl
+model_path: OpenGVLab/InternVL2_5-8B
+model:
+  - torch_dtype: bfloat16
+  - trust_remote_code: True
+forward:
+  - max_new_tokens: 1
+  - do_sample: True
+output_db: output/internvl.db
+input_dir: ./data/test-images/
+prompt: "Describe the color in this image in one word."
+modules:
+  - vision_model.encoder.layers.23
+  - language_model.output

configs/models/janus/janus-pro-1b.yaml ADDED Viewed

	@@ -0,0 +1,14 @@

+architecture: janus
+model_path: deepseek-community/Janus-Pro-1B
+model:
+  - attn_implementation: eager
+forward:
+  - max_new_tokens: 1
+  - do_sample: True
+  - generation_mode: 'text'
+output_db: output/janus.db
+input_dir: ./data
+prompt: "Describe the color in this image in one word."
+modules:
+  - model.language_model.layers.11.post_attention_layernorm
+  - model.language_model.layers.23.post_attention_layernorm

configs/models/llava-7b/llava-7b-clevr.yaml ADDED Viewed

	@@ -0,0 +1,10 @@

+architecture: llava
+model_path: llava-hf/llava-1.5-7b-hf
+dataset:
+  - dataset_path: compling/CLEVR_categories
+  - dataset_split: boolean
+output_db: output/llava-boolean.db
+pooling_method: mean
+modules:
+  - language_model.model.layers.16.post_attention_layernorm
+  - language_model.model.layers.31.post_attention_layernorm

configs/models/llava-7b/llava-7b-concepts-colors.yaml ADDED Viewed

	@@ -0,0 +1,8 @@

+architecture: llava
+model_path: llava-hf/llava-1.5-7b-hf
+input_dir: ./data/images/colors/
+prompt: "Describe the color in this image in one word."
+output_db: output/llava-concepts-colors.db
+modules:
+  - vision_tower.vision_model.encoder.layers.23.layer_norm2
+  - language_model.model.layers.31.post_attention_layernorm

configs/models/llava-7b/llava-7b.yaml ADDED Viewed

	@@ -0,0 +1,9 @@

+architecture: llava
+model_path: llava-hf/llava-1.5-7b-hf
+input_dir: ./data/test-images/
+prompt: "Describe the color in this image in one word."
+output_db: output/llava.db
+modules:
+  - vision_tower.vision_model
+  - vision_tower.vision_model.encoder.layers.23.layer_norm2
+  - language_model.model.layers.31.post_attention_layernorm

configs/models/minicpm-V2/minicpm-V2.yaml ADDED Viewed

	@@ -0,0 +1,13 @@

+architecture: minicpm
+model_path: compling/MiniCPM-V-2
+model:
+  - torch_dtype: auto
+  - trust_remote_code: True
+forward:
+  - max_new_tokens: 1
+output_db: output/minicpm.db
+input_dir: ./data/test-images/
+prompt: "Describe the color in this image in one word."
+modules:
+  - llm.lm_head
+  - vpm.encoder.layers.26

configs/models/minicpm-o/minicpm-o.yaml ADDED Viewed

	@@ -0,0 +1,14 @@

+architecture: minicpm
+model_path: openbmb/MiniCPM-o-2_6
+model:
+  - torch_dtype: auto
+  - trust_remote_code: True
+  - attn_implementation: sdpa
+forward:
+  - max_new_tokens: 1
+output_db: output/minicpm-o.db
+input_dir: ./data/test-images/
+prompt: "Describe the color in this image in one word."
+modules:
+  - llm.lm_head
+  - vpm.encoder.layers.26

configs/models/molmo/molmo-7b.yaml ADDED Viewed

	@@ -0,0 +1,13 @@

+architecture: molmo
+model_path: allenai/Molmo-7B-D-0924
+model:
+  - torch_dtype: auto
+forward:
+  - max_new_tokens: 1
+  - stop_strings: <|endoftext|>
+output_db: output/molmo.db
+input_dir: ./data/test-images/
+prompt: "Describe the color in this image in one word."
+modules:
+  - model.transformer.blocks.0
+  - model.vision_backbone.image_vit.transformer.resblocks.22

configs/models/paligemma/paligemma-3b.yaml ADDED Viewed

	@@ -0,0 +1,11 @@

+architecture: paligemma
+model_path: google/paligemma-3b-mix-224
+model:
+  - torch_dtype: auto
+  - token: <HUGGINGFACE_TOKEN>
+output_db: output/paligemma.db
+input_dir: ./data/test-images/
+prompt: "Describe the color in this image in one word."
+modules:
+  - language_model.lm_head
+  - multi_modal_projector

configs/models/pixtral/pixtral-12b.yaml ADDED Viewed

	@@ -0,0 +1,9 @@

+architecture: pixtral
+model_path: mistralai/Pixtral-12B-2409
+input_dir: ./data/test-images/
+prompt: "Describe the color in this image in one word."
+output_db: output/pixtral.db
+modules:
+  - layers.19.attention_norm
+  - layers.39.attention_norm
+download_path: "/project/aip-fredashi/fredashi/huggingface/pixtral-12b" # CHANGE THIS. This is the path to store the downloaded model. This dir will be created.

configs/models/plm/plm.yaml ADDED Viewed

	@@ -0,0 +1,13 @@

+architecture: plm
+model_path: facebook/Perception-LM-1B
+model:
+  - torch_dtype: auto
+  - trust_remote_code: True
+forward:
+  - max_new_tokens: 1
+output_db: output/plm.db
+input_dir: ./data/test-images/
+prompt: "Describe the color in this image in one word."
+modules:
+  - model.language_model.layers.7.post_attention_layernorm
+  - model.language_model.layers.15.post_attention_layernorm

configs/models/qwen/qwen-2b-clevr.yaml ADDED Viewed

	@@ -0,0 +1,10 @@

+architecture: qwen
+model_path: Qwen/Qwen2-VL-2B-Instruct
+dataset:
+  - dataset_path: compling/CLEVR_categories
+  - dataset_split: boolean
+output_db: output/qwen-boolean.db
+pooling_method: mean
+modules:
+  - model.layers.13.post_attention_layernorm
+  - model.layers.27.post_attention_layernorm

configs/models/qwen/qwen-2b.yaml ADDED Viewed

	@@ -0,0 +1,11 @@

+architecture: qwen
+model_path: Qwen/Qwen2-VL-2B-Instruct
+model:
+  - torch_dtype: auto
+output_db: output/qwen.db
+input_dir: ./data/test-images/
+prompt: "Describe the color in this image in one word."
+pooling_method: None
+modules:
+  - lm_head
+  - visual.blocks.31

configs/probe/llava/clevr-boolean-l16.yaml ADDED Viewed

	@@ -0,0 +1,18 @@

+model:
+  - activation: ReLU
+  - hidden_size: 512
+  - num_layers: 2
+  - save_dir: output/llava_boolean_probe_l16
+training:
+  - batch_size: [64, 128, 1024]
+  - num_epochs: [50, 100, 200]
+  - learning_rate: [0.001, 0.0005, 0.0001]
+  - optimizer: AdamW
+  - loss: CrossEntropyLoss
+test:
+  - batch_size: 32
+  - loss: CrossEntropyLoss
+data:
+  - input_db: output/llava-boolean.db
+  - db_name: tensors
+  - input_layer: language_model.model.layers.16.post_attention_layernorm

configs/probe/qwen/clevr-boolean-l13-example.yaml ADDED Viewed

	@@ -0,0 +1,18 @@

+model:
+  - activation: ReLU
+  - hidden_size: 512
+  - num_layers: 2
+  - save_dir: output/qwen_boolean_probe_l13
+training:
+  - batch_size: [64, 128]
+  - num_epochs: [50]
+  - learning_rate: [0.001]
+  - optimizer: AdamW
+  - loss: CrossEntropyLoss
+test:
+  - batch_size: 32
+  - loss: CrossEntropyLoss
+data:
+  - input_db: output/qwen-boolean.db
+  - db_name: tensors
+  - input_layer: model.layers.13.post_attention_layernorm

configs/probe/qwen/clevr-boolean-l13.yaml ADDED Viewed

	@@ -0,0 +1,18 @@

+model:
+  - activation: ReLU
+  - hidden_size: 512
+  - num_layers: 2
+  - save_dir: output/qwen_boolean_probe_l13
+training:
+  - batch_size: [64, 128, 1024]
+  - num_epochs: [50, 100, 200]
+  - learning_rate: [0.001, 0.0005, 0.0001]
+  - optimizer: AdamW
+  - loss: CrossEntropyLoss
+test:
+  - batch_size: 32
+  - loss: CrossEntropyLoss
+data:
+  - input_db: output/qwen-boolean.db
+  - db_name: tensors
+  - input_layer: model.layers.13.post_attention_layernorm

demo/.gradio/certificate.pem ADDED Viewed

	@@ -0,0 +1,31 @@

+-----BEGIN CERTIFICATE-----
+MIIFazCCA1OgAwIBAgIRAIIQz7DSQONZRGPgu2OCiwAwDQYJKoZIhvcNAQELBQAw
+TzELMAkGA1UEBhMCVVMxKTAnBgNVBAoTIEludGVybmV0IFNlY3VyaXR5IFJlc2Vh
+cmNoIEdyb3VwMRUwEwYDVQQDEwxJU1JHIFJvb3QgWDEwHhcNMTUwNjA0MTEwNDM4
+WhcNMzUwNjA0MTEwNDM4WjBPMQswCQYDVQQGEwJVUzEpMCcGA1UEChMgSW50ZXJu
+ZXQgU2VjdXJpdHkgUmVzZWFyY2ggR3JvdXAxFTATBgNVBAMTDElTUkcgUm9vdCBY
+MTCCAiIwDQYJKoZIhvcNAQEBBQADggIPADCCAgoCggIBAK3oJHP0FDfzm54rVygc
+h77ct984kIxuPOZXoHj3dcKi/vVqbvYATyjb3miGbESTtrFj/RQSa78f0uoxmyF+
+0TM8ukj13Xnfs7j/EvEhmkvBioZxaUpmZmyPfjxwv60pIgbz5MDmgK7iS4+3mX6U
+A5/TR5d8mUgjU+g4rk8Kb4Mu0UlXjIB0ttov0DiNewNwIRt18jA8+o+u3dpjq+sW
+T8KOEUt+zwvo/7V3LvSye0rgTBIlDHCNAymg4VMk7BPZ7hm/ELNKjD+Jo2FR3qyH
+B5T0Y3HsLuJvW5iB4YlcNHlsdu87kGJ55tukmi8mxdAQ4Q7e2RCOFvu396j3x+UC
+B5iPNgiV5+I3lg02dZ77DnKxHZu8A/lJBdiB3QW0KtZB6awBdpUKD9jf1b0SHzUv
+KBds0pjBqAlkd25HN7rOrFleaJ1/ctaJxQZBKT5ZPt0m9STJEadao0xAH0ahmbWn
+OlFuhjuefXKnEgV4We0+UXgVCwOPjdAvBbI+e0ocS3MFEvzG6uBQE3xDk3SzynTn
+jh8BCNAw1FtxNrQHusEwMFxIt4I7mKZ9YIqioymCzLq9gwQbooMDQaHWBfEbwrbw
+qHyGO0aoSCqI3Haadr8faqU9GY/rOPNk3sgrDQoo//fb4hVC1CLQJ13hef4Y53CI
+rU7m2Ys6xt0nUW7/vGT1M0NPAgMBAAGjQjBAMA4GA1UdDwEB/wQEAwIBBjAPBgNV
+HRMBAf8EBTADAQH/MB0GA1UdDgQWBBR5tFnme7bl5AFzgAiIyBpY9umbbjANBgkq
+hkiG9w0BAQsFAAOCAgEAVR9YqbyyqFDQDLHYGmkgJykIrGF1XIpu+ILlaS/V9lZL
+ubhzEFnTIZd+50xx+7LSYK05qAvqFyFWhfFQDlnrzuBZ6brJFe+GnY+EgPbk6ZGQ
+3BebYhtF8GaV0nxvwuo77x/Py9auJ/GpsMiu/X1+mvoiBOv/2X/qkSsisRcOj/KK
+NFtY2PwByVS5uCbMiogziUwthDyC3+6WVwW6LLv3xLfHTjuCvjHIInNzktHCgKQ5
+ORAzI4JMPJ+GslWYHb4phowim57iaztXOoJwTdwJx4nLCgdNbOhdjsnvzqvHu7Ur
+TkXWStAmzOVyyghqpZXjFaH3pO3JLF+l+/+sKAIuvtd7u+Nxe5AW0wdeRlN8NwdC
+jNPElpzVmbUq4JUagEiuTDkHzsxHpFKVK7q4+63SM1N95R1NbdWhscdCb+ZAJzVc
+oyi3B43njTOQ5yOf+1CceWxG1bQVs5ZufpsMljq4Ui0/1lvh+wjChP4kqKOJ2qxq
+4RgqsahDYVvTH9w7jXbyLeiNdd8XM2w9U/t7y0Ff/9yi0GE44Za4rF2LN9d11TPA
+mRGunUHBcnWEvgJBQl9nJEiU0Zsnvgc/ubhPgXRR4Xq37Z0j4r7g1SgEEzwxA57d
+emyPxgcYxn/eR44/KJ4EBs+lVDR3veyJm+kXQ99b21/+jh5Xos1AnX5iItreGCc=
+-----END CERTIFICATE-----

demo/__init__.py ADDED Viewed

	@@ -0,0 +1,6 @@

+"""Demo package."""
+from . import _bootstrap  # noqa: F401
+from .lookup import get_model_info  # re-export for convenience
+__all__ = ['get_model_info']

demo/__pycache__/__init__.cpython-310.pyc ADDED Viewed

Binary file (274 Bytes). View file

demo/__pycache__/_bootstrap.cpython-310.pyc ADDED Viewed

Binary file (320 Bytes). View file

demo/__pycache__/launch_gradio.cpython-310.pyc ADDED Viewed

Binary file (15.8 kB). View file

demo/__pycache__/launch_interactive_gradio.cpython-310.pyc ADDED Viewed

Binary file (11.3 kB). View file

demo/__pycache__/lookup.cpython-310.pyc ADDED Viewed

Binary file (4.72 kB). View file

demo/_bootstrap.py ADDED Viewed

	@@ -0,0 +1,6 @@

+import sys
+from pathlib import Path
+REPO_ROOT = Path(__file__).resolve().parents[1]
+if str(REPO_ROOT) not in sys.path:
+    sys.path.insert(0, str(REPO_ROOT))

demo/launch_gradio.py ADDED Viewed

	@@ -0,0 +1,645 @@

+"""Gradio demo for visualizing VLM first token probability distributions with two images."""
+from typing import Any, Dict, List, Optional, Tuple
+import gradio as gr
+import matplotlib.pyplot as plt
+import numpy as np
+import torch
+import torch.nn.functional as F
+from matplotlib.figure import Figure
+from matplotlib.text import Text
+from PIL import Image
+from demo.lookup import ModelVariants, get_model_info  # noqa: E402
+from src.main import get_model  # noqa: E402
+from src.models.base import ModelBase  # noqa: E402
+from src.models.config import Config, ModelSelection  # noqa: E402
+models_cache: Dict[str, Any] = {}
+current_model_selection: Optional[ModelSelection] = None
+def read_layer_spec(spec_file_path: str) -> List[str]:
+    """Read available layers from the model spec file.
+    Args:
+        spec_file_path: Path to the model specification file.
+    Returns:
+        List of available layer names, skipping blank lines.
+    """
+    try:
+        with open(spec_file_path, 'r', encoding='utf-8') as f:
+            lines = f.readlines()
+        # Filter out blank lines and strip whitespace
+        layers = [line.strip() for line in lines if line.strip()]
+        return layers
+    except FileNotFoundError:
+        print(f'Spec file not found: {spec_file_path}')
+        return ['Default layer (spec file not found)']
+    except Exception as e:
+        print(f'Error reading spec file: {str(e)}')
+        return ['Default layer (error reading spec)']
+def update_layer_choices(model_choice: str) -> Tuple[gr.Dropdown, gr.Button]:
+    """Update layer dropdown choices based on selected model.
+    Args:
+        model_choice: Selected model name.
+    Returns:
+        Updated dropdown component and button visibility.
+    """
+    if not model_choice:
+        return gr.Dropdown(choices=[], visible=False), gr.Button(visible=False)
+    try:
+        # Convert string choice to ModelVariants enum
+        model_var = ModelVariants(model_choice.lower())
+        # Get model info and read layer spec
+        _, _, model_spec_path = get_model_info(model_var)
+        layers = read_layer_spec(model_spec_path)
+        # Return updated dropdown with layer choices and make button visible
+        return (
+            gr.Dropdown(
+                choices=layers,
+                label=f'Select Module for {model_choice}',
+                value=layers[0] if layers else None,
+                visible=True,
+                interactive=True
+            ),
+            gr.Button('Analyze', variant='primary', visible=True)
+        )
+    except ValueError:
+        return (
+            gr.Dropdown(
+                choices=['Model not implemented'],
+                label='Select Module',
+                visible=True,
+                interactive=False
+            ),
+            gr.Button('Analyze', variant='primary', visible=False)
+        )
+    except Exception as e:
+        return (
+            gr.Dropdown(
+                choices=[f'Error: {str(e)}'],
+                label='Select Module',
+                visible=True,
+                interactive=False
+            ),
+            gr.Button('Analyze', variant='primary', visible=False)
+        )
+def load_model(model_var: ModelVariants, config: Config) -> ModelBase:
+    """Load the specified VLM and processor.
+    Args:
+        model_var: The model to load from ModelVariants enum.
+        config: The configuration object with model parameters.
+    Returns:
+        The loaded model instance.
+    Raises:
+        Exception: If model loading fails.
+    """
+    global models_cache, current_model_selection
+    model_key = model_var.value
+    # Check if model is already loaded
+    if model_key in models_cache:
+        current_model_selection = model_var
+        return models_cache[model_key]
+    print(f'Loading {model_var.value} model...')
+    try:
+        model_selection = config.architecture
+        model = get_model(config.architecture, config)
+        # Cache the loaded model and processor
+        models_cache[model_key] = model
+        current_model_selection = model_selection
+        print(f'{model_selection.value} model loaded successfully!')
+        return model
+    except Exception as e:
+        print(f'Error loading model {model_selection.value}: {str(e)}')
+        raise
+def get_single_image_probabilities(
+    instruction: str,
+    image: Image.Image,
+    vlm: ModelBase,
+    model_selection: ModelSelection,
+    top_k: int = 8
+) -> Tuple[List[str], np.ndarray]:
+    """Process a single image and return first token probabilities.
+    Args:
+        instruction: Text instruction for the model.
+        image: PIL Image to process.
+        vlm: Loaded model.
+        model_selection: The VLM being used.
+        top_k: Number of top tokens to return.
+    Returns:
+        Tuple containing list of top tokens and their probabilities.
+    """
+    # Generate prompt and process inputs
+    text = vlm._generate_prompt(instruction, has_images=True)
+    inputs = vlm._generate_processor_output(text, image)
+    with torch.no_grad():
+        outputs = vlm.model.generate(
+            **inputs,
+            max_new_tokens=1,  # Only generate first token
+            output_scores=True,
+            return_dict_in_generate=True,
+            do_sample=False
+        )
+    # Get the logits for the first generated token
+    first_token_logits = outputs.scores[0][0]  # Shape: [vocab_size]
+    # Convert logits to probabilities
+    probabilities = torch.softmax(first_token_logits, dim=-1)
+    # Get top-k probabilities for visualization
+    top_probs, top_indices = torch.topk(probabilities, top_k)
+    # Convert tokens back to text
+    top_tokens = [vlm.processor.tokenizer.decode([idx.item()]) for idx in top_indices]
+    return top_tokens, top_probs.cpu().numpy()
+def scale_figure_fonts(fig: Figure, factor: float = 1.5) -> None:
+    """Multiply all text sizes in a Matplotlib Figure by `factor`.
+    Args:
+        fig: The Matplotlib Figure to scale.
+        factor: The scaling factor (e.g., 1.5 to increase by 50%).
+    """
+    for ax in fig.get_axes():
+        # titles & axis labels
+        ax.title.set_fontsize(ax.title.get_fontsize() * factor)
+        ax.xaxis.label.set_size(ax.xaxis.label.get_size() * factor)
+        ax.yaxis.label.set_size(ax.yaxis.label.get_size() * factor)
+        # tick labels
+        for lbl in ax.get_xticklabels() + ax.get_yticklabels():
+            lbl.set_fontsize(lbl.get_fontsize() * factor)
+        # texts placed via ax.text(...) (e.g., numbers above bars / "No data" notes)
+        for t in ax.texts:
+            t.set_fontsize(t.get_fontsize() * factor)
+    # any stray Text artists attached to the figure (rare, but safe)
+    for t in fig.findobj(match=Text):
+        if t.figure is fig:
+            t.set_fontsize(t.get_fontsize() * factor)
+def create_dual_probability_plot(
+    tokens1: List[str], probabilities1: np.ndarray,
+    tokens2: List[str], probabilities2: np.ndarray
+) -> Figure:
+    """Create a matplotlib plot comparing token probabilities from two images.
+    Args:
+        tokens1: List of token strings from first image.
+        probabilities1: Array of probability values from first image.
+        tokens2: List of token strings from second image.
+        probabilities2: Array of probability values from second image.
+    Returns:
+        Matplotlib Figure object.
+    """
+    if len(tokens1) == 0 and len(tokens2) == 0:
+        fig, ax = plt.subplots(figsize=(15, 8))
+        ax.text(0.5, 0.5, 'No data to display',
+                horizontalalignment='center', verticalalignment='center')
+        ax.set_xlim(0, 1)
+        ax.set_ylim(0, 1)
+        return fig
+    # Unify y-range with padding (cap at 1.0)
+    max1 = float(np.max(probabilities1)) if len(tokens1) else 0.0
+    max2 = float(np.max(probabilities2)) if len(tokens2) else 0.0
+    y_upper = min(1.0, max(max1, max2) * 1.15 + 1e-6)  # ~15% headroom
+    # Create subplots side by side with shared y
+    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(20, 12), sharey=True)
+    ax1.set_ylim(0, y_upper)
+    ax2.set_ylim(0, y_upper)
+    # Plot first image results
+    if len(tokens1) > 0:
+        bars1 = ax1.bar(range(len(tokens1)), probabilities1, color='lightcoral',
+                        edgecolor='darkred', alpha=0.7)
+        ax1.set_xlabel('Tokens', fontsize=12)
+        ax1.set_ylabel('Probability', fontsize=12)
+        ax1.set_title('Image 1 - First Token Probabilities',
+                      fontsize=14, fontweight='bold')
+        ax1.set_xticks(range(len(tokens1)))
+        ax1.set_xticklabels(tokens1, rotation=45, ha='right')
+        # Clamp label position so it stays inside the axes
+        for bar, prob in zip(bars1, probabilities1):
+            h = bar.get_height()
+            y = min(h + 0.02 * y_upper, y_upper * 0.98)
+            ax1.text(bar.get_x() + bar.get_width()/2., y, f'{prob:.3f}',
+                     ha='center', va='bottom', fontsize=9)
+        ax1.grid(axis='y', alpha=0.3)
+    else:
+        ax1.text(0.5, 0.5, 'No data for Image 1',
+                 horizontalalignment='center', verticalalignment='center')
+        ax1.set_xlim(0, 1)
+        ax1.set_ylim(0, 1)
+    # Plot second image results
+    if len(tokens2) > 0:
+        bars2 = ax2.bar(range(len(tokens2)), probabilities2, color='skyblue',
+                        edgecolor='navy', alpha=0.7)
+        ax2.set_xlabel('Tokens', fontsize=12)
+        ax2.set_ylabel('Probability', fontsize=12)
+        ax2.set_title('Image 2 - First Token Probabilities',
+                      fontsize=14, fontweight='bold')
+        ax2.set_xticks(range(len(tokens2)))
+        ax2.set_xticklabels(tokens2, rotation=45, ha='right')
+        for bar, prob in zip(bars2, probabilities2):
+            h = bar.get_height()
+            y = min(h + 0.02 * y_upper, y_upper * 0.98)
+            ax2.text(bar.get_x() + bar.get_width()/2., y, f'{prob:.3f}',
+                     ha='center', va='bottom', fontsize=9)
+        ax2.grid(axis='y', alpha=0.3)
+    else:
+        ax2.text(0.5, 0.5, 'No data for Image 2',
+                 horizontalalignment='center', verticalalignment='center')
+        ax2.set_xlim(0, 1)
+        ax2.set_ylim(0, 1)
+    # Give extra space for rotated tick labels
+    fig.tight_layout()
+    fig.subplots_adjust(bottom=0.18)
+    return fig
+def get_module_similarity_pooled(
+        vlm: ModelBase,
+        module_name: str,
+        image1: Image.Image,
+        image2: Image.Image,
+        instruction: str,
+        pooling: str = 'mean'
+) -> float:
+    """Compute cosine similarity with optional pooling strategies.
+    Args:
+        vlm: The loaded VLM (ModelBase instance).
+        module_name: The layer/module name to extract features from.
+        image1: First PIL Image.
+        image2: Second PIL Image.
+        instruction: Text instruction for the model.
+        pooling: Pooling strategy - 'mean', 'max', 'cls', or 'none'.
+    Returns:
+        Cosine similarity value between the two embeddings.
+    Raises:
+        ValueError: If feature extraction fails or module not found.
+    """
+    embeddings = {}
+    target_module = None
+    def hook_fn(
+        module: torch.nn.Module,
+        input: Any,
+        output: Any
+    ) -> None:
+        """Forward hook to capture module output.
+        Args:
+            module: The module being hooked.
+            input: The input to the module.
+            output: The output from the module.
+        """
+        if isinstance(output, tuple):
+            embeddings['activation'] = output[0].detach()
+        else:
+            embeddings['activation'] = output.detach()
+    # Find and register hook
+    for name, module in vlm.model.named_modules():
+        if name == module_name:
+            target_module = module
+            hook_handle = module.register_forward_hook(hook_fn)
+            break
+    if target_module is None:
+        raise ValueError(f"Module '{module_name}' not found in model")
+    try:
+        # Extract embedding for image1
+        text = vlm._generate_prompt(instruction, has_images=True)
+        inputs1 = vlm._generate_processor_output(text, image1)
+        embeddings.clear()
+        with torch.no_grad():
+            _ = vlm.model(**inputs1)
+        if 'activation' not in embeddings:
+            raise ValueError('Failed to extract features for image1')
+        embedding1 = embeddings['activation']
+        # Extract embedding for image2
+        inputs2 = vlm._generate_processor_output(text, image2)
+        embeddings.clear()
+        with torch.no_grad():
+            _ = vlm.model(**inputs2)
+        if 'activation' not in embeddings:
+            raise ValueError('Failed to extract features for image2')
+        embedding2 = embeddings['activation']
+        # Apply pooling strategy
+        if pooling == 'mean':
+            # Mean pooling across sequence dimension
+            if embedding1.dim() >= 2:
+                embedding1_pooled = embedding1.mean(dim=1)
+                embedding2_pooled = embedding2.mean(dim=1)
+            else:
+                embedding1_pooled = embedding1
+                embedding2_pooled = embedding2
+        elif pooling == 'max':
+            # Max pooling across sequence dimension
+            if embedding1.dim() >= 2:
+                embedding1_pooled = embedding1.max(dim=1)[0]
+                embedding2_pooled = embedding2.max(dim=1)[0]
+            else:
+                embedding1_pooled = embedding1
+                embedding2_pooled = embedding2
+        elif pooling == 'cls':
+            # Use first token (CLS token)
+            if embedding1.dim() >= 2:
+                embedding1_pooled = embedding1[:, 0, :]
+                embedding2_pooled = embedding2[:, 0, :]
+            else:
+                embedding1_pooled = embedding1
+                embedding2_pooled = embedding2
+        elif pooling == 'none':
+            # Flatten without pooling
+            embedding1_pooled = embedding1.reshape(embedding1.shape[0], -1)
+            embedding2_pooled = embedding2.reshape(embedding2.shape[0], -1)
+        else:
+            raise ValueError(f'Unknown pooling strategy: {pooling}')
+        # Ensure 2D shape [batch, features]
+        if embedding1_pooled.dim() == 1:
+            embedding1_pooled = embedding1_pooled.unsqueeze(0)
+            embedding2_pooled = embedding2_pooled.unsqueeze(0)
+        # Compute cosine similarity
+        similarity = F.cosine_similarity(embedding1_pooled, embedding2_pooled, dim=1)
+        similarity_value = float(similarity.mean().cpu().item())
+        return similarity_value
+    finally:
+        hook_handle.remove()
+def process_dual_inputs(
+    model_choice: str,
+    selected_layer: str,
+    instruction: str,
+    image1: Optional[Image.Image],
+    image2: Optional[Image.Image],
+    top_k: int = 8
+) -> Tuple[Optional[Figure], str]:
+    """Main function to process dual inputs and return comparison plot.
+    Args:
+        model_choice: String name of the selected model.
+        selected_layer: String name of the selected layer.
+        instruction: Text instruction for the model.
+        image1: First PIL Image to process, can be None.
+        image2: Second PIL Image to process, can be None.
+        top_k: Number of top tokens to display.
+    Returns:
+        Tuple containing the plot figure and info text.
+    """
+    if image1 is None and image2 is None:
+        return None, 'Please upload at least one image.'
+    if not instruction.strip():
+        return None, 'Please provide an instruction.'
+    if not model_choice:
+        return None, 'Please select a model.'
+    if not selected_layer:
+        return None, 'Please select a layer.'
+    try:
+        # Initialize a config
+        model_var = ModelVariants(model_choice.lower())
+        model_selection, model_path, _ = get_model_info(model_var)
+        config = Config(model_selection, model_path, selected_layer, instruction)
+        config.model = {
+            'torch_dtype': torch.float16,
+            'low_cpu_mem_usage': True,
+            'device_map': 'auto'
+        }
+        # Load the model
+        model = load_model(model_var, config)
+        # Handle cases where only one image is provided
+        if image1 is None:
+            image1 = image2
+            tokens1, probs1 = [], np.array([])
+            tokens2, probs2 = get_single_image_probabilities(
+                instruction, image2, model, model_selection, top_k
+            )
+        elif image2 is None:
+            image2 = image1
+            tokens1, probs1 = get_single_image_probabilities(
+                instruction, image1, model, model_selection, top_k
+            )
+            tokens2, probs2 = [], np.array([])
+        else:
+            tokens1, probs1 = get_single_image_probabilities(
+                instruction, image1, model, model_selection, top_k
+            )
+            tokens2, probs2 = get_single_image_probabilities(
+                instruction, image2, model, model_selection, top_k
+            )
+        if len(tokens1) == 0 and len(tokens2) == 0:
+            return None, 'Error: Could not process the inputs. Please check the model loading.'
+        # Create comparison plot
+        plot = create_dual_probability_plot(
+            tokens1, probs1, tokens2, probs2
+        )
+        scale_figure_fonts(plot, factor=1.25)
+        # Create info text
+        info_text = f'Model: {model_choice.upper()}\n'
+        info_text += f'Top-K: {top_k}\n'
+        info_text += f"Instruction: '{instruction}'\n\n"
+        if len(tokens1) > 0:
+            info_text += f"Image 1 - Top token: '{tokens1[0]}' (probability: {probs1[0]:.4f})\n"
+        else:
+            info_text += 'Image 1 - No data\n'
+        if len(tokens2) > 0:
+            info_text += f"Image 2 - Top token: '{tokens2[0]}' (probability: {probs2[0]:.4f})\n"
+        else:
+            info_text += 'Image 2 - No data\n'
+        if len(tokens1) > 0 and len(tokens2) > 0:
+            info_text += f'\nLayer: {selected_layer}\n'
+            similarity = get_module_similarity_pooled(model, selected_layer, image1, image2, instruction)
+            info_text += f'Cosine similarity between Image 1 and 2: {similarity:.3f}\n'
+        return plot, info_text
+    except ValueError as e:
+        return None, f'Invalid model selection: {str(e)}'
+    except Exception as e:
+        return None, f'Error: {str(e)}'
+def create_demo() -> gr.Blocks:
+    """Create and configure the Gradio demo interface for dual image comparison.
+    Returns:
+        Configured Gradio Blocks interface.
+    """
+    with gr.Blocks(title='VLM-Lens Visualizer') as demo:
+        gr.Markdown("""
+        # VLM-Lens Demo
+        This VLM-Lens demo processes an instruction with up to two images through various Vision-Language Models (VLMs)
+        and visualizes the probability distribution of the first token in the response for each image.
+        **Instructions:**
+        1. Select a VLM from the dropdown
+        2. Select a layer from the available embedding layers
+        3. Upload two images for comparison
+        4. Enter your instruction/question about the images
+        5. Adjust the number of top tokens to display (1-20)
+        6. Click "Analyze" to see the first token probability distributions side by side
+        **Note:** You can upload just one image if you prefer single image analysis.
+        """)
+        with gr.Row():
+            with gr.Column():
+                model_dropdown = gr.Dropdown(
+                    choices=[v.value.capitalize() for v in ModelVariants],
+                    label='Select VLM',
+                    value=None,
+                    interactive=True
+                )
+                layer_dropdown = gr.Dropdown(
+                    choices=[],
+                    label='Select Module',
+                    visible=False,
+                    interactive=True
+                )
+                instruction_input = gr.Textbox(
+                    label='Instruction',
+                    placeholder='Describe what you see in this image...',
+                    lines=3
+                )
+                top_k_slider = gr.Slider(
+                    minimum=1,
+                    maximum=20,
+                    value=8,
+                    step=1,
+                    label='Number of Top Tokens to Display',
+                    info='Select how many top probability tokens to show in the visualization'
+                )
+                with gr.Row():
+                    image1_input = gr.Image(
+                        label='Upload Image 1',
+                        type='pil'
+                    )
+                    image2_input = gr.Image(
+                        label='Upload Image 2',
+                        type='pil'
+                    )
+                analyze_btn = gr.Button('Analyze', variant='primary', visible=False)
+            with gr.Column():
+                plot_output = gr.Plot(label='First Token Probability Distribution Comparison')
+                info_output = gr.Textbox(
+                    label='Analysis Info',
+                    lines=8,
+                    interactive=False
+                )
+        # Set up event handlers
+        model_dropdown.change(
+            fn=update_layer_choices,
+            inputs=[model_dropdown],
+            outputs=[layer_dropdown, analyze_btn]
+        )
+        analyze_btn.click(
+            fn=process_dual_inputs,
+            inputs=[model_dropdown, layer_dropdown, instruction_input, image1_input, image2_input, top_k_slider],
+            outputs=[plot_output, info_output]
+        )
+        # Add examples
+        gr.Examples(
+            examples=[
+                ['What is in this image? Describe in one word.', None, None],
+                ['Describe the main object in the picture in one word.', None, None],
+                ['What color is the dominant object? Describe in one word.', None, None],
+            ],
+            inputs=[instruction_input, image1_input, image2_input]
+        )
+    return demo
+if __name__ == '__main__':
+    # Create and launch the demo
+    demo = create_demo()
+    demo.launch(
+        share=True,
+        server_name='0.0.0.0',
+        server_port=7860
+    )

demo/lookup.py ADDED Viewed

	@@ -0,0 +1,171 @@

+"""Model info lookup utilities."""
+import os
+from enum import Enum
+from pathlib import Path
+from typing import Tuple
+from src.models.config import ModelSelection
+REPO_ROOT = Path(__file__).resolve().parents[1]
+SPECS_DIR = Path(os.getenv('MODEL_SPECS_DIR', REPO_ROOT / 'logs'))
+# TODO: To store local model weights in the repo, also define:
+# MODELS_DIR = Path(os.getenv('MODELS_DIR', REPO_ROOT / 'checkpoints'))
+class ModelVariants(str, Enum):
+    """Enum that contains all possible model variants."""
+    AYA_VISION_8B = 'aya-vision-8b'
+    BLIP2_3B = 'blip2-opt-2.7b'
+    COGVLM_17B = 'cogvlm-17b'
+    GLAMM_7B = 'glamm-7b'
+    INTERNLM_XC_25_7B = 'internlm-xcomposer2.5-7b'
+    INTERNVL_25_8B = 'internvl-2.5-8b'
+    JANUS_1B = 'janus-pro-1b'
+    LLAVA_15_7B = 'llava-1.5-7b'
+    MINICPM_O_26_8B = 'minicpm-o-2.6-8b'
+    MINICPM_V_20_3B = 'minicpm-v-2.0-2.8b'
+    MOLMO_7B = 'molmo-7b'
+    PALIGEMMA_3B = 'paligemma-3b'
+    PIXTRAL_12B = 'pixtral-12b'
+    PERCEPTION_LM_1B = 'perception-lm-1b'
+    QWENVL_20_2B = 'qwen2-vl-2b-instruct'
+    QWENVL_20_7B = 'qwen2-vl-7b-instruct'
+    # TODO: Add more models here as needed.
+# ---- Mapping ----
+# model_path: can be a local path or a HF repo id string
+# model_spec: absolute Path to the .txt file (we'll return a repo-root-relative string)
+_MODEL_MAPPING: dict[ModelVariants, dict[ModelSelection, str, str | Path]] = {
+    ModelVariants.AYA_VISION_8B: {
+        'model_arch': ModelSelection.AYA_VISION,
+        'model_path': 'CohereLabs/aya-vision-8b',
+        'model_spec': SPECS_DIR / 'CohereLabs' / 'aya-vision-8b.txt',
+    },
+    ModelVariants.BLIP2_3B: {
+        'model_arch': ModelSelection.BLIP2,
+        'model_path': 'Salesforce/blip2-opt-2.7b',
+        'model_spec': SPECS_DIR / 'Salesforce' / 'blip2-opt-2.7b.txt',
+    },
+    ModelVariants.COGVLM_17B: {
+        'model_arch': ModelSelection.COGVLM,
+        'model_path': 'THUDM/cogvlm-chat-hf',
+        'model_spec': SPECS_DIR / 'THUDM' / 'cogvlm-chat-hf.txt',
+    },
+    ModelVariants.GLAMM_7B: {
+        'model_arch': ModelSelection.GLAMM,
+        'model_path': 'MBZUAI/GLaMM-FullScope',
+        'model_spec': SPECS_DIR / 'MBZUAI' / 'GLaMM-FullScope.txt',
+    },
+    ModelVariants.INTERNLM_XC_25_7B: {
+        'model_arch': ModelSelection.INTERNLM_XC,
+        'model_path': 'internlm/internlm-xcomposer2d5-7b',
+        'model_spec': SPECS_DIR / 'internlm' / 'internlm-xcomposer2d5-7b.txt',
+    },
+    ModelVariants.INTERNVL_25_8B: {
+        'model_arch': ModelSelection.INTERNVL,
+        'model_path': 'OpenGVLab/InternVL2_5-8B',
+        'model_spec': SPECS_DIR / 'internvl' / 'InternVL2_5-8B.txt',
+    },
+    ModelVariants.JANUS_1B: {
+        'model_arch': ModelSelection.JANUS,
+        'model_path': 'deepseek-community/Janus-Pro-1B',
+        'model_spec': SPECS_DIR / 'deepseek-community' / 'Janus-Pro-1B.txt',
+    },
+    ModelVariants.LLAVA_15_7B: {
+        'model_arch': ModelSelection.LLAVA,
+        'model_path': 'llava-hf/llava-1.5-7b-hf',
+        'model_spec': SPECS_DIR / 'llava-hf' / 'llava-1.5-7b-hf.txt',
+    },
+    ModelVariants.MINICPM_O_26_8B: {
+        'model_arch': ModelSelection.MINICPM,
+        'model_path': 'openbmb/MiniCPM-o-2_6',
+        'model_spec': SPECS_DIR / 'openbmb' / 'MiniCPM-o-2_6.txt',
+    },
+    ModelVariants.MINICPM_V_20_3B: {
+        'model_arch': ModelSelection.MINICPM,
+        'model_path': 'compling/MiniCPM-V-2',
+        'model_spec': SPECS_DIR / 'wonderwind271' / 'MiniCPM-V-2.txt',
+    },
+    ModelVariants.MOLMO_7B: {
+        'model_arch': ModelSelection.MOLMO,
+        'model_path': 'allenai/Molmo-7B-D-0924',
+        'model_spec': SPECS_DIR / 'allenai' / 'Molmo-7B-D-0924.txt',
+    },
+    ModelVariants.PALIGEMMA_3B: {
+        'model_arch': ModelSelection.PALIGEMMA,
+        'model_path': 'google/paligemma-3b-mix-224',
+        'model_spec': SPECS_DIR / 'paligemma' / 'paligemma-3b.txt',
+    },
+    ModelVariants.PIXTRAL_12B: {
+        'model_arch': ModelSelection.PIXTRAL,
+        'model_path': 'mistralai/Pixtral-12B-2409',
+        'model_spec': SPECS_DIR / 'mistralai' / 'Pixtral-12B-2409.txt',
+    },
+    ModelVariants.PERCEPTION_LM_1B: {
+        'model_arch': ModelSelection.PLM,
+        'model_path': 'facebook/Perception-LM-1B',
+        'model_spec': SPECS_DIR / 'facebook' / 'Perception-LM-1B.txt',
+    },
+    ModelVariants.QWENVL_20_2B: {
+        'model_arch': ModelSelection.QWEN,
+        'model_path': 'Qwen/Qwen2-VL-2B-Instruct',
+        'model_spec': SPECS_DIR / 'Qwen' / 'Qwen2-VL-2B-Instruct.txt',
+    },
+    ModelVariants.QWENVL_20_7B: {
+        'model_arch': ModelSelection.QWEN,
+        'model_path': 'Qwen/Qwen2-VL-7B-Instruct',
+        'model_spec': SPECS_DIR / 'Qwen' / 'Qwen2-VL-7B-Instruct.txt',
+    },
+    # TODO: Add more models here as needed.
+}
+def _to_repo_relative(p: Path) -> str:
+    """Convert a path to a repo-root–relative string if possible.
+    Args:
+        p (Path): The path to convert.
+    Returns:
+        str: `p` relative to ``REPO_ROOT`` if `p` is within it; otherwise the
+            absolute path as a string.
+    """
+    try:
+        return str(p.resolve().relative_to(REPO_ROOT))
+    except ValueError:
+        return str(p)
+def get_model_info(model_var: ModelVariants) -> Tuple[ModelSelection, str, str]:
+    """Return the model path and spec link for a given selection.
+    Args:
+        model_var (ModelVariants): The model variant to look up.
+    Returns:
+        Tuple[ModelSelection, str, str]:
+            A triple of ``(model_selection, model_path, link_to_model_spec)`` where
+            `model_selection` is a ModelSelection enum entry,
+            `model_path` is an HF repo id or local path, and
+            `link_to_model_spec` is a repo-root-relative path to the spec ``.txt``.
+    Raises:
+        KeyError: If the provided `model` is unknown / not in the mapping.
+        FileNotFoundError: If the resolved spec file does not exist.
+    """
+    try:
+        info = _MODEL_MAPPING[model_var]
+    except KeyError as e:
+        raise KeyError(f'Unknown model: {model_var!r}') from e
+    model_selection = ModelSelection(info['model_arch'])
+    model_path = str(info['model_path'])
+    spec_path = Path(info['model_spec']).resolve()
+    if not spec_path.exists():
+        raise FileNotFoundError(f'Spec file not found: {spec_path}')
+    return model_selection, model_path, _to_repo_relative(spec_path)

demo/requirements.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ gradio==5.47.2
2	+ accelerate==1.10.1

logs/CohereLabs/aya-vision-8b.txt ADDED Viewed

	@@ -0,0 +1,729 @@

+vision_tower
+vision_tower.vision_model
+vision_tower.vision_model.embeddings
+vision_tower.vision_model.embeddings.patch_embedding
+vision_tower.vision_model.embeddings.position_embedding
+vision_tower.vision_model.encoder
+vision_tower.vision_model.encoder.layers
+vision_tower.vision_model.encoder.layers.0
+vision_tower.vision_model.encoder.layers.0.self_attn
+vision_tower.vision_model.encoder.layers.0.self_attn.k_proj
+vision_tower.vision_model.encoder.layers.0.self_attn.v_proj
+vision_tower.vision_model.encoder.layers.0.self_attn.q_proj
+vision_tower.vision_model.encoder.layers.0.self_attn.out_proj
+vision_tower.vision_model.encoder.layers.0.layer_norm1
+vision_tower.vision_model.encoder.layers.0.mlp
+vision_tower.vision_model.encoder.layers.0.mlp.activation_fn
+vision_tower.vision_model.encoder.layers.0.mlp.fc1
+vision_tower.vision_model.encoder.layers.0.mlp.fc2
+vision_tower.vision_model.encoder.layers.0.layer_norm2
+vision_tower.vision_model.encoder.layers.1
+vision_tower.vision_model.encoder.layers.1.self_attn
+vision_tower.vision_model.encoder.layers.1.self_attn.k_proj
+vision_tower.vision_model.encoder.layers.1.self_attn.v_proj
+vision_tower.vision_model.encoder.layers.1.self_attn.q_proj
+vision_tower.vision_model.encoder.layers.1.self_attn.out_proj
+vision_tower.vision_model.encoder.layers.1.layer_norm1
+vision_tower.vision_model.encoder.layers.1.mlp
+vision_tower.vision_model.encoder.layers.1.mlp.activation_fn
+vision_tower.vision_model.encoder.layers.1.mlp.fc1
+vision_tower.vision_model.encoder.layers.1.mlp.fc2
+vision_tower.vision_model.encoder.layers.1.layer_norm2
+vision_tower.vision_model.encoder.layers.2
+vision_tower.vision_model.encoder.layers.2.self_attn
+vision_tower.vision_model.encoder.layers.2.self_attn.k_proj
+vision_tower.vision_model.encoder.layers.2.self_attn.v_proj
+vision_tower.vision_model.encoder.layers.2.self_attn.q_proj
+vision_tower.vision_model.encoder.layers.2.self_attn.out_proj
+vision_tower.vision_model.encoder.layers.2.layer_norm1
+vision_tower.vision_model.encoder.layers.2.mlp
+vision_tower.vision_model.encoder.layers.2.mlp.activation_fn
+vision_tower.vision_model.encoder.layers.2.mlp.fc1
+vision_tower.vision_model.encoder.layers.2.mlp.fc2
+vision_tower.vision_model.encoder.layers.2.layer_norm2
+vision_tower.vision_model.encoder.layers.3
+vision_tower.vision_model.encoder.layers.3.self_attn
+vision_tower.vision_model.encoder.layers.3.self_attn.k_proj
+vision_tower.vision_model.encoder.layers.3.self_attn.v_proj
+vision_tower.vision_model.encoder.layers.3.self_attn.q_proj
+vision_tower.vision_model.encoder.layers.3.self_attn.out_proj
+vision_tower.vision_model.encoder.layers.3.layer_norm1
+vision_tower.vision_model.encoder.layers.3.mlp
+vision_tower.vision_model.encoder.layers.3.mlp.activation_fn
+vision_tower.vision_model.encoder.layers.3.mlp.fc1
+vision_tower.vision_model.encoder.layers.3.mlp.fc2
+vision_tower.vision_model.encoder.layers.3.layer_norm2
+vision_tower.vision_model.encoder.layers.4
+vision_tower.vision_model.encoder.layers.4.self_attn
+vision_tower.vision_model.encoder.layers.4.self_attn.k_proj
+vision_tower.vision_model.encoder.layers.4.self_attn.v_proj
+vision_tower.vision_model.encoder.layers.4.self_attn.q_proj
+vision_tower.vision_model.encoder.layers.4.self_attn.out_proj
+vision_tower.vision_model.encoder.layers.4.layer_norm1
+vision_tower.vision_model.encoder.layers.4.mlp
+vision_tower.vision_model.encoder.layers.4.mlp.activation_fn
+vision_tower.vision_model.encoder.layers.4.mlp.fc1
+vision_tower.vision_model.encoder.layers.4.mlp.fc2
+vision_tower.vision_model.encoder.layers.4.layer_norm2
+vision_tower.vision_model.encoder.layers.5
+vision_tower.vision_model.encoder.layers.5.self_attn
+vision_tower.vision_model.encoder.layers.5.self_attn.k_proj
+vision_tower.vision_model.encoder.layers.5.self_attn.v_proj
+vision_tower.vision_model.encoder.layers.5.self_attn.q_proj
+vision_tower.vision_model.encoder.layers.5.self_attn.out_proj
+vision_tower.vision_model.encoder.layers.5.layer_norm1
+vision_tower.vision_model.encoder.layers.5.mlp
+vision_tower.vision_model.encoder.layers.5.mlp.activation_fn
+vision_tower.vision_model.encoder.layers.5.mlp.fc1
+vision_tower.vision_model.encoder.layers.5.mlp.fc2
+vision_tower.vision_model.encoder.layers.5.layer_norm2
+vision_tower.vision_model.encoder.layers.6
+vision_tower.vision_model.encoder.layers.6.self_attn
+vision_tower.vision_model.encoder.layers.6.self_attn.k_proj
+vision_tower.vision_model.encoder.layers.6.self_attn.v_proj
+vision_tower.vision_model.encoder.layers.6.self_attn.q_proj
+vision_tower.vision_model.encoder.layers.6.self_attn.out_proj
+vision_tower.vision_model.encoder.layers.6.layer_norm1
+vision_tower.vision_model.encoder.layers.6.mlp
+vision_tower.vision_model.encoder.layers.6.mlp.activation_fn
+vision_tower.vision_model.encoder.layers.6.mlp.fc1
+vision_tower.vision_model.encoder.layers.6.mlp.fc2
+vision_tower.vision_model.encoder.layers.6.layer_norm2
+vision_tower.vision_model.encoder.layers.7
+vision_tower.vision_model.encoder.layers.7.self_attn
+vision_tower.vision_model.encoder.layers.7.self_attn.k_proj
+vision_tower.vision_model.encoder.layers.7.self_attn.v_proj
+vision_tower.vision_model.encoder.layers.7.self_attn.q_proj
+vision_tower.vision_model.encoder.layers.7.self_attn.out_proj
+vision_tower.vision_model.encoder.layers.7.layer_norm1
+vision_tower.vision_model.encoder.layers.7.mlp
+vision_tower.vision_model.encoder.layers.7.mlp.activation_fn
+vision_tower.vision_model.encoder.layers.7.mlp.fc1
+vision_tower.vision_model.encoder.layers.7.mlp.fc2
+vision_tower.vision_model.encoder.layers.7.layer_norm2
+vision_tower.vision_model.encoder.layers.8
+vision_tower.vision_model.encoder.layers.8.self_attn
+vision_tower.vision_model.encoder.layers.8.self_attn.k_proj
+vision_tower.vision_model.encoder.layers.8.self_attn.v_proj
+vision_tower.vision_model.encoder.layers.8.self_attn.q_proj
+vision_tower.vision_model.encoder.layers.8.self_attn.out_proj
+vision_tower.vision_model.encoder.layers.8.layer_norm1
+vision_tower.vision_model.encoder.layers.8.mlp
+vision_tower.vision_model.encoder.layers.8.mlp.activation_fn
+vision_tower.vision_model.encoder.layers.8.mlp.fc1
+vision_tower.vision_model.encoder.layers.8.mlp.fc2
+vision_tower.vision_model.encoder.layers.8.layer_norm2
+vision_tower.vision_model.encoder.layers.9
+vision_tower.vision_model.encoder.layers.9.self_attn
+vision_tower.vision_model.encoder.layers.9.self_attn.k_proj
+vision_tower.vision_model.encoder.layers.9.self_attn.v_proj
+vision_tower.vision_model.encoder.layers.9.self_attn.q_proj
+vision_tower.vision_model.encoder.layers.9.self_attn.out_proj
+vision_tower.vision_model.encoder.layers.9.layer_norm1
+vision_tower.vision_model.encoder.layers.9.mlp
+vision_tower.vision_model.encoder.layers.9.mlp.activation_fn
+vision_tower.vision_model.encoder.layers.9.mlp.fc1
+vision_tower.vision_model.encoder.layers.9.mlp.fc2
+vision_tower.vision_model.encoder.layers.9.layer_norm2
+vision_tower.vision_model.encoder.layers.10
+vision_tower.vision_model.encoder.layers.10.self_attn
+vision_tower.vision_model.encoder.layers.10.self_attn.k_proj
+vision_tower.vision_model.encoder.layers.10.self_attn.v_proj
+vision_tower.vision_model.encoder.layers.10.self_attn.q_proj
+vision_tower.vision_model.encoder.layers.10.self_attn.out_proj
+vision_tower.vision_model.encoder.layers.10.layer_norm1
+vision_tower.vision_model.encoder.layers.10.mlp
+vision_tower.vision_model.encoder.layers.10.mlp.activation_fn
+vision_tower.vision_model.encoder.layers.10.mlp.fc1
+vision_tower.vision_model.encoder.layers.10.mlp.fc2
+vision_tower.vision_model.encoder.layers.10.layer_norm2
+vision_tower.vision_model.encoder.layers.11
+vision_tower.vision_model.encoder.layers.11.self_attn
+vision_tower.vision_model.encoder.layers.11.self_attn.k_proj
+vision_tower.vision_model.encoder.layers.11.self_attn.v_proj
+vision_tower.vision_model.encoder.layers.11.self_attn.q_proj
+vision_tower.vision_model.encoder.layers.11.self_attn.out_proj
+vision_tower.vision_model.encoder.layers.11.layer_norm1
+vision_tower.vision_model.encoder.layers.11.mlp
+vision_tower.vision_model.encoder.layers.11.mlp.activation_fn
+vision_tower.vision_model.encoder.layers.11.mlp.fc1
+vision_tower.vision_model.encoder.layers.11.mlp.fc2
+vision_tower.vision_model.encoder.layers.11.layer_norm2
+vision_tower.vision_model.encoder.layers.12
+vision_tower.vision_model.encoder.layers.12.self_attn
+vision_tower.vision_model.encoder.layers.12.self_attn.k_proj
+vision_tower.vision_model.encoder.layers.12.self_attn.v_proj
+vision_tower.vision_model.encoder.layers.12.self_attn.q_proj
+vision_tower.vision_model.encoder.layers.12.self_attn.out_proj
+vision_tower.vision_model.encoder.layers.12.layer_norm1
+vision_tower.vision_model.encoder.layers.12.mlp
+vision_tower.vision_model.encoder.layers.12.mlp.activation_fn
+vision_tower.vision_model.encoder.layers.12.mlp.fc1
+vision_tower.vision_model.encoder.layers.12.mlp.fc2
+vision_tower.vision_model.encoder.layers.12.layer_norm2
+vision_tower.vision_model.encoder.layers.13
+vision_tower.vision_model.encoder.layers.13.self_attn
+vision_tower.vision_model.encoder.layers.13.self_attn.k_proj
+vision_tower.vision_model.encoder.layers.13.self_attn.v_proj
+vision_tower.vision_model.encoder.layers.13.self_attn.q_proj
+vision_tower.vision_model.encoder.layers.13.self_attn.out_proj
+vision_tower.vision_model.encoder.layers.13.layer_norm1
+vision_tower.vision_model.encoder.layers.13.mlp
+vision_tower.vision_model.encoder.layers.13.mlp.activation_fn
+vision_tower.vision_model.encoder.layers.13.mlp.fc1
+vision_tower.vision_model.encoder.layers.13.mlp.fc2
+vision_tower.vision_model.encoder.layers.13.layer_norm2
+vision_tower.vision_model.encoder.layers.14
+vision_tower.vision_model.encoder.layers.14.self_attn
+vision_tower.vision_model.encoder.layers.14.self_attn.k_proj
+vision_tower.vision_model.encoder.layers.14.self_attn.v_proj
+vision_tower.vision_model.encoder.layers.14.self_attn.q_proj
+vision_tower.vision_model.encoder.layers.14.self_attn.out_proj
+vision_tower.vision_model.encoder.layers.14.layer_norm1
+vision_tower.vision_model.encoder.layers.14.mlp
+vision_tower.vision_model.encoder.layers.14.mlp.activation_fn
+vision_tower.vision_model.encoder.layers.14.mlp.fc1
+vision_tower.vision_model.encoder.layers.14.mlp.fc2
+vision_tower.vision_model.encoder.layers.14.layer_norm2
+vision_tower.vision_model.encoder.layers.15
+vision_tower.vision_model.encoder.layers.15.self_attn
+vision_tower.vision_model.encoder.layers.15.self_attn.k_proj
+vision_tower.vision_model.encoder.layers.15.self_attn.v_proj
+vision_tower.vision_model.encoder.layers.15.self_attn.q_proj
+vision_tower.vision_model.encoder.layers.15.self_attn.out_proj
+vision_tower.vision_model.encoder.layers.15.layer_norm1
+vision_tower.vision_model.encoder.layers.15.mlp
+vision_tower.vision_model.encoder.layers.15.mlp.activation_fn
+vision_tower.vision_model.encoder.layers.15.mlp.fc1
+vision_tower.vision_model.encoder.layers.15.mlp.fc2
+vision_tower.vision_model.encoder.layers.15.layer_norm2
+vision_tower.vision_model.encoder.layers.16
+vision_tower.vision_model.encoder.layers.16.self_attn
+vision_tower.vision_model.encoder.layers.16.self_attn.k_proj
+vision_tower.vision_model.encoder.layers.16.self_attn.v_proj
+vision_tower.vision_model.encoder.layers.16.self_attn.q_proj
+vision_tower.vision_model.encoder.layers.16.self_attn.out_proj
+vision_tower.vision_model.encoder.layers.16.layer_norm1
+vision_tower.vision_model.encoder.layers.16.mlp
+vision_tower.vision_model.encoder.layers.16.mlp.activation_fn
+vision_tower.vision_model.encoder.layers.16.mlp.fc1
+vision_tower.vision_model.encoder.layers.16.mlp.fc2
+vision_tower.vision_model.encoder.layers.16.layer_norm2
+vision_tower.vision_model.encoder.layers.17
+vision_tower.vision_model.encoder.layers.17.self_attn
+vision_tower.vision_model.encoder.layers.17.self_attn.k_proj
+vision_tower.vision_model.encoder.layers.17.self_attn.v_proj
+vision_tower.vision_model.encoder.layers.17.self_attn.q_proj
+vision_tower.vision_model.encoder.layers.17.self_attn.out_proj
+vision_tower.vision_model.encoder.layers.17.layer_norm1
+vision_tower.vision_model.encoder.layers.17.mlp
+vision_tower.vision_model.encoder.layers.17.mlp.activation_fn
+vision_tower.vision_model.encoder.layers.17.mlp.fc1
+vision_tower.vision_model.encoder.layers.17.mlp.fc2
+vision_tower.vision_model.encoder.layers.17.layer_norm2
+vision_tower.vision_model.encoder.layers.18
+vision_tower.vision_model.encoder.layers.18.self_attn
+vision_tower.vision_model.encoder.layers.18.self_attn.k_proj
+vision_tower.vision_model.encoder.layers.18.self_attn.v_proj
+vision_tower.vision_model.encoder.layers.18.self_attn.q_proj
+vision_tower.vision_model.encoder.layers.18.self_attn.out_proj
+vision_tower.vision_model.encoder.layers.18.layer_norm1
+vision_tower.vision_model.encoder.layers.18.mlp
+vision_tower.vision_model.encoder.layers.18.mlp.activation_fn
+vision_tower.vision_model.encoder.layers.18.mlp.fc1
+vision_tower.vision_model.encoder.layers.18.mlp.fc2
+vision_tower.vision_model.encoder.layers.18.layer_norm2
+vision_tower.vision_model.encoder.layers.19
+vision_tower.vision_model.encoder.layers.19.self_attn
+vision_tower.vision_model.encoder.layers.19.self_attn.k_proj
+vision_tower.vision_model.encoder.layers.19.self_attn.v_proj
+vision_tower.vision_model.encoder.layers.19.self_attn.q_proj
+vision_tower.vision_model.encoder.layers.19.self_attn.out_proj
+vision_tower.vision_model.encoder.layers.19.layer_norm1
+vision_tower.vision_model.encoder.layers.19.mlp
+vision_tower.vision_model.encoder.layers.19.mlp.activation_fn
+vision_tower.vision_model.encoder.layers.19.mlp.fc1
+vision_tower.vision_model.encoder.layers.19.mlp.fc2
+vision_tower.vision_model.encoder.layers.19.layer_norm2
+vision_tower.vision_model.encoder.layers.20
+vision_tower.vision_model.encoder.layers.20.self_attn
+vision_tower.vision_model.encoder.layers.20.self_attn.k_proj
+vision_tower.vision_model.encoder.layers.20.self_attn.v_proj
+vision_tower.vision_model.encoder.layers.20.self_attn.q_proj
+vision_tower.vision_model.encoder.layers.20.self_attn.out_proj
+vision_tower.vision_model.encoder.layers.20.layer_norm1
+vision_tower.vision_model.encoder.layers.20.mlp
+vision_tower.vision_model.encoder.layers.20.mlp.activation_fn
+vision_tower.vision_model.encoder.layers.20.mlp.fc1
+vision_tower.vision_model.encoder.layers.20.mlp.fc2
+vision_tower.vision_model.encoder.layers.20.layer_norm2
+vision_tower.vision_model.encoder.layers.21
+vision_tower.vision_model.encoder.layers.21.self_attn
+vision_tower.vision_model.encoder.layers.21.self_attn.k_proj
+vision_tower.vision_model.encoder.layers.21.self_attn.v_proj
+vision_tower.vision_model.encoder.layers.21.self_attn.q_proj
+vision_tower.vision_model.encoder.layers.21.self_attn.out_proj
+vision_tower.vision_model.encoder.layers.21.layer_norm1
+vision_tower.vision_model.encoder.layers.21.mlp
+vision_tower.vision_model.encoder.layers.21.mlp.activation_fn
+vision_tower.vision_model.encoder.layers.21.mlp.fc1
+vision_tower.vision_model.encoder.layers.21.mlp.fc2
+vision_tower.vision_model.encoder.layers.21.layer_norm2
+vision_tower.vision_model.encoder.layers.22
+vision_tower.vision_model.encoder.layers.22.self_attn
+vision_tower.vision_model.encoder.layers.22.self_attn.k_proj
+vision_tower.vision_model.encoder.layers.22.self_attn.v_proj
+vision_tower.vision_model.encoder.layers.22.self_attn.q_proj
+vision_tower.vision_model.encoder.layers.22.self_attn.out_proj
+vision_tower.vision_model.encoder.layers.22.layer_norm1
+vision_tower.vision_model.encoder.layers.22.mlp
+vision_tower.vision_model.encoder.layers.22.mlp.activation_fn
+vision_tower.vision_model.encoder.layers.22.mlp.fc1
+vision_tower.vision_model.encoder.layers.22.mlp.fc2
+vision_tower.vision_model.encoder.layers.22.layer_norm2
+vision_tower.vision_model.encoder.layers.23
+vision_tower.vision_model.encoder.layers.23.self_attn
+vision_tower.vision_model.encoder.layers.23.self_attn.k_proj
+vision_tower.vision_model.encoder.layers.23.self_attn.v_proj
+vision_tower.vision_model.encoder.layers.23.self_attn.q_proj
+vision_tower.vision_model.encoder.layers.23.self_attn.out_proj
+vision_tower.vision_model.encoder.layers.23.layer_norm1
+vision_tower.vision_model.encoder.layers.23.mlp
+vision_tower.vision_model.encoder.layers.23.mlp.activation_fn
+vision_tower.vision_model.encoder.layers.23.mlp.fc1
+vision_tower.vision_model.encoder.layers.23.mlp.fc2
+vision_tower.vision_model.encoder.layers.23.layer_norm2
+vision_tower.vision_model.encoder.layers.24
+vision_tower.vision_model.encoder.layers.24.self_attn
+vision_tower.vision_model.encoder.layers.24.self_attn.k_proj
+vision_tower.vision_model.encoder.layers.24.self_attn.v_proj
+vision_tower.vision_model.encoder.layers.24.self_attn.q_proj
+vision_tower.vision_model.encoder.layers.24.self_attn.out_proj
+vision_tower.vision_model.encoder.layers.24.layer_norm1
+vision_tower.vision_model.encoder.layers.24.mlp
+vision_tower.vision_model.encoder.layers.24.mlp.activation_fn
+vision_tower.vision_model.encoder.layers.24.mlp.fc1
+vision_tower.vision_model.encoder.layers.24.mlp.fc2
+vision_tower.vision_model.encoder.layers.24.layer_norm2
+vision_tower.vision_model.encoder.layers.25
+vision_tower.vision_model.encoder.layers.25.self_attn
+vision_tower.vision_model.encoder.layers.25.self_attn.k_proj
+vision_tower.vision_model.encoder.layers.25.self_attn.v_proj
+vision_tower.vision_model.encoder.layers.25.self_attn.q_proj
+vision_tower.vision_model.encoder.layers.25.self_attn.out_proj
+vision_tower.vision_model.encoder.layers.25.layer_norm1
+vision_tower.vision_model.encoder.layers.25.mlp
+vision_tower.vision_model.encoder.layers.25.mlp.activation_fn
+vision_tower.vision_model.encoder.layers.25.mlp.fc1
+vision_tower.vision_model.encoder.layers.25.mlp.fc2
+vision_tower.vision_model.encoder.layers.25.layer_norm2
+vision_tower.vision_model.encoder.layers.26
+vision_tower.vision_model.encoder.layers.26.self_attn
+vision_tower.vision_model.encoder.layers.26.self_attn.k_proj
+vision_tower.vision_model.encoder.layers.26.self_attn.v_proj
+vision_tower.vision_model.encoder.layers.26.self_attn.q_proj
+vision_tower.vision_model.encoder.layers.26.self_attn.out_proj
+vision_tower.vision_model.encoder.layers.26.layer_norm1
+vision_tower.vision_model.encoder.layers.26.mlp
+vision_tower.vision_model.encoder.layers.26.mlp.activation_fn
+vision_tower.vision_model.encoder.layers.26.mlp.fc1
+vision_tower.vision_model.encoder.layers.26.mlp.fc2
+vision_tower.vision_model.encoder.layers.26.layer_norm2
+vision_tower.vision_model.post_layernorm
+multi_modal_projector
+multi_modal_projector.layernorm
+multi_modal_projector.linear_1
+multi_modal_projector.act
+multi_modal_projector.linear_2
+language_model
+language_model.model
+language_model.model.embed_tokens
+language_model.model.layers
+language_model.model.layers.0
+language_model.model.layers.0.self_attn
+language_model.model.layers.0.self_attn.q_proj
+language_model.model.layers.0.self_attn.k_proj
+language_model.model.layers.0.self_attn.v_proj
+language_model.model.layers.0.self_attn.o_proj
+language_model.model.layers.0.mlp
+language_model.model.layers.0.mlp.gate_proj
+language_model.model.layers.0.mlp.up_proj
+language_model.model.layers.0.mlp.down_proj
+language_model.model.layers.0.mlp.act_fn
+language_model.model.layers.0.input_layernorm
+language_model.model.layers.1
+language_model.model.layers.1.self_attn
+language_model.model.layers.1.self_attn.q_proj
+language_model.model.layers.1.self_attn.k_proj
+language_model.model.layers.1.self_attn.v_proj
+language_model.model.layers.1.self_attn.o_proj
+language_model.model.layers.1.mlp
+language_model.model.layers.1.mlp.gate_proj
+language_model.model.layers.1.mlp.up_proj
+language_model.model.layers.1.mlp.down_proj
+language_model.model.layers.1.mlp.act_fn
+language_model.model.layers.1.input_layernorm
+language_model.model.layers.2
+language_model.model.layers.2.self_attn
+language_model.model.layers.2.self_attn.q_proj
+language_model.model.layers.2.self_attn.k_proj
+language_model.model.layers.2.self_attn.v_proj
+language_model.model.layers.2.self_attn.o_proj
+language_model.model.layers.2.mlp
+language_model.model.layers.2.mlp.gate_proj
+language_model.model.layers.2.mlp.up_proj
+language_model.model.layers.2.mlp.down_proj
+language_model.model.layers.2.mlp.act_fn
+language_model.model.layers.2.input_layernorm
+language_model.model.layers.3
+language_model.model.layers.3.self_attn
+language_model.model.layers.3.self_attn.q_proj
+language_model.model.layers.3.self_attn.k_proj
+language_model.model.layers.3.self_attn.v_proj
+language_model.model.layers.3.self_attn.o_proj
+language_model.model.layers.3.mlp
+language_model.model.layers.3.mlp.gate_proj
+language_model.model.layers.3.mlp.up_proj
+language_model.model.layers.3.mlp.down_proj
+language_model.model.layers.3.mlp.act_fn
+language_model.model.layers.3.input_layernorm
+language_model.model.layers.4
+language_model.model.layers.4.self_attn
+language_model.model.layers.4.self_attn.q_proj
+language_model.model.layers.4.self_attn.k_proj
+language_model.model.layers.4.self_attn.v_proj
+language_model.model.layers.4.self_attn.o_proj
+language_model.model.layers.4.mlp
+language_model.model.layers.4.mlp.gate_proj
+language_model.model.layers.4.mlp.up_proj
+language_model.model.layers.4.mlp.down_proj
+language_model.model.layers.4.mlp.act_fn
+language_model.model.layers.4.input_layernorm
+language_model.model.layers.5
+language_model.model.layers.5.self_attn
+language_model.model.layers.5.self_attn.q_proj
+language_model.model.layers.5.self_attn.k_proj
+language_model.model.layers.5.self_attn.v_proj
+language_model.model.layers.5.self_attn.o_proj
+language_model.model.layers.5.mlp
+language_model.model.layers.5.mlp.gate_proj
+language_model.model.layers.5.mlp.up_proj
+language_model.model.layers.5.mlp.down_proj
+language_model.model.layers.5.mlp.act_fn
+language_model.model.layers.5.input_layernorm
+language_model.model.layers.6
+language_model.model.layers.6.self_attn
+language_model.model.layers.6.self_attn.q_proj
+language_model.model.layers.6.self_attn.k_proj
+language_model.model.layers.6.self_attn.v_proj
+language_model.model.layers.6.self_attn.o_proj
+language_model.model.layers.6.mlp
+language_model.model.layers.6.mlp.gate_proj
+language_model.model.layers.6.mlp.up_proj
+language_model.model.layers.6.mlp.down_proj
+language_model.model.layers.6.mlp.act_fn
+language_model.model.layers.6.input_layernorm
+language_model.model.layers.7
+language_model.model.layers.7.self_attn
+language_model.model.layers.7.self_attn.q_proj
+language_model.model.layers.7.self_attn.k_proj
+language_model.model.layers.7.self_attn.v_proj
+language_model.model.layers.7.self_attn.o_proj
+language_model.model.layers.7.mlp
+language_model.model.layers.7.mlp.gate_proj
+language_model.model.layers.7.mlp.up_proj
+language_model.model.layers.7.mlp.down_proj
+language_model.model.layers.7.mlp.act_fn
+language_model.model.layers.7.input_layernorm
+language_model.model.layers.8
+language_model.model.layers.8.self_attn
+language_model.model.layers.8.self_attn.q_proj
+language_model.model.layers.8.self_attn.k_proj
+language_model.model.layers.8.self_attn.v_proj
+language_model.model.layers.8.self_attn.o_proj
+language_model.model.layers.8.mlp
+language_model.model.layers.8.mlp.gate_proj
+language_model.model.layers.8.mlp.up_proj
+language_model.model.layers.8.mlp.down_proj
+language_model.model.layers.8.mlp.act_fn
+language_model.model.layers.8.input_layernorm
+language_model.model.layers.9
+language_model.model.layers.9.self_attn
+language_model.model.layers.9.self_attn.q_proj
+language_model.model.layers.9.self_attn.k_proj
+language_model.model.layers.9.self_attn.v_proj
+language_model.model.layers.9.self_attn.o_proj
+language_model.model.layers.9.mlp
+language_model.model.layers.9.mlp.gate_proj
+language_model.model.layers.9.mlp.up_proj
+language_model.model.layers.9.mlp.down_proj
+language_model.model.layers.9.mlp.act_fn
+language_model.model.layers.9.input_layernorm
+language_model.model.layers.10
+language_model.model.layers.10.self_attn
+language_model.model.layers.10.self_attn.q_proj
+language_model.model.layers.10.self_attn.k_proj
+language_model.model.layers.10.self_attn.v_proj
+language_model.model.layers.10.self_attn.o_proj
+language_model.model.layers.10.mlp
+language_model.model.layers.10.mlp.gate_proj
+language_model.model.layers.10.mlp.up_proj
+language_model.model.layers.10.mlp.down_proj
+language_model.model.layers.10.mlp.act_fn
+language_model.model.layers.10.input_layernorm
+language_model.model.layers.11
+language_model.model.layers.11.self_attn
+language_model.model.layers.11.self_attn.q_proj
+language_model.model.layers.11.self_attn.k_proj
+language_model.model.layers.11.self_attn.v_proj
+language_model.model.layers.11.self_attn.o_proj
+language_model.model.layers.11.mlp
+language_model.model.layers.11.mlp.gate_proj
+language_model.model.layers.11.mlp.up_proj
+language_model.model.layers.11.mlp.down_proj
+language_model.model.layers.11.mlp.act_fn
+language_model.model.layers.11.input_layernorm
+language_model.model.layers.12
+language_model.model.layers.12.self_attn
+language_model.model.layers.12.self_attn.q_proj
+language_model.model.layers.12.self_attn.k_proj
+language_model.model.layers.12.self_attn.v_proj
+language_model.model.layers.12.self_attn.o_proj
+language_model.model.layers.12.mlp
+language_model.model.layers.12.mlp.gate_proj
+language_model.model.layers.12.mlp.up_proj
+language_model.model.layers.12.mlp.down_proj
+language_model.model.layers.12.mlp.act_fn
+language_model.model.layers.12.input_layernorm
+language_model.model.layers.13
+language_model.model.layers.13.self_attn
+language_model.model.layers.13.self_attn.q_proj
+language_model.model.layers.13.self_attn.k_proj
+language_model.model.layers.13.self_attn.v_proj
+language_model.model.layers.13.self_attn.o_proj
+language_model.model.layers.13.mlp
+language_model.model.layers.13.mlp.gate_proj
+language_model.model.layers.13.mlp.up_proj
+language_model.model.layers.13.mlp.down_proj
+language_model.model.layers.13.mlp.act_fn
+language_model.model.layers.13.input_layernorm
+language_model.model.layers.14
+language_model.model.layers.14.self_attn
+language_model.model.layers.14.self_attn.q_proj
+language_model.model.layers.14.self_attn.k_proj
+language_model.model.layers.14.self_attn.v_proj
+language_model.model.layers.14.self_attn.o_proj
+language_model.model.layers.14.mlp
+language_model.model.layers.14.mlp.gate_proj
+language_model.model.layers.14.mlp.up_proj
+language_model.model.layers.14.mlp.down_proj
+language_model.model.layers.14.mlp.act_fn
+language_model.model.layers.14.input_layernorm
+language_model.model.layers.15
+language_model.model.layers.15.self_attn
+language_model.model.layers.15.self_attn.q_proj
+language_model.model.layers.15.self_attn.k_proj
+language_model.model.layers.15.self_attn.v_proj
+language_model.model.layers.15.self_attn.o_proj
+language_model.model.layers.15.mlp
+language_model.model.layers.15.mlp.gate_proj
+language_model.model.layers.15.mlp.up_proj
+language_model.model.layers.15.mlp.down_proj
+language_model.model.layers.15.mlp.act_fn
+language_model.model.layers.15.input_layernorm
+language_model.model.layers.16
+language_model.model.layers.16.self_attn
+language_model.model.layers.16.self_attn.q_proj
+language_model.model.layers.16.self_attn.k_proj
+language_model.model.layers.16.self_attn.v_proj
+language_model.model.layers.16.self_attn.o_proj
+language_model.model.layers.16.mlp
+language_model.model.layers.16.mlp.gate_proj
+language_model.model.layers.16.mlp.up_proj
+language_model.model.layers.16.mlp.down_proj
+language_model.model.layers.16.mlp.act_fn
+language_model.model.layers.16.input_layernorm
+language_model.model.layers.17
+language_model.model.layers.17.self_attn
+language_model.model.layers.17.self_attn.q_proj
+language_model.model.layers.17.self_attn.k_proj
+language_model.model.layers.17.self_attn.v_proj
+language_model.model.layers.17.self_attn.o_proj
+language_model.model.layers.17.mlp
+language_model.model.layers.17.mlp.gate_proj
+language_model.model.layers.17.mlp.up_proj
+language_model.model.layers.17.mlp.down_proj
+language_model.model.layers.17.mlp.act_fn
+language_model.model.layers.17.input_layernorm
+language_model.model.layers.18
+language_model.model.layers.18.self_attn
+language_model.model.layers.18.self_attn.q_proj
+language_model.model.layers.18.self_attn.k_proj
+language_model.model.layers.18.self_attn.v_proj
+language_model.model.layers.18.self_attn.o_proj
+language_model.model.layers.18.mlp
+language_model.model.layers.18.mlp.gate_proj
+language_model.model.layers.18.mlp.up_proj
+language_model.model.layers.18.mlp.down_proj
+language_model.model.layers.18.mlp.act_fn
+language_model.model.layers.18.input_layernorm
+language_model.model.layers.19
+language_model.model.layers.19.self_attn
+language_model.model.layers.19.self_attn.q_proj
+language_model.model.layers.19.self_attn.k_proj
+language_model.model.layers.19.self_attn.v_proj
+language_model.model.layers.19.self_attn.o_proj
+language_model.model.layers.19.mlp
+language_model.model.layers.19.mlp.gate_proj
+language_model.model.layers.19.mlp.up_proj
+language_model.model.layers.19.mlp.down_proj
+language_model.model.layers.19.mlp.act_fn
+language_model.model.layers.19.input_layernorm
+language_model.model.layers.20
+language_model.model.layers.20.self_attn
+language_model.model.layers.20.self_attn.q_proj
+language_model.model.layers.20.self_attn.k_proj
+language_model.model.layers.20.self_attn.v_proj
+language_model.model.layers.20.self_attn.o_proj
+language_model.model.layers.20.mlp
+language_model.model.layers.20.mlp.gate_proj
+language_model.model.layers.20.mlp.up_proj
+language_model.model.layers.20.mlp.down_proj
+language_model.model.layers.20.mlp.act_fn
+language_model.model.layers.20.input_layernorm
+language_model.model.layers.21
+language_model.model.layers.21.self_attn
+language_model.model.layers.21.self_attn.q_proj
+language_model.model.layers.21.self_attn.k_proj
+language_model.model.layers.21.self_attn.v_proj
+language_model.model.layers.21.self_attn.o_proj
+language_model.model.layers.21.mlp
+language_model.model.layers.21.mlp.gate_proj
+language_model.model.layers.21.mlp.up_proj
+language_model.model.layers.21.mlp.down_proj
+language_model.model.layers.21.mlp.act_fn
+language_model.model.layers.21.input_layernorm
+language_model.model.layers.22
+language_model.model.layers.22.self_attn
+language_model.model.layers.22.self_attn.q_proj
+language_model.model.layers.22.self_attn.k_proj
+language_model.model.layers.22.self_attn.v_proj
+language_model.model.layers.22.self_attn.o_proj
+language_model.model.layers.22.mlp
+language_model.model.layers.22.mlp.gate_proj
+language_model.model.layers.22.mlp.up_proj
+language_model.model.layers.22.mlp.down_proj
+language_model.model.layers.22.mlp.act_fn
+language_model.model.layers.22.input_layernorm
+language_model.model.layers.23
+language_model.model.layers.23.self_attn
+language_model.model.layers.23.self_attn.q_proj
+language_model.model.layers.23.self_attn.k_proj
+language_model.model.layers.23.self_attn.v_proj
+language_model.model.layers.23.self_attn.o_proj
+language_model.model.layers.23.mlp
+language_model.model.layers.23.mlp.gate_proj
+language_model.model.layers.23.mlp.up_proj
+language_model.model.layers.23.mlp.down_proj
+language_model.model.layers.23.mlp.act_fn
+language_model.model.layers.23.input_layernorm
+language_model.model.layers.24
+language_model.model.layers.24.self_attn
+language_model.model.layers.24.self_attn.q_proj
+language_model.model.layers.24.self_attn.k_proj
+language_model.model.layers.24.self_attn.v_proj
+language_model.model.layers.24.self_attn.o_proj
+language_model.model.layers.24.mlp
+language_model.model.layers.24.mlp.gate_proj
+language_model.model.layers.24.mlp.up_proj
+language_model.model.layers.24.mlp.down_proj
+language_model.model.layers.24.mlp.act_fn
+language_model.model.layers.24.input_layernorm
+language_model.model.layers.25
+language_model.model.layers.25.self_attn
+language_model.model.layers.25.self_attn.q_proj
+language_model.model.layers.25.self_attn.k_proj
+language_model.model.layers.25.self_attn.v_proj
+language_model.model.layers.25.self_attn.o_proj
+language_model.model.layers.25.mlp
+language_model.model.layers.25.mlp.gate_proj
+language_model.model.layers.25.mlp.up_proj
+language_model.model.layers.25.mlp.down_proj
+language_model.model.layers.25.mlp.act_fn
+language_model.model.layers.25.input_layernorm
+language_model.model.layers.26
+language_model.model.layers.26.self_attn
+language_model.model.layers.26.self_attn.q_proj
+language_model.model.layers.26.self_attn.k_proj
+language_model.model.layers.26.self_attn.v_proj
+language_model.model.layers.26.self_attn.o_proj
+language_model.model.layers.26.mlp
+language_model.model.layers.26.mlp.gate_proj
+language_model.model.layers.26.mlp.up_proj
+language_model.model.layers.26.mlp.down_proj
+language_model.model.layers.26.mlp.act_fn
+language_model.model.layers.26.input_layernorm
+language_model.model.layers.27
+language_model.model.layers.27.self_attn
+language_model.model.layers.27.self_attn.q_proj
+language_model.model.layers.27.self_attn.k_proj
+language_model.model.layers.27.self_attn.v_proj
+language_model.model.layers.27.self_attn.o_proj
+language_model.model.layers.27.mlp
+language_model.model.layers.27.mlp.gate_proj
+language_model.model.layers.27.mlp.up_proj
+language_model.model.layers.27.mlp.down_proj
+language_model.model.layers.27.mlp.act_fn
+language_model.model.layers.27.input_layernorm
+language_model.model.layers.28
+language_model.model.layers.28.self_attn
+language_model.model.layers.28.self_attn.q_proj
+language_model.model.layers.28.self_attn.k_proj
+language_model.model.layers.28.self_attn.v_proj
+language_model.model.layers.28.self_attn.o_proj
+language_model.model.layers.28.mlp
+language_model.model.layers.28.mlp.gate_proj
+language_model.model.layers.28.mlp.up_proj
+language_model.model.layers.28.mlp.down_proj
+language_model.model.layers.28.mlp.act_fn
+language_model.model.layers.28.input_layernorm
+language_model.model.layers.29
+language_model.model.layers.29.self_attn
+language_model.model.layers.29.self_attn.q_proj
+language_model.model.layers.29.self_attn.k_proj
+language_model.model.layers.29.self_attn.v_proj
+language_model.model.layers.29.self_attn.o_proj
+language_model.model.layers.29.mlp
+language_model.model.layers.29.mlp.gate_proj
+language_model.model.layers.29.mlp.up_proj
+language_model.model.layers.29.mlp.down_proj
+language_model.model.layers.29.mlp.act_fn
+language_model.model.layers.29.input_layernorm
+language_model.model.layers.30
+language_model.model.layers.30.self_attn
+language_model.model.layers.30.self_attn.q_proj
+language_model.model.layers.30.self_attn.k_proj
+language_model.model.layers.30.self_attn.v_proj
+language_model.model.layers.30.self_attn.o_proj
+language_model.model.layers.30.mlp
+language_model.model.layers.30.mlp.gate_proj
+language_model.model.layers.30.mlp.up_proj
+language_model.model.layers.30.mlp.down_proj
+language_model.model.layers.30.mlp.act_fn
+language_model.model.layers.30.input_layernorm
+language_model.model.layers.31
+language_model.model.layers.31.self_attn
+language_model.model.layers.31.self_attn.q_proj
+language_model.model.layers.31.self_attn.k_proj
+language_model.model.layers.31.self_attn.v_proj
+language_model.model.layers.31.self_attn.o_proj
+language_model.model.layers.31.mlp
+language_model.model.layers.31.mlp.gate_proj
+language_model.model.layers.31.mlp.up_proj
+language_model.model.layers.31.mlp.down_proj
+language_model.model.layers.31.mlp.act_fn
+language_model.model.layers.31.input_layernorm
+language_model.model.norm
+language_model.model.rotary_emb
+language_model.lm_head

logs/MBZUAI/GLaMM-FullScope.txt ADDED Viewed

	@@ -0,0 +1,950 @@

+model
+model.embed_tokens
+model.layers
+model.layers.0
+model.layers.0.self_attn
+model.layers.0.self_attn.q_proj
+model.layers.0.self_attn.k_proj
+model.layers.0.self_attn.v_proj
+model.layers.0.self_attn.o_proj
+model.layers.0.self_attn.rotary_emb
+model.layers.0.mlp
+model.layers.0.mlp.gate_proj
+model.layers.0.mlp.down_proj
+model.layers.0.mlp.up_proj
+model.layers.0.mlp.act_fn
+model.layers.0.input_layernorm
+model.layers.0.post_attention_layernorm
+model.layers.1
+model.layers.1.self_attn
+model.layers.1.self_attn.q_proj
+model.layers.1.self_attn.k_proj
+model.layers.1.self_attn.v_proj
+model.layers.1.self_attn.o_proj
+model.layers.1.self_attn.rotary_emb
+model.layers.1.mlp
+model.layers.1.mlp.gate_proj
+model.layers.1.mlp.down_proj
+model.layers.1.mlp.up_proj
+model.layers.1.mlp.act_fn
+model.layers.1.input_layernorm
+model.layers.1.post_attention_layernorm
+model.layers.2
+model.layers.2.self_attn
+model.layers.2.self_attn.q_proj
+model.layers.2.self_attn.k_proj
+model.layers.2.self_attn.v_proj
+model.layers.2.self_attn.o_proj
+model.layers.2.self_attn.rotary_emb
+model.layers.2.mlp
+model.layers.2.mlp.gate_proj
+model.layers.2.mlp.down_proj
+model.layers.2.mlp.up_proj
+model.layers.2.mlp.act_fn
+model.layers.2.input_layernorm
+model.layers.2.post_attention_layernorm
+model.layers.3
+model.layers.3.self_attn
+model.layers.3.self_attn.q_proj
+model.layers.3.self_attn.k_proj
+model.layers.3.self_attn.v_proj
+model.layers.3.self_attn.o_proj
+model.layers.3.self_attn.rotary_emb
+model.layers.3.mlp
+model.layers.3.mlp.gate_proj
+model.layers.3.mlp.down_proj
+model.layers.3.mlp.up_proj
+model.layers.3.mlp.act_fn
+model.layers.3.input_layernorm
+model.layers.3.post_attention_layernorm
+model.layers.4
+model.layers.4.self_attn
+model.layers.4.self_attn.q_proj
+model.layers.4.self_attn.k_proj
+model.layers.4.self_attn.v_proj
+model.layers.4.self_attn.o_proj
+model.layers.4.self_attn.rotary_emb
+model.layers.4.mlp
+model.layers.4.mlp.gate_proj
+model.layers.4.mlp.down_proj
+model.layers.4.mlp.up_proj
+model.layers.4.mlp.act_fn
+model.layers.4.input_layernorm
+model.layers.4.post_attention_layernorm
+model.layers.5
+model.layers.5.self_attn
+model.layers.5.self_attn.q_proj
+model.layers.5.self_attn.k_proj
+model.layers.5.self_attn.v_proj
+model.layers.5.self_attn.o_proj
+model.layers.5.self_attn.rotary_emb
+model.layers.5.mlp
+model.layers.5.mlp.gate_proj
+model.layers.5.mlp.down_proj
+model.layers.5.mlp.up_proj
+model.layers.5.mlp.act_fn
+model.layers.5.input_layernorm
+model.layers.5.post_attention_layernorm
+model.layers.6
+model.layers.6.self_attn
+model.layers.6.self_attn.q_proj
+model.layers.6.self_attn.k_proj
+model.layers.6.self_attn.v_proj
+model.layers.6.self_attn.o_proj
+model.layers.6.self_attn.rotary_emb
+model.layers.6.mlp
+model.layers.6.mlp.gate_proj
+model.layers.6.mlp.down_proj
+model.layers.6.mlp.up_proj
+model.layers.6.mlp.act_fn
+model.layers.6.input_layernorm
+model.layers.6.post_attention_layernorm
+model.layers.7
+model.layers.7.self_attn
+model.layers.7.self_attn.q_proj
+model.layers.7.self_attn.k_proj
+model.layers.7.self_attn.v_proj
+model.layers.7.self_attn.o_proj
+model.layers.7.self_attn.rotary_emb
+model.layers.7.mlp
+model.layers.7.mlp.gate_proj
+model.layers.7.mlp.down_proj
+model.layers.7.mlp.up_proj
+model.layers.7.mlp.act_fn
+model.layers.7.input_layernorm
+model.layers.7.post_attention_layernorm
+model.layers.8
+model.layers.8.self_attn
+model.layers.8.self_attn.q_proj
+model.layers.8.self_attn.k_proj
+model.layers.8.self_attn.v_proj
+model.layers.8.self_attn.o_proj
+model.layers.8.self_attn.rotary_emb
+model.layers.8.mlp
+model.layers.8.mlp.gate_proj
+model.layers.8.mlp.down_proj
+model.layers.8.mlp.up_proj
+model.layers.8.mlp.act_fn
+model.layers.8.input_layernorm
+model.layers.8.post_attention_layernorm
+model.layers.9
+model.layers.9.self_attn
+model.layers.9.self_attn.q_proj
+model.layers.9.self_attn.k_proj
+model.layers.9.self_attn.v_proj
+model.layers.9.self_attn.o_proj
+model.layers.9.self_attn.rotary_emb
+model.layers.9.mlp
+model.layers.9.mlp.gate_proj
+model.layers.9.mlp.down_proj
+model.layers.9.mlp.up_proj
+model.layers.9.mlp.act_fn
+model.layers.9.input_layernorm
+model.layers.9.post_attention_layernorm
+model.layers.10
+model.layers.10.self_attn
+model.layers.10.self_attn.q_proj
+model.layers.10.self_attn.k_proj
+model.layers.10.self_attn.v_proj
+model.layers.10.self_attn.o_proj
+model.layers.10.self_attn.rotary_emb
+model.layers.10.mlp
+model.layers.10.mlp.gate_proj
+model.layers.10.mlp.down_proj
+model.layers.10.mlp.up_proj
+model.layers.10.mlp.act_fn
+model.layers.10.input_layernorm
+model.layers.10.post_attention_layernorm
+model.layers.11
+model.layers.11.self_attn
+model.layers.11.self_attn.q_proj
+model.layers.11.self_attn.k_proj
+model.layers.11.self_attn.v_proj
+model.layers.11.self_attn.o_proj
+model.layers.11.self_attn.rotary_emb
+model.layers.11.mlp
+model.layers.11.mlp.gate_proj
+model.layers.11.mlp.down_proj
+model.layers.11.mlp.up_proj
+model.layers.11.mlp.act_fn
+model.layers.11.input_layernorm
+model.layers.11.post_attention_layernorm
+model.layers.12
+model.layers.12.self_attn
+model.layers.12.self_attn.q_proj
+model.layers.12.self_attn.k_proj
+model.layers.12.self_attn.v_proj
+model.layers.12.self_attn.o_proj
+model.layers.12.self_attn.rotary_emb
+model.layers.12.mlp
+model.layers.12.mlp.gate_proj
+model.layers.12.mlp.down_proj
+model.layers.12.mlp.up_proj
+model.layers.12.mlp.act_fn
+model.layers.12.input_layernorm
+model.layers.12.post_attention_layernorm
+model.layers.13
+model.layers.13.self_attn
+model.layers.13.self_attn.q_proj
+model.layers.13.self_attn.k_proj
+model.layers.13.self_attn.v_proj
+model.layers.13.self_attn.o_proj
+model.layers.13.self_attn.rotary_emb
+model.layers.13.mlp
+model.layers.13.mlp.gate_proj
+model.layers.13.mlp.down_proj
+model.layers.13.mlp.up_proj
+model.layers.13.mlp.act_fn
+model.layers.13.input_layernorm
+model.layers.13.post_attention_layernorm
+model.layers.14
+model.layers.14.self_attn
+model.layers.14.self_attn.q_proj
+model.layers.14.self_attn.k_proj
+model.layers.14.self_attn.v_proj
+model.layers.14.self_attn.o_proj
+model.layers.14.self_attn.rotary_emb
+model.layers.14.mlp
+model.layers.14.mlp.gate_proj
+model.layers.14.mlp.down_proj
+model.layers.14.mlp.up_proj
+model.layers.14.mlp.act_fn
+model.layers.14.input_layernorm
+model.layers.14.post_attention_layernorm
+model.layers.15
+model.layers.15.self_attn
+model.layers.15.self_attn.q_proj
+model.layers.15.self_attn.k_proj
+model.layers.15.self_attn.v_proj
+model.layers.15.self_attn.o_proj
+model.layers.15.self_attn.rotary_emb
+model.layers.15.mlp
+model.layers.15.mlp.gate_proj
+model.layers.15.mlp.down_proj
+model.layers.15.mlp.up_proj
+model.layers.15.mlp.act_fn
+model.layers.15.input_layernorm
+model.layers.15.post_attention_layernorm
+model.layers.16
+model.layers.16.self_attn
+model.layers.16.self_attn.q_proj
+model.layers.16.self_attn.k_proj
+model.layers.16.self_attn.v_proj
+model.layers.16.self_attn.o_proj
+model.layers.16.self_attn.rotary_emb
+model.layers.16.mlp
+model.layers.16.mlp.gate_proj
+model.layers.16.mlp.down_proj
+model.layers.16.mlp.up_proj
+model.layers.16.mlp.act_fn
+model.layers.16.input_layernorm
+model.layers.16.post_attention_layernorm
+model.layers.17
+model.layers.17.self_attn
+model.layers.17.self_attn.q_proj
+model.layers.17.self_attn.k_proj
+model.layers.17.self_attn.v_proj
+model.layers.17.self_attn.o_proj
+model.layers.17.self_attn.rotary_emb
+model.layers.17.mlp
+model.layers.17.mlp.gate_proj
+model.layers.17.mlp.down_proj
+model.layers.17.mlp.up_proj
+model.layers.17.mlp.act_fn
+model.layers.17.input_layernorm
+model.layers.17.post_attention_layernorm
+model.layers.18
+model.layers.18.self_attn
+model.layers.18.self_attn.q_proj
+model.layers.18.self_attn.k_proj
+model.layers.18.self_attn.v_proj
+model.layers.18.self_attn.o_proj
+model.layers.18.self_attn.rotary_emb
+model.layers.18.mlp
+model.layers.18.mlp.gate_proj
+model.layers.18.mlp.down_proj
+model.layers.18.mlp.up_proj
+model.layers.18.mlp.act_fn
+model.layers.18.input_layernorm
+model.layers.18.post_attention_layernorm
+model.layers.19
+model.layers.19.self_attn
+model.layers.19.self_attn.q_proj
+model.layers.19.self_attn.k_proj
+model.layers.19.self_attn.v_proj
+model.layers.19.self_attn.o_proj
+model.layers.19.self_attn.rotary_emb
+model.layers.19.mlp
+model.layers.19.mlp.gate_proj
+model.layers.19.mlp.down_proj
+model.layers.19.mlp.up_proj
+model.layers.19.mlp.act_fn
+model.layers.19.input_layernorm
+model.layers.19.post_attention_layernorm
+model.layers.20
+model.layers.20.self_attn
+model.layers.20.self_attn.q_proj
+model.layers.20.self_attn.k_proj
+model.layers.20.self_attn.v_proj
+model.layers.20.self_attn.o_proj
+model.layers.20.self_attn.rotary_emb
+model.layers.20.mlp
+model.layers.20.mlp.gate_proj
+model.layers.20.mlp.down_proj
+model.layers.20.mlp.up_proj
+model.layers.20.mlp.act_fn
+model.layers.20.input_layernorm
+model.layers.20.post_attention_layernorm
+model.layers.21
+model.layers.21.self_attn
+model.layers.21.self_attn.q_proj
+model.layers.21.self_attn.k_proj
+model.layers.21.self_attn.v_proj
+model.layers.21.self_attn.o_proj
+model.layers.21.self_attn.rotary_emb
+model.layers.21.mlp
+model.layers.21.mlp.gate_proj
+model.layers.21.mlp.down_proj
+model.layers.21.mlp.up_proj
+model.layers.21.mlp.act_fn
+model.layers.21.input_layernorm
+model.layers.21.post_attention_layernorm
+model.layers.22
+model.layers.22.self_attn
+model.layers.22.self_attn.q_proj
+model.layers.22.self_attn.k_proj
+model.layers.22.self_attn.v_proj
+model.layers.22.self_attn.o_proj
+model.layers.22.self_attn.rotary_emb
+model.layers.22.mlp
+model.layers.22.mlp.gate_proj
+model.layers.22.mlp.down_proj
+model.layers.22.mlp.up_proj
+model.layers.22.mlp.act_fn
+model.layers.22.input_layernorm
+model.layers.22.post_attention_layernorm
+model.layers.23
+model.layers.23.self_attn
+model.layers.23.self_attn.q_proj
+model.layers.23.self_attn.k_proj
+model.layers.23.self_attn.v_proj
+model.layers.23.self_attn.o_proj
+model.layers.23.self_attn.rotary_emb
+model.layers.23.mlp
+model.layers.23.mlp.gate_proj
+model.layers.23.mlp.down_proj
+model.layers.23.mlp.up_proj
+model.layers.23.mlp.act_fn
+model.layers.23.input_layernorm
+model.layers.23.post_attention_layernorm
+model.layers.24
+model.layers.24.self_attn
+model.layers.24.self_attn.q_proj
+model.layers.24.self_attn.k_proj
+model.layers.24.self_attn.v_proj
+model.layers.24.self_attn.o_proj
+model.layers.24.self_attn.rotary_emb
+model.layers.24.mlp
+model.layers.24.mlp.gate_proj
+model.layers.24.mlp.down_proj
+model.layers.24.mlp.up_proj
+model.layers.24.mlp.act_fn
+model.layers.24.input_layernorm
+model.layers.24.post_attention_layernorm
+model.layers.25
+model.layers.25.self_attn
+model.layers.25.self_attn.q_proj
+model.layers.25.self_attn.k_proj
+model.layers.25.self_attn.v_proj
+model.layers.25.self_attn.o_proj
+model.layers.25.self_attn.rotary_emb
+model.layers.25.mlp
+model.layers.25.mlp.gate_proj
+model.layers.25.mlp.down_proj
+model.layers.25.mlp.up_proj
+model.layers.25.mlp.act_fn
+model.layers.25.input_layernorm
+model.layers.25.post_attention_layernorm
+model.layers.26
+model.layers.26.self_attn
+model.layers.26.self_attn.q_proj
+model.layers.26.self_attn.k_proj
+model.layers.26.self_attn.v_proj
+model.layers.26.self_attn.o_proj
+model.layers.26.self_attn.rotary_emb
+model.layers.26.mlp
+model.layers.26.mlp.gate_proj
+model.layers.26.mlp.down_proj
+model.layers.26.mlp.up_proj
+model.layers.26.mlp.act_fn
+model.layers.26.input_layernorm
+model.layers.26.post_attention_layernorm
+model.layers.27
+model.layers.27.self_attn
+model.layers.27.self_attn.q_proj
+model.layers.27.self_attn.k_proj
+model.layers.27.self_attn.v_proj
+model.layers.27.self_attn.o_proj
+model.layers.27.self_attn.rotary_emb
+model.layers.27.mlp
+model.layers.27.mlp.gate_proj
+model.layers.27.mlp.down_proj
+model.layers.27.mlp.up_proj
+model.layers.27.mlp.act_fn
+model.layers.27.input_layernorm
+model.layers.27.post_attention_layernorm
+model.layers.28
+model.layers.28.self_attn
+model.layers.28.self_attn.q_proj
+model.layers.28.self_attn.k_proj
+model.layers.28.self_attn.v_proj
+model.layers.28.self_attn.o_proj
+model.layers.28.self_attn.rotary_emb
+model.layers.28.mlp
+model.layers.28.mlp.gate_proj
+model.layers.28.mlp.down_proj
+model.layers.28.mlp.up_proj
+model.layers.28.mlp.act_fn
+model.layers.28.input_layernorm
+model.layers.28.post_attention_layernorm
+model.layers.29
+model.layers.29.self_attn
+model.layers.29.self_attn.q_proj
+model.layers.29.self_attn.k_proj
+model.layers.29.self_attn.v_proj
+model.layers.29.self_attn.o_proj
+model.layers.29.self_attn.rotary_emb
+model.layers.29.mlp
+model.layers.29.mlp.gate_proj
+model.layers.29.mlp.down_proj
+model.layers.29.mlp.up_proj
+model.layers.29.mlp.act_fn
+model.layers.29.input_layernorm
+model.layers.29.post_attention_layernorm
+model.layers.30
+model.layers.30.self_attn
+model.layers.30.self_attn.q_proj
+model.layers.30.self_attn.k_proj
+model.layers.30.self_attn.v_proj
+model.layers.30.self_attn.o_proj
+model.layers.30.self_attn.rotary_emb
+model.layers.30.mlp
+model.layers.30.mlp.gate_proj
+model.layers.30.mlp.down_proj
+model.layers.30.mlp.up_proj
+model.layers.30.mlp.act_fn
+model.layers.30.input_layernorm
+model.layers.30.post_attention_layernorm
+model.layers.31
+model.layers.31.self_attn
+model.layers.31.self_attn.q_proj
+model.layers.31.self_attn.k_proj
+model.layers.31.self_attn.v_proj
+model.layers.31.self_attn.o_proj
+model.layers.31.self_attn.rotary_emb
+model.layers.31.mlp
+model.layers.31.mlp.gate_proj
+model.layers.31.mlp.down_proj
+model.layers.31.mlp.up_proj
+model.layers.31.mlp.act_fn
+model.layers.31.input_layernorm
+model.layers.31.post_attention_layernorm
+model.norm
+model.vision_tower
+model.mm_projector
+model.mm_projector.0
+model.mm_projector.1
+model.mm_projector.2
+model.region_encoder
+model.region_encoder.mlvl_fuse
+model.region_encoder.mlvl_fuse.input_conv
+model.region_encoder.mlvl_fuse.input_conv.0
+model.region_encoder.mlvl_fuse.input_conv.1
+model.region_encoder.mlvl_fuse.input_conv.2
+model.region_encoder.mlvl_fuse.input_conv.3
+model.region_encoder.mlvl_fuse.fuse_convs
+model.region_encoder.mlvl_fuse.fuse_convs.0
+model.region_encoder.mlvl_fuse.fuse_convs.0.conv
+model.region_encoder.mlvl_fuse.fuse_convs.0.gn
+model.region_encoder.mlvl_fuse.fuse_convs.0.activate
+model.region_encoder.mlvl_fuse.fuse_convs.1
+model.region_encoder.mlvl_fuse.fuse_convs.1.conv
+model.region_encoder.mlvl_fuse.fuse_convs.1.gn
+model.region_encoder.mlvl_fuse.fuse_convs.1.activate
+model.region_encoder.mlvl_fuse.fuse_convs.2
+model.region_encoder.mlvl_fuse.fuse_convs.2.conv
+model.region_encoder.mlvl_fuse.fuse_convs.2.gn
+model.region_encoder.mlvl_fuse.fuse_convs.2.activate
+model.region_encoder.mlvl_fuse.fuse_convs.3
+model.region_encoder.mlvl_fuse.fuse_convs.3.conv
+model.region_encoder.mlvl_fuse.fuse_convs.3.gn
+model.region_encoder.mlvl_fuse.fuse_convs.3.activate
+model.region_encoder.mlvl_fuse.fuse_convs.4
+model.region_encoder.mlvl_fuse.fuse_convs.4.conv
+model.region_encoder.mlvl_fuse.fuse_convs.4.gn
+model.region_encoder.mlvl_fuse.fuse_convs.4.activate
+model.region_encoder.roi_align
+model.region_encoder.roi_align.roi_layers
+model.region_encoder.roi_align.roi_layers.0
+model.region_encoder.roi_align.roi_layers.1
+model.region_encoder.roi_align.roi_layers.2
+model.region_encoder.roi_align.roi_layers.3
+model.region_encoder.roi_align.pconvs
+model.region_encoder.roi_align.pconvs.0
+model.region_encoder.roi_align.pconvs.1
+model.region_encoder.roi_align.pconvs.2
+model.region_encoder.roi_align.pconvs.3
+model.region_encoder.roi_align.pos_embedd
+model.region_encoder.roi_align.pos_embedd.0
+model.region_encoder.roi_align.pos_embedd.1
+model.region_encoder.roi_align.pos_embedd.2
+model.region_encoder.roi_align.pos_embedd.3
+model.region_encoder.roi_align.pos_embedd.4
+model.region_encoder.roi_align.pos_embedd.5
+model.region_encoder.roi_align.updims
+model.region_encoder.roi_align.flatten_linear
+model.grounding_encoder
+model.grounding_encoder.image_encoder
+model.grounding_encoder.image_encoder.patch_embed
+model.grounding_encoder.image_encoder.patch_embed.proj
+model.grounding_encoder.image_encoder.blocks
+model.grounding_encoder.image_encoder.blocks.0
+model.grounding_encoder.image_encoder.blocks.0.norm1
+model.grounding_encoder.image_encoder.blocks.0.attn
+model.grounding_encoder.image_encoder.blocks.0.attn.qkv
+model.grounding_encoder.image_encoder.blocks.0.attn.proj
+model.grounding_encoder.image_encoder.blocks.0.norm2
+model.grounding_encoder.image_encoder.blocks.0.mlp
+model.grounding_encoder.image_encoder.blocks.0.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.0.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.0.mlp.act
+model.grounding_encoder.image_encoder.blocks.1
+model.grounding_encoder.image_encoder.blocks.1.norm1
+model.grounding_encoder.image_encoder.blocks.1.attn
+model.grounding_encoder.image_encoder.blocks.1.attn.qkv
+model.grounding_encoder.image_encoder.blocks.1.attn.proj
+model.grounding_encoder.image_encoder.blocks.1.norm2
+model.grounding_encoder.image_encoder.blocks.1.mlp
+model.grounding_encoder.image_encoder.blocks.1.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.1.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.1.mlp.act
+model.grounding_encoder.image_encoder.blocks.2
+model.grounding_encoder.image_encoder.blocks.2.norm1
+model.grounding_encoder.image_encoder.blocks.2.attn
+model.grounding_encoder.image_encoder.blocks.2.attn.qkv
+model.grounding_encoder.image_encoder.blocks.2.attn.proj
+model.grounding_encoder.image_encoder.blocks.2.norm2
+model.grounding_encoder.image_encoder.blocks.2.mlp
+model.grounding_encoder.image_encoder.blocks.2.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.2.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.2.mlp.act
+model.grounding_encoder.image_encoder.blocks.3
+model.grounding_encoder.image_encoder.blocks.3.norm1
+model.grounding_encoder.image_encoder.blocks.3.attn
+model.grounding_encoder.image_encoder.blocks.3.attn.qkv
+model.grounding_encoder.image_encoder.blocks.3.attn.proj
+model.grounding_encoder.image_encoder.blocks.3.norm2
+model.grounding_encoder.image_encoder.blocks.3.mlp
+model.grounding_encoder.image_encoder.blocks.3.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.3.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.3.mlp.act
+model.grounding_encoder.image_encoder.blocks.4
+model.grounding_encoder.image_encoder.blocks.4.norm1
+model.grounding_encoder.image_encoder.blocks.4.attn
+model.grounding_encoder.image_encoder.blocks.4.attn.qkv
+model.grounding_encoder.image_encoder.blocks.4.attn.proj
+model.grounding_encoder.image_encoder.blocks.4.norm2
+model.grounding_encoder.image_encoder.blocks.4.mlp
+model.grounding_encoder.image_encoder.blocks.4.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.4.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.4.mlp.act
+model.grounding_encoder.image_encoder.blocks.5
+model.grounding_encoder.image_encoder.blocks.5.norm1
+model.grounding_encoder.image_encoder.blocks.5.attn
+model.grounding_encoder.image_encoder.blocks.5.attn.qkv
+model.grounding_encoder.image_encoder.blocks.5.attn.proj
+model.grounding_encoder.image_encoder.blocks.5.norm2
+model.grounding_encoder.image_encoder.blocks.5.mlp
+model.grounding_encoder.image_encoder.blocks.5.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.5.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.5.mlp.act
+model.grounding_encoder.image_encoder.blocks.6
+model.grounding_encoder.image_encoder.blocks.6.norm1
+model.grounding_encoder.image_encoder.blocks.6.attn
+model.grounding_encoder.image_encoder.blocks.6.attn.qkv
+model.grounding_encoder.image_encoder.blocks.6.attn.proj
+model.grounding_encoder.image_encoder.blocks.6.norm2
+model.grounding_encoder.image_encoder.blocks.6.mlp
+model.grounding_encoder.image_encoder.blocks.6.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.6.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.6.mlp.act
+model.grounding_encoder.image_encoder.blocks.7
+model.grounding_encoder.image_encoder.blocks.7.norm1
+model.grounding_encoder.image_encoder.blocks.7.attn
+model.grounding_encoder.image_encoder.blocks.7.attn.qkv
+model.grounding_encoder.image_encoder.blocks.7.attn.proj
+model.grounding_encoder.image_encoder.blocks.7.norm2
+model.grounding_encoder.image_encoder.blocks.7.mlp
+model.grounding_encoder.image_encoder.blocks.7.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.7.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.7.mlp.act
+model.grounding_encoder.image_encoder.blocks.8
+model.grounding_encoder.image_encoder.blocks.8.norm1
+model.grounding_encoder.image_encoder.blocks.8.attn
+model.grounding_encoder.image_encoder.blocks.8.attn.qkv
+model.grounding_encoder.image_encoder.blocks.8.attn.proj
+model.grounding_encoder.image_encoder.blocks.8.norm2
+model.grounding_encoder.image_encoder.blocks.8.mlp
+model.grounding_encoder.image_encoder.blocks.8.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.8.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.8.mlp.act
+model.grounding_encoder.image_encoder.blocks.9
+model.grounding_encoder.image_encoder.blocks.9.norm1
+model.grounding_encoder.image_encoder.blocks.9.attn
+model.grounding_encoder.image_encoder.blocks.9.attn.qkv
+model.grounding_encoder.image_encoder.blocks.9.attn.proj
+model.grounding_encoder.image_encoder.blocks.9.norm2
+model.grounding_encoder.image_encoder.blocks.9.mlp
+model.grounding_encoder.image_encoder.blocks.9.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.9.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.9.mlp.act
+model.grounding_encoder.image_encoder.blocks.10
+model.grounding_encoder.image_encoder.blocks.10.norm1
+model.grounding_encoder.image_encoder.blocks.10.attn
+model.grounding_encoder.image_encoder.blocks.10.attn.qkv
+model.grounding_encoder.image_encoder.blocks.10.attn.proj
+model.grounding_encoder.image_encoder.blocks.10.norm2
+model.grounding_encoder.image_encoder.blocks.10.mlp
+model.grounding_encoder.image_encoder.blocks.10.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.10.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.10.mlp.act
+model.grounding_encoder.image_encoder.blocks.11
+model.grounding_encoder.image_encoder.blocks.11.norm1
+model.grounding_encoder.image_encoder.blocks.11.attn
+model.grounding_encoder.image_encoder.blocks.11.attn.qkv
+model.grounding_encoder.image_encoder.blocks.11.attn.proj
+model.grounding_encoder.image_encoder.blocks.11.norm2
+model.grounding_encoder.image_encoder.blocks.11.mlp
+model.grounding_encoder.image_encoder.blocks.11.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.11.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.11.mlp.act
+model.grounding_encoder.image_encoder.blocks.12
+model.grounding_encoder.image_encoder.blocks.12.norm1
+model.grounding_encoder.image_encoder.blocks.12.attn
+model.grounding_encoder.image_encoder.blocks.12.attn.qkv
+model.grounding_encoder.image_encoder.blocks.12.attn.proj
+model.grounding_encoder.image_encoder.blocks.12.norm2
+model.grounding_encoder.image_encoder.blocks.12.mlp
+model.grounding_encoder.image_encoder.blocks.12.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.12.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.12.mlp.act
+model.grounding_encoder.image_encoder.blocks.13
+model.grounding_encoder.image_encoder.blocks.13.norm1
+model.grounding_encoder.image_encoder.blocks.13.attn
+model.grounding_encoder.image_encoder.blocks.13.attn.qkv
+model.grounding_encoder.image_encoder.blocks.13.attn.proj
+model.grounding_encoder.image_encoder.blocks.13.norm2
+model.grounding_encoder.image_encoder.blocks.13.mlp
+model.grounding_encoder.image_encoder.blocks.13.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.13.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.13.mlp.act
+model.grounding_encoder.image_encoder.blocks.14
+model.grounding_encoder.image_encoder.blocks.14.norm1
+model.grounding_encoder.image_encoder.blocks.14.attn
+model.grounding_encoder.image_encoder.blocks.14.attn.qkv
+model.grounding_encoder.image_encoder.blocks.14.attn.proj
+model.grounding_encoder.image_encoder.blocks.14.norm2
+model.grounding_encoder.image_encoder.blocks.14.mlp
+model.grounding_encoder.image_encoder.blocks.14.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.14.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.14.mlp.act
+model.grounding_encoder.image_encoder.blocks.15
+model.grounding_encoder.image_encoder.blocks.15.norm1
+model.grounding_encoder.image_encoder.blocks.15.attn
+model.grounding_encoder.image_encoder.blocks.15.attn.qkv
+model.grounding_encoder.image_encoder.blocks.15.attn.proj
+model.grounding_encoder.image_encoder.blocks.15.norm2
+model.grounding_encoder.image_encoder.blocks.15.mlp
+model.grounding_encoder.image_encoder.blocks.15.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.15.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.15.mlp.act
+model.grounding_encoder.image_encoder.blocks.16
+model.grounding_encoder.image_encoder.blocks.16.norm1
+model.grounding_encoder.image_encoder.blocks.16.attn
+model.grounding_encoder.image_encoder.blocks.16.attn.qkv
+model.grounding_encoder.image_encoder.blocks.16.attn.proj
+model.grounding_encoder.image_encoder.blocks.16.norm2
+model.grounding_encoder.image_encoder.blocks.16.mlp
+model.grounding_encoder.image_encoder.blocks.16.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.16.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.16.mlp.act
+model.grounding_encoder.image_encoder.blocks.17
+model.grounding_encoder.image_encoder.blocks.17.norm1
+model.grounding_encoder.image_encoder.blocks.17.attn
+model.grounding_encoder.image_encoder.blocks.17.attn.qkv
+model.grounding_encoder.image_encoder.blocks.17.attn.proj
+model.grounding_encoder.image_encoder.blocks.17.norm2
+model.grounding_encoder.image_encoder.blocks.17.mlp
+model.grounding_encoder.image_encoder.blocks.17.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.17.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.17.mlp.act
+model.grounding_encoder.image_encoder.blocks.18
+model.grounding_encoder.image_encoder.blocks.18.norm1
+model.grounding_encoder.image_encoder.blocks.18.attn
+model.grounding_encoder.image_encoder.blocks.18.attn.qkv
+model.grounding_encoder.image_encoder.blocks.18.attn.proj
+model.grounding_encoder.image_encoder.blocks.18.norm2
+model.grounding_encoder.image_encoder.blocks.18.mlp
+model.grounding_encoder.image_encoder.blocks.18.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.18.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.18.mlp.act
+model.grounding_encoder.image_encoder.blocks.19
+model.grounding_encoder.image_encoder.blocks.19.norm1
+model.grounding_encoder.image_encoder.blocks.19.attn
+model.grounding_encoder.image_encoder.blocks.19.attn.qkv
+model.grounding_encoder.image_encoder.blocks.19.attn.proj
+model.grounding_encoder.image_encoder.blocks.19.norm2
+model.grounding_encoder.image_encoder.blocks.19.mlp
+model.grounding_encoder.image_encoder.blocks.19.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.19.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.19.mlp.act
+model.grounding_encoder.image_encoder.blocks.20
+model.grounding_encoder.image_encoder.blocks.20.norm1
+model.grounding_encoder.image_encoder.blocks.20.attn
+model.grounding_encoder.image_encoder.blocks.20.attn.qkv
+model.grounding_encoder.image_encoder.blocks.20.attn.proj
+model.grounding_encoder.image_encoder.blocks.20.norm2
+model.grounding_encoder.image_encoder.blocks.20.mlp
+model.grounding_encoder.image_encoder.blocks.20.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.20.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.20.mlp.act
+model.grounding_encoder.image_encoder.blocks.21
+model.grounding_encoder.image_encoder.blocks.21.norm1
+model.grounding_encoder.image_encoder.blocks.21.attn
+model.grounding_encoder.image_encoder.blocks.21.attn.qkv
+model.grounding_encoder.image_encoder.blocks.21.attn.proj
+model.grounding_encoder.image_encoder.blocks.21.norm2
+model.grounding_encoder.image_encoder.blocks.21.mlp
+model.grounding_encoder.image_encoder.blocks.21.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.21.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.21.mlp.act
+model.grounding_encoder.image_encoder.blocks.22
+model.grounding_encoder.image_encoder.blocks.22.norm1
+model.grounding_encoder.image_encoder.blocks.22.attn
+model.grounding_encoder.image_encoder.blocks.22.attn.qkv
+model.grounding_encoder.image_encoder.blocks.22.attn.proj
+model.grounding_encoder.image_encoder.blocks.22.norm2
+model.grounding_encoder.image_encoder.blocks.22.mlp
+model.grounding_encoder.image_encoder.blocks.22.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.22.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.22.mlp.act
+model.grounding_encoder.image_encoder.blocks.23
+model.grounding_encoder.image_encoder.blocks.23.norm1
+model.grounding_encoder.image_encoder.blocks.23.attn
+model.grounding_encoder.image_encoder.blocks.23.attn.qkv
+model.grounding_encoder.image_encoder.blocks.23.attn.proj
+model.grounding_encoder.image_encoder.blocks.23.norm2
+model.grounding_encoder.image_encoder.blocks.23.mlp
+model.grounding_encoder.image_encoder.blocks.23.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.23.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.23.mlp.act
+model.grounding_encoder.image_encoder.blocks.24
+model.grounding_encoder.image_encoder.blocks.24.norm1
+model.grounding_encoder.image_encoder.blocks.24.attn
+model.grounding_encoder.image_encoder.blocks.24.attn.qkv
+model.grounding_encoder.image_encoder.blocks.24.attn.proj
+model.grounding_encoder.image_encoder.blocks.24.norm2
+model.grounding_encoder.image_encoder.blocks.24.mlp
+model.grounding_encoder.image_encoder.blocks.24.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.24.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.24.mlp.act
+model.grounding_encoder.image_encoder.blocks.25
+model.grounding_encoder.image_encoder.blocks.25.norm1
+model.grounding_encoder.image_encoder.blocks.25.attn
+model.grounding_encoder.image_encoder.blocks.25.attn.qkv
+model.grounding_encoder.image_encoder.blocks.25.attn.proj
+model.grounding_encoder.image_encoder.blocks.25.norm2
+model.grounding_encoder.image_encoder.blocks.25.mlp
+model.grounding_encoder.image_encoder.blocks.25.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.25.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.25.mlp.act
+model.grounding_encoder.image_encoder.blocks.26
+model.grounding_encoder.image_encoder.blocks.26.norm1
+model.grounding_encoder.image_encoder.blocks.26.attn
+model.grounding_encoder.image_encoder.blocks.26.attn.qkv
+model.grounding_encoder.image_encoder.blocks.26.attn.proj
+model.grounding_encoder.image_encoder.blocks.26.norm2
+model.grounding_encoder.image_encoder.blocks.26.mlp
+model.grounding_encoder.image_encoder.blocks.26.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.26.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.26.mlp.act
+model.grounding_encoder.image_encoder.blocks.27
+model.grounding_encoder.image_encoder.blocks.27.norm1
+model.grounding_encoder.image_encoder.blocks.27.attn
+model.grounding_encoder.image_encoder.blocks.27.attn.qkv
+model.grounding_encoder.image_encoder.blocks.27.attn.proj
+model.grounding_encoder.image_encoder.blocks.27.norm2
+model.grounding_encoder.image_encoder.blocks.27.mlp
+model.grounding_encoder.image_encoder.blocks.27.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.27.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.27.mlp.act
+model.grounding_encoder.image_encoder.blocks.28
+model.grounding_encoder.image_encoder.blocks.28.norm1
+model.grounding_encoder.image_encoder.blocks.28.attn
+model.grounding_encoder.image_encoder.blocks.28.attn.qkv
+model.grounding_encoder.image_encoder.blocks.28.attn.proj
+model.grounding_encoder.image_encoder.blocks.28.norm2
+model.grounding_encoder.image_encoder.blocks.28.mlp
+model.grounding_encoder.image_encoder.blocks.28.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.28.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.28.mlp.act
+model.grounding_encoder.image_encoder.blocks.29
+model.grounding_encoder.image_encoder.blocks.29.norm1
+model.grounding_encoder.image_encoder.blocks.29.attn
+model.grounding_encoder.image_encoder.blocks.29.attn.qkv
+model.grounding_encoder.image_encoder.blocks.29.attn.proj
+model.grounding_encoder.image_encoder.blocks.29.norm2
+model.grounding_encoder.image_encoder.blocks.29.mlp
+model.grounding_encoder.image_encoder.blocks.29.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.29.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.29.mlp.act
+model.grounding_encoder.image_encoder.blocks.30
+model.grounding_encoder.image_encoder.blocks.30.norm1
+model.grounding_encoder.image_encoder.blocks.30.attn
+model.grounding_encoder.image_encoder.blocks.30.attn.qkv
+model.grounding_encoder.image_encoder.blocks.30.attn.proj
+model.grounding_encoder.image_encoder.blocks.30.norm2
+model.grounding_encoder.image_encoder.blocks.30.mlp
+model.grounding_encoder.image_encoder.blocks.30.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.30.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.30.mlp.act
+model.grounding_encoder.image_encoder.blocks.31
+model.grounding_encoder.image_encoder.blocks.31.norm1
+model.grounding_encoder.image_encoder.blocks.31.attn
+model.grounding_encoder.image_encoder.blocks.31.attn.qkv
+model.grounding_encoder.image_encoder.blocks.31.attn.proj
+model.grounding_encoder.image_encoder.blocks.31.norm2
+model.grounding_encoder.image_encoder.blocks.31.mlp
+model.grounding_encoder.image_encoder.blocks.31.mlp.lin1
+model.grounding_encoder.image_encoder.blocks.31.mlp.lin2
+model.grounding_encoder.image_encoder.blocks.31.mlp.act
+model.grounding_encoder.image_encoder.neck
+model.grounding_encoder.image_encoder.neck.0
+model.grounding_encoder.image_encoder.neck.1
+model.grounding_encoder.image_encoder.neck.2
+model.grounding_encoder.image_encoder.neck.3
+model.grounding_encoder.prompt_encoder
+model.grounding_encoder.prompt_encoder.pe_layer
+model.grounding_encoder.prompt_encoder.point_embeddings
+model.grounding_encoder.prompt_encoder.point_embeddings.0
+model.grounding_encoder.prompt_encoder.point_embeddings.1
+model.grounding_encoder.prompt_encoder.point_embeddings.2
+model.grounding_encoder.prompt_encoder.point_embeddings.3
+model.grounding_encoder.prompt_encoder.not_a_point_embed
+model.grounding_encoder.prompt_encoder.mask_downscaling
+model.grounding_encoder.prompt_encoder.mask_downscaling.0
+model.grounding_encoder.prompt_encoder.mask_downscaling.1
+model.grounding_encoder.prompt_encoder.mask_downscaling.2
+model.grounding_encoder.prompt_encoder.mask_downscaling.3
+model.grounding_encoder.prompt_encoder.mask_downscaling.4
+model.grounding_encoder.prompt_encoder.mask_downscaling.5
+model.grounding_encoder.prompt_encoder.mask_downscaling.6
+model.grounding_encoder.prompt_encoder.no_mask_embed
+model.grounding_encoder.mask_decoder
+model.grounding_encoder.mask_decoder.transformer
+model.grounding_encoder.mask_decoder.transformer.layers
+model.grounding_encoder.mask_decoder.transformer.layers.0
+model.grounding_encoder.mask_decoder.transformer.layers.0.self_attn
+model.grounding_encoder.mask_decoder.transformer.layers.0.self_attn.q_proj
+model.grounding_encoder.mask_decoder.transformer.layers.0.self_attn.k_proj
+model.grounding_encoder.mask_decoder.transformer.layers.0.self_attn.v_proj
+model.grounding_encoder.mask_decoder.transformer.layers.0.self_attn.out_proj
+model.grounding_encoder.mask_decoder.transformer.layers.0.norm1
+model.grounding_encoder.mask_decoder.transformer.layers.0.cross_attn_token_to_image
+model.grounding_encoder.mask_decoder.transformer.layers.0.cross_attn_token_to_image.q_proj
+model.grounding_encoder.mask_decoder.transformer.layers.0.cross_attn_token_to_image.k_proj
+model.grounding_encoder.mask_decoder.transformer.layers.0.cross_attn_token_to_image.v_proj
+model.grounding_encoder.mask_decoder.transformer.layers.0.cross_attn_token_to_image.out_proj
+model.grounding_encoder.mask_decoder.transformer.layers.0.norm2
+model.grounding_encoder.mask_decoder.transformer.layers.0.mlp
+model.grounding_encoder.mask_decoder.transformer.layers.0.mlp.lin1
+model.grounding_encoder.mask_decoder.transformer.layers.0.mlp.lin2
+model.grounding_encoder.mask_decoder.transformer.layers.0.mlp.act
+model.grounding_encoder.mask_decoder.transformer.layers.0.norm3
+model.grounding_encoder.mask_decoder.transformer.layers.0.norm4
+model.grounding_encoder.mask_decoder.transformer.layers.0.cross_attn_image_to_token
+model.grounding_encoder.mask_decoder.transformer.layers.0.cross_attn_image_to_token.q_proj
+model.grounding_encoder.mask_decoder.transformer.layers.0.cross_attn_image_to_token.k_proj
+model.grounding_encoder.mask_decoder.transformer.layers.0.cross_attn_image_to_token.v_proj
+model.grounding_encoder.mask_decoder.transformer.layers.0.cross_attn_image_to_token.out_proj
+model.grounding_encoder.mask_decoder.transformer.layers.1
+model.grounding_encoder.mask_decoder.transformer.layers.1.self_attn
+model.grounding_encoder.mask_decoder.transformer.layers.1.self_attn.q_proj
+model.grounding_encoder.mask_decoder.transformer.layers.1.self_attn.k_proj
+model.grounding_encoder.mask_decoder.transformer.layers.1.self_attn.v_proj
+model.grounding_encoder.mask_decoder.transformer.layers.1.self_attn.out_proj
+model.grounding_encoder.mask_decoder.transformer.layers.1.norm1
+model.grounding_encoder.mask_decoder.transformer.layers.1.cross_attn_token_to_image
+model.grounding_encoder.mask_decoder.transformer.layers.1.cross_attn_token_to_image.q_proj
+model.grounding_encoder.mask_decoder.transformer.layers.1.cross_attn_token_to_image.k_proj
+model.grounding_encoder.mask_decoder.transformer.layers.1.cross_attn_token_to_image.v_proj
+model.grounding_encoder.mask_decoder.transformer.layers.1.cross_attn_token_to_image.out_proj
+model.grounding_encoder.mask_decoder.transformer.layers.1.norm2
+model.grounding_encoder.mask_decoder.transformer.layers.1.mlp
+model.grounding_encoder.mask_decoder.transformer.layers.1.mlp.lin1
+model.grounding_encoder.mask_decoder.transformer.layers.1.mlp.lin2
+model.grounding_encoder.mask_decoder.transformer.layers.1.mlp.act
+model.grounding_encoder.mask_decoder.transformer.layers.1.norm3
+model.grounding_encoder.mask_decoder.transformer.layers.1.norm4
+model.grounding_encoder.mask_decoder.transformer.layers.1.cross_attn_image_to_token
+model.grounding_encoder.mask_decoder.transformer.layers.1.cross_attn_image_to_token.q_proj
+model.grounding_encoder.mask_decoder.transformer.layers.1.cross_attn_image_to_token.k_proj
+model.grounding_encoder.mask_decoder.transformer.layers.1.cross_attn_image_to_token.v_proj
+model.grounding_encoder.mask_decoder.transformer.layers.1.cross_attn_image_to_token.out_proj
+model.grounding_encoder.mask_decoder.transformer.final_attn_token_to_image
+model.grounding_encoder.mask_decoder.transformer.final_attn_token_to_image.q_proj
+model.grounding_encoder.mask_decoder.transformer.final_attn_token_to_image.k_proj
+model.grounding_encoder.mask_decoder.transformer.final_attn_token_to_image.v_proj
+model.grounding_encoder.mask_decoder.transformer.final_attn_token_to_image.out_proj
+model.grounding_encoder.mask_decoder.transformer.norm_final_attn
+model.grounding_encoder.mask_decoder.iou_token
+model.grounding_encoder.mask_decoder.mask_tokens
+model.grounding_encoder.mask_decoder.output_upscaling
+model.grounding_encoder.mask_decoder.output_upscaling.0
+model.grounding_encoder.mask_decoder.output_upscaling.1
+model.grounding_encoder.mask_decoder.output_upscaling.2
+model.grounding_encoder.mask_decoder.output_upscaling.3
+model.grounding_encoder.mask_decoder.output_upscaling.4
+model.grounding_encoder.mask_decoder.output_hypernetworks_mlps
+model.grounding_encoder.mask_decoder.output_hypernetworks_mlps.0
+model.grounding_encoder.mask_decoder.output_hypernetworks_mlps.0.layers
+model.grounding_encoder.mask_decoder.output_hypernetworks_mlps.0.layers.0
+model.grounding_encoder.mask_decoder.output_hypernetworks_mlps.0.layers.1
+model.grounding_encoder.mask_decoder.output_hypernetworks_mlps.0.layers.2
+model.grounding_encoder.mask_decoder.output_hypernetworks_mlps.1
+model.grounding_encoder.mask_decoder.output_hypernetworks_mlps.1.layers
+model.grounding_encoder.mask_decoder.output_hypernetworks_mlps.1.layers.0
+model.grounding_encoder.mask_decoder.output_hypernetworks_mlps.1.layers.1
+model.grounding_encoder.mask_decoder.output_hypernetworks_mlps.1.layers.2
+model.grounding_encoder.mask_decoder.output_hypernetworks_mlps.2
+model.grounding_encoder.mask_decoder.output_hypernetworks_mlps.2.layers
+model.grounding_encoder.mask_decoder.output_hypernetworks_mlps.2.layers.0
+model.grounding_encoder.mask_decoder.output_hypernetworks_mlps.2.layers.1
+model.grounding_encoder.mask_decoder.output_hypernetworks_mlps.2.layers.2
+model.grounding_encoder.mask_decoder.output_hypernetworks_mlps.3
+model.grounding_encoder.mask_decoder.output_hypernetworks_mlps.3.layers
+model.grounding_encoder.mask_decoder.output_hypernetworks_mlps.3.layers.0
+model.grounding_encoder.mask_decoder.output_hypernetworks_mlps.3.layers.1
+model.grounding_encoder.mask_decoder.output_hypernetworks_mlps.3.layers.2
+model.grounding_encoder.mask_decoder.iou_prediction_head
+model.grounding_encoder.mask_decoder.iou_prediction_head.layers
+model.grounding_encoder.mask_decoder.iou_prediction_head.layers.0
+model.grounding_encoder.mask_decoder.iou_prediction_head.layers.1
+model.grounding_encoder.mask_decoder.iou_prediction_head.layers.2
+model.text_hidden_fcs
+model.text_hidden_fcs.0
+model.text_hidden_fcs.0.0
+model.text_hidden_fcs.0.1
+model.text_hidden_fcs.0.2
+model.text_hidden_fcs.0.3
+lm_head

logs/Qwen/Qwen2-VL-2B-Instruct.txt ADDED Viewed

	@@ -0,0 +1,730 @@

+visual
+visual.patch_embed
+visual.patch_embed.proj
+visual.rotary_pos_emb
+visual.blocks
+visual.blocks.0
+visual.blocks.0.norm1
+visual.blocks.0.norm2
+visual.blocks.0.attn
+visual.blocks.0.attn.qkv
+visual.blocks.0.attn.proj
+visual.blocks.0.mlp
+visual.blocks.0.mlp.fc1
+visual.blocks.0.mlp.act
+visual.blocks.0.mlp.fc2
+visual.blocks.1
+visual.blocks.1.norm1
+visual.blocks.1.norm2
+visual.blocks.1.attn
+visual.blocks.1.attn.qkv
+visual.blocks.1.attn.proj
+visual.blocks.1.mlp
+visual.blocks.1.mlp.fc1
+visual.blocks.1.mlp.act
+visual.blocks.1.mlp.fc2
+visual.blocks.2
+visual.blocks.2.norm1
+visual.blocks.2.norm2
+visual.blocks.2.attn
+visual.blocks.2.attn.qkv
+visual.blocks.2.attn.proj
+visual.blocks.2.mlp
+visual.blocks.2.mlp.fc1
+visual.blocks.2.mlp.act
+visual.blocks.2.mlp.fc2
+visual.blocks.3
+visual.blocks.3.norm1
+visual.blocks.3.norm2
+visual.blocks.3.attn
+visual.blocks.3.attn.qkv
+visual.blocks.3.attn.proj
+visual.blocks.3.mlp
+visual.blocks.3.mlp.fc1
+visual.blocks.3.mlp.act
+visual.blocks.3.mlp.fc2
+visual.blocks.4
+visual.blocks.4.norm1
+visual.blocks.4.norm2
+visual.blocks.4.attn
+visual.blocks.4.attn.qkv
+visual.blocks.4.attn.proj
+visual.blocks.4.mlp
+visual.blocks.4.mlp.fc1
+visual.blocks.4.mlp.act
+visual.blocks.4.mlp.fc2
+visual.blocks.5
+visual.blocks.5.norm1
+visual.blocks.5.norm2
+visual.blocks.5.attn
+visual.blocks.5.attn.qkv
+visual.blocks.5.attn.proj
+visual.blocks.5.mlp
+visual.blocks.5.mlp.fc1
+visual.blocks.5.mlp.act
+visual.blocks.5.mlp.fc2
+visual.blocks.6
+visual.blocks.6.norm1
+visual.blocks.6.norm2
+visual.blocks.6.attn
+visual.blocks.6.attn.qkv
+visual.blocks.6.attn.proj
+visual.blocks.6.mlp
+visual.blocks.6.mlp.fc1
+visual.blocks.6.mlp.act
+visual.blocks.6.mlp.fc2
+visual.blocks.7
+visual.blocks.7.norm1
+visual.blocks.7.norm2
+visual.blocks.7.attn
+visual.blocks.7.attn.qkv
+visual.blocks.7.attn.proj
+visual.blocks.7.mlp
+visual.blocks.7.mlp.fc1
+visual.blocks.7.mlp.act
+visual.blocks.7.mlp.fc2
+visual.blocks.8
+visual.blocks.8.norm1
+visual.blocks.8.norm2
+visual.blocks.8.attn
+visual.blocks.8.attn.qkv
+visual.blocks.8.attn.proj
+visual.blocks.8.mlp
+visual.blocks.8.mlp.fc1
+visual.blocks.8.mlp.act
+visual.blocks.8.mlp.fc2
+visual.blocks.9
+visual.blocks.9.norm1
+visual.blocks.9.norm2
+visual.blocks.9.attn
+visual.blocks.9.attn.qkv
+visual.blocks.9.attn.proj
+visual.blocks.9.mlp
+visual.blocks.9.mlp.fc1
+visual.blocks.9.mlp.act
+visual.blocks.9.mlp.fc2
+visual.blocks.10
+visual.blocks.10.norm1
+visual.blocks.10.norm2
+visual.blocks.10.attn
+visual.blocks.10.attn.qkv
+visual.blocks.10.attn.proj
+visual.blocks.10.mlp
+visual.blocks.10.mlp.fc1
+visual.blocks.10.mlp.act
+visual.blocks.10.mlp.fc2
+visual.blocks.11
+visual.blocks.11.norm1
+visual.blocks.11.norm2
+visual.blocks.11.attn
+visual.blocks.11.attn.qkv
+visual.blocks.11.attn.proj
+visual.blocks.11.mlp
+visual.blocks.11.mlp.fc1
+visual.blocks.11.mlp.act
+visual.blocks.11.mlp.fc2
+visual.blocks.12
+visual.blocks.12.norm1
+visual.blocks.12.norm2
+visual.blocks.12.attn
+visual.blocks.12.attn.qkv
+visual.blocks.12.attn.proj
+visual.blocks.12.mlp
+visual.blocks.12.mlp.fc1
+visual.blocks.12.mlp.act
+visual.blocks.12.mlp.fc2
+visual.blocks.13
+visual.blocks.13.norm1
+visual.blocks.13.norm2
+visual.blocks.13.attn
+visual.blocks.13.attn.qkv
+visual.blocks.13.attn.proj
+visual.blocks.13.mlp
+visual.blocks.13.mlp.fc1
+visual.blocks.13.mlp.act
+visual.blocks.13.mlp.fc2
+visual.blocks.14
+visual.blocks.14.norm1
+visual.blocks.14.norm2
+visual.blocks.14.attn
+visual.blocks.14.attn.qkv
+visual.blocks.14.attn.proj
+visual.blocks.14.mlp
+visual.blocks.14.mlp.fc1
+visual.blocks.14.mlp.act
+visual.blocks.14.mlp.fc2
+visual.blocks.15
+visual.blocks.15.norm1
+visual.blocks.15.norm2
+visual.blocks.15.attn
+visual.blocks.15.attn.qkv
+visual.blocks.15.attn.proj
+visual.blocks.15.mlp
+visual.blocks.15.mlp.fc1
+visual.blocks.15.mlp.act
+visual.blocks.15.mlp.fc2
+visual.blocks.16
+visual.blocks.16.norm1
+visual.blocks.16.norm2
+visual.blocks.16.attn
+visual.blocks.16.attn.qkv
+visual.blocks.16.attn.proj
+visual.blocks.16.mlp
+visual.blocks.16.mlp.fc1
+visual.blocks.16.mlp.act
+visual.blocks.16.mlp.fc2
+visual.blocks.17
+visual.blocks.17.norm1
+visual.blocks.17.norm2
+visual.blocks.17.attn
+visual.blocks.17.attn.qkv
+visual.blocks.17.attn.proj
+visual.blocks.17.mlp
+visual.blocks.17.mlp.fc1
+visual.blocks.17.mlp.act
+visual.blocks.17.mlp.fc2
+visual.blocks.18
+visual.blocks.18.norm1
+visual.blocks.18.norm2
+visual.blocks.18.attn
+visual.blocks.18.attn.qkv
+visual.blocks.18.attn.proj
+visual.blocks.18.mlp
+visual.blocks.18.mlp.fc1
+visual.blocks.18.mlp.act
+visual.blocks.18.mlp.fc2
+visual.blocks.19
+visual.blocks.19.norm1
+visual.blocks.19.norm2
+visual.blocks.19.attn
+visual.blocks.19.attn.qkv
+visual.blocks.19.attn.proj
+visual.blocks.19.mlp
+visual.blocks.19.mlp.fc1
+visual.blocks.19.mlp.act
+visual.blocks.19.mlp.fc2
+visual.blocks.20
+visual.blocks.20.norm1
+visual.blocks.20.norm2
+visual.blocks.20.attn
+visual.blocks.20.attn.qkv
+visual.blocks.20.attn.proj
+visual.blocks.20.mlp
+visual.blocks.20.mlp.fc1
+visual.blocks.20.mlp.act
+visual.blocks.20.mlp.fc2
+visual.blocks.21
+visual.blocks.21.norm1
+visual.blocks.21.norm2
+visual.blocks.21.attn
+visual.blocks.21.attn.qkv
+visual.blocks.21.attn.proj
+visual.blocks.21.mlp
+visual.blocks.21.mlp.fc1
+visual.blocks.21.mlp.act
+visual.blocks.21.mlp.fc2
+visual.blocks.22
+visual.blocks.22.norm1
+visual.blocks.22.norm2
+visual.blocks.22.attn
+visual.blocks.22.attn.qkv
+visual.blocks.22.attn.proj
+visual.blocks.22.mlp
+visual.blocks.22.mlp.fc1
+visual.blocks.22.mlp.act
+visual.blocks.22.mlp.fc2
+visual.blocks.23
+visual.blocks.23.norm1
+visual.blocks.23.norm2
+visual.blocks.23.attn
+visual.blocks.23.attn.qkv
+visual.blocks.23.attn.proj
+visual.blocks.23.mlp
+visual.blocks.23.mlp.fc1
+visual.blocks.23.mlp.act
+visual.blocks.23.mlp.fc2
+visual.blocks.24
+visual.blocks.24.norm1
+visual.blocks.24.norm2
+visual.blocks.24.attn
+visual.blocks.24.attn.qkv
+visual.blocks.24.attn.proj
+visual.blocks.24.mlp
+visual.blocks.24.mlp.fc1
+visual.blocks.24.mlp.act
+visual.blocks.24.mlp.fc2
+visual.blocks.25
+visual.blocks.25.norm1
+visual.blocks.25.norm2
+visual.blocks.25.attn
+visual.blocks.25.attn.qkv
+visual.blocks.25.attn.proj
+visual.blocks.25.mlp
+visual.blocks.25.mlp.fc1
+visual.blocks.25.mlp.act
+visual.blocks.25.mlp.fc2
+visual.blocks.26
+visual.blocks.26.norm1
+visual.blocks.26.norm2
+visual.blocks.26.attn
+visual.blocks.26.attn.qkv
+visual.blocks.26.attn.proj
+visual.blocks.26.mlp
+visual.blocks.26.mlp.fc1
+visual.blocks.26.mlp.act
+visual.blocks.26.mlp.fc2
+visual.blocks.27
+visual.blocks.27.norm1
+visual.blocks.27.norm2
+visual.blocks.27.attn
+visual.blocks.27.attn.qkv
+visual.blocks.27.attn.proj
+visual.blocks.27.mlp
+visual.blocks.27.mlp.fc1
+visual.blocks.27.mlp.act
+visual.blocks.27.mlp.fc2
+visual.blocks.28
+visual.blocks.28.norm1
+visual.blocks.28.norm2
+visual.blocks.28.attn
+visual.blocks.28.attn.qkv
+visual.blocks.28.attn.proj
+visual.blocks.28.mlp
+visual.blocks.28.mlp.fc1
+visual.blocks.28.mlp.act
+visual.blocks.28.mlp.fc2
+visual.blocks.29
+visual.blocks.29.norm1
+visual.blocks.29.norm2
+visual.blocks.29.attn
+visual.blocks.29.attn.qkv
+visual.blocks.29.attn.proj
+visual.blocks.29.mlp
+visual.blocks.29.mlp.fc1
+visual.blocks.29.mlp.act
+visual.blocks.29.mlp.fc2
+visual.blocks.30
+visual.blocks.30.norm1
+visual.blocks.30.norm2
+visual.blocks.30.attn
+visual.blocks.30.attn.qkv
+visual.blocks.30.attn.proj
+visual.blocks.30.mlp
+visual.blocks.30.mlp.fc1
+visual.blocks.30.mlp.act
+visual.blocks.30.mlp.fc2
+visual.blocks.31
+visual.blocks.31.norm1
+visual.blocks.31.norm2
+visual.blocks.31.attn
+visual.blocks.31.attn.qkv
+visual.blocks.31.attn.proj
+visual.blocks.31.mlp
+visual.blocks.31.mlp.fc1
+visual.blocks.31.mlp.act
+visual.blocks.31.mlp.fc2
+visual.merger
+visual.merger.ln_q
+visual.merger.mlp
+visual.merger.mlp.0
+visual.merger.mlp.1
+visual.merger.mlp.2
+model
+model.embed_tokens
+model.layers
+model.layers.0
+model.layers.0.self_attn
+model.layers.0.self_attn.q_proj
+model.layers.0.self_attn.k_proj
+model.layers.0.self_attn.v_proj
+model.layers.0.self_attn.o_proj
+model.layers.0.self_attn.rotary_emb
+model.layers.0.mlp
+model.layers.0.mlp.gate_proj
+model.layers.0.mlp.up_proj
+model.layers.0.mlp.down_proj
+model.layers.0.mlp.act_fn
+model.layers.0.input_layernorm
+model.layers.0.post_attention_layernorm
+model.layers.1
+model.layers.1.self_attn
+model.layers.1.self_attn.q_proj
+model.layers.1.self_attn.k_proj
+model.layers.1.self_attn.v_proj
+model.layers.1.self_attn.o_proj
+model.layers.1.self_attn.rotary_emb
+model.layers.1.mlp
+model.layers.1.mlp.gate_proj
+model.layers.1.mlp.up_proj
+model.layers.1.mlp.down_proj
+model.layers.1.mlp.act_fn
+model.layers.1.input_layernorm
+model.layers.1.post_attention_layernorm
+model.layers.2
+model.layers.2.self_attn
+model.layers.2.self_attn.q_proj
+model.layers.2.self_attn.k_proj
+model.layers.2.self_attn.v_proj
+model.layers.2.self_attn.o_proj
+model.layers.2.self_attn.rotary_emb
+model.layers.2.mlp
+model.layers.2.mlp.gate_proj
+model.layers.2.mlp.up_proj
+model.layers.2.mlp.down_proj
+model.layers.2.mlp.act_fn
+model.layers.2.input_layernorm
+model.layers.2.post_attention_layernorm
+model.layers.3
+model.layers.3.self_attn
+model.layers.3.self_attn.q_proj
+model.layers.3.self_attn.k_proj
+model.layers.3.self_attn.v_proj
+model.layers.3.self_attn.o_proj
+model.layers.3.self_attn.rotary_emb
+model.layers.3.mlp
+model.layers.3.mlp.gate_proj
+model.layers.3.mlp.up_proj
+model.layers.3.mlp.down_proj
+model.layers.3.mlp.act_fn
+model.layers.3.input_layernorm
+model.layers.3.post_attention_layernorm
+model.layers.4
+model.layers.4.self_attn
+model.layers.4.self_attn.q_proj
+model.layers.4.self_attn.k_proj
+model.layers.4.self_attn.v_proj
+model.layers.4.self_attn.o_proj
+model.layers.4.self_attn.rotary_emb
+model.layers.4.mlp
+model.layers.4.mlp.gate_proj
+model.layers.4.mlp.up_proj
+model.layers.4.mlp.down_proj
+model.layers.4.mlp.act_fn
+model.layers.4.input_layernorm
+model.layers.4.post_attention_layernorm
+model.layers.5
+model.layers.5.self_attn
+model.layers.5.self_attn.q_proj
+model.layers.5.self_attn.k_proj
+model.layers.5.self_attn.v_proj
+model.layers.5.self_attn.o_proj
+model.layers.5.self_attn.rotary_emb
+model.layers.5.mlp
+model.layers.5.mlp.gate_proj
+model.layers.5.mlp.up_proj
+model.layers.5.mlp.down_proj
+model.layers.5.mlp.act_fn
+model.layers.5.input_layernorm
+model.layers.5.post_attention_layernorm
+model.layers.6
+model.layers.6.self_attn
+model.layers.6.self_attn.q_proj
+model.layers.6.self_attn.k_proj
+model.layers.6.self_attn.v_proj
+model.layers.6.self_attn.o_proj
+model.layers.6.self_attn.rotary_emb
+model.layers.6.mlp
+model.layers.6.mlp.gate_proj
+model.layers.6.mlp.up_proj
+model.layers.6.mlp.down_proj
+model.layers.6.mlp.act_fn
+model.layers.6.input_layernorm
+model.layers.6.post_attention_layernorm
+model.layers.7
+model.layers.7.self_attn
+model.layers.7.self_attn.q_proj
+model.layers.7.self_attn.k_proj
+model.layers.7.self_attn.v_proj
+model.layers.7.self_attn.o_proj
+model.layers.7.self_attn.rotary_emb
+model.layers.7.mlp
+model.layers.7.mlp.gate_proj
+model.layers.7.mlp.up_proj
+model.layers.7.mlp.down_proj
+model.layers.7.mlp.act_fn
+model.layers.7.input_layernorm
+model.layers.7.post_attention_layernorm
+model.layers.8
+model.layers.8.self_attn
+model.layers.8.self_attn.q_proj
+model.layers.8.self_attn.k_proj
+model.layers.8.self_attn.v_proj
+model.layers.8.self_attn.o_proj
+model.layers.8.self_attn.rotary_emb
+model.layers.8.mlp
+model.layers.8.mlp.gate_proj
+model.layers.8.mlp.up_proj
+model.layers.8.mlp.down_proj
+model.layers.8.mlp.act_fn
+model.layers.8.input_layernorm
+model.layers.8.post_attention_layernorm
+model.layers.9
+model.layers.9.self_attn
+model.layers.9.self_attn.q_proj
+model.layers.9.self_attn.k_proj
+model.layers.9.self_attn.v_proj
+model.layers.9.self_attn.o_proj
+model.layers.9.self_attn.rotary_emb
+model.layers.9.mlp
+model.layers.9.mlp.gate_proj
+model.layers.9.mlp.up_proj
+model.layers.9.mlp.down_proj
+model.layers.9.mlp.act_fn
+model.layers.9.input_layernorm
+model.layers.9.post_attention_layernorm
+model.layers.10
+model.layers.10.self_attn
+model.layers.10.self_attn.q_proj
+model.layers.10.self_attn.k_proj
+model.layers.10.self_attn.v_proj
+model.layers.10.self_attn.o_proj
+model.layers.10.self_attn.rotary_emb
+model.layers.10.mlp
+model.layers.10.mlp.gate_proj
+model.layers.10.mlp.up_proj
+model.layers.10.mlp.down_proj
+model.layers.10.mlp.act_fn
+model.layers.10.input_layernorm
+model.layers.10.post_attention_layernorm
+model.layers.11
+model.layers.11.self_attn
+model.layers.11.self_attn.q_proj
+model.layers.11.self_attn.k_proj
+model.layers.11.self_attn.v_proj
+model.layers.11.self_attn.o_proj
+model.layers.11.self_attn.rotary_emb
+model.layers.11.mlp
+model.layers.11.mlp.gate_proj
+model.layers.11.mlp.up_proj
+model.layers.11.mlp.down_proj
+model.layers.11.mlp.act_fn
+model.layers.11.input_layernorm
+model.layers.11.post_attention_layernorm
+model.layers.12
+model.layers.12.self_attn
+model.layers.12.self_attn.q_proj
+model.layers.12.self_attn.k_proj
+model.layers.12.self_attn.v_proj
+model.layers.12.self_attn.o_proj
+model.layers.12.self_attn.rotary_emb
+model.layers.12.mlp
+model.layers.12.mlp.gate_proj
+model.layers.12.mlp.up_proj
+model.layers.12.mlp.down_proj
+model.layers.12.mlp.act_fn
+model.layers.12.input_layernorm
+model.layers.12.post_attention_layernorm
+model.layers.13
+model.layers.13.self_attn
+model.layers.13.self_attn.q_proj
+model.layers.13.self_attn.k_proj
+model.layers.13.self_attn.v_proj
+model.layers.13.self_attn.o_proj
+model.layers.13.self_attn.rotary_emb
+model.layers.13.mlp
+model.layers.13.mlp.gate_proj
+model.layers.13.mlp.up_proj
+model.layers.13.mlp.down_proj
+model.layers.13.mlp.act_fn
+model.layers.13.input_layernorm
+model.layers.13.post_attention_layernorm
+model.layers.14
+model.layers.14.self_attn
+model.layers.14.self_attn.q_proj
+model.layers.14.self_attn.k_proj
+model.layers.14.self_attn.v_proj
+model.layers.14.self_attn.o_proj
+model.layers.14.self_attn.rotary_emb
+model.layers.14.mlp
+model.layers.14.mlp.gate_proj
+model.layers.14.mlp.up_proj
+model.layers.14.mlp.down_proj
+model.layers.14.mlp.act_fn
+model.layers.14.input_layernorm
+model.layers.14.post_attention_layernorm
+model.layers.15
+model.layers.15.self_attn
+model.layers.15.self_attn.q_proj
+model.layers.15.self_attn.k_proj
+model.layers.15.self_attn.v_proj
+model.layers.15.self_attn.o_proj
+model.layers.15.self_attn.rotary_emb
+model.layers.15.mlp
+model.layers.15.mlp.gate_proj
+model.layers.15.mlp.up_proj
+model.layers.15.mlp.down_proj
+model.layers.15.mlp.act_fn
+model.layers.15.input_layernorm
+model.layers.15.post_attention_layernorm
+model.layers.16
+model.layers.16.self_attn
+model.layers.16.self_attn.q_proj
+model.layers.16.self_attn.k_proj
+model.layers.16.self_attn.v_proj
+model.layers.16.self_attn.o_proj
+model.layers.16.self_attn.rotary_emb
+model.layers.16.mlp
+model.layers.16.mlp.gate_proj
+model.layers.16.mlp.up_proj
+model.layers.16.mlp.down_proj
+model.layers.16.mlp.act_fn
+model.layers.16.input_layernorm
+model.layers.16.post_attention_layernorm
+model.layers.17
+model.layers.17.self_attn
+model.layers.17.self_attn.q_proj
+model.layers.17.self_attn.k_proj
+model.layers.17.self_attn.v_proj
+model.layers.17.self_attn.o_proj
+model.layers.17.self_attn.rotary_emb
+model.layers.17.mlp
+model.layers.17.mlp.gate_proj
+model.layers.17.mlp.up_proj
+model.layers.17.mlp.down_proj
+model.layers.17.mlp.act_fn
+model.layers.17.input_layernorm
+model.layers.17.post_attention_layernorm
+model.layers.18
+model.layers.18.self_attn
+model.layers.18.self_attn.q_proj
+model.layers.18.self_attn.k_proj
+model.layers.18.self_attn.v_proj
+model.layers.18.self_attn.o_proj
+model.layers.18.self_attn.rotary_emb
+model.layers.18.mlp
+model.layers.18.mlp.gate_proj
+model.layers.18.mlp.up_proj
+model.layers.18.mlp.down_proj
+model.layers.18.mlp.act_fn
+model.layers.18.input_layernorm
+model.layers.18.post_attention_layernorm
+model.layers.19
+model.layers.19.self_attn
+model.layers.19.self_attn.q_proj
+model.layers.19.self_attn.k_proj
+model.layers.19.self_attn.v_proj
+model.layers.19.self_attn.o_proj
+model.layers.19.self_attn.rotary_emb
+model.layers.19.mlp
+model.layers.19.mlp.gate_proj
+model.layers.19.mlp.up_proj
+model.layers.19.mlp.down_proj
+model.layers.19.mlp.act_fn
+model.layers.19.input_layernorm
+model.layers.19.post_attention_layernorm
+model.layers.20
+model.layers.20.self_attn
+model.layers.20.self_attn.q_proj
+model.layers.20.self_attn.k_proj
+model.layers.20.self_attn.v_proj
+model.layers.20.self_attn.o_proj
+model.layers.20.self_attn.rotary_emb
+model.layers.20.mlp
+model.layers.20.mlp.gate_proj
+model.layers.20.mlp.up_proj
+model.layers.20.mlp.down_proj
+model.layers.20.mlp.act_fn
+model.layers.20.input_layernorm
+model.layers.20.post_attention_layernorm
+model.layers.21
+model.layers.21.self_attn
+model.layers.21.self_attn.q_proj
+model.layers.21.self_attn.k_proj
+model.layers.21.self_attn.v_proj
+model.layers.21.self_attn.o_proj
+model.layers.21.self_attn.rotary_emb
+model.layers.21.mlp
+model.layers.21.mlp.gate_proj
+model.layers.21.mlp.up_proj
+model.layers.21.mlp.down_proj
+model.layers.21.mlp.act_fn
+model.layers.21.input_layernorm
+model.layers.21.post_attention_layernorm
+model.layers.22
+model.layers.22.self_attn
+model.layers.22.self_attn.q_proj
+model.layers.22.self_attn.k_proj
+model.layers.22.self_attn.v_proj
+model.layers.22.self_attn.o_proj
+model.layers.22.self_attn.rotary_emb
+model.layers.22.mlp
+model.layers.22.mlp.gate_proj
+model.layers.22.mlp.up_proj
+model.layers.22.mlp.down_proj
+model.layers.22.mlp.act_fn
+model.layers.22.input_layernorm
+model.layers.22.post_attention_layernorm
+model.layers.23
+model.layers.23.self_attn
+model.layers.23.self_attn.q_proj
+model.layers.23.self_attn.k_proj
+model.layers.23.self_attn.v_proj
+model.layers.23.self_attn.o_proj
+model.layers.23.self_attn.rotary_emb
+model.layers.23.mlp
+model.layers.23.mlp.gate_proj
+model.layers.23.mlp.up_proj
+model.layers.23.mlp.down_proj
+model.layers.23.mlp.act_fn
+model.layers.23.input_layernorm
+model.layers.23.post_attention_layernorm
+model.layers.24
+model.layers.24.self_attn
+model.layers.24.self_attn.q_proj
+model.layers.24.self_attn.k_proj
+model.layers.24.self_attn.v_proj
+model.layers.24.self_attn.o_proj
+model.layers.24.self_attn.rotary_emb
+model.layers.24.mlp
+model.layers.24.mlp.gate_proj
+model.layers.24.mlp.up_proj
+model.layers.24.mlp.down_proj
+model.layers.24.mlp.act_fn
+model.layers.24.input_layernorm
+model.layers.24.post_attention_layernorm
+model.layers.25
+model.layers.25.self_attn
+model.layers.25.self_attn.q_proj
+model.layers.25.self_attn.k_proj
+model.layers.25.self_attn.v_proj
+model.layers.25.self_attn.o_proj
+model.layers.25.self_attn.rotary_emb
+model.layers.25.mlp
+model.layers.25.mlp.gate_proj
+model.layers.25.mlp.up_proj
+model.layers.25.mlp.down_proj
+model.layers.25.mlp.act_fn
+model.layers.25.input_layernorm
+model.layers.25.post_attention_layernorm
+model.layers.26
+model.layers.26.self_attn
+model.layers.26.self_attn.q_proj
+model.layers.26.self_attn.k_proj
+model.layers.26.self_attn.v_proj
+model.layers.26.self_attn.o_proj
+model.layers.26.self_attn.rotary_emb
+model.layers.26.mlp
+model.layers.26.mlp.gate_proj
+model.layers.26.mlp.up_proj
+model.layers.26.mlp.down_proj
+model.layers.26.mlp.act_fn
+model.layers.26.input_layernorm
+model.layers.26.post_attention_layernorm
+model.layers.27
+model.layers.27.self_attn
+model.layers.27.self_attn.q_proj
+model.layers.27.self_attn.k_proj
+model.layers.27.self_attn.v_proj
+model.layers.27.self_attn.o_proj
+model.layers.27.self_attn.rotary_emb
+model.layers.27.mlp
+model.layers.27.mlp.gate_proj
+model.layers.27.mlp.up_proj
+model.layers.27.mlp.down_proj
+model.layers.27.mlp.act_fn
+model.layers.27.input_layernorm
+model.layers.27.post_attention_layernorm
+model.norm
+model.rotary_emb
+lm_head

logs/Qwen/Qwen2-VL-7B-Instruct.txt ADDED Viewed

	@@ -0,0 +1,730 @@

+visual
+visual.patch_embed
+visual.patch_embed.proj
+visual.rotary_pos_emb
+visual.blocks
+visual.blocks.0
+visual.blocks.0.norm1
+visual.blocks.0.norm2
+visual.blocks.0.attn
+visual.blocks.0.attn.qkv
+visual.blocks.0.attn.proj
+visual.blocks.0.mlp
+visual.blocks.0.mlp.fc1
+visual.blocks.0.mlp.act
+visual.blocks.0.mlp.fc2
+visual.blocks.1
+visual.blocks.1.norm1
+visual.blocks.1.norm2
+visual.blocks.1.attn
+visual.blocks.1.attn.qkv
+visual.blocks.1.attn.proj
+visual.blocks.1.mlp
+visual.blocks.1.mlp.fc1
+visual.blocks.1.mlp.act
+visual.blocks.1.mlp.fc2
+visual.blocks.2
+visual.blocks.2.norm1
+visual.blocks.2.norm2
+visual.blocks.2.attn
+visual.blocks.2.attn.qkv
+visual.blocks.2.attn.proj
+visual.blocks.2.mlp
+visual.blocks.2.mlp.fc1
+visual.blocks.2.mlp.act
+visual.blocks.2.mlp.fc2
+visual.blocks.3
+visual.blocks.3.norm1
+visual.blocks.3.norm2
+visual.blocks.3.attn
+visual.blocks.3.attn.qkv
+visual.blocks.3.attn.proj
+visual.blocks.3.mlp
+visual.blocks.3.mlp.fc1
+visual.blocks.3.mlp.act
+visual.blocks.3.mlp.fc2
+visual.blocks.4
+visual.blocks.4.norm1
+visual.blocks.4.norm2
+visual.blocks.4.attn
+visual.blocks.4.attn.qkv
+visual.blocks.4.attn.proj
+visual.blocks.4.mlp
+visual.blocks.4.mlp.fc1
+visual.blocks.4.mlp.act
+visual.blocks.4.mlp.fc2
+visual.blocks.5
+visual.blocks.5.norm1
+visual.blocks.5.norm2
+visual.blocks.5.attn
+visual.blocks.5.attn.qkv
+visual.blocks.5.attn.proj
+visual.blocks.5.mlp
+visual.blocks.5.mlp.fc1
+visual.blocks.5.mlp.act
+visual.blocks.5.mlp.fc2
+visual.blocks.6
+visual.blocks.6.norm1
+visual.blocks.6.norm2
+visual.blocks.6.attn
+visual.blocks.6.attn.qkv
+visual.blocks.6.attn.proj
+visual.blocks.6.mlp
+visual.blocks.6.mlp.fc1
+visual.blocks.6.mlp.act
+visual.blocks.6.mlp.fc2
+visual.blocks.7
+visual.blocks.7.norm1
+visual.blocks.7.norm2
+visual.blocks.7.attn
+visual.blocks.7.attn.qkv
+visual.blocks.7.attn.proj
+visual.blocks.7.mlp
+visual.blocks.7.mlp.fc1
+visual.blocks.7.mlp.act
+visual.blocks.7.mlp.fc2
+visual.blocks.8
+visual.blocks.8.norm1
+visual.blocks.8.norm2
+visual.blocks.8.attn
+visual.blocks.8.attn.qkv
+visual.blocks.8.attn.proj
+visual.blocks.8.mlp
+visual.blocks.8.mlp.fc1
+visual.blocks.8.mlp.act
+visual.blocks.8.mlp.fc2
+visual.blocks.9
+visual.blocks.9.norm1
+visual.blocks.9.norm2
+visual.blocks.9.attn
+visual.blocks.9.attn.qkv
+visual.blocks.9.attn.proj
+visual.blocks.9.mlp
+visual.blocks.9.mlp.fc1
+visual.blocks.9.mlp.act
+visual.blocks.9.mlp.fc2
+visual.blocks.10
+visual.blocks.10.norm1
+visual.blocks.10.norm2
+visual.blocks.10.attn
+visual.blocks.10.attn.qkv
+visual.blocks.10.attn.proj
+visual.blocks.10.mlp
+visual.blocks.10.mlp.fc1
+visual.blocks.10.mlp.act
+visual.blocks.10.mlp.fc2
+visual.blocks.11
+visual.blocks.11.norm1
+visual.blocks.11.norm2
+visual.blocks.11.attn
+visual.blocks.11.attn.qkv
+visual.blocks.11.attn.proj
+visual.blocks.11.mlp
+visual.blocks.11.mlp.fc1
+visual.blocks.11.mlp.act
+visual.blocks.11.mlp.fc2
+visual.blocks.12
+visual.blocks.12.norm1
+visual.blocks.12.norm2
+visual.blocks.12.attn
+visual.blocks.12.attn.qkv
+visual.blocks.12.attn.proj
+visual.blocks.12.mlp
+visual.blocks.12.mlp.fc1
+visual.blocks.12.mlp.act
+visual.blocks.12.mlp.fc2
+visual.blocks.13
+visual.blocks.13.norm1
+visual.blocks.13.norm2
+visual.blocks.13.attn
+visual.blocks.13.attn.qkv
+visual.blocks.13.attn.proj
+visual.blocks.13.mlp
+visual.blocks.13.mlp.fc1
+visual.blocks.13.mlp.act
+visual.blocks.13.mlp.fc2
+visual.blocks.14
+visual.blocks.14.norm1
+visual.blocks.14.norm2
+visual.blocks.14.attn
+visual.blocks.14.attn.qkv
+visual.blocks.14.attn.proj
+visual.blocks.14.mlp
+visual.blocks.14.mlp.fc1
+visual.blocks.14.mlp.act
+visual.blocks.14.mlp.fc2
+visual.blocks.15
+visual.blocks.15.norm1
+visual.blocks.15.norm2
+visual.blocks.15.attn
+visual.blocks.15.attn.qkv
+visual.blocks.15.attn.proj
+visual.blocks.15.mlp
+visual.blocks.15.mlp.fc1
+visual.blocks.15.mlp.act
+visual.blocks.15.mlp.fc2
+visual.blocks.16
+visual.blocks.16.norm1
+visual.blocks.16.norm2
+visual.blocks.16.attn
+visual.blocks.16.attn.qkv
+visual.blocks.16.attn.proj
+visual.blocks.16.mlp
+visual.blocks.16.mlp.fc1
+visual.blocks.16.mlp.act
+visual.blocks.16.mlp.fc2
+visual.blocks.17
+visual.blocks.17.norm1
+visual.blocks.17.norm2
+visual.blocks.17.attn
+visual.blocks.17.attn.qkv
+visual.blocks.17.attn.proj
+visual.blocks.17.mlp
+visual.blocks.17.mlp.fc1
+visual.blocks.17.mlp.act
+visual.blocks.17.mlp.fc2
+visual.blocks.18
+visual.blocks.18.norm1
+visual.blocks.18.norm2
+visual.blocks.18.attn
+visual.blocks.18.attn.qkv
+visual.blocks.18.attn.proj
+visual.blocks.18.mlp
+visual.blocks.18.mlp.fc1
+visual.blocks.18.mlp.act
+visual.blocks.18.mlp.fc2
+visual.blocks.19
+visual.blocks.19.norm1
+visual.blocks.19.norm2
+visual.blocks.19.attn
+visual.blocks.19.attn.qkv
+visual.blocks.19.attn.proj
+visual.blocks.19.mlp
+visual.blocks.19.mlp.fc1
+visual.blocks.19.mlp.act
+visual.blocks.19.mlp.fc2
+visual.blocks.20
+visual.blocks.20.norm1
+visual.blocks.20.norm2
+visual.blocks.20.attn
+visual.blocks.20.attn.qkv
+visual.blocks.20.attn.proj
+visual.blocks.20.mlp
+visual.blocks.20.mlp.fc1
+visual.blocks.20.mlp.act
+visual.blocks.20.mlp.fc2
+visual.blocks.21
+visual.blocks.21.norm1
+visual.blocks.21.norm2
+visual.blocks.21.attn
+visual.blocks.21.attn.qkv
+visual.blocks.21.attn.proj
+visual.blocks.21.mlp
+visual.blocks.21.mlp.fc1
+visual.blocks.21.mlp.act
+visual.blocks.21.mlp.fc2
+visual.blocks.22
+visual.blocks.22.norm1
+visual.blocks.22.norm2
+visual.blocks.22.attn
+visual.blocks.22.attn.qkv
+visual.blocks.22.attn.proj
+visual.blocks.22.mlp
+visual.blocks.22.mlp.fc1
+visual.blocks.22.mlp.act
+visual.blocks.22.mlp.fc2
+visual.blocks.23
+visual.blocks.23.norm1
+visual.blocks.23.norm2
+visual.blocks.23.attn
+visual.blocks.23.attn.qkv
+visual.blocks.23.attn.proj
+visual.blocks.23.mlp
+visual.blocks.23.mlp.fc1
+visual.blocks.23.mlp.act
+visual.blocks.23.mlp.fc2
+visual.blocks.24
+visual.blocks.24.norm1
+visual.blocks.24.norm2
+visual.blocks.24.attn
+visual.blocks.24.attn.qkv
+visual.blocks.24.attn.proj
+visual.blocks.24.mlp
+visual.blocks.24.mlp.fc1
+visual.blocks.24.mlp.act
+visual.blocks.24.mlp.fc2
+visual.blocks.25
+visual.blocks.25.norm1
+visual.blocks.25.norm2
+visual.blocks.25.attn
+visual.blocks.25.attn.qkv
+visual.blocks.25.attn.proj
+visual.blocks.25.mlp
+visual.blocks.25.mlp.fc1
+visual.blocks.25.mlp.act
+visual.blocks.25.mlp.fc2
+visual.blocks.26
+visual.blocks.26.norm1
+visual.blocks.26.norm2
+visual.blocks.26.attn
+visual.blocks.26.attn.qkv
+visual.blocks.26.attn.proj
+visual.blocks.26.mlp
+visual.blocks.26.mlp.fc1
+visual.blocks.26.mlp.act
+visual.blocks.26.mlp.fc2
+visual.blocks.27
+visual.blocks.27.norm1
+visual.blocks.27.norm2
+visual.blocks.27.attn
+visual.blocks.27.attn.qkv
+visual.blocks.27.attn.proj
+visual.blocks.27.mlp
+visual.blocks.27.mlp.fc1
+visual.blocks.27.mlp.act
+visual.blocks.27.mlp.fc2
+visual.blocks.28
+visual.blocks.28.norm1
+visual.blocks.28.norm2
+visual.blocks.28.attn
+visual.blocks.28.attn.qkv
+visual.blocks.28.attn.proj
+visual.blocks.28.mlp
+visual.blocks.28.mlp.fc1
+visual.blocks.28.mlp.act
+visual.blocks.28.mlp.fc2
+visual.blocks.29
+visual.blocks.29.norm1
+visual.blocks.29.norm2
+visual.blocks.29.attn
+visual.blocks.29.attn.qkv
+visual.blocks.29.attn.proj
+visual.blocks.29.mlp
+visual.blocks.29.mlp.fc1
+visual.blocks.29.mlp.act
+visual.blocks.29.mlp.fc2
+visual.blocks.30
+visual.blocks.30.norm1
+visual.blocks.30.norm2
+visual.blocks.30.attn
+visual.blocks.30.attn.qkv
+visual.blocks.30.attn.proj
+visual.blocks.30.mlp
+visual.blocks.30.mlp.fc1
+visual.blocks.30.mlp.act
+visual.blocks.30.mlp.fc2
+visual.blocks.31
+visual.blocks.31.norm1
+visual.blocks.31.norm2
+visual.blocks.31.attn
+visual.blocks.31.attn.qkv
+visual.blocks.31.attn.proj
+visual.blocks.31.mlp
+visual.blocks.31.mlp.fc1
+visual.blocks.31.mlp.act
+visual.blocks.31.mlp.fc2
+visual.merger
+visual.merger.ln_q
+visual.merger.mlp
+visual.merger.mlp.0
+visual.merger.mlp.1
+visual.merger.mlp.2
+model
+model.embed_tokens
+model.layers
+model.layers.0
+model.layers.0.self_attn
+model.layers.0.self_attn.q_proj
+model.layers.0.self_attn.k_proj
+model.layers.0.self_attn.v_proj
+model.layers.0.self_attn.o_proj
+model.layers.0.self_attn.rotary_emb
+model.layers.0.mlp
+model.layers.0.mlp.gate_proj
+model.layers.0.mlp.up_proj
+model.layers.0.mlp.down_proj
+model.layers.0.mlp.act_fn
+model.layers.0.input_layernorm
+model.layers.0.post_attention_layernorm
+model.layers.1
+model.layers.1.self_attn
+model.layers.1.self_attn.q_proj
+model.layers.1.self_attn.k_proj
+model.layers.1.self_attn.v_proj
+model.layers.1.self_attn.o_proj
+model.layers.1.self_attn.rotary_emb
+model.layers.1.mlp
+model.layers.1.mlp.gate_proj
+model.layers.1.mlp.up_proj
+model.layers.1.mlp.down_proj
+model.layers.1.mlp.act_fn
+model.layers.1.input_layernorm
+model.layers.1.post_attention_layernorm
+model.layers.2
+model.layers.2.self_attn
+model.layers.2.self_attn.q_proj
+model.layers.2.self_attn.k_proj
+model.layers.2.self_attn.v_proj
+model.layers.2.self_attn.o_proj
+model.layers.2.self_attn.rotary_emb
+model.layers.2.mlp
+model.layers.2.mlp.gate_proj
+model.layers.2.mlp.up_proj
+model.layers.2.mlp.down_proj
+model.layers.2.mlp.act_fn
+model.layers.2.input_layernorm
+model.layers.2.post_attention_layernorm
+model.layers.3
+model.layers.3.self_attn
+model.layers.3.self_attn.q_proj
+model.layers.3.self_attn.k_proj
+model.layers.3.self_attn.v_proj
+model.layers.3.self_attn.o_proj
+model.layers.3.self_attn.rotary_emb
+model.layers.3.mlp
+model.layers.3.mlp.gate_proj
+model.layers.3.mlp.up_proj
+model.layers.3.mlp.down_proj
+model.layers.3.mlp.act_fn
+model.layers.3.input_layernorm
+model.layers.3.post_attention_layernorm
+model.layers.4
+model.layers.4.self_attn
+model.layers.4.self_attn.q_proj
+model.layers.4.self_attn.k_proj
+model.layers.4.self_attn.v_proj
+model.layers.4.self_attn.o_proj
+model.layers.4.self_attn.rotary_emb
+model.layers.4.mlp
+model.layers.4.mlp.gate_proj
+model.layers.4.mlp.up_proj
+model.layers.4.mlp.down_proj
+model.layers.4.mlp.act_fn
+model.layers.4.input_layernorm
+model.layers.4.post_attention_layernorm
+model.layers.5
+model.layers.5.self_attn
+model.layers.5.self_attn.q_proj
+model.layers.5.self_attn.k_proj
+model.layers.5.self_attn.v_proj
+model.layers.5.self_attn.o_proj
+model.layers.5.self_attn.rotary_emb
+model.layers.5.mlp
+model.layers.5.mlp.gate_proj
+model.layers.5.mlp.up_proj
+model.layers.5.mlp.down_proj
+model.layers.5.mlp.act_fn
+model.layers.5.input_layernorm
+model.layers.5.post_attention_layernorm
+model.layers.6
+model.layers.6.self_attn
+model.layers.6.self_attn.q_proj
+model.layers.6.self_attn.k_proj
+model.layers.6.self_attn.v_proj
+model.layers.6.self_attn.o_proj
+model.layers.6.self_attn.rotary_emb
+model.layers.6.mlp
+model.layers.6.mlp.gate_proj
+model.layers.6.mlp.up_proj
+model.layers.6.mlp.down_proj
+model.layers.6.mlp.act_fn
+model.layers.6.input_layernorm
+model.layers.6.post_attention_layernorm
+model.layers.7
+model.layers.7.self_attn
+model.layers.7.self_attn.q_proj
+model.layers.7.self_attn.k_proj
+model.layers.7.self_attn.v_proj
+model.layers.7.self_attn.o_proj
+model.layers.7.self_attn.rotary_emb
+model.layers.7.mlp
+model.layers.7.mlp.gate_proj
+model.layers.7.mlp.up_proj
+model.layers.7.mlp.down_proj
+model.layers.7.mlp.act_fn
+model.layers.7.input_layernorm
+model.layers.7.post_attention_layernorm
+model.layers.8
+model.layers.8.self_attn
+model.layers.8.self_attn.q_proj
+model.layers.8.self_attn.k_proj
+model.layers.8.self_attn.v_proj
+model.layers.8.self_attn.o_proj
+model.layers.8.self_attn.rotary_emb
+model.layers.8.mlp
+model.layers.8.mlp.gate_proj
+model.layers.8.mlp.up_proj
+model.layers.8.mlp.down_proj
+model.layers.8.mlp.act_fn
+model.layers.8.input_layernorm
+model.layers.8.post_attention_layernorm
+model.layers.9
+model.layers.9.self_attn
+model.layers.9.self_attn.q_proj
+model.layers.9.self_attn.k_proj
+model.layers.9.self_attn.v_proj
+model.layers.9.self_attn.o_proj
+model.layers.9.self_attn.rotary_emb
+model.layers.9.mlp
+model.layers.9.mlp.gate_proj
+model.layers.9.mlp.up_proj
+model.layers.9.mlp.down_proj
+model.layers.9.mlp.act_fn
+model.layers.9.input_layernorm
+model.layers.9.post_attention_layernorm
+model.layers.10
+model.layers.10.self_attn
+model.layers.10.self_attn.q_proj
+model.layers.10.self_attn.k_proj
+model.layers.10.self_attn.v_proj
+model.layers.10.self_attn.o_proj
+model.layers.10.self_attn.rotary_emb
+model.layers.10.mlp
+model.layers.10.mlp.gate_proj
+model.layers.10.mlp.up_proj
+model.layers.10.mlp.down_proj
+model.layers.10.mlp.act_fn
+model.layers.10.input_layernorm
+model.layers.10.post_attention_layernorm
+model.layers.11
+model.layers.11.self_attn
+model.layers.11.self_attn.q_proj
+model.layers.11.self_attn.k_proj
+model.layers.11.self_attn.v_proj
+model.layers.11.self_attn.o_proj
+model.layers.11.self_attn.rotary_emb
+model.layers.11.mlp
+model.layers.11.mlp.gate_proj
+model.layers.11.mlp.up_proj
+model.layers.11.mlp.down_proj
+model.layers.11.mlp.act_fn
+model.layers.11.input_layernorm
+model.layers.11.post_attention_layernorm
+model.layers.12
+model.layers.12.self_attn
+model.layers.12.self_attn.q_proj
+model.layers.12.self_attn.k_proj
+model.layers.12.self_attn.v_proj
+model.layers.12.self_attn.o_proj
+model.layers.12.self_attn.rotary_emb
+model.layers.12.mlp
+model.layers.12.mlp.gate_proj
+model.layers.12.mlp.up_proj
+model.layers.12.mlp.down_proj
+model.layers.12.mlp.act_fn
+model.layers.12.input_layernorm
+model.layers.12.post_attention_layernorm
+model.layers.13
+model.layers.13.self_attn
+model.layers.13.self_attn.q_proj
+model.layers.13.self_attn.k_proj
+model.layers.13.self_attn.v_proj
+model.layers.13.self_attn.o_proj
+model.layers.13.self_attn.rotary_emb
+model.layers.13.mlp
+model.layers.13.mlp.gate_proj
+model.layers.13.mlp.up_proj
+model.layers.13.mlp.down_proj
+model.layers.13.mlp.act_fn
+model.layers.13.input_layernorm
+model.layers.13.post_attention_layernorm
+model.layers.14
+model.layers.14.self_attn
+model.layers.14.self_attn.q_proj
+model.layers.14.self_attn.k_proj
+model.layers.14.self_attn.v_proj
+model.layers.14.self_attn.o_proj
+model.layers.14.self_attn.rotary_emb
+model.layers.14.mlp
+model.layers.14.mlp.gate_proj
+model.layers.14.mlp.up_proj
+model.layers.14.mlp.down_proj
+model.layers.14.mlp.act_fn
+model.layers.14.input_layernorm
+model.layers.14.post_attention_layernorm
+model.layers.15
+model.layers.15.self_attn
+model.layers.15.self_attn.q_proj
+model.layers.15.self_attn.k_proj
+model.layers.15.self_attn.v_proj
+model.layers.15.self_attn.o_proj
+model.layers.15.self_attn.rotary_emb
+model.layers.15.mlp
+model.layers.15.mlp.gate_proj
+model.layers.15.mlp.up_proj
+model.layers.15.mlp.down_proj
+model.layers.15.mlp.act_fn
+model.layers.15.input_layernorm
+model.layers.15.post_attention_layernorm
+model.layers.16
+model.layers.16.self_attn
+model.layers.16.self_attn.q_proj
+model.layers.16.self_attn.k_proj
+model.layers.16.self_attn.v_proj
+model.layers.16.self_attn.o_proj
+model.layers.16.self_attn.rotary_emb
+model.layers.16.mlp
+model.layers.16.mlp.gate_proj
+model.layers.16.mlp.up_proj
+model.layers.16.mlp.down_proj
+model.layers.16.mlp.act_fn
+model.layers.16.input_layernorm
+model.layers.16.post_attention_layernorm
+model.layers.17
+model.layers.17.self_attn
+model.layers.17.self_attn.q_proj
+model.layers.17.self_attn.k_proj
+model.layers.17.self_attn.v_proj
+model.layers.17.self_attn.o_proj
+model.layers.17.self_attn.rotary_emb
+model.layers.17.mlp
+model.layers.17.mlp.gate_proj
+model.layers.17.mlp.up_proj
+model.layers.17.mlp.down_proj
+model.layers.17.mlp.act_fn
+model.layers.17.input_layernorm
+model.layers.17.post_attention_layernorm
+model.layers.18
+model.layers.18.self_attn
+model.layers.18.self_attn.q_proj
+model.layers.18.self_attn.k_proj
+model.layers.18.self_attn.v_proj
+model.layers.18.self_attn.o_proj
+model.layers.18.self_attn.rotary_emb
+model.layers.18.mlp
+model.layers.18.mlp.gate_proj
+model.layers.18.mlp.up_proj
+model.layers.18.mlp.down_proj
+model.layers.18.mlp.act_fn
+model.layers.18.input_layernorm
+model.layers.18.post_attention_layernorm
+model.layers.19
+model.layers.19.self_attn
+model.layers.19.self_attn.q_proj
+model.layers.19.self_attn.k_proj
+model.layers.19.self_attn.v_proj
+model.layers.19.self_attn.o_proj
+model.layers.19.self_attn.rotary_emb
+model.layers.19.mlp
+model.layers.19.mlp.gate_proj
+model.layers.19.mlp.up_proj
+model.layers.19.mlp.down_proj
+model.layers.19.mlp.act_fn
+model.layers.19.input_layernorm
+model.layers.19.post_attention_layernorm
+model.layers.20
+model.layers.20.self_attn
+model.layers.20.self_attn.q_proj
+model.layers.20.self_attn.k_proj
+model.layers.20.self_attn.v_proj
+model.layers.20.self_attn.o_proj
+model.layers.20.self_attn.rotary_emb
+model.layers.20.mlp
+model.layers.20.mlp.gate_proj
+model.layers.20.mlp.up_proj
+model.layers.20.mlp.down_proj
+model.layers.20.mlp.act_fn
+model.layers.20.input_layernorm
+model.layers.20.post_attention_layernorm
+model.layers.21
+model.layers.21.self_attn
+model.layers.21.self_attn.q_proj
+model.layers.21.self_attn.k_proj
+model.layers.21.self_attn.v_proj
+model.layers.21.self_attn.o_proj
+model.layers.21.self_attn.rotary_emb
+model.layers.21.mlp
+model.layers.21.mlp.gate_proj
+model.layers.21.mlp.up_proj
+model.layers.21.mlp.down_proj
+model.layers.21.mlp.act_fn
+model.layers.21.input_layernorm
+model.layers.21.post_attention_layernorm
+model.layers.22
+model.layers.22.self_attn
+model.layers.22.self_attn.q_proj
+model.layers.22.self_attn.k_proj
+model.layers.22.self_attn.v_proj
+model.layers.22.self_attn.o_proj
+model.layers.22.self_attn.rotary_emb
+model.layers.22.mlp
+model.layers.22.mlp.gate_proj
+model.layers.22.mlp.up_proj
+model.layers.22.mlp.down_proj
+model.layers.22.mlp.act_fn
+model.layers.22.input_layernorm
+model.layers.22.post_attention_layernorm
+model.layers.23
+model.layers.23.self_attn
+model.layers.23.self_attn.q_proj
+model.layers.23.self_attn.k_proj
+model.layers.23.self_attn.v_proj
+model.layers.23.self_attn.o_proj
+model.layers.23.self_attn.rotary_emb
+model.layers.23.mlp
+model.layers.23.mlp.gate_proj
+model.layers.23.mlp.up_proj
+model.layers.23.mlp.down_proj
+model.layers.23.mlp.act_fn
+model.layers.23.input_layernorm
+model.layers.23.post_attention_layernorm
+model.layers.24
+model.layers.24.self_attn
+model.layers.24.self_attn.q_proj
+model.layers.24.self_attn.k_proj
+model.layers.24.self_attn.v_proj
+model.layers.24.self_attn.o_proj
+model.layers.24.self_attn.rotary_emb
+model.layers.24.mlp
+model.layers.24.mlp.gate_proj
+model.layers.24.mlp.up_proj
+model.layers.24.mlp.down_proj
+model.layers.24.mlp.act_fn
+model.layers.24.input_layernorm
+model.layers.24.post_attention_layernorm
+model.layers.25
+model.layers.25.self_attn
+model.layers.25.self_attn.q_proj
+model.layers.25.self_attn.k_proj
+model.layers.25.self_attn.v_proj
+model.layers.25.self_attn.o_proj
+model.layers.25.self_attn.rotary_emb
+model.layers.25.mlp
+model.layers.25.mlp.gate_proj
+model.layers.25.mlp.up_proj
+model.layers.25.mlp.down_proj
+model.layers.25.mlp.act_fn
+model.layers.25.input_layernorm
+model.layers.25.post_attention_layernorm
+model.layers.26
+model.layers.26.self_attn
+model.layers.26.self_attn.q_proj
+model.layers.26.self_attn.k_proj
+model.layers.26.self_attn.v_proj
+model.layers.26.self_attn.o_proj
+model.layers.26.self_attn.rotary_emb
+model.layers.26.mlp
+model.layers.26.mlp.gate_proj
+model.layers.26.mlp.up_proj
+model.layers.26.mlp.down_proj
+model.layers.26.mlp.act_fn
+model.layers.26.input_layernorm
+model.layers.26.post_attention_layernorm
+model.layers.27
+model.layers.27.self_attn
+model.layers.27.self_attn.q_proj
+model.layers.27.self_attn.k_proj
+model.layers.27.self_attn.v_proj
+model.layers.27.self_attn.o_proj
+model.layers.27.self_attn.rotary_emb
+model.layers.27.mlp
+model.layers.27.mlp.gate_proj
+model.layers.27.mlp.up_proj
+model.layers.27.mlp.down_proj
+model.layers.27.mlp.act_fn
+model.layers.27.input_layernorm
+model.layers.27.post_attention_layernorm
+model.norm
+model.rotary_emb
+lm_head

logs/Salesforce/blip2-opt-2.7b.txt ADDED Viewed

	@@ -0,0 +1,1078 @@

+vision_model
+vision_model.embeddings
+vision_model.embeddings.patch_embedding
+vision_model.encoder
+vision_model.encoder.layers
+vision_model.encoder.layers.0
+vision_model.encoder.layers.0.self_attn
+vision_model.encoder.layers.0.self_attn.dropout
+vision_model.encoder.layers.0.self_attn.qkv
+vision_model.encoder.layers.0.self_attn.projection
+vision_model.encoder.layers.0.layer_norm1
+vision_model.encoder.layers.0.mlp
+vision_model.encoder.layers.0.mlp.activation_fn
+vision_model.encoder.layers.0.mlp.fc1
+vision_model.encoder.layers.0.mlp.fc2
+vision_model.encoder.layers.0.layer_norm2
+vision_model.encoder.layers.1
+vision_model.encoder.layers.1.self_attn
+vision_model.encoder.layers.1.self_attn.dropout
+vision_model.encoder.layers.1.self_attn.qkv
+vision_model.encoder.layers.1.self_attn.projection
+vision_model.encoder.layers.1.layer_norm1
+vision_model.encoder.layers.1.mlp
+vision_model.encoder.layers.1.mlp.activation_fn
+vision_model.encoder.layers.1.mlp.fc1
+vision_model.encoder.layers.1.mlp.fc2
+vision_model.encoder.layers.1.layer_norm2
+vision_model.encoder.layers.2
+vision_model.encoder.layers.2.self_attn
+vision_model.encoder.layers.2.self_attn.dropout
+vision_model.encoder.layers.2.self_attn.qkv
+vision_model.encoder.layers.2.self_attn.projection
+vision_model.encoder.layers.2.layer_norm1
+vision_model.encoder.layers.2.mlp
+vision_model.encoder.layers.2.mlp.activation_fn
+vision_model.encoder.layers.2.mlp.fc1
+vision_model.encoder.layers.2.mlp.fc2
+vision_model.encoder.layers.2.layer_norm2
+vision_model.encoder.layers.3
+vision_model.encoder.layers.3.self_attn
+vision_model.encoder.layers.3.self_attn.dropout
+vision_model.encoder.layers.3.self_attn.qkv
+vision_model.encoder.layers.3.self_attn.projection
+vision_model.encoder.layers.3.layer_norm1
+vision_model.encoder.layers.3.mlp
+vision_model.encoder.layers.3.mlp.activation_fn
+vision_model.encoder.layers.3.mlp.fc1
+vision_model.encoder.layers.3.mlp.fc2
+vision_model.encoder.layers.3.layer_norm2
+vision_model.encoder.layers.4
+vision_model.encoder.layers.4.self_attn
+vision_model.encoder.layers.4.self_attn.dropout
+vision_model.encoder.layers.4.self_attn.qkv
+vision_model.encoder.layers.4.self_attn.projection
+vision_model.encoder.layers.4.layer_norm1
+vision_model.encoder.layers.4.mlp
+vision_model.encoder.layers.4.mlp.activation_fn
+vision_model.encoder.layers.4.mlp.fc1
+vision_model.encoder.layers.4.mlp.fc2
+vision_model.encoder.layers.4.layer_norm2
+vision_model.encoder.layers.5
+vision_model.encoder.layers.5.self_attn
+vision_model.encoder.layers.5.self_attn.dropout
+vision_model.encoder.layers.5.self_attn.qkv
+vision_model.encoder.layers.5.self_attn.projection
+vision_model.encoder.layers.5.layer_norm1
+vision_model.encoder.layers.5.mlp
+vision_model.encoder.layers.5.mlp.activation_fn
+vision_model.encoder.layers.5.mlp.fc1
+vision_model.encoder.layers.5.mlp.fc2
+vision_model.encoder.layers.5.layer_norm2
+vision_model.encoder.layers.6
+vision_model.encoder.layers.6.self_attn
+vision_model.encoder.layers.6.self_attn.dropout
+vision_model.encoder.layers.6.self_attn.qkv
+vision_model.encoder.layers.6.self_attn.projection
+vision_model.encoder.layers.6.layer_norm1
+vision_model.encoder.layers.6.mlp
+vision_model.encoder.layers.6.mlp.activation_fn
+vision_model.encoder.layers.6.mlp.fc1
+vision_model.encoder.layers.6.mlp.fc2
+vision_model.encoder.layers.6.layer_norm2
+vision_model.encoder.layers.7
+vision_model.encoder.layers.7.self_attn
+vision_model.encoder.layers.7.self_attn.dropout
+vision_model.encoder.layers.7.self_attn.qkv
+vision_model.encoder.layers.7.self_attn.projection
+vision_model.encoder.layers.7.layer_norm1
+vision_model.encoder.layers.7.mlp
+vision_model.encoder.layers.7.mlp.activation_fn
+vision_model.encoder.layers.7.mlp.fc1
+vision_model.encoder.layers.7.mlp.fc2
+vision_model.encoder.layers.7.layer_norm2
+vision_model.encoder.layers.8
+vision_model.encoder.layers.8.self_attn
+vision_model.encoder.layers.8.self_attn.dropout
+vision_model.encoder.layers.8.self_attn.qkv
+vision_model.encoder.layers.8.self_attn.projection
+vision_model.encoder.layers.8.layer_norm1
+vision_model.encoder.layers.8.mlp
+vision_model.encoder.layers.8.mlp.activation_fn
+vision_model.encoder.layers.8.mlp.fc1
+vision_model.encoder.layers.8.mlp.fc2
+vision_model.encoder.layers.8.layer_norm2
+vision_model.encoder.layers.9
+vision_model.encoder.layers.9.self_attn
+vision_model.encoder.layers.9.self_attn.dropout
+vision_model.encoder.layers.9.self_attn.qkv
+vision_model.encoder.layers.9.self_attn.projection
+vision_model.encoder.layers.9.layer_norm1
+vision_model.encoder.layers.9.mlp
+vision_model.encoder.layers.9.mlp.activation_fn
+vision_model.encoder.layers.9.mlp.fc1
+vision_model.encoder.layers.9.mlp.fc2
+vision_model.encoder.layers.9.layer_norm2
+vision_model.encoder.layers.10
+vision_model.encoder.layers.10.self_attn
+vision_model.encoder.layers.10.self_attn.dropout
+vision_model.encoder.layers.10.self_attn.qkv
+vision_model.encoder.layers.10.self_attn.projection
+vision_model.encoder.layers.10.layer_norm1
+vision_model.encoder.layers.10.mlp
+vision_model.encoder.layers.10.mlp.activation_fn
+vision_model.encoder.layers.10.mlp.fc1
+vision_model.encoder.layers.10.mlp.fc2
+vision_model.encoder.layers.10.layer_norm2
+vision_model.encoder.layers.11
+vision_model.encoder.layers.11.self_attn
+vision_model.encoder.layers.11.self_attn.dropout
+vision_model.encoder.layers.11.self_attn.qkv
+vision_model.encoder.layers.11.self_attn.projection
+vision_model.encoder.layers.11.layer_norm1
+vision_model.encoder.layers.11.mlp
+vision_model.encoder.layers.11.mlp.activation_fn
+vision_model.encoder.layers.11.mlp.fc1
+vision_model.encoder.layers.11.mlp.fc2
+vision_model.encoder.layers.11.layer_norm2
+vision_model.encoder.layers.12
+vision_model.encoder.layers.12.self_attn
+vision_model.encoder.layers.12.self_attn.dropout
+vision_model.encoder.layers.12.self_attn.qkv
+vision_model.encoder.layers.12.self_attn.projection
+vision_model.encoder.layers.12.layer_norm1
+vision_model.encoder.layers.12.mlp
+vision_model.encoder.layers.12.mlp.activation_fn
+vision_model.encoder.layers.12.mlp.fc1
+vision_model.encoder.layers.12.mlp.fc2
+vision_model.encoder.layers.12.layer_norm2
+vision_model.encoder.layers.13
+vision_model.encoder.layers.13.self_attn
+vision_model.encoder.layers.13.self_attn.dropout
+vision_model.encoder.layers.13.self_attn.qkv
+vision_model.encoder.layers.13.self_attn.projection
+vision_model.encoder.layers.13.layer_norm1
+vision_model.encoder.layers.13.mlp
+vision_model.encoder.layers.13.mlp.activation_fn
+vision_model.encoder.layers.13.mlp.fc1
+vision_model.encoder.layers.13.mlp.fc2
+vision_model.encoder.layers.13.layer_norm2
+vision_model.encoder.layers.14
+vision_model.encoder.layers.14.self_attn
+vision_model.encoder.layers.14.self_attn.dropout
+vision_model.encoder.layers.14.self_attn.qkv
+vision_model.encoder.layers.14.self_attn.projection
+vision_model.encoder.layers.14.layer_norm1
+vision_model.encoder.layers.14.mlp
+vision_model.encoder.layers.14.mlp.activation_fn
+vision_model.encoder.layers.14.mlp.fc1
+vision_model.encoder.layers.14.mlp.fc2
+vision_model.encoder.layers.14.layer_norm2
+vision_model.encoder.layers.15
+vision_model.encoder.layers.15.self_attn
+vision_model.encoder.layers.15.self_attn.dropout
+vision_model.encoder.layers.15.self_attn.qkv
+vision_model.encoder.layers.15.self_attn.projection
+vision_model.encoder.layers.15.layer_norm1
+vision_model.encoder.layers.15.mlp
+vision_model.encoder.layers.15.mlp.activation_fn
+vision_model.encoder.layers.15.mlp.fc1
+vision_model.encoder.layers.15.mlp.fc2
+vision_model.encoder.layers.15.layer_norm2
+vision_model.encoder.layers.16
+vision_model.encoder.layers.16.self_attn
+vision_model.encoder.layers.16.self_attn.dropout
+vision_model.encoder.layers.16.self_attn.qkv
+vision_model.encoder.layers.16.self_attn.projection
+vision_model.encoder.layers.16.layer_norm1
+vision_model.encoder.layers.16.mlp
+vision_model.encoder.layers.16.mlp.activation_fn
+vision_model.encoder.layers.16.mlp.fc1
+vision_model.encoder.layers.16.mlp.fc2
+vision_model.encoder.layers.16.layer_norm2
+vision_model.encoder.layers.17
+vision_model.encoder.layers.17.self_attn
+vision_model.encoder.layers.17.self_attn.dropout
+vision_model.encoder.layers.17.self_attn.qkv
+vision_model.encoder.layers.17.self_attn.projection
+vision_model.encoder.layers.17.layer_norm1
+vision_model.encoder.layers.17.mlp
+vision_model.encoder.layers.17.mlp.activation_fn
+vision_model.encoder.layers.17.mlp.fc1
+vision_model.encoder.layers.17.mlp.fc2
+vision_model.encoder.layers.17.layer_norm2
+vision_model.encoder.layers.18
+vision_model.encoder.layers.18.self_attn
+vision_model.encoder.layers.18.self_attn.dropout
+vision_model.encoder.layers.18.self_attn.qkv
+vision_model.encoder.layers.18.self_attn.projection
+vision_model.encoder.layers.18.layer_norm1
+vision_model.encoder.layers.18.mlp
+vision_model.encoder.layers.18.mlp.activation_fn
+vision_model.encoder.layers.18.mlp.fc1
+vision_model.encoder.layers.18.mlp.fc2
+vision_model.encoder.layers.18.layer_norm2
+vision_model.encoder.layers.19
+vision_model.encoder.layers.19.self_attn
+vision_model.encoder.layers.19.self_attn.dropout
+vision_model.encoder.layers.19.self_attn.qkv
+vision_model.encoder.layers.19.self_attn.projection
+vision_model.encoder.layers.19.layer_norm1
+vision_model.encoder.layers.19.mlp
+vision_model.encoder.layers.19.mlp.activation_fn
+vision_model.encoder.layers.19.mlp.fc1
+vision_model.encoder.layers.19.mlp.fc2
+vision_model.encoder.layers.19.layer_norm2
+vision_model.encoder.layers.20
+vision_model.encoder.layers.20.self_attn
+vision_model.encoder.layers.20.self_attn.dropout
+vision_model.encoder.layers.20.self_attn.qkv
+vision_model.encoder.layers.20.self_attn.projection
+vision_model.encoder.layers.20.layer_norm1
+vision_model.encoder.layers.20.mlp
+vision_model.encoder.layers.20.mlp.activation_fn
+vision_model.encoder.layers.20.mlp.fc1
+vision_model.encoder.layers.20.mlp.fc2
+vision_model.encoder.layers.20.layer_norm2
+vision_model.encoder.layers.21
+vision_model.encoder.layers.21.self_attn
+vision_model.encoder.layers.21.self_attn.dropout
+vision_model.encoder.layers.21.self_attn.qkv
+vision_model.encoder.layers.21.self_attn.projection
+vision_model.encoder.layers.21.layer_norm1
+vision_model.encoder.layers.21.mlp
+vision_model.encoder.layers.21.mlp.activation_fn
+vision_model.encoder.layers.21.mlp.fc1
+vision_model.encoder.layers.21.mlp.fc2
+vision_model.encoder.layers.21.layer_norm2
+vision_model.encoder.layers.22
+vision_model.encoder.layers.22.self_attn
+vision_model.encoder.layers.22.self_attn.dropout
+vision_model.encoder.layers.22.self_attn.qkv
+vision_model.encoder.layers.22.self_attn.projection
+vision_model.encoder.layers.22.layer_norm1
+vision_model.encoder.layers.22.mlp
+vision_model.encoder.layers.22.mlp.activation_fn
+vision_model.encoder.layers.22.mlp.fc1
+vision_model.encoder.layers.22.mlp.fc2
+vision_model.encoder.layers.22.layer_norm2
+vision_model.encoder.layers.23
+vision_model.encoder.layers.23.self_attn
+vision_model.encoder.layers.23.self_attn.dropout
+vision_model.encoder.layers.23.self_attn.qkv
+vision_model.encoder.layers.23.self_attn.projection
+vision_model.encoder.layers.23.layer_norm1
+vision_model.encoder.layers.23.mlp
+vision_model.encoder.layers.23.mlp.activation_fn
+vision_model.encoder.layers.23.mlp.fc1
+vision_model.encoder.layers.23.mlp.fc2
+vision_model.encoder.layers.23.layer_norm2
+vision_model.encoder.layers.24
+vision_model.encoder.layers.24.self_attn
+vision_model.encoder.layers.24.self_attn.dropout
+vision_model.encoder.layers.24.self_attn.qkv
+vision_model.encoder.layers.24.self_attn.projection
+vision_model.encoder.layers.24.layer_norm1
+vision_model.encoder.layers.24.mlp
+vision_model.encoder.layers.24.mlp.activation_fn
+vision_model.encoder.layers.24.mlp.fc1
+vision_model.encoder.layers.24.mlp.fc2
+vision_model.encoder.layers.24.layer_norm2
+vision_model.encoder.layers.25
+vision_model.encoder.layers.25.self_attn
+vision_model.encoder.layers.25.self_attn.dropout
+vision_model.encoder.layers.25.self_attn.qkv
+vision_model.encoder.layers.25.self_attn.projection
+vision_model.encoder.layers.25.layer_norm1
+vision_model.encoder.layers.25.mlp
+vision_model.encoder.layers.25.mlp.activation_fn
+vision_model.encoder.layers.25.mlp.fc1
+vision_model.encoder.layers.25.mlp.fc2
+vision_model.encoder.layers.25.layer_norm2
+vision_model.encoder.layers.26
+vision_model.encoder.layers.26.self_attn
+vision_model.encoder.layers.26.self_attn.dropout
+vision_model.encoder.layers.26.self_attn.qkv
+vision_model.encoder.layers.26.self_attn.projection
+vision_model.encoder.layers.26.layer_norm1
+vision_model.encoder.layers.26.mlp
+vision_model.encoder.layers.26.mlp.activation_fn
+vision_model.encoder.layers.26.mlp.fc1
+vision_model.encoder.layers.26.mlp.fc2
+vision_model.encoder.layers.26.layer_norm2
+vision_model.encoder.layers.27
+vision_model.encoder.layers.27.self_attn
+vision_model.encoder.layers.27.self_attn.dropout
+vision_model.encoder.layers.27.self_attn.qkv
+vision_model.encoder.layers.27.self_attn.projection
+vision_model.encoder.layers.27.layer_norm1
+vision_model.encoder.layers.27.mlp
+vision_model.encoder.layers.27.mlp.activation_fn
+vision_model.encoder.layers.27.mlp.fc1
+vision_model.encoder.layers.27.mlp.fc2
+vision_model.encoder.layers.27.layer_norm2
+vision_model.encoder.layers.28
+vision_model.encoder.layers.28.self_attn
+vision_model.encoder.layers.28.self_attn.dropout
+vision_model.encoder.layers.28.self_attn.qkv
+vision_model.encoder.layers.28.self_attn.projection
+vision_model.encoder.layers.28.layer_norm1
+vision_model.encoder.layers.28.mlp
+vision_model.encoder.layers.28.mlp.activation_fn
+vision_model.encoder.layers.28.mlp.fc1
+vision_model.encoder.layers.28.mlp.fc2
+vision_model.encoder.layers.28.layer_norm2
+vision_model.encoder.layers.29
+vision_model.encoder.layers.29.self_attn
+vision_model.encoder.layers.29.self_attn.dropout
+vision_model.encoder.layers.29.self_attn.qkv
+vision_model.encoder.layers.29.self_attn.projection
+vision_model.encoder.layers.29.layer_norm1
+vision_model.encoder.layers.29.mlp
+vision_model.encoder.layers.29.mlp.activation_fn
+vision_model.encoder.layers.29.mlp.fc1
+vision_model.encoder.layers.29.mlp.fc2
+vision_model.encoder.layers.29.layer_norm2
+vision_model.encoder.layers.30
+vision_model.encoder.layers.30.self_attn
+vision_model.encoder.layers.30.self_attn.dropout
+vision_model.encoder.layers.30.self_attn.qkv
+vision_model.encoder.layers.30.self_attn.projection
+vision_model.encoder.layers.30.layer_norm1
+vision_model.encoder.layers.30.mlp
+vision_model.encoder.layers.30.mlp.activation_fn
+vision_model.encoder.layers.30.mlp.fc1
+vision_model.encoder.layers.30.mlp.fc2
+vision_model.encoder.layers.30.layer_norm2
+vision_model.encoder.layers.31
+vision_model.encoder.layers.31.self_attn
+vision_model.encoder.layers.31.self_attn.dropout
+vision_model.encoder.layers.31.self_attn.qkv
+vision_model.encoder.layers.31.self_attn.projection
+vision_model.encoder.layers.31.layer_norm1
+vision_model.encoder.layers.31.mlp
+vision_model.encoder.layers.31.mlp.activation_fn
+vision_model.encoder.layers.31.mlp.fc1
+vision_model.encoder.layers.31.mlp.fc2
+vision_model.encoder.layers.31.layer_norm2
+vision_model.encoder.layers.32
+vision_model.encoder.layers.32.self_attn
+vision_model.encoder.layers.32.self_attn.dropout
+vision_model.encoder.layers.32.self_attn.qkv
+vision_model.encoder.layers.32.self_attn.projection
+vision_model.encoder.layers.32.layer_norm1
+vision_model.encoder.layers.32.mlp
+vision_model.encoder.layers.32.mlp.activation_fn
+vision_model.encoder.layers.32.mlp.fc1
+vision_model.encoder.layers.32.mlp.fc2
+vision_model.encoder.layers.32.layer_norm2
+vision_model.encoder.layers.33
+vision_model.encoder.layers.33.self_attn
+vision_model.encoder.layers.33.self_attn.dropout
+vision_model.encoder.layers.33.self_attn.qkv
+vision_model.encoder.layers.33.self_attn.projection
+vision_model.encoder.layers.33.layer_norm1
+vision_model.encoder.layers.33.mlp
+vision_model.encoder.layers.33.mlp.activation_fn
+vision_model.encoder.layers.33.mlp.fc1
+vision_model.encoder.layers.33.mlp.fc2
+vision_model.encoder.layers.33.layer_norm2
+vision_model.encoder.layers.34
+vision_model.encoder.layers.34.self_attn
+vision_model.encoder.layers.34.self_attn.dropout
+vision_model.encoder.layers.34.self_attn.qkv
+vision_model.encoder.layers.34.self_attn.projection
+vision_model.encoder.layers.34.layer_norm1
+vision_model.encoder.layers.34.mlp
+vision_model.encoder.layers.34.mlp.activation_fn
+vision_model.encoder.layers.34.mlp.fc1
+vision_model.encoder.layers.34.mlp.fc2
+vision_model.encoder.layers.34.layer_norm2
+vision_model.encoder.layers.35
+vision_model.encoder.layers.35.self_attn
+vision_model.encoder.layers.35.self_attn.dropout
+vision_model.encoder.layers.35.self_attn.qkv
+vision_model.encoder.layers.35.self_attn.projection
+vision_model.encoder.layers.35.layer_norm1
+vision_model.encoder.layers.35.mlp
+vision_model.encoder.layers.35.mlp.activation_fn
+vision_model.encoder.layers.35.mlp.fc1
+vision_model.encoder.layers.35.mlp.fc2
+vision_model.encoder.layers.35.layer_norm2
+vision_model.encoder.layers.36
+vision_model.encoder.layers.36.self_attn
+vision_model.encoder.layers.36.self_attn.dropout
+vision_model.encoder.layers.36.self_attn.qkv
+vision_model.encoder.layers.36.self_attn.projection
+vision_model.encoder.layers.36.layer_norm1
+vision_model.encoder.layers.36.mlp
+vision_model.encoder.layers.36.mlp.activation_fn
+vision_model.encoder.layers.36.mlp.fc1
+vision_model.encoder.layers.36.mlp.fc2
+vision_model.encoder.layers.36.layer_norm2
+vision_model.encoder.layers.37
+vision_model.encoder.layers.37.self_attn
+vision_model.encoder.layers.37.self_attn.dropout
+vision_model.encoder.layers.37.self_attn.qkv
+vision_model.encoder.layers.37.self_attn.projection
+vision_model.encoder.layers.37.layer_norm1
+vision_model.encoder.layers.37.mlp
+vision_model.encoder.layers.37.mlp.activation_fn
+vision_model.encoder.layers.37.mlp.fc1
+vision_model.encoder.layers.37.mlp.fc2
+vision_model.encoder.layers.37.layer_norm2
+vision_model.encoder.layers.38
+vision_model.encoder.layers.38.self_attn
+vision_model.encoder.layers.38.self_attn.dropout
+vision_model.encoder.layers.38.self_attn.qkv
+vision_model.encoder.layers.38.self_attn.projection
+vision_model.encoder.layers.38.layer_norm1
+vision_model.encoder.layers.38.mlp
+vision_model.encoder.layers.38.mlp.activation_fn
+vision_model.encoder.layers.38.mlp.fc1
+vision_model.encoder.layers.38.mlp.fc2
+vision_model.encoder.layers.38.layer_norm2
+vision_model.post_layernorm
+qformer
+qformer.layernorm
+qformer.dropout
+qformer.encoder
+qformer.encoder.layer
+qformer.encoder.layer.0
+qformer.encoder.layer.0.attention
+qformer.encoder.layer.0.attention.attention
+qformer.encoder.layer.0.attention.attention.query
+qformer.encoder.layer.0.attention.attention.key
+qformer.encoder.layer.0.attention.attention.value
+qformer.encoder.layer.0.attention.attention.dropout
+qformer.encoder.layer.0.attention.output
+qformer.encoder.layer.0.attention.output.dense
+qformer.encoder.layer.0.attention.output.LayerNorm
+qformer.encoder.layer.0.attention.output.dropout
+qformer.encoder.layer.0.crossattention
+qformer.encoder.layer.0.crossattention.attention
+qformer.encoder.layer.0.crossattention.attention.query
+qformer.encoder.layer.0.crossattention.attention.key
+qformer.encoder.layer.0.crossattention.attention.value
+qformer.encoder.layer.0.crossattention.attention.dropout
+qformer.encoder.layer.0.crossattention.output
+qformer.encoder.layer.0.crossattention.output.dense
+qformer.encoder.layer.0.crossattention.output.LayerNorm
+qformer.encoder.layer.0.crossattention.output.dropout
+qformer.encoder.layer.0.intermediate_query
+qformer.encoder.layer.0.intermediate_query.dense
+qformer.encoder.layer.0.intermediate_query.intermediate_act_fn
+qformer.encoder.layer.0.output_query
+qformer.encoder.layer.0.output_query.dense
+qformer.encoder.layer.0.output_query.LayerNorm
+qformer.encoder.layer.0.output_query.dropout
+qformer.encoder.layer.1
+qformer.encoder.layer.1.attention
+qformer.encoder.layer.1.attention.attention
+qformer.encoder.layer.1.attention.attention.query
+qformer.encoder.layer.1.attention.attention.key
+qformer.encoder.layer.1.attention.attention.value
+qformer.encoder.layer.1.attention.attention.dropout
+qformer.encoder.layer.1.attention.output
+qformer.encoder.layer.1.attention.output.dense
+qformer.encoder.layer.1.attention.output.LayerNorm
+qformer.encoder.layer.1.attention.output.dropout
+qformer.encoder.layer.1.intermediate_query
+qformer.encoder.layer.1.intermediate_query.dense
+qformer.encoder.layer.1.intermediate_query.intermediate_act_fn
+qformer.encoder.layer.1.output_query
+qformer.encoder.layer.1.output_query.dense
+qformer.encoder.layer.1.output_query.LayerNorm
+qformer.encoder.layer.1.output_query.dropout
+qformer.encoder.layer.2
+qformer.encoder.layer.2.attention
+qformer.encoder.layer.2.attention.attention
+qformer.encoder.layer.2.attention.attention.query
+qformer.encoder.layer.2.attention.attention.key
+qformer.encoder.layer.2.attention.attention.value
+qformer.encoder.layer.2.attention.attention.dropout
+qformer.encoder.layer.2.attention.output
+qformer.encoder.layer.2.attention.output.dense
+qformer.encoder.layer.2.attention.output.LayerNorm
+qformer.encoder.layer.2.attention.output.dropout
+qformer.encoder.layer.2.crossattention
+qformer.encoder.layer.2.crossattention.attention
+qformer.encoder.layer.2.crossattention.attention.query
+qformer.encoder.layer.2.crossattention.attention.key
+qformer.encoder.layer.2.crossattention.attention.value
+qformer.encoder.layer.2.crossattention.attention.dropout
+qformer.encoder.layer.2.crossattention.output
+qformer.encoder.layer.2.crossattention.output.dense
+qformer.encoder.layer.2.crossattention.output.LayerNorm
+qformer.encoder.layer.2.crossattention.output.dropout
+qformer.encoder.layer.2.intermediate_query
+qformer.encoder.layer.2.intermediate_query.dense
+qformer.encoder.layer.2.intermediate_query.intermediate_act_fn
+qformer.encoder.layer.2.output_query
+qformer.encoder.layer.2.output_query.dense
+qformer.encoder.layer.2.output_query.LayerNorm
+qformer.encoder.layer.2.output_query.dropout
+qformer.encoder.layer.3
+qformer.encoder.layer.3.attention
+qformer.encoder.layer.3.attention.attention
+qformer.encoder.layer.3.attention.attention.query
+qformer.encoder.layer.3.attention.attention.key
+qformer.encoder.layer.3.attention.attention.value
+qformer.encoder.layer.3.attention.attention.dropout
+qformer.encoder.layer.3.attention.output
+qformer.encoder.layer.3.attention.output.dense
+qformer.encoder.layer.3.attention.output.LayerNorm
+qformer.encoder.layer.3.attention.output.dropout
+qformer.encoder.layer.3.intermediate_query
+qformer.encoder.layer.3.intermediate_query.dense
+qformer.encoder.layer.3.intermediate_query.intermediate_act_fn
+qformer.encoder.layer.3.output_query
+qformer.encoder.layer.3.output_query.dense
+qformer.encoder.layer.3.output_query.LayerNorm
+qformer.encoder.layer.3.output_query.dropout
+qformer.encoder.layer.4
+qformer.encoder.layer.4.attention
+qformer.encoder.layer.4.attention.attention
+qformer.encoder.layer.4.attention.attention.query
+qformer.encoder.layer.4.attention.attention.key
+qformer.encoder.layer.4.attention.attention.value
+qformer.encoder.layer.4.attention.attention.dropout
+qformer.encoder.layer.4.attention.output
+qformer.encoder.layer.4.attention.output.dense
+qformer.encoder.layer.4.attention.output.LayerNorm
+qformer.encoder.layer.4.attention.output.dropout
+qformer.encoder.layer.4.crossattention
+qformer.encoder.layer.4.crossattention.attention
+qformer.encoder.layer.4.crossattention.attention.query
+qformer.encoder.layer.4.crossattention.attention.key
+qformer.encoder.layer.4.crossattention.attention.value
+qformer.encoder.layer.4.crossattention.attention.dropout
+qformer.encoder.layer.4.crossattention.output
+qformer.encoder.layer.4.crossattention.output.dense
+qformer.encoder.layer.4.crossattention.output.LayerNorm
+qformer.encoder.layer.4.crossattention.output.dropout
+qformer.encoder.layer.4.intermediate_query
+qformer.encoder.layer.4.intermediate_query.dense
+qformer.encoder.layer.4.intermediate_query.intermediate_act_fn
+qformer.encoder.layer.4.output_query
+qformer.encoder.layer.4.output_query.dense
+qformer.encoder.layer.4.output_query.LayerNorm
+qformer.encoder.layer.4.output_query.dropout
+qformer.encoder.layer.5
+qformer.encoder.layer.5.attention
+qformer.encoder.layer.5.attention.attention
+qformer.encoder.layer.5.attention.attention.query
+qformer.encoder.layer.5.attention.attention.key
+qformer.encoder.layer.5.attention.attention.value
+qformer.encoder.layer.5.attention.attention.dropout
+qformer.encoder.layer.5.attention.output
+qformer.encoder.layer.5.attention.output.dense
+qformer.encoder.layer.5.attention.output.LayerNorm
+qformer.encoder.layer.5.attention.output.dropout
+qformer.encoder.layer.5.intermediate_query
+qformer.encoder.layer.5.intermediate_query.dense
+qformer.encoder.layer.5.intermediate_query.intermediate_act_fn
+qformer.encoder.layer.5.output_query
+qformer.encoder.layer.5.output_query.dense
+qformer.encoder.layer.5.output_query.LayerNorm
+qformer.encoder.layer.5.output_query.dropout
+qformer.encoder.layer.6
+qformer.encoder.layer.6.attention
+qformer.encoder.layer.6.attention.attention
+qformer.encoder.layer.6.attention.attention.query
+qformer.encoder.layer.6.attention.attention.key
+qformer.encoder.layer.6.attention.attention.value
+qformer.encoder.layer.6.attention.attention.dropout
+qformer.encoder.layer.6.attention.output
+qformer.encoder.layer.6.attention.output.dense
+qformer.encoder.layer.6.attention.output.LayerNorm
+qformer.encoder.layer.6.attention.output.dropout
+qformer.encoder.layer.6.crossattention
+qformer.encoder.layer.6.crossattention.attention
+qformer.encoder.layer.6.crossattention.attention.query
+qformer.encoder.layer.6.crossattention.attention.key
+qformer.encoder.layer.6.crossattention.attention.value
+qformer.encoder.layer.6.crossattention.attention.dropout
+qformer.encoder.layer.6.crossattention.output
+qformer.encoder.layer.6.crossattention.output.dense
+qformer.encoder.layer.6.crossattention.output.LayerNorm
+qformer.encoder.layer.6.crossattention.output.dropout
+qformer.encoder.layer.6.intermediate_query
+qformer.encoder.layer.6.intermediate_query.dense
+qformer.encoder.layer.6.intermediate_query.intermediate_act_fn
+qformer.encoder.layer.6.output_query
+qformer.encoder.layer.6.output_query.dense
+qformer.encoder.layer.6.output_query.LayerNorm
+qformer.encoder.layer.6.output_query.dropout
+qformer.encoder.layer.7
+qformer.encoder.layer.7.attention
+qformer.encoder.layer.7.attention.attention
+qformer.encoder.layer.7.attention.attention.query
+qformer.encoder.layer.7.attention.attention.key
+qformer.encoder.layer.7.attention.attention.value
+qformer.encoder.layer.7.attention.attention.dropout
+qformer.encoder.layer.7.attention.output
+qformer.encoder.layer.7.attention.output.dense
+qformer.encoder.layer.7.attention.output.LayerNorm
+qformer.encoder.layer.7.attention.output.dropout
+qformer.encoder.layer.7.intermediate_query
+qformer.encoder.layer.7.intermediate_query.dense
+qformer.encoder.layer.7.intermediate_query.intermediate_act_fn
+qformer.encoder.layer.7.output_query
+qformer.encoder.layer.7.output_query.dense
+qformer.encoder.layer.7.output_query.LayerNorm
+qformer.encoder.layer.7.output_query.dropout
+qformer.encoder.layer.8
+qformer.encoder.layer.8.attention
+qformer.encoder.layer.8.attention.attention
+qformer.encoder.layer.8.attention.attention.query
+qformer.encoder.layer.8.attention.attention.key
+qformer.encoder.layer.8.attention.attention.value
+qformer.encoder.layer.8.attention.attention.dropout
+qformer.encoder.layer.8.attention.output
+qformer.encoder.layer.8.attention.output.dense
+qformer.encoder.layer.8.attention.output.LayerNorm
+qformer.encoder.layer.8.attention.output.dropout
+qformer.encoder.layer.8.crossattention
+qformer.encoder.layer.8.crossattention.attention
+qformer.encoder.layer.8.crossattention.attention.query
+qformer.encoder.layer.8.crossattention.attention.key
+qformer.encoder.layer.8.crossattention.attention.value
+qformer.encoder.layer.8.crossattention.attention.dropout
+qformer.encoder.layer.8.crossattention.output
+qformer.encoder.layer.8.crossattention.output.dense
+qformer.encoder.layer.8.crossattention.output.LayerNorm
+qformer.encoder.layer.8.crossattention.output.dropout
+qformer.encoder.layer.8.intermediate_query
+qformer.encoder.layer.8.intermediate_query.dense
+qformer.encoder.layer.8.intermediate_query.intermediate_act_fn
+qformer.encoder.layer.8.output_query
+qformer.encoder.layer.8.output_query.dense
+qformer.encoder.layer.8.output_query.LayerNorm
+qformer.encoder.layer.8.output_query.dropout
+qformer.encoder.layer.9
+qformer.encoder.layer.9.attention
+qformer.encoder.layer.9.attention.attention
+qformer.encoder.layer.9.attention.attention.query
+qformer.encoder.layer.9.attention.attention.key
+qformer.encoder.layer.9.attention.attention.value
+qformer.encoder.layer.9.attention.attention.dropout
+qformer.encoder.layer.9.attention.output
+qformer.encoder.layer.9.attention.output.dense
+qformer.encoder.layer.9.attention.output.LayerNorm
+qformer.encoder.layer.9.attention.output.dropout
+qformer.encoder.layer.9.intermediate_query
+qformer.encoder.layer.9.intermediate_query.dense
+qformer.encoder.layer.9.intermediate_query.intermediate_act_fn
+qformer.encoder.layer.9.output_query
+qformer.encoder.layer.9.output_query.dense
+qformer.encoder.layer.9.output_query.LayerNorm
+qformer.encoder.layer.9.output_query.dropout
+qformer.encoder.layer.10
+qformer.encoder.layer.10.attention
+qformer.encoder.layer.10.attention.attention
+qformer.encoder.layer.10.attention.attention.query
+qformer.encoder.layer.10.attention.attention.key
+qformer.encoder.layer.10.attention.attention.value
+qformer.encoder.layer.10.attention.attention.dropout
+qformer.encoder.layer.10.attention.output
+qformer.encoder.layer.10.attention.output.dense
+qformer.encoder.layer.10.attention.output.LayerNorm
+qformer.encoder.layer.10.attention.output.dropout
+qformer.encoder.layer.10.crossattention
+qformer.encoder.layer.10.crossattention.attention
+qformer.encoder.layer.10.crossattention.attention.query
+qformer.encoder.layer.10.crossattention.attention.key
+qformer.encoder.layer.10.crossattention.attention.value
+qformer.encoder.layer.10.crossattention.attention.dropout
+qformer.encoder.layer.10.crossattention.output
+qformer.encoder.layer.10.crossattention.output.dense
+qformer.encoder.layer.10.crossattention.output.LayerNorm
+qformer.encoder.layer.10.crossattention.output.dropout
+qformer.encoder.layer.10.intermediate_query
+qformer.encoder.layer.10.intermediate_query.dense
+qformer.encoder.layer.10.intermediate_query.intermediate_act_fn
+qformer.encoder.layer.10.output_query
+qformer.encoder.layer.10.output_query.dense
+qformer.encoder.layer.10.output_query.LayerNorm
+qformer.encoder.layer.10.output_query.dropout
+qformer.encoder.layer.11
+qformer.encoder.layer.11.attention
+qformer.encoder.layer.11.attention.attention
+qformer.encoder.layer.11.attention.attention.query
+qformer.encoder.layer.11.attention.attention.key
+qformer.encoder.layer.11.attention.attention.value
+qformer.encoder.layer.11.attention.attention.dropout
+qformer.encoder.layer.11.attention.output
+qformer.encoder.layer.11.attention.output.dense
+qformer.encoder.layer.11.attention.output.LayerNorm
+qformer.encoder.layer.11.attention.output.dropout
+qformer.encoder.layer.11.intermediate_query
+qformer.encoder.layer.11.intermediate_query.dense
+qformer.encoder.layer.11.intermediate_query.intermediate_act_fn
+qformer.encoder.layer.11.output_query
+qformer.encoder.layer.11.output_query.dense
+qformer.encoder.layer.11.output_query.LayerNorm
+qformer.encoder.layer.11.output_query.dropout
+language_projection
+language_model
+language_model.model
+language_model.model.decoder
+language_model.model.decoder.embed_tokens
+language_model.model.decoder.embed_positions
+language_model.model.decoder.final_layer_norm
+language_model.model.decoder.layers
+language_model.model.decoder.layers.0
+language_model.model.decoder.layers.0.self_attn
+language_model.model.decoder.layers.0.self_attn.k_proj
+language_model.model.decoder.layers.0.self_attn.v_proj
+language_model.model.decoder.layers.0.self_attn.q_proj
+language_model.model.decoder.layers.0.self_attn.out_proj
+language_model.model.decoder.layers.0.activation_fn
+language_model.model.decoder.layers.0.self_attn_layer_norm
+language_model.model.decoder.layers.0.fc1
+language_model.model.decoder.layers.0.fc2
+language_model.model.decoder.layers.0.final_layer_norm
+language_model.model.decoder.layers.1
+language_model.model.decoder.layers.1.self_attn
+language_model.model.decoder.layers.1.self_attn.k_proj
+language_model.model.decoder.layers.1.self_attn.v_proj
+language_model.model.decoder.layers.1.self_attn.q_proj
+language_model.model.decoder.layers.1.self_attn.out_proj
+language_model.model.decoder.layers.1.activation_fn
+language_model.model.decoder.layers.1.self_attn_layer_norm
+language_model.model.decoder.layers.1.fc1
+language_model.model.decoder.layers.1.fc2
+language_model.model.decoder.layers.1.final_layer_norm
+language_model.model.decoder.layers.2
+language_model.model.decoder.layers.2.self_attn
+language_model.model.decoder.layers.2.self_attn.k_proj
+language_model.model.decoder.layers.2.self_attn.v_proj
+language_model.model.decoder.layers.2.self_attn.q_proj
+language_model.model.decoder.layers.2.self_attn.out_proj
+language_model.model.decoder.layers.2.activation_fn
+language_model.model.decoder.layers.2.self_attn_layer_norm
+language_model.model.decoder.layers.2.fc1
+language_model.model.decoder.layers.2.fc2
+language_model.model.decoder.layers.2.final_layer_norm
+language_model.model.decoder.layers.3
+language_model.model.decoder.layers.3.self_attn
+language_model.model.decoder.layers.3.self_attn.k_proj
+language_model.model.decoder.layers.3.self_attn.v_proj
+language_model.model.decoder.layers.3.self_attn.q_proj
+language_model.model.decoder.layers.3.self_attn.out_proj
+language_model.model.decoder.layers.3.activation_fn
+language_model.model.decoder.layers.3.self_attn_layer_norm
+language_model.model.decoder.layers.3.fc1
+language_model.model.decoder.layers.3.fc2
+language_model.model.decoder.layers.3.final_layer_norm
+language_model.model.decoder.layers.4
+language_model.model.decoder.layers.4.self_attn
+language_model.model.decoder.layers.4.self_attn.k_proj
+language_model.model.decoder.layers.4.self_attn.v_proj
+language_model.model.decoder.layers.4.self_attn.q_proj
+language_model.model.decoder.layers.4.self_attn.out_proj
+language_model.model.decoder.layers.4.activation_fn
+language_model.model.decoder.layers.4.self_attn_layer_norm
+language_model.model.decoder.layers.4.fc1
+language_model.model.decoder.layers.4.fc2
+language_model.model.decoder.layers.4.final_layer_norm
+language_model.model.decoder.layers.5
+language_model.model.decoder.layers.5.self_attn
+language_model.model.decoder.layers.5.self_attn.k_proj
+language_model.model.decoder.layers.5.self_attn.v_proj
+language_model.model.decoder.layers.5.self_attn.q_proj
+language_model.model.decoder.layers.5.self_attn.out_proj
+language_model.model.decoder.layers.5.activation_fn
+language_model.model.decoder.layers.5.self_attn_layer_norm
+language_model.model.decoder.layers.5.fc1
+language_model.model.decoder.layers.5.fc2
+language_model.model.decoder.layers.5.final_layer_norm
+language_model.model.decoder.layers.6
+language_model.model.decoder.layers.6.self_attn
+language_model.model.decoder.layers.6.self_attn.k_proj
+language_model.model.decoder.layers.6.self_attn.v_proj
+language_model.model.decoder.layers.6.self_attn.q_proj
+language_model.model.decoder.layers.6.self_attn.out_proj
+language_model.model.decoder.layers.6.activation_fn
+language_model.model.decoder.layers.6.self_attn_layer_norm
+language_model.model.decoder.layers.6.fc1
+language_model.model.decoder.layers.6.fc2
+language_model.model.decoder.layers.6.final_layer_norm
+language_model.model.decoder.layers.7
+language_model.model.decoder.layers.7.self_attn
+language_model.model.decoder.layers.7.self_attn.k_proj
+language_model.model.decoder.layers.7.self_attn.v_proj
+language_model.model.decoder.layers.7.self_attn.q_proj
+language_model.model.decoder.layers.7.self_attn.out_proj
+language_model.model.decoder.layers.7.activation_fn
+language_model.model.decoder.layers.7.self_attn_layer_norm
+language_model.model.decoder.layers.7.fc1
+language_model.model.decoder.layers.7.fc2
+language_model.model.decoder.layers.7.final_layer_norm
+language_model.model.decoder.layers.8
+language_model.model.decoder.layers.8.self_attn
+language_model.model.decoder.layers.8.self_attn.k_proj
+language_model.model.decoder.layers.8.self_attn.v_proj
+language_model.model.decoder.layers.8.self_attn.q_proj
+language_model.model.decoder.layers.8.self_attn.out_proj
+language_model.model.decoder.layers.8.activation_fn
+language_model.model.decoder.layers.8.self_attn_layer_norm
+language_model.model.decoder.layers.8.fc1
+language_model.model.decoder.layers.8.fc2
+language_model.model.decoder.layers.8.final_layer_norm
+language_model.model.decoder.layers.9
+language_model.model.decoder.layers.9.self_attn
+language_model.model.decoder.layers.9.self_attn.k_proj
+language_model.model.decoder.layers.9.self_attn.v_proj
+language_model.model.decoder.layers.9.self_attn.q_proj
+language_model.model.decoder.layers.9.self_attn.out_proj
+language_model.model.decoder.layers.9.activation_fn
+language_model.model.decoder.layers.9.self_attn_layer_norm
+language_model.model.decoder.layers.9.fc1
+language_model.model.decoder.layers.9.fc2
+language_model.model.decoder.layers.9.final_layer_norm
+language_model.model.decoder.layers.10
+language_model.model.decoder.layers.10.self_attn
+language_model.model.decoder.layers.10.self_attn.k_proj
+language_model.model.decoder.layers.10.self_attn.v_proj
+language_model.model.decoder.layers.10.self_attn.q_proj
+language_model.model.decoder.layers.10.self_attn.out_proj
+language_model.model.decoder.layers.10.activation_fn
+language_model.model.decoder.layers.10.self_attn_layer_norm
+language_model.model.decoder.layers.10.fc1
+language_model.model.decoder.layers.10.fc2
+language_model.model.decoder.layers.10.final_layer_norm
+language_model.model.decoder.layers.11
+language_model.model.decoder.layers.11.self_attn
+language_model.model.decoder.layers.11.self_attn.k_proj
+language_model.model.decoder.layers.11.self_attn.v_proj
+language_model.model.decoder.layers.11.self_attn.q_proj
+language_model.model.decoder.layers.11.self_attn.out_proj
+language_model.model.decoder.layers.11.activation_fn
+language_model.model.decoder.layers.11.self_attn_layer_norm
+language_model.model.decoder.layers.11.fc1
+language_model.model.decoder.layers.11.fc2
+language_model.model.decoder.layers.11.final_layer_norm
+language_model.model.decoder.layers.12
+language_model.model.decoder.layers.12.self_attn
+language_model.model.decoder.layers.12.self_attn.k_proj
+language_model.model.decoder.layers.12.self_attn.v_proj
+language_model.model.decoder.layers.12.self_attn.q_proj
+language_model.model.decoder.layers.12.self_attn.out_proj
+language_model.model.decoder.layers.12.activation_fn
+language_model.model.decoder.layers.12.self_attn_layer_norm
+language_model.model.decoder.layers.12.fc1
+language_model.model.decoder.layers.12.fc2
+language_model.model.decoder.layers.12.final_layer_norm
+language_model.model.decoder.layers.13
+language_model.model.decoder.layers.13.self_attn
+language_model.model.decoder.layers.13.self_attn.k_proj
+language_model.model.decoder.layers.13.self_attn.v_proj
+language_model.model.decoder.layers.13.self_attn.q_proj
+language_model.model.decoder.layers.13.self_attn.out_proj
+language_model.model.decoder.layers.13.activation_fn
+language_model.model.decoder.layers.13.self_attn_layer_norm
+language_model.model.decoder.layers.13.fc1
+language_model.model.decoder.layers.13.fc2
+language_model.model.decoder.layers.13.final_layer_norm
+language_model.model.decoder.layers.14
+language_model.model.decoder.layers.14.self_attn
+language_model.model.decoder.layers.14.self_attn.k_proj
+language_model.model.decoder.layers.14.self_attn.v_proj
+language_model.model.decoder.layers.14.self_attn.q_proj
+language_model.model.decoder.layers.14.self_attn.out_proj
+language_model.model.decoder.layers.14.activation_fn
+language_model.model.decoder.layers.14.self_attn_layer_norm
+language_model.model.decoder.layers.14.fc1
+language_model.model.decoder.layers.14.fc2
+language_model.model.decoder.layers.14.final_layer_norm
+language_model.model.decoder.layers.15
+language_model.model.decoder.layers.15.self_attn
+language_model.model.decoder.layers.15.self_attn.k_proj
+language_model.model.decoder.layers.15.self_attn.v_proj
+language_model.model.decoder.layers.15.self_attn.q_proj
+language_model.model.decoder.layers.15.self_attn.out_proj
+language_model.model.decoder.layers.15.activation_fn
+language_model.model.decoder.layers.15.self_attn_layer_norm
+language_model.model.decoder.layers.15.fc1
+language_model.model.decoder.layers.15.fc2
+language_model.model.decoder.layers.15.final_layer_norm
+language_model.model.decoder.layers.16
+language_model.model.decoder.layers.16.self_attn
+language_model.model.decoder.layers.16.self_attn.k_proj
+language_model.model.decoder.layers.16.self_attn.v_proj
+language_model.model.decoder.layers.16.self_attn.q_proj
+language_model.model.decoder.layers.16.self_attn.out_proj
+language_model.model.decoder.layers.16.activation_fn
+language_model.model.decoder.layers.16.self_attn_layer_norm
+language_model.model.decoder.layers.16.fc1
+language_model.model.decoder.layers.16.fc2
+language_model.model.decoder.layers.16.final_layer_norm
+language_model.model.decoder.layers.17
+language_model.model.decoder.layers.17.self_attn
+language_model.model.decoder.layers.17.self_attn.k_proj
+language_model.model.decoder.layers.17.self_attn.v_proj
+language_model.model.decoder.layers.17.self_attn.q_proj
+language_model.model.decoder.layers.17.self_attn.out_proj
+language_model.model.decoder.layers.17.activation_fn
+language_model.model.decoder.layers.17.self_attn_layer_norm
+language_model.model.decoder.layers.17.fc1
+language_model.model.decoder.layers.17.fc2
+language_model.model.decoder.layers.17.final_layer_norm
+language_model.model.decoder.layers.18
+language_model.model.decoder.layers.18.self_attn
+language_model.model.decoder.layers.18.self_attn.k_proj
+language_model.model.decoder.layers.18.self_attn.v_proj
+language_model.model.decoder.layers.18.self_attn.q_proj
+language_model.model.decoder.layers.18.self_attn.out_proj
+language_model.model.decoder.layers.18.activation_fn
+language_model.model.decoder.layers.18.self_attn_layer_norm
+language_model.model.decoder.layers.18.fc1
+language_model.model.decoder.layers.18.fc2
+language_model.model.decoder.layers.18.final_layer_norm
+language_model.model.decoder.layers.19
+language_model.model.decoder.layers.19.self_attn
+language_model.model.decoder.layers.19.self_attn.k_proj
+language_model.model.decoder.layers.19.self_attn.v_proj
+language_model.model.decoder.layers.19.self_attn.q_proj
+language_model.model.decoder.layers.19.self_attn.out_proj
+language_model.model.decoder.layers.19.activation_fn
+language_model.model.decoder.layers.19.self_attn_layer_norm
+language_model.model.decoder.layers.19.fc1
+language_model.model.decoder.layers.19.fc2
+language_model.model.decoder.layers.19.final_layer_norm
+language_model.model.decoder.layers.20
+language_model.model.decoder.layers.20.self_attn
+language_model.model.decoder.layers.20.self_attn.k_proj
+language_model.model.decoder.layers.20.self_attn.v_proj
+language_model.model.decoder.layers.20.self_attn.q_proj
+language_model.model.decoder.layers.20.self_attn.out_proj
+language_model.model.decoder.layers.20.activation_fn
+language_model.model.decoder.layers.20.self_attn_layer_norm
+language_model.model.decoder.layers.20.fc1
+language_model.model.decoder.layers.20.fc2
+language_model.model.decoder.layers.20.final_layer_norm
+language_model.model.decoder.layers.21
+language_model.model.decoder.layers.21.self_attn
+language_model.model.decoder.layers.21.self_attn.k_proj
+language_model.model.decoder.layers.21.self_attn.v_proj
+language_model.model.decoder.layers.21.self_attn.q_proj
+language_model.model.decoder.layers.21.self_attn.out_proj
+language_model.model.decoder.layers.21.activation_fn
+language_model.model.decoder.layers.21.self_attn_layer_norm
+language_model.model.decoder.layers.21.fc1
+language_model.model.decoder.layers.21.fc2
+language_model.model.decoder.layers.21.final_layer_norm
+language_model.model.decoder.layers.22
+language_model.model.decoder.layers.22.self_attn
+language_model.model.decoder.layers.22.self_attn.k_proj
+language_model.model.decoder.layers.22.self_attn.v_proj
+language_model.model.decoder.layers.22.self_attn.q_proj
+language_model.model.decoder.layers.22.self_attn.out_proj
+language_model.model.decoder.layers.22.activation_fn
+language_model.model.decoder.layers.22.self_attn_layer_norm
+language_model.model.decoder.layers.22.fc1
+language_model.model.decoder.layers.22.fc2
+language_model.model.decoder.layers.22.final_layer_norm
+language_model.model.decoder.layers.23
+language_model.model.decoder.layers.23.self_attn
+language_model.model.decoder.layers.23.self_attn.k_proj
+language_model.model.decoder.layers.23.self_attn.v_proj
+language_model.model.decoder.layers.23.self_attn.q_proj
+language_model.model.decoder.layers.23.self_attn.out_proj
+language_model.model.decoder.layers.23.activation_fn
+language_model.model.decoder.layers.23.self_attn_layer_norm
+language_model.model.decoder.layers.23.fc1
+language_model.model.decoder.layers.23.fc2
+language_model.model.decoder.layers.23.final_layer_norm
+language_model.model.decoder.layers.24
+language_model.model.decoder.layers.24.self_attn
+language_model.model.decoder.layers.24.self_attn.k_proj
+language_model.model.decoder.layers.24.self_attn.v_proj
+language_model.model.decoder.layers.24.self_attn.q_proj
+language_model.model.decoder.layers.24.self_attn.out_proj
+language_model.model.decoder.layers.24.activation_fn
+language_model.model.decoder.layers.24.self_attn_layer_norm
+language_model.model.decoder.layers.24.fc1
+language_model.model.decoder.layers.24.fc2
+language_model.model.decoder.layers.24.final_layer_norm
+language_model.model.decoder.layers.25
+language_model.model.decoder.layers.25.self_attn
+language_model.model.decoder.layers.25.self_attn.k_proj
+language_model.model.decoder.layers.25.self_attn.v_proj
+language_model.model.decoder.layers.25.self_attn.q_proj
+language_model.model.decoder.layers.25.self_attn.out_proj
+language_model.model.decoder.layers.25.activation_fn
+language_model.model.decoder.layers.25.self_attn_layer_norm
+language_model.model.decoder.layers.25.fc1
+language_model.model.decoder.layers.25.fc2
+language_model.model.decoder.layers.25.final_layer_norm
+language_model.model.decoder.layers.26
+language_model.model.decoder.layers.26.self_attn
+language_model.model.decoder.layers.26.self_attn.k_proj
+language_model.model.decoder.layers.26.self_attn.v_proj
+language_model.model.decoder.layers.26.self_attn.q_proj
+language_model.model.decoder.layers.26.self_attn.out_proj
+language_model.model.decoder.layers.26.activation_fn
+language_model.model.decoder.layers.26.self_attn_layer_norm
+language_model.model.decoder.layers.26.fc1
+language_model.model.decoder.layers.26.fc2
+language_model.model.decoder.layers.26.final_layer_norm
+language_model.model.decoder.layers.27
+language_model.model.decoder.layers.27.self_attn
+language_model.model.decoder.layers.27.self_attn.k_proj
+language_model.model.decoder.layers.27.self_attn.v_proj
+language_model.model.decoder.layers.27.self_attn.q_proj
+language_model.model.decoder.layers.27.self_attn.out_proj
+language_model.model.decoder.layers.27.activation_fn
+language_model.model.decoder.layers.27.self_attn_layer_norm
+language_model.model.decoder.layers.27.fc1
+language_model.model.decoder.layers.27.fc2
+language_model.model.decoder.layers.27.final_layer_norm
+language_model.model.decoder.layers.28
+language_model.model.decoder.layers.28.self_attn
+language_model.model.decoder.layers.28.self_attn.k_proj
+language_model.model.decoder.layers.28.self_attn.v_proj
+language_model.model.decoder.layers.28.self_attn.q_proj
+language_model.model.decoder.layers.28.self_attn.out_proj
+language_model.model.decoder.layers.28.activation_fn
+language_model.model.decoder.layers.28.self_attn_layer_norm
+language_model.model.decoder.layers.28.fc1
+language_model.model.decoder.layers.28.fc2
+language_model.model.decoder.layers.28.final_layer_norm
+language_model.model.decoder.layers.29
+language_model.model.decoder.layers.29.self_attn
+language_model.model.decoder.layers.29.self_attn.k_proj
+language_model.model.decoder.layers.29.self_attn.v_proj
+language_model.model.decoder.layers.29.self_attn.q_proj
+language_model.model.decoder.layers.29.self_attn.out_proj
+language_model.model.decoder.layers.29.activation_fn
+language_model.model.decoder.layers.29.self_attn_layer_norm
+language_model.model.decoder.layers.29.fc1
+language_model.model.decoder.layers.29.fc2
+language_model.model.decoder.layers.29.final_layer_norm
+language_model.model.decoder.layers.30
+language_model.model.decoder.layers.30.self_attn
+language_model.model.decoder.layers.30.self_attn.k_proj
+language_model.model.decoder.layers.30.self_attn.v_proj
+language_model.model.decoder.layers.30.self_attn.q_proj
+language_model.model.decoder.layers.30.self_attn.out_proj
+language_model.model.decoder.layers.30.activation_fn
+language_model.model.decoder.layers.30.self_attn_layer_norm
+language_model.model.decoder.layers.30.fc1
+language_model.model.decoder.layers.30.fc2
+language_model.model.decoder.layers.30.final_layer_norm
+language_model.model.decoder.layers.31
+language_model.model.decoder.layers.31.self_attn
+language_model.model.decoder.layers.31.self_attn.k_proj
+language_model.model.decoder.layers.31.self_attn.v_proj
+language_model.model.decoder.layers.31.self_attn.q_proj
+language_model.model.decoder.layers.31.self_attn.out_proj
+language_model.model.decoder.layers.31.activation_fn
+language_model.model.decoder.layers.31.self_attn_layer_norm
+language_model.model.decoder.layers.31.fc1
+language_model.model.decoder.layers.31.fc2
+language_model.model.decoder.layers.31.final_layer_norm
+language_model.lm_head

logs/THUDM/cogvlm-chat-hf.txt ADDED Viewed

	@@ -0,0 +1,1352 @@

+model
+model.embed_tokens
+model.layers
+model.layers.0
+model.layers.0.self_attn
+model.layers.0.self_attn.rotary_emb
+model.layers.0.self_attn.vision_expert_query_key_value
+model.layers.0.self_attn.vision_expert_dense
+model.layers.0.self_attn.language_expert_query_key_value
+model.layers.0.self_attn.language_expert_dense
+model.layers.0.mlp
+model.layers.0.mlp.language_mlp
+model.layers.0.mlp.language_mlp.gate_proj
+model.layers.0.mlp.language_mlp.up_proj
+model.layers.0.mlp.language_mlp.down_proj
+model.layers.0.mlp.language_mlp.act_fn
+model.layers.0.mlp.vision_mlp
+model.layers.0.mlp.vision_mlp.gate_proj
+model.layers.0.mlp.vision_mlp.up_proj
+model.layers.0.mlp.vision_mlp.down_proj
+model.layers.0.mlp.vision_mlp.act_fn
+model.layers.0.input_layernorm
+model.layers.0.post_attention_layernorm
+model.layers.1
+model.layers.1.self_attn
+model.layers.1.self_attn.rotary_emb
+model.layers.1.self_attn.vision_expert_query_key_value
+model.layers.1.self_attn.vision_expert_dense
+model.layers.1.self_attn.language_expert_query_key_value
+model.layers.1.self_attn.language_expert_dense
+model.layers.1.mlp
+model.layers.1.mlp.language_mlp
+model.layers.1.mlp.language_mlp.gate_proj
+model.layers.1.mlp.language_mlp.up_proj
+model.layers.1.mlp.language_mlp.down_proj
+model.layers.1.mlp.language_mlp.act_fn
+model.layers.1.mlp.vision_mlp
+model.layers.1.mlp.vision_mlp.gate_proj
+model.layers.1.mlp.vision_mlp.up_proj
+model.layers.1.mlp.vision_mlp.down_proj
+model.layers.1.mlp.vision_mlp.act_fn
+model.layers.1.input_layernorm
+model.layers.1.post_attention_layernorm
+model.layers.2
+model.layers.2.self_attn
+model.layers.2.self_attn.rotary_emb
+model.layers.2.self_attn.vision_expert_query_key_value
+model.layers.2.self_attn.vision_expert_dense
+model.layers.2.self_attn.language_expert_query_key_value
+model.layers.2.self_attn.language_expert_dense
+model.layers.2.mlp
+model.layers.2.mlp.language_mlp
+model.layers.2.mlp.language_mlp.gate_proj
+model.layers.2.mlp.language_mlp.up_proj
+model.layers.2.mlp.language_mlp.down_proj
+model.layers.2.mlp.language_mlp.act_fn
+model.layers.2.mlp.vision_mlp
+model.layers.2.mlp.vision_mlp.gate_proj
+model.layers.2.mlp.vision_mlp.up_proj
+model.layers.2.mlp.vision_mlp.down_proj
+model.layers.2.mlp.vision_mlp.act_fn
+model.layers.2.input_layernorm
+model.layers.2.post_attention_layernorm
+model.layers.3
+model.layers.3.self_attn
+model.layers.3.self_attn.rotary_emb
+model.layers.3.self_attn.vision_expert_query_key_value
+model.layers.3.self_attn.vision_expert_dense
+model.layers.3.self_attn.language_expert_query_key_value
+model.layers.3.self_attn.language_expert_dense
+model.layers.3.mlp
+model.layers.3.mlp.language_mlp
+model.layers.3.mlp.language_mlp.gate_proj
+model.layers.3.mlp.language_mlp.up_proj
+model.layers.3.mlp.language_mlp.down_proj
+model.layers.3.mlp.language_mlp.act_fn
+model.layers.3.mlp.vision_mlp
+model.layers.3.mlp.vision_mlp.gate_proj
+model.layers.3.mlp.vision_mlp.up_proj
+model.layers.3.mlp.vision_mlp.down_proj
+model.layers.3.mlp.vision_mlp.act_fn
+model.layers.3.input_layernorm
+model.layers.3.post_attention_layernorm
+model.layers.4
+model.layers.4.self_attn
+model.layers.4.self_attn.rotary_emb
+model.layers.4.self_attn.vision_expert_query_key_value
+model.layers.4.self_attn.vision_expert_dense
+model.layers.4.self_attn.language_expert_query_key_value
+model.layers.4.self_attn.language_expert_dense
+model.layers.4.mlp
+model.layers.4.mlp.language_mlp
+model.layers.4.mlp.language_mlp.gate_proj
+model.layers.4.mlp.language_mlp.up_proj
+model.layers.4.mlp.language_mlp.down_proj
+model.layers.4.mlp.language_mlp.act_fn
+model.layers.4.mlp.vision_mlp
+model.layers.4.mlp.vision_mlp.gate_proj
+model.layers.4.mlp.vision_mlp.up_proj
+model.layers.4.mlp.vision_mlp.down_proj
+model.layers.4.mlp.vision_mlp.act_fn
+model.layers.4.input_layernorm
+model.layers.4.post_attention_layernorm
+model.layers.5
+model.layers.5.self_attn
+model.layers.5.self_attn.rotary_emb
+model.layers.5.self_attn.vision_expert_query_key_value
+model.layers.5.self_attn.vision_expert_dense
+model.layers.5.self_attn.language_expert_query_key_value
+model.layers.5.self_attn.language_expert_dense
+model.layers.5.mlp
+model.layers.5.mlp.language_mlp
+model.layers.5.mlp.language_mlp.gate_proj
+model.layers.5.mlp.language_mlp.up_proj
+model.layers.5.mlp.language_mlp.down_proj
+model.layers.5.mlp.language_mlp.act_fn
+model.layers.5.mlp.vision_mlp
+model.layers.5.mlp.vision_mlp.gate_proj
+model.layers.5.mlp.vision_mlp.up_proj
+model.layers.5.mlp.vision_mlp.down_proj
+model.layers.5.mlp.vision_mlp.act_fn
+model.layers.5.input_layernorm
+model.layers.5.post_attention_layernorm
+model.layers.6
+model.layers.6.self_attn
+model.layers.6.self_attn.rotary_emb
+model.layers.6.self_attn.vision_expert_query_key_value
+model.layers.6.self_attn.vision_expert_dense
+model.layers.6.self_attn.language_expert_query_key_value
+model.layers.6.self_attn.language_expert_dense
+model.layers.6.mlp
+model.layers.6.mlp.language_mlp
+model.layers.6.mlp.language_mlp.gate_proj
+model.layers.6.mlp.language_mlp.up_proj
+model.layers.6.mlp.language_mlp.down_proj
+model.layers.6.mlp.language_mlp.act_fn
+model.layers.6.mlp.vision_mlp
+model.layers.6.mlp.vision_mlp.gate_proj
+model.layers.6.mlp.vision_mlp.up_proj
+model.layers.6.mlp.vision_mlp.down_proj
+model.layers.6.mlp.vision_mlp.act_fn
+model.layers.6.input_layernorm
+model.layers.6.post_attention_layernorm
+model.layers.7
+model.layers.7.self_attn
+model.layers.7.self_attn.rotary_emb
+model.layers.7.self_attn.vision_expert_query_key_value
+model.layers.7.self_attn.vision_expert_dense
+model.layers.7.self_attn.language_expert_query_key_value
+model.layers.7.self_attn.language_expert_dense
+model.layers.7.mlp
+model.layers.7.mlp.language_mlp
+model.layers.7.mlp.language_mlp.gate_proj
+model.layers.7.mlp.language_mlp.up_proj
+model.layers.7.mlp.language_mlp.down_proj
+model.layers.7.mlp.language_mlp.act_fn
+model.layers.7.mlp.vision_mlp
+model.layers.7.mlp.vision_mlp.gate_proj
+model.layers.7.mlp.vision_mlp.up_proj
+model.layers.7.mlp.vision_mlp.down_proj
+model.layers.7.mlp.vision_mlp.act_fn
+model.layers.7.input_layernorm
+model.layers.7.post_attention_layernorm
+model.layers.8
+model.layers.8.self_attn
+model.layers.8.self_attn.rotary_emb
+model.layers.8.self_attn.vision_expert_query_key_value
+model.layers.8.self_attn.vision_expert_dense
+model.layers.8.self_attn.language_expert_query_key_value
+model.layers.8.self_attn.language_expert_dense
+model.layers.8.mlp
+model.layers.8.mlp.language_mlp
+model.layers.8.mlp.language_mlp.gate_proj
+model.layers.8.mlp.language_mlp.up_proj
+model.layers.8.mlp.language_mlp.down_proj
+model.layers.8.mlp.language_mlp.act_fn
+model.layers.8.mlp.vision_mlp
+model.layers.8.mlp.vision_mlp.gate_proj
+model.layers.8.mlp.vision_mlp.up_proj
+model.layers.8.mlp.vision_mlp.down_proj
+model.layers.8.mlp.vision_mlp.act_fn
+model.layers.8.input_layernorm
+model.layers.8.post_attention_layernorm
+model.layers.9
+model.layers.9.self_attn
+model.layers.9.self_attn.rotary_emb
+model.layers.9.self_attn.vision_expert_query_key_value
+model.layers.9.self_attn.vision_expert_dense
+model.layers.9.self_attn.language_expert_query_key_value
+model.layers.9.self_attn.language_expert_dense
+model.layers.9.mlp
+model.layers.9.mlp.language_mlp
+model.layers.9.mlp.language_mlp.gate_proj
+model.layers.9.mlp.language_mlp.up_proj
+model.layers.9.mlp.language_mlp.down_proj
+model.layers.9.mlp.language_mlp.act_fn
+model.layers.9.mlp.vision_mlp
+model.layers.9.mlp.vision_mlp.gate_proj
+model.layers.9.mlp.vision_mlp.up_proj
+model.layers.9.mlp.vision_mlp.down_proj
+model.layers.9.mlp.vision_mlp.act_fn
+model.layers.9.input_layernorm
+model.layers.9.post_attention_layernorm
+model.layers.10
+model.layers.10.self_attn
+model.layers.10.self_attn.rotary_emb
+model.layers.10.self_attn.vision_expert_query_key_value
+model.layers.10.self_attn.vision_expert_dense
+model.layers.10.self_attn.language_expert_query_key_value
+model.layers.10.self_attn.language_expert_dense
+model.layers.10.mlp
+model.layers.10.mlp.language_mlp
+model.layers.10.mlp.language_mlp.gate_proj
+model.layers.10.mlp.language_mlp.up_proj
+model.layers.10.mlp.language_mlp.down_proj
+model.layers.10.mlp.language_mlp.act_fn
+model.layers.10.mlp.vision_mlp
+model.layers.10.mlp.vision_mlp.gate_proj
+model.layers.10.mlp.vision_mlp.up_proj
+model.layers.10.mlp.vision_mlp.down_proj
+model.layers.10.mlp.vision_mlp.act_fn
+model.layers.10.input_layernorm
+model.layers.10.post_attention_layernorm
+model.layers.11
+model.layers.11.self_attn
+model.layers.11.self_attn.rotary_emb
+model.layers.11.self_attn.vision_expert_query_key_value
+model.layers.11.self_attn.vision_expert_dense
+model.layers.11.self_attn.language_expert_query_key_value
+model.layers.11.self_attn.language_expert_dense
+model.layers.11.mlp
+model.layers.11.mlp.language_mlp
+model.layers.11.mlp.language_mlp.gate_proj
+model.layers.11.mlp.language_mlp.up_proj
+model.layers.11.mlp.language_mlp.down_proj
+model.layers.11.mlp.language_mlp.act_fn
+model.layers.11.mlp.vision_mlp
+model.layers.11.mlp.vision_mlp.gate_proj
+model.layers.11.mlp.vision_mlp.up_proj
+model.layers.11.mlp.vision_mlp.down_proj
+model.layers.11.mlp.vision_mlp.act_fn
+model.layers.11.input_layernorm
+model.layers.11.post_attention_layernorm
+model.layers.12
+model.layers.12.self_attn
+model.layers.12.self_attn.rotary_emb
+model.layers.12.self_attn.vision_expert_query_key_value
+model.layers.12.self_attn.vision_expert_dense
+model.layers.12.self_attn.language_expert_query_key_value
+model.layers.12.self_attn.language_expert_dense
+model.layers.12.mlp
+model.layers.12.mlp.language_mlp
+model.layers.12.mlp.language_mlp.gate_proj
+model.layers.12.mlp.language_mlp.up_proj
+model.layers.12.mlp.language_mlp.down_proj
+model.layers.12.mlp.language_mlp.act_fn
+model.layers.12.mlp.vision_mlp
+model.layers.12.mlp.vision_mlp.gate_proj
+model.layers.12.mlp.vision_mlp.up_proj
+model.layers.12.mlp.vision_mlp.down_proj
+model.layers.12.mlp.vision_mlp.act_fn
+model.layers.12.input_layernorm
+model.layers.12.post_attention_layernorm
+model.layers.13
+model.layers.13.self_attn
+model.layers.13.self_attn.rotary_emb
+model.layers.13.self_attn.vision_expert_query_key_value
+model.layers.13.self_attn.vision_expert_dense
+model.layers.13.self_attn.language_expert_query_key_value
+model.layers.13.self_attn.language_expert_dense
+model.layers.13.mlp
+model.layers.13.mlp.language_mlp
+model.layers.13.mlp.language_mlp.gate_proj
+model.layers.13.mlp.language_mlp.up_proj
+model.layers.13.mlp.language_mlp.down_proj
+model.layers.13.mlp.language_mlp.act_fn
+model.layers.13.mlp.vision_mlp
+model.layers.13.mlp.vision_mlp.gate_proj
+model.layers.13.mlp.vision_mlp.up_proj
+model.layers.13.mlp.vision_mlp.down_proj
+model.layers.13.mlp.vision_mlp.act_fn
+model.layers.13.input_layernorm
+model.layers.13.post_attention_layernorm
+model.layers.14
+model.layers.14.self_attn
+model.layers.14.self_attn.rotary_emb
+model.layers.14.self_attn.vision_expert_query_key_value
+model.layers.14.self_attn.vision_expert_dense
+model.layers.14.self_attn.language_expert_query_key_value
+model.layers.14.self_attn.language_expert_dense
+model.layers.14.mlp
+model.layers.14.mlp.language_mlp
+model.layers.14.mlp.language_mlp.gate_proj
+model.layers.14.mlp.language_mlp.up_proj
+model.layers.14.mlp.language_mlp.down_proj
+model.layers.14.mlp.language_mlp.act_fn
+model.layers.14.mlp.vision_mlp
+model.layers.14.mlp.vision_mlp.gate_proj
+model.layers.14.mlp.vision_mlp.up_proj
+model.layers.14.mlp.vision_mlp.down_proj
+model.layers.14.mlp.vision_mlp.act_fn
+model.layers.14.input_layernorm
+model.layers.14.post_attention_layernorm
+model.layers.15
+model.layers.15.self_attn
+model.layers.15.self_attn.rotary_emb
+model.layers.15.self_attn.vision_expert_query_key_value
+model.layers.15.self_attn.vision_expert_dense
+model.layers.15.self_attn.language_expert_query_key_value
+model.layers.15.self_attn.language_expert_dense
+model.layers.15.mlp
+model.layers.15.mlp.language_mlp
+model.layers.15.mlp.language_mlp.gate_proj
+model.layers.15.mlp.language_mlp.up_proj
+model.layers.15.mlp.language_mlp.down_proj
+model.layers.15.mlp.language_mlp.act_fn
+model.layers.15.mlp.vision_mlp
+model.layers.15.mlp.vision_mlp.gate_proj
+model.layers.15.mlp.vision_mlp.up_proj
+model.layers.15.mlp.vision_mlp.down_proj
+model.layers.15.mlp.vision_mlp.act_fn
+model.layers.15.input_layernorm
+model.layers.15.post_attention_layernorm
+model.layers.16
+model.layers.16.self_attn
+model.layers.16.self_attn.rotary_emb
+model.layers.16.self_attn.vision_expert_query_key_value
+model.layers.16.self_attn.vision_expert_dense
+model.layers.16.self_attn.language_expert_query_key_value
+model.layers.16.self_attn.language_expert_dense
+model.layers.16.mlp
+model.layers.16.mlp.language_mlp
+model.layers.16.mlp.language_mlp.gate_proj
+model.layers.16.mlp.language_mlp.up_proj
+model.layers.16.mlp.language_mlp.down_proj
+model.layers.16.mlp.language_mlp.act_fn
+model.layers.16.mlp.vision_mlp
+model.layers.16.mlp.vision_mlp.gate_proj
+model.layers.16.mlp.vision_mlp.up_proj
+model.layers.16.mlp.vision_mlp.down_proj
+model.layers.16.mlp.vision_mlp.act_fn
+model.layers.16.input_layernorm
+model.layers.16.post_attention_layernorm
+model.layers.17
+model.layers.17.self_attn
+model.layers.17.self_attn.rotary_emb
+model.layers.17.self_attn.vision_expert_query_key_value
+model.layers.17.self_attn.vision_expert_dense
+model.layers.17.self_attn.language_expert_query_key_value
+model.layers.17.self_attn.language_expert_dense
+model.layers.17.mlp
+model.layers.17.mlp.language_mlp
+model.layers.17.mlp.language_mlp.gate_proj
+model.layers.17.mlp.language_mlp.up_proj
+model.layers.17.mlp.language_mlp.down_proj
+model.layers.17.mlp.language_mlp.act_fn
+model.layers.17.mlp.vision_mlp
+model.layers.17.mlp.vision_mlp.gate_proj
+model.layers.17.mlp.vision_mlp.up_proj
+model.layers.17.mlp.vision_mlp.down_proj
+model.layers.17.mlp.vision_mlp.act_fn
+model.layers.17.input_layernorm
+model.layers.17.post_attention_layernorm
+model.layers.18
+model.layers.18.self_attn
+model.layers.18.self_attn.rotary_emb
+model.layers.18.self_attn.vision_expert_query_key_value
+model.layers.18.self_attn.vision_expert_dense
+model.layers.18.self_attn.language_expert_query_key_value
+model.layers.18.self_attn.language_expert_dense
+model.layers.18.mlp
+model.layers.18.mlp.language_mlp
+model.layers.18.mlp.language_mlp.gate_proj
+model.layers.18.mlp.language_mlp.up_proj
+model.layers.18.mlp.language_mlp.down_proj
+model.layers.18.mlp.language_mlp.act_fn
+model.layers.18.mlp.vision_mlp
+model.layers.18.mlp.vision_mlp.gate_proj
+model.layers.18.mlp.vision_mlp.up_proj
+model.layers.18.mlp.vision_mlp.down_proj
+model.layers.18.mlp.vision_mlp.act_fn
+model.layers.18.input_layernorm
+model.layers.18.post_attention_layernorm
+model.layers.19
+model.layers.19.self_attn
+model.layers.19.self_attn.rotary_emb
+model.layers.19.self_attn.vision_expert_query_key_value
+model.layers.19.self_attn.vision_expert_dense
+model.layers.19.self_attn.language_expert_query_key_value
+model.layers.19.self_attn.language_expert_dense
+model.layers.19.mlp
+model.layers.19.mlp.language_mlp
+model.layers.19.mlp.language_mlp.gate_proj
+model.layers.19.mlp.language_mlp.up_proj
+model.layers.19.mlp.language_mlp.down_proj
+model.layers.19.mlp.language_mlp.act_fn
+model.layers.19.mlp.vision_mlp
+model.layers.19.mlp.vision_mlp.gate_proj
+model.layers.19.mlp.vision_mlp.up_proj
+model.layers.19.mlp.vision_mlp.down_proj
+model.layers.19.mlp.vision_mlp.act_fn
+model.layers.19.input_layernorm
+model.layers.19.post_attention_layernorm
+model.layers.20
+model.layers.20.self_attn
+model.layers.20.self_attn.rotary_emb
+model.layers.20.self_attn.vision_expert_query_key_value
+model.layers.20.self_attn.vision_expert_dense
+model.layers.20.self_attn.language_expert_query_key_value
+model.layers.20.self_attn.language_expert_dense
+model.layers.20.mlp
+model.layers.20.mlp.language_mlp
+model.layers.20.mlp.language_mlp.gate_proj
+model.layers.20.mlp.language_mlp.up_proj
+model.layers.20.mlp.language_mlp.down_proj
+model.layers.20.mlp.language_mlp.act_fn
+model.layers.20.mlp.vision_mlp
+model.layers.20.mlp.vision_mlp.gate_proj
+model.layers.20.mlp.vision_mlp.up_proj
+model.layers.20.mlp.vision_mlp.down_proj
+model.layers.20.mlp.vision_mlp.act_fn
+model.layers.20.input_layernorm
+model.layers.20.post_attention_layernorm
+model.layers.21
+model.layers.21.self_attn
+model.layers.21.self_attn.rotary_emb
+model.layers.21.self_attn.vision_expert_query_key_value
+model.layers.21.self_attn.vision_expert_dense
+model.layers.21.self_attn.language_expert_query_key_value
+model.layers.21.self_attn.language_expert_dense
+model.layers.21.mlp
+model.layers.21.mlp.language_mlp
+model.layers.21.mlp.language_mlp.gate_proj
+model.layers.21.mlp.language_mlp.up_proj
+model.layers.21.mlp.language_mlp.down_proj
+model.layers.21.mlp.language_mlp.act_fn
+model.layers.21.mlp.vision_mlp
+model.layers.21.mlp.vision_mlp.gate_proj
+model.layers.21.mlp.vision_mlp.up_proj
+model.layers.21.mlp.vision_mlp.down_proj
+model.layers.21.mlp.vision_mlp.act_fn
+model.layers.21.input_layernorm
+model.layers.21.post_attention_layernorm
+model.layers.22
+model.layers.22.self_attn
+model.layers.22.self_attn.rotary_emb
+model.layers.22.self_attn.vision_expert_query_key_value
+model.layers.22.self_attn.vision_expert_dense
+model.layers.22.self_attn.language_expert_query_key_value
+model.layers.22.self_attn.language_expert_dense
+model.layers.22.mlp
+model.layers.22.mlp.language_mlp
+model.layers.22.mlp.language_mlp.gate_proj
+model.layers.22.mlp.language_mlp.up_proj
+model.layers.22.mlp.language_mlp.down_proj
+model.layers.22.mlp.language_mlp.act_fn
+model.layers.22.mlp.vision_mlp
+model.layers.22.mlp.vision_mlp.gate_proj
+model.layers.22.mlp.vision_mlp.up_proj
+model.layers.22.mlp.vision_mlp.down_proj
+model.layers.22.mlp.vision_mlp.act_fn
+model.layers.22.input_layernorm
+model.layers.22.post_attention_layernorm
+model.layers.23
+model.layers.23.self_attn
+model.layers.23.self_attn.rotary_emb
+model.layers.23.self_attn.vision_expert_query_key_value
+model.layers.23.self_attn.vision_expert_dense
+model.layers.23.self_attn.language_expert_query_key_value
+model.layers.23.self_attn.language_expert_dense
+model.layers.23.mlp
+model.layers.23.mlp.language_mlp
+model.layers.23.mlp.language_mlp.gate_proj
+model.layers.23.mlp.language_mlp.up_proj
+model.layers.23.mlp.language_mlp.down_proj
+model.layers.23.mlp.language_mlp.act_fn
+model.layers.23.mlp.vision_mlp
+model.layers.23.mlp.vision_mlp.gate_proj
+model.layers.23.mlp.vision_mlp.up_proj
+model.layers.23.mlp.vision_mlp.down_proj
+model.layers.23.mlp.vision_mlp.act_fn
+model.layers.23.input_layernorm
+model.layers.23.post_attention_layernorm
+model.layers.24
+model.layers.24.self_attn
+model.layers.24.self_attn.rotary_emb
+model.layers.24.self_attn.vision_expert_query_key_value
+model.layers.24.self_attn.vision_expert_dense
+model.layers.24.self_attn.language_expert_query_key_value
+model.layers.24.self_attn.language_expert_dense
+model.layers.24.mlp
+model.layers.24.mlp.language_mlp
+model.layers.24.mlp.language_mlp.gate_proj
+model.layers.24.mlp.language_mlp.up_proj
+model.layers.24.mlp.language_mlp.down_proj
+model.layers.24.mlp.language_mlp.act_fn
+model.layers.24.mlp.vision_mlp
+model.layers.24.mlp.vision_mlp.gate_proj
+model.layers.24.mlp.vision_mlp.up_proj
+model.layers.24.mlp.vision_mlp.down_proj
+model.layers.24.mlp.vision_mlp.act_fn
+model.layers.24.input_layernorm
+model.layers.24.post_attention_layernorm
+model.layers.25
+model.layers.25.self_attn
+model.layers.25.self_attn.rotary_emb
+model.layers.25.self_attn.vision_expert_query_key_value
+model.layers.25.self_attn.vision_expert_dense
+model.layers.25.self_attn.language_expert_query_key_value
+model.layers.25.self_attn.language_expert_dense
+model.layers.25.mlp
+model.layers.25.mlp.language_mlp
+model.layers.25.mlp.language_mlp.gate_proj
+model.layers.25.mlp.language_mlp.up_proj
+model.layers.25.mlp.language_mlp.down_proj
+model.layers.25.mlp.language_mlp.act_fn
+model.layers.25.mlp.vision_mlp
+model.layers.25.mlp.vision_mlp.gate_proj
+model.layers.25.mlp.vision_mlp.up_proj
+model.layers.25.mlp.vision_mlp.down_proj
+model.layers.25.mlp.vision_mlp.act_fn
+model.layers.25.input_layernorm
+model.layers.25.post_attention_layernorm
+model.layers.26
+model.layers.26.self_attn
+model.layers.26.self_attn.rotary_emb
+model.layers.26.self_attn.vision_expert_query_key_value
+model.layers.26.self_attn.vision_expert_dense
+model.layers.26.self_attn.language_expert_query_key_value
+model.layers.26.self_attn.language_expert_dense
+model.layers.26.mlp
+model.layers.26.mlp.language_mlp
+model.layers.26.mlp.language_mlp.gate_proj
+model.layers.26.mlp.language_mlp.up_proj
+model.layers.26.mlp.language_mlp.down_proj
+model.layers.26.mlp.language_mlp.act_fn
+model.layers.26.mlp.vision_mlp
+model.layers.26.mlp.vision_mlp.gate_proj
+model.layers.26.mlp.vision_mlp.up_proj
+model.layers.26.mlp.vision_mlp.down_proj
+model.layers.26.mlp.vision_mlp.act_fn
+model.layers.26.input_layernorm
+model.layers.26.post_attention_layernorm
+model.layers.27
+model.layers.27.self_attn
+model.layers.27.self_attn.rotary_emb
+model.layers.27.self_attn.vision_expert_query_key_value
+model.layers.27.self_attn.vision_expert_dense
+model.layers.27.self_attn.language_expert_query_key_value
+model.layers.27.self_attn.language_expert_dense
+model.layers.27.mlp
+model.layers.27.mlp.language_mlp
+model.layers.27.mlp.language_mlp.gate_proj
+model.layers.27.mlp.language_mlp.up_proj
+model.layers.27.mlp.language_mlp.down_proj
+model.layers.27.mlp.language_mlp.act_fn
+model.layers.27.mlp.vision_mlp
+model.layers.27.mlp.vision_mlp.gate_proj
+model.layers.27.mlp.vision_mlp.up_proj
+model.layers.27.mlp.vision_mlp.down_proj
+model.layers.27.mlp.vision_mlp.act_fn
+model.layers.27.input_layernorm
+model.layers.27.post_attention_layernorm
+model.layers.28
+model.layers.28.self_attn
+model.layers.28.self_attn.rotary_emb
+model.layers.28.self_attn.vision_expert_query_key_value
+model.layers.28.self_attn.vision_expert_dense
+model.layers.28.self_attn.language_expert_query_key_value
+model.layers.28.self_attn.language_expert_dense
+model.layers.28.mlp
+model.layers.28.mlp.language_mlp
+model.layers.28.mlp.language_mlp.gate_proj
+model.layers.28.mlp.language_mlp.up_proj
+model.layers.28.mlp.language_mlp.down_proj
+model.layers.28.mlp.language_mlp.act_fn
+model.layers.28.mlp.vision_mlp
+model.layers.28.mlp.vision_mlp.gate_proj
+model.layers.28.mlp.vision_mlp.up_proj
+model.layers.28.mlp.vision_mlp.down_proj
+model.layers.28.mlp.vision_mlp.act_fn
+model.layers.28.input_layernorm
+model.layers.28.post_attention_layernorm
+model.layers.29
+model.layers.29.self_attn
+model.layers.29.self_attn.rotary_emb
+model.layers.29.self_attn.vision_expert_query_key_value
+model.layers.29.self_attn.vision_expert_dense
+model.layers.29.self_attn.language_expert_query_key_value
+model.layers.29.self_attn.language_expert_dense
+model.layers.29.mlp
+model.layers.29.mlp.language_mlp
+model.layers.29.mlp.language_mlp.gate_proj
+model.layers.29.mlp.language_mlp.up_proj
+model.layers.29.mlp.language_mlp.down_proj
+model.layers.29.mlp.language_mlp.act_fn
+model.layers.29.mlp.vision_mlp
+model.layers.29.mlp.vision_mlp.gate_proj
+model.layers.29.mlp.vision_mlp.up_proj
+model.layers.29.mlp.vision_mlp.down_proj
+model.layers.29.mlp.vision_mlp.act_fn
+model.layers.29.input_layernorm
+model.layers.29.post_attention_layernorm
+model.layers.30
+model.layers.30.self_attn
+model.layers.30.self_attn.rotary_emb
+model.layers.30.self_attn.vision_expert_query_key_value
+model.layers.30.self_attn.vision_expert_dense
+model.layers.30.self_attn.language_expert_query_key_value
+model.layers.30.self_attn.language_expert_dense
+model.layers.30.mlp
+model.layers.30.mlp.language_mlp
+model.layers.30.mlp.language_mlp.gate_proj
+model.layers.30.mlp.language_mlp.up_proj
+model.layers.30.mlp.language_mlp.down_proj
+model.layers.30.mlp.language_mlp.act_fn
+model.layers.30.mlp.vision_mlp
+model.layers.30.mlp.vision_mlp.gate_proj
+model.layers.30.mlp.vision_mlp.up_proj
+model.layers.30.mlp.vision_mlp.down_proj
+model.layers.30.mlp.vision_mlp.act_fn
+model.layers.30.input_layernorm
+model.layers.30.post_attention_layernorm
+model.layers.31
+model.layers.31.self_attn
+model.layers.31.self_attn.rotary_emb
+model.layers.31.self_attn.vision_expert_query_key_value
+model.layers.31.self_attn.vision_expert_dense
+model.layers.31.self_attn.language_expert_query_key_value
+model.layers.31.self_attn.language_expert_dense
+model.layers.31.mlp
+model.layers.31.mlp.language_mlp
+model.layers.31.mlp.language_mlp.gate_proj
+model.layers.31.mlp.language_mlp.up_proj
+model.layers.31.mlp.language_mlp.down_proj
+model.layers.31.mlp.language_mlp.act_fn
+model.layers.31.mlp.vision_mlp
+model.layers.31.mlp.vision_mlp.gate_proj
+model.layers.31.mlp.vision_mlp.up_proj
+model.layers.31.mlp.vision_mlp.down_proj
+model.layers.31.mlp.vision_mlp.act_fn
+model.layers.31.input_layernorm
+model.layers.31.post_attention_layernorm
+model.norm
+model.vision
+model.vision.patch_embedding
+model.vision.patch_embedding.proj
+model.vision.patch_embedding.position_embedding
+model.vision.transformer
+model.vision.transformer.layers
+model.vision.transformer.layers.0
+model.vision.transformer.layers.0.input_layernorm
+model.vision.transformer.layers.0.attention
+model.vision.transformer.layers.0.attention.query_key_value
+model.vision.transformer.layers.0.attention.dense
+model.vision.transformer.layers.0.attention.output_dropout
+model.vision.transformer.layers.0.mlp
+model.vision.transformer.layers.0.mlp.activation_fn
+model.vision.transformer.layers.0.mlp.fc1
+model.vision.transformer.layers.0.mlp.fc2
+model.vision.transformer.layers.0.post_attention_layernorm
+model.vision.transformer.layers.1
+model.vision.transformer.layers.1.input_layernorm
+model.vision.transformer.layers.1.attention
+model.vision.transformer.layers.1.attention.query_key_value
+model.vision.transformer.layers.1.attention.dense
+model.vision.transformer.layers.1.attention.output_dropout
+model.vision.transformer.layers.1.mlp
+model.vision.transformer.layers.1.mlp.activation_fn
+model.vision.transformer.layers.1.mlp.fc1
+model.vision.transformer.layers.1.mlp.fc2
+model.vision.transformer.layers.1.post_attention_layernorm
+model.vision.transformer.layers.2
+model.vision.transformer.layers.2.input_layernorm
+model.vision.transformer.layers.2.attention
+model.vision.transformer.layers.2.attention.query_key_value
+model.vision.transformer.layers.2.attention.dense
+model.vision.transformer.layers.2.attention.output_dropout
+model.vision.transformer.layers.2.mlp
+model.vision.transformer.layers.2.mlp.activation_fn
+model.vision.transformer.layers.2.mlp.fc1
+model.vision.transformer.layers.2.mlp.fc2
+model.vision.transformer.layers.2.post_attention_layernorm
+model.vision.transformer.layers.3
+model.vision.transformer.layers.3.input_layernorm
+model.vision.transformer.layers.3.attention
+model.vision.transformer.layers.3.attention.query_key_value
+model.vision.transformer.layers.3.attention.dense
+model.vision.transformer.layers.3.attention.output_dropout
+model.vision.transformer.layers.3.mlp
+model.vision.transformer.layers.3.mlp.activation_fn
+model.vision.transformer.layers.3.mlp.fc1
+model.vision.transformer.layers.3.mlp.fc2
+model.vision.transformer.layers.3.post_attention_layernorm
+model.vision.transformer.layers.4
+model.vision.transformer.layers.4.input_layernorm
+model.vision.transformer.layers.4.attention
+model.vision.transformer.layers.4.attention.query_key_value
+model.vision.transformer.layers.4.attention.dense
+model.vision.transformer.layers.4.attention.output_dropout
+model.vision.transformer.layers.4.mlp
+model.vision.transformer.layers.4.mlp.activation_fn
+model.vision.transformer.layers.4.mlp.fc1
+model.vision.transformer.layers.4.mlp.fc2
+model.vision.transformer.layers.4.post_attention_layernorm
+model.vision.transformer.layers.5
+model.vision.transformer.layers.5.input_layernorm
+model.vision.transformer.layers.5.attention
+model.vision.transformer.layers.5.attention.query_key_value
+model.vision.transformer.layers.5.attention.dense
+model.vision.transformer.layers.5.attention.output_dropout
+model.vision.transformer.layers.5.mlp
+model.vision.transformer.layers.5.mlp.activation_fn
+model.vision.transformer.layers.5.mlp.fc1
+model.vision.transformer.layers.5.mlp.fc2
+model.vision.transformer.layers.5.post_attention_layernorm
+model.vision.transformer.layers.6
+model.vision.transformer.layers.6.input_layernorm
+model.vision.transformer.layers.6.attention
+model.vision.transformer.layers.6.attention.query_key_value
+model.vision.transformer.layers.6.attention.dense
+model.vision.transformer.layers.6.attention.output_dropout
+model.vision.transformer.layers.6.mlp
+model.vision.transformer.layers.6.mlp.activation_fn
+model.vision.transformer.layers.6.mlp.fc1
+model.vision.transformer.layers.6.mlp.fc2
+model.vision.transformer.layers.6.post_attention_layernorm
+model.vision.transformer.layers.7
+model.vision.transformer.layers.7.input_layernorm
+model.vision.transformer.layers.7.attention
+model.vision.transformer.layers.7.attention.query_key_value
+model.vision.transformer.layers.7.attention.dense
+model.vision.transformer.layers.7.attention.output_dropout
+model.vision.transformer.layers.7.mlp
+model.vision.transformer.layers.7.mlp.activation_fn
+model.vision.transformer.layers.7.mlp.fc1
+model.vision.transformer.layers.7.mlp.fc2
+model.vision.transformer.layers.7.post_attention_layernorm
+model.vision.transformer.layers.8
+model.vision.transformer.layers.8.input_layernorm
+model.vision.transformer.layers.8.attention
+model.vision.transformer.layers.8.attention.query_key_value
+model.vision.transformer.layers.8.attention.dense
+model.vision.transformer.layers.8.attention.output_dropout
+model.vision.transformer.layers.8.mlp
+model.vision.transformer.layers.8.mlp.activation_fn
+model.vision.transformer.layers.8.mlp.fc1
+model.vision.transformer.layers.8.mlp.fc2
+model.vision.transformer.layers.8.post_attention_layernorm
+model.vision.transformer.layers.9
+model.vision.transformer.layers.9.input_layernorm
+model.vision.transformer.layers.9.attention
+model.vision.transformer.layers.9.attention.query_key_value
+model.vision.transformer.layers.9.attention.dense
+model.vision.transformer.layers.9.attention.output_dropout
+model.vision.transformer.layers.9.mlp
+model.vision.transformer.layers.9.mlp.activation_fn
+model.vision.transformer.layers.9.mlp.fc1
+model.vision.transformer.layers.9.mlp.fc2
+model.vision.transformer.layers.9.post_attention_layernorm
+model.vision.transformer.layers.10
+model.vision.transformer.layers.10.input_layernorm
+model.vision.transformer.layers.10.attention
+model.vision.transformer.layers.10.attention.query_key_value
+model.vision.transformer.layers.10.attention.dense
+model.vision.transformer.layers.10.attention.output_dropout
+model.vision.transformer.layers.10.mlp
+model.vision.transformer.layers.10.mlp.activation_fn
+model.vision.transformer.layers.10.mlp.fc1
+model.vision.transformer.layers.10.mlp.fc2
+model.vision.transformer.layers.10.post_attention_layernorm
+model.vision.transformer.layers.11
+model.vision.transformer.layers.11.input_layernorm
+model.vision.transformer.layers.11.attention
+model.vision.transformer.layers.11.attention.query_key_value
+model.vision.transformer.layers.11.attention.dense
+model.vision.transformer.layers.11.attention.output_dropout
+model.vision.transformer.layers.11.mlp
+model.vision.transformer.layers.11.mlp.activation_fn
+model.vision.transformer.layers.11.mlp.fc1
+model.vision.transformer.layers.11.mlp.fc2
+model.vision.transformer.layers.11.post_attention_layernorm
+model.vision.transformer.layers.12
+model.vision.transformer.layers.12.input_layernorm
+model.vision.transformer.layers.12.attention
+model.vision.transformer.layers.12.attention.query_key_value
+model.vision.transformer.layers.12.attention.dense
+model.vision.transformer.layers.12.attention.output_dropout
+model.vision.transformer.layers.12.mlp
+model.vision.transformer.layers.12.mlp.activation_fn
+model.vision.transformer.layers.12.mlp.fc1
+model.vision.transformer.layers.12.mlp.fc2
+model.vision.transformer.layers.12.post_attention_layernorm
+model.vision.transformer.layers.13
+model.vision.transformer.layers.13.input_layernorm
+model.vision.transformer.layers.13.attention
+model.vision.transformer.layers.13.attention.query_key_value
+model.vision.transformer.layers.13.attention.dense
+model.vision.transformer.layers.13.attention.output_dropout
+model.vision.transformer.layers.13.mlp
+model.vision.transformer.layers.13.mlp.activation_fn
+model.vision.transformer.layers.13.mlp.fc1
+model.vision.transformer.layers.13.mlp.fc2
+model.vision.transformer.layers.13.post_attention_layernorm
+model.vision.transformer.layers.14
+model.vision.transformer.layers.14.input_layernorm
+model.vision.transformer.layers.14.attention
+model.vision.transformer.layers.14.attention.query_key_value
+model.vision.transformer.layers.14.attention.dense
+model.vision.transformer.layers.14.attention.output_dropout
+model.vision.transformer.layers.14.mlp
+model.vision.transformer.layers.14.mlp.activation_fn
+model.vision.transformer.layers.14.mlp.fc1
+model.vision.transformer.layers.14.mlp.fc2
+model.vision.transformer.layers.14.post_attention_layernorm
+model.vision.transformer.layers.15
+model.vision.transformer.layers.15.input_layernorm
+model.vision.transformer.layers.15.attention
+model.vision.transformer.layers.15.attention.query_key_value
+model.vision.transformer.layers.15.attention.dense
+model.vision.transformer.layers.15.attention.output_dropout
+model.vision.transformer.layers.15.mlp
+model.vision.transformer.layers.15.mlp.activation_fn
+model.vision.transformer.layers.15.mlp.fc1
+model.vision.transformer.layers.15.mlp.fc2
+model.vision.transformer.layers.15.post_attention_layernorm
+model.vision.transformer.layers.16
+model.vision.transformer.layers.16.input_layernorm
+model.vision.transformer.layers.16.attention
+model.vision.transformer.layers.16.attention.query_key_value
+model.vision.transformer.layers.16.attention.dense
+model.vision.transformer.layers.16.attention.output_dropout
+model.vision.transformer.layers.16.mlp
+model.vision.transformer.layers.16.mlp.activation_fn
+model.vision.transformer.layers.16.mlp.fc1
+model.vision.transformer.layers.16.mlp.fc2
+model.vision.transformer.layers.16.post_attention_layernorm
+model.vision.transformer.layers.17
+model.vision.transformer.layers.17.input_layernorm
+model.vision.transformer.layers.17.attention
+model.vision.transformer.layers.17.attention.query_key_value
+model.vision.transformer.layers.17.attention.dense
+model.vision.transformer.layers.17.attention.output_dropout
+model.vision.transformer.layers.17.mlp
+model.vision.transformer.layers.17.mlp.activation_fn
+model.vision.transformer.layers.17.mlp.fc1
+model.vision.transformer.layers.17.mlp.fc2
+model.vision.transformer.layers.17.post_attention_layernorm
+model.vision.transformer.layers.18
+model.vision.transformer.layers.18.input_layernorm
+model.vision.transformer.layers.18.attention
+model.vision.transformer.layers.18.attention.query_key_value
+model.vision.transformer.layers.18.attention.dense
+model.vision.transformer.layers.18.attention.output_dropout
+model.vision.transformer.layers.18.mlp
+model.vision.transformer.layers.18.mlp.activation_fn
+model.vision.transformer.layers.18.mlp.fc1
+model.vision.transformer.layers.18.mlp.fc2
+model.vision.transformer.layers.18.post_attention_layernorm
+model.vision.transformer.layers.19
+model.vision.transformer.layers.19.input_layernorm
+model.vision.transformer.layers.19.attention
+model.vision.transformer.layers.19.attention.query_key_value
+model.vision.transformer.layers.19.attention.dense
+model.vision.transformer.layers.19.attention.output_dropout
+model.vision.transformer.layers.19.mlp
+model.vision.transformer.layers.19.mlp.activation_fn
+model.vision.transformer.layers.19.mlp.fc1
+model.vision.transformer.layers.19.mlp.fc2
+model.vision.transformer.layers.19.post_attention_layernorm
+model.vision.transformer.layers.20
+model.vision.transformer.layers.20.input_layernorm
+model.vision.transformer.layers.20.attention
+model.vision.transformer.layers.20.attention.query_key_value
+model.vision.transformer.layers.20.attention.dense
+model.vision.transformer.layers.20.attention.output_dropout
+model.vision.transformer.layers.20.mlp
+model.vision.transformer.layers.20.mlp.activation_fn
+model.vision.transformer.layers.20.mlp.fc1
+model.vision.transformer.layers.20.mlp.fc2
+model.vision.transformer.layers.20.post_attention_layernorm
+model.vision.transformer.layers.21
+model.vision.transformer.layers.21.input_layernorm
+model.vision.transformer.layers.21.attention
+model.vision.transformer.layers.21.attention.query_key_value
+model.vision.transformer.layers.21.attention.dense
+model.vision.transformer.layers.21.attention.output_dropout
+model.vision.transformer.layers.21.mlp
+model.vision.transformer.layers.21.mlp.activation_fn
+model.vision.transformer.layers.21.mlp.fc1
+model.vision.transformer.layers.21.mlp.fc2
+model.vision.transformer.layers.21.post_attention_layernorm
+model.vision.transformer.layers.22
+model.vision.transformer.layers.22.input_layernorm
+model.vision.transformer.layers.22.attention
+model.vision.transformer.layers.22.attention.query_key_value
+model.vision.transformer.layers.22.attention.dense
+model.vision.transformer.layers.22.attention.output_dropout
+model.vision.transformer.layers.22.mlp
+model.vision.transformer.layers.22.mlp.activation_fn
+model.vision.transformer.layers.22.mlp.fc1
+model.vision.transformer.layers.22.mlp.fc2
+model.vision.transformer.layers.22.post_attention_layernorm
+model.vision.transformer.layers.23
+model.vision.transformer.layers.23.input_layernorm
+model.vision.transformer.layers.23.attention
+model.vision.transformer.layers.23.attention.query_key_value
+model.vision.transformer.layers.23.attention.dense
+model.vision.transformer.layers.23.attention.output_dropout
+model.vision.transformer.layers.23.mlp
+model.vision.transformer.layers.23.mlp.activation_fn
+model.vision.transformer.layers.23.mlp.fc1
+model.vision.transformer.layers.23.mlp.fc2
+model.vision.transformer.layers.23.post_attention_layernorm
+model.vision.transformer.layers.24
+model.vision.transformer.layers.24.input_layernorm
+model.vision.transformer.layers.24.attention
+model.vision.transformer.layers.24.attention.query_key_value
+model.vision.transformer.layers.24.attention.dense
+model.vision.transformer.layers.24.attention.output_dropout
+model.vision.transformer.layers.24.mlp
+model.vision.transformer.layers.24.mlp.activation_fn
+model.vision.transformer.layers.24.mlp.fc1
+model.vision.transformer.layers.24.mlp.fc2
+model.vision.transformer.layers.24.post_attention_layernorm
+model.vision.transformer.layers.25
+model.vision.transformer.layers.25.input_layernorm
+model.vision.transformer.layers.25.attention
+model.vision.transformer.layers.25.attention.query_key_value
+model.vision.transformer.layers.25.attention.dense
+model.vision.transformer.layers.25.attention.output_dropout
+model.vision.transformer.layers.25.mlp
+model.vision.transformer.layers.25.mlp.activation_fn
+model.vision.transformer.layers.25.mlp.fc1
+model.vision.transformer.layers.25.mlp.fc2
+model.vision.transformer.layers.25.post_attention_layernorm
+model.vision.transformer.layers.26
+model.vision.transformer.layers.26.input_layernorm
+model.vision.transformer.layers.26.attention
+model.vision.transformer.layers.26.attention.query_key_value
+model.vision.transformer.layers.26.attention.dense
+model.vision.transformer.layers.26.attention.output_dropout
+model.vision.transformer.layers.26.mlp
+model.vision.transformer.layers.26.mlp.activation_fn
+model.vision.transformer.layers.26.mlp.fc1
+model.vision.transformer.layers.26.mlp.fc2
+model.vision.transformer.layers.26.post_attention_layernorm
+model.vision.transformer.layers.27
+model.vision.transformer.layers.27.input_layernorm
+model.vision.transformer.layers.27.attention
+model.vision.transformer.layers.27.attention.query_key_value
+model.vision.transformer.layers.27.attention.dense
+model.vision.transformer.layers.27.attention.output_dropout
+model.vision.transformer.layers.27.mlp
+model.vision.transformer.layers.27.mlp.activation_fn
+model.vision.transformer.layers.27.mlp.fc1
+model.vision.transformer.layers.27.mlp.fc2
+model.vision.transformer.layers.27.post_attention_layernorm
+model.vision.transformer.layers.28
+model.vision.transformer.layers.28.input_layernorm
+model.vision.transformer.layers.28.attention
+model.vision.transformer.layers.28.attention.query_key_value
+model.vision.transformer.layers.28.attention.dense
+model.vision.transformer.layers.28.attention.output_dropout
+model.vision.transformer.layers.28.mlp
+model.vision.transformer.layers.28.mlp.activation_fn
+model.vision.transformer.layers.28.mlp.fc1
+model.vision.transformer.layers.28.mlp.fc2
+model.vision.transformer.layers.28.post_attention_layernorm
+model.vision.transformer.layers.29
+model.vision.transformer.layers.29.input_layernorm
+model.vision.transformer.layers.29.attention
+model.vision.transformer.layers.29.attention.query_key_value
+model.vision.transformer.layers.29.attention.dense
+model.vision.transformer.layers.29.attention.output_dropout
+model.vision.transformer.layers.29.mlp
+model.vision.transformer.layers.29.mlp.activation_fn
+model.vision.transformer.layers.29.mlp.fc1
+model.vision.transformer.layers.29.mlp.fc2
+model.vision.transformer.layers.29.post_attention_layernorm
+model.vision.transformer.layers.30
+model.vision.transformer.layers.30.input_layernorm
+model.vision.transformer.layers.30.attention
+model.vision.transformer.layers.30.attention.query_key_value
+model.vision.transformer.layers.30.attention.dense
+model.vision.transformer.layers.30.attention.output_dropout
+model.vision.transformer.layers.30.mlp
+model.vision.transformer.layers.30.mlp.activation_fn
+model.vision.transformer.layers.30.mlp.fc1
+model.vision.transformer.layers.30.mlp.fc2
+model.vision.transformer.layers.30.post_attention_layernorm
+model.vision.transformer.layers.31
+model.vision.transformer.layers.31.input_layernorm
+model.vision.transformer.layers.31.attention
+model.vision.transformer.layers.31.attention.query_key_value
+model.vision.transformer.layers.31.attention.dense
+model.vision.transformer.layers.31.attention.output_dropout
+model.vision.transformer.layers.31.mlp
+model.vision.transformer.layers.31.mlp.activation_fn
+model.vision.transformer.layers.31.mlp.fc1
+model.vision.transformer.layers.31.mlp.fc2
+model.vision.transformer.layers.31.post_attention_layernorm
+model.vision.transformer.layers.32
+model.vision.transformer.layers.32.input_layernorm
+model.vision.transformer.layers.32.attention
+model.vision.transformer.layers.32.attention.query_key_value
+model.vision.transformer.layers.32.attention.dense
+model.vision.transformer.layers.32.attention.output_dropout
+model.vision.transformer.layers.32.mlp
+model.vision.transformer.layers.32.mlp.activation_fn
+model.vision.transformer.layers.32.mlp.fc1
+model.vision.transformer.layers.32.mlp.fc2
+model.vision.transformer.layers.32.post_attention_layernorm
+model.vision.transformer.layers.33
+model.vision.transformer.layers.33.input_layernorm
+model.vision.transformer.layers.33.attention
+model.vision.transformer.layers.33.attention.query_key_value
+model.vision.transformer.layers.33.attention.dense
+model.vision.transformer.layers.33.attention.output_dropout
+model.vision.transformer.layers.33.mlp
+model.vision.transformer.layers.33.mlp.activation_fn
+model.vision.transformer.layers.33.mlp.fc1
+model.vision.transformer.layers.33.mlp.fc2
+model.vision.transformer.layers.33.post_attention_layernorm
+model.vision.transformer.layers.34
+model.vision.transformer.layers.34.input_layernorm
+model.vision.transformer.layers.34.attention
+model.vision.transformer.layers.34.attention.query_key_value
+model.vision.transformer.layers.34.attention.dense
+model.vision.transformer.layers.34.attention.output_dropout
+model.vision.transformer.layers.34.mlp
+model.vision.transformer.layers.34.mlp.activation_fn
+model.vision.transformer.layers.34.mlp.fc1
+model.vision.transformer.layers.34.mlp.fc2
+model.vision.transformer.layers.34.post_attention_layernorm
+model.vision.transformer.layers.35
+model.vision.transformer.layers.35.input_layernorm
+model.vision.transformer.layers.35.attention
+model.vision.transformer.layers.35.attention.query_key_value
+model.vision.transformer.layers.35.attention.dense
+model.vision.transformer.layers.35.attention.output_dropout
+model.vision.transformer.layers.35.mlp
+model.vision.transformer.layers.35.mlp.activation_fn
+model.vision.transformer.layers.35.mlp.fc1
+model.vision.transformer.layers.35.mlp.fc2
+model.vision.transformer.layers.35.post_attention_layernorm
+model.vision.transformer.layers.36
+model.vision.transformer.layers.36.input_layernorm
+model.vision.transformer.layers.36.attention
+model.vision.transformer.layers.36.attention.query_key_value
+model.vision.transformer.layers.36.attention.dense
+model.vision.transformer.layers.36.attention.output_dropout
+model.vision.transformer.layers.36.mlp
+model.vision.transformer.layers.36.mlp.activation_fn
+model.vision.transformer.layers.36.mlp.fc1
+model.vision.transformer.layers.36.mlp.fc2
+model.vision.transformer.layers.36.post_attention_layernorm
+model.vision.transformer.layers.37
+model.vision.transformer.layers.37.input_layernorm
+model.vision.transformer.layers.37.attention
+model.vision.transformer.layers.37.attention.query_key_value
+model.vision.transformer.layers.37.attention.dense
+model.vision.transformer.layers.37.attention.output_dropout
+model.vision.transformer.layers.37.mlp
+model.vision.transformer.layers.37.mlp.activation_fn
+model.vision.transformer.layers.37.mlp.fc1
+model.vision.transformer.layers.37.mlp.fc2
+model.vision.transformer.layers.37.post_attention_layernorm
+model.vision.transformer.layers.38
+model.vision.transformer.layers.38.input_layernorm
+model.vision.transformer.layers.38.attention
+model.vision.transformer.layers.38.attention.query_key_value
+model.vision.transformer.layers.38.attention.dense
+model.vision.transformer.layers.38.attention.output_dropout
+model.vision.transformer.layers.38.mlp
+model.vision.transformer.layers.38.mlp.activation_fn
+model.vision.transformer.layers.38.mlp.fc1
+model.vision.transformer.layers.38.mlp.fc2
+model.vision.transformer.layers.38.post_attention_layernorm
+model.vision.transformer.layers.39
+model.vision.transformer.layers.39.input_layernorm
+model.vision.transformer.layers.39.attention
+model.vision.transformer.layers.39.attention.query_key_value
+model.vision.transformer.layers.39.attention.dense
+model.vision.transformer.layers.39.attention.output_dropout
+model.vision.transformer.layers.39.mlp
+model.vision.transformer.layers.39.mlp.activation_fn
+model.vision.transformer.layers.39.mlp.fc1
+model.vision.transformer.layers.39.mlp.fc2
+model.vision.transformer.layers.39.post_attention_layernorm
+model.vision.transformer.layers.40
+model.vision.transformer.layers.40.input_layernorm
+model.vision.transformer.layers.40.attention
+model.vision.transformer.layers.40.attention.query_key_value
+model.vision.transformer.layers.40.attention.dense
+model.vision.transformer.layers.40.attention.output_dropout
+model.vision.transformer.layers.40.mlp
+model.vision.transformer.layers.40.mlp.activation_fn
+model.vision.transformer.layers.40.mlp.fc1
+model.vision.transformer.layers.40.mlp.fc2
+model.vision.transformer.layers.40.post_attention_layernorm
+model.vision.transformer.layers.41
+model.vision.transformer.layers.41.input_layernorm
+model.vision.transformer.layers.41.attention
+model.vision.transformer.layers.41.attention.query_key_value
+model.vision.transformer.layers.41.attention.dense
+model.vision.transformer.layers.41.attention.output_dropout
+model.vision.transformer.layers.41.mlp
+model.vision.transformer.layers.41.mlp.activation_fn
+model.vision.transformer.layers.41.mlp.fc1
+model.vision.transformer.layers.41.mlp.fc2
+model.vision.transformer.layers.41.post_attention_layernorm
+model.vision.transformer.layers.42
+model.vision.transformer.layers.42.input_layernorm
+model.vision.transformer.layers.42.attention
+model.vision.transformer.layers.42.attention.query_key_value
+model.vision.transformer.layers.42.attention.dense
+model.vision.transformer.layers.42.attention.output_dropout
+model.vision.transformer.layers.42.mlp
+model.vision.transformer.layers.42.mlp.activation_fn
+model.vision.transformer.layers.42.mlp.fc1
+model.vision.transformer.layers.42.mlp.fc2
+model.vision.transformer.layers.42.post_attention_layernorm
+model.vision.transformer.layers.43
+model.vision.transformer.layers.43.input_layernorm
+model.vision.transformer.layers.43.attention
+model.vision.transformer.layers.43.attention.query_key_value
+model.vision.transformer.layers.43.attention.dense
+model.vision.transformer.layers.43.attention.output_dropout
+model.vision.transformer.layers.43.mlp
+model.vision.transformer.layers.43.mlp.activation_fn
+model.vision.transformer.layers.43.mlp.fc1
+model.vision.transformer.layers.43.mlp.fc2
+model.vision.transformer.layers.43.post_attention_layernorm
+model.vision.transformer.layers.44
+model.vision.transformer.layers.44.input_layernorm
+model.vision.transformer.layers.44.attention
+model.vision.transformer.layers.44.attention.query_key_value
+model.vision.transformer.layers.44.attention.dense
+model.vision.transformer.layers.44.attention.output_dropout
+model.vision.transformer.layers.44.mlp
+model.vision.transformer.layers.44.mlp.activation_fn
+model.vision.transformer.layers.44.mlp.fc1
+model.vision.transformer.layers.44.mlp.fc2
+model.vision.transformer.layers.44.post_attention_layernorm
+model.vision.transformer.layers.45
+model.vision.transformer.layers.45.input_layernorm
+model.vision.transformer.layers.45.attention
+model.vision.transformer.layers.45.attention.query_key_value
+model.vision.transformer.layers.45.attention.dense
+model.vision.transformer.layers.45.attention.output_dropout
+model.vision.transformer.layers.45.mlp
+model.vision.transformer.layers.45.mlp.activation_fn
+model.vision.transformer.layers.45.mlp.fc1
+model.vision.transformer.layers.45.mlp.fc2
+model.vision.transformer.layers.45.post_attention_layernorm
+model.vision.transformer.layers.46
+model.vision.transformer.layers.46.input_layernorm
+model.vision.transformer.layers.46.attention
+model.vision.transformer.layers.46.attention.query_key_value
+model.vision.transformer.layers.46.attention.dense
+model.vision.transformer.layers.46.attention.output_dropout
+model.vision.transformer.layers.46.mlp
+model.vision.transformer.layers.46.mlp.activation_fn
+model.vision.transformer.layers.46.mlp.fc1
+model.vision.transformer.layers.46.mlp.fc2
+model.vision.transformer.layers.46.post_attention_layernorm
+model.vision.transformer.layers.47
+model.vision.transformer.layers.47.input_layernorm
+model.vision.transformer.layers.47.attention
+model.vision.transformer.layers.47.attention.query_key_value
+model.vision.transformer.layers.47.attention.dense
+model.vision.transformer.layers.47.attention.output_dropout
+model.vision.transformer.layers.47.mlp
+model.vision.transformer.layers.47.mlp.activation_fn
+model.vision.transformer.layers.47.mlp.fc1
+model.vision.transformer.layers.47.mlp.fc2
+model.vision.transformer.layers.47.post_attention_layernorm
+model.vision.transformer.layers.48
+model.vision.transformer.layers.48.input_layernorm
+model.vision.transformer.layers.48.attention
+model.vision.transformer.layers.48.attention.query_key_value
+model.vision.transformer.layers.48.attention.dense
+model.vision.transformer.layers.48.attention.output_dropout
+model.vision.transformer.layers.48.mlp
+model.vision.transformer.layers.48.mlp.activation_fn
+model.vision.transformer.layers.48.mlp.fc1
+model.vision.transformer.layers.48.mlp.fc2
+model.vision.transformer.layers.48.post_attention_layernorm
+model.vision.transformer.layers.49
+model.vision.transformer.layers.49.input_layernorm
+model.vision.transformer.layers.49.attention
+model.vision.transformer.layers.49.attention.query_key_value
+model.vision.transformer.layers.49.attention.dense
+model.vision.transformer.layers.49.attention.output_dropout
+model.vision.transformer.layers.49.mlp
+model.vision.transformer.layers.49.mlp.activation_fn
+model.vision.transformer.layers.49.mlp.fc1
+model.vision.transformer.layers.49.mlp.fc2
+model.vision.transformer.layers.49.post_attention_layernorm
+model.vision.transformer.layers.50
+model.vision.transformer.layers.50.input_layernorm
+model.vision.transformer.layers.50.attention
+model.vision.transformer.layers.50.attention.query_key_value
+model.vision.transformer.layers.50.attention.dense
+model.vision.transformer.layers.50.attention.output_dropout
+model.vision.transformer.layers.50.mlp
+model.vision.transformer.layers.50.mlp.activation_fn
+model.vision.transformer.layers.50.mlp.fc1
+model.vision.transformer.layers.50.mlp.fc2
+model.vision.transformer.layers.50.post_attention_layernorm
+model.vision.transformer.layers.51
+model.vision.transformer.layers.51.input_layernorm
+model.vision.transformer.layers.51.attention
+model.vision.transformer.layers.51.attention.query_key_value
+model.vision.transformer.layers.51.attention.dense
+model.vision.transformer.layers.51.attention.output_dropout
+model.vision.transformer.layers.51.mlp
+model.vision.transformer.layers.51.mlp.activation_fn
+model.vision.transformer.layers.51.mlp.fc1
+model.vision.transformer.layers.51.mlp.fc2
+model.vision.transformer.layers.51.post_attention_layernorm
+model.vision.transformer.layers.52
+model.vision.transformer.layers.52.input_layernorm
+model.vision.transformer.layers.52.attention
+model.vision.transformer.layers.52.attention.query_key_value
+model.vision.transformer.layers.52.attention.dense
+model.vision.transformer.layers.52.attention.output_dropout
+model.vision.transformer.layers.52.mlp
+model.vision.transformer.layers.52.mlp.activation_fn
+model.vision.transformer.layers.52.mlp.fc1
+model.vision.transformer.layers.52.mlp.fc2
+model.vision.transformer.layers.52.post_attention_layernorm
+model.vision.transformer.layers.53
+model.vision.transformer.layers.53.input_layernorm
+model.vision.transformer.layers.53.attention
+model.vision.transformer.layers.53.attention.query_key_value
+model.vision.transformer.layers.53.attention.dense
+model.vision.transformer.layers.53.attention.output_dropout
+model.vision.transformer.layers.53.mlp
+model.vision.transformer.layers.53.mlp.activation_fn
+model.vision.transformer.layers.53.mlp.fc1
+model.vision.transformer.layers.53.mlp.fc2
+model.vision.transformer.layers.53.post_attention_layernorm
+model.vision.transformer.layers.54
+model.vision.transformer.layers.54.input_layernorm
+model.vision.transformer.layers.54.attention
+model.vision.transformer.layers.54.attention.query_key_value
+model.vision.transformer.layers.54.attention.dense
+model.vision.transformer.layers.54.attention.output_dropout
+model.vision.transformer.layers.54.mlp
+model.vision.transformer.layers.54.mlp.activation_fn
+model.vision.transformer.layers.54.mlp.fc1
+model.vision.transformer.layers.54.mlp.fc2
+model.vision.transformer.layers.54.post_attention_layernorm
+model.vision.transformer.layers.55
+model.vision.transformer.layers.55.input_layernorm
+model.vision.transformer.layers.55.attention
+model.vision.transformer.layers.55.attention.query_key_value
+model.vision.transformer.layers.55.attention.dense
+model.vision.transformer.layers.55.attention.output_dropout
+model.vision.transformer.layers.55.mlp
+model.vision.transformer.layers.55.mlp.activation_fn
+model.vision.transformer.layers.55.mlp.fc1
+model.vision.transformer.layers.55.mlp.fc2
+model.vision.transformer.layers.55.post_attention_layernorm
+model.vision.transformer.layers.56
+model.vision.transformer.layers.56.input_layernorm
+model.vision.transformer.layers.56.attention
+model.vision.transformer.layers.56.attention.query_key_value
+model.vision.transformer.layers.56.attention.dense
+model.vision.transformer.layers.56.attention.output_dropout
+model.vision.transformer.layers.56.mlp
+model.vision.transformer.layers.56.mlp.activation_fn
+model.vision.transformer.layers.56.mlp.fc1
+model.vision.transformer.layers.56.mlp.fc2
+model.vision.transformer.layers.56.post_attention_layernorm
+model.vision.transformer.layers.57
+model.vision.transformer.layers.57.input_layernorm
+model.vision.transformer.layers.57.attention
+model.vision.transformer.layers.57.attention.query_key_value
+model.vision.transformer.layers.57.attention.dense
+model.vision.transformer.layers.57.attention.output_dropout
+model.vision.transformer.layers.57.mlp
+model.vision.transformer.layers.57.mlp.activation_fn
+model.vision.transformer.layers.57.mlp.fc1
+model.vision.transformer.layers.57.mlp.fc2
+model.vision.transformer.layers.57.post_attention_layernorm
+model.vision.transformer.layers.58
+model.vision.transformer.layers.58.input_layernorm
+model.vision.transformer.layers.58.attention
+model.vision.transformer.layers.58.attention.query_key_value
+model.vision.transformer.layers.58.attention.dense
+model.vision.transformer.layers.58.attention.output_dropout
+model.vision.transformer.layers.58.mlp
+model.vision.transformer.layers.58.mlp.activation_fn
+model.vision.transformer.layers.58.mlp.fc1
+model.vision.transformer.layers.58.mlp.fc2
+model.vision.transformer.layers.58.post_attention_layernorm
+model.vision.transformer.layers.59
+model.vision.transformer.layers.59.input_layernorm
+model.vision.transformer.layers.59.attention
+model.vision.transformer.layers.59.attention.query_key_value
+model.vision.transformer.layers.59.attention.dense
+model.vision.transformer.layers.59.attention.output_dropout
+model.vision.transformer.layers.59.mlp
+model.vision.transformer.layers.59.mlp.activation_fn
+model.vision.transformer.layers.59.mlp.fc1
+model.vision.transformer.layers.59.mlp.fc2
+model.vision.transformer.layers.59.post_attention_layernorm
+model.vision.transformer.layers.60
+model.vision.transformer.layers.60.input_layernorm
+model.vision.transformer.layers.60.attention
+model.vision.transformer.layers.60.attention.query_key_value
+model.vision.transformer.layers.60.attention.dense
+model.vision.transformer.layers.60.attention.output_dropout
+model.vision.transformer.layers.60.mlp
+model.vision.transformer.layers.60.mlp.activation_fn
+model.vision.transformer.layers.60.mlp.fc1
+model.vision.transformer.layers.60.mlp.fc2
+model.vision.transformer.layers.60.post_attention_layernorm
+model.vision.transformer.layers.61
+model.vision.transformer.layers.61.input_layernorm
+model.vision.transformer.layers.61.attention
+model.vision.transformer.layers.61.attention.query_key_value
+model.vision.transformer.layers.61.attention.dense
+model.vision.transformer.layers.61.attention.output_dropout
+model.vision.transformer.layers.61.mlp
+model.vision.transformer.layers.61.mlp.activation_fn
+model.vision.transformer.layers.61.mlp.fc1
+model.vision.transformer.layers.61.mlp.fc2
+model.vision.transformer.layers.61.post_attention_layernorm
+model.vision.transformer.layers.62
+model.vision.transformer.layers.62.input_layernorm
+model.vision.transformer.layers.62.attention
+model.vision.transformer.layers.62.attention.query_key_value
+model.vision.transformer.layers.62.attention.dense
+model.vision.transformer.layers.62.attention.output_dropout
+model.vision.transformer.layers.62.mlp
+model.vision.transformer.layers.62.mlp.activation_fn
+model.vision.transformer.layers.62.mlp.fc1
+model.vision.transformer.layers.62.mlp.fc2
+model.vision.transformer.layers.62.post_attention_layernorm
+model.vision.linear_proj
+model.vision.linear_proj.linear_proj
+model.vision.linear_proj.norm1
+model.vision.linear_proj.act1
+model.vision.linear_proj.dense_h_to_4h
+model.vision.linear_proj.gate_proj
+model.vision.linear_proj.dense_4h_to_h
+lm_head

logs/allenai/Molmo-7B-D-0924.txt ADDED Viewed

	@@ -0,0 +1,606 @@

+model
+model.transformer
+model.transformer.wte
+model.transformer.emb_drop
+model.transformer.ln_f
+model.transformer.blocks
+model.transformer.blocks.0
+model.transformer.blocks.0.dropout
+model.transformer.blocks.0.act
+model.transformer.blocks.0.attn_out
+model.transformer.blocks.0.ff_out
+model.transformer.blocks.0.rotary_emb
+model.transformer.blocks.0.attn_norm
+model.transformer.blocks.0.ff_norm
+model.transformer.blocks.0.att_proj
+model.transformer.blocks.0.ff_proj
+model.transformer.blocks.1
+model.transformer.blocks.1.dropout
+model.transformer.blocks.1.act
+model.transformer.blocks.1.attn_out
+model.transformer.blocks.1.ff_out
+model.transformer.blocks.1.rotary_emb
+model.transformer.blocks.1.attn_norm
+model.transformer.blocks.1.ff_norm
+model.transformer.blocks.1.att_proj
+model.transformer.blocks.1.ff_proj
+model.transformer.blocks.2
+model.transformer.blocks.2.dropout
+model.transformer.blocks.2.act
+model.transformer.blocks.2.attn_out
+model.transformer.blocks.2.ff_out
+model.transformer.blocks.2.rotary_emb
+model.transformer.blocks.2.attn_norm
+model.transformer.blocks.2.ff_norm
+model.transformer.blocks.2.att_proj
+model.transformer.blocks.2.ff_proj
+model.transformer.blocks.3
+model.transformer.blocks.3.dropout
+model.transformer.blocks.3.act
+model.transformer.blocks.3.attn_out
+model.transformer.blocks.3.ff_out
+model.transformer.blocks.3.rotary_emb
+model.transformer.blocks.3.attn_norm
+model.transformer.blocks.3.ff_norm
+model.transformer.blocks.3.att_proj
+model.transformer.blocks.3.ff_proj
+model.transformer.blocks.4
+model.transformer.blocks.4.dropout
+model.transformer.blocks.4.act
+model.transformer.blocks.4.attn_out
+model.transformer.blocks.4.ff_out
+model.transformer.blocks.4.rotary_emb
+model.transformer.blocks.4.attn_norm
+model.transformer.blocks.4.ff_norm
+model.transformer.blocks.4.att_proj
+model.transformer.blocks.4.ff_proj
+model.transformer.blocks.5
+model.transformer.blocks.5.dropout
+model.transformer.blocks.5.act
+model.transformer.blocks.5.attn_out
+model.transformer.blocks.5.ff_out
+model.transformer.blocks.5.rotary_emb
+model.transformer.blocks.5.attn_norm
+model.transformer.blocks.5.ff_norm
+model.transformer.blocks.5.att_proj
+model.transformer.blocks.5.ff_proj
+model.transformer.blocks.6
+model.transformer.blocks.6.dropout
+model.transformer.blocks.6.act
+model.transformer.blocks.6.attn_out
+model.transformer.blocks.6.ff_out
+model.transformer.blocks.6.rotary_emb
+model.transformer.blocks.6.attn_norm
+model.transformer.blocks.6.ff_norm
+model.transformer.blocks.6.att_proj
+model.transformer.blocks.6.ff_proj
+model.transformer.blocks.7
+model.transformer.blocks.7.dropout
+model.transformer.blocks.7.act
+model.transformer.blocks.7.attn_out
+model.transformer.blocks.7.ff_out
+model.transformer.blocks.7.rotary_emb
+model.transformer.blocks.7.attn_norm
+model.transformer.blocks.7.ff_norm
+model.transformer.blocks.7.att_proj
+model.transformer.blocks.7.ff_proj
+model.transformer.blocks.8
+model.transformer.blocks.8.dropout
+model.transformer.blocks.8.act
+model.transformer.blocks.8.attn_out
+model.transformer.blocks.8.ff_out
+model.transformer.blocks.8.rotary_emb
+model.transformer.blocks.8.attn_norm
+model.transformer.blocks.8.ff_norm
+model.transformer.blocks.8.att_proj
+model.transformer.blocks.8.ff_proj
+model.transformer.blocks.9
+model.transformer.blocks.9.dropout
+model.transformer.blocks.9.act
+model.transformer.blocks.9.attn_out
+model.transformer.blocks.9.ff_out
+model.transformer.blocks.9.rotary_emb
+model.transformer.blocks.9.attn_norm
+model.transformer.blocks.9.ff_norm
+model.transformer.blocks.9.att_proj
+model.transformer.blocks.9.ff_proj
+model.transformer.blocks.10
+model.transformer.blocks.10.dropout
+model.transformer.blocks.10.act
+model.transformer.blocks.10.attn_out
+model.transformer.blocks.10.ff_out
+model.transformer.blocks.10.rotary_emb
+model.transformer.blocks.10.attn_norm
+model.transformer.blocks.10.ff_norm
+model.transformer.blocks.10.att_proj
+model.transformer.blocks.10.ff_proj
+model.transformer.blocks.11
+model.transformer.blocks.11.dropout
+model.transformer.blocks.11.act
+model.transformer.blocks.11.attn_out
+model.transformer.blocks.11.ff_out
+model.transformer.blocks.11.rotary_emb
+model.transformer.blocks.11.attn_norm
+model.transformer.blocks.11.ff_norm
+model.transformer.blocks.11.att_proj
+model.transformer.blocks.11.ff_proj
+model.transformer.blocks.12
+model.transformer.blocks.12.dropout
+model.transformer.blocks.12.act
+model.transformer.blocks.12.attn_out
+model.transformer.blocks.12.ff_out
+model.transformer.blocks.12.rotary_emb
+model.transformer.blocks.12.attn_norm
+model.transformer.blocks.12.ff_norm
+model.transformer.blocks.12.att_proj
+model.transformer.blocks.12.ff_proj
+model.transformer.blocks.13
+model.transformer.blocks.13.dropout
+model.transformer.blocks.13.act
+model.transformer.blocks.13.attn_out
+model.transformer.blocks.13.ff_out
+model.transformer.blocks.13.rotary_emb
+model.transformer.blocks.13.attn_norm
+model.transformer.blocks.13.ff_norm
+model.transformer.blocks.13.att_proj
+model.transformer.blocks.13.ff_proj
+model.transformer.blocks.14
+model.transformer.blocks.14.dropout
+model.transformer.blocks.14.act
+model.transformer.blocks.14.attn_out
+model.transformer.blocks.14.ff_out
+model.transformer.blocks.14.rotary_emb
+model.transformer.blocks.14.attn_norm
+model.transformer.blocks.14.ff_norm
+model.transformer.blocks.14.att_proj
+model.transformer.blocks.14.ff_proj
+model.transformer.blocks.15
+model.transformer.blocks.15.dropout
+model.transformer.blocks.15.act
+model.transformer.blocks.15.attn_out
+model.transformer.blocks.15.ff_out
+model.transformer.blocks.15.rotary_emb
+model.transformer.blocks.15.attn_norm
+model.transformer.blocks.15.ff_norm
+model.transformer.blocks.15.att_proj
+model.transformer.blocks.15.ff_proj
+model.transformer.blocks.16
+model.transformer.blocks.16.dropout
+model.transformer.blocks.16.act
+model.transformer.blocks.16.attn_out
+model.transformer.blocks.16.ff_out
+model.transformer.blocks.16.rotary_emb
+model.transformer.blocks.16.attn_norm
+model.transformer.blocks.16.ff_norm
+model.transformer.blocks.16.att_proj
+model.transformer.blocks.16.ff_proj
+model.transformer.blocks.17
+model.transformer.blocks.17.dropout
+model.transformer.blocks.17.act
+model.transformer.blocks.17.attn_out
+model.transformer.blocks.17.ff_out
+model.transformer.blocks.17.rotary_emb
+model.transformer.blocks.17.attn_norm
+model.transformer.blocks.17.ff_norm
+model.transformer.blocks.17.att_proj
+model.transformer.blocks.17.ff_proj
+model.transformer.blocks.18
+model.transformer.blocks.18.dropout
+model.transformer.blocks.18.act
+model.transformer.blocks.18.attn_out
+model.transformer.blocks.18.ff_out
+model.transformer.blocks.18.rotary_emb
+model.transformer.blocks.18.attn_norm
+model.transformer.blocks.18.ff_norm
+model.transformer.blocks.18.att_proj
+model.transformer.blocks.18.ff_proj
+model.transformer.blocks.19
+model.transformer.blocks.19.dropout
+model.transformer.blocks.19.act
+model.transformer.blocks.19.attn_out
+model.transformer.blocks.19.ff_out
+model.transformer.blocks.19.rotary_emb
+model.transformer.blocks.19.attn_norm
+model.transformer.blocks.19.ff_norm
+model.transformer.blocks.19.att_proj
+model.transformer.blocks.19.ff_proj
+model.transformer.blocks.20
+model.transformer.blocks.20.dropout
+model.transformer.blocks.20.act
+model.transformer.blocks.20.attn_out
+model.transformer.blocks.20.ff_out
+model.transformer.blocks.20.rotary_emb
+model.transformer.blocks.20.attn_norm
+model.transformer.blocks.20.ff_norm
+model.transformer.blocks.20.att_proj
+model.transformer.blocks.20.ff_proj
+model.transformer.blocks.21
+model.transformer.blocks.21.dropout
+model.transformer.blocks.21.act
+model.transformer.blocks.21.attn_out
+model.transformer.blocks.21.ff_out
+model.transformer.blocks.21.rotary_emb
+model.transformer.blocks.21.attn_norm
+model.transformer.blocks.21.ff_norm
+model.transformer.blocks.21.att_proj
+model.transformer.blocks.21.ff_proj
+model.transformer.blocks.22
+model.transformer.blocks.22.dropout
+model.transformer.blocks.22.act
+model.transformer.blocks.22.attn_out
+model.transformer.blocks.22.ff_out
+model.transformer.blocks.22.rotary_emb
+model.transformer.blocks.22.attn_norm
+model.transformer.blocks.22.ff_norm
+model.transformer.blocks.22.att_proj
+model.transformer.blocks.22.ff_proj
+model.transformer.blocks.23
+model.transformer.blocks.23.dropout
+model.transformer.blocks.23.act
+model.transformer.blocks.23.attn_out
+model.transformer.blocks.23.ff_out
+model.transformer.blocks.23.rotary_emb
+model.transformer.blocks.23.attn_norm
+model.transformer.blocks.23.ff_norm
+model.transformer.blocks.23.att_proj
+model.transformer.blocks.23.ff_proj
+model.transformer.blocks.24
+model.transformer.blocks.24.dropout
+model.transformer.blocks.24.act
+model.transformer.blocks.24.attn_out
+model.transformer.blocks.24.ff_out
+model.transformer.blocks.24.rotary_emb
+model.transformer.blocks.24.attn_norm
+model.transformer.blocks.24.ff_norm
+model.transformer.blocks.24.att_proj
+model.transformer.blocks.24.ff_proj
+model.transformer.blocks.25
+model.transformer.blocks.25.dropout
+model.transformer.blocks.25.act
+model.transformer.blocks.25.attn_out
+model.transformer.blocks.25.ff_out
+model.transformer.blocks.25.rotary_emb
+model.transformer.blocks.25.attn_norm
+model.transformer.blocks.25.ff_norm
+model.transformer.blocks.25.att_proj
+model.transformer.blocks.25.ff_proj
+model.transformer.blocks.26
+model.transformer.blocks.26.dropout
+model.transformer.blocks.26.act
+model.transformer.blocks.26.attn_out
+model.transformer.blocks.26.ff_out
+model.transformer.blocks.26.rotary_emb
+model.transformer.blocks.26.attn_norm
+model.transformer.blocks.26.ff_norm
+model.transformer.blocks.26.att_proj
+model.transformer.blocks.26.ff_proj
+model.transformer.blocks.27
+model.transformer.blocks.27.dropout
+model.transformer.blocks.27.act
+model.transformer.blocks.27.attn_out
+model.transformer.blocks.27.ff_out
+model.transformer.blocks.27.rotary_emb
+model.transformer.blocks.27.attn_norm
+model.transformer.blocks.27.ff_norm
+model.transformer.blocks.27.att_proj
+model.transformer.blocks.27.ff_proj
+model.transformer.ff_out
+model.vision_backbone
+model.vision_backbone.image_vit
+model.vision_backbone.image_vit.patch_embedding
+model.vision_backbone.image_vit.pre_ln
+model.vision_backbone.image_vit.transformer
+model.vision_backbone.image_vit.transformer.resblocks
+model.vision_backbone.image_vit.transformer.resblocks.0
+model.vision_backbone.image_vit.transformer.resblocks.0.attention
+model.vision_backbone.image_vit.transformer.resblocks.0.attention.wq
+model.vision_backbone.image_vit.transformer.resblocks.0.attention.wk
+model.vision_backbone.image_vit.transformer.resblocks.0.attention.wv
+model.vision_backbone.image_vit.transformer.resblocks.0.attention.wo
+model.vision_backbone.image_vit.transformer.resblocks.0.attention.residual_dropout
+model.vision_backbone.image_vit.transformer.resblocks.0.feed_forward
+model.vision_backbone.image_vit.transformer.resblocks.0.feed_forward.w1
+model.vision_backbone.image_vit.transformer.resblocks.0.feed_forward.act
+model.vision_backbone.image_vit.transformer.resblocks.0.feed_forward.w2
+model.vision_backbone.image_vit.transformer.resblocks.0.attention_norm
+model.vision_backbone.image_vit.transformer.resblocks.0.ffn_norm
+model.vision_backbone.image_vit.transformer.resblocks.1
+model.vision_backbone.image_vit.transformer.resblocks.1.attention
+model.vision_backbone.image_vit.transformer.resblocks.1.attention.wq
+model.vision_backbone.image_vit.transformer.resblocks.1.attention.wk
+model.vision_backbone.image_vit.transformer.resblocks.1.attention.wv
+model.vision_backbone.image_vit.transformer.resblocks.1.attention.wo
+model.vision_backbone.image_vit.transformer.resblocks.1.attention.residual_dropout
+model.vision_backbone.image_vit.transformer.resblocks.1.feed_forward
+model.vision_backbone.image_vit.transformer.resblocks.1.feed_forward.w1
+model.vision_backbone.image_vit.transformer.resblocks.1.feed_forward.act
+model.vision_backbone.image_vit.transformer.resblocks.1.feed_forward.w2
+model.vision_backbone.image_vit.transformer.resblocks.1.attention_norm
+model.vision_backbone.image_vit.transformer.resblocks.1.ffn_norm
+model.vision_backbone.image_vit.transformer.resblocks.2
+model.vision_backbone.image_vit.transformer.resblocks.2.attention
+model.vision_backbone.image_vit.transformer.resblocks.2.attention.wq
+model.vision_backbone.image_vit.transformer.resblocks.2.attention.wk
+model.vision_backbone.image_vit.transformer.resblocks.2.attention.wv
+model.vision_backbone.image_vit.transformer.resblocks.2.attention.wo
+model.vision_backbone.image_vit.transformer.resblocks.2.attention.residual_dropout
+model.vision_backbone.image_vit.transformer.resblocks.2.feed_forward
+model.vision_backbone.image_vit.transformer.resblocks.2.feed_forward.w1
+model.vision_backbone.image_vit.transformer.resblocks.2.feed_forward.act
+model.vision_backbone.image_vit.transformer.resblocks.2.feed_forward.w2
+model.vision_backbone.image_vit.transformer.resblocks.2.attention_norm
+model.vision_backbone.image_vit.transformer.resblocks.2.ffn_norm
+model.vision_backbone.image_vit.transformer.resblocks.3
+model.vision_backbone.image_vit.transformer.resblocks.3.attention
+model.vision_backbone.image_vit.transformer.resblocks.3.attention.wq
+model.vision_backbone.image_vit.transformer.resblocks.3.attention.wk
+model.vision_backbone.image_vit.transformer.resblocks.3.attention.wv
+model.vision_backbone.image_vit.transformer.resblocks.3.attention.wo
+model.vision_backbone.image_vit.transformer.resblocks.3.attention.residual_dropout
+model.vision_backbone.image_vit.transformer.resblocks.3.feed_forward
+model.vision_backbone.image_vit.transformer.resblocks.3.feed_forward.w1
+model.vision_backbone.image_vit.transformer.resblocks.3.feed_forward.act
+model.vision_backbone.image_vit.transformer.resblocks.3.feed_forward.w2
+model.vision_backbone.image_vit.transformer.resblocks.3.attention_norm
+model.vision_backbone.image_vit.transformer.resblocks.3.ffn_norm
+model.vision_backbone.image_vit.transformer.resblocks.4
+model.vision_backbone.image_vit.transformer.resblocks.4.attention
+model.vision_backbone.image_vit.transformer.resblocks.4.attention.wq
+model.vision_backbone.image_vit.transformer.resblocks.4.attention.wk
+model.vision_backbone.image_vit.transformer.resblocks.4.attention.wv
+model.vision_backbone.image_vit.transformer.resblocks.4.attention.wo
+model.vision_backbone.image_vit.transformer.resblocks.4.attention.residual_dropout
+model.vision_backbone.image_vit.transformer.resblocks.4.feed_forward
+model.vision_backbone.image_vit.transformer.resblocks.4.feed_forward.w1
+model.vision_backbone.image_vit.transformer.resblocks.4.feed_forward.act
+model.vision_backbone.image_vit.transformer.resblocks.4.feed_forward.w2
+model.vision_backbone.image_vit.transformer.resblocks.4.attention_norm
+model.vision_backbone.image_vit.transformer.resblocks.4.ffn_norm
+model.vision_backbone.image_vit.transformer.resblocks.5
+model.vision_backbone.image_vit.transformer.resblocks.5.attention
+model.vision_backbone.image_vit.transformer.resblocks.5.attention.wq
+model.vision_backbone.image_vit.transformer.resblocks.5.attention.wk
+model.vision_backbone.image_vit.transformer.resblocks.5.attention.wv
+model.vision_backbone.image_vit.transformer.resblocks.5.attention.wo
+model.vision_backbone.image_vit.transformer.resblocks.5.attention.residual_dropout
+model.vision_backbone.image_vit.transformer.resblocks.5.feed_forward
+model.vision_backbone.image_vit.transformer.resblocks.5.feed_forward.w1
+model.vision_backbone.image_vit.transformer.resblocks.5.feed_forward.act
+model.vision_backbone.image_vit.transformer.resblocks.5.feed_forward.w2
+model.vision_backbone.image_vit.transformer.resblocks.5.attention_norm
+model.vision_backbone.image_vit.transformer.resblocks.5.ffn_norm
+model.vision_backbone.image_vit.transformer.resblocks.6
+model.vision_backbone.image_vit.transformer.resblocks.6.attention
+model.vision_backbone.image_vit.transformer.resblocks.6.attention.wq
+model.vision_backbone.image_vit.transformer.resblocks.6.attention.wk
+model.vision_backbone.image_vit.transformer.resblocks.6.attention.wv
+model.vision_backbone.image_vit.transformer.resblocks.6.attention.wo
+model.vision_backbone.image_vit.transformer.resblocks.6.attention.residual_dropout
+model.vision_backbone.image_vit.transformer.resblocks.6.feed_forward
+model.vision_backbone.image_vit.transformer.resblocks.6.feed_forward.w1
+model.vision_backbone.image_vit.transformer.resblocks.6.feed_forward.act
+model.vision_backbone.image_vit.transformer.resblocks.6.feed_forward.w2
+model.vision_backbone.image_vit.transformer.resblocks.6.attention_norm
+model.vision_backbone.image_vit.transformer.resblocks.6.ffn_norm
+model.vision_backbone.image_vit.transformer.resblocks.7
+model.vision_backbone.image_vit.transformer.resblocks.7.attention
+model.vision_backbone.image_vit.transformer.resblocks.7.attention.wq
+model.vision_backbone.image_vit.transformer.resblocks.7.attention.wk
+model.vision_backbone.image_vit.transformer.resblocks.7.attention.wv
+model.vision_backbone.image_vit.transformer.resblocks.7.attention.wo
+model.vision_backbone.image_vit.transformer.resblocks.7.attention.residual_dropout
+model.vision_backbone.image_vit.transformer.resblocks.7.feed_forward
+model.vision_backbone.image_vit.transformer.resblocks.7.feed_forward.w1
+model.vision_backbone.image_vit.transformer.resblocks.7.feed_forward.act
+model.vision_backbone.image_vit.transformer.resblocks.7.feed_forward.w2
+model.vision_backbone.image_vit.transformer.resblocks.7.attention_norm
+model.vision_backbone.image_vit.transformer.resblocks.7.ffn_norm
+model.vision_backbone.image_vit.transformer.resblocks.8
+model.vision_backbone.image_vit.transformer.resblocks.8.attention
+model.vision_backbone.image_vit.transformer.resblocks.8.attention.wq
+model.vision_backbone.image_vit.transformer.resblocks.8.attention.wk
+model.vision_backbone.image_vit.transformer.resblocks.8.attention.wv
+model.vision_backbone.image_vit.transformer.resblocks.8.attention.wo
+model.vision_backbone.image_vit.transformer.resblocks.8.attention.residual_dropout
+model.vision_backbone.image_vit.transformer.resblocks.8.feed_forward
+model.vision_backbone.image_vit.transformer.resblocks.8.feed_forward.w1
+model.vision_backbone.image_vit.transformer.resblocks.8.feed_forward.act
+model.vision_backbone.image_vit.transformer.resblocks.8.feed_forward.w2
+model.vision_backbone.image_vit.transformer.resblocks.8.attention_norm
+model.vision_backbone.image_vit.transformer.resblocks.8.ffn_norm
+model.vision_backbone.image_vit.transformer.resblocks.9
+model.vision_backbone.image_vit.transformer.resblocks.9.attention
+model.vision_backbone.image_vit.transformer.resblocks.9.attention.wq
+model.vision_backbone.image_vit.transformer.resblocks.9.attention.wk
+model.vision_backbone.image_vit.transformer.resblocks.9.attention.wv
+model.vision_backbone.image_vit.transformer.resblocks.9.attention.wo
+model.vision_backbone.image_vit.transformer.resblocks.9.attention.residual_dropout
+model.vision_backbone.image_vit.transformer.resblocks.9.feed_forward
+model.vision_backbone.image_vit.transformer.resblocks.9.feed_forward.w1
+model.vision_backbone.image_vit.transformer.resblocks.9.feed_forward.act
+model.vision_backbone.image_vit.transformer.resblocks.9.feed_forward.w2
+model.vision_backbone.image_vit.transformer.resblocks.9.attention_norm
+model.vision_backbone.image_vit.transformer.resblocks.9.ffn_norm
+model.vision_backbone.image_vit.transformer.resblocks.10
+model.vision_backbone.image_vit.transformer.resblocks.10.attention
+model.vision_backbone.image_vit.transformer.resblocks.10.attention.wq
+model.vision_backbone.image_vit.transformer.resblocks.10.attention.wk
+model.vision_backbone.image_vit.transformer.resblocks.10.attention.wv
+model.vision_backbone.image_vit.transformer.resblocks.10.attention.wo
+model.vision_backbone.image_vit.transformer.resblocks.10.attention.residual_dropout
+model.vision_backbone.image_vit.transformer.resblocks.10.feed_forward
+model.vision_backbone.image_vit.transformer.resblocks.10.feed_forward.w1
+model.vision_backbone.image_vit.transformer.resblocks.10.feed_forward.act
+model.vision_backbone.image_vit.transformer.resblocks.10.feed_forward.w2
+model.vision_backbone.image_vit.transformer.resblocks.10.attention_norm
+model.vision_backbone.image_vit.transformer.resblocks.10.ffn_norm
+model.vision_backbone.image_vit.transformer.resblocks.11
+model.vision_backbone.image_vit.transformer.resblocks.11.attention
+model.vision_backbone.image_vit.transformer.resblocks.11.attention.wq
+model.vision_backbone.image_vit.transformer.resblocks.11.attention.wk
+model.vision_backbone.image_vit.transformer.resblocks.11.attention.wv
+model.vision_backbone.image_vit.transformer.resblocks.11.attention.wo
+model.vision_backbone.image_vit.transformer.resblocks.11.attention.residual_dropout
+model.vision_backbone.image_vit.transformer.resblocks.11.feed_forward
+model.vision_backbone.image_vit.transformer.resblocks.11.feed_forward.w1
+model.vision_backbone.image_vit.transformer.resblocks.11.feed_forward.act
+model.vision_backbone.image_vit.transformer.resblocks.11.feed_forward.w2
+model.vision_backbone.image_vit.transformer.resblocks.11.attention_norm
+model.vision_backbone.image_vit.transformer.resblocks.11.ffn_norm
+model.vision_backbone.image_vit.transformer.resblocks.12
+model.vision_backbone.image_vit.transformer.resblocks.12.attention
+model.vision_backbone.image_vit.transformer.resblocks.12.attention.wq
+model.vision_backbone.image_vit.transformer.resblocks.12.attention.wk
+model.vision_backbone.image_vit.transformer.resblocks.12.attention.wv
+model.vision_backbone.image_vit.transformer.resblocks.12.attention.wo
+model.vision_backbone.image_vit.transformer.resblocks.12.attention.residual_dropout
+model.vision_backbone.image_vit.transformer.resblocks.12.feed_forward
+model.vision_backbone.image_vit.transformer.resblocks.12.feed_forward.w1
+model.vision_backbone.image_vit.transformer.resblocks.12.feed_forward.act
+model.vision_backbone.image_vit.transformer.resblocks.12.feed_forward.w2
+model.vision_backbone.image_vit.transformer.resblocks.12.attention_norm
+model.vision_backbone.image_vit.transformer.resblocks.12.ffn_norm
+model.vision_backbone.image_vit.transformer.resblocks.13
+model.vision_backbone.image_vit.transformer.resblocks.13.attention
+model.vision_backbone.image_vit.transformer.resblocks.13.attention.wq
+model.vision_backbone.image_vit.transformer.resblocks.13.attention.wk
+model.vision_backbone.image_vit.transformer.resblocks.13.attention.wv
+model.vision_backbone.image_vit.transformer.resblocks.13.attention.wo
+model.vision_backbone.image_vit.transformer.resblocks.13.attention.residual_dropout
+model.vision_backbone.image_vit.transformer.resblocks.13.feed_forward
+model.vision_backbone.image_vit.transformer.resblocks.13.feed_forward.w1
+model.vision_backbone.image_vit.transformer.resblocks.13.feed_forward.act
+model.vision_backbone.image_vit.transformer.resblocks.13.feed_forward.w2
+model.vision_backbone.image_vit.transformer.resblocks.13.attention_norm
+model.vision_backbone.image_vit.transformer.resblocks.13.ffn_norm
+model.vision_backbone.image_vit.transformer.resblocks.14
+model.vision_backbone.image_vit.transformer.resblocks.14.attention
+model.vision_backbone.image_vit.transformer.resblocks.14.attention.wq
+model.vision_backbone.image_vit.transformer.resblocks.14.attention.wk
+model.vision_backbone.image_vit.transformer.resblocks.14.attention.wv
+model.vision_backbone.image_vit.transformer.resblocks.14.attention.wo
+model.vision_backbone.image_vit.transformer.resblocks.14.attention.residual_dropout
+model.vision_backbone.image_vit.transformer.resblocks.14.feed_forward
+model.vision_backbone.image_vit.transformer.resblocks.14.feed_forward.w1
+model.vision_backbone.image_vit.transformer.resblocks.14.feed_forward.act
+model.vision_backbone.image_vit.transformer.resblocks.14.feed_forward.w2
+model.vision_backbone.image_vit.transformer.resblocks.14.attention_norm
+model.vision_backbone.image_vit.transformer.resblocks.14.ffn_norm
+model.vision_backbone.image_vit.transformer.resblocks.15
+model.vision_backbone.image_vit.transformer.resblocks.15.attention
+model.vision_backbone.image_vit.transformer.resblocks.15.attention.wq
+model.vision_backbone.image_vit.transformer.resblocks.15.attention.wk
+model.vision_backbone.image_vit.transformer.resblocks.15.attention.wv
+model.vision_backbone.image_vit.transformer.resblocks.15.attention.wo
+model.vision_backbone.image_vit.transformer.resblocks.15.attention.residual_dropout
+model.vision_backbone.image_vit.transformer.resblocks.15.feed_forward
+model.vision_backbone.image_vit.transformer.resblocks.15.feed_forward.w1
+model.vision_backbone.image_vit.transformer.resblocks.15.feed_forward.act
+model.vision_backbone.image_vit.transformer.resblocks.15.feed_forward.w2
+model.vision_backbone.image_vit.transformer.resblocks.15.attention_norm
+model.vision_backbone.image_vit.transformer.resblocks.15.ffn_norm
+model.vision_backbone.image_vit.transformer.resblocks.16
+model.vision_backbone.image_vit.transformer.resblocks.16.attention
+model.vision_backbone.image_vit.transformer.resblocks.16.attention.wq
+model.vision_backbone.image_vit.transformer.resblocks.16.attention.wk
+model.vision_backbone.image_vit.transformer.resblocks.16.attention.wv
+model.vision_backbone.image_vit.transformer.resblocks.16.attention.wo
+model.vision_backbone.image_vit.transformer.resblocks.16.attention.residual_dropout
+model.vision_backbone.image_vit.transformer.resblocks.16.feed_forward
+model.vision_backbone.image_vit.transformer.resblocks.16.feed_forward.w1
+model.vision_backbone.image_vit.transformer.resblocks.16.feed_forward.act
+model.vision_backbone.image_vit.transformer.resblocks.16.feed_forward.w2
+model.vision_backbone.image_vit.transformer.resblocks.16.attention_norm
+model.vision_backbone.image_vit.transformer.resblocks.16.ffn_norm
+model.vision_backbone.image_vit.transformer.resblocks.17
+model.vision_backbone.image_vit.transformer.resblocks.17.attention
+model.vision_backbone.image_vit.transformer.resblocks.17.attention.wq
+model.vision_backbone.image_vit.transformer.resblocks.17.attention.wk
+model.vision_backbone.image_vit.transformer.resblocks.17.attention.wv
+model.vision_backbone.image_vit.transformer.resblocks.17.attention.wo
+model.vision_backbone.image_vit.transformer.resblocks.17.attention.residual_dropout
+model.vision_backbone.image_vit.transformer.resblocks.17.feed_forward
+model.vision_backbone.image_vit.transformer.resblocks.17.feed_forward.w1
+model.vision_backbone.image_vit.transformer.resblocks.17.feed_forward.act
+model.vision_backbone.image_vit.transformer.resblocks.17.feed_forward.w2
+model.vision_backbone.image_vit.transformer.resblocks.17.attention_norm
+model.vision_backbone.image_vit.transformer.resblocks.17.ffn_norm
+model.vision_backbone.image_vit.transformer.resblocks.18
+model.vision_backbone.image_vit.transformer.resblocks.18.attention
+model.vision_backbone.image_vit.transformer.resblocks.18.attention.wq
+model.vision_backbone.image_vit.transformer.resblocks.18.attention.wk
+model.vision_backbone.image_vit.transformer.resblocks.18.attention.wv
+model.vision_backbone.image_vit.transformer.resblocks.18.attention.wo
+model.vision_backbone.image_vit.transformer.resblocks.18.attention.residual_dropout
+model.vision_backbone.image_vit.transformer.resblocks.18.feed_forward
+model.vision_backbone.image_vit.transformer.resblocks.18.feed_forward.w1
+model.vision_backbone.image_vit.transformer.resblocks.18.feed_forward.act
+model.vision_backbone.image_vit.transformer.resblocks.18.feed_forward.w2
+model.vision_backbone.image_vit.transformer.resblocks.18.attention_norm
+model.vision_backbone.image_vit.transformer.resblocks.18.ffn_norm
+model.vision_backbone.image_vit.transformer.resblocks.19
+model.vision_backbone.image_vit.transformer.resblocks.19.attention
+model.vision_backbone.image_vit.transformer.resblocks.19.attention.wq
+model.vision_backbone.image_vit.transformer.resblocks.19.attention.wk
+model.vision_backbone.image_vit.transformer.resblocks.19.attention.wv
+model.vision_backbone.image_vit.transformer.resblocks.19.attention.wo
+model.vision_backbone.image_vit.transformer.resblocks.19.attention.residual_dropout
+model.vision_backbone.image_vit.transformer.resblocks.19.feed_forward
+model.vision_backbone.image_vit.transformer.resblocks.19.feed_forward.w1
+model.vision_backbone.image_vit.transformer.resblocks.19.feed_forward.act
+model.vision_backbone.image_vit.transformer.resblocks.19.feed_forward.w2
+model.vision_backbone.image_vit.transformer.resblocks.19.attention_norm
+model.vision_backbone.image_vit.transformer.resblocks.19.ffn_norm
+model.vision_backbone.image_vit.transformer.resblocks.20
+model.vision_backbone.image_vit.transformer.resblocks.20.attention
+model.vision_backbone.image_vit.transformer.resblocks.20.attention.wq
+model.vision_backbone.image_vit.transformer.resblocks.20.attention.wk
+model.vision_backbone.image_vit.transformer.resblocks.20.attention.wv
+model.vision_backbone.image_vit.transformer.resblocks.20.attention.wo
+model.vision_backbone.image_vit.transformer.resblocks.20.attention.residual_dropout
+model.vision_backbone.image_vit.transformer.resblocks.20.feed_forward
+model.vision_backbone.image_vit.transformer.resblocks.20.feed_forward.w1
+model.vision_backbone.image_vit.transformer.resblocks.20.feed_forward.act
+model.vision_backbone.image_vit.transformer.resblocks.20.feed_forward.w2
+model.vision_backbone.image_vit.transformer.resblocks.20.attention_norm
+model.vision_backbone.image_vit.transformer.resblocks.20.ffn_norm
+model.vision_backbone.image_vit.transformer.resblocks.21
+model.vision_backbone.image_vit.transformer.resblocks.21.attention
+model.vision_backbone.image_vit.transformer.resblocks.21.attention.wq
+model.vision_backbone.image_vit.transformer.resblocks.21.attention.wk
+model.vision_backbone.image_vit.transformer.resblocks.21.attention.wv
+model.vision_backbone.image_vit.transformer.resblocks.21.attention.wo
+model.vision_backbone.image_vit.transformer.resblocks.21.attention.residual_dropout
+model.vision_backbone.image_vit.transformer.resblocks.21.feed_forward
+model.vision_backbone.image_vit.transformer.resblocks.21.feed_forward.w1
+model.vision_backbone.image_vit.transformer.resblocks.21.feed_forward.act
+model.vision_backbone.image_vit.transformer.resblocks.21.feed_forward.w2
+model.vision_backbone.image_vit.transformer.resblocks.21.attention_norm
+model.vision_backbone.image_vit.transformer.resblocks.21.ffn_norm
+model.vision_backbone.image_vit.transformer.resblocks.22
+model.vision_backbone.image_vit.transformer.resblocks.22.attention
+model.vision_backbone.image_vit.transformer.resblocks.22.attention.wq
+model.vision_backbone.image_vit.transformer.resblocks.22.attention.wk
+model.vision_backbone.image_vit.transformer.resblocks.22.attention.wv
+model.vision_backbone.image_vit.transformer.resblocks.22.attention.wo
+model.vision_backbone.image_vit.transformer.resblocks.22.attention.residual_dropout
+model.vision_backbone.image_vit.transformer.resblocks.22.feed_forward
+model.vision_backbone.image_vit.transformer.resblocks.22.feed_forward.w1
+model.vision_backbone.image_vit.transformer.resblocks.22.feed_forward.act
+model.vision_backbone.image_vit.transformer.resblocks.22.feed_forward.w2
+model.vision_backbone.image_vit.transformer.resblocks.22.attention_norm
+model.vision_backbone.image_vit.transformer.resblocks.22.ffn_norm
+model.vision_backbone.image_pooling_2d
+model.vision_backbone.image_pooling_2d.wq
+model.vision_backbone.image_pooling_2d.wk
+model.vision_backbone.image_pooling_2d.wv
+model.vision_backbone.image_pooling_2d.wo
+model.vision_backbone.image_pooling_2d.residual_dropout
+model.vision_backbone.image_projector
+model.vision_backbone.image_projector.w1
+model.vision_backbone.image_projector.w2
+model.vision_backbone.image_projector.w3
+model.vision_backbone.image_projector.act
+model.vision_backbone.image_projector.dropout
+model.vision_backbone.image_feature_dropout

logs/deepseek-community/Janus-Pro-1B.txt ADDED Viewed

	@@ -0,0 +1,1033 @@

+model
+model.vision_model
+model.vision_model.embeddings
+model.vision_model.embeddings.patch_embedding
+model.vision_model.embeddings.position_embedding
+model.vision_model.encoder
+model.vision_model.encoder.layers
+model.vision_model.encoder.layers.0
+model.vision_model.encoder.layers.0.layer_norm1
+model.vision_model.encoder.layers.0.self_attn
+model.vision_model.encoder.layers.0.self_attn.q_proj
+model.vision_model.encoder.layers.0.self_attn.k_proj
+model.vision_model.encoder.layers.0.self_attn.v_proj
+model.vision_model.encoder.layers.0.self_attn.projection_layer
+model.vision_model.encoder.layers.0.self_attn.projection_dropout
+model.vision_model.encoder.layers.0.self_attn.q_norm
+model.vision_model.encoder.layers.0.self_attn.k_norm
+model.vision_model.encoder.layers.0.layer_norm2
+model.vision_model.encoder.layers.0.mlp
+model.vision_model.encoder.layers.0.mlp.activation_fn
+model.vision_model.encoder.layers.0.mlp.fc1
+model.vision_model.encoder.layers.0.mlp.fc2
+model.vision_model.encoder.layers.0.mlp.dropout1
+model.vision_model.encoder.layers.0.mlp.dropout2
+model.vision_model.encoder.layers.1
+model.vision_model.encoder.layers.1.layer_norm1
+model.vision_model.encoder.layers.1.self_attn
+model.vision_model.encoder.layers.1.self_attn.q_proj
+model.vision_model.encoder.layers.1.self_attn.k_proj
+model.vision_model.encoder.layers.1.self_attn.v_proj
+model.vision_model.encoder.layers.1.self_attn.projection_layer
+model.vision_model.encoder.layers.1.self_attn.projection_dropout
+model.vision_model.encoder.layers.1.self_attn.q_norm
+model.vision_model.encoder.layers.1.self_attn.k_norm
+model.vision_model.encoder.layers.1.layer_norm2
+model.vision_model.encoder.layers.1.mlp
+model.vision_model.encoder.layers.1.mlp.activation_fn
+model.vision_model.encoder.layers.1.mlp.fc1
+model.vision_model.encoder.layers.1.mlp.fc2
+model.vision_model.encoder.layers.1.mlp.dropout1
+model.vision_model.encoder.layers.1.mlp.dropout2
+model.vision_model.encoder.layers.2
+model.vision_model.encoder.layers.2.layer_norm1
+model.vision_model.encoder.layers.2.self_attn
+model.vision_model.encoder.layers.2.self_attn.q_proj
+model.vision_model.encoder.layers.2.self_attn.k_proj
+model.vision_model.encoder.layers.2.self_attn.v_proj
+model.vision_model.encoder.layers.2.self_attn.projection_layer
+model.vision_model.encoder.layers.2.self_attn.projection_dropout
+model.vision_model.encoder.layers.2.self_attn.q_norm
+model.vision_model.encoder.layers.2.self_attn.k_norm
+model.vision_model.encoder.layers.2.layer_norm2
+model.vision_model.encoder.layers.2.mlp
+model.vision_model.encoder.layers.2.mlp.activation_fn
+model.vision_model.encoder.layers.2.mlp.fc1
+model.vision_model.encoder.layers.2.mlp.fc2
+model.vision_model.encoder.layers.2.mlp.dropout1
+model.vision_model.encoder.layers.2.mlp.dropout2
+model.vision_model.encoder.layers.3
+model.vision_model.encoder.layers.3.layer_norm1
+model.vision_model.encoder.layers.3.self_attn
+model.vision_model.encoder.layers.3.self_attn.q_proj
+model.vision_model.encoder.layers.3.self_attn.k_proj
+model.vision_model.encoder.layers.3.self_attn.v_proj
+model.vision_model.encoder.layers.3.self_attn.projection_layer
+model.vision_model.encoder.layers.3.self_attn.projection_dropout
+model.vision_model.encoder.layers.3.self_attn.q_norm
+model.vision_model.encoder.layers.3.self_attn.k_norm
+model.vision_model.encoder.layers.3.layer_norm2
+model.vision_model.encoder.layers.3.mlp
+model.vision_model.encoder.layers.3.mlp.activation_fn
+model.vision_model.encoder.layers.3.mlp.fc1
+model.vision_model.encoder.layers.3.mlp.fc2
+model.vision_model.encoder.layers.3.mlp.dropout1
+model.vision_model.encoder.layers.3.mlp.dropout2
+model.vision_model.encoder.layers.4
+model.vision_model.encoder.layers.4.layer_norm1
+model.vision_model.encoder.layers.4.self_attn
+model.vision_model.encoder.layers.4.self_attn.q_proj
+model.vision_model.encoder.layers.4.self_attn.k_proj
+model.vision_model.encoder.layers.4.self_attn.v_proj
+model.vision_model.encoder.layers.4.self_attn.projection_layer
+model.vision_model.encoder.layers.4.self_attn.projection_dropout
+model.vision_model.encoder.layers.4.self_attn.q_norm
+model.vision_model.encoder.layers.4.self_attn.k_norm
+model.vision_model.encoder.layers.4.layer_norm2
+model.vision_model.encoder.layers.4.mlp
+model.vision_model.encoder.layers.4.mlp.activation_fn
+model.vision_model.encoder.layers.4.mlp.fc1
+model.vision_model.encoder.layers.4.mlp.fc2
+model.vision_model.encoder.layers.4.mlp.dropout1
+model.vision_model.encoder.layers.4.mlp.dropout2
+model.vision_model.encoder.layers.5
+model.vision_model.encoder.layers.5.layer_norm1
+model.vision_model.encoder.layers.5.self_attn
+model.vision_model.encoder.layers.5.self_attn.q_proj
+model.vision_model.encoder.layers.5.self_attn.k_proj
+model.vision_model.encoder.layers.5.self_attn.v_proj
+model.vision_model.encoder.layers.5.self_attn.projection_layer
+model.vision_model.encoder.layers.5.self_attn.projection_dropout
+model.vision_model.encoder.layers.5.self_attn.q_norm
+model.vision_model.encoder.layers.5.self_attn.k_norm
+model.vision_model.encoder.layers.5.layer_norm2
+model.vision_model.encoder.layers.5.mlp
+model.vision_model.encoder.layers.5.mlp.activation_fn
+model.vision_model.encoder.layers.5.mlp.fc1
+model.vision_model.encoder.layers.5.mlp.fc2
+model.vision_model.encoder.layers.5.mlp.dropout1
+model.vision_model.encoder.layers.5.mlp.dropout2
+model.vision_model.encoder.layers.6
+model.vision_model.encoder.layers.6.layer_norm1
+model.vision_model.encoder.layers.6.self_attn
+model.vision_model.encoder.layers.6.self_attn.q_proj
+model.vision_model.encoder.layers.6.self_attn.k_proj
+model.vision_model.encoder.layers.6.self_attn.v_proj
+model.vision_model.encoder.layers.6.self_attn.projection_layer
+model.vision_model.encoder.layers.6.self_attn.projection_dropout
+model.vision_model.encoder.layers.6.self_attn.q_norm
+model.vision_model.encoder.layers.6.self_attn.k_norm
+model.vision_model.encoder.layers.6.layer_norm2
+model.vision_model.encoder.layers.6.mlp
+model.vision_model.encoder.layers.6.mlp.activation_fn
+model.vision_model.encoder.layers.6.mlp.fc1
+model.vision_model.encoder.layers.6.mlp.fc2
+model.vision_model.encoder.layers.6.mlp.dropout1
+model.vision_model.encoder.layers.6.mlp.dropout2
+model.vision_model.encoder.layers.7
+model.vision_model.encoder.layers.7.layer_norm1
+model.vision_model.encoder.layers.7.self_attn
+model.vision_model.encoder.layers.7.self_attn.q_proj
+model.vision_model.encoder.layers.7.self_attn.k_proj
+model.vision_model.encoder.layers.7.self_attn.v_proj
+model.vision_model.encoder.layers.7.self_attn.projection_layer
+model.vision_model.encoder.layers.7.self_attn.projection_dropout
+model.vision_model.encoder.layers.7.self_attn.q_norm
+model.vision_model.encoder.layers.7.self_attn.k_norm
+model.vision_model.encoder.layers.7.layer_norm2
+model.vision_model.encoder.layers.7.mlp
+model.vision_model.encoder.layers.7.mlp.activation_fn
+model.vision_model.encoder.layers.7.mlp.fc1
+model.vision_model.encoder.layers.7.mlp.fc2
+model.vision_model.encoder.layers.7.mlp.dropout1
+model.vision_model.encoder.layers.7.mlp.dropout2
+model.vision_model.encoder.layers.8
+model.vision_model.encoder.layers.8.layer_norm1
+model.vision_model.encoder.layers.8.self_attn
+model.vision_model.encoder.layers.8.self_attn.q_proj
+model.vision_model.encoder.layers.8.self_attn.k_proj
+model.vision_model.encoder.layers.8.self_attn.v_proj
+model.vision_model.encoder.layers.8.self_attn.projection_layer
+model.vision_model.encoder.layers.8.self_attn.projection_dropout
+model.vision_model.encoder.layers.8.self_attn.q_norm
+model.vision_model.encoder.layers.8.self_attn.k_norm
+model.vision_model.encoder.layers.8.layer_norm2
+model.vision_model.encoder.layers.8.mlp
+model.vision_model.encoder.layers.8.mlp.activation_fn
+model.vision_model.encoder.layers.8.mlp.fc1
+model.vision_model.encoder.layers.8.mlp.fc2
+model.vision_model.encoder.layers.8.mlp.dropout1
+model.vision_model.encoder.layers.8.mlp.dropout2
+model.vision_model.encoder.layers.9
+model.vision_model.encoder.layers.9.layer_norm1
+model.vision_model.encoder.layers.9.self_attn
+model.vision_model.encoder.layers.9.self_attn.q_proj
+model.vision_model.encoder.layers.9.self_attn.k_proj
+model.vision_model.encoder.layers.9.self_attn.v_proj
+model.vision_model.encoder.layers.9.self_attn.projection_layer
+model.vision_model.encoder.layers.9.self_attn.projection_dropout
+model.vision_model.encoder.layers.9.self_attn.q_norm
+model.vision_model.encoder.layers.9.self_attn.k_norm
+model.vision_model.encoder.layers.9.layer_norm2
+model.vision_model.encoder.layers.9.mlp
+model.vision_model.encoder.layers.9.mlp.activation_fn
+model.vision_model.encoder.layers.9.mlp.fc1
+model.vision_model.encoder.layers.9.mlp.fc2
+model.vision_model.encoder.layers.9.mlp.dropout1
+model.vision_model.encoder.layers.9.mlp.dropout2
+model.vision_model.encoder.layers.10
+model.vision_model.encoder.layers.10.layer_norm1
+model.vision_model.encoder.layers.10.self_attn
+model.vision_model.encoder.layers.10.self_attn.q_proj
+model.vision_model.encoder.layers.10.self_attn.k_proj
+model.vision_model.encoder.layers.10.self_attn.v_proj
+model.vision_model.encoder.layers.10.self_attn.projection_layer
+model.vision_model.encoder.layers.10.self_attn.projection_dropout
+model.vision_model.encoder.layers.10.self_attn.q_norm
+model.vision_model.encoder.layers.10.self_attn.k_norm
+model.vision_model.encoder.layers.10.layer_norm2
+model.vision_model.encoder.layers.10.mlp
+model.vision_model.encoder.layers.10.mlp.activation_fn
+model.vision_model.encoder.layers.10.mlp.fc1
+model.vision_model.encoder.layers.10.mlp.fc2
+model.vision_model.encoder.layers.10.mlp.dropout1
+model.vision_model.encoder.layers.10.mlp.dropout2
+model.vision_model.encoder.layers.11
+model.vision_model.encoder.layers.11.layer_norm1
+model.vision_model.encoder.layers.11.self_attn
+model.vision_model.encoder.layers.11.self_attn.q_proj
+model.vision_model.encoder.layers.11.self_attn.k_proj
+model.vision_model.encoder.layers.11.self_attn.v_proj
+model.vision_model.encoder.layers.11.self_attn.projection_layer
+model.vision_model.encoder.layers.11.self_attn.projection_dropout
+model.vision_model.encoder.layers.11.self_attn.q_norm
+model.vision_model.encoder.layers.11.self_attn.k_norm
+model.vision_model.encoder.layers.11.layer_norm2
+model.vision_model.encoder.layers.11.mlp
+model.vision_model.encoder.layers.11.mlp.activation_fn
+model.vision_model.encoder.layers.11.mlp.fc1
+model.vision_model.encoder.layers.11.mlp.fc2
+model.vision_model.encoder.layers.11.mlp.dropout1
+model.vision_model.encoder.layers.11.mlp.dropout2
+model.vision_model.encoder.layers.12
+model.vision_model.encoder.layers.12.layer_norm1
+model.vision_model.encoder.layers.12.self_attn
+model.vision_model.encoder.layers.12.self_attn.q_proj
+model.vision_model.encoder.layers.12.self_attn.k_proj
+model.vision_model.encoder.layers.12.self_attn.v_proj
+model.vision_model.encoder.layers.12.self_attn.projection_layer
+model.vision_model.encoder.layers.12.self_attn.projection_dropout
+model.vision_model.encoder.layers.12.self_attn.q_norm
+model.vision_model.encoder.layers.12.self_attn.k_norm
+model.vision_model.encoder.layers.12.layer_norm2
+model.vision_model.encoder.layers.12.mlp
+model.vision_model.encoder.layers.12.mlp.activation_fn
+model.vision_model.encoder.layers.12.mlp.fc1
+model.vision_model.encoder.layers.12.mlp.fc2
+model.vision_model.encoder.layers.12.mlp.dropout1
+model.vision_model.encoder.layers.12.mlp.dropout2
+model.vision_model.encoder.layers.13
+model.vision_model.encoder.layers.13.layer_norm1
+model.vision_model.encoder.layers.13.self_attn
+model.vision_model.encoder.layers.13.self_attn.q_proj
+model.vision_model.encoder.layers.13.self_attn.k_proj
+model.vision_model.encoder.layers.13.self_attn.v_proj
+model.vision_model.encoder.layers.13.self_attn.projection_layer
+model.vision_model.encoder.layers.13.self_attn.projection_dropout
+model.vision_model.encoder.layers.13.self_attn.q_norm
+model.vision_model.encoder.layers.13.self_attn.k_norm
+model.vision_model.encoder.layers.13.layer_norm2
+model.vision_model.encoder.layers.13.mlp
+model.vision_model.encoder.layers.13.mlp.activation_fn
+model.vision_model.encoder.layers.13.mlp.fc1
+model.vision_model.encoder.layers.13.mlp.fc2
+model.vision_model.encoder.layers.13.mlp.dropout1
+model.vision_model.encoder.layers.13.mlp.dropout2
+model.vision_model.encoder.layers.14
+model.vision_model.encoder.layers.14.layer_norm1
+model.vision_model.encoder.layers.14.self_attn
+model.vision_model.encoder.layers.14.self_attn.q_proj
+model.vision_model.encoder.layers.14.self_attn.k_proj
+model.vision_model.encoder.layers.14.self_attn.v_proj
+model.vision_model.encoder.layers.14.self_attn.projection_layer
+model.vision_model.encoder.layers.14.self_attn.projection_dropout
+model.vision_model.encoder.layers.14.self_attn.q_norm
+model.vision_model.encoder.layers.14.self_attn.k_norm
+model.vision_model.encoder.layers.14.layer_norm2
+model.vision_model.encoder.layers.14.mlp
+model.vision_model.encoder.layers.14.mlp.activation_fn
+model.vision_model.encoder.layers.14.mlp.fc1
+model.vision_model.encoder.layers.14.mlp.fc2
+model.vision_model.encoder.layers.14.mlp.dropout1
+model.vision_model.encoder.layers.14.mlp.dropout2
+model.vision_model.encoder.layers.15
+model.vision_model.encoder.layers.15.layer_norm1
+model.vision_model.encoder.layers.15.self_attn
+model.vision_model.encoder.layers.15.self_attn.q_proj
+model.vision_model.encoder.layers.15.self_attn.k_proj
+model.vision_model.encoder.layers.15.self_attn.v_proj
+model.vision_model.encoder.layers.15.self_attn.projection_layer
+model.vision_model.encoder.layers.15.self_attn.projection_dropout
+model.vision_model.encoder.layers.15.self_attn.q_norm
+model.vision_model.encoder.layers.15.self_attn.k_norm
+model.vision_model.encoder.layers.15.layer_norm2
+model.vision_model.encoder.layers.15.mlp
+model.vision_model.encoder.layers.15.mlp.activation_fn
+model.vision_model.encoder.layers.15.mlp.fc1
+model.vision_model.encoder.layers.15.mlp.fc2
+model.vision_model.encoder.layers.15.mlp.dropout1
+model.vision_model.encoder.layers.15.mlp.dropout2
+model.vision_model.encoder.layers.16
+model.vision_model.encoder.layers.16.layer_norm1
+model.vision_model.encoder.layers.16.self_attn
+model.vision_model.encoder.layers.16.self_attn.q_proj
+model.vision_model.encoder.layers.16.self_attn.k_proj
+model.vision_model.encoder.layers.16.self_attn.v_proj
+model.vision_model.encoder.layers.16.self_attn.projection_layer
+model.vision_model.encoder.layers.16.self_attn.projection_dropout
+model.vision_model.encoder.layers.16.self_attn.q_norm
+model.vision_model.encoder.layers.16.self_attn.k_norm
+model.vision_model.encoder.layers.16.layer_norm2
+model.vision_model.encoder.layers.16.mlp
+model.vision_model.encoder.layers.16.mlp.activation_fn
+model.vision_model.encoder.layers.16.mlp.fc1
+model.vision_model.encoder.layers.16.mlp.fc2
+model.vision_model.encoder.layers.16.mlp.dropout1
+model.vision_model.encoder.layers.16.mlp.dropout2
+model.vision_model.encoder.layers.17
+model.vision_model.encoder.layers.17.layer_norm1
+model.vision_model.encoder.layers.17.self_attn
+model.vision_model.encoder.layers.17.self_attn.q_proj
+model.vision_model.encoder.layers.17.self_attn.k_proj
+model.vision_model.encoder.layers.17.self_attn.v_proj
+model.vision_model.encoder.layers.17.self_attn.projection_layer
+model.vision_model.encoder.layers.17.self_attn.projection_dropout
+model.vision_model.encoder.layers.17.self_attn.q_norm
+model.vision_model.encoder.layers.17.self_attn.k_norm
+model.vision_model.encoder.layers.17.layer_norm2
+model.vision_model.encoder.layers.17.mlp
+model.vision_model.encoder.layers.17.mlp.activation_fn
+model.vision_model.encoder.layers.17.mlp.fc1
+model.vision_model.encoder.layers.17.mlp.fc2
+model.vision_model.encoder.layers.17.mlp.dropout1
+model.vision_model.encoder.layers.17.mlp.dropout2
+model.vision_model.encoder.layers.18
+model.vision_model.encoder.layers.18.layer_norm1
+model.vision_model.encoder.layers.18.self_attn
+model.vision_model.encoder.layers.18.self_attn.q_proj
+model.vision_model.encoder.layers.18.self_attn.k_proj
+model.vision_model.encoder.layers.18.self_attn.v_proj
+model.vision_model.encoder.layers.18.self_attn.projection_layer
+model.vision_model.encoder.layers.18.self_attn.projection_dropout
+model.vision_model.encoder.layers.18.self_attn.q_norm
+model.vision_model.encoder.layers.18.self_attn.k_norm
+model.vision_model.encoder.layers.18.layer_norm2
+model.vision_model.encoder.layers.18.mlp
+model.vision_model.encoder.layers.18.mlp.activation_fn
+model.vision_model.encoder.layers.18.mlp.fc1
+model.vision_model.encoder.layers.18.mlp.fc2
+model.vision_model.encoder.layers.18.mlp.dropout1
+model.vision_model.encoder.layers.18.mlp.dropout2
+model.vision_model.encoder.layers.19
+model.vision_model.encoder.layers.19.layer_norm1
+model.vision_model.encoder.layers.19.self_attn
+model.vision_model.encoder.layers.19.self_attn.q_proj
+model.vision_model.encoder.layers.19.self_attn.k_proj
+model.vision_model.encoder.layers.19.self_attn.v_proj
+model.vision_model.encoder.layers.19.self_attn.projection_layer
+model.vision_model.encoder.layers.19.self_attn.projection_dropout
+model.vision_model.encoder.layers.19.self_attn.q_norm
+model.vision_model.encoder.layers.19.self_attn.k_norm
+model.vision_model.encoder.layers.19.layer_norm2
+model.vision_model.encoder.layers.19.mlp
+model.vision_model.encoder.layers.19.mlp.activation_fn
+model.vision_model.encoder.layers.19.mlp.fc1
+model.vision_model.encoder.layers.19.mlp.fc2
+model.vision_model.encoder.layers.19.mlp.dropout1
+model.vision_model.encoder.layers.19.mlp.dropout2
+model.vision_model.encoder.layers.20
+model.vision_model.encoder.layers.20.layer_norm1
+model.vision_model.encoder.layers.20.self_attn
+model.vision_model.encoder.layers.20.self_attn.q_proj
+model.vision_model.encoder.layers.20.self_attn.k_proj
+model.vision_model.encoder.layers.20.self_attn.v_proj
+model.vision_model.encoder.layers.20.self_attn.projection_layer
+model.vision_model.encoder.layers.20.self_attn.projection_dropout
+model.vision_model.encoder.layers.20.self_attn.q_norm
+model.vision_model.encoder.layers.20.self_attn.k_norm
+model.vision_model.encoder.layers.20.layer_norm2
+model.vision_model.encoder.layers.20.mlp
+model.vision_model.encoder.layers.20.mlp.activation_fn
+model.vision_model.encoder.layers.20.mlp.fc1
+model.vision_model.encoder.layers.20.mlp.fc2
+model.vision_model.encoder.layers.20.mlp.dropout1
+model.vision_model.encoder.layers.20.mlp.dropout2
+model.vision_model.encoder.layers.21
+model.vision_model.encoder.layers.21.layer_norm1
+model.vision_model.encoder.layers.21.self_attn
+model.vision_model.encoder.layers.21.self_attn.q_proj
+model.vision_model.encoder.layers.21.self_attn.k_proj
+model.vision_model.encoder.layers.21.self_attn.v_proj
+model.vision_model.encoder.layers.21.self_attn.projection_layer
+model.vision_model.encoder.layers.21.self_attn.projection_dropout
+model.vision_model.encoder.layers.21.self_attn.q_norm
+model.vision_model.encoder.layers.21.self_attn.k_norm
+model.vision_model.encoder.layers.21.layer_norm2
+model.vision_model.encoder.layers.21.mlp
+model.vision_model.encoder.layers.21.mlp.activation_fn
+model.vision_model.encoder.layers.21.mlp.fc1
+model.vision_model.encoder.layers.21.mlp.fc2
+model.vision_model.encoder.layers.21.mlp.dropout1
+model.vision_model.encoder.layers.21.mlp.dropout2
+model.vision_model.encoder.layers.22
+model.vision_model.encoder.layers.22.layer_norm1
+model.vision_model.encoder.layers.22.self_attn
+model.vision_model.encoder.layers.22.self_attn.q_proj
+model.vision_model.encoder.layers.22.self_attn.k_proj
+model.vision_model.encoder.layers.22.self_attn.v_proj
+model.vision_model.encoder.layers.22.self_attn.projection_layer
+model.vision_model.encoder.layers.22.self_attn.projection_dropout
+model.vision_model.encoder.layers.22.self_attn.q_norm
+model.vision_model.encoder.layers.22.self_attn.k_norm
+model.vision_model.encoder.layers.22.layer_norm2
+model.vision_model.encoder.layers.22.mlp
+model.vision_model.encoder.layers.22.mlp.activation_fn
+model.vision_model.encoder.layers.22.mlp.fc1
+model.vision_model.encoder.layers.22.mlp.fc2
+model.vision_model.encoder.layers.22.mlp.dropout1
+model.vision_model.encoder.layers.22.mlp.dropout2
+model.vision_model.encoder.layers.23
+model.vision_model.encoder.layers.23.layer_norm1
+model.vision_model.encoder.layers.23.self_attn
+model.vision_model.encoder.layers.23.self_attn.q_proj
+model.vision_model.encoder.layers.23.self_attn.k_proj
+model.vision_model.encoder.layers.23.self_attn.v_proj
+model.vision_model.encoder.layers.23.self_attn.projection_layer
+model.vision_model.encoder.layers.23.self_attn.projection_dropout
+model.vision_model.encoder.layers.23.self_attn.q_norm
+model.vision_model.encoder.layers.23.self_attn.k_norm
+model.vision_model.encoder.layers.23.layer_norm2
+model.vision_model.encoder.layers.23.mlp
+model.vision_model.encoder.layers.23.mlp.activation_fn
+model.vision_model.encoder.layers.23.mlp.fc1
+model.vision_model.encoder.layers.23.mlp.fc2
+model.vision_model.encoder.layers.23.mlp.dropout1
+model.vision_model.encoder.layers.23.mlp.dropout2
+model.vision_model.post_layernorm
+model.aligner
+model.aligner.fc1
+model.aligner.hidden_layers
+model.aligner.hidden_layers.0
+model.aligner.activation_fn
+model.vqmodel
+model.vqmodel.encoder
+model.vqmodel.encoder.conv_in
+model.vqmodel.encoder.down
+model.vqmodel.encoder.down.0
+model.vqmodel.encoder.down.0.block
+model.vqmodel.encoder.down.0.block.0
+model.vqmodel.encoder.down.0.block.0.norm1
+model.vqmodel.encoder.down.0.block.0.conv1
+model.vqmodel.encoder.down.0.block.0.norm2
+model.vqmodel.encoder.down.0.block.0.dropout
+model.vqmodel.encoder.down.0.block.0.conv2
+model.vqmodel.encoder.down.0.block.1
+model.vqmodel.encoder.down.0.block.1.norm1
+model.vqmodel.encoder.down.0.block.1.conv1
+model.vqmodel.encoder.down.0.block.1.norm2
+model.vqmodel.encoder.down.0.block.1.dropout
+model.vqmodel.encoder.down.0.block.1.conv2
+model.vqmodel.encoder.down.0.attn
+model.vqmodel.encoder.down.0.downsample
+model.vqmodel.encoder.down.0.downsample.conv
+model.vqmodel.encoder.down.1
+model.vqmodel.encoder.down.1.block
+model.vqmodel.encoder.down.1.block.0
+model.vqmodel.encoder.down.1.block.0.norm1
+model.vqmodel.encoder.down.1.block.0.conv1
+model.vqmodel.encoder.down.1.block.0.norm2
+model.vqmodel.encoder.down.1.block.0.dropout
+model.vqmodel.encoder.down.1.block.0.conv2
+model.vqmodel.encoder.down.1.block.1
+model.vqmodel.encoder.down.1.block.1.norm1
+model.vqmodel.encoder.down.1.block.1.conv1
+model.vqmodel.encoder.down.1.block.1.norm2
+model.vqmodel.encoder.down.1.block.1.dropout
+model.vqmodel.encoder.down.1.block.1.conv2
+model.vqmodel.encoder.down.1.attn
+model.vqmodel.encoder.down.1.downsample
+model.vqmodel.encoder.down.1.downsample.conv
+model.vqmodel.encoder.down.2
+model.vqmodel.encoder.down.2.block
+model.vqmodel.encoder.down.2.block.0
+model.vqmodel.encoder.down.2.block.0.norm1
+model.vqmodel.encoder.down.2.block.0.conv1
+model.vqmodel.encoder.down.2.block.0.norm2
+model.vqmodel.encoder.down.2.block.0.dropout
+model.vqmodel.encoder.down.2.block.0.conv2
+model.vqmodel.encoder.down.2.block.0.nin_shortcut
+model.vqmodel.encoder.down.2.block.1
+model.vqmodel.encoder.down.2.block.1.norm1
+model.vqmodel.encoder.down.2.block.1.conv1
+model.vqmodel.encoder.down.2.block.1.norm2
+model.vqmodel.encoder.down.2.block.1.dropout
+model.vqmodel.encoder.down.2.block.1.conv2
+model.vqmodel.encoder.down.2.attn
+model.vqmodel.encoder.down.2.downsample
+model.vqmodel.encoder.down.2.downsample.conv
+model.vqmodel.encoder.down.3
+model.vqmodel.encoder.down.3.block
+model.vqmodel.encoder.down.3.block.0
+model.vqmodel.encoder.down.3.block.0.norm1
+model.vqmodel.encoder.down.3.block.0.conv1
+model.vqmodel.encoder.down.3.block.0.norm2
+model.vqmodel.encoder.down.3.block.0.dropout
+model.vqmodel.encoder.down.3.block.0.conv2
+model.vqmodel.encoder.down.3.block.1
+model.vqmodel.encoder.down.3.block.1.norm1
+model.vqmodel.encoder.down.3.block.1.conv1
+model.vqmodel.encoder.down.3.block.1.norm2
+model.vqmodel.encoder.down.3.block.1.dropout
+model.vqmodel.encoder.down.3.block.1.conv2
+model.vqmodel.encoder.down.3.attn
+model.vqmodel.encoder.down.3.downsample
+model.vqmodel.encoder.down.3.downsample.conv
+model.vqmodel.encoder.down.4
+model.vqmodel.encoder.down.4.block
+model.vqmodel.encoder.down.4.block.0
+model.vqmodel.encoder.down.4.block.0.norm1
+model.vqmodel.encoder.down.4.block.0.conv1
+model.vqmodel.encoder.down.4.block.0.norm2
+model.vqmodel.encoder.down.4.block.0.dropout
+model.vqmodel.encoder.down.4.block.0.conv2
+model.vqmodel.encoder.down.4.block.0.nin_shortcut
+model.vqmodel.encoder.down.4.block.1
+model.vqmodel.encoder.down.4.block.1.norm1
+model.vqmodel.encoder.down.4.block.1.conv1
+model.vqmodel.encoder.down.4.block.1.norm2
+model.vqmodel.encoder.down.4.block.1.dropout
+model.vqmodel.encoder.down.4.block.1.conv2
+model.vqmodel.encoder.down.4.attn
+model.vqmodel.encoder.down.4.attn.0
+model.vqmodel.encoder.down.4.attn.0.norm
+model.vqmodel.encoder.down.4.attn.0.q
+model.vqmodel.encoder.down.4.attn.0.k
+model.vqmodel.encoder.down.4.attn.0.v
+model.vqmodel.encoder.down.4.attn.0.proj_out
+model.vqmodel.encoder.down.4.attn.1
+model.vqmodel.encoder.down.4.attn.1.norm
+model.vqmodel.encoder.down.4.attn.1.q
+model.vqmodel.encoder.down.4.attn.1.k
+model.vqmodel.encoder.down.4.attn.1.v
+model.vqmodel.encoder.down.4.attn.1.proj_out
+model.vqmodel.encoder.mid
+model.vqmodel.encoder.mid.block_1
+model.vqmodel.encoder.mid.block_1.norm1
+model.vqmodel.encoder.mid.block_1.conv1
+model.vqmodel.encoder.mid.block_1.norm2
+model.vqmodel.encoder.mid.block_1.dropout
+model.vqmodel.encoder.mid.block_1.conv2
+model.vqmodel.encoder.mid.attn_1
+model.vqmodel.encoder.mid.attn_1.norm
+model.vqmodel.encoder.mid.attn_1.q
+model.vqmodel.encoder.mid.attn_1.k
+model.vqmodel.encoder.mid.attn_1.v
+model.vqmodel.encoder.mid.attn_1.proj_out
+model.vqmodel.encoder.mid.block_2
+model.vqmodel.encoder.mid.block_2.norm1
+model.vqmodel.encoder.mid.block_2.conv1
+model.vqmodel.encoder.mid.block_2.norm2
+model.vqmodel.encoder.mid.block_2.dropout
+model.vqmodel.encoder.mid.block_2.conv2
+model.vqmodel.encoder.norm_out
+model.vqmodel.encoder.conv_out
+model.vqmodel.quantize
+model.vqmodel.quantize.embedding
+model.vqmodel.quant_conv
+model.vqmodel.post_quant_conv
+model.vqmodel.decoder
+model.vqmodel.decoder.conv_in
+model.vqmodel.decoder.mid
+model.vqmodel.decoder.mid.block_1
+model.vqmodel.decoder.mid.block_1.norm1
+model.vqmodel.decoder.mid.block_1.conv1
+model.vqmodel.decoder.mid.block_1.norm2
+model.vqmodel.decoder.mid.block_1.dropout
+model.vqmodel.decoder.mid.block_1.conv2
+model.vqmodel.decoder.mid.attn_1
+model.vqmodel.decoder.mid.attn_1.norm
+model.vqmodel.decoder.mid.attn_1.q
+model.vqmodel.decoder.mid.attn_1.k
+model.vqmodel.decoder.mid.attn_1.v
+model.vqmodel.decoder.mid.attn_1.proj_out
+model.vqmodel.decoder.mid.block_2
+model.vqmodel.decoder.mid.block_2.norm1
+model.vqmodel.decoder.mid.block_2.conv1
+model.vqmodel.decoder.mid.block_2.norm2
+model.vqmodel.decoder.mid.block_2.dropout
+model.vqmodel.decoder.mid.block_2.conv2
+model.vqmodel.decoder.up
+model.vqmodel.decoder.up.0
+model.vqmodel.decoder.up.0.block
+model.vqmodel.decoder.up.0.block.0
+model.vqmodel.decoder.up.0.block.0.norm1
+model.vqmodel.decoder.up.0.block.0.conv1
+model.vqmodel.decoder.up.0.block.0.norm2
+model.vqmodel.decoder.up.0.block.0.dropout
+model.vqmodel.decoder.up.0.block.0.conv2
+model.vqmodel.decoder.up.0.block.1
+model.vqmodel.decoder.up.0.block.1.norm1
+model.vqmodel.decoder.up.0.block.1.conv1
+model.vqmodel.decoder.up.0.block.1.norm2
+model.vqmodel.decoder.up.0.block.1.dropout
+model.vqmodel.decoder.up.0.block.1.conv2
+model.vqmodel.decoder.up.0.block.2
+model.vqmodel.decoder.up.0.block.2.norm1
+model.vqmodel.decoder.up.0.block.2.conv1
+model.vqmodel.decoder.up.0.block.2.norm2
+model.vqmodel.decoder.up.0.block.2.dropout
+model.vqmodel.decoder.up.0.block.2.conv2
+model.vqmodel.decoder.up.0.attn
+model.vqmodel.decoder.up.0.attn.0
+model.vqmodel.decoder.up.0.attn.0.norm
+model.vqmodel.decoder.up.0.attn.0.q
+model.vqmodel.decoder.up.0.attn.0.k
+model.vqmodel.decoder.up.0.attn.0.v
+model.vqmodel.decoder.up.0.attn.0.proj_out
+model.vqmodel.decoder.up.0.attn.1
+model.vqmodel.decoder.up.0.attn.1.norm
+model.vqmodel.decoder.up.0.attn.1.q
+model.vqmodel.decoder.up.0.attn.1.k
+model.vqmodel.decoder.up.0.attn.1.v
+model.vqmodel.decoder.up.0.attn.1.proj_out
+model.vqmodel.decoder.up.0.attn.2
+model.vqmodel.decoder.up.0.attn.2.norm
+model.vqmodel.decoder.up.0.attn.2.q
+model.vqmodel.decoder.up.0.attn.2.k
+model.vqmodel.decoder.up.0.attn.2.v
+model.vqmodel.decoder.up.0.attn.2.proj_out
+model.vqmodel.decoder.up.0.upsample
+model.vqmodel.decoder.up.0.upsample.conv
+model.vqmodel.decoder.up.1
+model.vqmodel.decoder.up.1.block
+model.vqmodel.decoder.up.1.block.0
+model.vqmodel.decoder.up.1.block.0.norm1
+model.vqmodel.decoder.up.1.block.0.conv1
+model.vqmodel.decoder.up.1.block.0.norm2
+model.vqmodel.decoder.up.1.block.0.dropout
+model.vqmodel.decoder.up.1.block.0.conv2
+model.vqmodel.decoder.up.1.block.0.nin_shortcut
+model.vqmodel.decoder.up.1.block.1
+model.vqmodel.decoder.up.1.block.1.norm1
+model.vqmodel.decoder.up.1.block.1.conv1
+model.vqmodel.decoder.up.1.block.1.norm2
+model.vqmodel.decoder.up.1.block.1.dropout
+model.vqmodel.decoder.up.1.block.1.conv2
+model.vqmodel.decoder.up.1.block.2
+model.vqmodel.decoder.up.1.block.2.norm1
+model.vqmodel.decoder.up.1.block.2.conv1
+model.vqmodel.decoder.up.1.block.2.norm2
+model.vqmodel.decoder.up.1.block.2.dropout
+model.vqmodel.decoder.up.1.block.2.conv2
+model.vqmodel.decoder.up.1.attn
+model.vqmodel.decoder.up.1.upsample
+model.vqmodel.decoder.up.1.upsample.conv
+model.vqmodel.decoder.up.2
+model.vqmodel.decoder.up.2.block
+model.vqmodel.decoder.up.2.block.0
+model.vqmodel.decoder.up.2.block.0.norm1
+model.vqmodel.decoder.up.2.block.0.conv1
+model.vqmodel.decoder.up.2.block.0.norm2
+model.vqmodel.decoder.up.2.block.0.dropout
+model.vqmodel.decoder.up.2.block.0.conv2
+model.vqmodel.decoder.up.2.block.1
+model.vqmodel.decoder.up.2.block.1.norm1
+model.vqmodel.decoder.up.2.block.1.conv1
+model.vqmodel.decoder.up.2.block.1.norm2
+model.vqmodel.decoder.up.2.block.1.dropout
+model.vqmodel.decoder.up.2.block.1.conv2
+model.vqmodel.decoder.up.2.block.2
+model.vqmodel.decoder.up.2.block.2.norm1
+model.vqmodel.decoder.up.2.block.2.conv1
+model.vqmodel.decoder.up.2.block.2.norm2
+model.vqmodel.decoder.up.2.block.2.dropout
+model.vqmodel.decoder.up.2.block.2.conv2
+model.vqmodel.decoder.up.2.attn
+model.vqmodel.decoder.up.2.upsample
+model.vqmodel.decoder.up.2.upsample.conv
+model.vqmodel.decoder.up.3
+model.vqmodel.decoder.up.3.block
+model.vqmodel.decoder.up.3.block.0
+model.vqmodel.decoder.up.3.block.0.norm1
+model.vqmodel.decoder.up.3.block.0.conv1
+model.vqmodel.decoder.up.3.block.0.norm2
+model.vqmodel.decoder.up.3.block.0.dropout
+model.vqmodel.decoder.up.3.block.0.conv2
+model.vqmodel.decoder.up.3.block.0.nin_shortcut
+model.vqmodel.decoder.up.3.block.1
+model.vqmodel.decoder.up.3.block.1.norm1
+model.vqmodel.decoder.up.3.block.1.conv1
+model.vqmodel.decoder.up.3.block.1.norm2
+model.vqmodel.decoder.up.3.block.1.dropout
+model.vqmodel.decoder.up.3.block.1.conv2
+model.vqmodel.decoder.up.3.block.2
+model.vqmodel.decoder.up.3.block.2.norm1
+model.vqmodel.decoder.up.3.block.2.conv1
+model.vqmodel.decoder.up.3.block.2.norm2
+model.vqmodel.decoder.up.3.block.2.dropout
+model.vqmodel.decoder.up.3.block.2.conv2
+model.vqmodel.decoder.up.3.attn
+model.vqmodel.decoder.up.3.upsample
+model.vqmodel.decoder.up.3.upsample.conv
+model.vqmodel.decoder.up.4
+model.vqmodel.decoder.up.4.block
+model.vqmodel.decoder.up.4.block.0
+model.vqmodel.decoder.up.4.block.0.norm1
+model.vqmodel.decoder.up.4.block.0.conv1
+model.vqmodel.decoder.up.4.block.0.norm2
+model.vqmodel.decoder.up.4.block.0.dropout
+model.vqmodel.decoder.up.4.block.0.conv2
+model.vqmodel.decoder.up.4.block.1
+model.vqmodel.decoder.up.4.block.1.norm1
+model.vqmodel.decoder.up.4.block.1.conv1
+model.vqmodel.decoder.up.4.block.1.norm2
+model.vqmodel.decoder.up.4.block.1.dropout
+model.vqmodel.decoder.up.4.block.1.conv2
+model.vqmodel.decoder.up.4.block.2
+model.vqmodel.decoder.up.4.block.2.norm1
+model.vqmodel.decoder.up.4.block.2.conv1
+model.vqmodel.decoder.up.4.block.2.norm2
+model.vqmodel.decoder.up.4.block.2.dropout
+model.vqmodel.decoder.up.4.block.2.conv2
+model.vqmodel.decoder.up.4.attn
+model.vqmodel.decoder.norm_out
+model.vqmodel.decoder.conv_out
+model.generation_embeddings
+model.generation_aligner
+model.generation_aligner.fc1
+model.generation_aligner.hidden_layers
+model.generation_aligner.hidden_layers.0
+model.generation_aligner.activation_fn
+model.generation_head
+model.generation_head.proj_out
+model.generation_head.activation_fn
+model.generation_head.vision_head
+model.language_model
+model.language_model.embed_tokens
+model.language_model.layers
+model.language_model.layers.0
+model.language_model.layers.0.self_attn
+model.language_model.layers.0.self_attn.q_proj
+model.language_model.layers.0.self_attn.k_proj
+model.language_model.layers.0.self_attn.v_proj
+model.language_model.layers.0.self_attn.o_proj
+model.language_model.layers.0.mlp
+model.language_model.layers.0.mlp.gate_proj
+model.language_model.layers.0.mlp.up_proj
+model.language_model.layers.0.mlp.down_proj
+model.language_model.layers.0.mlp.act_fn
+model.language_model.layers.0.input_layernorm
+model.language_model.layers.0.post_attention_layernorm
+model.language_model.layers.1
+model.language_model.layers.1.self_attn
+model.language_model.layers.1.self_attn.q_proj
+model.language_model.layers.1.self_attn.k_proj
+model.language_model.layers.1.self_attn.v_proj
+model.language_model.layers.1.self_attn.o_proj
+model.language_model.layers.1.mlp
+model.language_model.layers.1.mlp.gate_proj
+model.language_model.layers.1.mlp.up_proj
+model.language_model.layers.1.mlp.down_proj
+model.language_model.layers.1.mlp.act_fn
+model.language_model.layers.1.input_layernorm
+model.language_model.layers.1.post_attention_layernorm
+model.language_model.layers.2
+model.language_model.layers.2.self_attn
+model.language_model.layers.2.self_attn.q_proj
+model.language_model.layers.2.self_attn.k_proj
+model.language_model.layers.2.self_attn.v_proj
+model.language_model.layers.2.self_attn.o_proj
+model.language_model.layers.2.mlp
+model.language_model.layers.2.mlp.gate_proj
+model.language_model.layers.2.mlp.up_proj
+model.language_model.layers.2.mlp.down_proj
+model.language_model.layers.2.mlp.act_fn
+model.language_model.layers.2.input_layernorm
+model.language_model.layers.2.post_attention_layernorm
+model.language_model.layers.3
+model.language_model.layers.3.self_attn
+model.language_model.layers.3.self_attn.q_proj
+model.language_model.layers.3.self_attn.k_proj
+model.language_model.layers.3.self_attn.v_proj
+model.language_model.layers.3.self_attn.o_proj
+model.language_model.layers.3.mlp
+model.language_model.layers.3.mlp.gate_proj
+model.language_model.layers.3.mlp.up_proj
+model.language_model.layers.3.mlp.down_proj
+model.language_model.layers.3.mlp.act_fn
+model.language_model.layers.3.input_layernorm
+model.language_model.layers.3.post_attention_layernorm
+model.language_model.layers.4
+model.language_model.layers.4.self_attn
+model.language_model.layers.4.self_attn.q_proj
+model.language_model.layers.4.self_attn.k_proj
+model.language_model.layers.4.self_attn.v_proj
+model.language_model.layers.4.self_attn.o_proj
+model.language_model.layers.4.mlp
+model.language_model.layers.4.mlp.gate_proj
+model.language_model.layers.4.mlp.up_proj
+model.language_model.layers.4.mlp.down_proj
+model.language_model.layers.4.mlp.act_fn
+model.language_model.layers.4.input_layernorm
+model.language_model.layers.4.post_attention_layernorm
+model.language_model.layers.5
+model.language_model.layers.5.self_attn
+model.language_model.layers.5.self_attn.q_proj
+model.language_model.layers.5.self_attn.k_proj
+model.language_model.layers.5.self_attn.v_proj
+model.language_model.layers.5.self_attn.o_proj
+model.language_model.layers.5.mlp
+model.language_model.layers.5.mlp.gate_proj
+model.language_model.layers.5.mlp.up_proj
+model.language_model.layers.5.mlp.down_proj
+model.language_model.layers.5.mlp.act_fn
+model.language_model.layers.5.input_layernorm
+model.language_model.layers.5.post_attention_layernorm
+model.language_model.layers.6
+model.language_model.layers.6.self_attn
+model.language_model.layers.6.self_attn.q_proj
+model.language_model.layers.6.self_attn.k_proj
+model.language_model.layers.6.self_attn.v_proj
+model.language_model.layers.6.self_attn.o_proj
+model.language_model.layers.6.mlp
+model.language_model.layers.6.mlp.gate_proj
+model.language_model.layers.6.mlp.up_proj
+model.language_model.layers.6.mlp.down_proj
+model.language_model.layers.6.mlp.act_fn
+model.language_model.layers.6.input_layernorm
+model.language_model.layers.6.post_attention_layernorm
+model.language_model.layers.7
+model.language_model.layers.7.self_attn
+model.language_model.layers.7.self_attn.q_proj
+model.language_model.layers.7.self_attn.k_proj
+model.language_model.layers.7.self_attn.v_proj
+model.language_model.layers.7.self_attn.o_proj
+model.language_model.layers.7.mlp
+model.language_model.layers.7.mlp.gate_proj
+model.language_model.layers.7.mlp.up_proj
+model.language_model.layers.7.mlp.down_proj
+model.language_model.layers.7.mlp.act_fn
+model.language_model.layers.7.input_layernorm
+model.language_model.layers.7.post_attention_layernorm
+model.language_model.layers.8
+model.language_model.layers.8.self_attn
+model.language_model.layers.8.self_attn.q_proj
+model.language_model.layers.8.self_attn.k_proj
+model.language_model.layers.8.self_attn.v_proj
+model.language_model.layers.8.self_attn.o_proj
+model.language_model.layers.8.mlp
+model.language_model.layers.8.mlp.gate_proj
+model.language_model.layers.8.mlp.up_proj
+model.language_model.layers.8.mlp.down_proj
+model.language_model.layers.8.mlp.act_fn
+model.language_model.layers.8.input_layernorm
+model.language_model.layers.8.post_attention_layernorm
+model.language_model.layers.9
+model.language_model.layers.9.self_attn
+model.language_model.layers.9.self_attn.q_proj
+model.language_model.layers.9.self_attn.k_proj
+model.language_model.layers.9.self_attn.v_proj
+model.language_model.layers.9.self_attn.o_proj
+model.language_model.layers.9.mlp
+model.language_model.layers.9.mlp.gate_proj
+model.language_model.layers.9.mlp.up_proj
+model.language_model.layers.9.mlp.down_proj
+model.language_model.layers.9.mlp.act_fn
+model.language_model.layers.9.input_layernorm
+model.language_model.layers.9.post_attention_layernorm
+model.language_model.layers.10
+model.language_model.layers.10.self_attn
+model.language_model.layers.10.self_attn.q_proj
+model.language_model.layers.10.self_attn.k_proj
+model.language_model.layers.10.self_attn.v_proj
+model.language_model.layers.10.self_attn.o_proj
+model.language_model.layers.10.mlp
+model.language_model.layers.10.mlp.gate_proj
+model.language_model.layers.10.mlp.up_proj
+model.language_model.layers.10.mlp.down_proj
+model.language_model.layers.10.mlp.act_fn
+model.language_model.layers.10.input_layernorm
+model.language_model.layers.10.post_attention_layernorm
+model.language_model.layers.11
+model.language_model.layers.11.self_attn
+model.language_model.layers.11.self_attn.q_proj
+model.language_model.layers.11.self_attn.k_proj
+model.language_model.layers.11.self_attn.v_proj
+model.language_model.layers.11.self_attn.o_proj
+model.language_model.layers.11.mlp
+model.language_model.layers.11.mlp.gate_proj
+model.language_model.layers.11.mlp.up_proj
+model.language_model.layers.11.mlp.down_proj
+model.language_model.layers.11.mlp.act_fn
+model.language_model.layers.11.input_layernorm
+model.language_model.layers.11.post_attention_layernorm
+model.language_model.layers.12
+model.language_model.layers.12.self_attn
+model.language_model.layers.12.self_attn.q_proj
+model.language_model.layers.12.self_attn.k_proj
+model.language_model.layers.12.self_attn.v_proj
+model.language_model.layers.12.self_attn.o_proj
+model.language_model.layers.12.mlp
+model.language_model.layers.12.mlp.gate_proj
+model.language_model.layers.12.mlp.up_proj
+model.language_model.layers.12.mlp.down_proj
+model.language_model.layers.12.mlp.act_fn
+model.language_model.layers.12.input_layernorm
+model.language_model.layers.12.post_attention_layernorm
+model.language_model.layers.13
+model.language_model.layers.13.self_attn
+model.language_model.layers.13.self_attn.q_proj
+model.language_model.layers.13.self_attn.k_proj
+model.language_model.layers.13.self_attn.v_proj
+model.language_model.layers.13.self_attn.o_proj
+model.language_model.layers.13.mlp
+model.language_model.layers.13.mlp.gate_proj
+model.language_model.layers.13.mlp.up_proj
+model.language_model.layers.13.mlp.down_proj
+model.language_model.layers.13.mlp.act_fn
+model.language_model.layers.13.input_layernorm
+model.language_model.layers.13.post_attention_layernorm
+model.language_model.layers.14
+model.language_model.layers.14.self_attn
+model.language_model.layers.14.self_attn.q_proj
+model.language_model.layers.14.self_attn.k_proj
+model.language_model.layers.14.self_attn.v_proj
+model.language_model.layers.14.self_attn.o_proj
+model.language_model.layers.14.mlp
+model.language_model.layers.14.mlp.gate_proj
+model.language_model.layers.14.mlp.up_proj
+model.language_model.layers.14.mlp.down_proj
+model.language_model.layers.14.mlp.act_fn
+model.language_model.layers.14.input_layernorm
+model.language_model.layers.14.post_attention_layernorm
+model.language_model.layers.15
+model.language_model.layers.15.self_attn
+model.language_model.layers.15.self_attn.q_proj
+model.language_model.layers.15.self_attn.k_proj
+model.language_model.layers.15.self_attn.v_proj
+model.language_model.layers.15.self_attn.o_proj
+model.language_model.layers.15.mlp
+model.language_model.layers.15.mlp.gate_proj
+model.language_model.layers.15.mlp.up_proj
+model.language_model.layers.15.mlp.down_proj
+model.language_model.layers.15.mlp.act_fn
+model.language_model.layers.15.input_layernorm
+model.language_model.layers.15.post_attention_layernorm
+model.language_model.layers.16
+model.language_model.layers.16.self_attn
+model.language_model.layers.16.self_attn.q_proj
+model.language_model.layers.16.self_attn.k_proj
+model.language_model.layers.16.self_attn.v_proj
+model.language_model.layers.16.self_attn.o_proj
+model.language_model.layers.16.mlp
+model.language_model.layers.16.mlp.gate_proj
+model.language_model.layers.16.mlp.up_proj
+model.language_model.layers.16.mlp.down_proj
+model.language_model.layers.16.mlp.act_fn
+model.language_model.layers.16.input_layernorm
+model.language_model.layers.16.post_attention_layernorm
+model.language_model.layers.17
+model.language_model.layers.17.self_attn
+model.language_model.layers.17.self_attn.q_proj
+model.language_model.layers.17.self_attn.k_proj
+model.language_model.layers.17.self_attn.v_proj
+model.language_model.layers.17.self_attn.o_proj
+model.language_model.layers.17.mlp
+model.language_model.layers.17.mlp.gate_proj
+model.language_model.layers.17.mlp.up_proj
+model.language_model.layers.17.mlp.down_proj
+model.language_model.layers.17.mlp.act_fn
+model.language_model.layers.17.input_layernorm
+model.language_model.layers.17.post_attention_layernorm
+model.language_model.layers.18
+model.language_model.layers.18.self_attn
+model.language_model.layers.18.self_attn.q_proj
+model.language_model.layers.18.self_attn.k_proj
+model.language_model.layers.18.self_attn.v_proj
+model.language_model.layers.18.self_attn.o_proj
+model.language_model.layers.18.mlp
+model.language_model.layers.18.mlp.gate_proj
+model.language_model.layers.18.mlp.up_proj
+model.language_model.layers.18.mlp.down_proj
+model.language_model.layers.18.mlp.act_fn
+model.language_model.layers.18.input_layernorm
+model.language_model.layers.18.post_attention_layernorm
+model.language_model.layers.19
+model.language_model.layers.19.self_attn
+model.language_model.layers.19.self_attn.q_proj
+model.language_model.layers.19.self_attn.k_proj
+model.language_model.layers.19.self_attn.v_proj
+model.language_model.layers.19.self_attn.o_proj
+model.language_model.layers.19.mlp
+model.language_model.layers.19.mlp.gate_proj
+model.language_model.layers.19.mlp.up_proj
+model.language_model.layers.19.mlp.down_proj
+model.language_model.layers.19.mlp.act_fn
+model.language_model.layers.19.input_layernorm
+model.language_model.layers.19.post_attention_layernorm
+model.language_model.layers.20
+model.language_model.layers.20.self_attn
+model.language_model.layers.20.self_attn.q_proj
+model.language_model.layers.20.self_attn.k_proj
+model.language_model.layers.20.self_attn.v_proj
+model.language_model.layers.20.self_attn.o_proj
+model.language_model.layers.20.mlp
+model.language_model.layers.20.mlp.gate_proj
+model.language_model.layers.20.mlp.up_proj
+model.language_model.layers.20.mlp.down_proj
+model.language_model.layers.20.mlp.act_fn
+model.language_model.layers.20.input_layernorm
+model.language_model.layers.20.post_attention_layernorm
+model.language_model.layers.21
+model.language_model.layers.21.self_attn
+model.language_model.layers.21.self_attn.q_proj
+model.language_model.layers.21.self_attn.k_proj
+model.language_model.layers.21.self_attn.v_proj
+model.language_model.layers.21.self_attn.o_proj
+model.language_model.layers.21.mlp
+model.language_model.layers.21.mlp.gate_proj
+model.language_model.layers.21.mlp.up_proj
+model.language_model.layers.21.mlp.down_proj
+model.language_model.layers.21.mlp.act_fn
+model.language_model.layers.21.input_layernorm
+model.language_model.layers.21.post_attention_layernorm
+model.language_model.layers.22
+model.language_model.layers.22.self_attn
+model.language_model.layers.22.self_attn.q_proj
+model.language_model.layers.22.self_attn.k_proj
+model.language_model.layers.22.self_attn.v_proj
+model.language_model.layers.22.self_attn.o_proj
+model.language_model.layers.22.mlp
+model.language_model.layers.22.mlp.gate_proj
+model.language_model.layers.22.mlp.up_proj
+model.language_model.layers.22.mlp.down_proj
+model.language_model.layers.22.mlp.act_fn
+model.language_model.layers.22.input_layernorm
+model.language_model.layers.22.post_attention_layernorm
+model.language_model.layers.23
+model.language_model.layers.23.self_attn
+model.language_model.layers.23.self_attn.q_proj
+model.language_model.layers.23.self_attn.k_proj
+model.language_model.layers.23.self_attn.v_proj
+model.language_model.layers.23.self_attn.o_proj
+model.language_model.layers.23.mlp
+model.language_model.layers.23.mlp.gate_proj
+model.language_model.layers.23.mlp.up_proj
+model.language_model.layers.23.mlp.down_proj
+model.language_model.layers.23.mlp.act_fn
+model.language_model.layers.23.input_layernorm
+model.language_model.layers.23.post_attention_layernorm
+model.language_model.norm
+model.language_model.rotary_emb
+lm_head

logs/facebook/Perception-LM-1B.txt ADDED Viewed

	@@ -0,0 +1,694 @@

+model
+model.vision_tower
+model.vision_tower.timm_model
+model.vision_tower.timm_model.patch_embed
+model.vision_tower.timm_model.patch_embed.proj
+model.vision_tower.timm_model.patch_embed.norm
+model.vision_tower.timm_model.pos_drop
+model.vision_tower.timm_model.rope
+model.vision_tower.timm_model.norm_pre
+model.vision_tower.timm_model.blocks
+model.vision_tower.timm_model.blocks.0
+model.vision_tower.timm_model.blocks.0.norm1
+model.vision_tower.timm_model.blocks.0.attn
+model.vision_tower.timm_model.blocks.0.attn.qkv
+model.vision_tower.timm_model.blocks.0.attn.q_norm
+model.vision_tower.timm_model.blocks.0.attn.k_norm
+model.vision_tower.timm_model.blocks.0.attn.attn_drop
+model.vision_tower.timm_model.blocks.0.attn.norm
+model.vision_tower.timm_model.blocks.0.attn.proj
+model.vision_tower.timm_model.blocks.0.attn.proj_drop
+model.vision_tower.timm_model.blocks.0.drop_path1
+model.vision_tower.timm_model.blocks.0.norm2
+model.vision_tower.timm_model.blocks.0.mlp
+model.vision_tower.timm_model.blocks.0.mlp.fc1
+model.vision_tower.timm_model.blocks.0.mlp.act
+model.vision_tower.timm_model.blocks.0.mlp.drop1
+model.vision_tower.timm_model.blocks.0.mlp.norm
+model.vision_tower.timm_model.blocks.0.mlp.fc2
+model.vision_tower.timm_model.blocks.0.mlp.drop2
+model.vision_tower.timm_model.blocks.0.drop_path2
+model.vision_tower.timm_model.blocks.1
+model.vision_tower.timm_model.blocks.1.norm1
+model.vision_tower.timm_model.blocks.1.attn
+model.vision_tower.timm_model.blocks.1.attn.qkv
+model.vision_tower.timm_model.blocks.1.attn.q_norm
+model.vision_tower.timm_model.blocks.1.attn.k_norm
+model.vision_tower.timm_model.blocks.1.attn.attn_drop
+model.vision_tower.timm_model.blocks.1.attn.norm
+model.vision_tower.timm_model.blocks.1.attn.proj
+model.vision_tower.timm_model.blocks.1.attn.proj_drop
+model.vision_tower.timm_model.blocks.1.drop_path1
+model.vision_tower.timm_model.blocks.1.norm2
+model.vision_tower.timm_model.blocks.1.mlp
+model.vision_tower.timm_model.blocks.1.mlp.fc1
+model.vision_tower.timm_model.blocks.1.mlp.act
+model.vision_tower.timm_model.blocks.1.mlp.drop1
+model.vision_tower.timm_model.blocks.1.mlp.norm
+model.vision_tower.timm_model.blocks.1.mlp.fc2
+model.vision_tower.timm_model.blocks.1.mlp.drop2
+model.vision_tower.timm_model.blocks.1.drop_path2
+model.vision_tower.timm_model.blocks.2
+model.vision_tower.timm_model.blocks.2.norm1
+model.vision_tower.timm_model.blocks.2.attn
+model.vision_tower.timm_model.blocks.2.attn.qkv
+model.vision_tower.timm_model.blocks.2.attn.q_norm
+model.vision_tower.timm_model.blocks.2.attn.k_norm
+model.vision_tower.timm_model.blocks.2.attn.attn_drop
+model.vision_tower.timm_model.blocks.2.attn.norm
+model.vision_tower.timm_model.blocks.2.attn.proj
+model.vision_tower.timm_model.blocks.2.attn.proj_drop
+model.vision_tower.timm_model.blocks.2.drop_path1
+model.vision_tower.timm_model.blocks.2.norm2
+model.vision_tower.timm_model.blocks.2.mlp
+model.vision_tower.timm_model.blocks.2.mlp.fc1
+model.vision_tower.timm_model.blocks.2.mlp.act
+model.vision_tower.timm_model.blocks.2.mlp.drop1
+model.vision_tower.timm_model.blocks.2.mlp.norm
+model.vision_tower.timm_model.blocks.2.mlp.fc2
+model.vision_tower.timm_model.blocks.2.mlp.drop2
+model.vision_tower.timm_model.blocks.2.drop_path2
+model.vision_tower.timm_model.blocks.3
+model.vision_tower.timm_model.blocks.3.norm1
+model.vision_tower.timm_model.blocks.3.attn
+model.vision_tower.timm_model.blocks.3.attn.qkv
+model.vision_tower.timm_model.blocks.3.attn.q_norm
+model.vision_tower.timm_model.blocks.3.attn.k_norm
+model.vision_tower.timm_model.blocks.3.attn.attn_drop
+model.vision_tower.timm_model.blocks.3.attn.norm
+model.vision_tower.timm_model.blocks.3.attn.proj
+model.vision_tower.timm_model.blocks.3.attn.proj_drop
+model.vision_tower.timm_model.blocks.3.drop_path1
+model.vision_tower.timm_model.blocks.3.norm2
+model.vision_tower.timm_model.blocks.3.mlp
+model.vision_tower.timm_model.blocks.3.mlp.fc1
+model.vision_tower.timm_model.blocks.3.mlp.act
+model.vision_tower.timm_model.blocks.3.mlp.drop1
+model.vision_tower.timm_model.blocks.3.mlp.norm
+model.vision_tower.timm_model.blocks.3.mlp.fc2
+model.vision_tower.timm_model.blocks.3.mlp.drop2
+model.vision_tower.timm_model.blocks.3.drop_path2
+model.vision_tower.timm_model.blocks.4
+model.vision_tower.timm_model.blocks.4.norm1
+model.vision_tower.timm_model.blocks.4.attn
+model.vision_tower.timm_model.blocks.4.attn.qkv
+model.vision_tower.timm_model.blocks.4.attn.q_norm
+model.vision_tower.timm_model.blocks.4.attn.k_norm
+model.vision_tower.timm_model.blocks.4.attn.attn_drop
+model.vision_tower.timm_model.blocks.4.attn.norm
+model.vision_tower.timm_model.blocks.4.attn.proj
+model.vision_tower.timm_model.blocks.4.attn.proj_drop
+model.vision_tower.timm_model.blocks.4.drop_path1
+model.vision_tower.timm_model.blocks.4.norm2
+model.vision_tower.timm_model.blocks.4.mlp
+model.vision_tower.timm_model.blocks.4.mlp.fc1
+model.vision_tower.timm_model.blocks.4.mlp.act
+model.vision_tower.timm_model.blocks.4.mlp.drop1
+model.vision_tower.timm_model.blocks.4.mlp.norm
+model.vision_tower.timm_model.blocks.4.mlp.fc2
+model.vision_tower.timm_model.blocks.4.mlp.drop2
+model.vision_tower.timm_model.blocks.4.drop_path2
+model.vision_tower.timm_model.blocks.5
+model.vision_tower.timm_model.blocks.5.norm1
+model.vision_tower.timm_model.blocks.5.attn
+model.vision_tower.timm_model.blocks.5.attn.qkv
+model.vision_tower.timm_model.blocks.5.attn.q_norm
+model.vision_tower.timm_model.blocks.5.attn.k_norm
+model.vision_tower.timm_model.blocks.5.attn.attn_drop
+model.vision_tower.timm_model.blocks.5.attn.norm
+model.vision_tower.timm_model.blocks.5.attn.proj
+model.vision_tower.timm_model.blocks.5.attn.proj_drop
+model.vision_tower.timm_model.blocks.5.drop_path1
+model.vision_tower.timm_model.blocks.5.norm2
+model.vision_tower.timm_model.blocks.5.mlp
+model.vision_tower.timm_model.blocks.5.mlp.fc1
+model.vision_tower.timm_model.blocks.5.mlp.act
+model.vision_tower.timm_model.blocks.5.mlp.drop1
+model.vision_tower.timm_model.blocks.5.mlp.norm
+model.vision_tower.timm_model.blocks.5.mlp.fc2
+model.vision_tower.timm_model.blocks.5.mlp.drop2
+model.vision_tower.timm_model.blocks.5.drop_path2
+model.vision_tower.timm_model.blocks.6
+model.vision_tower.timm_model.blocks.6.norm1
+model.vision_tower.timm_model.blocks.6.attn
+model.vision_tower.timm_model.blocks.6.attn.qkv
+model.vision_tower.timm_model.blocks.6.attn.q_norm
+model.vision_tower.timm_model.blocks.6.attn.k_norm
+model.vision_tower.timm_model.blocks.6.attn.attn_drop
+model.vision_tower.timm_model.blocks.6.attn.norm
+model.vision_tower.timm_model.blocks.6.attn.proj
+model.vision_tower.timm_model.blocks.6.attn.proj_drop
+model.vision_tower.timm_model.blocks.6.drop_path1
+model.vision_tower.timm_model.blocks.6.norm2
+model.vision_tower.timm_model.blocks.6.mlp
+model.vision_tower.timm_model.blocks.6.mlp.fc1
+model.vision_tower.timm_model.blocks.6.mlp.act
+model.vision_tower.timm_model.blocks.6.mlp.drop1
+model.vision_tower.timm_model.blocks.6.mlp.norm
+model.vision_tower.timm_model.blocks.6.mlp.fc2
+model.vision_tower.timm_model.blocks.6.mlp.drop2
+model.vision_tower.timm_model.blocks.6.drop_path2
+model.vision_tower.timm_model.blocks.7
+model.vision_tower.timm_model.blocks.7.norm1
+model.vision_tower.timm_model.blocks.7.attn
+model.vision_tower.timm_model.blocks.7.attn.qkv
+model.vision_tower.timm_model.blocks.7.attn.q_norm
+model.vision_tower.timm_model.blocks.7.attn.k_norm
+model.vision_tower.timm_model.blocks.7.attn.attn_drop
+model.vision_tower.timm_model.blocks.7.attn.norm
+model.vision_tower.timm_model.blocks.7.attn.proj
+model.vision_tower.timm_model.blocks.7.attn.proj_drop
+model.vision_tower.timm_model.blocks.7.drop_path1
+model.vision_tower.timm_model.blocks.7.norm2
+model.vision_tower.timm_model.blocks.7.mlp
+model.vision_tower.timm_model.blocks.7.mlp.fc1
+model.vision_tower.timm_model.blocks.7.mlp.act
+model.vision_tower.timm_model.blocks.7.mlp.drop1
+model.vision_tower.timm_model.blocks.7.mlp.norm
+model.vision_tower.timm_model.blocks.7.mlp.fc2
+model.vision_tower.timm_model.blocks.7.mlp.drop2
+model.vision_tower.timm_model.blocks.7.drop_path2
+model.vision_tower.timm_model.blocks.8
+model.vision_tower.timm_model.blocks.8.norm1
+model.vision_tower.timm_model.blocks.8.attn
+model.vision_tower.timm_model.blocks.8.attn.qkv
+model.vision_tower.timm_model.blocks.8.attn.q_norm
+model.vision_tower.timm_model.blocks.8.attn.k_norm
+model.vision_tower.timm_model.blocks.8.attn.attn_drop
+model.vision_tower.timm_model.blocks.8.attn.norm
+model.vision_tower.timm_model.blocks.8.attn.proj
+model.vision_tower.timm_model.blocks.8.attn.proj_drop
+model.vision_tower.timm_model.blocks.8.drop_path1
+model.vision_tower.timm_model.blocks.8.norm2
+model.vision_tower.timm_model.blocks.8.mlp
+model.vision_tower.timm_model.blocks.8.mlp.fc1
+model.vision_tower.timm_model.blocks.8.mlp.act
+model.vision_tower.timm_model.blocks.8.mlp.drop1
+model.vision_tower.timm_model.blocks.8.mlp.norm
+model.vision_tower.timm_model.blocks.8.mlp.fc2
+model.vision_tower.timm_model.blocks.8.mlp.drop2
+model.vision_tower.timm_model.blocks.8.drop_path2
+model.vision_tower.timm_model.blocks.9
+model.vision_tower.timm_model.blocks.9.norm1
+model.vision_tower.timm_model.blocks.9.attn
+model.vision_tower.timm_model.blocks.9.attn.qkv
+model.vision_tower.timm_model.blocks.9.attn.q_norm
+model.vision_tower.timm_model.blocks.9.attn.k_norm
+model.vision_tower.timm_model.blocks.9.attn.attn_drop
+model.vision_tower.timm_model.blocks.9.attn.norm
+model.vision_tower.timm_model.blocks.9.attn.proj
+model.vision_tower.timm_model.blocks.9.attn.proj_drop
+model.vision_tower.timm_model.blocks.9.drop_path1
+model.vision_tower.timm_model.blocks.9.norm2
+model.vision_tower.timm_model.blocks.9.mlp
+model.vision_tower.timm_model.blocks.9.mlp.fc1
+model.vision_tower.timm_model.blocks.9.mlp.act
+model.vision_tower.timm_model.blocks.9.mlp.drop1
+model.vision_tower.timm_model.blocks.9.mlp.norm
+model.vision_tower.timm_model.blocks.9.mlp.fc2
+model.vision_tower.timm_model.blocks.9.mlp.drop2
+model.vision_tower.timm_model.blocks.9.drop_path2
+model.vision_tower.timm_model.blocks.10
+model.vision_tower.timm_model.blocks.10.norm1
+model.vision_tower.timm_model.blocks.10.attn
+model.vision_tower.timm_model.blocks.10.attn.qkv
+model.vision_tower.timm_model.blocks.10.attn.q_norm
+model.vision_tower.timm_model.blocks.10.attn.k_norm
+model.vision_tower.timm_model.blocks.10.attn.attn_drop
+model.vision_tower.timm_model.blocks.10.attn.norm
+model.vision_tower.timm_model.blocks.10.attn.proj
+model.vision_tower.timm_model.blocks.10.attn.proj_drop
+model.vision_tower.timm_model.blocks.10.drop_path1
+model.vision_tower.timm_model.blocks.10.norm2
+model.vision_tower.timm_model.blocks.10.mlp
+model.vision_tower.timm_model.blocks.10.mlp.fc1
+model.vision_tower.timm_model.blocks.10.mlp.act
+model.vision_tower.timm_model.blocks.10.mlp.drop1
+model.vision_tower.timm_model.blocks.10.mlp.norm
+model.vision_tower.timm_model.blocks.10.mlp.fc2
+model.vision_tower.timm_model.blocks.10.mlp.drop2
+model.vision_tower.timm_model.blocks.10.drop_path2
+model.vision_tower.timm_model.blocks.11
+model.vision_tower.timm_model.blocks.11.norm1
+model.vision_tower.timm_model.blocks.11.attn
+model.vision_tower.timm_model.blocks.11.attn.qkv
+model.vision_tower.timm_model.blocks.11.attn.q_norm
+model.vision_tower.timm_model.blocks.11.attn.k_norm
+model.vision_tower.timm_model.blocks.11.attn.attn_drop
+model.vision_tower.timm_model.blocks.11.attn.norm
+model.vision_tower.timm_model.blocks.11.attn.proj
+model.vision_tower.timm_model.blocks.11.attn.proj_drop
+model.vision_tower.timm_model.blocks.11.drop_path1
+model.vision_tower.timm_model.blocks.11.norm2
+model.vision_tower.timm_model.blocks.11.mlp
+model.vision_tower.timm_model.blocks.11.mlp.fc1
+model.vision_tower.timm_model.blocks.11.mlp.act
+model.vision_tower.timm_model.blocks.11.mlp.drop1
+model.vision_tower.timm_model.blocks.11.mlp.norm
+model.vision_tower.timm_model.blocks.11.mlp.fc2
+model.vision_tower.timm_model.blocks.11.mlp.drop2
+model.vision_tower.timm_model.blocks.11.drop_path2
+model.vision_tower.timm_model.blocks.12
+model.vision_tower.timm_model.blocks.12.norm1
+model.vision_tower.timm_model.blocks.12.attn
+model.vision_tower.timm_model.blocks.12.attn.qkv
+model.vision_tower.timm_model.blocks.12.attn.q_norm
+model.vision_tower.timm_model.blocks.12.attn.k_norm
+model.vision_tower.timm_model.blocks.12.attn.attn_drop
+model.vision_tower.timm_model.blocks.12.attn.norm
+model.vision_tower.timm_model.blocks.12.attn.proj
+model.vision_tower.timm_model.blocks.12.attn.proj_drop
+model.vision_tower.timm_model.blocks.12.drop_path1
+model.vision_tower.timm_model.blocks.12.norm2
+model.vision_tower.timm_model.blocks.12.mlp
+model.vision_tower.timm_model.blocks.12.mlp.fc1
+model.vision_tower.timm_model.blocks.12.mlp.act
+model.vision_tower.timm_model.blocks.12.mlp.drop1
+model.vision_tower.timm_model.blocks.12.mlp.norm
+model.vision_tower.timm_model.blocks.12.mlp.fc2
+model.vision_tower.timm_model.blocks.12.mlp.drop2
+model.vision_tower.timm_model.blocks.12.drop_path2
+model.vision_tower.timm_model.blocks.13
+model.vision_tower.timm_model.blocks.13.norm1
+model.vision_tower.timm_model.blocks.13.attn
+model.vision_tower.timm_model.blocks.13.attn.qkv
+model.vision_tower.timm_model.blocks.13.attn.q_norm
+model.vision_tower.timm_model.blocks.13.attn.k_norm
+model.vision_tower.timm_model.blocks.13.attn.attn_drop
+model.vision_tower.timm_model.blocks.13.attn.norm
+model.vision_tower.timm_model.blocks.13.attn.proj
+model.vision_tower.timm_model.blocks.13.attn.proj_drop
+model.vision_tower.timm_model.blocks.13.drop_path1
+model.vision_tower.timm_model.blocks.13.norm2
+model.vision_tower.timm_model.blocks.13.mlp
+model.vision_tower.timm_model.blocks.13.mlp.fc1
+model.vision_tower.timm_model.blocks.13.mlp.act
+model.vision_tower.timm_model.blocks.13.mlp.drop1
+model.vision_tower.timm_model.blocks.13.mlp.norm
+model.vision_tower.timm_model.blocks.13.mlp.fc2
+model.vision_tower.timm_model.blocks.13.mlp.drop2
+model.vision_tower.timm_model.blocks.13.drop_path2
+model.vision_tower.timm_model.blocks.14
+model.vision_tower.timm_model.blocks.14.norm1
+model.vision_tower.timm_model.blocks.14.attn
+model.vision_tower.timm_model.blocks.14.attn.qkv
+model.vision_tower.timm_model.blocks.14.attn.q_norm
+model.vision_tower.timm_model.blocks.14.attn.k_norm
+model.vision_tower.timm_model.blocks.14.attn.attn_drop
+model.vision_tower.timm_model.blocks.14.attn.norm
+model.vision_tower.timm_model.blocks.14.attn.proj
+model.vision_tower.timm_model.blocks.14.attn.proj_drop
+model.vision_tower.timm_model.blocks.14.drop_path1
+model.vision_tower.timm_model.blocks.14.norm2
+model.vision_tower.timm_model.blocks.14.mlp
+model.vision_tower.timm_model.blocks.14.mlp.fc1
+model.vision_tower.timm_model.blocks.14.mlp.act
+model.vision_tower.timm_model.blocks.14.mlp.drop1
+model.vision_tower.timm_model.blocks.14.mlp.norm
+model.vision_tower.timm_model.blocks.14.mlp.fc2
+model.vision_tower.timm_model.blocks.14.mlp.drop2
+model.vision_tower.timm_model.blocks.14.drop_path2
+model.vision_tower.timm_model.blocks.15
+model.vision_tower.timm_model.blocks.15.norm1
+model.vision_tower.timm_model.blocks.15.attn
+model.vision_tower.timm_model.blocks.15.attn.qkv
+model.vision_tower.timm_model.blocks.15.attn.q_norm
+model.vision_tower.timm_model.blocks.15.attn.k_norm
+model.vision_tower.timm_model.blocks.15.attn.attn_drop
+model.vision_tower.timm_model.blocks.15.attn.norm
+model.vision_tower.timm_model.blocks.15.attn.proj
+model.vision_tower.timm_model.blocks.15.attn.proj_drop
+model.vision_tower.timm_model.blocks.15.drop_path1
+model.vision_tower.timm_model.blocks.15.norm2
+model.vision_tower.timm_model.blocks.15.mlp
+model.vision_tower.timm_model.blocks.15.mlp.fc1
+model.vision_tower.timm_model.blocks.15.mlp.act
+model.vision_tower.timm_model.blocks.15.mlp.drop1
+model.vision_tower.timm_model.blocks.15.mlp.norm
+model.vision_tower.timm_model.blocks.15.mlp.fc2
+model.vision_tower.timm_model.blocks.15.mlp.drop2
+model.vision_tower.timm_model.blocks.15.drop_path2
+model.vision_tower.timm_model.blocks.16
+model.vision_tower.timm_model.blocks.16.norm1
+model.vision_tower.timm_model.blocks.16.attn
+model.vision_tower.timm_model.blocks.16.attn.qkv
+model.vision_tower.timm_model.blocks.16.attn.q_norm
+model.vision_tower.timm_model.blocks.16.attn.k_norm
+model.vision_tower.timm_model.blocks.16.attn.attn_drop
+model.vision_tower.timm_model.blocks.16.attn.norm
+model.vision_tower.timm_model.blocks.16.attn.proj
+model.vision_tower.timm_model.blocks.16.attn.proj_drop
+model.vision_tower.timm_model.blocks.16.drop_path1
+model.vision_tower.timm_model.blocks.16.norm2
+model.vision_tower.timm_model.blocks.16.mlp
+model.vision_tower.timm_model.blocks.16.mlp.fc1
+model.vision_tower.timm_model.blocks.16.mlp.act
+model.vision_tower.timm_model.blocks.16.mlp.drop1
+model.vision_tower.timm_model.blocks.16.mlp.norm
+model.vision_tower.timm_model.blocks.16.mlp.fc2
+model.vision_tower.timm_model.blocks.16.mlp.drop2
+model.vision_tower.timm_model.blocks.16.drop_path2
+model.vision_tower.timm_model.blocks.17
+model.vision_tower.timm_model.blocks.17.norm1
+model.vision_tower.timm_model.blocks.17.attn
+model.vision_tower.timm_model.blocks.17.attn.qkv
+model.vision_tower.timm_model.blocks.17.attn.q_norm
+model.vision_tower.timm_model.blocks.17.attn.k_norm
+model.vision_tower.timm_model.blocks.17.attn.attn_drop
+model.vision_tower.timm_model.blocks.17.attn.norm
+model.vision_tower.timm_model.blocks.17.attn.proj
+model.vision_tower.timm_model.blocks.17.attn.proj_drop
+model.vision_tower.timm_model.blocks.17.drop_path1
+model.vision_tower.timm_model.blocks.17.norm2
+model.vision_tower.timm_model.blocks.17.mlp
+model.vision_tower.timm_model.blocks.17.mlp.fc1
+model.vision_tower.timm_model.blocks.17.mlp.act
+model.vision_tower.timm_model.blocks.17.mlp.drop1
+model.vision_tower.timm_model.blocks.17.mlp.norm
+model.vision_tower.timm_model.blocks.17.mlp.fc2
+model.vision_tower.timm_model.blocks.17.mlp.drop2
+model.vision_tower.timm_model.blocks.17.drop_path2
+model.vision_tower.timm_model.blocks.18
+model.vision_tower.timm_model.blocks.18.norm1
+model.vision_tower.timm_model.blocks.18.attn
+model.vision_tower.timm_model.blocks.18.attn.qkv
+model.vision_tower.timm_model.blocks.18.attn.q_norm
+model.vision_tower.timm_model.blocks.18.attn.k_norm
+model.vision_tower.timm_model.blocks.18.attn.attn_drop
+model.vision_tower.timm_model.blocks.18.attn.norm
+model.vision_tower.timm_model.blocks.18.attn.proj
+model.vision_tower.timm_model.blocks.18.attn.proj_drop
+model.vision_tower.timm_model.blocks.18.drop_path1
+model.vision_tower.timm_model.blocks.18.norm2
+model.vision_tower.timm_model.blocks.18.mlp
+model.vision_tower.timm_model.blocks.18.mlp.fc1
+model.vision_tower.timm_model.blocks.18.mlp.act
+model.vision_tower.timm_model.blocks.18.mlp.drop1
+model.vision_tower.timm_model.blocks.18.mlp.norm
+model.vision_tower.timm_model.blocks.18.mlp.fc2
+model.vision_tower.timm_model.blocks.18.mlp.drop2
+model.vision_tower.timm_model.blocks.18.drop_path2
+model.vision_tower.timm_model.blocks.19
+model.vision_tower.timm_model.blocks.19.norm1
+model.vision_tower.timm_model.blocks.19.attn
+model.vision_tower.timm_model.blocks.19.attn.qkv
+model.vision_tower.timm_model.blocks.19.attn.q_norm
+model.vision_tower.timm_model.blocks.19.attn.k_norm
+model.vision_tower.timm_model.blocks.19.attn.attn_drop
+model.vision_tower.timm_model.blocks.19.attn.norm
+model.vision_tower.timm_model.blocks.19.attn.proj
+model.vision_tower.timm_model.blocks.19.attn.proj_drop
+model.vision_tower.timm_model.blocks.19.drop_path1
+model.vision_tower.timm_model.blocks.19.norm2
+model.vision_tower.timm_model.blocks.19.mlp
+model.vision_tower.timm_model.blocks.19.mlp.fc1
+model.vision_tower.timm_model.blocks.19.mlp.act
+model.vision_tower.timm_model.blocks.19.mlp.drop1
+model.vision_tower.timm_model.blocks.19.mlp.norm
+model.vision_tower.timm_model.blocks.19.mlp.fc2
+model.vision_tower.timm_model.blocks.19.mlp.drop2
+model.vision_tower.timm_model.blocks.19.drop_path2
+model.vision_tower.timm_model.blocks.20
+model.vision_tower.timm_model.blocks.20.norm1
+model.vision_tower.timm_model.blocks.20.attn
+model.vision_tower.timm_model.blocks.20.attn.qkv
+model.vision_tower.timm_model.blocks.20.attn.q_norm
+model.vision_tower.timm_model.blocks.20.attn.k_norm
+model.vision_tower.timm_model.blocks.20.attn.attn_drop
+model.vision_tower.timm_model.blocks.20.attn.norm
+model.vision_tower.timm_model.blocks.20.attn.proj
+model.vision_tower.timm_model.blocks.20.attn.proj_drop
+model.vision_tower.timm_model.blocks.20.drop_path1
+model.vision_tower.timm_model.blocks.20.norm2
+model.vision_tower.timm_model.blocks.20.mlp
+model.vision_tower.timm_model.blocks.20.mlp.fc1
+model.vision_tower.timm_model.blocks.20.mlp.act
+model.vision_tower.timm_model.blocks.20.mlp.drop1
+model.vision_tower.timm_model.blocks.20.mlp.norm
+model.vision_tower.timm_model.blocks.20.mlp.fc2
+model.vision_tower.timm_model.blocks.20.mlp.drop2
+model.vision_tower.timm_model.blocks.20.drop_path2
+model.vision_tower.timm_model.blocks.21
+model.vision_tower.timm_model.blocks.21.norm1
+model.vision_tower.timm_model.blocks.21.attn
+model.vision_tower.timm_model.blocks.21.attn.qkv
+model.vision_tower.timm_model.blocks.21.attn.q_norm
+model.vision_tower.timm_model.blocks.21.attn.k_norm
+model.vision_tower.timm_model.blocks.21.attn.attn_drop
+model.vision_tower.timm_model.blocks.21.attn.norm
+model.vision_tower.timm_model.blocks.21.attn.proj
+model.vision_tower.timm_model.blocks.21.attn.proj_drop
+model.vision_tower.timm_model.blocks.21.drop_path1
+model.vision_tower.timm_model.blocks.21.norm2
+model.vision_tower.timm_model.blocks.21.mlp
+model.vision_tower.timm_model.blocks.21.mlp.fc1
+model.vision_tower.timm_model.blocks.21.mlp.act
+model.vision_tower.timm_model.blocks.21.mlp.drop1
+model.vision_tower.timm_model.blocks.21.mlp.norm
+model.vision_tower.timm_model.blocks.21.mlp.fc2
+model.vision_tower.timm_model.blocks.21.mlp.drop2
+model.vision_tower.timm_model.blocks.21.drop_path2
+model.vision_tower.timm_model.blocks.22
+model.vision_tower.timm_model.blocks.22.norm1
+model.vision_tower.timm_model.blocks.22.attn
+model.vision_tower.timm_model.blocks.22.attn.qkv
+model.vision_tower.timm_model.blocks.22.attn.q_norm
+model.vision_tower.timm_model.blocks.22.attn.k_norm
+model.vision_tower.timm_model.blocks.22.attn.attn_drop
+model.vision_tower.timm_model.blocks.22.attn.norm
+model.vision_tower.timm_model.blocks.22.attn.proj
+model.vision_tower.timm_model.blocks.22.attn.proj_drop
+model.vision_tower.timm_model.blocks.22.drop_path1
+model.vision_tower.timm_model.blocks.22.norm2
+model.vision_tower.timm_model.blocks.22.mlp
+model.vision_tower.timm_model.blocks.22.mlp.fc1
+model.vision_tower.timm_model.blocks.22.mlp.act
+model.vision_tower.timm_model.blocks.22.mlp.drop1
+model.vision_tower.timm_model.blocks.22.mlp.norm
+model.vision_tower.timm_model.blocks.22.mlp.fc2
+model.vision_tower.timm_model.blocks.22.mlp.drop2
+model.vision_tower.timm_model.blocks.22.drop_path2
+model.vision_tower.timm_model.norm
+model.vision_tower.timm_model.fc_norm
+model.vision_tower.timm_model.head_drop
+model.vision_tower.timm_model.head
+model.multi_modal_projector
+model.multi_modal_projector.linear_1
+model.multi_modal_projector.gelu
+model.multi_modal_projector.linear_2
+model.multi_modal_projector.pooling
+model.language_model
+model.language_model.embed_tokens
+model.language_model.layers
+model.language_model.layers.0
+model.language_model.layers.0.self_attn
+model.language_model.layers.0.self_attn.q_proj
+model.language_model.layers.0.self_attn.k_proj
+model.language_model.layers.0.self_attn.v_proj
+model.language_model.layers.0.self_attn.o_proj
+model.language_model.layers.0.mlp
+model.language_model.layers.0.mlp.gate_proj
+model.language_model.layers.0.mlp.up_proj
+model.language_model.layers.0.mlp.down_proj
+model.language_model.layers.0.mlp.act_fn
+model.language_model.layers.0.input_layernorm
+model.language_model.layers.0.post_attention_layernorm
+model.language_model.layers.1
+model.language_model.layers.1.self_attn
+model.language_model.layers.1.self_attn.q_proj
+model.language_model.layers.1.self_attn.k_proj
+model.language_model.layers.1.self_attn.v_proj
+model.language_model.layers.1.self_attn.o_proj
+model.language_model.layers.1.mlp
+model.language_model.layers.1.mlp.gate_proj
+model.language_model.layers.1.mlp.up_proj
+model.language_model.layers.1.mlp.down_proj
+model.language_model.layers.1.mlp.act_fn
+model.language_model.layers.1.input_layernorm
+model.language_model.layers.1.post_attention_layernorm
+model.language_model.layers.2
+model.language_model.layers.2.self_attn
+model.language_model.layers.2.self_attn.q_proj
+model.language_model.layers.2.self_attn.k_proj
+model.language_model.layers.2.self_attn.v_proj
+model.language_model.layers.2.self_attn.o_proj
+model.language_model.layers.2.mlp
+model.language_model.layers.2.mlp.gate_proj
+model.language_model.layers.2.mlp.up_proj
+model.language_model.layers.2.mlp.down_proj
+model.language_model.layers.2.mlp.act_fn
+model.language_model.layers.2.input_layernorm
+model.language_model.layers.2.post_attention_layernorm
+model.language_model.layers.3
+model.language_model.layers.3.self_attn
+model.language_model.layers.3.self_attn.q_proj
+model.language_model.layers.3.self_attn.k_proj
+model.language_model.layers.3.self_attn.v_proj
+model.language_model.layers.3.self_attn.o_proj
+model.language_model.layers.3.mlp
+model.language_model.layers.3.mlp.gate_proj
+model.language_model.layers.3.mlp.up_proj
+model.language_model.layers.3.mlp.down_proj
+model.language_model.layers.3.mlp.act_fn
+model.language_model.layers.3.input_layernorm
+model.language_model.layers.3.post_attention_layernorm
+model.language_model.layers.4
+model.language_model.layers.4.self_attn
+model.language_model.layers.4.self_attn.q_proj
+model.language_model.layers.4.self_attn.k_proj
+model.language_model.layers.4.self_attn.v_proj
+model.language_model.layers.4.self_attn.o_proj
+model.language_model.layers.4.mlp
+model.language_model.layers.4.mlp.gate_proj
+model.language_model.layers.4.mlp.up_proj
+model.language_model.layers.4.mlp.down_proj
+model.language_model.layers.4.mlp.act_fn
+model.language_model.layers.4.input_layernorm
+model.language_model.layers.4.post_attention_layernorm
+model.language_model.layers.5
+model.language_model.layers.5.self_attn
+model.language_model.layers.5.self_attn.q_proj
+model.language_model.layers.5.self_attn.k_proj
+model.language_model.layers.5.self_attn.v_proj
+model.language_model.layers.5.self_attn.o_proj
+model.language_model.layers.5.mlp
+model.language_model.layers.5.mlp.gate_proj
+model.language_model.layers.5.mlp.up_proj
+model.language_model.layers.5.mlp.down_proj
+model.language_model.layers.5.mlp.act_fn
+model.language_model.layers.5.input_layernorm
+model.language_model.layers.5.post_attention_layernorm
+model.language_model.layers.6
+model.language_model.layers.6.self_attn
+model.language_model.layers.6.self_attn.q_proj
+model.language_model.layers.6.self_attn.k_proj
+model.language_model.layers.6.self_attn.v_proj
+model.language_model.layers.6.self_attn.o_proj
+model.language_model.layers.6.mlp
+model.language_model.layers.6.mlp.gate_proj
+model.language_model.layers.6.mlp.up_proj
+model.language_model.layers.6.mlp.down_proj
+model.language_model.layers.6.mlp.act_fn
+model.language_model.layers.6.input_layernorm
+model.language_model.layers.6.post_attention_layernorm
+model.language_model.layers.7
+model.language_model.layers.7.self_attn
+model.language_model.layers.7.self_attn.q_proj
+model.language_model.layers.7.self_attn.k_proj
+model.language_model.layers.7.self_attn.v_proj
+model.language_model.layers.7.self_attn.o_proj
+model.language_model.layers.7.mlp
+model.language_model.layers.7.mlp.gate_proj
+model.language_model.layers.7.mlp.up_proj
+model.language_model.layers.7.mlp.down_proj
+model.language_model.layers.7.mlp.act_fn
+model.language_model.layers.7.input_layernorm
+model.language_model.layers.7.post_attention_layernorm
+model.language_model.layers.8
+model.language_model.layers.8.self_attn
+model.language_model.layers.8.self_attn.q_proj
+model.language_model.layers.8.self_attn.k_proj
+model.language_model.layers.8.self_attn.v_proj
+model.language_model.layers.8.self_attn.o_proj
+model.language_model.layers.8.mlp
+model.language_model.layers.8.mlp.gate_proj
+model.language_model.layers.8.mlp.up_proj
+model.language_model.layers.8.mlp.down_proj
+model.language_model.layers.8.mlp.act_fn
+model.language_model.layers.8.input_layernorm
+model.language_model.layers.8.post_attention_layernorm
+model.language_model.layers.9
+model.language_model.layers.9.self_attn
+model.language_model.layers.9.self_attn.q_proj
+model.language_model.layers.9.self_attn.k_proj
+model.language_model.layers.9.self_attn.v_proj
+model.language_model.layers.9.self_attn.o_proj
+model.language_model.layers.9.mlp
+model.language_model.layers.9.mlp.gate_proj
+model.language_model.layers.9.mlp.up_proj
+model.language_model.layers.9.mlp.down_proj
+model.language_model.layers.9.mlp.act_fn
+model.language_model.layers.9.input_layernorm
+model.language_model.layers.9.post_attention_layernorm
+model.language_model.layers.10
+model.language_model.layers.10.self_attn
+model.language_model.layers.10.self_attn.q_proj
+model.language_model.layers.10.self_attn.k_proj
+model.language_model.layers.10.self_attn.v_proj
+model.language_model.layers.10.self_attn.o_proj
+model.language_model.layers.10.mlp
+model.language_model.layers.10.mlp.gate_proj
+model.language_model.layers.10.mlp.up_proj
+model.language_model.layers.10.mlp.down_proj
+model.language_model.layers.10.mlp.act_fn
+model.language_model.layers.10.input_layernorm
+model.language_model.layers.10.post_attention_layernorm
+model.language_model.layers.11
+model.language_model.layers.11.self_attn
+model.language_model.layers.11.self_attn.q_proj
+model.language_model.layers.11.self_attn.k_proj
+model.language_model.layers.11.self_attn.v_proj
+model.language_model.layers.11.self_attn.o_proj
+model.language_model.layers.11.mlp
+model.language_model.layers.11.mlp.gate_proj
+model.language_model.layers.11.mlp.up_proj
+model.language_model.layers.11.mlp.down_proj
+model.language_model.layers.11.mlp.act_fn
+model.language_model.layers.11.input_layernorm
+model.language_model.layers.11.post_attention_layernorm
+model.language_model.layers.12
+model.language_model.layers.12.self_attn
+model.language_model.layers.12.self_attn.q_proj
+model.language_model.layers.12.self_attn.k_proj
+model.language_model.layers.12.self_attn.v_proj
+model.language_model.layers.12.self_attn.o_proj
+model.language_model.layers.12.mlp
+model.language_model.layers.12.mlp.gate_proj
+model.language_model.layers.12.mlp.up_proj
+model.language_model.layers.12.mlp.down_proj
+model.language_model.layers.12.mlp.act_fn
+model.language_model.layers.12.input_layernorm
+model.language_model.layers.12.post_attention_layernorm
+model.language_model.layers.13
+model.language_model.layers.13.self_attn
+model.language_model.layers.13.self_attn.q_proj
+model.language_model.layers.13.self_attn.k_proj
+model.language_model.layers.13.self_attn.v_proj
+model.language_model.layers.13.self_attn.o_proj
+model.language_model.layers.13.mlp
+model.language_model.layers.13.mlp.gate_proj
+model.language_model.layers.13.mlp.up_proj
+model.language_model.layers.13.mlp.down_proj
+model.language_model.layers.13.mlp.act_fn
+model.language_model.layers.13.input_layernorm
+model.language_model.layers.13.post_attention_layernorm
+model.language_model.layers.14
+model.language_model.layers.14.self_attn
+model.language_model.layers.14.self_attn.q_proj
+model.language_model.layers.14.self_attn.k_proj
+model.language_model.layers.14.self_attn.v_proj
+model.language_model.layers.14.self_attn.o_proj
+model.language_model.layers.14.mlp
+model.language_model.layers.14.mlp.gate_proj
+model.language_model.layers.14.mlp.up_proj
+model.language_model.layers.14.mlp.down_proj
+model.language_model.layers.14.mlp.act_fn
+model.language_model.layers.14.input_layernorm
+model.language_model.layers.14.post_attention_layernorm
+model.language_model.layers.15
+model.language_model.layers.15.self_attn
+model.language_model.layers.15.self_attn.q_proj
+model.language_model.layers.15.self_attn.k_proj
+model.language_model.layers.15.self_attn.v_proj
+model.language_model.layers.15.self_attn.o_proj
+model.language_model.layers.15.mlp
+model.language_model.layers.15.mlp.gate_proj
+model.language_model.layers.15.mlp.up_proj
+model.language_model.layers.15.mlp.down_proj
+model.language_model.layers.15.mlp.act_fn
+model.language_model.layers.15.input_layernorm
+model.language_model.layers.15.post_attention_layernorm
+model.language_model.norm
+model.language_model.rotary_emb
+lm_head

logs/internlm/internlm-xcomposer2d5-7b.txt ADDED Viewed

	@@ -0,0 +1,2132 @@

+model
+model.tok_embeddings
+model.layers
+model.layers.0
+model.layers.0.attention
+model.layers.0.attention.wqkv
+model.layers.0.attention.wqkv.lora_dropout
+model.layers.0.attention.wqkv.Plora_A
+model.layers.0.attention.wqkv.Plora_B
+model.layers.0.attention.wqkv.lora_sft_A
+model.layers.0.attention.wqkv.lora_sft_B
+model.layers.0.attention.wqkv.lora_dpo_A
+model.layers.0.attention.wqkv.lora_dpo_B
+model.layers.0.attention.wqkv.lora_web_A
+model.layers.0.attention.wqkv.lora_web_B
+model.layers.0.attention.wo
+model.layers.0.attention.wo.lora_dropout
+model.layers.0.attention.wo.Plora_A
+model.layers.0.attention.wo.Plora_B
+model.layers.0.attention.wo.lora_sft_A
+model.layers.0.attention.wo.lora_sft_B
+model.layers.0.attention.wo.lora_dpo_A
+model.layers.0.attention.wo.lora_dpo_B
+model.layers.0.attention.wo.lora_web_A
+model.layers.0.attention.wo.lora_web_B
+model.layers.0.attention.rotary_emb
+model.layers.0.feed_forward
+model.layers.0.feed_forward.w1
+model.layers.0.feed_forward.w1.lora_dropout
+model.layers.0.feed_forward.w1.Plora_A
+model.layers.0.feed_forward.w1.Plora_B
+model.layers.0.feed_forward.w1.lora_sft_A
+model.layers.0.feed_forward.w1.lora_sft_B
+model.layers.0.feed_forward.w1.lora_dpo_A
+model.layers.0.feed_forward.w1.lora_dpo_B
+model.layers.0.feed_forward.w1.lora_web_A
+model.layers.0.feed_forward.w1.lora_web_B
+model.layers.0.feed_forward.w3
+model.layers.0.feed_forward.w3.lora_dropout
+model.layers.0.feed_forward.w3.Plora_A
+model.layers.0.feed_forward.w3.Plora_B
+model.layers.0.feed_forward.w3.lora_sft_A
+model.layers.0.feed_forward.w3.lora_sft_B
+model.layers.0.feed_forward.w3.lora_dpo_A
+model.layers.0.feed_forward.w3.lora_dpo_B
+model.layers.0.feed_forward.w3.lora_web_A
+model.layers.0.feed_forward.w3.lora_web_B
+model.layers.0.feed_forward.w2
+model.layers.0.feed_forward.w2.lora_dropout
+model.layers.0.feed_forward.w2.Plora_A
+model.layers.0.feed_forward.w2.Plora_B
+model.layers.0.feed_forward.w2.lora_sft_A
+model.layers.0.feed_forward.w2.lora_sft_B
+model.layers.0.feed_forward.w2.lora_dpo_A
+model.layers.0.feed_forward.w2.lora_dpo_B
+model.layers.0.feed_forward.w2.lora_web_A
+model.layers.0.feed_forward.w2.lora_web_B
+model.layers.0.feed_forward.act_fn
+model.layers.0.attention_norm
+model.layers.0.ffn_norm
+model.layers.1
+model.layers.1.attention
+model.layers.1.attention.wqkv
+model.layers.1.attention.wqkv.lora_dropout
+model.layers.1.attention.wqkv.Plora_A
+model.layers.1.attention.wqkv.Plora_B
+model.layers.1.attention.wqkv.lora_sft_A
+model.layers.1.attention.wqkv.lora_sft_B
+model.layers.1.attention.wqkv.lora_dpo_A
+model.layers.1.attention.wqkv.lora_dpo_B
+model.layers.1.attention.wqkv.lora_web_A
+model.layers.1.attention.wqkv.lora_web_B
+model.layers.1.attention.wo
+model.layers.1.attention.wo.lora_dropout
+model.layers.1.attention.wo.Plora_A
+model.layers.1.attention.wo.Plora_B
+model.layers.1.attention.wo.lora_sft_A
+model.layers.1.attention.wo.lora_sft_B
+model.layers.1.attention.wo.lora_dpo_A
+model.layers.1.attention.wo.lora_dpo_B
+model.layers.1.attention.wo.lora_web_A
+model.layers.1.attention.wo.lora_web_B
+model.layers.1.attention.rotary_emb
+model.layers.1.feed_forward
+model.layers.1.feed_forward.w1
+model.layers.1.feed_forward.w1.lora_dropout
+model.layers.1.feed_forward.w1.Plora_A
+model.layers.1.feed_forward.w1.Plora_B
+model.layers.1.feed_forward.w1.lora_sft_A
+model.layers.1.feed_forward.w1.lora_sft_B
+model.layers.1.feed_forward.w1.lora_dpo_A
+model.layers.1.feed_forward.w1.lora_dpo_B
+model.layers.1.feed_forward.w1.lora_web_A
+model.layers.1.feed_forward.w1.lora_web_B
+model.layers.1.feed_forward.w3
+model.layers.1.feed_forward.w3.lora_dropout
+model.layers.1.feed_forward.w3.Plora_A
+model.layers.1.feed_forward.w3.Plora_B
+model.layers.1.feed_forward.w3.lora_sft_A
+model.layers.1.feed_forward.w3.lora_sft_B
+model.layers.1.feed_forward.w3.lora_dpo_A
+model.layers.1.feed_forward.w3.lora_dpo_B
+model.layers.1.feed_forward.w3.lora_web_A
+model.layers.1.feed_forward.w3.lora_web_B
+model.layers.1.feed_forward.w2
+model.layers.1.feed_forward.w2.lora_dropout
+model.layers.1.feed_forward.w2.Plora_A
+model.layers.1.feed_forward.w2.Plora_B
+model.layers.1.feed_forward.w2.lora_sft_A
+model.layers.1.feed_forward.w2.lora_sft_B
+model.layers.1.feed_forward.w2.lora_dpo_A
+model.layers.1.feed_forward.w2.lora_dpo_B
+model.layers.1.feed_forward.w2.lora_web_A
+model.layers.1.feed_forward.w2.lora_web_B
+model.layers.1.feed_forward.act_fn
+model.layers.1.attention_norm
+model.layers.1.ffn_norm
+model.layers.2
+model.layers.2.attention
+model.layers.2.attention.wqkv
+model.layers.2.attention.wqkv.lora_dropout
+model.layers.2.attention.wqkv.Plora_A
+model.layers.2.attention.wqkv.Plora_B
+model.layers.2.attention.wqkv.lora_sft_A
+model.layers.2.attention.wqkv.lora_sft_B
+model.layers.2.attention.wqkv.lora_dpo_A
+model.layers.2.attention.wqkv.lora_dpo_B
+model.layers.2.attention.wqkv.lora_web_A
+model.layers.2.attention.wqkv.lora_web_B
+model.layers.2.attention.wo
+model.layers.2.attention.wo.lora_dropout
+model.layers.2.attention.wo.Plora_A
+model.layers.2.attention.wo.Plora_B
+model.layers.2.attention.wo.lora_sft_A
+model.layers.2.attention.wo.lora_sft_B
+model.layers.2.attention.wo.lora_dpo_A
+model.layers.2.attention.wo.lora_dpo_B
+model.layers.2.attention.wo.lora_web_A
+model.layers.2.attention.wo.lora_web_B
+model.layers.2.attention.rotary_emb
+model.layers.2.feed_forward
+model.layers.2.feed_forward.w1
+model.layers.2.feed_forward.w1.lora_dropout
+model.layers.2.feed_forward.w1.Plora_A
+model.layers.2.feed_forward.w1.Plora_B
+model.layers.2.feed_forward.w1.lora_sft_A
+model.layers.2.feed_forward.w1.lora_sft_B
+model.layers.2.feed_forward.w1.lora_dpo_A
+model.layers.2.feed_forward.w1.lora_dpo_B
+model.layers.2.feed_forward.w1.lora_web_A
+model.layers.2.feed_forward.w1.lora_web_B
+model.layers.2.feed_forward.w3
+model.layers.2.feed_forward.w3.lora_dropout
+model.layers.2.feed_forward.w3.Plora_A
+model.layers.2.feed_forward.w3.Plora_B
+model.layers.2.feed_forward.w3.lora_sft_A
+model.layers.2.feed_forward.w3.lora_sft_B
+model.layers.2.feed_forward.w3.lora_dpo_A
+model.layers.2.feed_forward.w3.lora_dpo_B
+model.layers.2.feed_forward.w3.lora_web_A
+model.layers.2.feed_forward.w3.lora_web_B
+model.layers.2.feed_forward.w2
+model.layers.2.feed_forward.w2.lora_dropout
+model.layers.2.feed_forward.w2.Plora_A
+model.layers.2.feed_forward.w2.Plora_B
+model.layers.2.feed_forward.w2.lora_sft_A
+model.layers.2.feed_forward.w2.lora_sft_B
+model.layers.2.feed_forward.w2.lora_dpo_A
+model.layers.2.feed_forward.w2.lora_dpo_B
+model.layers.2.feed_forward.w2.lora_web_A
+model.layers.2.feed_forward.w2.lora_web_B
+model.layers.2.feed_forward.act_fn
+model.layers.2.attention_norm
+model.layers.2.ffn_norm
+model.layers.3
+model.layers.3.attention
+model.layers.3.attention.wqkv
+model.layers.3.attention.wqkv.lora_dropout
+model.layers.3.attention.wqkv.Plora_A
+model.layers.3.attention.wqkv.Plora_B
+model.layers.3.attention.wqkv.lora_sft_A
+model.layers.3.attention.wqkv.lora_sft_B
+model.layers.3.attention.wqkv.lora_dpo_A
+model.layers.3.attention.wqkv.lora_dpo_B
+model.layers.3.attention.wqkv.lora_web_A
+model.layers.3.attention.wqkv.lora_web_B
+model.layers.3.attention.wo
+model.layers.3.attention.wo.lora_dropout
+model.layers.3.attention.wo.Plora_A
+model.layers.3.attention.wo.Plora_B
+model.layers.3.attention.wo.lora_sft_A
+model.layers.3.attention.wo.lora_sft_B
+model.layers.3.attention.wo.lora_dpo_A
+model.layers.3.attention.wo.lora_dpo_B
+model.layers.3.attention.wo.lora_web_A
+model.layers.3.attention.wo.lora_web_B
+model.layers.3.attention.rotary_emb
+model.layers.3.feed_forward
+model.layers.3.feed_forward.w1
+model.layers.3.feed_forward.w1.lora_dropout
+model.layers.3.feed_forward.w1.Plora_A
+model.layers.3.feed_forward.w1.Plora_B
+model.layers.3.feed_forward.w1.lora_sft_A
+model.layers.3.feed_forward.w1.lora_sft_B
+model.layers.3.feed_forward.w1.lora_dpo_A
+model.layers.3.feed_forward.w1.lora_dpo_B
+model.layers.3.feed_forward.w1.lora_web_A
+model.layers.3.feed_forward.w1.lora_web_B
+model.layers.3.feed_forward.w3
+model.layers.3.feed_forward.w3.lora_dropout
+model.layers.3.feed_forward.w3.Plora_A
+model.layers.3.feed_forward.w3.Plora_B
+model.layers.3.feed_forward.w3.lora_sft_A
+model.layers.3.feed_forward.w3.lora_sft_B
+model.layers.3.feed_forward.w3.lora_dpo_A
+model.layers.3.feed_forward.w3.lora_dpo_B
+model.layers.3.feed_forward.w3.lora_web_A
+model.layers.3.feed_forward.w3.lora_web_B
+model.layers.3.feed_forward.w2
+model.layers.3.feed_forward.w2.lora_dropout
+model.layers.3.feed_forward.w2.Plora_A
+model.layers.3.feed_forward.w2.Plora_B
+model.layers.3.feed_forward.w2.lora_sft_A
+model.layers.3.feed_forward.w2.lora_sft_B
+model.layers.3.feed_forward.w2.lora_dpo_A
+model.layers.3.feed_forward.w2.lora_dpo_B
+model.layers.3.feed_forward.w2.lora_web_A
+model.layers.3.feed_forward.w2.lora_web_B
+model.layers.3.feed_forward.act_fn
+model.layers.3.attention_norm
+model.layers.3.ffn_norm
+model.layers.4
+model.layers.4.attention
+model.layers.4.attention.wqkv
+model.layers.4.attention.wqkv.lora_dropout
+model.layers.4.attention.wqkv.Plora_A
+model.layers.4.attention.wqkv.Plora_B
+model.layers.4.attention.wqkv.lora_sft_A
+model.layers.4.attention.wqkv.lora_sft_B
+model.layers.4.attention.wqkv.lora_dpo_A
+model.layers.4.attention.wqkv.lora_dpo_B
+model.layers.4.attention.wqkv.lora_web_A
+model.layers.4.attention.wqkv.lora_web_B
+model.layers.4.attention.wo
+model.layers.4.attention.wo.lora_dropout
+model.layers.4.attention.wo.Plora_A
+model.layers.4.attention.wo.Plora_B
+model.layers.4.attention.wo.lora_sft_A
+model.layers.4.attention.wo.lora_sft_B
+model.layers.4.attention.wo.lora_dpo_A
+model.layers.4.attention.wo.lora_dpo_B
+model.layers.4.attention.wo.lora_web_A
+model.layers.4.attention.wo.lora_web_B
+model.layers.4.attention.rotary_emb
+model.layers.4.feed_forward
+model.layers.4.feed_forward.w1
+model.layers.4.feed_forward.w1.lora_dropout
+model.layers.4.feed_forward.w1.Plora_A
+model.layers.4.feed_forward.w1.Plora_B
+model.layers.4.feed_forward.w1.lora_sft_A
+model.layers.4.feed_forward.w1.lora_sft_B
+model.layers.4.feed_forward.w1.lora_dpo_A
+model.layers.4.feed_forward.w1.lora_dpo_B
+model.layers.4.feed_forward.w1.lora_web_A
+model.layers.4.feed_forward.w1.lora_web_B
+model.layers.4.feed_forward.w3
+model.layers.4.feed_forward.w3.lora_dropout
+model.layers.4.feed_forward.w3.Plora_A
+model.layers.4.feed_forward.w3.Plora_B
+model.layers.4.feed_forward.w3.lora_sft_A
+model.layers.4.feed_forward.w3.lora_sft_B
+model.layers.4.feed_forward.w3.lora_dpo_A
+model.layers.4.feed_forward.w3.lora_dpo_B
+model.layers.4.feed_forward.w3.lora_web_A
+model.layers.4.feed_forward.w3.lora_web_B
+model.layers.4.feed_forward.w2
+model.layers.4.feed_forward.w2.lora_dropout
+model.layers.4.feed_forward.w2.Plora_A
+model.layers.4.feed_forward.w2.Plora_B
+model.layers.4.feed_forward.w2.lora_sft_A
+model.layers.4.feed_forward.w2.lora_sft_B
+model.layers.4.feed_forward.w2.lora_dpo_A
+model.layers.4.feed_forward.w2.lora_dpo_B
+model.layers.4.feed_forward.w2.lora_web_A
+model.layers.4.feed_forward.w2.lora_web_B
+model.layers.4.feed_forward.act_fn
+model.layers.4.attention_norm
+model.layers.4.ffn_norm
+model.layers.5
+model.layers.5.attention
+model.layers.5.attention.wqkv
+model.layers.5.attention.wqkv.lora_dropout
+model.layers.5.attention.wqkv.Plora_A
+model.layers.5.attention.wqkv.Plora_B
+model.layers.5.attention.wqkv.lora_sft_A
+model.layers.5.attention.wqkv.lora_sft_B
+model.layers.5.attention.wqkv.lora_dpo_A
+model.layers.5.attention.wqkv.lora_dpo_B
+model.layers.5.attention.wqkv.lora_web_A
+model.layers.5.attention.wqkv.lora_web_B
+model.layers.5.attention.wo
+model.layers.5.attention.wo.lora_dropout
+model.layers.5.attention.wo.Plora_A
+model.layers.5.attention.wo.Plora_B
+model.layers.5.attention.wo.lora_sft_A
+model.layers.5.attention.wo.lora_sft_B
+model.layers.5.attention.wo.lora_dpo_A
+model.layers.5.attention.wo.lora_dpo_B
+model.layers.5.attention.wo.lora_web_A
+model.layers.5.attention.wo.lora_web_B
+model.layers.5.attention.rotary_emb
+model.layers.5.feed_forward
+model.layers.5.feed_forward.w1
+model.layers.5.feed_forward.w1.lora_dropout
+model.layers.5.feed_forward.w1.Plora_A
+model.layers.5.feed_forward.w1.Plora_B
+model.layers.5.feed_forward.w1.lora_sft_A
+model.layers.5.feed_forward.w1.lora_sft_B
+model.layers.5.feed_forward.w1.lora_dpo_A
+model.layers.5.feed_forward.w1.lora_dpo_B
+model.layers.5.feed_forward.w1.lora_web_A
+model.layers.5.feed_forward.w1.lora_web_B
+model.layers.5.feed_forward.w3
+model.layers.5.feed_forward.w3.lora_dropout
+model.layers.5.feed_forward.w3.Plora_A
+model.layers.5.feed_forward.w3.Plora_B
+model.layers.5.feed_forward.w3.lora_sft_A
+model.layers.5.feed_forward.w3.lora_sft_B
+model.layers.5.feed_forward.w3.lora_dpo_A
+model.layers.5.feed_forward.w3.lora_dpo_B
+model.layers.5.feed_forward.w3.lora_web_A
+model.layers.5.feed_forward.w3.lora_web_B
+model.layers.5.feed_forward.w2
+model.layers.5.feed_forward.w2.lora_dropout
+model.layers.5.feed_forward.w2.Plora_A
+model.layers.5.feed_forward.w2.Plora_B
+model.layers.5.feed_forward.w2.lora_sft_A
+model.layers.5.feed_forward.w2.lora_sft_B
+model.layers.5.feed_forward.w2.lora_dpo_A
+model.layers.5.feed_forward.w2.lora_dpo_B
+model.layers.5.feed_forward.w2.lora_web_A
+model.layers.5.feed_forward.w2.lora_web_B
+model.layers.5.feed_forward.act_fn
+model.layers.5.attention_norm
+model.layers.5.ffn_norm
+model.layers.6
+model.layers.6.attention
+model.layers.6.attention.wqkv
+model.layers.6.attention.wqkv.lora_dropout
+model.layers.6.attention.wqkv.Plora_A
+model.layers.6.attention.wqkv.Plora_B
+model.layers.6.attention.wqkv.lora_sft_A
+model.layers.6.attention.wqkv.lora_sft_B
+model.layers.6.attention.wqkv.lora_dpo_A
+model.layers.6.attention.wqkv.lora_dpo_B
+model.layers.6.attention.wqkv.lora_web_A
+model.layers.6.attention.wqkv.lora_web_B
+model.layers.6.attention.wo
+model.layers.6.attention.wo.lora_dropout
+model.layers.6.attention.wo.Plora_A
+model.layers.6.attention.wo.Plora_B
+model.layers.6.attention.wo.lora_sft_A
+model.layers.6.attention.wo.lora_sft_B
+model.layers.6.attention.wo.lora_dpo_A
+model.layers.6.attention.wo.lora_dpo_B
+model.layers.6.attention.wo.lora_web_A
+model.layers.6.attention.wo.lora_web_B
+model.layers.6.attention.rotary_emb
+model.layers.6.feed_forward
+model.layers.6.feed_forward.w1
+model.layers.6.feed_forward.w1.lora_dropout
+model.layers.6.feed_forward.w1.Plora_A
+model.layers.6.feed_forward.w1.Plora_B
+model.layers.6.feed_forward.w1.lora_sft_A
+model.layers.6.feed_forward.w1.lora_sft_B
+model.layers.6.feed_forward.w1.lora_dpo_A
+model.layers.6.feed_forward.w1.lora_dpo_B
+model.layers.6.feed_forward.w1.lora_web_A
+model.layers.6.feed_forward.w1.lora_web_B
+model.layers.6.feed_forward.w3
+model.layers.6.feed_forward.w3.lora_dropout
+model.layers.6.feed_forward.w3.Plora_A
+model.layers.6.feed_forward.w3.Plora_B
+model.layers.6.feed_forward.w3.lora_sft_A
+model.layers.6.feed_forward.w3.lora_sft_B
+model.layers.6.feed_forward.w3.lora_dpo_A
+model.layers.6.feed_forward.w3.lora_dpo_B
+model.layers.6.feed_forward.w3.lora_web_A
+model.layers.6.feed_forward.w3.lora_web_B
+model.layers.6.feed_forward.w2
+model.layers.6.feed_forward.w2.lora_dropout
+model.layers.6.feed_forward.w2.Plora_A
+model.layers.6.feed_forward.w2.Plora_B
+model.layers.6.feed_forward.w2.lora_sft_A
+model.layers.6.feed_forward.w2.lora_sft_B
+model.layers.6.feed_forward.w2.lora_dpo_A
+model.layers.6.feed_forward.w2.lora_dpo_B
+model.layers.6.feed_forward.w2.lora_web_A
+model.layers.6.feed_forward.w2.lora_web_B
+model.layers.6.feed_forward.act_fn
+model.layers.6.attention_norm
+model.layers.6.ffn_norm
+model.layers.7
+model.layers.7.attention
+model.layers.7.attention.wqkv
+model.layers.7.attention.wqkv.lora_dropout
+model.layers.7.attention.wqkv.Plora_A
+model.layers.7.attention.wqkv.Plora_B
+model.layers.7.attention.wqkv.lora_sft_A
+model.layers.7.attention.wqkv.lora_sft_B
+model.layers.7.attention.wqkv.lora_dpo_A
+model.layers.7.attention.wqkv.lora_dpo_B
+model.layers.7.attention.wqkv.lora_web_A
+model.layers.7.attention.wqkv.lora_web_B
+model.layers.7.attention.wo
+model.layers.7.attention.wo.lora_dropout
+model.layers.7.attention.wo.Plora_A
+model.layers.7.attention.wo.Plora_B
+model.layers.7.attention.wo.lora_sft_A
+model.layers.7.attention.wo.lora_sft_B
+model.layers.7.attention.wo.lora_dpo_A
+model.layers.7.attention.wo.lora_dpo_B
+model.layers.7.attention.wo.lora_web_A
+model.layers.7.attention.wo.lora_web_B
+model.layers.7.attention.rotary_emb
+model.layers.7.feed_forward
+model.layers.7.feed_forward.w1
+model.layers.7.feed_forward.w1.lora_dropout
+model.layers.7.feed_forward.w1.Plora_A
+model.layers.7.feed_forward.w1.Plora_B
+model.layers.7.feed_forward.w1.lora_sft_A
+model.layers.7.feed_forward.w1.lora_sft_B
+model.layers.7.feed_forward.w1.lora_dpo_A
+model.layers.7.feed_forward.w1.lora_dpo_B
+model.layers.7.feed_forward.w1.lora_web_A
+model.layers.7.feed_forward.w1.lora_web_B
+model.layers.7.feed_forward.w3
+model.layers.7.feed_forward.w3.lora_dropout
+model.layers.7.feed_forward.w3.Plora_A
+model.layers.7.feed_forward.w3.Plora_B
+model.layers.7.feed_forward.w3.lora_sft_A
+model.layers.7.feed_forward.w3.lora_sft_B
+model.layers.7.feed_forward.w3.lora_dpo_A
+model.layers.7.feed_forward.w3.lora_dpo_B
+model.layers.7.feed_forward.w3.lora_web_A
+model.layers.7.feed_forward.w3.lora_web_B
+model.layers.7.feed_forward.w2
+model.layers.7.feed_forward.w2.lora_dropout
+model.layers.7.feed_forward.w2.Plora_A
+model.layers.7.feed_forward.w2.Plora_B
+model.layers.7.feed_forward.w2.lora_sft_A
+model.layers.7.feed_forward.w2.lora_sft_B
+model.layers.7.feed_forward.w2.lora_dpo_A
+model.layers.7.feed_forward.w2.lora_dpo_B
+model.layers.7.feed_forward.w2.lora_web_A
+model.layers.7.feed_forward.w2.lora_web_B
+model.layers.7.feed_forward.act_fn
+model.layers.7.attention_norm
+model.layers.7.ffn_norm
+model.layers.8
+model.layers.8.attention
+model.layers.8.attention.wqkv
+model.layers.8.attention.wqkv.lora_dropout
+model.layers.8.attention.wqkv.Plora_A
+model.layers.8.attention.wqkv.Plora_B
+model.layers.8.attention.wqkv.lora_sft_A
+model.layers.8.attention.wqkv.lora_sft_B
+model.layers.8.attention.wqkv.lora_dpo_A
+model.layers.8.attention.wqkv.lora_dpo_B
+model.layers.8.attention.wqkv.lora_web_A
+model.layers.8.attention.wqkv.lora_web_B
+model.layers.8.attention.wo
+model.layers.8.attention.wo.lora_dropout
+model.layers.8.attention.wo.Plora_A
+model.layers.8.attention.wo.Plora_B
+model.layers.8.attention.wo.lora_sft_A
+model.layers.8.attention.wo.lora_sft_B
+model.layers.8.attention.wo.lora_dpo_A
+model.layers.8.attention.wo.lora_dpo_B
+model.layers.8.attention.wo.lora_web_A
+model.layers.8.attention.wo.lora_web_B
+model.layers.8.attention.rotary_emb
+model.layers.8.feed_forward
+model.layers.8.feed_forward.w1
+model.layers.8.feed_forward.w1.lora_dropout
+model.layers.8.feed_forward.w1.Plora_A
+model.layers.8.feed_forward.w1.Plora_B
+model.layers.8.feed_forward.w1.lora_sft_A
+model.layers.8.feed_forward.w1.lora_sft_B
+model.layers.8.feed_forward.w1.lora_dpo_A
+model.layers.8.feed_forward.w1.lora_dpo_B
+model.layers.8.feed_forward.w1.lora_web_A
+model.layers.8.feed_forward.w1.lora_web_B
+model.layers.8.feed_forward.w3
+model.layers.8.feed_forward.w3.lora_dropout
+model.layers.8.feed_forward.w3.Plora_A
+model.layers.8.feed_forward.w3.Plora_B
+model.layers.8.feed_forward.w3.lora_sft_A
+model.layers.8.feed_forward.w3.lora_sft_B
+model.layers.8.feed_forward.w3.lora_dpo_A
+model.layers.8.feed_forward.w3.lora_dpo_B
+model.layers.8.feed_forward.w3.lora_web_A
+model.layers.8.feed_forward.w3.lora_web_B
+model.layers.8.feed_forward.w2
+model.layers.8.feed_forward.w2.lora_dropout
+model.layers.8.feed_forward.w2.Plora_A
+model.layers.8.feed_forward.w2.Plora_B
+model.layers.8.feed_forward.w2.lora_sft_A
+model.layers.8.feed_forward.w2.lora_sft_B
+model.layers.8.feed_forward.w2.lora_dpo_A
+model.layers.8.feed_forward.w2.lora_dpo_B
+model.layers.8.feed_forward.w2.lora_web_A
+model.layers.8.feed_forward.w2.lora_web_B
+model.layers.8.feed_forward.act_fn
+model.layers.8.attention_norm
+model.layers.8.ffn_norm
+model.layers.9
+model.layers.9.attention
+model.layers.9.attention.wqkv
+model.layers.9.attention.wqkv.lora_dropout
+model.layers.9.attention.wqkv.Plora_A
+model.layers.9.attention.wqkv.Plora_B
+model.layers.9.attention.wqkv.lora_sft_A
+model.layers.9.attention.wqkv.lora_sft_B
+model.layers.9.attention.wqkv.lora_dpo_A
+model.layers.9.attention.wqkv.lora_dpo_B
+model.layers.9.attention.wqkv.lora_web_A
+model.layers.9.attention.wqkv.lora_web_B
+model.layers.9.attention.wo
+model.layers.9.attention.wo.lora_dropout
+model.layers.9.attention.wo.Plora_A
+model.layers.9.attention.wo.Plora_B
+model.layers.9.attention.wo.lora_sft_A
+model.layers.9.attention.wo.lora_sft_B
+model.layers.9.attention.wo.lora_dpo_A
+model.layers.9.attention.wo.lora_dpo_B
+model.layers.9.attention.wo.lora_web_A
+model.layers.9.attention.wo.lora_web_B
+model.layers.9.attention.rotary_emb
+model.layers.9.feed_forward
+model.layers.9.feed_forward.w1
+model.layers.9.feed_forward.w1.lora_dropout
+model.layers.9.feed_forward.w1.Plora_A
+model.layers.9.feed_forward.w1.Plora_B
+model.layers.9.feed_forward.w1.lora_sft_A
+model.layers.9.feed_forward.w1.lora_sft_B
+model.layers.9.feed_forward.w1.lora_dpo_A
+model.layers.9.feed_forward.w1.lora_dpo_B
+model.layers.9.feed_forward.w1.lora_web_A
+model.layers.9.feed_forward.w1.lora_web_B
+model.layers.9.feed_forward.w3
+model.layers.9.feed_forward.w3.lora_dropout
+model.layers.9.feed_forward.w3.Plora_A
+model.layers.9.feed_forward.w3.Plora_B
+model.layers.9.feed_forward.w3.lora_sft_A
+model.layers.9.feed_forward.w3.lora_sft_B
+model.layers.9.feed_forward.w3.lora_dpo_A
+model.layers.9.feed_forward.w3.lora_dpo_B
+model.layers.9.feed_forward.w3.lora_web_A
+model.layers.9.feed_forward.w3.lora_web_B
+model.layers.9.feed_forward.w2
+model.layers.9.feed_forward.w2.lora_dropout
+model.layers.9.feed_forward.w2.Plora_A
+model.layers.9.feed_forward.w2.Plora_B
+model.layers.9.feed_forward.w2.lora_sft_A
+model.layers.9.feed_forward.w2.lora_sft_B
+model.layers.9.feed_forward.w2.lora_dpo_A
+model.layers.9.feed_forward.w2.lora_dpo_B
+model.layers.9.feed_forward.w2.lora_web_A
+model.layers.9.feed_forward.w2.lora_web_B
+model.layers.9.feed_forward.act_fn
+model.layers.9.attention_norm
+model.layers.9.ffn_norm
+model.layers.10
+model.layers.10.attention
+model.layers.10.attention.wqkv
+model.layers.10.attention.wqkv.lora_dropout
+model.layers.10.attention.wqkv.Plora_A
+model.layers.10.attention.wqkv.Plora_B
+model.layers.10.attention.wqkv.lora_sft_A
+model.layers.10.attention.wqkv.lora_sft_B
+model.layers.10.attention.wqkv.lora_dpo_A
+model.layers.10.attention.wqkv.lora_dpo_B
+model.layers.10.attention.wqkv.lora_web_A
+model.layers.10.attention.wqkv.lora_web_B
+model.layers.10.attention.wo
+model.layers.10.attention.wo.lora_dropout
+model.layers.10.attention.wo.Plora_A
+model.layers.10.attention.wo.Plora_B
+model.layers.10.attention.wo.lora_sft_A
+model.layers.10.attention.wo.lora_sft_B
+model.layers.10.attention.wo.lora_dpo_A
+model.layers.10.attention.wo.lora_dpo_B
+model.layers.10.attention.wo.lora_web_A
+model.layers.10.attention.wo.lora_web_B
+model.layers.10.attention.rotary_emb
+model.layers.10.feed_forward
+model.layers.10.feed_forward.w1
+model.layers.10.feed_forward.w1.lora_dropout
+model.layers.10.feed_forward.w1.Plora_A
+model.layers.10.feed_forward.w1.Plora_B
+model.layers.10.feed_forward.w1.lora_sft_A
+model.layers.10.feed_forward.w1.lora_sft_B
+model.layers.10.feed_forward.w1.lora_dpo_A
+model.layers.10.feed_forward.w1.lora_dpo_B
+model.layers.10.feed_forward.w1.lora_web_A
+model.layers.10.feed_forward.w1.lora_web_B
+model.layers.10.feed_forward.w3
+model.layers.10.feed_forward.w3.lora_dropout
+model.layers.10.feed_forward.w3.Plora_A
+model.layers.10.feed_forward.w3.Plora_B
+model.layers.10.feed_forward.w3.lora_sft_A
+model.layers.10.feed_forward.w3.lora_sft_B
+model.layers.10.feed_forward.w3.lora_dpo_A
+model.layers.10.feed_forward.w3.lora_dpo_B
+model.layers.10.feed_forward.w3.lora_web_A
+model.layers.10.feed_forward.w3.lora_web_B
+model.layers.10.feed_forward.w2
+model.layers.10.feed_forward.w2.lora_dropout
+model.layers.10.feed_forward.w2.Plora_A
+model.layers.10.feed_forward.w2.Plora_B
+model.layers.10.feed_forward.w2.lora_sft_A
+model.layers.10.feed_forward.w2.lora_sft_B
+model.layers.10.feed_forward.w2.lora_dpo_A
+model.layers.10.feed_forward.w2.lora_dpo_B
+model.layers.10.feed_forward.w2.lora_web_A
+model.layers.10.feed_forward.w2.lora_web_B
+model.layers.10.feed_forward.act_fn
+model.layers.10.attention_norm
+model.layers.10.ffn_norm
+model.layers.11
+model.layers.11.attention
+model.layers.11.attention.wqkv
+model.layers.11.attention.wqkv.lora_dropout
+model.layers.11.attention.wqkv.Plora_A
+model.layers.11.attention.wqkv.Plora_B
+model.layers.11.attention.wqkv.lora_sft_A
+model.layers.11.attention.wqkv.lora_sft_B
+model.layers.11.attention.wqkv.lora_dpo_A
+model.layers.11.attention.wqkv.lora_dpo_B
+model.layers.11.attention.wqkv.lora_web_A
+model.layers.11.attention.wqkv.lora_web_B
+model.layers.11.attention.wo
+model.layers.11.attention.wo.lora_dropout
+model.layers.11.attention.wo.Plora_A
+model.layers.11.attention.wo.Plora_B
+model.layers.11.attention.wo.lora_sft_A
+model.layers.11.attention.wo.lora_sft_B
+model.layers.11.attention.wo.lora_dpo_A
+model.layers.11.attention.wo.lora_dpo_B
+model.layers.11.attention.wo.lora_web_A
+model.layers.11.attention.wo.lora_web_B
+model.layers.11.attention.rotary_emb
+model.layers.11.feed_forward
+model.layers.11.feed_forward.w1
+model.layers.11.feed_forward.w1.lora_dropout
+model.layers.11.feed_forward.w1.Plora_A
+model.layers.11.feed_forward.w1.Plora_B
+model.layers.11.feed_forward.w1.lora_sft_A
+model.layers.11.feed_forward.w1.lora_sft_B
+model.layers.11.feed_forward.w1.lora_dpo_A
+model.layers.11.feed_forward.w1.lora_dpo_B
+model.layers.11.feed_forward.w1.lora_web_A
+model.layers.11.feed_forward.w1.lora_web_B
+model.layers.11.feed_forward.w3
+model.layers.11.feed_forward.w3.lora_dropout
+model.layers.11.feed_forward.w3.Plora_A
+model.layers.11.feed_forward.w3.Plora_B
+model.layers.11.feed_forward.w3.lora_sft_A
+model.layers.11.feed_forward.w3.lora_sft_B
+model.layers.11.feed_forward.w3.lora_dpo_A
+model.layers.11.feed_forward.w3.lora_dpo_B
+model.layers.11.feed_forward.w3.lora_web_A
+model.layers.11.feed_forward.w3.lora_web_B
+model.layers.11.feed_forward.w2
+model.layers.11.feed_forward.w2.lora_dropout
+model.layers.11.feed_forward.w2.Plora_A
+model.layers.11.feed_forward.w2.Plora_B
+model.layers.11.feed_forward.w2.lora_sft_A
+model.layers.11.feed_forward.w2.lora_sft_B
+model.layers.11.feed_forward.w2.lora_dpo_A
+model.layers.11.feed_forward.w2.lora_dpo_B
+model.layers.11.feed_forward.w2.lora_web_A
+model.layers.11.feed_forward.w2.lora_web_B
+model.layers.11.feed_forward.act_fn
+model.layers.11.attention_norm
+model.layers.11.ffn_norm
+model.layers.12
+model.layers.12.attention
+model.layers.12.attention.wqkv
+model.layers.12.attention.wqkv.lora_dropout
+model.layers.12.attention.wqkv.Plora_A
+model.layers.12.attention.wqkv.Plora_B
+model.layers.12.attention.wqkv.lora_sft_A
+model.layers.12.attention.wqkv.lora_sft_B
+model.layers.12.attention.wqkv.lora_dpo_A
+model.layers.12.attention.wqkv.lora_dpo_B
+model.layers.12.attention.wqkv.lora_web_A
+model.layers.12.attention.wqkv.lora_web_B
+model.layers.12.attention.wo
+model.layers.12.attention.wo.lora_dropout
+model.layers.12.attention.wo.Plora_A
+model.layers.12.attention.wo.Plora_B
+model.layers.12.attention.wo.lora_sft_A
+model.layers.12.attention.wo.lora_sft_B
+model.layers.12.attention.wo.lora_dpo_A
+model.layers.12.attention.wo.lora_dpo_B
+model.layers.12.attention.wo.lora_web_A
+model.layers.12.attention.wo.lora_web_B
+model.layers.12.attention.rotary_emb
+model.layers.12.feed_forward
+model.layers.12.feed_forward.w1
+model.layers.12.feed_forward.w1.lora_dropout
+model.layers.12.feed_forward.w1.Plora_A
+model.layers.12.feed_forward.w1.Plora_B
+model.layers.12.feed_forward.w1.lora_sft_A
+model.layers.12.feed_forward.w1.lora_sft_B
+model.layers.12.feed_forward.w1.lora_dpo_A
+model.layers.12.feed_forward.w1.lora_dpo_B
+model.layers.12.feed_forward.w1.lora_web_A
+model.layers.12.feed_forward.w1.lora_web_B
+model.layers.12.feed_forward.w3
+model.layers.12.feed_forward.w3.lora_dropout
+model.layers.12.feed_forward.w3.Plora_A
+model.layers.12.feed_forward.w3.Plora_B
+model.layers.12.feed_forward.w3.lora_sft_A
+model.layers.12.feed_forward.w3.lora_sft_B
+model.layers.12.feed_forward.w3.lora_dpo_A
+model.layers.12.feed_forward.w3.lora_dpo_B
+model.layers.12.feed_forward.w3.lora_web_A
+model.layers.12.feed_forward.w3.lora_web_B
+model.layers.12.feed_forward.w2
+model.layers.12.feed_forward.w2.lora_dropout
+model.layers.12.feed_forward.w2.Plora_A
+model.layers.12.feed_forward.w2.Plora_B
+model.layers.12.feed_forward.w2.lora_sft_A
+model.layers.12.feed_forward.w2.lora_sft_B
+model.layers.12.feed_forward.w2.lora_dpo_A
+model.layers.12.feed_forward.w2.lora_dpo_B
+model.layers.12.feed_forward.w2.lora_web_A
+model.layers.12.feed_forward.w2.lora_web_B
+model.layers.12.feed_forward.act_fn
+model.layers.12.attention_norm
+model.layers.12.ffn_norm
+model.layers.13
+model.layers.13.attention
+model.layers.13.attention.wqkv
+model.layers.13.attention.wqkv.lora_dropout
+model.layers.13.attention.wqkv.Plora_A
+model.layers.13.attention.wqkv.Plora_B
+model.layers.13.attention.wqkv.lora_sft_A
+model.layers.13.attention.wqkv.lora_sft_B
+model.layers.13.attention.wqkv.lora_dpo_A
+model.layers.13.attention.wqkv.lora_dpo_B
+model.layers.13.attention.wqkv.lora_web_A
+model.layers.13.attention.wqkv.lora_web_B
+model.layers.13.attention.wo
+model.layers.13.attention.wo.lora_dropout
+model.layers.13.attention.wo.Plora_A
+model.layers.13.attention.wo.Plora_B
+model.layers.13.attention.wo.lora_sft_A
+model.layers.13.attention.wo.lora_sft_B
+model.layers.13.attention.wo.lora_dpo_A
+model.layers.13.attention.wo.lora_dpo_B
+model.layers.13.attention.wo.lora_web_A
+model.layers.13.attention.wo.lora_web_B
+model.layers.13.attention.rotary_emb
+model.layers.13.feed_forward
+model.layers.13.feed_forward.w1
+model.layers.13.feed_forward.w1.lora_dropout
+model.layers.13.feed_forward.w1.Plora_A
+model.layers.13.feed_forward.w1.Plora_B
+model.layers.13.feed_forward.w1.lora_sft_A
+model.layers.13.feed_forward.w1.lora_sft_B
+model.layers.13.feed_forward.w1.lora_dpo_A
+model.layers.13.feed_forward.w1.lora_dpo_B
+model.layers.13.feed_forward.w1.lora_web_A
+model.layers.13.feed_forward.w1.lora_web_B
+model.layers.13.feed_forward.w3
+model.layers.13.feed_forward.w3.lora_dropout
+model.layers.13.feed_forward.w3.Plora_A
+model.layers.13.feed_forward.w3.Plora_B
+model.layers.13.feed_forward.w3.lora_sft_A
+model.layers.13.feed_forward.w3.lora_sft_B
+model.layers.13.feed_forward.w3.lora_dpo_A
+model.layers.13.feed_forward.w3.lora_dpo_B
+model.layers.13.feed_forward.w3.lora_web_A
+model.layers.13.feed_forward.w3.lora_web_B
+model.layers.13.feed_forward.w2
+model.layers.13.feed_forward.w2.lora_dropout
+model.layers.13.feed_forward.w2.Plora_A
+model.layers.13.feed_forward.w2.Plora_B
+model.layers.13.feed_forward.w2.lora_sft_A
+model.layers.13.feed_forward.w2.lora_sft_B
+model.layers.13.feed_forward.w2.lora_dpo_A
+model.layers.13.feed_forward.w2.lora_dpo_B
+model.layers.13.feed_forward.w2.lora_web_A
+model.layers.13.feed_forward.w2.lora_web_B
+model.layers.13.feed_forward.act_fn
+model.layers.13.attention_norm
+model.layers.13.ffn_norm
+model.layers.14
+model.layers.14.attention
+model.layers.14.attention.wqkv
+model.layers.14.attention.wqkv.lora_dropout
+model.layers.14.attention.wqkv.Plora_A
+model.layers.14.attention.wqkv.Plora_B
+model.layers.14.attention.wqkv.lora_sft_A
+model.layers.14.attention.wqkv.lora_sft_B
+model.layers.14.attention.wqkv.lora_dpo_A
+model.layers.14.attention.wqkv.lora_dpo_B
+model.layers.14.attention.wqkv.lora_web_A
+model.layers.14.attention.wqkv.lora_web_B
+model.layers.14.attention.wo
+model.layers.14.attention.wo.lora_dropout
+model.layers.14.attention.wo.Plora_A
+model.layers.14.attention.wo.Plora_B
+model.layers.14.attention.wo.lora_sft_A
+model.layers.14.attention.wo.lora_sft_B
+model.layers.14.attention.wo.lora_dpo_A
+model.layers.14.attention.wo.lora_dpo_B
+model.layers.14.attention.wo.lora_web_A
+model.layers.14.attention.wo.lora_web_B
+model.layers.14.attention.rotary_emb
+model.layers.14.feed_forward
+model.layers.14.feed_forward.w1
+model.layers.14.feed_forward.w1.lora_dropout
+model.layers.14.feed_forward.w1.Plora_A
+model.layers.14.feed_forward.w1.Plora_B
+model.layers.14.feed_forward.w1.lora_sft_A
+model.layers.14.feed_forward.w1.lora_sft_B
+model.layers.14.feed_forward.w1.lora_dpo_A
+model.layers.14.feed_forward.w1.lora_dpo_B
+model.layers.14.feed_forward.w1.lora_web_A
+model.layers.14.feed_forward.w1.lora_web_B
+model.layers.14.feed_forward.w3
+model.layers.14.feed_forward.w3.lora_dropout
+model.layers.14.feed_forward.w3.Plora_A
+model.layers.14.feed_forward.w3.Plora_B
+model.layers.14.feed_forward.w3.lora_sft_A
+model.layers.14.feed_forward.w3.lora_sft_B
+model.layers.14.feed_forward.w3.lora_dpo_A
+model.layers.14.feed_forward.w3.lora_dpo_B
+model.layers.14.feed_forward.w3.lora_web_A
+model.layers.14.feed_forward.w3.lora_web_B
+model.layers.14.feed_forward.w2
+model.layers.14.feed_forward.w2.lora_dropout
+model.layers.14.feed_forward.w2.Plora_A
+model.layers.14.feed_forward.w2.Plora_B
+model.layers.14.feed_forward.w2.lora_sft_A
+model.layers.14.feed_forward.w2.lora_sft_B
+model.layers.14.feed_forward.w2.lora_dpo_A
+model.layers.14.feed_forward.w2.lora_dpo_B
+model.layers.14.feed_forward.w2.lora_web_A
+model.layers.14.feed_forward.w2.lora_web_B
+model.layers.14.feed_forward.act_fn
+model.layers.14.attention_norm
+model.layers.14.ffn_norm
+model.layers.15
+model.layers.15.attention
+model.layers.15.attention.wqkv
+model.layers.15.attention.wqkv.lora_dropout
+model.layers.15.attention.wqkv.Plora_A
+model.layers.15.attention.wqkv.Plora_B
+model.layers.15.attention.wqkv.lora_sft_A
+model.layers.15.attention.wqkv.lora_sft_B
+model.layers.15.attention.wqkv.lora_dpo_A
+model.layers.15.attention.wqkv.lora_dpo_B
+model.layers.15.attention.wqkv.lora_web_A
+model.layers.15.attention.wqkv.lora_web_B
+model.layers.15.attention.wo
+model.layers.15.attention.wo.lora_dropout
+model.layers.15.attention.wo.Plora_A
+model.layers.15.attention.wo.Plora_B
+model.layers.15.attention.wo.lora_sft_A
+model.layers.15.attention.wo.lora_sft_B
+model.layers.15.attention.wo.lora_dpo_A
+model.layers.15.attention.wo.lora_dpo_B
+model.layers.15.attention.wo.lora_web_A
+model.layers.15.attention.wo.lora_web_B
+model.layers.15.attention.rotary_emb
+model.layers.15.feed_forward
+model.layers.15.feed_forward.w1
+model.layers.15.feed_forward.w1.lora_dropout
+model.layers.15.feed_forward.w1.Plora_A
+model.layers.15.feed_forward.w1.Plora_B
+model.layers.15.feed_forward.w1.lora_sft_A
+model.layers.15.feed_forward.w1.lora_sft_B
+model.layers.15.feed_forward.w1.lora_dpo_A
+model.layers.15.feed_forward.w1.lora_dpo_B
+model.layers.15.feed_forward.w1.lora_web_A
+model.layers.15.feed_forward.w1.lora_web_B
+model.layers.15.feed_forward.w3
+model.layers.15.feed_forward.w3.lora_dropout
+model.layers.15.feed_forward.w3.Plora_A
+model.layers.15.feed_forward.w3.Plora_B
+model.layers.15.feed_forward.w3.lora_sft_A
+model.layers.15.feed_forward.w3.lora_sft_B
+model.layers.15.feed_forward.w3.lora_dpo_A
+model.layers.15.feed_forward.w3.lora_dpo_B
+model.layers.15.feed_forward.w3.lora_web_A
+model.layers.15.feed_forward.w3.lora_web_B
+model.layers.15.feed_forward.w2
+model.layers.15.feed_forward.w2.lora_dropout
+model.layers.15.feed_forward.w2.Plora_A
+model.layers.15.feed_forward.w2.Plora_B
+model.layers.15.feed_forward.w2.lora_sft_A
+model.layers.15.feed_forward.w2.lora_sft_B
+model.layers.15.feed_forward.w2.lora_dpo_A
+model.layers.15.feed_forward.w2.lora_dpo_B
+model.layers.15.feed_forward.w2.lora_web_A
+model.layers.15.feed_forward.w2.lora_web_B
+model.layers.15.feed_forward.act_fn
+model.layers.15.attention_norm
+model.layers.15.ffn_norm
+model.layers.16
+model.layers.16.attention
+model.layers.16.attention.wqkv
+model.layers.16.attention.wqkv.lora_dropout
+model.layers.16.attention.wqkv.Plora_A
+model.layers.16.attention.wqkv.Plora_B
+model.layers.16.attention.wqkv.lora_sft_A
+model.layers.16.attention.wqkv.lora_sft_B
+model.layers.16.attention.wqkv.lora_dpo_A
+model.layers.16.attention.wqkv.lora_dpo_B
+model.layers.16.attention.wqkv.lora_web_A
+model.layers.16.attention.wqkv.lora_web_B
+model.layers.16.attention.wo
+model.layers.16.attention.wo.lora_dropout
+model.layers.16.attention.wo.Plora_A
+model.layers.16.attention.wo.Plora_B
+model.layers.16.attention.wo.lora_sft_A
+model.layers.16.attention.wo.lora_sft_B
+model.layers.16.attention.wo.lora_dpo_A
+model.layers.16.attention.wo.lora_dpo_B
+model.layers.16.attention.wo.lora_web_A
+model.layers.16.attention.wo.lora_web_B
+model.layers.16.attention.rotary_emb
+model.layers.16.feed_forward
+model.layers.16.feed_forward.w1
+model.layers.16.feed_forward.w1.lora_dropout
+model.layers.16.feed_forward.w1.Plora_A
+model.layers.16.feed_forward.w1.Plora_B
+model.layers.16.feed_forward.w1.lora_sft_A
+model.layers.16.feed_forward.w1.lora_sft_B
+model.layers.16.feed_forward.w1.lora_dpo_A
+model.layers.16.feed_forward.w1.lora_dpo_B
+model.layers.16.feed_forward.w1.lora_web_A
+model.layers.16.feed_forward.w1.lora_web_B
+model.layers.16.feed_forward.w3
+model.layers.16.feed_forward.w3.lora_dropout
+model.layers.16.feed_forward.w3.Plora_A
+model.layers.16.feed_forward.w3.Plora_B
+model.layers.16.feed_forward.w3.lora_sft_A
+model.layers.16.feed_forward.w3.lora_sft_B
+model.layers.16.feed_forward.w3.lora_dpo_A
+model.layers.16.feed_forward.w3.lora_dpo_B
+model.layers.16.feed_forward.w3.lora_web_A
+model.layers.16.feed_forward.w3.lora_web_B
+model.layers.16.feed_forward.w2
+model.layers.16.feed_forward.w2.lora_dropout
+model.layers.16.feed_forward.w2.Plora_A
+model.layers.16.feed_forward.w2.Plora_B
+model.layers.16.feed_forward.w2.lora_sft_A
+model.layers.16.feed_forward.w2.lora_sft_B
+model.layers.16.feed_forward.w2.lora_dpo_A
+model.layers.16.feed_forward.w2.lora_dpo_B
+model.layers.16.feed_forward.w2.lora_web_A
+model.layers.16.feed_forward.w2.lora_web_B
+model.layers.16.feed_forward.act_fn
+model.layers.16.attention_norm
+model.layers.16.ffn_norm
+model.layers.17
+model.layers.17.attention
+model.layers.17.attention.wqkv
+model.layers.17.attention.wqkv.lora_dropout
+model.layers.17.attention.wqkv.Plora_A
+model.layers.17.attention.wqkv.Plora_B
+model.layers.17.attention.wqkv.lora_sft_A
+model.layers.17.attention.wqkv.lora_sft_B
+model.layers.17.attention.wqkv.lora_dpo_A
+model.layers.17.attention.wqkv.lora_dpo_B
+model.layers.17.attention.wqkv.lora_web_A
+model.layers.17.attention.wqkv.lora_web_B
+model.layers.17.attention.wo
+model.layers.17.attention.wo.lora_dropout
+model.layers.17.attention.wo.Plora_A
+model.layers.17.attention.wo.Plora_B
+model.layers.17.attention.wo.lora_sft_A
+model.layers.17.attention.wo.lora_sft_B
+model.layers.17.attention.wo.lora_dpo_A
+model.layers.17.attention.wo.lora_dpo_B
+model.layers.17.attention.wo.lora_web_A
+model.layers.17.attention.wo.lora_web_B
+model.layers.17.attention.rotary_emb
+model.layers.17.feed_forward
+model.layers.17.feed_forward.w1
+model.layers.17.feed_forward.w1.lora_dropout
+model.layers.17.feed_forward.w1.Plora_A
+model.layers.17.feed_forward.w1.Plora_B
+model.layers.17.feed_forward.w1.lora_sft_A
+model.layers.17.feed_forward.w1.lora_sft_B
+model.layers.17.feed_forward.w1.lora_dpo_A
+model.layers.17.feed_forward.w1.lora_dpo_B
+model.layers.17.feed_forward.w1.lora_web_A
+model.layers.17.feed_forward.w1.lora_web_B
+model.layers.17.feed_forward.w3
+model.layers.17.feed_forward.w3.lora_dropout
+model.layers.17.feed_forward.w3.Plora_A
+model.layers.17.feed_forward.w3.Plora_B
+model.layers.17.feed_forward.w3.lora_sft_A
+model.layers.17.feed_forward.w3.lora_sft_B
+model.layers.17.feed_forward.w3.lora_dpo_A
+model.layers.17.feed_forward.w3.lora_dpo_B
+model.layers.17.feed_forward.w3.lora_web_A
+model.layers.17.feed_forward.w3.lora_web_B
+model.layers.17.feed_forward.w2
+model.layers.17.feed_forward.w2.lora_dropout
+model.layers.17.feed_forward.w2.Plora_A
+model.layers.17.feed_forward.w2.Plora_B
+model.layers.17.feed_forward.w2.lora_sft_A
+model.layers.17.feed_forward.w2.lora_sft_B
+model.layers.17.feed_forward.w2.lora_dpo_A
+model.layers.17.feed_forward.w2.lora_dpo_B
+model.layers.17.feed_forward.w2.lora_web_A
+model.layers.17.feed_forward.w2.lora_web_B
+model.layers.17.feed_forward.act_fn
+model.layers.17.attention_norm
+model.layers.17.ffn_norm
+model.layers.18
+model.layers.18.attention
+model.layers.18.attention.wqkv
+model.layers.18.attention.wqkv.lora_dropout
+model.layers.18.attention.wqkv.Plora_A
+model.layers.18.attention.wqkv.Plora_B
+model.layers.18.attention.wqkv.lora_sft_A
+model.layers.18.attention.wqkv.lora_sft_B
+model.layers.18.attention.wqkv.lora_dpo_A
+model.layers.18.attention.wqkv.lora_dpo_B
+model.layers.18.attention.wqkv.lora_web_A
+model.layers.18.attention.wqkv.lora_web_B
+model.layers.18.attention.wo
+model.layers.18.attention.wo.lora_dropout
+model.layers.18.attention.wo.Plora_A
+model.layers.18.attention.wo.Plora_B
+model.layers.18.attention.wo.lora_sft_A
+model.layers.18.attention.wo.lora_sft_B
+model.layers.18.attention.wo.lora_dpo_A
+model.layers.18.attention.wo.lora_dpo_B
+model.layers.18.attention.wo.lora_web_A
+model.layers.18.attention.wo.lora_web_B
+model.layers.18.attention.rotary_emb
+model.layers.18.feed_forward
+model.layers.18.feed_forward.w1
+model.layers.18.feed_forward.w1.lora_dropout
+model.layers.18.feed_forward.w1.Plora_A
+model.layers.18.feed_forward.w1.Plora_B
+model.layers.18.feed_forward.w1.lora_sft_A
+model.layers.18.feed_forward.w1.lora_sft_B
+model.layers.18.feed_forward.w1.lora_dpo_A
+model.layers.18.feed_forward.w1.lora_dpo_B
+model.layers.18.feed_forward.w1.lora_web_A
+model.layers.18.feed_forward.w1.lora_web_B
+model.layers.18.feed_forward.w3
+model.layers.18.feed_forward.w3.lora_dropout
+model.layers.18.feed_forward.w3.Plora_A
+model.layers.18.feed_forward.w3.Plora_B
+model.layers.18.feed_forward.w3.lora_sft_A
+model.layers.18.feed_forward.w3.lora_sft_B
+model.layers.18.feed_forward.w3.lora_dpo_A
+model.layers.18.feed_forward.w3.lora_dpo_B
+model.layers.18.feed_forward.w3.lora_web_A
+model.layers.18.feed_forward.w3.lora_web_B
+model.layers.18.feed_forward.w2
+model.layers.18.feed_forward.w2.lora_dropout
+model.layers.18.feed_forward.w2.Plora_A
+model.layers.18.feed_forward.w2.Plora_B
+model.layers.18.feed_forward.w2.lora_sft_A
+model.layers.18.feed_forward.w2.lora_sft_B
+model.layers.18.feed_forward.w2.lora_dpo_A
+model.layers.18.feed_forward.w2.lora_dpo_B
+model.layers.18.feed_forward.w2.lora_web_A
+model.layers.18.feed_forward.w2.lora_web_B
+model.layers.18.feed_forward.act_fn
+model.layers.18.attention_norm
+model.layers.18.ffn_norm
+model.layers.19
+model.layers.19.attention
+model.layers.19.attention.wqkv
+model.layers.19.attention.wqkv.lora_dropout
+model.layers.19.attention.wqkv.Plora_A
+model.layers.19.attention.wqkv.Plora_B
+model.layers.19.attention.wqkv.lora_sft_A
+model.layers.19.attention.wqkv.lora_sft_B
+model.layers.19.attention.wqkv.lora_dpo_A
+model.layers.19.attention.wqkv.lora_dpo_B
+model.layers.19.attention.wqkv.lora_web_A
+model.layers.19.attention.wqkv.lora_web_B
+model.layers.19.attention.wo
+model.layers.19.attention.wo.lora_dropout
+model.layers.19.attention.wo.Plora_A
+model.layers.19.attention.wo.Plora_B
+model.layers.19.attention.wo.lora_sft_A
+model.layers.19.attention.wo.lora_sft_B
+model.layers.19.attention.wo.lora_dpo_A
+model.layers.19.attention.wo.lora_dpo_B
+model.layers.19.attention.wo.lora_web_A
+model.layers.19.attention.wo.lora_web_B
+model.layers.19.attention.rotary_emb
+model.layers.19.feed_forward
+model.layers.19.feed_forward.w1
+model.layers.19.feed_forward.w1.lora_dropout
+model.layers.19.feed_forward.w1.Plora_A
+model.layers.19.feed_forward.w1.Plora_B
+model.layers.19.feed_forward.w1.lora_sft_A
+model.layers.19.feed_forward.w1.lora_sft_B
+model.layers.19.feed_forward.w1.lora_dpo_A
+model.layers.19.feed_forward.w1.lora_dpo_B
+model.layers.19.feed_forward.w1.lora_web_A
+model.layers.19.feed_forward.w1.lora_web_B
+model.layers.19.feed_forward.w3
+model.layers.19.feed_forward.w3.lora_dropout
+model.layers.19.feed_forward.w3.Plora_A
+model.layers.19.feed_forward.w3.Plora_B
+model.layers.19.feed_forward.w3.lora_sft_A
+model.layers.19.feed_forward.w3.lora_sft_B
+model.layers.19.feed_forward.w3.lora_dpo_A
+model.layers.19.feed_forward.w3.lora_dpo_B
+model.layers.19.feed_forward.w3.lora_web_A
+model.layers.19.feed_forward.w3.lora_web_B
+model.layers.19.feed_forward.w2
+model.layers.19.feed_forward.w2.lora_dropout
+model.layers.19.feed_forward.w2.Plora_A
+model.layers.19.feed_forward.w2.Plora_B
+model.layers.19.feed_forward.w2.lora_sft_A
+model.layers.19.feed_forward.w2.lora_sft_B
+model.layers.19.feed_forward.w2.lora_dpo_A
+model.layers.19.feed_forward.w2.lora_dpo_B
+model.layers.19.feed_forward.w2.lora_web_A
+model.layers.19.feed_forward.w2.lora_web_B
+model.layers.19.feed_forward.act_fn
+model.layers.19.attention_norm
+model.layers.19.ffn_norm
+model.layers.20
+model.layers.20.attention
+model.layers.20.attention.wqkv
+model.layers.20.attention.wqkv.lora_dropout
+model.layers.20.attention.wqkv.Plora_A
+model.layers.20.attention.wqkv.Plora_B
+model.layers.20.attention.wqkv.lora_sft_A
+model.layers.20.attention.wqkv.lora_sft_B
+model.layers.20.attention.wqkv.lora_dpo_A
+model.layers.20.attention.wqkv.lora_dpo_B
+model.layers.20.attention.wqkv.lora_web_A
+model.layers.20.attention.wqkv.lora_web_B
+model.layers.20.attention.wo
+model.layers.20.attention.wo.lora_dropout
+model.layers.20.attention.wo.Plora_A
+model.layers.20.attention.wo.Plora_B
+model.layers.20.attention.wo.lora_sft_A
+model.layers.20.attention.wo.lora_sft_B
+model.layers.20.attention.wo.lora_dpo_A
+model.layers.20.attention.wo.lora_dpo_B
+model.layers.20.attention.wo.lora_web_A
+model.layers.20.attention.wo.lora_web_B
+model.layers.20.attention.rotary_emb
+model.layers.20.feed_forward
+model.layers.20.feed_forward.w1
+model.layers.20.feed_forward.w1.lora_dropout
+model.layers.20.feed_forward.w1.Plora_A
+model.layers.20.feed_forward.w1.Plora_B
+model.layers.20.feed_forward.w1.lora_sft_A
+model.layers.20.feed_forward.w1.lora_sft_B
+model.layers.20.feed_forward.w1.lora_dpo_A
+model.layers.20.feed_forward.w1.lora_dpo_B
+model.layers.20.feed_forward.w1.lora_web_A
+model.layers.20.feed_forward.w1.lora_web_B
+model.layers.20.feed_forward.w3
+model.layers.20.feed_forward.w3.lora_dropout
+model.layers.20.feed_forward.w3.Plora_A
+model.layers.20.feed_forward.w3.Plora_B
+model.layers.20.feed_forward.w3.lora_sft_A
+model.layers.20.feed_forward.w3.lora_sft_B
+model.layers.20.feed_forward.w3.lora_dpo_A
+model.layers.20.feed_forward.w3.lora_dpo_B
+model.layers.20.feed_forward.w3.lora_web_A
+model.layers.20.feed_forward.w3.lora_web_B
+model.layers.20.feed_forward.w2
+model.layers.20.feed_forward.w2.lora_dropout
+model.layers.20.feed_forward.w2.Plora_A
+model.layers.20.feed_forward.w2.Plora_B
+model.layers.20.feed_forward.w2.lora_sft_A
+model.layers.20.feed_forward.w2.lora_sft_B
+model.layers.20.feed_forward.w2.lora_dpo_A
+model.layers.20.feed_forward.w2.lora_dpo_B
+model.layers.20.feed_forward.w2.lora_web_A
+model.layers.20.feed_forward.w2.lora_web_B
+model.layers.20.feed_forward.act_fn
+model.layers.20.attention_norm
+model.layers.20.ffn_norm
+model.layers.21
+model.layers.21.attention
+model.layers.21.attention.wqkv
+model.layers.21.attention.wqkv.lora_dropout
+model.layers.21.attention.wqkv.Plora_A
+model.layers.21.attention.wqkv.Plora_B
+model.layers.21.attention.wqkv.lora_sft_A
+model.layers.21.attention.wqkv.lora_sft_B
+model.layers.21.attention.wqkv.lora_dpo_A
+model.layers.21.attention.wqkv.lora_dpo_B
+model.layers.21.attention.wqkv.lora_web_A
+model.layers.21.attention.wqkv.lora_web_B
+model.layers.21.attention.wo
+model.layers.21.attention.wo.lora_dropout
+model.layers.21.attention.wo.Plora_A
+model.layers.21.attention.wo.Plora_B
+model.layers.21.attention.wo.lora_sft_A
+model.layers.21.attention.wo.lora_sft_B
+model.layers.21.attention.wo.lora_dpo_A
+model.layers.21.attention.wo.lora_dpo_B
+model.layers.21.attention.wo.lora_web_A
+model.layers.21.attention.wo.lora_web_B
+model.layers.21.attention.rotary_emb
+model.layers.21.feed_forward
+model.layers.21.feed_forward.w1
+model.layers.21.feed_forward.w1.lora_dropout
+model.layers.21.feed_forward.w1.Plora_A
+model.layers.21.feed_forward.w1.Plora_B
+model.layers.21.feed_forward.w1.lora_sft_A
+model.layers.21.feed_forward.w1.lora_sft_B
+model.layers.21.feed_forward.w1.lora_dpo_A
+model.layers.21.feed_forward.w1.lora_dpo_B
+model.layers.21.feed_forward.w1.lora_web_A
+model.layers.21.feed_forward.w1.lora_web_B
+model.layers.21.feed_forward.w3
+model.layers.21.feed_forward.w3.lora_dropout
+model.layers.21.feed_forward.w3.Plora_A
+model.layers.21.feed_forward.w3.Plora_B
+model.layers.21.feed_forward.w3.lora_sft_A
+model.layers.21.feed_forward.w3.lora_sft_B
+model.layers.21.feed_forward.w3.lora_dpo_A
+model.layers.21.feed_forward.w3.lora_dpo_B
+model.layers.21.feed_forward.w3.lora_web_A
+model.layers.21.feed_forward.w3.lora_web_B
+model.layers.21.feed_forward.w2
+model.layers.21.feed_forward.w2.lora_dropout
+model.layers.21.feed_forward.w2.Plora_A
+model.layers.21.feed_forward.w2.Plora_B
+model.layers.21.feed_forward.w2.lora_sft_A
+model.layers.21.feed_forward.w2.lora_sft_B
+model.layers.21.feed_forward.w2.lora_dpo_A
+model.layers.21.feed_forward.w2.lora_dpo_B
+model.layers.21.feed_forward.w2.lora_web_A
+model.layers.21.feed_forward.w2.lora_web_B
+model.layers.21.feed_forward.act_fn
+model.layers.21.attention_norm
+model.layers.21.ffn_norm
+model.layers.22
+model.layers.22.attention
+model.layers.22.attention.wqkv
+model.layers.22.attention.wqkv.lora_dropout
+model.layers.22.attention.wqkv.Plora_A
+model.layers.22.attention.wqkv.Plora_B
+model.layers.22.attention.wqkv.lora_sft_A
+model.layers.22.attention.wqkv.lora_sft_B
+model.layers.22.attention.wqkv.lora_dpo_A
+model.layers.22.attention.wqkv.lora_dpo_B
+model.layers.22.attention.wqkv.lora_web_A
+model.layers.22.attention.wqkv.lora_web_B
+model.layers.22.attention.wo
+model.layers.22.attention.wo.lora_dropout
+model.layers.22.attention.wo.Plora_A
+model.layers.22.attention.wo.Plora_B
+model.layers.22.attention.wo.lora_sft_A
+model.layers.22.attention.wo.lora_sft_B
+model.layers.22.attention.wo.lora_dpo_A
+model.layers.22.attention.wo.lora_dpo_B
+model.layers.22.attention.wo.lora_web_A
+model.layers.22.attention.wo.lora_web_B
+model.layers.22.attention.rotary_emb
+model.layers.22.feed_forward
+model.layers.22.feed_forward.w1
+model.layers.22.feed_forward.w1.lora_dropout
+model.layers.22.feed_forward.w1.Plora_A
+model.layers.22.feed_forward.w1.Plora_B
+model.layers.22.feed_forward.w1.lora_sft_A
+model.layers.22.feed_forward.w1.lora_sft_B
+model.layers.22.feed_forward.w1.lora_dpo_A
+model.layers.22.feed_forward.w1.lora_dpo_B
+model.layers.22.feed_forward.w1.lora_web_A
+model.layers.22.feed_forward.w1.lora_web_B
+model.layers.22.feed_forward.w3
+model.layers.22.feed_forward.w3.lora_dropout
+model.layers.22.feed_forward.w3.Plora_A
+model.layers.22.feed_forward.w3.Plora_B
+model.layers.22.feed_forward.w3.lora_sft_A
+model.layers.22.feed_forward.w3.lora_sft_B
+model.layers.22.feed_forward.w3.lora_dpo_A
+model.layers.22.feed_forward.w3.lora_dpo_B
+model.layers.22.feed_forward.w3.lora_web_A
+model.layers.22.feed_forward.w3.lora_web_B
+model.layers.22.feed_forward.w2
+model.layers.22.feed_forward.w2.lora_dropout
+model.layers.22.feed_forward.w2.Plora_A
+model.layers.22.feed_forward.w2.Plora_B
+model.layers.22.feed_forward.w2.lora_sft_A
+model.layers.22.feed_forward.w2.lora_sft_B
+model.layers.22.feed_forward.w2.lora_dpo_A
+model.layers.22.feed_forward.w2.lora_dpo_B
+model.layers.22.feed_forward.w2.lora_web_A
+model.layers.22.feed_forward.w2.lora_web_B
+model.layers.22.feed_forward.act_fn
+model.layers.22.attention_norm
+model.layers.22.ffn_norm
+model.layers.23
+model.layers.23.attention
+model.layers.23.attention.wqkv
+model.layers.23.attention.wqkv.lora_dropout
+model.layers.23.attention.wqkv.Plora_A
+model.layers.23.attention.wqkv.Plora_B
+model.layers.23.attention.wqkv.lora_sft_A
+model.layers.23.attention.wqkv.lora_sft_B
+model.layers.23.attention.wqkv.lora_dpo_A
+model.layers.23.attention.wqkv.lora_dpo_B
+model.layers.23.attention.wqkv.lora_web_A
+model.layers.23.attention.wqkv.lora_web_B
+model.layers.23.attention.wo
+model.layers.23.attention.wo.lora_dropout
+model.layers.23.attention.wo.Plora_A
+model.layers.23.attention.wo.Plora_B
+model.layers.23.attention.wo.lora_sft_A
+model.layers.23.attention.wo.lora_sft_B
+model.layers.23.attention.wo.lora_dpo_A
+model.layers.23.attention.wo.lora_dpo_B
+model.layers.23.attention.wo.lora_web_A
+model.layers.23.attention.wo.lora_web_B
+model.layers.23.attention.rotary_emb
+model.layers.23.feed_forward
+model.layers.23.feed_forward.w1
+model.layers.23.feed_forward.w1.lora_dropout
+model.layers.23.feed_forward.w1.Plora_A
+model.layers.23.feed_forward.w1.Plora_B
+model.layers.23.feed_forward.w1.lora_sft_A
+model.layers.23.feed_forward.w1.lora_sft_B
+model.layers.23.feed_forward.w1.lora_dpo_A
+model.layers.23.feed_forward.w1.lora_dpo_B
+model.layers.23.feed_forward.w1.lora_web_A
+model.layers.23.feed_forward.w1.lora_web_B
+model.layers.23.feed_forward.w3
+model.layers.23.feed_forward.w3.lora_dropout
+model.layers.23.feed_forward.w3.Plora_A
+model.layers.23.feed_forward.w3.Plora_B
+model.layers.23.feed_forward.w3.lora_sft_A
+model.layers.23.feed_forward.w3.lora_sft_B
+model.layers.23.feed_forward.w3.lora_dpo_A
+model.layers.23.feed_forward.w3.lora_dpo_B
+model.layers.23.feed_forward.w3.lora_web_A
+model.layers.23.feed_forward.w3.lora_web_B
+model.layers.23.feed_forward.w2
+model.layers.23.feed_forward.w2.lora_dropout
+model.layers.23.feed_forward.w2.Plora_A
+model.layers.23.feed_forward.w2.Plora_B
+model.layers.23.feed_forward.w2.lora_sft_A
+model.layers.23.feed_forward.w2.lora_sft_B
+model.layers.23.feed_forward.w2.lora_dpo_A
+model.layers.23.feed_forward.w2.lora_dpo_B
+model.layers.23.feed_forward.w2.lora_web_A
+model.layers.23.feed_forward.w2.lora_web_B
+model.layers.23.feed_forward.act_fn
+model.layers.23.attention_norm
+model.layers.23.ffn_norm
+model.layers.24
+model.layers.24.attention
+model.layers.24.attention.wqkv
+model.layers.24.attention.wqkv.lora_dropout
+model.layers.24.attention.wqkv.Plora_A
+model.layers.24.attention.wqkv.Plora_B
+model.layers.24.attention.wqkv.lora_sft_A
+model.layers.24.attention.wqkv.lora_sft_B
+model.layers.24.attention.wqkv.lora_dpo_A
+model.layers.24.attention.wqkv.lora_dpo_B
+model.layers.24.attention.wqkv.lora_web_A
+model.layers.24.attention.wqkv.lora_web_B
+model.layers.24.attention.wo
+model.layers.24.attention.wo.lora_dropout
+model.layers.24.attention.wo.Plora_A
+model.layers.24.attention.wo.Plora_B
+model.layers.24.attention.wo.lora_sft_A
+model.layers.24.attention.wo.lora_sft_B
+model.layers.24.attention.wo.lora_dpo_A
+model.layers.24.attention.wo.lora_dpo_B
+model.layers.24.attention.wo.lora_web_A
+model.layers.24.attention.wo.lora_web_B
+model.layers.24.attention.rotary_emb
+model.layers.24.feed_forward
+model.layers.24.feed_forward.w1
+model.layers.24.feed_forward.w1.lora_dropout
+model.layers.24.feed_forward.w1.Plora_A
+model.layers.24.feed_forward.w1.Plora_B
+model.layers.24.feed_forward.w1.lora_sft_A
+model.layers.24.feed_forward.w1.lora_sft_B
+model.layers.24.feed_forward.w1.lora_dpo_A
+model.layers.24.feed_forward.w1.lora_dpo_B
+model.layers.24.feed_forward.w1.lora_web_A
+model.layers.24.feed_forward.w1.lora_web_B
+model.layers.24.feed_forward.w3
+model.layers.24.feed_forward.w3.lora_dropout
+model.layers.24.feed_forward.w3.Plora_A
+model.layers.24.feed_forward.w3.Plora_B
+model.layers.24.feed_forward.w3.lora_sft_A
+model.layers.24.feed_forward.w3.lora_sft_B
+model.layers.24.feed_forward.w3.lora_dpo_A
+model.layers.24.feed_forward.w3.lora_dpo_B
+model.layers.24.feed_forward.w3.lora_web_A
+model.layers.24.feed_forward.w3.lora_web_B
+model.layers.24.feed_forward.w2
+model.layers.24.feed_forward.w2.lora_dropout
+model.layers.24.feed_forward.w2.Plora_A
+model.layers.24.feed_forward.w2.Plora_B
+model.layers.24.feed_forward.w2.lora_sft_A
+model.layers.24.feed_forward.w2.lora_sft_B
+model.layers.24.feed_forward.w2.lora_dpo_A
+model.layers.24.feed_forward.w2.lora_dpo_B
+model.layers.24.feed_forward.w2.lora_web_A
+model.layers.24.feed_forward.w2.lora_web_B
+model.layers.24.feed_forward.act_fn
+model.layers.24.attention_norm
+model.layers.24.ffn_norm
+model.layers.25
+model.layers.25.attention
+model.layers.25.attention.wqkv
+model.layers.25.attention.wqkv.lora_dropout
+model.layers.25.attention.wqkv.Plora_A
+model.layers.25.attention.wqkv.Plora_B
+model.layers.25.attention.wqkv.lora_sft_A
+model.layers.25.attention.wqkv.lora_sft_B
+model.layers.25.attention.wqkv.lora_dpo_A
+model.layers.25.attention.wqkv.lora_dpo_B
+model.layers.25.attention.wqkv.lora_web_A
+model.layers.25.attention.wqkv.lora_web_B
+model.layers.25.attention.wo
+model.layers.25.attention.wo.lora_dropout
+model.layers.25.attention.wo.Plora_A
+model.layers.25.attention.wo.Plora_B
+model.layers.25.attention.wo.lora_sft_A
+model.layers.25.attention.wo.lora_sft_B
+model.layers.25.attention.wo.lora_dpo_A
+model.layers.25.attention.wo.lora_dpo_B
+model.layers.25.attention.wo.lora_web_A
+model.layers.25.attention.wo.lora_web_B
+model.layers.25.attention.rotary_emb
+model.layers.25.feed_forward
+model.layers.25.feed_forward.w1
+model.layers.25.feed_forward.w1.lora_dropout
+model.layers.25.feed_forward.w1.Plora_A
+model.layers.25.feed_forward.w1.Plora_B
+model.layers.25.feed_forward.w1.lora_sft_A
+model.layers.25.feed_forward.w1.lora_sft_B
+model.layers.25.feed_forward.w1.lora_dpo_A
+model.layers.25.feed_forward.w1.lora_dpo_B
+model.layers.25.feed_forward.w1.lora_web_A
+model.layers.25.feed_forward.w1.lora_web_B
+model.layers.25.feed_forward.w3
+model.layers.25.feed_forward.w3.lora_dropout
+model.layers.25.feed_forward.w3.Plora_A
+model.layers.25.feed_forward.w3.Plora_B
+model.layers.25.feed_forward.w3.lora_sft_A
+model.layers.25.feed_forward.w3.lora_sft_B
+model.layers.25.feed_forward.w3.lora_dpo_A
+model.layers.25.feed_forward.w3.lora_dpo_B
+model.layers.25.feed_forward.w3.lora_web_A
+model.layers.25.feed_forward.w3.lora_web_B
+model.layers.25.feed_forward.w2
+model.layers.25.feed_forward.w2.lora_dropout
+model.layers.25.feed_forward.w2.Plora_A
+model.layers.25.feed_forward.w2.Plora_B
+model.layers.25.feed_forward.w2.lora_sft_A
+model.layers.25.feed_forward.w2.lora_sft_B
+model.layers.25.feed_forward.w2.lora_dpo_A
+model.layers.25.feed_forward.w2.lora_dpo_B
+model.layers.25.feed_forward.w2.lora_web_A
+model.layers.25.feed_forward.w2.lora_web_B
+model.layers.25.feed_forward.act_fn
+model.layers.25.attention_norm
+model.layers.25.ffn_norm
+model.layers.26
+model.layers.26.attention
+model.layers.26.attention.wqkv
+model.layers.26.attention.wqkv.lora_dropout
+model.layers.26.attention.wqkv.Plora_A
+model.layers.26.attention.wqkv.Plora_B
+model.layers.26.attention.wqkv.lora_sft_A
+model.layers.26.attention.wqkv.lora_sft_B
+model.layers.26.attention.wqkv.lora_dpo_A
+model.layers.26.attention.wqkv.lora_dpo_B
+model.layers.26.attention.wqkv.lora_web_A
+model.layers.26.attention.wqkv.lora_web_B
+model.layers.26.attention.wo
+model.layers.26.attention.wo.lora_dropout
+model.layers.26.attention.wo.Plora_A
+model.layers.26.attention.wo.Plora_B
+model.layers.26.attention.wo.lora_sft_A
+model.layers.26.attention.wo.lora_sft_B
+model.layers.26.attention.wo.lora_dpo_A
+model.layers.26.attention.wo.lora_dpo_B
+model.layers.26.attention.wo.lora_web_A
+model.layers.26.attention.wo.lora_web_B
+model.layers.26.attention.rotary_emb
+model.layers.26.feed_forward
+model.layers.26.feed_forward.w1
+model.layers.26.feed_forward.w1.lora_dropout
+model.layers.26.feed_forward.w1.Plora_A
+model.layers.26.feed_forward.w1.Plora_B
+model.layers.26.feed_forward.w1.lora_sft_A
+model.layers.26.feed_forward.w1.lora_sft_B
+model.layers.26.feed_forward.w1.lora_dpo_A
+model.layers.26.feed_forward.w1.lora_dpo_B
+model.layers.26.feed_forward.w1.lora_web_A
+model.layers.26.feed_forward.w1.lora_web_B
+model.layers.26.feed_forward.w3
+model.layers.26.feed_forward.w3.lora_dropout
+model.layers.26.feed_forward.w3.Plora_A
+model.layers.26.feed_forward.w3.Plora_B
+model.layers.26.feed_forward.w3.lora_sft_A
+model.layers.26.feed_forward.w3.lora_sft_B
+model.layers.26.feed_forward.w3.lora_dpo_A
+model.layers.26.feed_forward.w3.lora_dpo_B
+model.layers.26.feed_forward.w3.lora_web_A
+model.layers.26.feed_forward.w3.lora_web_B
+model.layers.26.feed_forward.w2
+model.layers.26.feed_forward.w2.lora_dropout
+model.layers.26.feed_forward.w2.Plora_A
+model.layers.26.feed_forward.w2.Plora_B
+model.layers.26.feed_forward.w2.lora_sft_A
+model.layers.26.feed_forward.w2.lora_sft_B
+model.layers.26.feed_forward.w2.lora_dpo_A
+model.layers.26.feed_forward.w2.lora_dpo_B
+model.layers.26.feed_forward.w2.lora_web_A
+model.layers.26.feed_forward.w2.lora_web_B
+model.layers.26.feed_forward.act_fn
+model.layers.26.attention_norm
+model.layers.26.ffn_norm
+model.layers.27
+model.layers.27.attention
+model.layers.27.attention.wqkv
+model.layers.27.attention.wqkv.lora_dropout
+model.layers.27.attention.wqkv.Plora_A
+model.layers.27.attention.wqkv.Plora_B
+model.layers.27.attention.wqkv.lora_sft_A
+model.layers.27.attention.wqkv.lora_sft_B
+model.layers.27.attention.wqkv.lora_dpo_A
+model.layers.27.attention.wqkv.lora_dpo_B
+model.layers.27.attention.wqkv.lora_web_A
+model.layers.27.attention.wqkv.lora_web_B
+model.layers.27.attention.wo
+model.layers.27.attention.wo.lora_dropout
+model.layers.27.attention.wo.Plora_A
+model.layers.27.attention.wo.Plora_B
+model.layers.27.attention.wo.lora_sft_A
+model.layers.27.attention.wo.lora_sft_B
+model.layers.27.attention.wo.lora_dpo_A
+model.layers.27.attention.wo.lora_dpo_B
+model.layers.27.attention.wo.lora_web_A
+model.layers.27.attention.wo.lora_web_B
+model.layers.27.attention.rotary_emb
+model.layers.27.feed_forward
+model.layers.27.feed_forward.w1
+model.layers.27.feed_forward.w1.lora_dropout
+model.layers.27.feed_forward.w1.Plora_A
+model.layers.27.feed_forward.w1.Plora_B
+model.layers.27.feed_forward.w1.lora_sft_A
+model.layers.27.feed_forward.w1.lora_sft_B
+model.layers.27.feed_forward.w1.lora_dpo_A
+model.layers.27.feed_forward.w1.lora_dpo_B
+model.layers.27.feed_forward.w1.lora_web_A
+model.layers.27.feed_forward.w1.lora_web_B
+model.layers.27.feed_forward.w3
+model.layers.27.feed_forward.w3.lora_dropout
+model.layers.27.feed_forward.w3.Plora_A
+model.layers.27.feed_forward.w3.Plora_B
+model.layers.27.feed_forward.w3.lora_sft_A
+model.layers.27.feed_forward.w3.lora_sft_B
+model.layers.27.feed_forward.w3.lora_dpo_A
+model.layers.27.feed_forward.w3.lora_dpo_B
+model.layers.27.feed_forward.w3.lora_web_A
+model.layers.27.feed_forward.w3.lora_web_B
+model.layers.27.feed_forward.w2
+model.layers.27.feed_forward.w2.lora_dropout
+model.layers.27.feed_forward.w2.Plora_A
+model.layers.27.feed_forward.w2.Plora_B
+model.layers.27.feed_forward.w2.lora_sft_A
+model.layers.27.feed_forward.w2.lora_sft_B
+model.layers.27.feed_forward.w2.lora_dpo_A
+model.layers.27.feed_forward.w2.lora_dpo_B
+model.layers.27.feed_forward.w2.lora_web_A
+model.layers.27.feed_forward.w2.lora_web_B
+model.layers.27.feed_forward.act_fn
+model.layers.27.attention_norm
+model.layers.27.ffn_norm
+model.layers.28
+model.layers.28.attention
+model.layers.28.attention.wqkv
+model.layers.28.attention.wqkv.lora_dropout
+model.layers.28.attention.wqkv.Plora_A
+model.layers.28.attention.wqkv.Plora_B
+model.layers.28.attention.wqkv.lora_sft_A
+model.layers.28.attention.wqkv.lora_sft_B
+model.layers.28.attention.wqkv.lora_dpo_A
+model.layers.28.attention.wqkv.lora_dpo_B
+model.layers.28.attention.wqkv.lora_web_A
+model.layers.28.attention.wqkv.lora_web_B
+model.layers.28.attention.wo
+model.layers.28.attention.wo.lora_dropout
+model.layers.28.attention.wo.Plora_A
+model.layers.28.attention.wo.Plora_B
+model.layers.28.attention.wo.lora_sft_A
+model.layers.28.attention.wo.lora_sft_B
+model.layers.28.attention.wo.lora_dpo_A
+model.layers.28.attention.wo.lora_dpo_B
+model.layers.28.attention.wo.lora_web_A
+model.layers.28.attention.wo.lora_web_B
+model.layers.28.attention.rotary_emb
+model.layers.28.feed_forward
+model.layers.28.feed_forward.w1
+model.layers.28.feed_forward.w1.lora_dropout
+model.layers.28.feed_forward.w1.Plora_A
+model.layers.28.feed_forward.w1.Plora_B
+model.layers.28.feed_forward.w1.lora_sft_A
+model.layers.28.feed_forward.w1.lora_sft_B
+model.layers.28.feed_forward.w1.lora_dpo_A
+model.layers.28.feed_forward.w1.lora_dpo_B
+model.layers.28.feed_forward.w1.lora_web_A
+model.layers.28.feed_forward.w1.lora_web_B
+model.layers.28.feed_forward.w3
+model.layers.28.feed_forward.w3.lora_dropout
+model.layers.28.feed_forward.w3.Plora_A
+model.layers.28.feed_forward.w3.Plora_B
+model.layers.28.feed_forward.w3.lora_sft_A
+model.layers.28.feed_forward.w3.lora_sft_B
+model.layers.28.feed_forward.w3.lora_dpo_A
+model.layers.28.feed_forward.w3.lora_dpo_B
+model.layers.28.feed_forward.w3.lora_web_A
+model.layers.28.feed_forward.w3.lora_web_B
+model.layers.28.feed_forward.w2
+model.layers.28.feed_forward.w2.lora_dropout
+model.layers.28.feed_forward.w2.Plora_A
+model.layers.28.feed_forward.w2.Plora_B
+model.layers.28.feed_forward.w2.lora_sft_A
+model.layers.28.feed_forward.w2.lora_sft_B
+model.layers.28.feed_forward.w2.lora_dpo_A
+model.layers.28.feed_forward.w2.lora_dpo_B
+model.layers.28.feed_forward.w2.lora_web_A
+model.layers.28.feed_forward.w2.lora_web_B
+model.layers.28.feed_forward.act_fn
+model.layers.28.attention_norm
+model.layers.28.ffn_norm
+model.layers.29
+model.layers.29.attention
+model.layers.29.attention.wqkv
+model.layers.29.attention.wqkv.lora_dropout
+model.layers.29.attention.wqkv.Plora_A
+model.layers.29.attention.wqkv.Plora_B
+model.layers.29.attention.wqkv.lora_sft_A
+model.layers.29.attention.wqkv.lora_sft_B
+model.layers.29.attention.wqkv.lora_dpo_A
+model.layers.29.attention.wqkv.lora_dpo_B
+model.layers.29.attention.wqkv.lora_web_A
+model.layers.29.attention.wqkv.lora_web_B
+model.layers.29.attention.wo
+model.layers.29.attention.wo.lora_dropout
+model.layers.29.attention.wo.Plora_A
+model.layers.29.attention.wo.Plora_B
+model.layers.29.attention.wo.lora_sft_A
+model.layers.29.attention.wo.lora_sft_B
+model.layers.29.attention.wo.lora_dpo_A
+model.layers.29.attention.wo.lora_dpo_B
+model.layers.29.attention.wo.lora_web_A
+model.layers.29.attention.wo.lora_web_B
+model.layers.29.attention.rotary_emb
+model.layers.29.feed_forward
+model.layers.29.feed_forward.w1
+model.layers.29.feed_forward.w1.lora_dropout
+model.layers.29.feed_forward.w1.Plora_A
+model.layers.29.feed_forward.w1.Plora_B
+model.layers.29.feed_forward.w1.lora_sft_A
+model.layers.29.feed_forward.w1.lora_sft_B
+model.layers.29.feed_forward.w1.lora_dpo_A
+model.layers.29.feed_forward.w1.lora_dpo_B
+model.layers.29.feed_forward.w1.lora_web_A
+model.layers.29.feed_forward.w1.lora_web_B
+model.layers.29.feed_forward.w3
+model.layers.29.feed_forward.w3.lora_dropout
+model.layers.29.feed_forward.w3.Plora_A
+model.layers.29.feed_forward.w3.Plora_B
+model.layers.29.feed_forward.w3.lora_sft_A
+model.layers.29.feed_forward.w3.lora_sft_B
+model.layers.29.feed_forward.w3.lora_dpo_A
+model.layers.29.feed_forward.w3.lora_dpo_B
+model.layers.29.feed_forward.w3.lora_web_A
+model.layers.29.feed_forward.w3.lora_web_B
+model.layers.29.feed_forward.w2
+model.layers.29.feed_forward.w2.lora_dropout
+model.layers.29.feed_forward.w2.Plora_A
+model.layers.29.feed_forward.w2.Plora_B
+model.layers.29.feed_forward.w2.lora_sft_A
+model.layers.29.feed_forward.w2.lora_sft_B
+model.layers.29.feed_forward.w2.lora_dpo_A
+model.layers.29.feed_forward.w2.lora_dpo_B
+model.layers.29.feed_forward.w2.lora_web_A
+model.layers.29.feed_forward.w2.lora_web_B
+model.layers.29.feed_forward.act_fn
+model.layers.29.attention_norm
+model.layers.29.ffn_norm
+model.layers.30
+model.layers.30.attention
+model.layers.30.attention.wqkv
+model.layers.30.attention.wqkv.lora_dropout
+model.layers.30.attention.wqkv.Plora_A
+model.layers.30.attention.wqkv.Plora_B
+model.layers.30.attention.wqkv.lora_sft_A
+model.layers.30.attention.wqkv.lora_sft_B
+model.layers.30.attention.wqkv.lora_dpo_A
+model.layers.30.attention.wqkv.lora_dpo_B
+model.layers.30.attention.wqkv.lora_web_A
+model.layers.30.attention.wqkv.lora_web_B
+model.layers.30.attention.wo
+model.layers.30.attention.wo.lora_dropout
+model.layers.30.attention.wo.Plora_A
+model.layers.30.attention.wo.Plora_B
+model.layers.30.attention.wo.lora_sft_A
+model.layers.30.attention.wo.lora_sft_B
+model.layers.30.attention.wo.lora_dpo_A
+model.layers.30.attention.wo.lora_dpo_B
+model.layers.30.attention.wo.lora_web_A
+model.layers.30.attention.wo.lora_web_B
+model.layers.30.attention.rotary_emb
+model.layers.30.feed_forward
+model.layers.30.feed_forward.w1
+model.layers.30.feed_forward.w1.lora_dropout
+model.layers.30.feed_forward.w1.Plora_A
+model.layers.30.feed_forward.w1.Plora_B
+model.layers.30.feed_forward.w1.lora_sft_A
+model.layers.30.feed_forward.w1.lora_sft_B
+model.layers.30.feed_forward.w1.lora_dpo_A
+model.layers.30.feed_forward.w1.lora_dpo_B
+model.layers.30.feed_forward.w1.lora_web_A
+model.layers.30.feed_forward.w1.lora_web_B
+model.layers.30.feed_forward.w3
+model.layers.30.feed_forward.w3.lora_dropout
+model.layers.30.feed_forward.w3.Plora_A
+model.layers.30.feed_forward.w3.Plora_B
+model.layers.30.feed_forward.w3.lora_sft_A
+model.layers.30.feed_forward.w3.lora_sft_B
+model.layers.30.feed_forward.w3.lora_dpo_A
+model.layers.30.feed_forward.w3.lora_dpo_B
+model.layers.30.feed_forward.w3.lora_web_A
+model.layers.30.feed_forward.w3.lora_web_B
+model.layers.30.feed_forward.w2
+model.layers.30.feed_forward.w2.lora_dropout
+model.layers.30.feed_forward.w2.Plora_A
+model.layers.30.feed_forward.w2.Plora_B
+model.layers.30.feed_forward.w2.lora_sft_A
+model.layers.30.feed_forward.w2.lora_sft_B
+model.layers.30.feed_forward.w2.lora_dpo_A
+model.layers.30.feed_forward.w2.lora_dpo_B
+model.layers.30.feed_forward.w2.lora_web_A
+model.layers.30.feed_forward.w2.lora_web_B
+model.layers.30.feed_forward.act_fn
+model.layers.30.attention_norm
+model.layers.30.ffn_norm
+model.layers.31
+model.layers.31.attention
+model.layers.31.attention.wqkv
+model.layers.31.attention.wqkv.lora_dropout
+model.layers.31.attention.wqkv.Plora_A
+model.layers.31.attention.wqkv.Plora_B
+model.layers.31.attention.wqkv.lora_sft_A
+model.layers.31.attention.wqkv.lora_sft_B
+model.layers.31.attention.wqkv.lora_dpo_A
+model.layers.31.attention.wqkv.lora_dpo_B
+model.layers.31.attention.wqkv.lora_web_A
+model.layers.31.attention.wqkv.lora_web_B
+model.layers.31.attention.wo
+model.layers.31.attention.wo.lora_dropout
+model.layers.31.attention.wo.Plora_A
+model.layers.31.attention.wo.Plora_B
+model.layers.31.attention.wo.lora_sft_A
+model.layers.31.attention.wo.lora_sft_B
+model.layers.31.attention.wo.lora_dpo_A
+model.layers.31.attention.wo.lora_dpo_B
+model.layers.31.attention.wo.lora_web_A
+model.layers.31.attention.wo.lora_web_B
+model.layers.31.attention.rotary_emb
+model.layers.31.feed_forward
+model.layers.31.feed_forward.w1
+model.layers.31.feed_forward.w1.lora_dropout
+model.layers.31.feed_forward.w1.Plora_A
+model.layers.31.feed_forward.w1.Plora_B
+model.layers.31.feed_forward.w1.lora_sft_A
+model.layers.31.feed_forward.w1.lora_sft_B
+model.layers.31.feed_forward.w1.lora_dpo_A
+model.layers.31.feed_forward.w1.lora_dpo_B
+model.layers.31.feed_forward.w1.lora_web_A
+model.layers.31.feed_forward.w1.lora_web_B
+model.layers.31.feed_forward.w3
+model.layers.31.feed_forward.w3.lora_dropout
+model.layers.31.feed_forward.w3.Plora_A
+model.layers.31.feed_forward.w3.Plora_B
+model.layers.31.feed_forward.w3.lora_sft_A
+model.layers.31.feed_forward.w3.lora_sft_B
+model.layers.31.feed_forward.w3.lora_dpo_A
+model.layers.31.feed_forward.w3.lora_dpo_B
+model.layers.31.feed_forward.w3.lora_web_A
+model.layers.31.feed_forward.w3.lora_web_B
+model.layers.31.feed_forward.w2
+model.layers.31.feed_forward.w2.lora_dropout
+model.layers.31.feed_forward.w2.Plora_A
+model.layers.31.feed_forward.w2.Plora_B
+model.layers.31.feed_forward.w2.lora_sft_A
+model.layers.31.feed_forward.w2.lora_sft_B
+model.layers.31.feed_forward.w2.lora_dpo_A
+model.layers.31.feed_forward.w2.lora_dpo_B
+model.layers.31.feed_forward.w2.lora_web_A
+model.layers.31.feed_forward.w2.lora_web_B
+model.layers.31.feed_forward.act_fn
+model.layers.31.attention_norm
+model.layers.31.ffn_norm
+model.norm
+output
+vit
+vit.vision_tower
+vit.vision_tower.vision_model
+vit.vision_tower.vision_model.embeddings
+vit.vision_tower.vision_model.embeddings.patch_embedding
+vit.vision_tower.vision_model.embeddings.position_embedding
+vit.vision_tower.vision_model.pre_layrnorm
+vit.vision_tower.vision_model.encoder
+vit.vision_tower.vision_model.encoder.layers
+vit.vision_tower.vision_model.encoder.layers.0
+vit.vision_tower.vision_model.encoder.layers.0.self_attn
+vit.vision_tower.vision_model.encoder.layers.0.self_attn.k_proj
+vit.vision_tower.vision_model.encoder.layers.0.self_attn.v_proj
+vit.vision_tower.vision_model.encoder.layers.0.self_attn.q_proj
+vit.vision_tower.vision_model.encoder.layers.0.self_attn.out_proj
+vit.vision_tower.vision_model.encoder.layers.0.layer_norm1
+vit.vision_tower.vision_model.encoder.layers.0.mlp
+vit.vision_tower.vision_model.encoder.layers.0.mlp.activation_fn
+vit.vision_tower.vision_model.encoder.layers.0.mlp.fc1
+vit.vision_tower.vision_model.encoder.layers.0.mlp.fc2
+vit.vision_tower.vision_model.encoder.layers.0.layer_norm2
+vit.vision_tower.vision_model.encoder.layers.1
+vit.vision_tower.vision_model.encoder.layers.1.self_attn
+vit.vision_tower.vision_model.encoder.layers.1.self_attn.k_proj
+vit.vision_tower.vision_model.encoder.layers.1.self_attn.v_proj
+vit.vision_tower.vision_model.encoder.layers.1.self_attn.q_proj
+vit.vision_tower.vision_model.encoder.layers.1.self_attn.out_proj
+vit.vision_tower.vision_model.encoder.layers.1.layer_norm1
+vit.vision_tower.vision_model.encoder.layers.1.mlp
+vit.vision_tower.vision_model.encoder.layers.1.mlp.activation_fn
+vit.vision_tower.vision_model.encoder.layers.1.mlp.fc1
+vit.vision_tower.vision_model.encoder.layers.1.mlp.fc2
+vit.vision_tower.vision_model.encoder.layers.1.layer_norm2
+vit.vision_tower.vision_model.encoder.layers.2
+vit.vision_tower.vision_model.encoder.layers.2.self_attn
+vit.vision_tower.vision_model.encoder.layers.2.self_attn.k_proj
+vit.vision_tower.vision_model.encoder.layers.2.self_attn.v_proj
+vit.vision_tower.vision_model.encoder.layers.2.self_attn.q_proj
+vit.vision_tower.vision_model.encoder.layers.2.self_attn.out_proj
+vit.vision_tower.vision_model.encoder.layers.2.layer_norm1
+vit.vision_tower.vision_model.encoder.layers.2.mlp
+vit.vision_tower.vision_model.encoder.layers.2.mlp.activation_fn
+vit.vision_tower.vision_model.encoder.layers.2.mlp.fc1
+vit.vision_tower.vision_model.encoder.layers.2.mlp.fc2
+vit.vision_tower.vision_model.encoder.layers.2.layer_norm2
+vit.vision_tower.vision_model.encoder.layers.3
+vit.vision_tower.vision_model.encoder.layers.3.self_attn
+vit.vision_tower.vision_model.encoder.layers.3.self_attn.k_proj
+vit.vision_tower.vision_model.encoder.layers.3.self_attn.v_proj
+vit.vision_tower.vision_model.encoder.layers.3.self_attn.q_proj
+vit.vision_tower.vision_model.encoder.layers.3.self_attn.out_proj
+vit.vision_tower.vision_model.encoder.layers.3.layer_norm1
+vit.vision_tower.vision_model.encoder.layers.3.mlp
+vit.vision_tower.vision_model.encoder.layers.3.mlp.activation_fn
+vit.vision_tower.vision_model.encoder.layers.3.mlp.fc1
+vit.vision_tower.vision_model.encoder.layers.3.mlp.fc2
+vit.vision_tower.vision_model.encoder.layers.3.layer_norm2
+vit.vision_tower.vision_model.encoder.layers.4
+vit.vision_tower.vision_model.encoder.layers.4.self_attn
+vit.vision_tower.vision_model.encoder.layers.4.self_attn.k_proj
+vit.vision_tower.vision_model.encoder.layers.4.self_attn.v_proj
+vit.vision_tower.vision_model.encoder.layers.4.self_attn.q_proj
+vit.vision_tower.vision_model.encoder.layers.4.self_attn.out_proj
+vit.vision_tower.vision_model.encoder.layers.4.layer_norm1
+vit.vision_tower.vision_model.encoder.layers.4.mlp
+vit.vision_tower.vision_model.encoder.layers.4.mlp.activation_fn
+vit.vision_tower.vision_model.encoder.layers.4.mlp.fc1
+vit.vision_tower.vision_model.encoder.layers.4.mlp.fc2
+vit.vision_tower.vision_model.encoder.layers.4.layer_norm2
+vit.vision_tower.vision_model.encoder.layers.5
+vit.vision_tower.vision_model.encoder.layers.5.self_attn
+vit.vision_tower.vision_model.encoder.layers.5.self_attn.k_proj
+vit.vision_tower.vision_model.encoder.layers.5.self_attn.v_proj
+vit.vision_tower.vision_model.encoder.layers.5.self_attn.q_proj
+vit.vision_tower.vision_model.encoder.layers.5.self_attn.out_proj
+vit.vision_tower.vision_model.encoder.layers.5.layer_norm1
+vit.vision_tower.vision_model.encoder.layers.5.mlp
+vit.vision_tower.vision_model.encoder.layers.5.mlp.activation_fn
+vit.vision_tower.vision_model.encoder.layers.5.mlp.fc1
+vit.vision_tower.vision_model.encoder.layers.5.mlp.fc2
+vit.vision_tower.vision_model.encoder.layers.5.layer_norm2
+vit.vision_tower.vision_model.encoder.layers.6
+vit.vision_tower.vision_model.encoder.layers.6.self_attn
+vit.vision_tower.vision_model.encoder.layers.6.self_attn.k_proj
+vit.vision_tower.vision_model.encoder.layers.6.self_attn.v_proj
+vit.vision_tower.vision_model.encoder.layers.6.self_attn.q_proj
+vit.vision_tower.vision_model.encoder.layers.6.self_attn.out_proj
+vit.vision_tower.vision_model.encoder.layers.6.layer_norm1
+vit.vision_tower.vision_model.encoder.layers.6.mlp
+vit.vision_tower.vision_model.encoder.layers.6.mlp.activation_fn
+vit.vision_tower.vision_model.encoder.layers.6.mlp.fc1
+vit.vision_tower.vision_model.encoder.layers.6.mlp.fc2
+vit.vision_tower.vision_model.encoder.layers.6.layer_norm2
+vit.vision_tower.vision_model.encoder.layers.7
+vit.vision_tower.vision_model.encoder.layers.7.self_attn
+vit.vision_tower.vision_model.encoder.layers.7.self_attn.k_proj
+vit.vision_tower.vision_model.encoder.layers.7.self_attn.v_proj
+vit.vision_tower.vision_model.encoder.layers.7.self_attn.q_proj
+vit.vision_tower.vision_model.encoder.layers.7.self_attn.out_proj
+vit.vision_tower.vision_model.encoder.layers.7.layer_norm1
+vit.vision_tower.vision_model.encoder.layers.7.mlp
+vit.vision_tower.vision_model.encoder.layers.7.mlp.activation_fn
+vit.vision_tower.vision_model.encoder.layers.7.mlp.fc1
+vit.vision_tower.vision_model.encoder.layers.7.mlp.fc2
+vit.vision_tower.vision_model.encoder.layers.7.layer_norm2
+vit.vision_tower.vision_model.encoder.layers.8
+vit.vision_tower.vision_model.encoder.layers.8.self_attn
+vit.vision_tower.vision_model.encoder.layers.8.self_attn.k_proj
+vit.vision_tower.vision_model.encoder.layers.8.self_attn.v_proj
+vit.vision_tower.vision_model.encoder.layers.8.self_attn.q_proj
+vit.vision_tower.vision_model.encoder.layers.8.self_attn.out_proj
+vit.vision_tower.vision_model.encoder.layers.8.layer_norm1
+vit.vision_tower.vision_model.encoder.layers.8.mlp
+vit.vision_tower.vision_model.encoder.layers.8.mlp.activation_fn
+vit.vision_tower.vision_model.encoder.layers.8.mlp.fc1
+vit.vision_tower.vision_model.encoder.layers.8.mlp.fc2
+vit.vision_tower.vision_model.encoder.layers.8.layer_norm2
+vit.vision_tower.vision_model.encoder.layers.9
+vit.vision_tower.vision_model.encoder.layers.9.self_attn
+vit.vision_tower.vision_model.encoder.layers.9.self_attn.k_proj
+vit.vision_tower.vision_model.encoder.layers.9.self_attn.v_proj
+vit.vision_tower.vision_model.encoder.layers.9.self_attn.q_proj
+vit.vision_tower.vision_model.encoder.layers.9.self_attn.out_proj
+vit.vision_tower.vision_model.encoder.layers.9.layer_norm1
+vit.vision_tower.vision_model.encoder.layers.9.mlp
+vit.vision_tower.vision_model.encoder.layers.9.mlp.activation_fn
+vit.vision_tower.vision_model.encoder.layers.9.mlp.fc1
+vit.vision_tower.vision_model.encoder.layers.9.mlp.fc2
+vit.vision_tower.vision_model.encoder.layers.9.layer_norm2
+vit.vision_tower.vision_model.encoder.layers.10
+vit.vision_tower.vision_model.encoder.layers.10.self_attn
+vit.vision_tower.vision_model.encoder.layers.10.self_attn.k_proj
+vit.vision_tower.vision_model.encoder.layers.10.self_attn.v_proj
+vit.vision_tower.vision_model.encoder.layers.10.self_attn.q_proj
+vit.vision_tower.vision_model.encoder.layers.10.self_attn.out_proj
+vit.vision_tower.vision_model.encoder.layers.10.layer_norm1
+vit.vision_tower.vision_model.encoder.layers.10.mlp
+vit.vision_tower.vision_model.encoder.layers.10.mlp.activation_fn
+vit.vision_tower.vision_model.encoder.layers.10.mlp.fc1
+vit.vision_tower.vision_model.encoder.layers.10.mlp.fc2
+vit.vision_tower.vision_model.encoder.layers.10.layer_norm2
+vit.vision_tower.vision_model.encoder.layers.11
+vit.vision_tower.vision_model.encoder.layers.11.self_attn
+vit.vision_tower.vision_model.encoder.layers.11.self_attn.k_proj
+vit.vision_tower.vision_model.encoder.layers.11.self_attn.v_proj
+vit.vision_tower.vision_model.encoder.layers.11.self_attn.q_proj
+vit.vision_tower.vision_model.encoder.layers.11.self_attn.out_proj
+vit.vision_tower.vision_model.encoder.layers.11.layer_norm1
+vit.vision_tower.vision_model.encoder.layers.11.mlp
+vit.vision_tower.vision_model.encoder.layers.11.mlp.activation_fn
+vit.vision_tower.vision_model.encoder.layers.11.mlp.fc1
+vit.vision_tower.vision_model.encoder.layers.11.mlp.fc2
+vit.vision_tower.vision_model.encoder.layers.11.layer_norm2
+vit.vision_tower.vision_model.encoder.layers.12
+vit.vision_tower.vision_model.encoder.layers.12.self_attn
+vit.vision_tower.vision_model.encoder.layers.12.self_attn.k_proj
+vit.vision_tower.vision_model.encoder.layers.12.self_attn.v_proj
+vit.vision_tower.vision_model.encoder.layers.12.self_attn.q_proj
+vit.vision_tower.vision_model.encoder.layers.12.self_attn.out_proj
+vit.vision_tower.vision_model.encoder.layers.12.layer_norm1
+vit.vision_tower.vision_model.encoder.layers.12.mlp
+vit.vision_tower.vision_model.encoder.layers.12.mlp.activation_fn
+vit.vision_tower.vision_model.encoder.layers.12.mlp.fc1
+vit.vision_tower.vision_model.encoder.layers.12.mlp.fc2
+vit.vision_tower.vision_model.encoder.layers.12.layer_norm2
+vit.vision_tower.vision_model.encoder.layers.13
+vit.vision_tower.vision_model.encoder.layers.13.self_attn
+vit.vision_tower.vision_model.encoder.layers.13.self_attn.k_proj
+vit.vision_tower.vision_model.encoder.layers.13.self_attn.v_proj
+vit.vision_tower.vision_model.encoder.layers.13.self_attn.q_proj
+vit.vision_tower.vision_model.encoder.layers.13.self_attn.out_proj
+vit.vision_tower.vision_model.encoder.layers.13.layer_norm1
+vit.vision_tower.vision_model.encoder.layers.13.mlp
+vit.vision_tower.vision_model.encoder.layers.13.mlp.activation_fn
+vit.vision_tower.vision_model.encoder.layers.13.mlp.fc1
+vit.vision_tower.vision_model.encoder.layers.13.mlp.fc2
+vit.vision_tower.vision_model.encoder.layers.13.layer_norm2
+vit.vision_tower.vision_model.encoder.layers.14
+vit.vision_tower.vision_model.encoder.layers.14.self_attn
+vit.vision_tower.vision_model.encoder.layers.14.self_attn.k_proj
+vit.vision_tower.vision_model.encoder.layers.14.self_attn.v_proj
+vit.vision_tower.vision_model.encoder.layers.14.self_attn.q_proj
+vit.vision_tower.vision_model.encoder.layers.14.self_attn.out_proj
+vit.vision_tower.vision_model.encoder.layers.14.layer_norm1
+vit.vision_tower.vision_model.encoder.layers.14.mlp
+vit.vision_tower.vision_model.encoder.layers.14.mlp.activation_fn
+vit.vision_tower.vision_model.encoder.layers.14.mlp.fc1
+vit.vision_tower.vision_model.encoder.layers.14.mlp.fc2
+vit.vision_tower.vision_model.encoder.layers.14.layer_norm2
+vit.vision_tower.vision_model.encoder.layers.15
+vit.vision_tower.vision_model.encoder.layers.15.self_attn
+vit.vision_tower.vision_model.encoder.layers.15.self_attn.k_proj
+vit.vision_tower.vision_model.encoder.layers.15.self_attn.v_proj
+vit.vision_tower.vision_model.encoder.layers.15.self_attn.q_proj
+vit.vision_tower.vision_model.encoder.layers.15.self_attn.out_proj
+vit.vision_tower.vision_model.encoder.layers.15.layer_norm1
+vit.vision_tower.vision_model.encoder.layers.15.mlp
+vit.vision_tower.vision_model.encoder.layers.15.mlp.activation_fn
+vit.vision_tower.vision_model.encoder.layers.15.mlp.fc1
+vit.vision_tower.vision_model.encoder.layers.15.mlp.fc2
+vit.vision_tower.vision_model.encoder.layers.15.layer_norm2
+vit.vision_tower.vision_model.encoder.layers.16
+vit.vision_tower.vision_model.encoder.layers.16.self_attn
+vit.vision_tower.vision_model.encoder.layers.16.self_attn.k_proj
+vit.vision_tower.vision_model.encoder.layers.16.self_attn.v_proj
+vit.vision_tower.vision_model.encoder.layers.16.self_attn.q_proj
+vit.vision_tower.vision_model.encoder.layers.16.self_attn.out_proj
+vit.vision_tower.vision_model.encoder.layers.16.layer_norm1
+vit.vision_tower.vision_model.encoder.layers.16.mlp
+vit.vision_tower.vision_model.encoder.layers.16.mlp.activation_fn
+vit.vision_tower.vision_model.encoder.layers.16.mlp.fc1
+vit.vision_tower.vision_model.encoder.layers.16.mlp.fc2
+vit.vision_tower.vision_model.encoder.layers.16.layer_norm2
+vit.vision_tower.vision_model.encoder.layers.17
+vit.vision_tower.vision_model.encoder.layers.17.self_attn
+vit.vision_tower.vision_model.encoder.layers.17.self_attn.k_proj
+vit.vision_tower.vision_model.encoder.layers.17.self_attn.v_proj
+vit.vision_tower.vision_model.encoder.layers.17.self_attn.q_proj
+vit.vision_tower.vision_model.encoder.layers.17.self_attn.out_proj
+vit.vision_tower.vision_model.encoder.layers.17.layer_norm1
+vit.vision_tower.vision_model.encoder.layers.17.mlp
+vit.vision_tower.vision_model.encoder.layers.17.mlp.activation_fn
+vit.vision_tower.vision_model.encoder.layers.17.mlp.fc1
+vit.vision_tower.vision_model.encoder.layers.17.mlp.fc2
+vit.vision_tower.vision_model.encoder.layers.17.layer_norm2
+vit.vision_tower.vision_model.encoder.layers.18
+vit.vision_tower.vision_model.encoder.layers.18.self_attn
+vit.vision_tower.vision_model.encoder.layers.18.self_attn.k_proj
+vit.vision_tower.vision_model.encoder.layers.18.self_attn.v_proj
+vit.vision_tower.vision_model.encoder.layers.18.self_attn.q_proj
+vit.vision_tower.vision_model.encoder.layers.18.self_attn.out_proj
+vit.vision_tower.vision_model.encoder.layers.18.layer_norm1
+vit.vision_tower.vision_model.encoder.layers.18.mlp
+vit.vision_tower.vision_model.encoder.layers.18.mlp.activation_fn
+vit.vision_tower.vision_model.encoder.layers.18.mlp.fc1
+vit.vision_tower.vision_model.encoder.layers.18.mlp.fc2
+vit.vision_tower.vision_model.encoder.layers.18.layer_norm2
+vit.vision_tower.vision_model.encoder.layers.19
+vit.vision_tower.vision_model.encoder.layers.19.self_attn
+vit.vision_tower.vision_model.encoder.layers.19.self_attn.k_proj
+vit.vision_tower.vision_model.encoder.layers.19.self_attn.v_proj
+vit.vision_tower.vision_model.encoder.layers.19.self_attn.q_proj
+vit.vision_tower.vision_model.encoder.layers.19.self_attn.out_proj
+vit.vision_tower.vision_model.encoder.layers.19.layer_norm1
+vit.vision_tower.vision_model.encoder.layers.19.mlp
+vit.vision_tower.vision_model.encoder.layers.19.mlp.activation_fn
+vit.vision_tower.vision_model.encoder.layers.19.mlp.fc1
+vit.vision_tower.vision_model.encoder.layers.19.mlp.fc2
+vit.vision_tower.vision_model.encoder.layers.19.layer_norm2
+vit.vision_tower.vision_model.encoder.layers.20
+vit.vision_tower.vision_model.encoder.layers.20.self_attn
+vit.vision_tower.vision_model.encoder.layers.20.self_attn.k_proj
+vit.vision_tower.vision_model.encoder.layers.20.self_attn.v_proj
+vit.vision_tower.vision_model.encoder.layers.20.self_attn.q_proj
+vit.vision_tower.vision_model.encoder.layers.20.self_attn.out_proj
+vit.vision_tower.vision_model.encoder.layers.20.layer_norm1
+vit.vision_tower.vision_model.encoder.layers.20.mlp
+vit.vision_tower.vision_model.encoder.layers.20.mlp.activation_fn
+vit.vision_tower.vision_model.encoder.layers.20.mlp.fc1
+vit.vision_tower.vision_model.encoder.layers.20.mlp.fc2
+vit.vision_tower.vision_model.encoder.layers.20.layer_norm2
+vit.vision_tower.vision_model.encoder.layers.21
+vit.vision_tower.vision_model.encoder.layers.21.self_attn
+vit.vision_tower.vision_model.encoder.layers.21.self_attn.k_proj
+vit.vision_tower.vision_model.encoder.layers.21.self_attn.v_proj
+vit.vision_tower.vision_model.encoder.layers.21.self_attn.q_proj
+vit.vision_tower.vision_model.encoder.layers.21.self_attn.out_proj
+vit.vision_tower.vision_model.encoder.layers.21.layer_norm1
+vit.vision_tower.vision_model.encoder.layers.21.mlp
+vit.vision_tower.vision_model.encoder.layers.21.mlp.activation_fn
+vit.vision_tower.vision_model.encoder.layers.21.mlp.fc1
+vit.vision_tower.vision_model.encoder.layers.21.mlp.fc2
+vit.vision_tower.vision_model.encoder.layers.21.layer_norm2
+vit.vision_tower.vision_model.encoder.layers.22
+vit.vision_tower.vision_model.encoder.layers.22.self_attn
+vit.vision_tower.vision_model.encoder.layers.22.self_attn.k_proj
+vit.vision_tower.vision_model.encoder.layers.22.self_attn.v_proj
+vit.vision_tower.vision_model.encoder.layers.22.self_attn.q_proj
+vit.vision_tower.vision_model.encoder.layers.22.self_attn.out_proj
+vit.vision_tower.vision_model.encoder.layers.22.layer_norm1
+vit.vision_tower.vision_model.encoder.layers.22.mlp
+vit.vision_tower.vision_model.encoder.layers.22.mlp.activation_fn
+vit.vision_tower.vision_model.encoder.layers.22.mlp.fc1
+vit.vision_tower.vision_model.encoder.layers.22.mlp.fc2
+vit.vision_tower.vision_model.encoder.layers.22.layer_norm2
+vit.vision_tower.vision_model.encoder.layers.23
+vit.vision_tower.vision_model.encoder.layers.23.self_attn
+vit.vision_tower.vision_model.encoder.layers.23.self_attn.k_proj
+vit.vision_tower.vision_model.encoder.layers.23.self_attn.v_proj
+vit.vision_tower.vision_model.encoder.layers.23.self_attn.q_proj
+vit.vision_tower.vision_model.encoder.layers.23.self_attn.out_proj
+vit.vision_tower.vision_model.encoder.layers.23.layer_norm1
+vit.vision_tower.vision_model.encoder.layers.23.mlp
+vit.vision_tower.vision_model.encoder.layers.23.mlp.activation_fn
+vit.vision_tower.vision_model.encoder.layers.23.mlp.fc1
+vit.vision_tower.vision_model.encoder.layers.23.mlp.fc2
+vit.vision_tower.vision_model.encoder.layers.23.layer_norm2
+vit.vision_tower.vision_model.post_layernorm
+vision_proj
+vision_proj.0
+vision_proj.1
+vision_proj.2