diffusers weights (#1)

- Upload folder using huggingface_hub (0a8a23c1ed80217037b214b8fac19d6a6bdf4317)
- Update README.md (d6b6de9f34c19d77f9183667cdd9559a07c2bbc9)

Co-authored-by: Apolinário from multimodal AI art <multimodalart@users.noreply.huggingface.co>

Files changed (14) hide show

README.md CHANGED Viewed

@@ -65,6 +65,11 @@ aesthetic prompts. Specifically, Stable Cascade (30 inference steps) was compare
 steps), SDXL (50 inference steps), SDXL Turbo (1 inference step) and Würstchen v2 (30 inference steps).
 ## Code Example
 ```python
 import torch
 from diffusers import StableCascadeDecoderPipeline, StableCascadePriorPipeline
@@ -73,7 +78,7 @@ device = "cuda"
 dtype = torch.bfloat16
 num_images_per_prompt = 2
-prior = StableCascadePriorPipeline.from_pretrained("stabilityai/stable-cascade", torch_dtype=dtype).to(device)
 decoder = StableCascadeDecoderPipeline.from_pretrained("stabilityai/stable-cascade",  torch_dtype=dtype).to(device)
 prompt = "Anthropomorphic cat dressed as a pilot"

 steps), SDXL (50 inference steps), SDXL Turbo (1 inference step) and Würstchen v2 (30 inference steps).
 ## Code Example
+```shell
+#install `diffusers` from this branch while the PR is WIP
+pip install git+https://github.com/kashif/diffusers.git@wuerstchen-v3
+```
 ```python
 import torch
 from diffusers import StableCascadeDecoderPipeline, StableCascadePriorPipeline
 dtype = torch.bfloat16
 num_images_per_prompt = 2
+prior = StableCascadePriorPipeline.from_pretrained("stabilityai/stable-cascade-prior", torch_dtype=dtype).to(device)
 decoder = StableCascadeDecoderPipeline.from_pretrained("stabilityai/stable-cascade",  torch_dtype=dtype).to(device)
 prompt = "Anthropomorphic cat dressed as a pilot"

decoder/config.json ADDED Viewed

+{
+  "_class_name": "StableCascadeUnet",
+  "_diffusers_version": "0.26.0.dev0",
+  "_name_or_path": "StableCascade/decoder",
+  "block_repeat": [
+    [
+      1,
+      1,
+      1,
+      1
+    ],
+    [
+      3,
+      3,
+      2,
+      2
+    ]
+  ],
+  "blocks": [
+    [
+      2,
+      6,
+      28,
+      6
+    ],
+    [
+      6,
+      28,
+      6,
+      2
+    ]
+  ],
+  "c_clip_img": null,
+  "c_clip_seq": 4,
+  "c_clip_text": null,
+  "c_clip_text_pooled": 1280,
+  "c_cond": 1280,
+  "c_effnet": 16,
+  "c_hidden": [
+    320,
+    640,
+    1280,
+    1280
+  ],
+  "c_in": 4,
+  "c_out": 4,
+  "c_pixels": 3,
+  "c_r": 64,
+  "dropout": [
+    0,
+    0,
+    0.1,
+    0.1
+  ],
+  "kernel_size": 3,
+  "level_config": [
+    "CT",
+    "CT",
+    "CTA",
+    "CTA"
+  ],
+  "nhead": [
+    -1,
+    -1,
+    20,
+    20
+  ],
+  "patch_size": 2,
+  "self_attn": true,
+  "switch_level": null,
+  "t_conds": [
+    "sca"
+  ]
+}

decoder/diffusion_pytorch_model.safetensors ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f9575dfa6c2535ad65733d6257d17a7b1e1b54b7eafb251ce9556595f3bc0c9
+size 3126071088

model_index.json ADDED Viewed

+{
+  "_class_name": "StableCascadeDecoderPipeline",
+  "_diffusers_version": "0.26.0.dev0",
+  "_name_or_path": "StableCascade/",
+  "decoder": [
+    "stable_cascade",
+    "StableCascadeUnet"
+  ],
+  "latent_dim_scale": 10.67,
+  "scheduler": [
+    "diffusers",
+    "DDPMWuerstchenScheduler"
+  ],
+  "text_encoder": [
+    "transformers",
+    "CLIPTextModelWithProjection"
+  ],
+  "tokenizer": [
+    "transformers",
+    "CLIPTokenizerFast"
+  ],
+  "vqgan": [
+    "wuerstchen",
+    "PaellaVQModel"
+  ]
+}

scheduler/scheduler_config.json ADDED Viewed

+{
+  "_class_name": "DDPMWuerstchenScheduler",
+  "_diffusers_version": "0.26.0.dev0",
+  "s": 0.008,
+  "scaler": 1.0
+}

text_encoder/config.json ADDED Viewed

+{
+  "_name_or_path": "StableCascade/text_encoder",
+  "architectures": [
+    "CLIPTextModelWithProjection"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 49406,
+  "dropout": 0.0,
+  "eos_token_id": 49407,
+  "hidden_act": "gelu",
+  "hidden_size": 1280,
+  "initializer_factor": 1.0,
+  "initializer_range": 0.02,
+  "intermediate_size": 5120,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 77,
+  "model_type": "clip_text_model",
+  "num_attention_heads": 20,
+  "num_hidden_layers": 32,
+  "pad_token_id": 1,
+  "projection_dim": 1280,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.38.0.dev0",
+  "vocab_size": 49408
+}

text_encoder/model.safetensors ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:260e0127aca3c89db813637ae659ebb822cb07af71fedc16cbd980e9518dfdcd
+size 1389382688

tokenizer/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer/special_tokens_map.json ADDED Viewed

+{
+  "bos_token": {
+    "content": "<|startoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer/tokenizer_config.json ADDED Viewed

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "49406": {
+      "content": "<|startoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "49407": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|startoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "do_lower_case": true,
+  "eos_token": "<|endoftext|>",
+  "errors": "replace",
+  "model_max_length": 77,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "CLIPTokenizer",
+  "unk_token": "<|endoftext|>"
+}

tokenizer/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

vqgan/config.json ADDED Viewed

+{
+  "_class_name": "PaellaVQModel",
+  "_diffusers_version": "0.26.0.dev0",
+  "_name_or_path": "StableCascade/vqgan",
+  "bottleneck_blocks": 12,
+  "embed_dim": 384,
+  "in_channels": 3,
+  "latent_channels": 4,
+  "levels": 2,
+  "num_vq_embeddings": 8192,
+  "out_channels": 3,
+  "scale_factor": 0.3764,
+  "up_down_scale_factor": 2
+}

vqgan/diffusion_pytorch_model.safetensors ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:3ac32fab5177329dac907b2480c8c00aeefc712dfd92c2d52263a9c64b426b26
+size 36825828