Upload folder using huggingface_hub

Browse files

Files changed (13) hide show

README.md +26 -0
assets/clip_g_tokenizer/merges.txt +0 -0
assets/clip_g_tokenizer/vocabulary.json +0 -0
assets/clip_l_tokenizer/merges.txt +0 -0
assets/clip_l_tokenizer/vocabulary.json +0 -0
clip_g_preprocessor.json +43 -0
clip_g_tokenizer.json +21 -0
clip_l_preprocessor.json +43 -0
clip_l_tokenizer.json +21 -0
config.json +147 -0
metadata.json +11 -0
model.weights.h5 +3 -0
preprocessor.json +105 -0

README.md ADDED Viewed

	@@ -0,0 +1,26 @@

+---
+library_name: keras-hub
+---
+This is a [`StableDiffusion3` model](https://keras.io/api/keras_hub/models/stable_diffusion3) uploaded using the KerasHub library and can be used with JAX, TensorFlow, and PyTorch backends.
+Model config:
+* **name:** stable_diffusion_3.5_medium_backbone
+* **trainable:** True
+* **dtype:** {'module': 'keras', 'class_name': 'DTypePolicy', 'config': {'name': 'bfloat16'}, 'registered_name': None}
+* **mmdit_patch_size:** 2
+* **mmdit_hidden_dim:** 1536
+* **mmdit_num_layers:** 24
+* **mmdit_num_heads:** 24
+* **mmdit_position_size:** 384
+* **mmdit_qk_norm:** rms_norm
+* **mmdit_dual_attention_indices:** [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
+* **vae:** {'module': 'keras_hub.src.models.vae.vae_backbone', 'class_name': 'VAEBackbone', 'config': {'name': 'vae', 'trainable': True, 'dtype': {'module': 'keras', 'class_name': 'DTypePolicy', 'config': {'name': 'bfloat16'}, 'registered_name': None}, 'encoder_num_filters': [128, 256, 512, 512], 'encoder_num_blocks': [2, 2, 2, 2], 'decoder_num_filters': [512, 512, 256, 128], 'decoder_num_blocks': [3, 3, 3, 3], 'sampler_method': 'sample', 'input_channels': 3, 'sample_channels': 32, 'output_channels': 3, 'scale': 1.5305, 'shift': 0.0609}, 'registered_name': 'VAEBackbone'}
+* **clip_l:** {'module': 'keras_hub.src.models.clip.clip_text_encoder', 'class_name': 'CLIPTextEncoder', 'config': {'name': 'clip_l', 'trainable': True, 'dtype': {'module': 'keras', 'class_name': 'DTypePolicy', 'config': {'name': 'float16'}, 'registered_name': None}, 'vocabulary_size': 49408, 'embedding_dim': 768, 'hidden_dim': 768, 'num_layers': 12, 'num_heads': 12, 'intermediate_dim': 3072, 'intermediate_activation': 'quick_gelu', 'intermediate_output_index': 10, 'max_sequence_length': 77}, 'registered_name': 'keras_hub>CLIPTextEncoder'}
+* **clip_g:** {'module': 'keras_hub.src.models.clip.clip_text_encoder', 'class_name': 'CLIPTextEncoder', 'config': {'name': 'clip_g', 'trainable': True, 'dtype': {'module': 'keras', 'class_name': 'DTypePolicy', 'config': {'name': 'float16'}, 'registered_name': None}, 'vocabulary_size': 49408, 'embedding_dim': 1280, 'hidden_dim': 1280, 'num_layers': 32, 'num_heads': 20, 'intermediate_dim': 5120, 'intermediate_activation': 'gelu', 'intermediate_output_index': 30, 'max_sequence_length': 77}, 'registered_name': 'keras_hub>CLIPTextEncoder'}
+* **t5:** None
+* **latent_channels:** 16
+* **output_channels:** 3
+* **num_train_timesteps:** 1000
+* **shift:** 3.0
+* **image_shape:** [1024, 1024, 3]
+This model card has been generated automatically and should be completed by the model author. See [Model Cards documentation](https://huggingface.co/docs/hub/model-cards) for more information.

assets/clip_g_tokenizer/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

assets/clip_g_tokenizer/vocabulary.json ADDED Viewed

The diff for this file is too large to render. See raw diff

assets/clip_l_tokenizer/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

assets/clip_l_tokenizer/vocabulary.json ADDED Viewed

The diff for this file is too large to render. See raw diff

clip_g_preprocessor.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+    "module": "keras_hub.src.models.clip.clip_preprocessor",
+    "class_name": "CLIPPreprocessor",
+    "config": {
+        "name": "clip_g_preprocessor",
+        "trainable": true,
+        "dtype": {
+            "module": "keras",
+            "class_name": "DTypePolicy",
+            "config": {
+                "name": "bfloat16"
+            },
+            "registered_name": null
+        },
+        "tokenizer": {
+            "module": "keras_hub.src.models.clip.clip_tokenizer",
+            "class_name": "CLIPTokenizer",
+            "config": {
+                "name": "clip_g_tokenizer",
+                "trainable": true,
+                "dtype": {
+                    "module": "keras",
+                    "class_name": "DTypePolicy",
+                    "config": {
+                        "name": "int32"
+                    },
+                    "registered_name": null
+                },
+                "config_file": "clip_g_tokenizer.json",
+                "sequence_length": null,
+                "add_prefix_space": false,
+                "pad_with_end_token": false
+            },
+            "registered_name": "keras_hub>CLIPTokenizer"
+        },
+        "config_file": "clip_g_preprocessor.json",
+        "sequence_length": 77,
+        "add_start_token": true,
+        "add_end_token": true,
+        "to_lower": true
+    },
+    "registered_name": "keras_hub>CLIPPreprocessor"
+}

clip_g_tokenizer.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+    "module": "keras_hub.src.models.clip.clip_tokenizer",
+    "class_name": "CLIPTokenizer",
+    "config": {
+        "name": "clip_g_tokenizer",
+        "trainable": true,
+        "dtype": {
+            "module": "keras",
+            "class_name": "DTypePolicy",
+            "config": {
+                "name": "int32"
+            },
+            "registered_name": null
+        },
+        "config_file": "clip_g_tokenizer.json",
+        "sequence_length": null,
+        "add_prefix_space": false,
+        "pad_with_end_token": false
+    },
+    "registered_name": "keras_hub>CLIPTokenizer"
+}

clip_l_preprocessor.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+    "module": "keras_hub.src.models.clip.clip_preprocessor",
+    "class_name": "CLIPPreprocessor",
+    "config": {
+        "name": "clip_l_preprocessor",
+        "trainable": true,
+        "dtype": {
+            "module": "keras",
+            "class_name": "DTypePolicy",
+            "config": {
+                "name": "bfloat16"
+            },
+            "registered_name": null
+        },
+        "tokenizer": {
+            "module": "keras_hub.src.models.clip.clip_tokenizer",
+            "class_name": "CLIPTokenizer",
+            "config": {
+                "name": "clip_l_tokenizer",
+                "trainable": true,
+                "dtype": {
+                    "module": "keras",
+                    "class_name": "DTypePolicy",
+                    "config": {
+                        "name": "int32"
+                    },
+                    "registered_name": null
+                },
+                "config_file": "clip_l_tokenizer.json",
+                "sequence_length": null,
+                "add_prefix_space": false,
+                "pad_with_end_token": true
+            },
+            "registered_name": "keras_hub>CLIPTokenizer"
+        },
+        "config_file": "clip_l_preprocessor.json",
+        "sequence_length": 77,
+        "add_start_token": true,
+        "add_end_token": true,
+        "to_lower": true
+    },
+    "registered_name": "keras_hub>CLIPPreprocessor"
+}

clip_l_tokenizer.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+    "module": "keras_hub.src.models.clip.clip_tokenizer",
+    "class_name": "CLIPTokenizer",
+    "config": {
+        "name": "clip_l_tokenizer",
+        "trainable": true,
+        "dtype": {
+            "module": "keras",
+            "class_name": "DTypePolicy",
+            "config": {
+                "name": "int32"
+            },
+            "registered_name": null
+        },
+        "config_file": "clip_l_tokenizer.json",
+        "sequence_length": null,
+        "add_prefix_space": false,
+        "pad_with_end_token": true
+    },
+    "registered_name": "keras_hub>CLIPTokenizer"
+}

config.json ADDED Viewed

	@@ -0,0 +1,147 @@

+{
+    "module": "keras_hub.src.models.stable_diffusion_3.stable_diffusion_3_backbone",
+    "class_name": "StableDiffusion3Backbone",
+    "config": {
+        "name": "stable_diffusion_3.5_medium_backbone",
+        "trainable": true,
+        "dtype": {
+            "module": "keras",
+            "class_name": "DTypePolicy",
+            "config": {
+                "name": "bfloat16"
+            },
+            "registered_name": null
+        },
+        "mmdit_patch_size": 2,
+        "mmdit_hidden_dim": 1536,
+        "mmdit_num_layers": 24,
+        "mmdit_num_heads": 24,
+        "mmdit_position_size": 384,
+        "mmdit_qk_norm": "rms_norm",
+        "mmdit_dual_attention_indices": [
+            0,
+            1,
+            2,
+            3,
+            4,
+            5,
+            6,
+            7,
+            8,
+            9,
+            10,
+            11,
+            12
+        ],
+        "vae": {
+            "module": "keras_hub.src.models.vae.vae_backbone",
+            "class_name": "VAEBackbone",
+            "config": {
+                "name": "vae",
+                "trainable": true,
+                "dtype": {
+                    "module": "keras",
+                    "class_name": "DTypePolicy",
+                    "config": {
+                        "name": "bfloat16"
+                    },
+                    "registered_name": null
+                },
+                "encoder_num_filters": [
+                    128,
+                    256,
+                    512,
+                    512
+                ],
+                "encoder_num_blocks": [
+                    2,
+                    2,
+                    2,
+                    2
+                ],
+                "decoder_num_filters": [
+                    512,
+                    512,
+                    256,
+                    128
+                ],
+                "decoder_num_blocks": [
+                    3,
+                    3,
+                    3,
+                    3
+                ],
+                "sampler_method": "sample",
+                "input_channels": 3,
+                "sample_channels": 32,
+                "output_channels": 3,
+                "scale": 1.5305,
+                "shift": 0.0609
+            },
+            "registered_name": "VAEBackbone"
+        },
+        "clip_l": {
+            "module": "keras_hub.src.models.clip.clip_text_encoder",
+            "class_name": "CLIPTextEncoder",
+            "config": {
+                "name": "clip_l",
+                "trainable": true,
+                "dtype": {
+                    "module": "keras",
+                    "class_name": "DTypePolicy",
+                    "config": {
+                        "name": "float16"
+                    },
+                    "registered_name": null
+                },
+                "vocabulary_size": 49408,
+                "embedding_dim": 768,
+                "hidden_dim": 768,
+                "num_layers": 12,
+                "num_heads": 12,
+                "intermediate_dim": 3072,
+                "intermediate_activation": "quick_gelu",
+                "intermediate_output_index": 10,
+                "max_sequence_length": 77
+            },
+            "registered_name": "keras_hub>CLIPTextEncoder"
+        },
+        "clip_g": {
+            "module": "keras_hub.src.models.clip.clip_text_encoder",
+            "class_name": "CLIPTextEncoder",
+            "config": {
+                "name": "clip_g",
+                "trainable": true,
+                "dtype": {
+                    "module": "keras",
+                    "class_name": "DTypePolicy",
+                    "config": {
+                        "name": "float16"
+                    },
+                    "registered_name": null
+                },
+                "vocabulary_size": 49408,
+                "embedding_dim": 1280,
+                "hidden_dim": 1280,
+                "num_layers": 32,
+                "num_heads": 20,
+                "intermediate_dim": 5120,
+                "intermediate_activation": "gelu",
+                "intermediate_output_index": 30,
+                "max_sequence_length": 77
+            },
+            "registered_name": "keras_hub>CLIPTextEncoder"
+        },
+        "t5": null,
+        "latent_channels": 16,
+        "output_channels": 3,
+        "num_train_timesteps": 1000,
+        "shift": 3.0,
+        "image_shape": [
+            1024,
+            1024,
+            3
+        ]
+    },
+    "registered_name": "keras_hub>StableDiffusion3Backbone"
+}

metadata.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "keras_version": "3.10.0",
+    "keras_hub_version": "0.23.0.dev0",
+    "parameter_count": 3371793763,
+    "date_saved": "2025-09-24@21:55:38",
+    "tasks": [
+        "ImageToImage",
+        "Inpaint",
+        "TextToImage"
+    ]
+}

model.weights.h5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:df068258b964120bcf6035186d747ae46c088d3f8b59e333a771cc1ca3d50ee5
+size 6747340928

preprocessor.json ADDED Viewed

	@@ -0,0 +1,105 @@

+{
+    "module": "keras_hub.src.models.stable_diffusion_3.stable_diffusion_3_text_to_image_preprocessor",
+    "class_name": "StableDiffusion3TextToImagePreprocessor",
+    "config": {
+        "name": "stable_diffusion_3_text_to_image_preprocessor",
+        "trainable": true,
+        "dtype": {
+            "module": "keras",
+            "class_name": "DTypePolicy",
+            "config": {
+                "name": "bfloat16"
+            },
+            "registered_name": null
+        },
+        "config_file": "preprocessor.json",
+        "clip_l_preprocessor": {
+            "module": "keras_hub.src.models.clip.clip_preprocessor",
+            "class_name": "CLIPPreprocessor",
+            "config": {
+                "name": "clip_l_preprocessor",
+                "trainable": true,
+                "dtype": {
+                    "module": "keras",
+                    "class_name": "DTypePolicy",
+                    "config": {
+                        "name": "bfloat16"
+                    },
+                    "registered_name": null
+                },
+                "tokenizer": {
+                    "module": "keras_hub.src.models.clip.clip_tokenizer",
+                    "class_name": "CLIPTokenizer",
+                    "config": {
+                        "name": "clip_l_tokenizer",
+                        "trainable": true,
+                        "dtype": {
+                            "module": "keras",
+                            "class_name": "DTypePolicy",
+                            "config": {
+                                "name": "int32"
+                            },
+                            "registered_name": null
+                        },
+                        "config_file": "clip_l_tokenizer.json",
+                        "sequence_length": null,
+                        "add_prefix_space": false,
+                        "pad_with_end_token": true
+                    },
+                    "registered_name": "keras_hub>CLIPTokenizer"
+                },
+                "config_file": "clip_l_preprocessor.json",
+                "sequence_length": 77,
+                "add_start_token": true,
+                "add_end_token": true,
+                "to_lower": true
+            },
+            "registered_name": "keras_hub>CLIPPreprocessor"
+        },
+        "clip_g_preprocessor": {
+            "module": "keras_hub.src.models.clip.clip_preprocessor",
+            "class_name": "CLIPPreprocessor",
+            "config": {
+                "name": "clip_g_preprocessor",
+                "trainable": true,
+                "dtype": {
+                    "module": "keras",
+                    "class_name": "DTypePolicy",
+                    "config": {
+                        "name": "bfloat16"
+                    },
+                    "registered_name": null
+                },
+                "tokenizer": {
+                    "module": "keras_hub.src.models.clip.clip_tokenizer",
+                    "class_name": "CLIPTokenizer",
+                    "config": {
+                        "name": "clip_g_tokenizer",
+                        "trainable": true,
+                        "dtype": {
+                            "module": "keras",
+                            "class_name": "DTypePolicy",
+                            "config": {
+                                "name": "int32"
+                            },
+                            "registered_name": null
+                        },
+                        "config_file": "clip_g_tokenizer.json",
+                        "sequence_length": null,
+                        "add_prefix_space": false,
+                        "pad_with_end_token": false
+                    },
+                    "registered_name": "keras_hub>CLIPTokenizer"
+                },
+                "config_file": "clip_g_preprocessor.json",
+                "sequence_length": 77,
+                "add_start_token": true,
+                "add_end_token": true,
+                "to_lower": true
+            },
+            "registered_name": "keras_hub>CLIPPreprocessor"
+        },
+        "t5_preprocessor": null
+    },
+    "registered_name": "keras_hub>StableDiffusion3TextToImagePreprocessor"
+}