Upload folder using huggingface_hub

Files changed (3) hide show

README.md CHANGED Viewed

@@ -140,8 +140,8 @@ config.token2wav_config.bigvgan_config.upsample_initial_channel = 32
 config.token2wav_config.bigvgan_config.upsample_kernel_sizes = [11, 4]
 config.token2wav_config.bigvgan_config.upsample_rates = [5, 2]
-config.token2wav_config.dit_config.depth = 1
-config.token2wav_config.dit_config.num_hidden_layers = 1
 config.token2wav_config.dit_config.hidden_size = 16
 config.token2wav_config.dit_config.dim = 16
 config.token2wav_config.dit_config.emb_dim = 16
@@ -155,6 +155,8 @@ config.token2wav_config.dit_config.enc_lin_neurons = 16
 config.token2wav_config.dit_config.head_dim = 16
 config.token2wav_config.dit_config.num_attention_heads = 1
 config.token2wav_config.dit_config.heads = 1
 # avoid mismatch in vocab size because this is random model!
 config.token2wav_config.dit_config.num_embeds = config.talker_config.vocab_size
 print(config)

 config.token2wav_config.bigvgan_config.upsample_kernel_sizes = [11, 4]
 config.token2wav_config.bigvgan_config.upsample_rates = [5, 2]
+config.token2wav_config.dit_config.depth = 2
+config.token2wav_config.dit_config.num_hidden_layers = 2
 config.token2wav_config.dit_config.hidden_size = 16
 config.token2wav_config.dit_config.dim = 16
 config.token2wav_config.dit_config.emb_dim = 16
 config.token2wav_config.dit_config.head_dim = 16
 config.token2wav_config.dit_config.num_attention_heads = 1
 config.token2wav_config.dit_config.heads = 1
+config.token2wav_config.dit_config.look_ahead_layers = [1]
+config.token2wav_config.dit_config.look_backward_layers = [0]
 # avoid mismatch in vocab size because this is random model!
 config.token2wav_config.dit_config.num_embeds = config.talker_config.vocab_size
 print(config)

config.json CHANGED Viewed

@@ -437,7 +437,7 @@
       "chunk_size_feed_forward": 0,
       "cross_attention_hidden_size": null,
       "decoder_start_token_id": null,
-      "depth": 1,
       "dim": 16,
       "diversity_penalty": 0.0,
       "do_sample": false,
@@ -488,11 +488,10 @@
       },
       "length_penalty": 1.0,
       "look_ahead_layers": [
-        10
       ],
       "look_backward_layers": [
-        0,
-        20
       ],
       "max_length": 20,
       "max_position_embeddings": 32768,
@@ -504,7 +503,7 @@
       "num_beam_groups": 1,
       "num_beams": 1,
       "num_embeds": 8448,
-      "num_hidden_layers": 1,
       "num_return_sequences": 1,
       "output_attentions": false,
       "output_hidden_states": false,

       "chunk_size_feed_forward": 0,
       "cross_attention_hidden_size": null,
       "decoder_start_token_id": null,
+      "depth": 2,
       "dim": 16,
       "diversity_penalty": 0.0,
       "do_sample": false,
       },
       "length_penalty": 1.0,
       "look_ahead_layers": [
+        1
       ],
       "look_backward_layers": [
+        0
       ],
       "max_length": 20,
       "max_position_embeddings": 32768,
       "num_beam_groups": 1,
       "num_beams": 1,
       "num_embeds": 8448,
+      "num_hidden_layers": 2,
       "num_return_sequences": 1,
       "output_attentions": false,
       "output_hidden_states": false,

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5856e6a6c48b25459916c6233cedb53ad30943caf32674d030e780e8228f022
-size 11223328

 version https://git-lfs.github.com/spec/v1
+oid sha256:872869d5ab1b80233192acb88483009b3588d82ca7419ec5ff35d7e44673540b
+size 11240320