Upload FalconH1MoEForCausalLM

Browse files

Files changed (12) hide show

README.md +199 -0
config.json +70 -0
configuration_falcon_h1_moe.py +17 -0
generation_config.json +7 -0
model-00001-of-00006.safetensors +3 -0
model-00002-of-00006.safetensors +3 -0
model-00003-of-00006.safetensors +3 -0
model-00004-of-00006.safetensors +3 -0
model-00005-of-00006.safetensors +3 -0
model-00006-of-00006.safetensors +3 -0
model.safetensors.index.json +947 -0
modeling_falcon_h1_moe.py +260 -0

README.md ADDED Viewed

	@@ -0,0 +1,199 @@

+---
+library_name: transformers
+tags: []
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+This is the model card of a 🤗 transformers model that has been pushed on the Hub. This model card has been automatically generated.
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]

config.json ADDED Viewed

	@@ -0,0 +1,70 @@

+{
+  "architectures": [
+    "FalconH1MoEForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "attention_in_multiplier": 1.0,
+  "attention_out_multiplier": 0.234375,
+  "attn_layer_indices": null,
+  "auto_map": {
+    "AutoConfig": "configuration_falcon_h1_moe.FalconH1MoEConfig",
+    "AutoModel": "modeling_falcon_h1_moe.FalconH1MoEForCausalLM"
+  },
+  "bos_token_id": 1,
+  "embedding_multiplier": 5.656854249492381,
+  "eos_token_id": 11,
+  "expert_num": 8,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 4608,
+  "key_multiplier": 0.06905339660024876,
+  "lm_head_multiplier": 0.01953125,
+  "mamba_chunk_size": 128,
+  "mamba_conv_bias": true,
+  "mamba_d_conv": 4,
+  "mamba_d_head": 64,
+  "mamba_d_ssm": 3072,
+  "mamba_d_state": 256,
+  "mamba_expand": 2,
+  "mamba_n_groups": 1,
+  "mamba_n_heads": 48,
+  "mamba_norm_before_gate": false,
+  "mamba_proj_bias": false,
+  "mamba_rms_norm": true,
+  "mamba_use_mlp": true,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "mlp_expansion_factor": 8,
+  "mlp_multipliers": [
+    0.4419417382415922,
+    0.13020833333333331
+  ],
+  "model_type": "falcon_h1",
+  "num_attention_heads": 8,
+  "num_hidden_layers": 24,
+  "num_key_value_heads": 2,
+  "num_logits_to_keep": 1,
+  "pad_token_id": 0,
+  "projectors_bias": false,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 100000000000.0,
+  "ssm_in_multiplier": 0.625,
+  "ssm_multipliers": [
+    0.3535533905932738,
+    0.25,
+    0.1767766952966369,
+    0.5,
+    0.3535533905932738
+  ],
+  "ssm_out_multiplier": 0.11785113019775793,
+  "tie_word_embeddings": false,
+  "topk": 2,
+  "torch_dtype": "float32",
+  "transformers_version": "4.55.2",
+  "use_cache": true,
+  "vocab_size": 65536
+}

configuration_falcon_h1_moe.py ADDED Viewed

	@@ -0,0 +1,17 @@

+from transformers import FalconH1Config
+"""FalconH1MoE model configuration"""
+class FalconH1MoEConfig(FalconH1Config):
+    def __init__(
+        self,
+        expert_num=8,
+        topk=2,
+        **kwargs,
+    ):
+        super().__init__(**kwargs)
+        self.expert_num = expert_num
+        self.topk = topk
+__all__ = ["FalconH1MoEConfig"]

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 11,
+  "pad_token_id": 0,
+  "transformers_version": "4.55.2"
+}

model-00001-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e1e73bfd7ed28c0ae035d598c452953f94722ad1ca72653d46807c5d55e798f
+size 4980963920

model-00002-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d96b3602ff76f63532389048d3099467f057cb53ce2f30b7d31dd7c145381c4b
+size 4998238224

model-00003-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e3d4992f90a2cca7a205ebc2660414cf7654e12176cbd14ee64d0a6ed20c34a3
+size 4998238384

model-00004-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:40e0f8b814e7e098648198b86a639901b9ed2ffb8d51e086b0cd0ea974c5560f
+size 4998238416

model-00005-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cad7e85c27a811871353b9d6db628ad47a87c8a561f1a5e6783d596a06755a51
+size 4733938968

model-00006-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db3f453c5bf4fbc3766066825eeb62e54e86663efeedcd2dced55b4356eddce8
+size 536871040

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,947 @@

+{
+  "metadata": {
+    "total_parameters": 6311593344,
+    "total_size": 25246373376
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00006-of-00006.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00006.safetensors",
+    "model.final_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.0.feed_forward.experts.0.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.feed_forward.experts.0.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.feed_forward.experts.0.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.feed_forward.experts.1.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.feed_forward.experts.1.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.feed_forward.experts.1.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.feed_forward.experts.2.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.feed_forward.experts.2.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.feed_forward.experts.2.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.feed_forward.experts.3.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.feed_forward.experts.3.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.feed_forward.experts.3.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.feed_forward.experts.4.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.feed_forward.experts.4.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.feed_forward.experts.4.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.feed_forward.experts.5.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.feed_forward.experts.5.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.feed_forward.experts.5.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.feed_forward.experts.6.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.feed_forward.experts.6.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.feed_forward.experts.6.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.feed_forward.experts.7.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.feed_forward.experts.7.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.feed_forward.experts.7.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.feed_forward.gate.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.mamba.A_log": "model-00001-of-00006.safetensors",
+    "model.layers.0.mamba.D": "model-00001-of-00006.safetensors",
+    "model.layers.0.mamba.conv1d.bias": "model-00001-of-00006.safetensors",
+    "model.layers.0.mamba.conv1d.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.mamba.dt_bias": "model-00001-of-00006.safetensors",
+    "model.layers.0.mamba.in_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.mamba.norm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.mamba.out_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.pre_ff_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.feed_forward.experts.0.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.feed_forward.experts.0.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.feed_forward.experts.0.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.feed_forward.experts.1.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.feed_forward.experts.1.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.feed_forward.experts.1.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.feed_forward.experts.2.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.feed_forward.experts.2.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.feed_forward.experts.2.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.feed_forward.experts.3.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.feed_forward.experts.3.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.feed_forward.experts.3.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.feed_forward.experts.4.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.feed_forward.experts.4.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.feed_forward.experts.4.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.feed_forward.experts.5.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.feed_forward.experts.5.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.feed_forward.experts.5.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.feed_forward.experts.6.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.feed_forward.experts.6.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.feed_forward.experts.6.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.feed_forward.experts.7.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.feed_forward.experts.7.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.feed_forward.experts.7.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.feed_forward.gate.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.mamba.A_log": "model-00001-of-00006.safetensors",
+    "model.layers.1.mamba.D": "model-00001-of-00006.safetensors",
+    "model.layers.1.mamba.conv1d.bias": "model-00001-of-00006.safetensors",
+    "model.layers.1.mamba.conv1d.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.mamba.dt_bias": "model-00001-of-00006.safetensors",
+    "model.layers.1.mamba.in_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.mamba.norm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.mamba.out_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.pre_ff_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.10.feed_forward.experts.0.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.feed_forward.experts.0.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.feed_forward.experts.0.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.feed_forward.experts.1.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.feed_forward.experts.1.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.feed_forward.experts.1.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.feed_forward.experts.2.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.feed_forward.experts.2.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.feed_forward.experts.2.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.feed_forward.experts.3.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.feed_forward.experts.3.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.feed_forward.experts.3.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.feed_forward.experts.4.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.feed_forward.experts.4.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.feed_forward.experts.4.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.feed_forward.experts.5.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.feed_forward.experts.5.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.feed_forward.experts.5.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.feed_forward.experts.6.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.feed_forward.experts.6.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.feed_forward.experts.6.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.feed_forward.experts.7.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.feed_forward.experts.7.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.feed_forward.experts.7.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.feed_forward.gate.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.mamba.A_log": "model-00003-of-00006.safetensors",
+    "model.layers.10.mamba.D": "model-00003-of-00006.safetensors",
+    "model.layers.10.mamba.conv1d.bias": "model-00003-of-00006.safetensors",
+    "model.layers.10.mamba.conv1d.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.mamba.dt_bias": "model-00003-of-00006.safetensors",
+    "model.layers.10.mamba.in_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.mamba.norm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.mamba.out_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.pre_ff_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.feed_forward.experts.0.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.feed_forward.experts.0.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.feed_forward.experts.0.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.feed_forward.experts.1.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.feed_forward.experts.1.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.feed_forward.experts.1.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.feed_forward.experts.2.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.feed_forward.experts.2.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.feed_forward.experts.2.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.feed_forward.experts.3.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.feed_forward.experts.3.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.feed_forward.experts.3.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.feed_forward.experts.4.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.feed_forward.experts.4.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.feed_forward.experts.4.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.feed_forward.experts.5.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.feed_forward.experts.5.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.feed_forward.experts.5.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.feed_forward.experts.6.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.feed_forward.experts.6.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.feed_forward.experts.6.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.feed_forward.experts.7.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.feed_forward.experts.7.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.feed_forward.experts.7.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.feed_forward.gate.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.mamba.A_log": "model-00003-of-00006.safetensors",
+    "model.layers.11.mamba.D": "model-00003-of-00006.safetensors",
+    "model.layers.11.mamba.conv1d.bias": "model-00003-of-00006.safetensors",
+    "model.layers.11.mamba.conv1d.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.mamba.dt_bias": "model-00003-of-00006.safetensors",
+    "model.layers.11.mamba.in_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.mamba.norm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.mamba.out_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.pre_ff_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.feed_forward.experts.0.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.feed_forward.experts.0.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.feed_forward.experts.0.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.feed_forward.experts.1.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.feed_forward.experts.1.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.feed_forward.experts.1.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.feed_forward.experts.2.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.feed_forward.experts.2.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.feed_forward.experts.2.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.feed_forward.experts.3.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.feed_forward.experts.3.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.feed_forward.experts.3.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.feed_forward.experts.4.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.feed_forward.experts.4.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.feed_forward.experts.4.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.feed_forward.experts.5.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.feed_forward.experts.5.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.feed_forward.experts.5.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.feed_forward.experts.6.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.feed_forward.experts.6.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.feed_forward.experts.6.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.feed_forward.experts.7.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.feed_forward.experts.7.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.feed_forward.experts.7.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.feed_forward.gate.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.mamba.A_log": "model-00003-of-00006.safetensors",
+    "model.layers.12.mamba.D": "model-00003-of-00006.safetensors",
+    "model.layers.12.mamba.conv1d.bias": "model-00003-of-00006.safetensors",
+    "model.layers.12.mamba.conv1d.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.mamba.dt_bias": "model-00003-of-00006.safetensors",
+    "model.layers.12.mamba.in_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.mamba.norm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.mamba.out_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.pre_ff_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.feed_forward.experts.0.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.feed_forward.experts.0.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.feed_forward.experts.0.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.feed_forward.experts.1.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.feed_forward.experts.1.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.feed_forward.experts.1.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.feed_forward.experts.2.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.feed_forward.experts.2.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.feed_forward.experts.2.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.feed_forward.experts.3.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.feed_forward.experts.3.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.feed_forward.experts.3.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.feed_forward.experts.4.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.feed_forward.experts.4.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.feed_forward.experts.4.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.feed_forward.experts.5.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.feed_forward.experts.5.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.feed_forward.experts.5.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.feed_forward.experts.6.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.feed_forward.experts.6.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.feed_forward.experts.6.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.feed_forward.experts.7.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.feed_forward.experts.7.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.feed_forward.experts.7.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.feed_forward.gate.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.mamba.A_log": "model-00003-of-00006.safetensors",
+    "model.layers.13.mamba.D": "model-00003-of-00006.safetensors",
+    "model.layers.13.mamba.conv1d.bias": "model-00003-of-00006.safetensors",
+    "model.layers.13.mamba.conv1d.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.mamba.dt_bias": "model-00003-of-00006.safetensors",
+    "model.layers.13.mamba.in_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.mamba.norm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.mamba.out_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.pre_ff_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.feed_forward.experts.0.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.feed_forward.experts.0.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.feed_forward.experts.0.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.feed_forward.experts.1.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.feed_forward.experts.1.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.feed_forward.experts.1.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.feed_forward.experts.2.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.feed_forward.experts.2.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.feed_forward.experts.2.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.feed_forward.experts.3.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.14.feed_forward.experts.3.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.14.feed_forward.experts.3.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.14.feed_forward.experts.4.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.14.feed_forward.experts.4.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.14.feed_forward.experts.4.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.14.feed_forward.experts.5.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.14.feed_forward.experts.5.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.14.feed_forward.experts.5.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.14.feed_forward.experts.6.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.14.feed_forward.experts.6.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.14.feed_forward.experts.6.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.14.feed_forward.experts.7.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.14.feed_forward.experts.7.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.14.feed_forward.experts.7.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.14.feed_forward.gate.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.14.mamba.A_log": "model-00004-of-00006.safetensors",
+    "model.layers.14.mamba.D": "model-00004-of-00006.safetensors",
+    "model.layers.14.mamba.conv1d.bias": "model-00004-of-00006.safetensors",
+    "model.layers.14.mamba.conv1d.weight": "model-00004-of-00006.safetensors",
+    "model.layers.14.mamba.dt_bias": "model-00004-of-00006.safetensors",
+    "model.layers.14.mamba.in_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.14.mamba.norm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.14.mamba.out_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.14.pre_ff_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.feed_forward.experts.0.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.feed_forward.experts.0.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.feed_forward.experts.0.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.feed_forward.experts.1.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.feed_forward.experts.1.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.feed_forward.experts.1.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.feed_forward.experts.2.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.feed_forward.experts.2.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.feed_forward.experts.2.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.feed_forward.experts.3.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.feed_forward.experts.3.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.feed_forward.experts.3.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.feed_forward.experts.4.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.feed_forward.experts.4.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.feed_forward.experts.4.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.feed_forward.experts.5.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.feed_forward.experts.5.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.feed_forward.experts.5.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.feed_forward.experts.6.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.feed_forward.experts.6.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.feed_forward.experts.6.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.feed_forward.experts.7.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.feed_forward.experts.7.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.feed_forward.experts.7.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.feed_forward.gate.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.mamba.A_log": "model-00004-of-00006.safetensors",
+    "model.layers.15.mamba.D": "model-00004-of-00006.safetensors",
+    "model.layers.15.mamba.conv1d.bias": "model-00004-of-00006.safetensors",
+    "model.layers.15.mamba.conv1d.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.mamba.dt_bias": "model-00004-of-00006.safetensors",
+    "model.layers.15.mamba.in_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.mamba.norm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.mamba.out_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.pre_ff_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.feed_forward.experts.0.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.feed_forward.experts.0.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.feed_forward.experts.0.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.feed_forward.experts.1.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.feed_forward.experts.1.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.feed_forward.experts.1.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.feed_forward.experts.2.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.feed_forward.experts.2.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.feed_forward.experts.2.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.feed_forward.experts.3.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.feed_forward.experts.3.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.feed_forward.experts.3.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.feed_forward.experts.4.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.feed_forward.experts.4.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.feed_forward.experts.4.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.feed_forward.experts.5.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.feed_forward.experts.5.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.feed_forward.experts.5.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.feed_forward.experts.6.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.feed_forward.experts.6.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.feed_forward.experts.6.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.feed_forward.experts.7.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.feed_forward.experts.7.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.feed_forward.experts.7.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.feed_forward.gate.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.mamba.A_log": "model-00004-of-00006.safetensors",
+    "model.layers.16.mamba.D": "model-00004-of-00006.safetensors",
+    "model.layers.16.mamba.conv1d.bias": "model-00004-of-00006.safetensors",
+    "model.layers.16.mamba.conv1d.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.mamba.dt_bias": "model-00004-of-00006.safetensors",
+    "model.layers.16.mamba.in_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.mamba.norm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.mamba.out_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.pre_ff_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.feed_forward.experts.0.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.feed_forward.experts.0.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.feed_forward.experts.0.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.feed_forward.experts.1.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.feed_forward.experts.1.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.feed_forward.experts.1.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.feed_forward.experts.2.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.feed_forward.experts.2.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.feed_forward.experts.2.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.feed_forward.experts.3.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.feed_forward.experts.3.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.feed_forward.experts.3.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.feed_forward.experts.4.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.feed_forward.experts.4.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.feed_forward.experts.4.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.feed_forward.experts.5.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.feed_forward.experts.5.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.feed_forward.experts.5.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.feed_forward.experts.6.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.feed_forward.experts.6.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.feed_forward.experts.6.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.feed_forward.experts.7.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.feed_forward.experts.7.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.feed_forward.experts.7.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.feed_forward.gate.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.mamba.A_log": "model-00004-of-00006.safetensors",
+    "model.layers.17.mamba.D": "model-00004-of-00006.safetensors",
+    "model.layers.17.mamba.conv1d.bias": "model-00004-of-00006.safetensors",
+    "model.layers.17.mamba.conv1d.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.mamba.dt_bias": "model-00004-of-00006.safetensors",
+    "model.layers.17.mamba.in_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.mamba.norm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.mamba.out_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.pre_ff_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.feed_forward.experts.0.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.feed_forward.experts.0.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.feed_forward.experts.0.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.feed_forward.experts.1.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.feed_forward.experts.1.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.feed_forward.experts.1.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.feed_forward.experts.2.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.feed_forward.experts.2.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.feed_forward.experts.2.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.feed_forward.experts.3.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.feed_forward.experts.3.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.feed_forward.experts.3.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.feed_forward.experts.4.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.feed_forward.experts.4.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.feed_forward.experts.4.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.feed_forward.experts.5.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.feed_forward.experts.5.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.feed_forward.experts.5.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.feed_forward.experts.6.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.feed_forward.experts.6.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.feed_forward.experts.6.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.feed_forward.experts.7.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.feed_forward.experts.7.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.feed_forward.experts.7.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.feed_forward.gate.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.mamba.A_log": "model-00004-of-00006.safetensors",
+    "model.layers.18.mamba.D": "model-00004-of-00006.safetensors",
+    "model.layers.18.mamba.conv1d.bias": "model-00004-of-00006.safetensors",
+    "model.layers.18.mamba.conv1d.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.mamba.dt_bias": "model-00004-of-00006.safetensors",
+    "model.layers.18.mamba.in_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.mamba.norm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.mamba.out_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.pre_ff_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.feed_forward.experts.0.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.feed_forward.experts.0.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.feed_forward.experts.0.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.feed_forward.experts.1.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.feed_forward.experts.1.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.feed_forward.experts.1.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.feed_forward.experts.2.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.19.feed_forward.experts.2.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.feed_forward.experts.2.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.feed_forward.experts.3.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.19.feed_forward.experts.3.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.19.feed_forward.experts.3.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.19.feed_forward.experts.4.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.19.feed_forward.experts.4.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.19.feed_forward.experts.4.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.19.feed_forward.experts.5.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.19.feed_forward.experts.5.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.19.feed_forward.experts.5.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.19.feed_forward.experts.6.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.19.feed_forward.experts.6.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.19.feed_forward.experts.6.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.19.feed_forward.experts.7.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.19.feed_forward.experts.7.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.19.feed_forward.experts.7.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.19.feed_forward.gate.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.19.mamba.A_log": "model-00005-of-00006.safetensors",
+    "model.layers.19.mamba.D": "model-00005-of-00006.safetensors",
+    "model.layers.19.mamba.conv1d.bias": "model-00005-of-00006.safetensors",
+    "model.layers.19.mamba.conv1d.weight": "model-00005-of-00006.safetensors",
+    "model.layers.19.mamba.dt_bias": "model-00005-of-00006.safetensors",
+    "model.layers.19.mamba.in_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.19.mamba.norm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.19.mamba.out_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.19.pre_ff_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.2.feed_forward.experts.0.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.feed_forward.experts.0.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.feed_forward.experts.0.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.feed_forward.experts.1.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.feed_forward.experts.1.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.feed_forward.experts.1.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.feed_forward.experts.2.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.feed_forward.experts.2.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.feed_forward.experts.2.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.feed_forward.experts.3.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.feed_forward.experts.3.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.feed_forward.experts.3.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.feed_forward.experts.4.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.feed_forward.experts.4.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.feed_forward.experts.4.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.feed_forward.experts.5.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.feed_forward.experts.5.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.feed_forward.experts.5.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.feed_forward.experts.6.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.feed_forward.experts.6.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.feed_forward.experts.6.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.feed_forward.experts.7.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.feed_forward.experts.7.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.feed_forward.experts.7.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.feed_forward.gate.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.mamba.A_log": "model-00001-of-00006.safetensors",
+    "model.layers.2.mamba.D": "model-00001-of-00006.safetensors",
+    "model.layers.2.mamba.conv1d.bias": "model-00001-of-00006.safetensors",
+    "model.layers.2.mamba.conv1d.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.mamba.dt_bias": "model-00001-of-00006.safetensors",
+    "model.layers.2.mamba.in_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.mamba.norm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.mamba.out_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.pre_ff_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.20.feed_forward.experts.0.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.feed_forward.experts.0.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.feed_forward.experts.0.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.feed_forward.experts.1.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.feed_forward.experts.1.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.feed_forward.experts.1.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.feed_forward.experts.2.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.feed_forward.experts.2.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.feed_forward.experts.2.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.feed_forward.experts.3.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.feed_forward.experts.3.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.feed_forward.experts.3.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.feed_forward.experts.4.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.feed_forward.experts.4.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.feed_forward.experts.4.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.feed_forward.experts.5.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.feed_forward.experts.5.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.feed_forward.experts.5.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.feed_forward.experts.6.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.feed_forward.experts.6.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.feed_forward.experts.6.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.feed_forward.experts.7.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.feed_forward.experts.7.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.feed_forward.experts.7.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.feed_forward.gate.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.mamba.A_log": "model-00005-of-00006.safetensors",
+    "model.layers.20.mamba.D": "model-00005-of-00006.safetensors",
+    "model.layers.20.mamba.conv1d.bias": "model-00005-of-00006.safetensors",
+    "model.layers.20.mamba.conv1d.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.mamba.dt_bias": "model-00005-of-00006.safetensors",
+    "model.layers.20.mamba.in_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.mamba.norm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.mamba.out_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.pre_ff_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.feed_forward.experts.0.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.feed_forward.experts.0.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.feed_forward.experts.0.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.feed_forward.experts.1.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.feed_forward.experts.1.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.feed_forward.experts.1.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.feed_forward.experts.2.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.feed_forward.experts.2.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.feed_forward.experts.2.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.feed_forward.experts.3.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.feed_forward.experts.3.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.feed_forward.experts.3.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.feed_forward.experts.4.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.feed_forward.experts.4.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.feed_forward.experts.4.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.feed_forward.experts.5.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.feed_forward.experts.5.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.feed_forward.experts.5.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.feed_forward.experts.6.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.feed_forward.experts.6.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.feed_forward.experts.6.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.feed_forward.experts.7.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.feed_forward.experts.7.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.feed_forward.experts.7.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.feed_forward.gate.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.mamba.A_log": "model-00005-of-00006.safetensors",
+    "model.layers.21.mamba.D": "model-00005-of-00006.safetensors",
+    "model.layers.21.mamba.conv1d.bias": "model-00005-of-00006.safetensors",
+    "model.layers.21.mamba.conv1d.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.mamba.dt_bias": "model-00005-of-00006.safetensors",
+    "model.layers.21.mamba.in_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.mamba.norm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.mamba.out_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.pre_ff_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.feed_forward.experts.0.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.feed_forward.experts.0.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.feed_forward.experts.0.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.feed_forward.experts.1.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.feed_forward.experts.1.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.feed_forward.experts.1.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.feed_forward.experts.2.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.feed_forward.experts.2.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.feed_forward.experts.2.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.feed_forward.experts.3.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.feed_forward.experts.3.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.feed_forward.experts.3.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.feed_forward.experts.4.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.feed_forward.experts.4.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.feed_forward.experts.4.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.feed_forward.experts.5.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.feed_forward.experts.5.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.feed_forward.experts.5.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.feed_forward.experts.6.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.feed_forward.experts.6.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.feed_forward.experts.6.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.feed_forward.experts.7.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.feed_forward.experts.7.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.feed_forward.experts.7.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.feed_forward.gate.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.mamba.A_log": "model-00005-of-00006.safetensors",
+    "model.layers.22.mamba.D": "model-00005-of-00006.safetensors",
+    "model.layers.22.mamba.conv1d.bias": "model-00005-of-00006.safetensors",
+    "model.layers.22.mamba.conv1d.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.mamba.dt_bias": "model-00005-of-00006.safetensors",
+    "model.layers.22.mamba.in_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.mamba.norm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.mamba.out_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.pre_ff_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.feed_forward.experts.0.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.feed_forward.experts.0.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.feed_forward.experts.0.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.feed_forward.experts.1.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.feed_forward.experts.1.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.feed_forward.experts.1.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.feed_forward.experts.2.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.feed_forward.experts.2.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.feed_forward.experts.2.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.feed_forward.experts.3.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.feed_forward.experts.3.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.feed_forward.experts.3.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.feed_forward.experts.4.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.feed_forward.experts.4.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.feed_forward.experts.4.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.feed_forward.experts.5.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.feed_forward.experts.5.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.feed_forward.experts.5.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.feed_forward.experts.6.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.feed_forward.experts.6.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.feed_forward.experts.6.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.feed_forward.experts.7.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.feed_forward.experts.7.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.feed_forward.experts.7.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.feed_forward.gate.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.mamba.A_log": "model-00005-of-00006.safetensors",
+    "model.layers.23.mamba.D": "model-00005-of-00006.safetensors",
+    "model.layers.23.mamba.conv1d.bias": "model-00005-of-00006.safetensors",
+    "model.layers.23.mamba.conv1d.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.mamba.dt_bias": "model-00005-of-00006.safetensors",
+    "model.layers.23.mamba.in_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.mamba.norm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.mamba.out_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.pre_ff_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.3.feed_forward.experts.0.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.feed_forward.experts.0.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.feed_forward.experts.0.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.feed_forward.experts.1.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.feed_forward.experts.1.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.feed_forward.experts.1.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.feed_forward.experts.2.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.feed_forward.experts.2.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.feed_forward.experts.2.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.feed_forward.experts.3.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.feed_forward.experts.3.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.feed_forward.experts.3.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.feed_forward.experts.4.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.feed_forward.experts.4.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.feed_forward.experts.4.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.feed_forward.experts.5.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.feed_forward.experts.5.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.feed_forward.experts.5.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.feed_forward.experts.6.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.feed_forward.experts.6.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.feed_forward.experts.6.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.feed_forward.experts.7.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.feed_forward.experts.7.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.feed_forward.experts.7.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.feed_forward.gate.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.mamba.A_log": "model-00001-of-00006.safetensors",
+    "model.layers.3.mamba.D": "model-00001-of-00006.safetensors",
+    "model.layers.3.mamba.conv1d.bias": "model-00001-of-00006.safetensors",
+    "model.layers.3.mamba.conv1d.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.mamba.dt_bias": "model-00001-of-00006.safetensors",
+    "model.layers.3.mamba.in_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.mamba.norm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.mamba.out_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.pre_ff_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.feed_forward.experts.0.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.feed_forward.experts.0.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.feed_forward.experts.0.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.feed_forward.experts.1.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.feed_forward.experts.1.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.feed_forward.experts.1.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.feed_forward.experts.2.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.feed_forward.experts.2.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.feed_forward.experts.2.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.feed_forward.experts.3.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.4.feed_forward.experts.3.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.feed_forward.experts.3.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.feed_forward.experts.4.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.4.feed_forward.experts.4.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.4.feed_forward.experts.4.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.4.feed_forward.experts.5.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.4.feed_forward.experts.5.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.4.feed_forward.experts.5.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.4.feed_forward.experts.6.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.4.feed_forward.experts.6.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.4.feed_forward.experts.6.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.4.feed_forward.experts.7.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.4.feed_forward.experts.7.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.4.feed_forward.experts.7.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.4.feed_forward.gate.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.4.mamba.A_log": "model-00002-of-00006.safetensors",
+    "model.layers.4.mamba.D": "model-00002-of-00006.safetensors",
+    "model.layers.4.mamba.conv1d.bias": "model-00002-of-00006.safetensors",
+    "model.layers.4.mamba.conv1d.weight": "model-00002-of-00006.safetensors",
+    "model.layers.4.mamba.dt_bias": "model-00002-of-00006.safetensors",
+    "model.layers.4.mamba.in_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.4.mamba.norm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.4.mamba.out_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.4.pre_ff_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.feed_forward.experts.0.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.feed_forward.experts.0.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.feed_forward.experts.0.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.feed_forward.experts.1.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.feed_forward.experts.1.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.feed_forward.experts.1.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.feed_forward.experts.2.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.feed_forward.experts.2.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.feed_forward.experts.2.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.feed_forward.experts.3.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.feed_forward.experts.3.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.feed_forward.experts.3.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.feed_forward.experts.4.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.feed_forward.experts.4.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.feed_forward.experts.4.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.feed_forward.experts.5.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.feed_forward.experts.5.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.feed_forward.experts.5.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.feed_forward.experts.6.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.feed_forward.experts.6.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.feed_forward.experts.6.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.feed_forward.experts.7.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.feed_forward.experts.7.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.feed_forward.experts.7.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.feed_forward.gate.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.mamba.A_log": "model-00002-of-00006.safetensors",
+    "model.layers.5.mamba.D": "model-00002-of-00006.safetensors",
+    "model.layers.5.mamba.conv1d.bias": "model-00002-of-00006.safetensors",
+    "model.layers.5.mamba.conv1d.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.mamba.dt_bias": "model-00002-of-00006.safetensors",
+    "model.layers.5.mamba.in_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.mamba.norm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.mamba.out_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.pre_ff_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.feed_forward.experts.0.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.feed_forward.experts.0.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.feed_forward.experts.0.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.feed_forward.experts.1.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.feed_forward.experts.1.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.feed_forward.experts.1.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.feed_forward.experts.2.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.feed_forward.experts.2.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.feed_forward.experts.2.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.feed_forward.experts.3.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.feed_forward.experts.3.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.feed_forward.experts.3.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.feed_forward.experts.4.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.feed_forward.experts.4.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.feed_forward.experts.4.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.feed_forward.experts.5.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.feed_forward.experts.5.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.feed_forward.experts.5.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.feed_forward.experts.6.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.feed_forward.experts.6.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.feed_forward.experts.6.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.feed_forward.experts.7.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.feed_forward.experts.7.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.feed_forward.experts.7.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.feed_forward.gate.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.mamba.A_log": "model-00002-of-00006.safetensors",
+    "model.layers.6.mamba.D": "model-00002-of-00006.safetensors",
+    "model.layers.6.mamba.conv1d.bias": "model-00002-of-00006.safetensors",
+    "model.layers.6.mamba.conv1d.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.mamba.dt_bias": "model-00002-of-00006.safetensors",
+    "model.layers.6.mamba.in_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.mamba.norm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.mamba.out_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.pre_ff_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.feed_forward.experts.0.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.feed_forward.experts.0.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.feed_forward.experts.0.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.feed_forward.experts.1.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.feed_forward.experts.1.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.feed_forward.experts.1.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.feed_forward.experts.2.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.feed_forward.experts.2.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.feed_forward.experts.2.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.feed_forward.experts.3.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.feed_forward.experts.3.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.feed_forward.experts.3.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.feed_forward.experts.4.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.feed_forward.experts.4.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.feed_forward.experts.4.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.feed_forward.experts.5.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.feed_forward.experts.5.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.feed_forward.experts.5.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.feed_forward.experts.6.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.feed_forward.experts.6.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.feed_forward.experts.6.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.feed_forward.experts.7.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.feed_forward.experts.7.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.feed_forward.experts.7.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.feed_forward.gate.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.mamba.A_log": "model-00002-of-00006.safetensors",
+    "model.layers.7.mamba.D": "model-00002-of-00006.safetensors",
+    "model.layers.7.mamba.conv1d.bias": "model-00002-of-00006.safetensors",
+    "model.layers.7.mamba.conv1d.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.mamba.dt_bias": "model-00002-of-00006.safetensors",
+    "model.layers.7.mamba.in_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.mamba.norm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.mamba.out_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.pre_ff_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.feed_forward.experts.0.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.feed_forward.experts.0.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.feed_forward.experts.0.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.feed_forward.experts.1.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.feed_forward.experts.1.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.feed_forward.experts.1.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.feed_forward.experts.2.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.feed_forward.experts.2.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.feed_forward.experts.2.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.feed_forward.experts.3.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.feed_forward.experts.3.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.feed_forward.experts.3.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.feed_forward.experts.4.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.feed_forward.experts.4.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.feed_forward.experts.4.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.feed_forward.experts.5.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.feed_forward.experts.5.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.feed_forward.experts.5.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.feed_forward.experts.6.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.feed_forward.experts.6.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.feed_forward.experts.6.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.feed_forward.experts.7.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.feed_forward.experts.7.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.feed_forward.experts.7.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.feed_forward.gate.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.mamba.A_log": "model-00002-of-00006.safetensors",
+    "model.layers.8.mamba.D": "model-00002-of-00006.safetensors",
+    "model.layers.8.mamba.conv1d.bias": "model-00002-of-00006.safetensors",
+    "model.layers.8.mamba.conv1d.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.mamba.dt_bias": "model-00002-of-00006.safetensors",
+    "model.layers.8.mamba.in_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.mamba.norm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.mamba.out_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.pre_ff_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.feed_forward.experts.0.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.feed_forward.experts.0.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.feed_forward.experts.0.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.feed_forward.experts.1.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.feed_forward.experts.1.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.feed_forward.experts.1.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.feed_forward.experts.2.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.feed_forward.experts.2.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.feed_forward.experts.2.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.feed_forward.experts.3.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.9.feed_forward.experts.3.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.feed_forward.experts.3.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.9.feed_forward.experts.4.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.9.feed_forward.experts.4.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.9.feed_forward.experts.4.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.9.feed_forward.experts.5.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.9.feed_forward.experts.5.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.9.feed_forward.experts.5.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.9.feed_forward.experts.6.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.9.feed_forward.experts.6.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.9.feed_forward.experts.6.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.9.feed_forward.experts.7.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.9.feed_forward.experts.7.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.9.feed_forward.experts.7.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.9.feed_forward.gate.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.9.mamba.A_log": "model-00003-of-00006.safetensors",
+    "model.layers.9.mamba.D": "model-00003-of-00006.safetensors",
+    "model.layers.9.mamba.conv1d.bias": "model-00003-of-00006.safetensors",
+    "model.layers.9.mamba.conv1d.weight": "model-00003-of-00006.safetensors",
+    "model.layers.9.mamba.dt_bias": "model-00003-of-00006.safetensors",
+    "model.layers.9.mamba.in_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.9.mamba.norm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.9.mamba.out_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.9.pre_ff_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00003-of-00006.safetensors"
+  }
+}

modeling_falcon_h1_moe.py ADDED Viewed

	@@ -0,0 +1,260 @@

+# This file is adapted from NVIDIA Megatron-LM.
+#
+# Original source:
+# https://github.com/NVIDIA/Megatron-LM/blob/991138eedc580ba89ce8e44e771783f083cd9dee/megatron/core/transformer/moe/moe_utils.py
+#
+# Copyright (c) NVIDIA Corporation.
+# Licensed under the Apache License, Version 2.0.
+#
+# Modifications in this file:
+# - Removed distributed and communication-related logic
+# - Retained only single-process / local computation components
+# - Minor refactoring for integration with this project
+import torch
+import torch.nn.functional as F
+from transformers import FalconH1ForCausalLM, FalconH1Model
+from openrlhf.moe_utils import FalconH1MoEConfig
+from  transformers.models.falcon_h1.modeling_falcon_h1 import FalconH1DecoderLayer, FalconH1MLP, compute_mup_vector
+from torch import nn
+class FalconH1MoEModel(FalconH1Model):
+    def __init__(self, config: FalconH1MoEConfig):
+        super().__init__(config)
+        decoder_layers = []
+        for i in range(config.num_hidden_layers):
+            decoder_layers.append(FalconH1MoEDecoderLayer(config, layer_idx=i))
+        self.layers = nn.ModuleList(decoder_layers)
+        mup_vector = compute_mup_vector(config)
+        for layer in self.layers:
+            layer.mamba.register_buffer("mup_vector", mup_vector, persistent=False)
+class FalconH1MoEMLP(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.config = config
+        self.num_experts = config.expert_num
+        self.top_k = config.topk
+        self.norm_topk_prob = False
+        # gating
+        self.gate = nn.Linear(config.hidden_size, config.expert_num, bias=False)
+        self.experts = nn.ModuleList(
+            [FalconH1MLP(config) for _ in range(self.num_experts)]
+        )
+        # self.shared_expert = FalconH1MLP(config)
+        # self.shared_expert_gate = torch.nn.Linear(config.hidden_size, 1, bias=False)
+    def fuse_moe(self, batch_size, sequence_length, hidden_dim, selected_experts, hidden_states, routing_weights):
+        final_hidden_states = torch.zeros(
+            (batch_size * sequence_length, hidden_dim), dtype=hidden_states.dtype, device=hidden_states.device
+        )
+        # One hot encode the selected experts to create an expert mask
+        # this will be used to easily index which expert is going to be sollicitated
+        expert_mask = torch.nn.functional.one_hot(selected_experts, num_classes=self.num_experts).permute(2, 1, 0)
+        # Loop over all available experts in the model and perform the computation on each expert
+        expert_hitted = torch.greater(expert_mask.sum(dim=(-1, -2)), 0).nonzero()
+        for expert_idx in expert_hitted:
+            expert_layer = self.experts[expert_idx]
+            idx, top_x = torch.where(expert_mask[expert_idx].squeeze(0))
+            # Index the correct hidden states and compute the expert hidden state for
+            # the current expert. We need to make sure to multiply the output hidden
+            # states by `routing_weights` on the corresponding tokens (top-1 and top-2)
+            current_state = hidden_states[None, top_x].reshape(-1, hidden_dim)
+            current_hidden_states = expert_layer(current_state) * routing_weights[top_x, idx, None]
+            # However `index_add_` only support torch tensors for indexing so we'll use
+            # the `top_x` tensor here.
+            final_hidden_states.index_add_(0, top_x, current_hidden_states.to(hidden_states.dtype))
+        return final_hidden_states
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        """ """
+        batch_size, sequence_length, hidden_dim = hidden_states.shape
+        hidden_states = hidden_states.view(-1, hidden_dim)
+        # router_logits: (batch * sequence_length, n_experts)
+        router_logits = self.gate(hidden_states)
+        routing_weights = F.softmax(router_logits, dim=1, dtype=torch.float)
+        routing_weights, selected_experts = torch.topk(routing_weights, self.top_k, dim=-1)
+        if self.norm_topk_prob:
+            routing_weights /= routing_weights.sum(dim=-1, keepdim=True)
+        # we cast back to the input dtype
+        routing_weights = routing_weights.to(hidden_states.dtype)
+        final_hidden_states = self.fuse_moe(batch_size, sequence_length, hidden_dim, selected_experts, hidden_states, routing_weights)
+        # shared_expert_output = self.shared_expert(hidden_states)
+        # shared_expert_output = F.sigmoid(self.shared_expert_gate(hidden_states)) * shared_expert_output
+        # final_hidden_states = final_hidden_states + shared_expert_output
+        final_hidden_states = final_hidden_states.reshape(batch_size, sequence_length, hidden_dim)
+        return final_hidden_states, router_logits
+# class FalconH1MoEMLP(nn.Module):
+#     def __init__(self, config: FalconH1MoEConfig):
+#         super().__init__()
+#         self.config = config
+#         self.num_local_experts = config.expert_num
+#         self.topk=config.topk
+#         '''build experts'''
+#         self.experts = torch.nn.ModuleList()
+#         for _ in range(self.num_local_experts):
+#             expert = FalconH1MLP(config)
+#             self.experts.append(expert)
+#         '''build router'''
+#         self.weight = torch.nn.Parameter(
+#             torch.empty((self.num_local_experts, self.config.hidden_size), dtype=torch.float32)
+#         )
+#         torch.nn.init.xavier_uniform_(self.weight)
+#     def forward(self, x):
+#         x = x.transpose(0, 1).contiguous() #x: [seq_len, bs, hidden_size]
+#         '''fixed parameters'''
+#         inp_shape = x.shape
+#         num_tokens = inp_shape[0] * inp_shape[1]
+#         hidden = inp_shape[-1]
+#         num_experts = self.num_local_experts
+#         x = x.view(-1, inp_shape[-1]) #x: [token_num, hidden_size]
+#         restore_shape = x.shape
+#         """Routing , compute the experts' weight for each token, all following step is on token level.
+#         Args:
+#         Returns:
+#             routing_probs, token -> expert_prob
+#             [[0.0000, 0.0000, 0.4006, 0.5994],
+#             ...,
+#             [0.0373, 0.0000, 0.9627, 0.0000]]
+#             ------------
+#             routing_map, token -> expert_idx
+#             [[False, False,  True,  True],
+#             ...,
+#             [ True, False,  True, False]])
+#         """
+#         y = torch.mm(x, self.weight.to(x.dtype).t()) #y: [token_num, expert_num]
+#         scores, top_indices = torch.topk(y, k=self.topk, dim=1)
+#         probs = torch.softmax(scores, dim=-1, dtype=torch.float32).type_as(y)
+#         routing_probs = torch.zeros_like(y).scatter(1, top_indices, probs)
+#         routing_map = torch.zeros_like(y).int().scatter(1, top_indices, 1).bool()
+#         """Dispatch: experts-to-tokens
+#         Args:
+#         Returns:
+#             probs: [expert0{token4_prob, token2_prob,token8_prob}.....expertn]
+#             x: [expert0{token4_idx, token2_idx, token8_idx}.....]
+#         """
+#         num_local_tokens_per_expert = routing_map.sum(dim=0).long() # [token_num_e_1, ...., token_num_e_n]
+#         routing_map = routing_map.bool().T.contiguous() # expert-to-token, [expert_num, token_num]
+#         '''
+#         [False, False, False,  ..., False,  True,  True],
+#         [False, False, False,  ...,  True, False, False],
+#         [ True,  True,  True,  ...,  True,  True,  True],
+#         [ True,  True,  True,  ..., False, False, False]]
+#         '''
+#         token_indices = (
+#             torch.arange(num_tokens, device=routing_map.device).unsqueeze(0).expand(num_experts, -1)
+#         ) # [expert_num, token_num]
+#         '''
+#         [[   0,    1,    2,  ..., 1021, 1022, 1023],
+#         [   0,    1,    2,  ..., 1021, 1022, 1023],
+#         [   0,    1,    2,  ..., 1021, 1022, 1023],
+#         [   0,    1,    2,  ..., 1021, 1022, 1023]]
+#         '''
+#         sorted_indices = token_indices.masked_select(routing_map) # [topk * token_num]
+#         '''
+#         [   8,    9,   12,  ..., 1015, 1016, 1017],
+#         sorted_indices[:idx_1]->expert0
+#         sorted_indices[idx_1:idx_2]->expert1
+#         sorted_indices[idx_2:idx_3]->expert2
+#         sorted_indices[idx_3:idx_4]->expert3
+#         '''
+#         probs = routing_probs.T.contiguous().masked_select(routing_map)  # [topk * token_num]
+#         '''
+#         [0.6458, 0.6458, 0.5577,  ..., 0.4983, 0.0520, 0.0520]
+#         '''
+#         x = x.index_select(0, sorted_indices) # [token_num * topk, hidden]
+#         tokens_list = torch.split(x, num_local_tokens_per_expert.tolist())
+#         probs_list = torch.split(probs, num_local_tokens_per_expert.tolist())
+#         output_local_list = []
+#         for expert, tokens, prob in zip(self.experts, tokens_list, probs_list):
+#             output = expert(tokens) * prob.unsqueeze(-1)
+#             output_local_list.append(output)
+#         permuted_tokens = torch.cat(output_local_list, dim=0)
+#         output_tokens = torch.zeros(
+#         restore_shape, dtype=permuted_tokens.dtype, device=permuted_tokens.device
+#             )
+#         # Scatter add the permuted_input back to the original positions
+#         output_tokens.scatter_add_(0, sorted_indices.unsqueeze(1).expand(-1, hidden), permuted_tokens)
+#         output = output_tokens.view(inp_shape).transpose(0, 1)
+#         return output
+class FalconH1MoEDecoderLayer(FalconH1DecoderLayer):
+    def __init__(self, config: FalconH1MoEConfig, layer_idx: int):
+        super().__init__(config, layer_idx)
+        self.feed_forward = FalconH1MoEMLP(config)
+class FalconH1MoEForCausalLM(FalconH1ForCausalLM):
+    def __init__(self, config: FalconH1MoEConfig):
+        super().__init__(config)
+        self.model = FalconH1MoEModel(config)
+__all__ = ["FalconH1MoEForCausalLM"]