Model save

Browse files

Files changed (9) hide show

README.md +17 -22
all_results.json +4 -9
config.json +1 -1
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
train_results.json +4 -4
trainer_state.json +48 -48
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -3,16 +3,11 @@ library_name: transformers
 license: apache-2.0
 base_model: alignment-handbook/zephyr-7b-sft-full
 tags:
-- alignment-handbook
 - trl
 - sft
 - generated_from_trainer
-- trl
-- sft
-- alignment-handbook
-- generated_from_trainer
 datasets:
-- scottsuk0306/DepthQA
 model-index:
 - name: zephyr-7b-stem-half
   results: []
@@ -23,9 +18,9 @@ should probably proofread and complete it, then remove this comment. -->
 # zephyr-7b-stem-half
-This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on the scottsuk0306/DepthQA dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.1468
 ## Model description
@@ -45,13 +40,13 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 1e-05
-- train_batch_size: 16
-- eval_batch_size: 8
 - seed: 42
 - distributed_type: multi-GPU
-- num_devices: 8
-- total_train_batch_size: 128
-- total_eval_batch_size: 64
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.03
@@ -61,15 +56,15 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 1.0647        | 1.0   | 1    | 1.0615          |
-| 1.0647        | 2.0   | 2    | 1.1875          |
-| 1.0647        | 3.0   | 3    | 0.9856          |
-| 1.0647        | 4.0   | 4    | 0.6196          |
-| 0.969         | 5.0   | 5    | 0.4429          |
-| 0.969         | 6.0   | 6    | 0.3590          |
-| 0.969         | 7.0   | 7    | 0.2403          |
-| 0.969         | 8.0   | 8    | 0.1860          |
-| 0.969         | 9.0   | 9    | 0.1558          |
 ### Framework versions

 license: apache-2.0
 base_model: alignment-handbook/zephyr-7b-sft-full
 tags:
 - trl
 - sft
 - generated_from_trainer
 datasets:
+- generator
 model-index:
 - name: zephyr-7b-stem-half
   results: []
 # zephyr-7b-stem-half
+This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on the generator dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2678
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 1e-05
+- train_batch_size: 8
+- eval_batch_size: 4
 - seed: 42
 - distributed_type: multi-GPU
+- num_devices: 4
+- total_train_batch_size: 32
+- total_eval_batch_size: 16
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.03
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 1.1064        | 1.0   | 1    | 1.1164          |
+| 1.1064        | 2.0   | 2    | 1.2343          |
+| 1.1064        | 3.0   | 3    | 0.9905          |
+| 1.1064        | 4.0   | 4    | 0.7123          |
+| 1.0149        | 5.0   | 5    | 0.5843          |
+| 1.0149        | 6.0   | 6    | 0.4350          |
+| 1.0149        | 7.0   | 7    | 0.3496          |
+| 1.0149        | 8.0   | 8    | 0.2988          |
+| 1.0149        | 9.0   | 9    | 0.2678          |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,14 +1,9 @@
 {
     "epoch": 10.0,
-    "eval_loss": 0.14684411883354187,
-    "eval_runtime": 4.0784,
-    "eval_samples": 424,
-    "eval_samples_per_second": 4.659,
-    "eval_steps_per_second": 0.245,
-    "total_flos": 8375186227200.0,
     "train_loss": 0.0,
-    "train_runtime": 1.6437,
     "train_samples": 424,
-    "train_samples_per_second": 115.592,
-    "train_steps_per_second": 6.084
 }

 {
     "epoch": 10.0,
+    "total_flos": 2093796556800.0,
     "train_loss": 0.0,
+    "train_runtime": 1.6028,
     "train_samples": 424,
+    "train_samples_per_second": 149.735,
+    "train_steps_per_second": 6.239
 }

config.json CHANGED Viewed

@@ -22,6 +22,6 @@
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.44.2",
-  "use_cache": true,
   "vocab_size": 32000
 }

   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.44.2",
+  "use_cache": false,
   "vocab_size": 32000
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c522bc6840c9722b850590aec0e876cfb8f74e694468807e6a2d18e18b7b73c
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:f2c5657be7d78e15de848fc62cc05376aa06fb48122aaab55e0299e97162f548
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50295b481270ed1b1d2971752bdceeaac1a9a2817a55ca11b22acf0e572c64f7
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a117ddb2c1d9547f5923e948171b5d03fee5fae7b643aed997d8517ea62928b
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc57123c5a8b1fafbc4eeb711ca05bfea52efeb0c79cf7ed37506369e6c8b734
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:40e5a73ce77dd1c37f86398b7371480be2920392a322c421e4a183f827b3a193
 size 4540516344

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 10.0,
-    "total_flos": 8375186227200.0,
     "train_loss": 0.0,
-    "train_runtime": 1.6437,
     "train_samples": 424,
-    "train_samples_per_second": 115.592,
-    "train_steps_per_second": 6.084
 }

 {
     "epoch": 10.0,
+    "total_flos": 2093796556800.0,
     "train_loss": 0.0,
+    "train_runtime": 1.6028,
     "train_samples": 424,
+    "train_samples_per_second": 149.735,
+    "train_steps_per_second": 6.239
 }

trainer_state.json CHANGED Viewed

@@ -10,105 +10,105 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 25.3735801083628,
       "learning_rate": 1e-05,
-      "loss": 1.0647,
       "step": 1
     },
     {
       "epoch": 1.0,
-      "eval_loss": 1.061476469039917,
-      "eval_runtime": 2.8031,
-      "eval_samples_per_second": 6.778,
-      "eval_steps_per_second": 0.357,
       "step": 1
     },
     {
       "epoch": 2.0,
-      "eval_loss": 1.1875081062316895,
-      "eval_runtime": 2.6772,
-      "eval_samples_per_second": 7.097,
-      "eval_steps_per_second": 0.374,
       "step": 2
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.985565185546875,
-      "eval_runtime": 2.6682,
-      "eval_samples_per_second": 7.121,
-      "eval_steps_per_second": 0.375,
       "step": 3
     },
     {
       "epoch": 4.0,
-      "eval_loss": 0.6195911169052124,
-      "eval_runtime": 2.6829,
-      "eval_samples_per_second": 7.082,
-      "eval_steps_per_second": 0.373,
       "step": 4
     },
     {
       "epoch": 5.0,
-      "grad_norm": 13.767739837044488,
       "learning_rate": 5.8682408883346535e-06,
-      "loss": 0.969,
       "step": 5
     },
     {
       "epoch": 5.0,
-      "eval_loss": 0.4429333806037903,
-      "eval_runtime": 2.6868,
-      "eval_samples_per_second": 7.072,
-      "eval_steps_per_second": 0.372,
       "step": 5
     },
     {
       "epoch": 6.0,
-      "eval_loss": 0.3589998185634613,
-      "eval_runtime": 2.6805,
-      "eval_samples_per_second": 7.088,
-      "eval_steps_per_second": 0.373,
       "step": 6
     },
     {
       "epoch": 7.0,
-      "eval_loss": 0.24026596546173096,
-      "eval_runtime": 2.671,
-      "eval_samples_per_second": 7.113,
-      "eval_steps_per_second": 0.374,
       "step": 7
     },
     {
       "epoch": 8.0,
-      "eval_loss": 0.18603171408176422,
-      "eval_runtime": 2.7105,
-      "eval_samples_per_second": 7.01,
-      "eval_steps_per_second": 0.369,
       "step": 8
     },
     {
       "epoch": 9.0,
-      "eval_loss": 0.15581761300563812,
-      "eval_runtime": 2.6748,
-      "eval_samples_per_second": 7.103,
-      "eval_steps_per_second": 0.374,
       "step": 9
     },
     {
       "epoch": 10.0,
-      "grad_norm": 2.4836614664887184,
       "learning_rate": 0.0,
-      "loss": 0.2782,
       "step": 10
     },
     {
       "epoch": 10.0,
       "step": 10,
-      "total_flos": 8375186227200.0,
       "train_loss": 0.0,
-      "train_runtime": 1.6437,
-      "train_samples_per_second": 115.592,
-      "train_steps_per_second": 6.084
     }
   ],
   "logging_steps": 5,
@@ -128,8 +128,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 8375186227200.0,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 17.570717480629625,
       "learning_rate": 1e-05,
+      "loss": 1.1064,
       "step": 1
     },
     {
       "epoch": 1.0,
+      "eval_loss": 1.116378664970398,
+      "eval_runtime": 2.7633,
+      "eval_samples_per_second": 8.685,
+      "eval_steps_per_second": 0.724,
       "step": 1
     },
     {
       "epoch": 2.0,
+      "eval_loss": 1.234288215637207,
+      "eval_runtime": 2.7167,
+      "eval_samples_per_second": 8.834,
+      "eval_steps_per_second": 0.736,
       "step": 2
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.9905319213867188,
+      "eval_runtime": 2.7356,
+      "eval_samples_per_second": 8.773,
+      "eval_steps_per_second": 0.731,
       "step": 3
     },
     {
       "epoch": 4.0,
+      "eval_loss": 0.712308406829834,
+      "eval_runtime": 2.7104,
+      "eval_samples_per_second": 8.855,
+      "eval_steps_per_second": 0.738,
       "step": 4
     },
     {
       "epoch": 5.0,
+      "grad_norm": 22.309413100632455,
       "learning_rate": 5.8682408883346535e-06,
+      "loss": 1.0149,
       "step": 5
     },
     {
       "epoch": 5.0,
+      "eval_loss": 0.5842603445053101,
+      "eval_runtime": 2.7186,
+      "eval_samples_per_second": 8.828,
+      "eval_steps_per_second": 0.736,
       "step": 5
     },
     {
       "epoch": 6.0,
+      "eval_loss": 0.43497833609580994,
+      "eval_runtime": 2.7203,
+      "eval_samples_per_second": 8.823,
+      "eval_steps_per_second": 0.735,
       "step": 6
     },
     {
       "epoch": 7.0,
+      "eval_loss": 0.349648118019104,
+      "eval_runtime": 2.7121,
+      "eval_samples_per_second": 8.849,
+      "eval_steps_per_second": 0.737,
       "step": 7
     },
     {
       "epoch": 8.0,
+      "eval_loss": 0.298780232667923,
+      "eval_runtime": 2.7204,
+      "eval_samples_per_second": 8.822,
+      "eval_steps_per_second": 0.735,
       "step": 8
     },
     {
       "epoch": 9.0,
+      "eval_loss": 0.26783373951911926,
+      "eval_runtime": 2.7269,
+      "eval_samples_per_second": 8.801,
+      "eval_steps_per_second": 0.733,
       "step": 9
     },
     {
       "epoch": 10.0,
+      "grad_norm": 3.99720130224049,
       "learning_rate": 0.0,
+      "loss": 0.3844,
       "step": 10
     },
     {
       "epoch": 10.0,
       "step": 10,
+      "total_flos": 2093796556800.0,
       "train_loss": 0.0,
+      "train_runtime": 1.6028,
+      "train_samples_per_second": 149.735,
+      "train_steps_per_second": 6.239
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 2093796556800.0,
+  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:75efd32a9fabbb81846c0c746336b54b61acdff1369f814b4bf7e9ff459e6e6d
 size 6968

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc2995316c087d59e5c93ccf1e0a00dc7c4d1a8bab6af12aaec77bdb40108d92
 size 6968