dolphin-2.9.1-yi-1.5-34b
简介
由Eric Hartford、Lucas Atkins、Fernando Fernandes及Cognitive Computations共同策划并训练
模型卡片
模型配置
模型详情
已翻译Dolphin 2.9.1 Yi 1.5 34b 🐬
由 Eric Hartford、Lucas Atkins、Fernando Fernandes 及 Cognitive Computations 策划与训练
这是我们迄今为止最出色的成果。FFT,全参数,16bit。在 34b 模型上达到 77.4 MMLU。而且它的对话表现如梦般流畅。
虽然最大 positional embedding 为 4k,但我们使用了 1000000.0 的 rope theta,并以 8k 序列长度进行训练。我们还计划在即将推出的 32k 版本上进行训练。
网站:https://dphn.ai
Twitter:https://x.com/dphnAI
网页聊天:https://chat.dphn.ai
Telegram 机器人:https://t.me/DolphinAI_bot
感谢 Dolphin 2.9.1 的赞助商:
- Crusoe Cloud —— 提供了出色的按需 8xH100 节点
- OnDemand —— 提供了推理赞助
本模型基于 Yi-1.5-34b,并遵循 Apache 2.0 许可证。
基础模型具有 4k 上下文,但我们使用了 1000000.0 的 rope theta,全权重微调采用 8k 序列长度。
Dolphin 2.9.1 使用 ChatML 提示模板格式。
示例:
system
You are Dolphin, a helpful AI assistant.
user
{prompt}
assistant
Dolphin-2.9.1 具备多种指令、对话和编码技能。它还拥有初步的智能体能力,并支持函数调用。
Dolphin 未经审查。我们已过滤数据集以去除对齐和偏见。这使得模型更加顺从。建议您在将模型作为服务公开之前,自行实现对齐层。模型对任何请求(甚至是不道德的请求)都会高度顺从。请阅读我关于未经审查模型的博客文章:https://erichartford.com/uncensored-models。您对使用本模型创建的任何内容负责。请负责任地使用。
Dolphin 根据 Apache 2.0 许可证授权。我们授予任何用途的许可,包括商业用途。Dolphin 使用从 GPT4 及其他模型生成的数据进行训练。
评估

训练
axolotl 版本:0.4.0
base_model: 01-ai/Yi-1.5-34B
model_type: LlamaForCausalLM
tokenizer_type: LlamaTokenizer
trust_remote_code: true
# load_in_8bit: false
# load_in_4bit: true
# strict: false
# adapter: qlora
# lora_modules_to_save: [embed_tokens, lm_head]
# lora_r: 32
# lora_alpha: 16
# lora_dropout: 0.05
# lora_target_linear: True
# lora_fan_in_fan_out:
datasets:
- path: /workspace/datasets/dolphin-2.9/dolphin201-sharegpt2.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/dolphin-coder-translate-sharegpt2.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/dolphin-coder-codegen-sharegpt2.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/m-a-p_Code-Feedback-sharegpt-unfiltered.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/m-a-p_CodeFeedback-Filtered-Instruction-sharegpt-unfiltered.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/not_samantha_norefusals.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/Orca-Math-resort-unfiltered.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/agent_instruct_react_unfiltered.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/toolbench_instruct_j1s1_3k_unfiltered.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/toolbench_negative_unfiltered.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/toolbench_react_10p_unfiltered.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/toolbench_tflan_cot_30p_unfiltered.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/openhermes200k_unfiltered.jsonl
type: sharegpt
conversation: chatml
chat_template: chatml
dataset_prepared_path: yi34b
val_set_size: 0.01
output_dir: ./out-yi
sequence_len: 8192
sample_packing: true
pad_to_sequence_len: true
wandb_project: dolphin-2.9-yi-34b
wandb_watch:
wandb_run_id:
wandb_log_model:
gradient_accumulation_steps: 8
micro_batch_size: 1
num_epochs: 3
optimizer: adamw_8bit
lr_scheduler: cosine
learning_rate: 1e-5
train_on_inputs: false
group_by_length: false
bf16: auto
fp16:
tf32: true
gradient_checkpointing: true
gradient_checkpointing_kwargs:
use_reentrant: false
early_stopping_patience:
# resume_from_checkpoint: /workspace/axolotl/dbrx-checkpoint
logging_steps: 1
xformers_attention:
flash_attention: true
warmup_steps: 10
evals_per_epoch: 4
eval_table_size:
saves_per_epoch: 4
save_total_limit: 2
save_steps:
debug:
deepspeed: /workspace/axolotl/deepspeed_configs/zero3_bf16.json
weight_decay: 0.05
fsdp:
fsdp_config:
special_tokens:
bos_token: ""
eos_token: ""
pad_token: ""
unk_token: ""
tokens:
- ""
out-yi
本模型是 01-ai/Yi-1.5-34B 在 None 数据集上的微调版本。
在评估集上取得以下结果:
- Loss:0.4425
模型描述
需要更多信息
预期用途与限制
需要更多信息
训练与评估数据
需要更多信息
训练过程
训练超参数
训练过程中使用了以下超参数:
- learning_rate:1e-05
- train_batch_size:1
- eval_batch_size:1
- seed:42
- distributed_type:multi-GPU
- num_devices:8
- gradient_accumulation_steps:8
- total_train_batch_size:64
- total_eval_batch_size:8
- optimizer:Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type:cosine
- lr_scheduler_warmup_steps:10
- num_epochs:3
训练结果
| Training Loss | Epoch | Step | Validation Loss |
|---|---|---|---|
| 0.6265 | 0.0 | 1 | 0.6035 |
| 0.4674 | 0.25 | 327 | 0.4344 |
| 0.4337 | 0.5 | 654 | 0.4250 |
| 0.4346 | 0.75 | 981 | 0.4179 |
| 0.3985 | 1.0 | 1308 | 0.4118 |
| 0.3128 | 1.23 | 1635 | 0.4201 |
| 0.3261 | 1.48 | 1962 | 0.4157 |
| 0.3259 | 1.73 | 2289 | 0.4122 |
| 0.3126 | 1.98 | 2616 | 0.4079 |
| 0.2265 | 2.21 | 2943 | 0.4441 |
| 0.2297 | 2.46 | 3270 | 0.4427 |
| 0.2424 | 2.71 | 3597 | 0.4425 |
框架版本
- Transformers 4.40.0.dev0
- Pytorch 2.2.2+cu121
- Datasets 2.15.0
- Tokenizers 0.15.0
正在翻译中,请稍候...