MPT系列模型
前往官网
arrow_forward_iosMPT是MosaicML发布的一系列大模型。尽管业界已经发布了很多大模型,但是这些模型通常都比较难以训练和部署。而MosaicML发布这样的大模型的目的就是为了解决上述限制,提供一个完全开源且可商用的一个大模型。
什么是MTP系列模型
- Meta开源了LLama,不过有很多限制,很难商业运用。于是现在MosaicML开发了MPT-7B模型,它是一个基于Transformer在1T文本/代码Token上训练出来的模型。该模型开源,与LLaMA-7B模型效果相匹配,而且可用于商业用途
MTP系列模型特点
- 有商用许可
- 基于大量的数据训练
- 目标是解决长输入(最高支持65K的输入,84K的处理)
- 训练与推理速度的优化
- 高效的开源训练代码
MTP系列模型版本
注意:并不是每一个版本都是授权商用的
模型/地址 | 上下文长度 | 商用授权 |
---|---|---|
MPT-30B | 8192 | Yes |
MPT-30B-Instruct | 8192 | Yes |
MPT-30B-Chat | 8192 | No |
MPT-7b-8k | 8192 | Yes |
MPT-7b-8k-Chat | 8192 | No |
MPT-7B | 2048 | Yes |
MPT-7B-Instruct | 2048 | Yes |
MPT-7B-Chat | 2048 | No |
MPT-7B-StoryWriter | 65536 | Yes |