加载中,请稍候...
MPT是MosaicML发布的一系列大模型。尽管业界已经发布了很多大模型,但是这些模型通常都比较难以训练和部署。而MosaicML发布这样的大模型的目的就是为了解决上述限制,提供一个完全开源且可商用的一个大模型。
什么是MTP系列模型
  • Meta开源了LLama,不过有很多限制,很难商业运用。于是现在MosaicML开发了MPT-7B模型,它是一个基于Transformer在1T文本/代码Token上训练出来的模型。该模型开源,与LLaMA-7B模型效果相匹配,而且可用于商业用途
MTP系列模型特点
  • 有商用许可
  • 基于大量的数据训练
  • 目标是解决长输入(最高支持65K的输入,84K的处理)
  • 训练与推理速度的优化
  • 高效的开源训练代码
MTP系列模型版本
注意:并不是每一个版本都是授权商用的
模型/地址   上下文长度     商用授权
MPT-30B   8192     Yes
MPT-30B-Instruct   8192     Yes
MPT-30B-Chat   8192     No
MPT-7b-8k   8192     Yes
MPT-7b-8k-Chat   8192     No
MPT-7B   2048     Yes
MPT-7B-Instruct   2048     Yes
MPT-7B-Chat   2048     No
MPT-7B-StoryWriter   65536     Yes