Databricks DBRX 132B Instruct | 免费 AI 工具
DBRX-132B是Databricks开发的一款新的开源LLM。点击这里立即在线与此模型聊天!
应用介绍
DBRX 132B instruct:挑战GPT-4的开源LLM
什么是DBRX?什么是DBRX 132B instruct?
DBRX是Databricks开发的最先进的开源LLM,在各种基准测试中超越了其他开源模型,并与顶级封闭模型相媲美,使强大的生成式AI对企业和研究人员更加可及。
Databricks是一家领先的数据和AI公司,刚刚发布了DBRX - 一个强大的新开源大型语言模型(LLM),为开源LLM设立了新的基准。DBRX有两个版本:
- DBRX Base:作为通用文本完成模型的预训练基础模型
- DBRX Instruct:针对执行指令任务优化的基础模型的微调版本
DBRX的亮点在于它在各种标准基准测试中展现出令人印象深刻的性能,超越了其他已建立的开源LLM,甚至与一些最佳封闭源模型相抗衡。让我们深入了解这个令人兴奋的新模型。
DBRX 132B instruct的架构和训练
DBRX采用基于Transformer的仅解码器架构,并使用专家混合(MoE)设置。以下是一些关键数据:
- 总参数数132亿
- 任何给定输入的有效参数数36亿
- 使用16个专家,其中每个令牌激活4个
- 在12万亿令牌的数据集上进行训练
- 最大上下文长度32,000个令牌
MoE架构使DBRX能够与同等大小的密集型模型相比产生更高质量的输出,同时推理速度更快。使用门控线性单元、分组查询注意力和旋转位置编码等技术进一步提升了其性能。
Databricks利用他们的工具套件,在3072台NVIDIA H100 GPU上训练了3个月的DBRX。他们的训练管道现在的效率几乎是之前模型的4倍,这将使寻求在自己的数据上训练定制模型的客户受益。
DBRX 132B instruct的基准测试和比较
DBRX在几个关键基准测试中展现出了最先进的性能:
- MMLU(大规模多任务语言理解):DBRX的表现优于所有其他测试的开源模型
- HumanEval(代码生成):与专门的代码模型CodeLLaMA-70B相媲美
- GSM8K(数学文字问题):超越其他开源模型,并与顶级封闭模型竞争
与其他开源LLM相比,DBRX在大多数基准测试中击败了LLaMA2-70B、Mixtral和Grok-1等模型。它的响应生成速度是132B非MoE模型LLaMA2-70B的2-3倍。
更令人印象深刻的是,DBRX与一些最佳封闭源模型一较高下:
- 在语言理解、编程和数学基准测试中超越了GPT-3.5
- 在许多领域与Gemini 1.0 Pro和Mistral Medium相当
这使DBRX成为最先进封闭模型的强大开源替代品。
开始使用DBRX
有几种方式可以开始使用DBRX:
- Hugging Face:从Hugging Face Hub下载现成的DBRX Instruct模型
- Databricks API:Databricks的客户可以使用它们来预训练自定义模型或继续训练现有检查点
- Databricks Playground:使用Databricks的聊天界面演示来试验该模型
DBRX在检索增强型生成(RAG)任务中表现尤其出色,使其成为SQL生成等应用程序的首选。
DBRX 132B instruct:Databricks最佳开源LLM
Databricks已经在GitHub和Hugging Face上以与LLaMA类似的非商业许可证自由提供DBRX。这种开放方法降低了进入门槛,允许企业在不需要高昂费用的情况下开发自己的GenAI应用程序。
DBRX的发布是Databricks持续投资开源LLM的一个重要里程碑。随着他们继续改进模型并使其更加可访问,我们可以期待看到更加令人印象深刻的功能出现。
结论
随着DBRX为开源LLM性能树立新标杆,企业和研究人员在利用生成式AI的力量方面前景光明。随着技术以惊人的速度不断进步,像DBRX这样的模型将在LLM语言AI访问方面发挥关键作用。