Databricks DBRX 132B Instruct | 免费 AI 工具

Sam Altwoman
5

DBRX-132B是Databricks开发的一款新的开源LLM。点击这里立即在线与此模型聊天!

对话交流

应用介绍

DBRX 132B instruct:挑战GPT-4的开源LLM

什么是DBRX?什么是DBRX 132B instruct?

DBRX是Databricks开发的最先进的开源LLM,在各种基准测试中超越了其他开源模型,并与顶级封闭模型相媲美,使强大的生成式AI对企业和研究人员更加可及。

Databricks是一家领先的数据和AI公司,刚刚发布了DBRX - 一个强大的新开源大型语言模型(LLM),为开源LLM设立了新的基准。DBRX有两个版本:

  • DBRX Base:作为通用文本完成模型的预训练基础模型
  • DBRX Instruct:针对执行指令任务优化的基础模型的微调版本

DBRX的亮点在于它在各种标准基准测试中展现出令人印象深刻的性能,超越了其他已建立的开源LLM,甚至与一些最佳封闭源模型相抗衡。让我们深入了解这个令人兴奋的新模型。

DBRX 132B instruct的架构和训练

DBRX采用基于Transformer的仅解码器架构,并使用专家混合(MoE)设置。以下是一些关键数据:

  • 总参数数132亿
  • 任何给定输入的有效参数数36亿
  • 使用16个专家,其中每个令牌激活4个
  • 12万亿令牌的数据集上进行训练
  • 最大上下文长度32,000个令牌

MoE架构使DBRX能够与同等大小的密集型模型相比产生更高质量的输出,同时推理速度更快。使用门控线性单元、分组查询注意力和旋转位置编码等技术进一步提升了其性能。

Databricks利用他们的工具套件,在3072台NVIDIA H100 GPU上训练了3个月的DBRX。他们的训练管道现在的效率几乎是之前模型的4倍,这将使寻求在自己的数据上训练定制模型的客户受益。

DBRX 132B instruct的基准测试和比较

DBRX在几个关键基准测试中展现出了最先进的性能:

  1. MMLU(大规模多任务语言理解):DBRX的表现优于所有其他测试的开源模型
  2. HumanEval(代码生成):与专门的代码模型CodeLLaMA-70B相媲美
  3. GSM8K(数学文字问题):超越其他开源模型,并与顶级封闭模型竞争

与其他开源LLM相比,DBRX在大多数基准测试中击败了LLaMA2-70B、Mixtral和Grok-1等模型。它的响应生成速度是132B非MoE模型LLaMA2-70B的2-3倍。

更令人印象深刻的是,DBRX与一些最佳封闭源模型一较高下:

  • 在语言理解、编程和数学基准测试中超越了GPT-3.5
  • 在许多领域与Gemini 1.0 ProMistral Medium相当

这使DBRX成为最先进封闭模型的强大开源替代品。

开始使用DBRX

有几种方式可以开始使用DBRX:

  1. Hugging Face:从Hugging Face Hub下载现成的DBRX Instruct模型
  2. Databricks API:Databricks的客户可以使用它们来预训练自定义模型或继续训练现有检查点
  3. Databricks Playground:使用Databricks的聊天界面演示来试验该模型

DBRX在检索增强型生成(RAG)任务中表现尤其出色,使其成为SQL生成等应用程序的首选。

DBRX 132B instruct:Databricks最佳开源LLM

Databricks已经在GitHub和Hugging Face上以与LLaMA类似的非商业许可证自由提供DBRX。这种开放方法降低了进入门槛,允许企业在不需要高昂费用的情况下开发自己的GenAI应用程序。

DBRX的发布是Databricks持续投资开源LLM的一个重要里程碑。随着他们继续改进模型并使其更加可访问,我们可以期待看到更加令人印象深刻的功能出现。

结论

随着DBRX为开源LLM性能树立新标杆,企业和研究人员在利用生成式AI的力量方面前景光明。随着技术以惊人的速度不断进步,像DBRX这样的模型将在LLM语言AI访问方面发挥关键作用。

前置提示词