DBRX - 一种基于 Transformer 的仅解码器大语言模型（LLM）

DBRX

DBRX 是一种基于 Transformer 的仅解码器大语言模型（LLM）

链接直达手机查看

DBRX简介

DBRX 是一种基于 Transformer 的仅解码器大语言模型（LLM），使用细粒度的专家混合（MoE）架构，共有 1320 亿参数，其中 36B 个参数在任何输入上都处于激活状态。该模型是在 12T 文本和代码数据 token 上预训练而成，最大上下文长度高达 32k。

与 Mixtral 和 Grok-1 等其他开源 MoE 模型相比，DBRX 是细粒度的，这意味着它使用了更多数量的小型专家。DBRX 有 16 个专家模型，从中选择 4 个使用，而 Mixtral 和 Grok-1 有 8 个专家模型，选择其中 2 个。算下来，DBRX 提供了 65 倍可能的专家组合，这种组合方式的倍增提高了模型质量。

与此同时，DBRX 使用旋转位置编码 (RoPE)、门控线性单元 (GLU) 和分组查询注意力 (GQA) 等技术来提高模型质量。此外，DBRX 还使用了 tiktoken 存储库中提供的 GPT-4 分词器。

DBRX 的基础（DBRX Base）和微调（DBRX Instruct）版本已经在 GitHub 和 Hugging Face 上发布，可用于研究和商业用途。人们可以自行在公共、自定义或其他专有数据上运行和调整它们，也可以通过 API 的形式使用。

基础版：https://huggingface.co/databricks/dbrx-base

微调版：https://huggingface.co/databricks/dbrx-instruct

GitHub 链接：https://github.com/databricks/dbrx

DBRX简介

相关导航