MedicalGPT - 一个基于ChatGPT训练流程的医疗行业语言模型项目

AI开源项目 AI开源项目语言模型

MedicalGPT

MedicalGPT 是一个基于ChatGPT训练流程的医疗行业语言模型项目，主要包括增量预训练、有监督微调和强化学习。项目旨在通过不同的训练阶段，优化模型以更好地适应医疗数据，提高问答……

标签：AI医疗模型 MedicalGPT

链接直达手机查看

什么是MedicalGPT

MedicalGPT 是一个基于ChatGPT训练流程的医疗行业语言模型项目，主要包括增量预训练、有监督微调和强化学习。项目旨在通过不同的训练阶段，优化模型以更好地适应医疗数据，提高问答和文本生成的准确性和质量。此外，该项目还引入了直接偏好优化(DPO)和无参考模型的优化(ORPO)技术，使得模型在无需复杂的强化学习框架下，能够有效学习并适应人类偏好。项目通过多种数据集和训练策略，实现了模型的持续进化和功能扩展。

MedicalGPT：https://github.com/shibing624/MedicalGPT

MedicalGPT特点

基于ChatGPT训练流程，本项目实现了一个专注于医疗行业的语言大模型训练：

第一阶段：PT（Continue PreTraining，持续预训练）在海量领域文档数据上进行增量预训练，以使GPT模型适应领域数据分布。

第二阶段：SFT（Supervised Fine-tuning，有监督微调）构建有指令的微调数据集，在已预训练的模型基础上进行指令精调，以匹配指令意图并融入领域知识。

第三阶段包括两部分：

·RM（Reward Model，奖励模型）通过构建人类偏好排序的数据集训练奖励模型，用以模拟人类偏好，主要遵循“有益、诚实、无害”（HHH）的原则。

·RL（Reinforcement Learning，强化学习）利用奖励模型训练SFT模型，使得生成模型通过奖励或惩罚更新其策略，从而生成更高质量、更符合人类偏好的文本。

DPO（Direct Preference Optimization，直接偏好优化）方法通过直接优化语言模型的行为，无需复杂的强化学习流程，有效地学习人类偏好，相较于RLHF，DPO更易实现且训练效果更优。

ORPO（无需参考模型的优化方法）使语言大模型能够同时学习遵循指令和满足人类偏好。

相关导航

LightRAG

LightRAG是由中国香港大学研究团队推出的一种检索增强生成（Retrieval-Augmented Generation, RAG）系统，旨在提升大型语言模型（LLM）的准确性和上下文相关性。该系统通过图结构集成和双层知识检索，优化了信息检索的全面性和效率。

Stable Diffusion

Stable Diffusion是stability.ai开源的图像生成模型。Stable Diffusion能够从文本描述中生成详细的图像，它还可以用于图像修复、图像绘制、文本到图像和图像到图像等任务。

Tiledesk Design Studio

Tiledesk Design Studio 是 Tiledesk 提供的一个开源、无代码开发平台，用于创建聊天机器人和对话应用。该平台提供了一个用户友好的拖放界面，预设了动作和集成，结合了 LLM/GPT AI 的强大功能和灵活的“图形”方法，以轻松创建对话和自动化。

NEXET数据集

NEXET数据集是由以色列公司Nexar发布的一个用于自动驾驶技术发展的数据集。该数据集包含来自全球80个国家的超过5万张照片，展示了不同天气和时间条件下道路状况。

Diff3DEdit

Diff3DEdit是一种基于深度学习的3D编辑方法。它通过迭代三个阶段来实现对3D对象的编辑：视图合成阶段、去畸变阶段和修复阶段。

Handfit-3K数据集

Handfit-3K数据集是一个专门用于虚拟试穿（Virtual Try-on）的公开数据集，主要用于任意手部姿势遮挡情况下的手部遮挡场景。该数据集由VTON-HandFit项目团队自行收集，并在多个评估中表现出色。