当前位置：主页 > 世间生物 > 面向医学影像问答的多模态医疗微调模型推介：Visual Med-Alpaca与XrayGLM工作概述与实现机制

面向医学影像问答的多模态医疗微调模型推介：Visual Med-Alpaca与XrayGLM工作概述与实现机制

时间：2024-08-16 19:51:49 作者：

摘要：本文主要介绍visual-med-alpaca以及中文多模态医学大模型XrayGLM两个模型，供大家一起参考

在前面的文章中，我们介绍了visual chatglm视觉问答模型，以及一些代表性的医疗微调语言模型。

而对于医疗领域而言，其有大量的图像场景，如医学影像数据，如何利用好这些数据，做医疗领域的应用外延误，是个有趣的话题。

因此，本文主要介绍面向医学影像的微调模型工作，包括visual-med-alpaca以及中文多模态医学大模型XrayGLM两个模型，供大家一起参考。

一、Visual Med-Alpaca

Visual Med-Alpaca，这是一个开源、参数高效的生物医学基础模型，具有即插即用视觉扩展框架。

项目地址：‍‍‍‍

1、训练数据

MEDIQA RQE：

MedQA：

MedDialog：

MEDIQA QA：

PubMedQA：

汇总数据：

样例med_alpaca_data_clean.json如下：

* Size: 44.8MB
* Items: 54412
* Type: json
* Sample:
{
 'instruction': 'i have a tight and painful chest with a dry cough, no fever and no headaches. could it possibly be coronavirus?', 
 'input': '', 
 'output': "Chest tightness and dry cough are some of the symptoms associated with coronavirus (covid-19). it's best to contact your healthcare provider or a medical professional for a proper assessment and testing. they can provide a clinical diagnosis and recommend appropriate treatment options."
},
{
 'instruction': "A mother brings her 3-week-old infant to the pediatrician's office because she is concerned about his feeding habits. He was born without complications and has not had any medical problems up until this time. However, for the past 4 days, he has been fussy, is regurgitating all of his feeds, and his vomit is yellow in color. On physical exam, the child's abdomen is minimally distended but no other abnormalities are appreciated. Which of the following embryologic errors could account for this presentation?", 
 'input': 'Abnormal migration of ventral pancreatic bud, Complete failure of proximal duodenum to recanalize, Error in neural crest cell migration, Abnormal hypertrophy of the pylorus, Failure of lateral body folds to move ventrally and fuse in the midline', 
 'output': 'The correct answer is complete failure of proximal duodenum to recanalize. This embryologic error can result in a condition known as duodenal atresia, where the proximal duodenum is obstructed and prevents the passage of feeds. This can lead to vomiting of bile (yellow in color) and abdominal distension. Treatment typically involves surgical correction of the atresia.'
}

2、模型结构

上图Visual Med-Alpaca的运行过程。

首先，将图像输入输入类型分类器，以识别将视觉信息转换为中间文本格式的模块，然后将其附加到文本输入中，以用于后续推理过程。。

然后，提示管理器将从图像和文本输入中提取的文本信息合并到Med-Alpaca的提示中。

为了将生物医学知识和视觉模式纳入基础模型LLAMA-7B，使用两个不同的数据集进行了微调。

最初，该项目使用由54,000个生物医学示例组成的模型生成数据集对LLAMA-7B模型进行了标准微调和低级适应（LoRA）微调，用于指令调。

其次，该项目在上下文中的放射学对象（ROCO）数据集上微调了微软GIT模型。

其中，所用到的模型包括：

visual-med-alpaca：

med-alpaca：

med-alpaca-lora：

med-git：

地址：

3、模型效果

输入：治疗脱发的化学物质是什么？图像：无图像。



Visual Med-Alpaca：有几种化学物质可用于治疗脱发，包括：1.米诺地尔：一种应用于头皮以促进大厅生长的药物。2.非那雄胺：一种口服药物，用于减缓双氢睾酮（DHT）的产生，二氢睾酮是一种可能导致脱发的激素。3.皮质类固醇：可用于头皮的外用药物，以减少炎症和促进头发生长。4.炭疽素：一种应用于头皮的药物，通过刺激滋养毛囊的血细胞的产生来促进头发生长。5，酮康唑：一种用于头皮的药物，用于治疗可能导致脱发的真菌感染。在使用任何这些化学品治疗脱发之前，咨询医疗保健专业人士很重要，因为它们可能会产生潜在的副作用，并且可能不适合所有人。

Alpaca-LoRA：治疗脱发的化学物质包括米诺地尔、非那雄胺和酮康唑。

LLama-Adapter：治疗脱发的化学品包括米诺地尔、非那雄胺和酮康唑。Minoxidil是一种外用溶液，直接应用于头皮，用于刺激头发生长。非那雄胺是一种口服的药丸，用于阻止双氢睾酮激素的产生，双氢睾酮可导致脱发。酮康唑是一种抗真菌药物，用于治疗可能导致脱发的头皮感染。

ChatGPT（GPT-3.5-Turbo）：有几种用于治疗脱发的化学物质，包括：1.米诺地尔：这是一种局部涂抹在头皮上的非处方药。它通过增加流向毛囊的血液来发挥作用，这可以促进头发的生长。2.非那雄胺：这是一种口服的处方药。它通过阻止睾丸激素转化为双氢睾酮（DHT）来发挥作用，双氢睾酮是一种可能导致脱发的激素。3.酮康唑：这是一种抗真菌药物，有时用于治疗脱发。它通过减少炎症和阻断DHT的产生来发挥作用。4.皮质类固醇：这些是可以注射到头皮的抗炎药物。它们有时用于治疗由自身免疫性疾病或炎症引起的脱发。5.螺内酯：这是一种经常用于治疗高血压的药物，但它也可以有效治疗女性脱发。它通过阻断雄激素的产生来发挥作用，雄激素可能导致脱发。需要注意的是，这些治疗的有效性可能因脱发的原因和严重程度而异。最好咨询医疗保健提供者或皮肤科医生，以确定最适合您的治疗方法。

输入：在X射线中看到了什么，应该做什么？

图片：

回答：在胸部X光中看到的双侧浸润和双侧胸腔积液可能表明呼吸道感染或其他呼吸道疾病，如肺炎肺水肿或胸膜积液，咨询医疗专业人士以获得适当的诊断和治疗计划很重要。

地址：

二、中文多模态医学大模型XrayGLM

visual-med-alpaca虽然在医学多模态大模型方面做出了一些很有成效的工作，然而其数据为英文诊断报告，不利于促进中文领域医学多模态大模型的研究发展。为此，国内开发人员进一步提供了XrayGLM。

1、训练数据

1）MIMIC-CXR，一个公开可用的胸部X光片数据集，包括377,110张图像和227,827个相关报告。

地址：

2）OpenI，一个来自印第安纳大学医院的胸部X光片数据集，包括6,459张图像和3,955个报告。

地址：#collection

不过，这两个报告信息都为非结构化的，不利于科学研究。为了生成合理的医学报告，改工作对两个数据集进行了预处理，并最终得到了可以用于训练的英文报告。此外，为了更好的支持中文社区发展，借助ChatGPT的能力，将英文报告进行了中文翻译，并最终形成了可用于训练的数据集。

2、模型结构

该项目将构建的中文胸部X光片诊断数据集在VisualGLM-6B（）进行微调训练，整体的工作逻辑如下：

其中，VisualGLM-6B 是一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于 ChatGLM-6B，具有 62 亿参数；图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁，整体模型共78亿参数。

VisualGLM-6B 依靠来自于 CogView 数据集的30M高质量中文图文对，与300M经过筛选的英文图文对进行预训练，中英文权重相同。该训练方式较好地将视觉信息对齐到ChatGLM的语义空间；之后的微调阶段，模型在长视觉问答数据上训练，以生成符合人类偏好的答案。

3、模型效果

>> X光影像路径：./data/Xray/861_1.png

>> 用户：这是一张什么图？
>> XrayGLM：这张图片显示的是一张肺部检查的X光片。

>> 用户：请描述这张胸部X光片的诊断结果
>> XrayGLM：心脏大小正常，肺部清晰。没有急性心肺疾病的证据。

>> 用户：是否存在肺气肿？
>> XrayGLM：没有肺气肿。心脏大小正常，肺部清晰。没有发现急性心肺疾病的证据。

>> 用户：平时饮食该注意什么？
>> XrayGLM：饮食应该健康，均衡。建议增加蛋白质的摄入量，因为蛋白质有助于维持肌肉和骨骼的健康。多食用蔬菜、水果、全谷物以及健康的脂肪来源如橄榄油、鱼类等可以帮助获得足够的维生素和矿物质。此外，避免过度饮酒或吸烟，这些习惯可能会对心脏健康产生负面影响。

地址：

总结

本文主要介绍了面向医学影像的多模态问答模型visual-med-alpaca以及中文XrayGLM两个模型。

不过，可以看到的是，医疗是一个高度敏感的领域，其用来做学术研究尚可，但切不可以实际医疗行为作为评价该项目的标准【也是后面项目所提示的那样】。

正如，Visual Med-Alpaca所指出的，严禁对该模型进行任何商业或临床使用，Visual Med-Alpaca在任何国家都没有获得法律批准用于医疗用途。用户应该意识到模型在医学知识和错误信息的可能性方面的局限性。因此，任何依赖Visual Med-Alpaca进行医疗决策的行为均由用户自行承担风险。

最后，对该项目有进一步需求的，可以阅读源码和数据，增进自己的理解。

关于我们

老刘，刘焕勇，NLP开源爱好者与践行者，主页：。

老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

对于想加入更优质的知识图谱、事件图谱实践、相关分享的，可关注公众号，在后台菜单栏中点击会员社区->会员入群加入。