OpenMEDLab是一个专注于医疗领域的开源基础模型平台,聚焦多模态医疗数据(涵盖医学影像、医疗自然语言处理、生物信息学、蛋白质等方向),旨在推动医学长尾问题的创新解决,同时探索更低成本、更高效率、更强通用性的医疗AI模型训练方案。
平台特色
全球首个开源医疗基础模型平台。
覆盖10余种医疗数据模态,针对多种临床与研究场景。
探索基础模型新学习范式,提供预训练模型、代码及数据。
发布多组医疗预训练与下游应用数据。
与顶尖医疗机构、科研院所开展合作。
核心内容模块
1. 代表性研究成果
平台相关论文发表于多个顶级期刊或会议,包括:
《OpenMEDLab: An Opensource Platform for Multimodality Foundation Models in Medicine》(ArXiv’2024)。
《On the Challenges and Perspectives of Foundation Models for Medical Image Analysis》(Medical Image Analysis)。
《MedFMC: A Realworld Dataset and Benchmark For Foundation Model Adaptation in Medical Image Classification》(Scientific Data)。
《A Largescale Synthetic Pathological Dataset for Deep Learningenabled Segmentation of Breast Cancer》(Scientific Data)。
《DLMBmap: a fully automated deeplearning pipeline for wholebrain profiling of neural circuitry》(Nature Methods)。
《A Foundation Model for Generalizable Disease Detection from Retinal Images》(Nature)。
2. 开源医疗基础模型
平台开源了多个领域的医疗基础模型,部分如下:
医疗大语言模型:PULSE。
3D CT分割模型:MISFM。
基于SAM的医疗分割模型:2D医学图像分割SAMMed2D、3D医学图像分割SAMMed3D。
视网膜图像模型:RETFound(用于视网膜疾病检测)。
全脑轴突分割模型:DLMBmap(用于全脑轴突分割与 circuitry分析)。
内镜视频分析模型:EndoFM。
3. 医疗数据集
提供多组医疗数据资源,支持基础模型训练与下游应用:
MedFM:真实世界医疗图像分类基准数据集。
SAMed2D20M:包含2000万张2D医学图像分割掩码的数据集。
SNOW:大规模乳腺癌病理合成数据集,用于深度学习分割任务。
EndoFM私有数据集:含3.3万余条内镜视频剪辑的大规模数据集。
AwesomeMedicalDataset:持续更新的公共医疗数据集集合。
4. 模型评估工具
针对临床应用与研究需求,提供多个评估基准:
MedBench:中文医疗大语言模型开放评估平台。
OmniMedVQA:医疗多模态视觉问答(LVLM)综合评估基准。
AEval:腹部多器官分割跨数据集评估基准。
ELO:用于计算大语言模型相对技能水平的Elo评级法。
5. 多模态医疗项目
结合多模态信息(图像、文本等)的医疗AI项目:
ProSST:蛋白质序列与结构解耦注意力预训练Transformer。
ProtSSN:融合蛋白质序列与结构信息的去噪预训练网络(零样本蛋白质工程)。
SwinUMamba:基于Mamba的UNet模型,采用ImageNet预训练。
OsteoarthritisBenchmark:评估大语言模型在骨关节炎治疗知识与决策能力的基准。
贡献与联系
项目领导:由Shaoting Zhang、Xiaosong Wang等学者牵头。
核心贡献者:来自上海AI实验室、广州实验室、浙江大学、上海交通大学、复旦大学等机构的研究者。
联系邮箱:openmedlab@pjlab.org.cn。
平台资源
Pinned仓库:包括AwesomeMedicalDataset(医疗数据集集合)、MedLSAM(3D医疗图像定位分割模型)、PULSE(医疗大语言模型)、MedFM(NeurIPS 2023挑战库)等。
主要语言:Python、Jupyter Notebook。
