国内首款医疗大语言模型MedGPT发布，专业医疗标注数据成关键网站首页 其他

国内首款医疗大语言模型MedGPT发布，专业医疗标注数据成关键

景联文科技 2024-09-02 12:01:03

简介国内首款医疗大语言模型MedGPT发布，专业医疗标注数据成关键

5月25日，国内互联网医院、慢病管理平台医联今日正式发布了自主研发的基于Transformer架构的国内首款医疗大语言模型——MedGPT。

与通用型的大语言模型产品不同，MedGPT主要致力于在真实医疗场景中发挥实际诊疗价值，实现从疾病预防、诊断、治疗、康复的全流程智能化诊疗能力。

医联MedGPT目前的参数规模为1000亿，预训练阶段使用了超过20亿的医学文本数据，微调训练阶段使用了800万条的高质量结构化临床诊疗数据，并投入超过100名医生参与人工反馈监督微调训练。

现阶段，垂直医疗大模型难在以下几个方面：

医疗行业数据质量不高

医疗数据的质量相对较低，甚至存在一些不准确和不完整的情况，这影响了大模型的学习和预测表现。

数据量不足

与其他行业相比，医疗行业的数据量相对较小，且医疗服务的数据过于碎片化，这对于建立大型模型的准确性和灵敏度可能带来挑战。

数据隐私和安全

医疗数据涉及个人隐私和敏感信息，管理和保护这些数据的安全性和隐私性是一个重要问题。

医疗行业的缺乏标准化

医疗行业的数据和工作流程缺乏标准化，不同医疗机构采用不同的系统，每个系统标准不用，这使得不同机构之间的数据共享和协作可能变得复杂和困难。

实时性要求高

医疗数据有时需要快速响应和处理，对模型的实时性和实时性能提出了更高的要求。

复合型人才短缺

对于“AI+医疗”这一专业性极强的交叉领域，对复合型人才的需求极大。医疗专业的知识本身非常精细，再加上与算法的深度融合，AI医疗对人才综合能力要求甚高。

AI医疗大模型需要强大的数据支持，而标注数据是构建模型所必需的一种数据，它们对于AI医疗大模型有着重要作用。

标注数据对于提高AI医疗大模型的性能至关重要。通过对标注数据的分析、训练和验证，AI医疗大模型可以更准确地识别患者的病情，为医生制定更精准的治疗方案提供有力支持。医疗机构可以更好地控制数据的质量和一致性，减少数据偏差，进而提高模型的精度和可解释性，训练出更准确、更精细的模型，为患者提供更好的医疗服务。

景联文科技是AI基础数据行业的头部企业，拥有大量高质量的医疗数据储备。拥有相关医疗知识文本100G，涵盖不同医学领域的最新研究成果；拥有大量专业医学论文，来自于国内外多方搜索平台、40多家专业高校合作资源以及40多家国内外专业医学组织协会合作；拥有100G的高分辨率和准确性医学图像，包括了各种医学影像，如CT、MRI、超声等，能让AI医疗大语言模型更好地学习和诊断，更好地了解和模拟医患沟通、诊疗流程等情景，提高AI医疗大语言模型诊断的准确性和效率。所有数据都经专业医学人员标注质检，保证数据的高质量。

景联文科技拥有丰富的医学专家资源，医疗领域专家可对垂直领域数据信息进行全方位标注，保证数据质量，满足当前标注需求。

景联文科技拥有5000名标注经验丰富的专业医学生团队，与10所专业医学院校达成深度合作，拥有丰富的图像和文本标注经验，可为大模型医疗提供图像和NLP相关数据采集和数据标注服务，根据客户需求调配相关标注员为其提供服务。

景联文智能医疗标注平台支持多种类医疗数据标注，可为AI医疗大模型提供丰富化、精准化、结构化的医疗知识，为医疗数据定制标注服务提供了更加科学、准确的保障。

景联文科技｜数据采集｜数据标注

助力人工智能技术，赋能传统产业智能化转型升级

文章图文著作权归景联文科技所有，商业转载请联系景联文科技获得授权，非商业转载请注明出处。

风语者！平时喜欢研究各种技术，目前在从事后端开发工作，热爱生活、热爱工作。