声明:本文来自于量子位 | 公众号 QbitAI,作者:白小交,授权Soraor转载发布。
大模型医疗应用还在早期,最大挑战还是在数据的处理上,国内至少还需要两到三年来解决;
创业公司还有机会,只要找到合适的切入点。这个行业只有撑死的,没有饿死的。
面对来势汹汹的大模型应用浪潮,支付宝医疗技术一号位魏鹏这样说道。
今年,蚂蚁大举进军医疗,已是再明显不过。作为蚂蚁大模型应用三大领域之一(其余是金融与生活),落地进展显得尤为瞩目。
模型层面,支付宝医疗大模型,在中英文医疗考试、基准测试达到甚至超过GPT-4水准。
场景方面,他们先后联合浙江卫健委、上海市第一人民医院率先落地数字人应用。今年外滩大会上,支付宝正式推出AI健康管家,吸引了多地卫健委、三甲医院以及专科专家等20余个专业智能体首批入驻。
因此谈大模型在医疗方面的应用,本身在领域内有十年深耕的蚂蚁支付宝,一定是绕不开的玩家。
为此,我们同支付宝医疗技术一号位魏鹏,聊了聊当前大模型医疗应用的行业发展与技术挑战。
核心观点如下:
支付宝进军医疗AI,主要有四个切入点:医保问答、全科医生、同院内服务的串联、专科智能体;
大模型参数量在百亿参数就够,重点不在数量在质量。
在医疗领域,情感、道德和人文关怀是非常重要的。
AI在医疗领域的主要作用是提高效率,医生的角色是不可替代的。
在不改变原意的基础上,量子位做了如下整理。
量子位:现在大模型在医疗行业的应用很火也很热,蚂蚁进军医疗,怎么切入?
魏鹏:我们现在有四个切入点。
第一个就是医保问答,类似于政策类咨询。首先这跟支付宝APP契合度很高。
很多用户都其实在问一些政策类问题,那我们从实际用户需求出发。市面上的一些通用大模型产品,他们回答也比较泛泛,质量参差不齐。
当然这部分也得益于我们同医保局的深入合作。医保局他们也面临着大量的客户咨询需求,但很多政策解读和相关文件并不公开或者很难检索查找,有时还会涉及复杂图表解读。这些其实通过我们图像解析、检索增强等方面技术可以解决。
我们跟医保局包括像一些问题生成、标注标准、评判标准等方面都建立了很深度的链接。目前我们在北上杭这块准确率,基本上能做到百分之八九十,还在继续优化中。
第二个是全科医生。医疗领域面临一个主要问题是,AI目前还无法替代专业医生进行诊断。因此我们更多地将AI定位为辅助医生的角色。
比如,当你去医院时,可能不确定应该挂哪个科室的号,这时全科医生就能提供帮助。你可以与全科医生交流,提供一些基本信息,他们会根据你的症状给出初步判断,可能会建议你去神经科、消化科等特定科室。全科医生会收集你的相关信息,并给出一些建议。对于慢性病患者,他们还会提供日常的健康建议,包括对一些健康指标的解读。
这就是我们对全科医生角色的定义。目前,我们的整体发展方向正是如此。
我们认为,AI在提供日常医疗科普、解读检验报告和建议以及扫描药品包装了解药物用途等方面具有潜力。例如,用户可以通过拍照识别药物,了解其治疗的疾病。
此外,我们还会根据用户的具体症状,提供多轮问询服务,并将信息汇总,以便转交给专业问诊平台。通过这种方式更精准地定位用户的需求,给到合适的医生那里进行诊断。
这样的流程不仅节省了时间,也提高了效率。
量子位:背后逻辑是什么?
魏鹏:当前医疗应用这个阶段,不仅仅单纯是技术或产品问题,它其实还涉及到人文道德的层面。
从个人角度来看,患者通常更愿意面对真人医生进行诊断;从社会层面来看,它肯定是需要人来承担这样的责任。因此,医生的角色是不可替代的。
AI在医疗领域的主要作用是提高效率。
实际上,医生的大部分时间都花在了询问病人问题上,而真正用于做出决策和治疗的时间相对较短。尤其是对于那些资深医生来说,他们更愿意将时间投入到解决复杂和棘手的病例上。但医生的时间是有限的,因此如何充分利用医疗资源是一个重要问题。在这一点上,AI可以发挥重要作用,通过处理重复性工作来提升效率。
量子位:第三个切入点呢?
魏鹏:第三个是院内服务的串联,这主要是为了提升医疗服务的效率。我们同浙江卫健委合作打造了数字人安诊儿。这也是因为浙江数字化建设较为全面。所有医院数据都能与卫健委打通,包括患者的报告/挂号记录都能在系统中查到。
以安诊儿作为样板间,我们也继续跟各个地方医院进行对接合作:直接跟医院信息系统(HIS)进行打通。
这需要制定一个标准,比如不同的接口标准,以及如何在医院内实现AR导航、查看报告记录、解读报告等功能。此外,还包括挂号和排号通知等服务,目的是将整个就医流程在医院内落地。
量子位:挑战在什么地方?
魏鹏:挑战之一是不同医院的HIS系统开发水平参差不齐。有时候需要与医院去做对接协调。一个HIS系统涉及多家研发机构。
所以这部分的挑战,更多还是来源于ToB或者toH这种私有化定制的这个诉求。这并不是技术层面上的挑战。
量子位:像安诊儿这样的标杆产品,以数字人为代表,会是这次大模型落地的技术必选项吗?除此之外,还有必备的技术点位?
魏鹏:数字人无疑是未来发展的必然趋势。此外,数字人的发展可能需要结合情感语音技术。我们正在努力攻克这方面的难题。在医疗领域,情感、道德和人文关怀是非常重要的。因此,数字人在提供服务时,不仅要技术先进,还要兼顾人文关怀,不能显得冷漠无情。我们的目标是打造既有技术精度又有人文温度的数字人。
量子位:第四个切入点是什么?
魏鹏:我们正在探索也是最难的一部分,就是专科智能体。AI能够像专家一样,或者专科资深医生一样,跟用户去交互。
目前还只是做了个开始。因为这部分涉及一些挑战。
最主要的就是数据问题。试想一下,那种非常厉害的医生平时太忙了。整个诊断过程不会很详细很明确地写出来,而像那些病历、诊疗记录往往也很潦草,数据无法很好地提取和利用。
如果没有充分的数据,模型就很难学习。
我们同杭州有这方面意愿的医生一起去探索,包括像他们愿意按照真正的质量标准,帮我们去改写病例/住院记录;还有像通过医生口述的方式,共同将诊断过程通过知识图谱(KG)的模式沉淀下来。
量子位:数据这块,是不是整个行业应用最大的挑战?
魏鹏:嗯对,对于AI这块,数据其实是非常大挑战。
比如像政策解读,我们技术同学花很长时间去搞懂政策文件怎么去接入。首先得搞懂里面讲的是什么,然后找到合适的技术方案去做解析,比如是RAG、向量数据库,还是知识图谱?此外你还需要考虑如何处理数据块,某些场景可能需要使用长文本上下文来全面解读信息。
其次是医疗数据信息更加需要专业、权威、可信。我们之前发现了不少Badcase。比如有人问“怀孕几周后可以堕胎”,模型错误地回答说两周可以进行。后来我们调查发现,其实是有医生在网上回答过这个问题。
这个案例让我们意识到,很多时候数据不准确是导致模型回答错误的主要原因。这也导致我们模型训练过程中标注成本非常高。
量子位:模型参数量,业内有没有形成一个共识?
魏鹏:目前我是觉得百亿参数,就像我们百灵现在65B,前面差不多72B这个量级。不过大语言模型在使用上,我个人觉得参数量不是问题,主要还是数据的质量。这个参数量应该能让模型学到很多的支持。
包括现在业界主流也是认为现在公开数据基本上已经学完了,那怎么去做?
像数据合成,核心还是解决模型的推理问题,可能在数学、代码这部分能力会用得多一点。
但医疗这块我觉得还处于数据的获取/处理上,首先把公开“脏”数据清洗一下,还有看怎么能够把院内数据充分利用起来,充分清洗和改写成模型能够学习的。这些解决了之后才会考虑说怎么去合成数据。
量子位:现在还处于早期的阶段,大概什么时候能解决这些问题。
魏鹏:国内可能需要一段时间,我觉得至少可能两三年。这部分领域还是太专了,也很深。我们愿意跟这个行业去做合作。
量子位:这个所定义的“深”指的是什么呢?
魏鹏:首先要提高识别率,我们需要大量医生的参与,尤其是那些能够提供真实报告数据的医生。医生需要对数据进行精确标注,尤其是那些高难度的病例,比如癌症筛查的影像资料。普通的医生可能难以识别出癌症的细微特征,这就需要资深专家的介入。
为了积累这些数据,我们需要与医院建立长期合作关系,因为每种疾病,比如一线治疗,都需要多年数据的积累以及技术上的深入解读。
这样看来,要实现真正的普惠,我们还有很长的路要走。核心问题还是数据,我们需要与医生和医院建立更深的合作关系。
量子位:中医方面的计划呢?
魏鹏:这也是数据方面的问题。
因为在国内,中医领域的数据相对来说是比较丰富和全面的。基于这样的考虑,我们决定进入中医这个领域,但目前我们也还是比较谨慎的。
从技术角度来看,中医的理论体系可能相对于西医来说没有那么明确,很多时候它的表述也更加模糊。因此,我们还在持续探索,试图找到更好的方法。相关的语料库正在扩充,需求也在增加,但如何能够真正做好,我们的技术和产品团队正在考虑如何构建评测集。
这两方面的工作我认为还需要时间来逐步完善。正如我刚才提到的,这属于专科类的范畴。
量子位:现在想进军医疗的,你觉得他们还有机会吗?
魏鹏:行业里有句话:只有撑死的,没有饿死的。找到一个好的切入口就行。
量子位:你觉得什么样特质的公司能笑到最后?
魏鹏:第一是长期主义,第二是目标核心,要去解决问题,能够充分跟政府、医院、ISV在内的整个生态建立好关系。比如像医生端,他们是否能有动力去支持这件事情。
量子位:现在有没有形成一个评测标准?
魏鹏:我们现在评测标准本身里面有一些维度,比如像专业性、事实性、完整性、用户体感。
用户体感就是用户自己去标注,来判断是不是像医生来交流。
量子位:之前张亚勤提到这样一个演变趋势:信息智能——具身智能——生物智能,医疗有会不会经历这样的趋势?
魏鹏:整体大方向肯定是往这个趋势走,但关键还是得找到一个切入点,比如怎么跟机器人去做结合,现在摸索更多的还是辅助手术/操作这种。
量子位:最后总结一下,区别于其他领域,大模型对于医疗是一个怎样的变革?
魏鹏:首先,核心就是效率。之前也有类似的问答系统,但它背后主要基于决策树,回答能力有限。但现在有大模型之后,整个效率也会更高一点。
第二,这个场景天然就涉及到多轮交互的需求。只要解决好这个需求,就能显著提升整体体验。很多小问题,AI就可以帮忙处理。比如一些政策性问题,无需亲自去医保部门去咨询。这些实际上都是效率的显著提升。
医疗资源本就稀缺,无论是过呢还是国外,只要能提高整体效率,对这个领域就已经是巨大的贡献。
如果能在一个点上做到极致,就已经很好了。追求全面而不求精,我认为并不符合当前的场景和需求。
—完—