图片来源
视觉中国
文
vb动脉网
2月18日,华尔街日报传出消息,国际商业机器公司(InternationalBusinessMachinesCorp.)正在思考如何帮助IBM脱手WatsonHealth。接下来,Watson可能被出售给私募股权公司、医疗行业企业,或与一家特殊目的收购公司(SPAC)合并。行至此处,IBM实属无奈。
简述WatsonHealth的发展史,最早可追溯至年。那年,拥有一定自然语义分析能力的IBM将医疗作为人工智能科研转化的核心,开启了WatsonHealth的漫漫旅程。整个AI的训练过程中,Watson先后师从纪念斯隆-凯特琳癌症中心(MSK)、妙佑医疗国际(MayoClinic)、奎斯特诊断公司(QuestDiagnostics)等全球知名医学研究机构。放在国内,这称得上是帝皇级的待遇。但直到故事结尾,Watson还是没有成为一介名医。
年与德克萨斯大学MD安德森肿瘤中心合作破裂是整个梦想幻灭的关键转折:为了培养IBM想象中的虚拟医生,MD中心全额支付了IBM万美元的研发费用,待海量资金烧尽之后,Watson仍然无法有效应用于临床,而本已存在资金问题的MD中心更是深陷财务泥沼。
至那以后,受挫Watson便启动了多次大规模裁员,在衰落的道路上一去不复返。今日再谈起Watson,国内一名涉足于此的经销商不愿多言,只是透露道:“这儿的每个人都认为,这是一个失败的产品。”
从举世瞩目到黯然消亡,Watson生存于医疗领域的十年是医疗AI发展的缩影。烧掉数百亿美元,Watson到底为我们买来了怎样的教训?
十年耕耘,Watson到底做出了什么?
回到Watson进入医疗领域那一年,当IBM为其立下远大前程后,它接触的第一个老师便是大名鼎鼎的纪念斯隆-凯特琳癌症中心。老师的专业决定了学生的能力,以肿瘤治疗著称的MSK自然主导了Watson的风格;加之IBM自身转变为“认知解决方案云平台公司”,Watson被要求成为一名“用下一代AI认知技术应用于癌症治疗”的虚拟医生。
顺着这一图景,IBMWatsonHealth先后开发了三个独特的癌症治疗解决方案,辅助全球各地的医生对患者进行诊治,分别是Watson肿瘤解决方案(WatsonforOncolgy);Watson临床实验匹配解决方案(WatsonforClinicalTrialMatching)与Watson基因解决方案(WatsonforGenomics)
三个方案名字讳莫如深,但内容理解起来很简单。第一个WatsonforOncology是IBM卖得最好的产品,意在为患者提供多种治疗方案,并可扩充肿瘤专家自身的专业知识;第二个WatsonforClinicalTrialMatching用于帮助药物临床试验寻求合适的患者;第三个WatsonforGenomics则是用基因测序技术,对肿瘤进行精准治疗。
IBM对于AI的洞察力毋庸置疑,即便放在今天,这三个目标仍然是AI应用的主要方向,也依然极具挑战。因此,问题还是出在产品本身。
AI之内:有限的市场与缺失的逻辑先谈最为重要的WatsonforOncology,这是一个类似于单病种CDSS的产品,意在给定患者文本及影像信息,结合Watson已经学会的知识(包括乳腺癌、肺癌、直肠癌等13个癌种)进行多轮判断,最终输出结果,其具体处理逻辑如下。
在实际之中,Watson的诊断流程大致可分为四步,分别是:
1.输入医疗记录,将患者多个时间节点的诊断数据输入系统,包括结构化数据(电子病历等)和非结构化数据(影像等);
2.分析医疗数据,检索已有知识图谱,并对输入的医疗数据进行查找与分析,最终为每一位患者提供多种可能有效的治疗方案;
3.方案排序,按照可信度指标为各种治疗方案排序。
4.输出结果,最终患者拿到手的,是一本内容丰富的癌症治疗方案建议报告。其中,包括几种推荐方案、考虑方案和不推荐方案,并注明采用此方案的生存率、不良反应发生率、药物相互作用这些相关信息,帮助医生、患者了解该方案的疗效与风险。
Watson通过不断调整其内部处理程序来“学习”,以便在某些问题上得到高概率的正确答案,例如放射图像揭示癌症。正确的答案必须是已知的,这样系统才能被告知,何时做对了什么,何时做错了什么。系统能够处理的训练问题越多,命中率就越高。
但是,假若数据本身具有一定问题,Watson基于问题知识的诊断自然也会存在问题。
对于依赖于知识图谱的AI而言,知识的广度与准确度决定的AI本身判断的精准程度,但若没有对知识进行充分描述,训练出的AI便会出问题。举个例子,如果知识A告诉Watson长时间住院容易产生深静脉血栓,知识B告诉Watson住院不是产品深静脉血栓的根本原因,人能够很容易分清两句话的逻辑,但AI不行。此类具有逻辑矛盾的描述一旦多了起来,AI辅助诊断的准确率便会下降。
另一种问题来源于数据本身的错误。如果我们发现一个患者的诊断结论为卵巢癌,而患者性别为男,还会用这个数据做进一步的临床研究吗?如果我们发现病理报告汇总中当天来检查的二十多个患者的生日全部是同一天,这得是多么大的“缘分”?在所有的NLP技术模型构建之前,必须要解决这些与正常的医学逻辑、常识逻辑相违背的问题。
第三个问题是缺乏寻找隐藏在已有数据外的知识的能力,举个例子,在患者的“一述五史”中,研究人员需要提取一个字段名称叫做“是否有吸烟史”,因此他们需要标注的结论是“是”或者“否”,而这两个字在病历中是不直接出现的,那就需要拆解逻辑,要明确从病例中识别出什么,最终判断这个是否吸烟的结论。
Watson对于上述三个问题并没有给出很好的解决答案。相反,IBM耗费40亿巨资收购了Explorys、Phytel、MergeHealthcare等数据公司,合作多个著名医疗机构……重重努力有力扩充了Watson的知识量,却没有有效提升Watson的逻辑能力。
此外,Watson的根“数据”出于MSK。虽然IBM意在全球,但是MSK的诊断风格或许不能适用于每一区域。以中国为例,生活、饮食习惯乃至基因差异决定了诊断的差异,本土化不足的Watson很难适应这样的变化,给出准确的诊断结果。
不仅如此,从Watson的推理过程看来,其分析过程需要结合结构化的病历数据与非结构化的影像数据,需要AI处理异构数据。这在国内一般被分为AI的两个阶段,每个阶段均有各自的AI负责运算,Watson有些操之过急。因此,即便拥有影像AI公司MergeHealthcare的助力,至少在国内的医生看来,Watson没有交出一张好的成绩表,只能在诊断中给出标准的、医生能力范围内的建议。
不过,尽管缺乏有效的AI逻辑、缺乏自动化的数据质量问题发现算法,Watson的知识图谱仍具备很高的价值。Watson显然看到了这一点,用于帮助药物临床试验寻求合适患者的WatsonforClinicalTrialMatching与用基因测序技术对肿瘤进行精准治疗WatsonforGenomics便是Watson价值的证明。
相对于偏向医生端的辅助诊断,这两个产品对逻辑推理的要求较低,更注重文献、数据的丰富程度,Watson完全能够满足这样的条件。但问题也在于此,如果条件太低,企业便无法构建充分的竞争力。这里的问题在于市场有限,且数据库是医疗大数据公司的基础,竞争对手众多。国内的HLT、浪潮健康都有提供与WatsonforClinicalTrialMatching一致的业务,而WatsonforGenomics所处的市场则对AI要求不高,位于上游的测序机构更具备话语权。
AI之外:过度的包装与存疑的商业模式过度的包装导致医疗AI常常被人诟病,在这一方面,Watson算是开了一个糟糕的开头。从年美国智力竞猜节目《危险边缘》中击败两位历史上最优秀的选手后,IBM放出了“人类将会被取代”的豪言,乃至到了年,还有不少医疗人工智能企业家,仍在强调自己做的AI,“不是要取代医生,而是要赋能医生”。
这个错误包含两方面的问题,一是给了投资人、医院过高的期待,加大了产品存在缺陷时采购者的心理落差;二是产品没有遵循“以人为本”的设计理念,难以进入实际临床流程,不能实际为医生减压赋能。
其次是营收问题。根据本次华尔街日报给出的数据,Watson年营收为10亿美元,这一数字多少有些夺人眼球。
我们不妨借用年数据简单计算一下。目前医疗AI头部创业公司的营业收入在一个亿人民币左右,AI独角兽云知声年收入2.19亿元,依图科技年收入7.17亿元,卫宁健康营收19亿元……众多公司加起来才能凑够IBMWatsonHealth全球65亿元的营收。
再看一组数据,《华尔街日报》曾透露,WatsonHealth产品组合中最大的AI产品是WatsonforOncology,IBM通常向每位患者收费至美元,在某些情况下还需要咨询费;据《数智物语》报道,年百洋医药集团董事长付钢在接受记者采访时曾表示,使用Watson肿瘤解决方案均自费,价格是元/例。而IBM给出的数据是,至年6月底,使用WatsonforOncology的患者数量为名,以20%的患者增长率计算,WatsonforOncology的患者端大概能够为IBM带来5.5亿元的总共收入,远低于每年10亿美元这一数字。
年11月,处于衰退状态的Watson在国内的落地情况是43个城市近80家医院,略低于头部AI公司,按照这一数字计算,Watson带来的收入距离其百亿级的投入,还有很长距离。
还有一个问题不容忽视:为什么患者会想要一个昂贵的虚拟医生,而非平价的主任医生进行诊断呢?
百亿美金烧出了什么教训?
内外之下,我们大致可以将Watson存在的问题归纳于4点。
一、在大规模的收购过程中,Watson的人员严重冗杂。在MSK事件后,Watson事业部裁员50%至70%,被裁员工主要来自收购的三家公司Phytel、Explorys和Truven。
二、诊断准确性、安全性存疑。年,IBM内部文件流出,多个案例均暗示WatsonHealth缺乏准确与安全。实际上,绵绵十年,Watson也没有通过FDA的审批,IBM也未发表任何科学论文,证明该技术如何影响医生和患者。
三、数据集存在问题。数据集存在认知偏见,缺乏有效的逻辑推理,缺乏质控、缺乏本土化优化。
四、虚拟诊断为伪需求,“烧钱的医生”不挣钱。
如今战略转向AI与混合云,IBM抛弃Watson这一棋子已成为必然。但是,Watson的没落并非AI的没落,起伏十年,我们能从中看到许多有价值的东西。
首先是对于AI的定义。习惯了“互联网+”的我们常常用“AI+”来定义其医疗应用,但互联网本身便是一个场景,而目前的AI,仅是某一医疗场景中的某一应用,是服务于该场景的技术,更为准确的说法为“+AI”。换句话说,我们应该根据具体的医疗场景定制需求,而非做好一个AI算法,强行将其置于某一AI流程之中。
这样的好处显而易见。从信息化的产业发展可知,医疗需要AI,但又没有那么需要AI。从现在的信息化政策来看,各类评级强调了数据的收集、整理、清洗、上报、分析、质控,很多过程依靠人力难以实现(尤其是分析、质控),必须利用基于NLP的知识图谱的数据进行处理。这些领域之中,我们通常不谈AI,但AI却已成为新一代信息系统不可或缺的一部分。
再谈知识图谱。大规模临床电子病历要真的发挥其价值并不能如Watson一样进行简单的堆叠许欸小,而是需要解决很多问题。在这之中,数据质量治理问题、数据结构化信息提取问题、数据归一标准化问题都非常难以处理。这些问题的解决单纯靠人工是无法规模化的,必须用自然语言处理技术作为支撑。这里不仅需要自然语言处理的算法技术、计算技巧和工程能力,更需要很强的医学背景知识。因此,要实现有效的诊断,必须一一解决上述问题,构造出有效的逻辑。