?真实世界证据是药物有效性和安全性评价证据链的重要组成部分,其相关概念和应用参见《真实世界证据支持药物研发与审评的指导原则(试行)》。而真实世界数据则是产生真实世界证据的基础,没有高质量的适用的真实世界数据支持,真实世界证据亦无从谈起。
?真实世界数据是指来源于日常所收集的各种与患者健康状况和/或诊疗及保健有关的数据。并非所有的真实世界数据经分析后就能产生真实世界证据,只有满足适用性的真实世界数据经恰当和充分地分析后才有可能形成真实世界证据。目前真实世界数据的数据记录、采集、存储等流程缺乏严格的质量控制,可能存在数据不完整,数据标准、数据模型和描述方法不统一等问题,对真实世界数据的有效使用形成了障碍。因此,如何使收集的真实世界数据能够成为或经治理后能够成为满足临床研究目的所需的分析数据,以及如何评估真实世界数据是否适用于产生真实世界证据,是使用真实世界数据形成真实世界证据支持药物监管决策的关键问题。
?本指导原则作为《真实世界证据支持药物研发与审评的指导原则(试行)》的补充,将从真实世界数据的定义、来源、评价、治理、标准、安全合规、质量保障、适用性等方面,对真实世界数据给出具体要求和指导性建议,以帮助申办者更好地进行数据治理,评估真实世界数据的适用性,为产生有效的真实世界证据做好充分准备。
二、真实世界数据来源及现状
?药物研发有关的真实世界数据主要包括在真实医疗环境下诊疗过程的记录数据(如电子病历),以及各种观察性研究数据等。此类数据可以是开展真实世界研究前已经收集的数据,也可以是为了开展真实世界研究而新收集的数据。
?(一)真实世界数据常见的主要来源?我国真实世界数据的来源按功医院信息系统数据、医保支付数据、登记研究数据、药品安全性主动监测、自然人群队列数据等,以下是根据数据功能类型分类的常见真实世界数据来源。
?1.医院信息系统数据?医院信息系统数据包括结构化和非结构化的数字化或非数字化患者记录,如患者的人口学特征、临床特征、诊断、治疗、实验室检查、安全性和临床结局等,通常分散存储于医疗卫生机构的电子病历/电子健康档案、实验室信息管理系统、医学影像存档与通讯系统、放射信息管理系统等不同信息系统中。有些医疗机构在数据集成平台或临床数据中心的基础上建立院级科研数据平台,整合患者门诊、住院、随访等各类信息,形成直接用于临床研究的数据。有些区域性医疗数据库,利用相对集中的物理环境进行跨医疗机构的临床数据的存储和处理,具有存储量大、类型多等特点,也可作为真实世界数据的潜在来源。?医院信息系统数据基于临床诊疗实践过程的记录,涵盖临床结局和药物暴露范围较广,尤其电子病历数据在真实世界研究中应用较广。
?2.医保支付数据?我国医保支付数据的主要来源有两类,一类是政府、医疗机构建立的基本医疗保险体系,进行医保支付数据库的建立和统一管理,包含有关患者基本信息、医疗服务利用、处方、结算、医疗索赔等结构化字段的数据;另一类是商业健康保险数据库,由保险机构建立,数据以保险公司理赔给付与保险期限作为分类指标,数据维度相对简单。医保系统作为真实世界数据来源,较多用于开展卫生技术评价和药物经济学研究。
?3.登记研究数据?登记研究数据是通过有组织的系统,利用观察性研究的方法搜集临床和其它来源的数据,可用于评价特定疾病、特定健康状况和暴露人群的临床结局。登记研究根据研究定义的人群特点主要包括医疗产品登记研究、疾病登记研究和健康服务登记研究三类,我国的登记研究主要是前两类。其中,医疗机构和企业支持开展的药品登记研究,观察对象是使用某种药品的患者,重点观察药品用于不同适应症的临床疗效或监测不良反应。
?登记研究数据库的优势在于以特定患者为研究人群,整合临床诊疗、医保支付等多种数据来源,数据采集较为规范,一般包括患者自报数据和长期随访数据,观测结局指标通常较为丰富,具有准确性较高、结构化强等优点,对于评价药物的有效性、安全性、经济性和依从性具有较好的适用性,还可用于疾病自然史及预后研究。
?4.药品安全性主动监测数据?药品安全性主动监测数据主要用于开展药物安全性研究及药物流行病学研究,通过国家或区域药品安全性监测网络,从医疗机构、制药公司、医学文献、网络媒体、患者报告结局等渠道,进行数据收集。此外,医疗机构和企业自身建立的自有药品的安全性监测数据库也可能成为此类数据来源的一部分。
?5.自然人群队列数据?自然人群队列数据指对健康人群和/或患者人群通过长期前瞻性动态追踪观察,获取的各种数据。自然人群队列数据具有统一标准、信息化共享、时间跨度长和样本量较大的特点,此类真实世界数据可以帮助构建常见疾病风险模型,可为药物研发目标人群的精准定位提供支持。
?6.组学数据?组学数据作为精准医学的重要支撑,主要包括基因组、表观遗传、转录组、蛋白质组和代谢组等数据,这些数据从系统生物学角度刻画了患者在遗传学、生理学、生物学等方面的特征。通常组学数据需要结合临床数据才可能成为适用的真实世界数据。
?7.死亡登记数据?人口死亡登记是一个国家对其国民的死亡信息持续完整的收集和记录。目前我国有四个系统用于收集人口死亡信息,分别隶属于国家疾控中心、国家卫生健康委员会、公安部和民政部。人口死亡登记数据包含死亡医学证明书中的所有信息,记录了详细的死亡原因和死亡时间,可以作为人群分死因死亡率、重大疾病临床结局的数据来源。
?8.患者报告结局数据?患者报告结局是一种来自患者自身测量与评价疾病结局的指标,包括症状、生理、心理、医疗服务满意度等,患者报告结局在药物评价体系发展中越来越重要。其记录有纸质和电子两种方式,后者称为电子患者报告结局,其兴起与应用,使得患者报告结局与电子病历系统对接并形成患者层面的完整数据流成为可能。
?9.来自移动设备的个体健康监测数据?个人健康监测数据可通过移动设备(如智能手机、可穿戴设备)实时采集个体生理体征指标。这些数据常产生于普通人群的自我健康管理、医疗机构对慢病患者的监测、医疗保险公司对参保人群健康状况评估的过程,通常存储于可穿戴设备企业、医疗机构数据库以及商业保险公司数据系统等。由于可穿戴设备在收集生理和体征数据方面具有便利性和即时性等优势,与电子健康数据衔接可形成更完整的真实世界数据。
?10.其它特定功能数据?
(1)公共卫生监测数据?我国建立了一系列有关公共卫生监测的数据库,如传染病监测、预防接种不良事件监测等,所记录的数据可用于分析传染病的发病情况、疫苗的一般反应和异常反应发生率等。
?(2)患者随访数据?在真实世界临床诊疗环境中,院内电子病历数据往往无法涵盖患者一些重要的临床指标,如总生存期、五年生存率、不良反应信息等,需要补充长期随访数据,才能形成适用的真实世界数据。患者随访数据主要是指以临床研究为目的,医院随访部门或第三方授权服务商以信件、电话、门诊、短信、网络随访等方式对离院患者开展临床终点、康复指导、用药提醒、满意度调查等服务,服务中收集的院外数据,医院随访数据系统。通过与病历数据的链接,实现多源临床数据的融合,用以探索疾病发生机制、发展规律、治疗方法、预后相关因素等临床研究问题。
?(3)患者用药数据?患者诊疗过程药品使用数据包括患者信息、药品品规、药品用法用量以及不良反应等信息,医院药品管理信息系统、医药电子商务平台、制药企业产品追溯和药品安全性信息数据库,以及药品使用监测平台等。伴随远程诊疗和互联网+慢病管理模式的普及,存储于处方流转平台或医药电商平台的患者院外用药数据逐渐增多,此类数据的有效利用或拼接,可作为患者维度诊疗过程记录的真实世界数据来源。
?随着医疗信息技术的不断发展,新的真实世界数据类型和来源会不断出现,但其具体应用还有赖于所要解决的临床研究问题,以及该数据所支持产生真实世界证据的适用性。
?(二)真实世界数据应用面临的主要挑战?从数据来源看,相较于随机对照试验(RandomizedControlledTrial,RCT)数据,真实世界数据在大多数情况下缺乏其记录、采集、存储等流程的严格质量控制,会造成数据不完整、关键变量缺失、记录不准确等问题,这些数据质量上的缺陷,会极大地影响后续的数据治理和应用,甚至会影响数据的可追溯性,研究者也难以发现其中的问题并进行核对和修正。由于患者病程、就诊地点以及时间和空间等因素的变化,可能导致患者疾病状态及相关因素等信息的缺失,为临床研究疾病状态及结局的系统性评价带来挑战。选择性的数据收集,特别是登记研究数据,是导致研究结果偏倚的潜在风险。
?由于各种真实世界数据来源之间相对独立和封闭、数据管理系统种类繁多、数据存储分散且数据标准不一致、数据横向整合和交换存在困难,造成数据碎片化和信息孤岛现象突出。对于电子病历数据,由于其高度敏感性,该系统一般封闭管理,对它们的利用可能会受到一定限制。电子病历还可能因文字类型的主观性描述和记录人差异,而影响对临床结局的客观评价。此外,在缺乏统一标准的情况下,数据类型较为多样,既有结构化数据,也有文本、图片、视频等非结构化和半结构化数据,在数据记录、采集、存储的过程中,也会导致数据的冗余和重复,进而造成数据处理难度加大。
?三、真实世界数据适用性评价
?真实世界数据的适用性评价应基于特定的研究目的和监管决策用途。
?(一)真实世界数据的数据治理和数据管理
?真实世界数据可以根据研究开展的时间分为回顾性收集和前瞻性收集两种方式获取。回顾性收集的数据通常需要进行数据治理,数据主要来源于既往开展的回顾性观察性研究、前瞻性观察性研究、回顾前瞻性观察性研究等。而前瞻性收集的数据则需进行数据管理,数据主要来源于将要开展的前瞻性观察性研究,或实用临床试验,由于此类数据类似于RCT的数据收集,即根据研究方案建立数据库并通过电子数据采集系统采集数据,是前瞻的、有计划的、结构化和标准化的数据。如果某项研究既利用了既往的数据,又将采集将来的数据,例如,从即时开始的回顾前瞻性研究,则对回顾性收集的数据需经数据治理,而对前瞻收集的数据则采用数据管理的方法,这里需要注意的关键问题是既往数据经治理后的数据库应与前瞻性设计的数据库相匹配。对于以外部对照的单臂临床试验,若为历史对照,外部数据需采用治理手段;若为平行对照,外部数据可采用数据管理手段。
?真实世界数据的适用性评价主要针对的是回顾性收集的数据,但对前瞻性收集的数据也有指导意义。
?适用性评价可分为两个阶段,第一阶段是从可及性、伦理、合规、代表性、关键变量完整性、样本量和源数据活动状态等维度,对源数据进行初步评价和选择,判断其是否满足研究方案的基本分析要求;第二阶段包括数据的相关性、可靠性,以及采用的或拟采用的数据治理机制(数据标准和通用数据模型)的评价分析,经治理的数据是否适用于产生真实世界证据(见图1)。如果是前瞻性收集的真实世界数据,则无需进行第一阶段的初步适用性评价。
?(二)源数据的适用性评价?满足基本分析要求的源数据至少应具备以下条件:
?1.数据库处于活动状态且数据可及?在研究期限内数据库应是连续的处于活动状态的,所记录的数据均是可及的,即具有数据的使用权限,并且可被第三方特别是监管机构评估。
?2.数据使用符合伦理和安全性要求?源数据的使用应符合伦理审查法规要求,应符合相关的数据安全与隐私保护要求。
?3.关键变量的覆盖度?源数据通常是不完整的,但应具有一定的覆盖度,至少应包括与研究目的相关的结局变量、暴露/干预变量、人口学变量和重要的协变量。
?4.样本量足够?应充分考虑和预判经数据治理后源数据例数明显减少的情况,以保证统计分析所需的样本量。
?(三)经治理数据的适用性评价?经治理的真实世界数据的适用性评价主要根据数据相关性和可靠性。
?1.相关性评价
?相关性评价旨在评估真实世界数据是否与所