肿瘤治疗后进行疗效评价是临床医师制定患者后续治疗方案或研究者进行研究设计的重要依据。虽然循证医学强调终点(endpoint)指标的重要性,但替代终点(surrogate ednpoint)指标仍是临床或研究中作出决策最常用的依据。通过终点/替代终点指标的检测并予以临床验证,逐步形成了目前我们大量使用的各种“标准”。这些标准的使用促进了临床试验的发展,加强了学术交流。同时,这些标准本身也与时俱进,随着自身和其他学科的发展不断修订,以适应和促进临床医学的发展。
实体瘤疗效评价标准的发展历史
实体瘤疗效评价标准的发展已有近40年的历史。早在1979年,世界卫生组织WHO定义了肿瘤疗效评估的方法,该标准定义了实体瘤双径测量的疗效评价标准,即测量所有肿瘤的最大平面范围并将所有值相加,比较两次检查间的所有肿瘤平面最大值之和。
1985年,相关研究发现临床试验疗效评价的偏倚有5%-10%是因为WHO标准对有些病灶的定义模糊和肿瘤测量上的误差造成的。这显然会降低评估结果的可比性,并且影响结论的可靠性。
1999年研究者们提出了以肿瘤最长径的长度代替面积来代表肿瘤大小的一维测量方法(或称单径测量法),并于2000年,发布了RECIST 1.0标准,2009年RECIST标准更新为1.1版本。
这些标准虽然在WHO标准的基础上简化了测量步骤,提升了准确性,但仍然是根据传统影像(CT、MR)测量肿瘤大小的变化来判断疗效。实际上,许多肿瘤治疗后在体积上的变化并不明显,例如淋巴瘤、肉瘤、肝癌等。因此用RECIST标准并不能很好的反映真实的疗效。
2009年,Prof. Wahl等人首次在JNM上发表PERCIST (Positron Emission tomography Response Criteria In Solid Tumor) 肿瘤疗效评估标准。PERCIST标准在评估过程中引入了功能学影像信息,即PET/CT的FDG代谢影像信息。根据肿瘤的代谢程度,对比前后肿瘤的代谢趋势进行疗效评估,而非单纯的对比肿瘤的大小。大量临床研究显示,与其他标准(WHO, RECIST)相比,PERCIST标准评估肿瘤疗效的准确性更高。
PERCIST实体瘤疗效评估标准
PERCIST标准中将肿瘤疗效分为四个等级[1],即
完全代谢缓解 (CMR):所有病灶FDG代谢程度均低于肝脏/主动脉参考区且没有肉眼可见的代谢增高灶,并且与基线检查相比,没有新增病灶。
部分代谢缓解 (PMR):与基线检查相比,病灶SULpeak下降至少30%且SUL绝对值下降至少0.8。
疾病稳定 (SMD):除CMR,PMR及PMD以外的状态。
疾病代谢进展 (PMD):与基线检查相比,病灶SULpeak升高至少30%且SUL绝对值上升至少0.8;或病灶TLG升高75%;或有新增病灶。
根据以上定义,在实际操作中,PERCIST标准中主要参数的推荐测量方法[2]如下图所示:
图1. PERCIST标准中需要测量的指标
其中,主要指标有: 正常肝右叶SULmean值(ROI直径为3cm)及其标准差SD
全身代谢最高病灶的SULpeak值(ROI直径需≤1.2cm,最多可选5个病灶,每个器官最多选2个病灶)
肿瘤代谢体积 (MTV)
肿瘤负荷 (TLG)
由以上参数可以看出,PERCIST标准对于不同的治疗结果等级给出了明确的定义,但是同时也要求大量的定量测量和指标计算。因此PERCIST标准在实际的临床应用中还面临着非常大阻力:
肿瘤的疗效分析需要测量的参数众多。尤其是全身多发转移患者,要同时测量全身多个病灶的众多定量指标。因此常规执行PERCIST标准时需要很长的耗时。
PERCIST标准涉及VOI的勾画,很多的测量值(MTV、SULmean、SULpeak和TLG)都会受到VOI勾画情况的影响,但是VOI的勾画很大程度受到人为因素影响,不同医生的勾画结果往往存在差异,重复性非常差,这会进一步降低其临床价值及适用性。
如何得到一个标准、可重复的SUV定量工具,来对比评估肿瘤的代谢情况?
精准肿瘤自动疗效评估平台
西门子推出全新的精准肿瘤自动疗效评估平台,基于PERCIST标准,精准肿瘤自动疗效评估平台能够实现全流程实体肿瘤全自动测量、对比和疗效评估。
西门子独家ALPHA人工智能引擎
在分子影像学中,为了观察病灶的变化,需要医师进行多个时间点图像的比较,因此需要图像之间的同轴配准。传统的配准方法是逐像素进行的,然而当两次检查的视野、患者姿势(如:手臂举起VS手臂放下)或检查床设置(如:厚床垫VS薄床垫)发生变化,传统算法会失效,错误的配准可能导致病灶消失的假象。
ALPHA基于专利的器官识别技术进行解剖学配准,使医师更便捷的对比不同检查的数据。该技术在每幅图像中探测多达28个解剖学标识,基于解剖一致性检查进行过滤,并利用重叠标识对不同时间点的图像进行配准。由于ALPHA配准是以解剖结构识别为基础的,就像人工进行图像配准一样,而不是低水平的像素匹配,不受前述所有变化的影响。
图2: ALPHA配准可对多时间点的检查图像进行匹配,即使它们有不同的FOV
MFS多病灶自动勾画引擎
MFS根据PERCIST疗效评估标准的内容进行阈值及参数设置,利用ALPHA算法对全身高代谢区域进行自动勾画,并自动计算肿瘤代谢体积 (MTV) 、SUL(平均值、极值和峰值)和全身肿瘤负荷(TLG),方便临床医生完成精准的疗效评估及预后评价。它能实现:
自动勾画肝脏/主动脉参考区
自动配准不同时间点检查中的同一病灶
自动勾画全身高代谢病灶
自动计算单一病灶及全身病灶的MTV及TLG值
使用MFS进行全身高代谢区自动勾划,可减少操作者的主观依赖性并提高临床工作效率。研究显示,当计算骨肿瘤负荷时,对于病灶小于6个的患者,手动测量需要约30分钟,而使用MFS测量全身高代谢病灶仅需30秒;对于6-20个病灶的患者,手动测量需要约60分钟,而使用MFS测量仅需2分钟;对于20个病灶以上的患者,MFS与手动测量的差距更大。
研究结果指出,与手动测量相比,MFS至少可提升30倍的测量速度,并且使用MFS测量的结果与医生手动测量结果得出的临床信息相同[3]。MFS功能可提升临床工作效率并提供精准、客观的疗效评估及预后评价所需参数。为临床工作及科研提供高效、准确的解决方案。
准确的疗效评价及预后源自规范化的测量方法。根据指南,对同一患者进行PERCIST标准评估,需测量全身所有病灶并选出代谢最高的5个病灶进行计算。此外,对于肝脏或主动脉区域的参考值测量也有相应的规定(VOI直径为3cm)。MFS会根据PERCIST标准的要求自动标记肝脏或者主动脉区域的参考VOI,并自动筛选出用于评估疗效的5个病灶,根据这些病灶的多种定量指标医生可以更为准确地给出疗效评估等级(完全代谢缓解、部分代谢缓解、疾病稳定、疾病代谢进展)。
2019年Mariana R. Camacho的一项研究显示MFS与手动勾画相比, MTV和TLG具有较好的一致性[4]。该前瞻性研究纳入50名经病理活检确认的淋巴瘤患者,PET/CT扫描后的图像分别以20%和40%的阈值进行手动勾画和MFS自动勾画获取VOI,对两者得到的MTV和TLG进行对比。
图3. 手动勾画(A)与MFS自动勾画(B)病灶VOI对比
对比结果显示两种勾画方法得到的MTV和TLG,大部分数据有较好的一致性,不一致性的数据主要出现在MTV和TLG数值较大的病灶。
图4. 手动勾画与MFS自动勾画得到的MTV和TLG一致性分析
并且将两名医师使用MFS自动勾画方法得到的MTV和TLG数据进行对比分析,显示两者均无显著性差异。这一研究结果表明MFS可以快速、可重复地为临床提供与手动勾画具有可比性的MTV和TLG数据。
图5. 两名医师使用MFS得到的MTV和TLG差异性分析
MTV和TLG
MFS平台除了能够自动勾画分割全身病灶,还能基于勾画结果自动计算肿瘤代谢体积 (MTV) 和全身肿瘤负荷(TLG),方便临床医生进一步完成精准的疗效评估及预后评价。
图6. MFS自动计算MTV及TLG值
肿瘤代谢体积 (MTV)和全身肿瘤负荷(TLG)是近几年肿瘤预后评价及治疗方案选择中新兴的重要参数。相对于单个病灶,越来越多的临床医生更倾向于考虑患者全身整体的肿瘤负荷。此外,单纯测量SUVmax值易受多种因素影响(如患者血糖、注射后间隔时间及重建方法等),而MTV和TLG相对于SUVmax,其影响因素少、变异性小,近年来被大量用于评估肿瘤患者的预后情况。
Park等人的研究报告了在早期非小细胞肺癌(NSCLC)患者中,治疗前PET/CT检查的TLG值对患者5年整体生存率(OS)有良好的预测价值[5]。作者指出,应密切监测具有高TLG值 (TLG>13.76)患者的复发情况,并提示此类患者可从辅助化疗中获益。
同样,在Lee等人的一项回顾性研究中,作者纳入了87名术前接受FDG PET/CT扫描的胰腺癌患者,探究TLG与MTV对胰腺癌患者的预后价值。研究结果显示治疗前18F-FDG PET/CT检查得到的MTV值和TLG值对胰腺癌患者无复发生存率(RFS)和整体生存率(OS)有良好的预测价值[6]。
图7. MTV 和TLG 对胰腺癌患者RFS及OS的预后价值