Cookie-Einstellungen
     
 
 
新闻
利用深度学习分析内镜超声图像的人工智能在胰腺肿块鉴别诊断中的应用 2025-08-11

#Thieme未来星计划荣誉推出消化病学专题,我们将与未来星计划的小伙伴们持续推荐解读与消化病学相关的最新研究,欢迎关注。同时,欢迎感兴趣的小伙伴加入我们。

本期推荐 & 解读  BY

单飞 | 南昌大学

↓ 消化病学专题丨51

背景

胰腺肿块有几种类型,所以在治疗前区分它们是很重要的。人工智能(AI)是一种自动学习和识别数据模式的数学技术。本研究旨在探讨我们的AI模型使用超声内镜(EUS)图像多种类型的胰腺肿块(胰腺导管腺癌,胰腺腺鳞癌[PDAC],腺泡细胞癌[PASC],转移性胰腺癌[MPT],神经内分泌癌[NEC]、神经内分泌肿瘤[NET],固体假乳头状肿瘤[SPN]、慢性胰腺炎和自身免疫性胰腺炎[AIP])的有效性。

Endoscopy

Artificial intelligence using deep learning analysis of endoscopic ultrasonography images for the differential diagnosis of pancreatic masses

Kuwahara Takamichi et al.

中文内容仅供参考,以英文原文为准,欢迎识别二维码阅读。

方法

将接受EUS的患者纳入本次回顾性研究,纳入的患者分为训练、验证和测试队列,利用这些队列,利用深度学习架构开发了能够区分胰腺癌和非癌性胰腺病变的AI模型,并对AI模型的诊断性能进行评估。

本回顾性研究纳入了2013年4月至2019年9月在我院连续登记的数据库中患有胰腺病变并接受了EUS-FNA/B检查的患者。胰腺病变包括肿瘤病变(PDAC、PASC、ACC、MPT、pNEN和SPN)和肿瘤样病变(慢性胰腺炎和AIP)。只有EUS图像记录为视频的患者才被纳入。排除标准为EUS-FNA/B和对比增强EUS前无视频图像,以及因空气、模糊、失焦或存在伪影而导致图像质量不佳。

为了模型开发和验证,纳入的患者被分为三个队列(训练、验证或测试)。2014年4月至2018年9月的纳入患者以9:1的比例随机分为训练和验证队列。2018年10月至2019年9月的纳入患者被定义为测试队列。对于每个队列中的每一位患者,识别并提取EUS图像的视频资产。从这些视频图像中,将EUS-FNA/B和对比增强EUS之前的病变图像裁剪成正方形并存储为数字静止图像(JPEG或PNG格式)。在验证和测试队列中,每个患者的视频图像中至少连续提取15张静止图像。根据最终诊断,每个数据点对于癌症病变标记为“1”,对于其他病变标记为“0”(图1a,b)。

将疾病图像(慢性胰腺炎、AIP 和 NET)输入 DCGAN 并进行训练(600 000 次迭代)。训练结束后,生成了 20 000 张每种疾病的生成图像,并为每种疾病手动选择了与真实图像相似的高质量生成图像(图 1 c和图 2)。超级计算资源和分布式数据在单个节点上并行,具有用于模型训练的多个(八个)进程(图1 d)。

使用训练数据和DCGAN创建的生成数据对模型进行训练,直至早期停止,并使用验证数据对模型性能进行评估。图像的输入尺寸为224 × 224像素,输出值为预测值(0 至 1 的连续变量)。当预测值接近1时,模型将病变分类为癌。训练结束后,选择损失最小的训练模型,用外部测试数据进行测试(图 1d-f)。

人工智能系统的诊断性能分两个阶段进行评估。在第一阶段,提取从人工智能系统输出的每个静止EUS图像的预测值,并评估人工智能系统的诊断性能(静止图像阶段)(图1 g)。在第二阶段,从视频图像中提取综合连续图像的预测值,即验证和测试队列中所有静止图像的中值,并评估人工智能系统的诊断性能(患者阶段)(图1 h)。

屏幕截图 2025-08-14 142504.png

图1. 研究概况 1 研究概况 a 从超声内镜成像(EUS)视频中提取的训练组和验证组的静态图像;b 从静态图像中提取的病变图像;c DCGAN生成的图像;d 使用真实图像和生成图像训练人工智能(AI)模型; f 人工智能模型对测试图像进行推理; g 在静态图像阶段输出每个测试图像上的癌变概率; h 在患者阶段输出每个患者的癌变概率。

屏幕截图 2025-08-14 142609.png

图2. 示例:a,c,e 真实图像;b,d,f 由生成式对抗网络 (DCGAN) 生成的图像,涉及:a,b 慢性胰腺炎;c,d 自身免疫性胰腺炎;e,f 神经内分泌肿瘤。

结果

从933例患者中生成2.2万张图像,试验队列中AI模型诊断胰腺癌的曲线下面积、敏感性、特异性和准确性(95%CI)分别为0.90(0.84~0.97)、0.94(0.88~0.98)、0.82(0.68~0.92)和0.91(0.85~0.95),每种疾病的每类别敏感性(95%CI)分别为PDAC 0.96(0.90~0.99)、PASC 1.00(0.05~1.00)、ACC 1.00(0.22~1.00)、MPT 0.33(0.01~0.91)、NEC 1.00(0.22~1.00)、NET 0.93(0.66~1.00)、SPN 1.00(0.22~1.00)、慢性胰腺炎0.78(0.52~0.94)、AIP 0.73(0.39~0.94)。

本研究的患者流程图如图3所示。研究期间,治疗1199例胰腺病变患者,根据排除标准排除266例患者(245例无视频图像,21例画质差),剩下933例纳入本研究。作为发展队列,纳入772例患者(2013年4月至2018年9月),这些患者被随机分为训练和验证队列(培训694例患者,验证78例患者)。在训练队列中,慢性胰腺炎、AIP、NET图像经DCGAN预处理。作为外部测试队列,纳入161例患者(2018年10月至2019年9月)。

屏幕截图 2025-08-14 142625.png

图3. 研究设计和三个组别患者分配流程图。EUS-FNA/B,内镜超声引导下细针穿刺/活检;DCGAN,深度卷积生成对抗网络。

训练、验证和测试队列内患者的特征如表1所示。每个队列(训练/验证/测试)的最终病理诊断分别为PDAC(n=518/51/111)、PASC(n=5/2/1)、ACC(n=1/1/1)、MPT(n=8/0/3)、NEC(n=6/2/1)、NET(n=57/9/14)、SPN(n=6/1/1)、慢性胰腺炎(n=58/6/18)、AIP(n=35/6/11),三个队列间无显著差异(P=0.34)。三个队列间EUS图像上年龄、病变位置或病变大小无显著差异。三个队列之间仅性别比有显著差异;然而,训练队列和测试队列在性别比方面没有显著差异(P=0.09)。

在患者阶段,每位患者通过AI诊断癌症的能力的AUROC(95%CI)为0.90(0.84-0.97)(图4a)。当根据ROC分析以0.50的产出值作为截止点时,敏感性、特异性、PPV、NPV和准确性(95%CI)分别为0.94(0.88-0.98)、0.82(0.68-0.92)、0.93(0.87-0.97)、0.84(0.70-0.93)和0.91(0.85-0.95)(表2)。

屏幕截图 2025-08-14 142659.png

表1. 三组患者的特征

屏幕截图 2025-08-14 142716.png

图4.  人工智能(AI)模型诊断胰腺癌能力的ROC曲线下面积(AUROC):a 测试队列的患者阶段(AUROC 为 0.90);b 测试队列的静态图像阶段(AUROC 为 0.88);c 验证队列的患者阶段(AUROC 为 0.98);d 验证队列的静态图像阶段(AUROC 为 0.93)。

屏幕截图 2025-08-14 142813.png

表2. 人工智能模型在各队列和各阶段的诊断性能。

AI系统的每类别敏感性如表3所示。在测试队列中,5名PDAC患者和2名MPT患者被误诊为非癌患者,1名NET患者、4名慢性胰腺炎患者和3名AIP患者被误诊为癌患者。每种疾病的每类别敏感性(95%CI)如下:PDAC 0.96(0.90-0.99)、PASC 1.00(0.05-1.00)、ACC 1.00(0.22-1.00)、MPT 0.33(0.01-0.91)、NEC 1.00(0.22-1.00)、NET 0.93(0.66-1.00)、SPN 1.00(0.22-1.00)、慢性胰腺炎0.78(0.52-0.94)、AIP 0.73(0.39-0.94)。

屏幕截图 2025-08-14 142824.png

表3. 验证组和测试组中每个胰腺病变类别的灵敏度。

结论

我们开发的AI模型可以区分胰腺癌和非癌性胰腺病变,但需要外部验证。

讨论

AI(尤其是深度学习)是一种无需特征提取的图像信息评估新技术,既往研究报道深度学习在胃肠病学领域和其他医学领域都对医学诊断表现优异。这项研究通过深度学习开发了一个人工智能模型,该模型可以使用从视频图像中连续提取的超声内镜图像来诊断胰腺病变为癌或非癌,人工智能模型在图像和患者水平上都具有大约90%的准确率。这种性能可能与EUS-FNA/B相同;然而,目前用人工智能代替EUS-FNA/B可能很困难,因为这种人工智能模型的特异性不够高。人工智能模型在几乎所有类型的胰腺肿块中也可能具有高的敏感性。本研究首次尝试应用DCGAN开发用于胰腺疾病诊断的AI系统,由于PDAC以外的胰腺疾病的患病率较少,因此很难收集到足够多的这些罕见胰腺疾病的病例来训练AI系统,而本研究的训练数据集大部分来自PDAC的病例,为了克服数据集中的不平衡,应用DCGAN生成了与真实图像相似的慢性胰腺炎、AIP、NET的生成图像后,改善了训练数据集。

目前的研究有几个局限性。首先,这是一项回顾性单中心研究。其次,尽管患者被随机分为三个队列(培训、验证和测试),但存在选择偏差。第三,如果能够提取未录制视频的245名患者的病变图像并纳入,研究结果可能会受到影响。

总之,将胰腺肿块分为癌和非癌的人工智能系统可能具有较高的诊断性能,但需要独立的外部验证来验证当前研究中获得的结果。该人工智能系统可支持医生进行EUS和诊断胰腺肿块。

欧洲胃肠道内镜学会(ESGE)及其附属学会的官方期刊。

Endoscopy为关于胃肠道内窥镜检查的最新技术和国际发展的重要期刊。在国际编委会的专家指导下,本刊提供高质量的内容,以满足全球内窥镜医师、外科医生、临床医生和研究人员的需求。

Endoscopy每年出版12期,内容包括高质量的综述论文、原创论文、前瞻性研究、有价值的诊断和治疗进展调查、以及对最重要的国内和国际会议进行的深入报道。文章经常辅以在线视频内容。

在Endoscopy上出版的所有论文都经过严格的同行评审。基于在线投稿和快速处理,保证了电子版和印刷版的出版速度。