消化内镜检查中自我评估的准确性：系统回顾和荟萃分析

消化内镜检查中自我评估的准确性：系统回顾和荟萃分析 2026-02-01

#Thieme未来星计划荣誉推出消化病学专题，我们将与未来星计划的小伙伴们持续推荐解读与消化病学相关的最新研究，欢迎关注。同时，欢迎感兴趣的小伙伴加入我们。

本期推荐 & 解读 BY

单飞 | 南昌大学

↓ 消化病学专题丨63

背景

评估是确保获得和保持胃肠道（GI）内镜检查能力的必要条件，而这可以通过自我评估来实现。我们进行了一项系统性回顾和荟萃分析，以评估消化道内镜医师自我评估的准确性。

到目前为止，只有一个关于胃肠道内镜医师自我评估准确性的叙述性评论。此外，还没有荟萃分析量化与手术或内镜等手术技能相关的自我评估准确性。我们的目的是通过荟萃分析进行系统评价，以评估胃肠道内镜医师的自我评估准确性，这是使用均值差异和95%一致性界限（LoA）的汇总估计来确定的。此外，我们进行了亚组分析，以确定经验水平是否对自我评估的整体准确性有影响，以及在考虑不同的内镜技能领域、内镜手术和手术环境时，自我评估的准确性是否发生了变化。

Endoscopy

Accuracy of self-assessment in gastrointestinal endoscopy: a systematic review and meta-analysis

Scaffidi Michael A et al.

中文内容仅供参考，以英文原文为准，欢迎识别二维码阅读。

方法

这是对调查内镜操作能力自我评估的研究进行的个人参与者数据荟萃分析。我们对以下数据库进行了系统检索：Ovid MEDLINE、Ovid EMBASE、Wiley Cochrane CENTRAL和 ProQuest 教育资源信息中心。如果研究是对消化内镜自我评估准确性的初步调查，并使用统计分析来确定准确性，我们就将其纳入研究。我们对研究进行了荟萃分析，采用了Bland-Altman研究荟萃分析的LoA方法。

纳入了所有同行评议的观察和干预研究，这些研究报告了在模拟和/或临床环境中进行胃肠道内镜检查的居民、研究员和/或执业医生之间使用自我评估和外部评估之间的统计分析进行的直接比较。排除标准：关于自我评估的二级研究，包括评论、信件或社论；仅针对医学生和/或非医生的研究；以及与胃肠道内镜检查无关的技能自我评估研究。完整的纳入/排除标准在表1中提供。

主要分析是内镜医师自我评估与外部评估相比的总体准确性，准确性由平均差异（偏差）和95 % LoA（精确度）的集合估计值决定。次要分析包括确定内镜医师的经验水平对自我评估的总体准确性是否有影响，以及当考虑到不同的内镜技能领域（即技术、认知、综合）、内镜程序（如结肠镜检查）和程序环境（即临床、模拟）时，自我评估的准确性是否会发生变化。

所有定量分析均在R中进行。图1中提供了数据合成和分析的摘要。所有纳入研究的数据在必要时转换为百分比分数。我们通过仅包括数据完整的参与者数据来管理缺失的数据。我们确认所有关于自我评估准确性的数据都是使用公式1：自我评估准确度=专家评估分数−自我评估分数，其中正差异表示低估，负差异表示高估。为了确定自我评估的总体准确性，我们对Bland-Altman研究进行了使用LoA的荟萃分析。我们使用等式2估计纳入研究的合并LoA：其中“d”是跨研究的估计平均偏差，“s”是自评差异中的估计均方差。95%的LoA包含跨研究和测量的95%的自评准确性差异。由于来自纳入研究的原始数据是可用的——而不是其他荟萃分析背景——因此可以直接计算总均方差，而不是通过合并单独的研究内和研究间变异估计。95%LoA的偏差使用森林图。

图1. 数据分析的可视化摘要。GiECAT，消化内镜检查能力评估工具。

结果

去除重复条目后，我们筛选了7138条记录。全文回顾后，我们纳入了16项定性分析研究和3项荟萃分析研究。在荟萃分析中，我们发现LoA很宽（−41.0%至34.0%），超出了临床可接受的差异。亚组分析发现，内镜新手和中级医生的LoA都很宽（−45.0%至35.1%和−54.7%至46.5%，内镜专家的LoA很窄（−14.2%至21.4%）。

在删除重复研究并纳入灰色文献后，我们的初步搜索确定了7138项研究。其中，我们包括16项用于定性综合三用于定量分析。研究流程总结于图2。

图2. 系统综述和荟萃分析首选报告项目流程图，荟萃分析所纳入研究的识别和筛选过程。

表1中提供了研究特点的概要。研究的发表日期从2004年到2021年不等。除了一项关于儿科内镜检查的研究（6.2%）之外，所有研究都在成年内镜医生中进行。大多数研究（n=11[69%]）是观察性质的。在提供参与者人数数据的14项研究中，共有462名参与者；其余两项研究没有具体说明涉及的参与者人数。在13项研究（81%）中，只调查了一种类型的内镜手术，在8项研究（50%）中调查的最常见的是结肠镜检查。

图3显示了95%LoA的总体偏差的森林图，包括敏感性分析。我们总共排除了两名参与者，一名来自检查成人患者结肠镜检查的研究[30]，一名来自检查模拟EGD的研究[32]。总共有136名参与者被纳入荟萃分析。

表1. 纳入定性分析的16项研究的特征总结。

图3. 自我评估总体准确性的偏差（LoA）的森林图，包括全球评分量表（GRS）敏感性分析。

三个亚组分析的95%LoA偏差的森林图在图4中给出。使用QUADAS-2工具进行定量合成中包含的所有三项研究的偏倚风险显示偏倚风险较低（图5）。

图4. 对自我评估的总体准确性进行亚组分析的LoA的偏差森林图。

图5. 使用QUADAS-2工具的偏倚风险总结。

结论

胃肠道内镜医师对其内镜能力的自我评估不准确。亚组分析表明，内镜新手和中级医师不准确，而内镜专家的自我评估准确。虽然我们建议不要在内镜新手和中级医师中单独使用自我评估，但内镜专家不妨将其纳入内镜能力的自我评估。

讨论

在对胃肠道内镜自我评估准确性的荟萃分析系统回顾中，发现了16项定性综合研究和3项定量分析研究。在这三项共有136名参与者的研究中，荟萃分析发现内镜医生对其内镜能力的自我评估总体上不准确，有高估的趋势。特别是，新手最不准确，高估了他们的表现，而内镜专家最准确，低估了他们的表现。此外，技术和认知技能的自我评估通常不准确和高估，而综合技能不准确和低估。最后，临床结肠镜表现的自我评估不准确，高估了，而模拟内镜的自我评估准确，低估了。研究发现与医学自我评估的类似评论基本一致。

这项研究有几个优点。首先，这是首次使用布兰德-阿尔特曼分析法对医疗保健和医学领域的自我评估进行荟萃分析。这是一种确定两种方法之间一致性的稳健方法，在方法比较文献中常用。之前的医学自我评估荟萃分析依赖于皮尔逊相关性，该方法可测量相关性，但不能可靠地显示一致性。此外，使用了具有临床意义的自我评估准确性的明确阈值，这在自我评估准确性的荟萃分析中是一种新方法，可以为临床实践提供实用的推论。最后，所有纳入荟萃分析的研究的偏倚风险都很低，这增加了使用该研究结果进行推断的可信度。

也注意到相关的局限性。一个令人担忧的领域是，很少有研究评估GiECAT的内镜能力与内镜质量指标（如腺瘤检出率[ADR]）等既定参数之间的关系，这表明提出的自我评估准确性阈值可能没有直接的临床相关性。

值得进一步探讨的一个领域是使用干预措施来提高自我评估的准确性，尤其是对新手和中级内镜医师而言。定性综述特别指出了基于视频的干预措施，如使用视频自我回顾和视频回顾专家的表现，是实现这一目标的潜在可行方法。此外，还需要确定自我评估的调节因素。虽然经验水平已经得到了很好的阐释，但可能还有其他因素，如性别，也可能发挥重要作用。同样，与自我评估不准确的内镜医师相比，准确进行自我评估的内镜医师在其实践中是否会有更多积极的特点，如更高的ADR或短的学习曲线，这将是非常有用的。

欧洲胃肠道内镜学会（ESGE）及其附属学会的官方期刊。

Endoscopy为关于胃肠道内窥镜检查的最新技术和国际发展的重要期刊。在国际编委会的专家指导下，本刊提供高质量的内容，以满足全球内窥镜医师、外科医生、临床医生和研究人员的需求。

Endoscopy每年出版12期，内容包括高质量的综述论文、原创论文、前瞻性研究、有价值的诊断和治疗进展调查、以及对最重要的国内和国际会议进行的深入报道。文章经常辅以在线视频内容。

在Endoscopy上出版的所有论文都经过严格的同行评审。基于在线投稿和快速处理，保证了电子版和印刷版的出版速度。

上一篇： Sustainability & Circularity NOW | 2025年高阅读量论文下一篇：生殖医学 | 妊娠与伴中性粒细胞减少的皮肤异色症返回列表