近日,杂志Nature communications上发表了一篇题为“Plasma proteomics for biomarker discovery in childhood tuberculosis”的文章。在这项工作中,作者使用高通量蛋白质组学来检测儿童的血浆蛋白质组,以期区分结核病。通过采用机器学习方法,作者鉴定出包含3至6种蛋白质的四种生物标记物组合,其AUC达到0.87-0.88,并且都达到了世卫组织结核病筛查测试的最低目标产品概况准确性阈值。这项工作提供了对儿童结核病独特宿主反应的见解,为改善全球儿童结核病检测和管理打下基础。 图片来源:Nature communications 主要内容 研究队列及组学分析概述 作者纳入了来自冈比亚、秘鲁、南非和乌干达的511例儿童血浆样本,包括确诊结核(133例)、未确诊结核(120例)、非结核呼吸道感染(231例)及健康对照(27例),严格采用NIH共识定义分类。 作者对这些血浆样本进行高通量蛋白质组学样品制备,以及数据非依赖性采集(DIA-PASEF)质谱技术完成样本分析,定量859种蛋白质,平均每个样本检测498种蛋白,动态范围跨越4个数量级(图b)。此方法能够重复性地检测到浓度低至12.1 ng/L的蛋白质,中位浓度为40 ng/L。 一种用于血浆蛋白质组学的高通量工作流程。 图片来源:Nature communications 结核病候选生物标志物的鉴定 作者比较了确诊结核病和非结核病儿童的血浆蛋白水平,以确定可以区分结核病与其他非结核病呼吸道疾病的生物标志物。结果发现了47个显著差异蛋白(30个下调,17个上调),(图b),包括:WARS1(色氨酰-tRNA合成酶),是与结核感染相关的免疫应答标志物(log2FC=0.39);多个免疫球蛋白可变区(IGHV1-18、IGHV1-3、IGHV2-26、IGHV3-23、IGHV3-30、IGKV1-16、IGKV1D-33和IGKV3-20)的改变(图c),表明对结核病的寡克隆体液反应;几种蛋白质(APOM, PON1, CPB2)的水平改变(图b),是肺部炎症的一般标记物。 通路富集分析结果显示,补体激活通路显著上调,可能反映了结核分枝杆菌细胞壁成分触发的先天免疫反应。 结核病候选生物标志物的鉴定。图片来源:Nature communications 基于机器学习的结核病生物特征识别 为了确定达到筛选检测的最小生物标志物子集,作者计算了所有可能组合,并选择了在70%特异性下敏感性最大且AUC也较大的组合。其中4个模型达到或超过了WHO TPP的筛选测试,即在70%特异性下达到90%敏感性(图b)。5-蛋白模型的敏感性为93%,特异性为70% ,6-蛋白模型的敏感性为96.7%,特异性为70%。其中,APOM、TNC和CD44在4、5和6-蛋白模型中是共享的(图d)。 机器学习开发小儿结核病生物标记物。 图片来源:Nature communications 检测未确诊结核病 作者测试了115例培养阴性但有结核症状且抗结核治疗有效的儿童病例。作者使用3、4、5和6-蛋白质模型对上述病例进行分类。结果显示,在约79%的病例中,各种模型支持结核病诊断,不同模型预测115名儿童中有85-98例阳性病例(图a),且不同模型之间预测一致性很好,63%的样本被所有模型鉴定为阳性(图b)。 检测未确诊结核病。图片来源:Nature communications 总结与讨论 这项研究是迄今为止规模最大的儿童结核病血浆蛋白质组学研究,涵盖了500个样本的多样化儿科队列。队列设计还纳入了非结核性呼吸道疾病对照组,解决了一项关键的临床诊断挑战,即区分患有肺结核的儿童与因其他原因出现症状的儿童,从而避免了非特异性炎症标志物。本研究通过创新性的高通量蛋白质组学结合机器学习,首次建立了跨大洲的儿童结核病血浆蛋白特征库。4-6蛋白组合达到WHO目标要求,为开发儿童专用诊断工具奠定基础。未来需重点解决HIV感染和婴幼儿亚群的适用性问题,并推动技术向床旁检测转化。 此研究也存在一定局限性。生物特征的性能将需要通过前瞻性临床试验进一步验证。另外,生物标记还包括免疫球蛋白G蛋白,这些蛋白质在人群中的高度多态性可能会限制它们在生物标记中的广泛应用。此外,这些生物特征在队列亚组中的准确性受到样本量的限制。从技术角度来看,血浆取样、样品制备和数据收集也可能引入偏差。不过总的来说,这些努力深入表征了儿童结核病的独特免疫反应,同时提供了一种非痰生物标记,为改善全世界儿童结核病的检测和管理打下了基础。 |