EClock 是一种基于集合的方法,可以根据具有偏差分布的 DNA 甲基化准确预测年龄。
例如,在根据胎盘甲基化训练胎龄模型时,只能在婴儿和胎盘分娩后采集样本。 大多数样本超过 30 周,对应于足月或中度早产。 妊娠期较短的样本很少见,这意味着样本的分布严重偏向于大妊娠期。 这使得模型很难准确预测较小的妊娠期。 即使胎龄的微小差异也会对新生儿死亡率、发病率和长期结果产生重大影响。 因此,模型在整个妊娠范围内的准确性至关重要。
我们开发了 eClock,一个解决这个问题的 R 包。 它是对传统机器学习策略的改进,用于处理类别数据中的不平衡问题[24]。 Bagging 和 SMOTE 方法(Synthetic Majority Oversampling Technique)与集成模型相结合,用于校正有偏差的年龄分布。 这是这些技术首次应用于时钟模型。 这在时钟模型构建中创建了一个新框架。 eClock 提供额外的功能,例如训练传统时钟模型、显示特征以及转换探针、基因或 DMR(DNA 甲基化区域)的甲基化值。 我们使用三个不同的数据集来测试 eClock 的性能。 结果表明,它可以提高时钟模型对稀有样本的性能。
来源和详细信息:
https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0267349