计算工具使用 DNA 编码方法来整合和分析不同的健康数据库
巴西研究人员创建了一种创新且灵活的计算工具,可以将不同的健康数据库与数百万患者记录联系起来并进行分析。该平台名为 Tucuxi-BLAST,使用代表 DNA 序列(A、T、C 或 G)中核苷酸的字母对数据库中的识别记录进行编码,例如患者姓名、母亲姓名和出生地。尽管存在印刷错误和其他不一致,但这种将个人“转换”为 DNA 的方式能够实现跨数据库的准确记录链接。
该工具可用于研究、流行病学分析和公共政策制定。
例如,巴西国家卫生服务机构 SUS 接种过疫苗的人可以与其他数据集交叉引用,以查找接种过疫苗的患有特定疾病的患者。即使疫苗接种记录包含错误或未完成的字段,Tucuxi-BLAST 也能够将其与另一个数据库中的同一患者联系起来,因为它将不一致视为 DNA 突变。基因组学工具通常需要比较片段,以确定它们是否更相似而不是不同,以及是否连接有问题的碱基对。如果每个人都对应一系列字母,则来自不同存储库的数据可以通过该工具进行交叉引用和链接。
“SUS 是医学和流行病学研究的宝贵信息来源,因为它存储了数百万患者的健康数据。然而,与疾病和其他类型数据相关的记录存储在不同的数据库中,这些数据库并不总是相互交流。我们开发的方法能够准确、快速地实现记录链接,”PeerJ杂志上发表的一篇关于该研究的文章的通讯作者 Helder Nakaya告诉 Agência FAPESP。
Nakaya 是圣保罗大学药学院 (FCF-USP)、阿尔伯特爱因斯坦犹太医院 (HIAE)、巴斯德科学平台-USP 和 Todos pela Saúde 研究所的免疫学家。他还隶属于炎症疾病研究中心 (CRID),该中心是研究、创新和传播中心 (RIDC) 之一。
在实践中使用该工具
甚至在文章发表之前,Tucuxi-BLAST 就开始在实践中部署。例如,它被用来交叉引用卫生部疟疾监测系统四年的数据与奥斯瓦尔多克鲁兹基金会的分支机构 Heitor Vieira Dourado 热带医学基金会(位于亚马逊州马瑙斯)的临床数据(Fiocruz),该部的另一个部门。