随着DNA测序技术开始大规模商业化应用,我们已经可以很容易地得到自己的全基因组测序结果。虽然三代测序技术只需要短短一天就可以完成一个人的全基因组测序,但即使是现在,基因组的测序与分析依然是繁重复杂的工作。1990年人类基因组计划提出后,多个国家分工合作,历史14年才完成人类的基因组测序,这足以说明测序过程需要的庞大工作量。测序时间的缩短不仅得益于测序技术的发展,还需要感谢计算机技术日新月异带来的数据处理能力的飞速发展。
近日,中国农业科学院深圳农业基因组研究所阮珏团队开发出了基于第三代DNA测序技术的算法Wtdbg。这是2016年Wtdbg算法初步研究成功后的升级版本,分析速度与今年4月发布的Flye算法相比提升了5倍,并且突破了测序分析时间长于测序数据产出时间的瓶颈,大大提高了第三代测序数据的分析效率。据了解,更高的版本在今年初就已经进入研究阶段。
目前,市场上商用的DNA测序技术仍然以第二代高通量测序(NGS)为主,主要原因是在早期第三代测序技术的成本要高很多,以及第三代测序技术错误率高,而且因为测序原理不同,基于第二代测序技术的基因组装方法无法配适,组装缺少效率。阮珏团队在第二代测序组装分析理论德布鲁因图的基础上提出了模糊布鲁因图,将测序数据切分为固定长度的短串,再利用短串恢复出全基因组序列。同时通过重新定义“短串”,研究团队使模糊布鲁因图具有了高效率和高容错的优点。
2016年Wtdbg算法研发成功后就成为国内多家基因测序企业主要的组装分析工具。虽然不是测序方法的进步,但算法的突破对基因测序技术的影响也很大。现阶段,生物医学研究的发展趋势是以全基因组组装方式对群体进行测序分析,而Wtdbg算法的发展让这一目标成为现实。
数据处理系统几乎是所有先进仪器的核心系统之一。不管是光谱、质谱、色谱等分析仪器还是电子显微镜等光学仪器在获取数据之后都需要通过数据处理软件分析数据得出检测结果。而数据处理系统的核心就是算法,其中除了分析数据的算法之外还包括减少误差、修正硬件特性的算法等。算法的进步可以提高仪器的数据处理能力,让仪器的检测结果更精确,减少检测结果的误差,还可以提高仪器的检测速度。
随着大数据时代的到来,仪器将越来越智能化和数字化,这一进程需要依靠大量的算法支撑。不仅分析仪器的检测数据需要算法分析,数据的储存、传输、对比也需要算法处理。甚至当实验室通过互联网技术形成一个整体,仪器与仪器之间的互动,人与数据化实验室的互动都是算法大展拳脚的舞台。
资料来源:新华网
编辑点评:现代医学证明,一切疾病都与基因相关。而基因检测不仅可以针对性的预防疾病,还具有以下特点:指导科学用药,有效避免临床误诊;设计个性化体检套餐;指导个性化医疗服务;进行个性化的运动指导;有的放矢的进行个性化的保健。所以说,科学技术进步在很大程度上促进了基因测序的发展,这对于人类健康而言有着积极的作用。