Sequence analysis during drug discovery

Written by:

founder of NullSet Informatics Solutions

July 11, 2023

与 NullSet Informatics Solutions 创始人 Jefferson Parker 博士的对话

随着计算生物学在药物发现领域的持续推进，这一过程中不断涌现出新的挑战和机遇。序列分析一直是生物信息学的一大重要方面。在本篇文章中，我们与 NullSet Informatics Solutions 创始人兼生命科学数据分析专家 Jefferson Parker 博士探讨了药物发现领域中序列分析技术的最新前沿。

CAS：作为计算生物学家，您在药物发现的过程中担任过哪些职位？

Jefferson：我从事过各种工作，从支持药物发现实验室到转化研究小组。 最近，我与临床团队开展合作，负责运营和开发事宜。我支持药物警戒团队进行安全数据分析，从事业务拓展和竞争性情报工作。我还曾作为生物信息学分析师加入过软件工程团队，在实验室科学家和软件开发人员之间担任翻译。

CAS：您能谈谈序列分析在药物发现中的作用吗？为什么该技术具有重要意义？

Jefferson：在（药物）发现领域，可以使用序列分析技术来筛选靶标发现。 通过观察转录组水平上发生的变化，可以将其映射到所掌握的任何通路知识上，并提出“最有可能的上游原因是什么？”这一问题，这些信息有可能成为药物靶标，或在信号层面上接近药物靶标的内容。如果药物旨在针对特定靶标，则该技术有望帮助确认是否达到了目标。

此外，你也可以开始寻找患者选择的生物标志物。在表达水平或 DNA 序列水平上，是否存在具有各种突变的特定基因图谱？患者体内是否存在某些特定突变，会使患者更容易或更不容易受到药物影响？在制药行业中，这一领域非常令人振奋且欣欣向荣。如果能够在治疗前事先知道，这种药物应该有效，或者可能无效，这将真正决定治疗的成败。此外，也不会浪费患者的宝贵时间。特别是像肿瘤学这样的领域，患者并没有太多时间，不能浪费患者时间反复试错，使用药物进行多线治疗但却不起作用。

所有这些都涉及到序列分析。这一技术涉及药物开发流程的各方各面。

CAS：您认为序列分析的最大挑战是什么？

Jefferson：我想说的是，实际上这些挑战下降得非常快，因为技术每年都在不断进步。 过去，读数非常短小，组装也是一大挑战。如今，我们的读数越来越长，尽管组装操作仍是一项挑战，但难度已经有所降低。

想象一下，把《战争与和平》丢进碎纸机。得到的是一些几毫米乘几厘米的页面碎片，因此很难把它们重新组装成一本书。但如果页面的碎片更大更长，并且还有一大块段落而不是某个单词的碎片，那么以正确的顺序重新组合故事便会更加容易。随着读数变得越来越长，现在的情况便是如此。

存储仍是一项难题。即使在最近的工作中，我们也必须移动序列数据，而最快的方法是将其载入硬盘驱动器，然后再放进 FedEx 快递盒。与通过互联网移动数百 GB 或 TB 的数据相比，将数据装在盒子里运输要快得多。问题不在于本地存储，而是将大量数据从一个地方传输到另一个地方。如今，一旦得到了所需数据，即可获取足够的计算能力来运行测序项目，但将数据传输到机器仍是一大瓶颈。

此外，人源性样本也是一项挑战。这类采样很痛苦，往往需要进行侵入性活检，因此患者不愿提供多个样本。完成采样后，样本通常会采用福尔马林固定和石蜡包埋的方式进行保存，因此任何核酸物质都会在一定程度上被降解。有很多方法可以尝试提取并使用这种已制备好的样本组织进行测序，但序列质量总会受到影响。

对于小公司而言，该技术的成本也非常高昂——这类机器需要投入大量资金。同样，计算生物学家也变得越来越普遍，但他们并非无处不在，而且人人都想就职于最大、最好的公司，赚最多的钱。劳动力储备在增长，但仍然相对有限。

在某种程度上，希望从事序列分析工作的人没以前那么多了。大家都想创造下一个伟大的学习模式。重点不再是数字运算和数据分析，而是先进的人工智能和机器学习。人人都想从事新兴、热门且前途光明的技术——而序列分析不在此列。因此，这种情况很快将会成为一项挑战。

CAS：现在，是否的确需要计算生物学家来负责序列分析？

Jefferson：如果采用模板化的完善方法论，经过充分的开发、验证和文档记录，则无需计算生物学家。 不需要聘用特定人员来制定新方案。有很多现成的软件解决方案，适用于从所有不同的测序仪中采集数据输入。仅需载入数据，将其拖放到所需处理的管线图标，然后按下按钮。接下来就可以去喝杯咖啡、吃顿午饭，或者根据正在使用的仪器大小，可以先回家，等到早上回来时便可完成操作。无需聘请我这样的人来负责这类工作。任何精通技术的助理研究员都能操作。

但另一方面，如果使用的是尖端测序仪，并试图推导出一种未曾尝试的新型分析方法，那么便无法采用现成的解决方案。为此，需要了解生物学的有关人员，此人应了解数据输入、数据输出、数学和任何其他相关知识。为了结合所有这些内容，并将其融入某个非现成的新型解决方案中，便需要像“我”这样，或了解上述所有环节的专业人士。

CAS：您之前曾提到，现在人们希望在工作中运用人工智能和机器学习技术。这些技术能否对序列分析提供帮助？

Jefferson：有了精心策划的数据集，人工智能和机器学习技术无疑将大有帮助。 可以肯定的是，某些组织正在应用机器学习技术来使用文献并构建知识图谱，肯定会发挥作用。人工智能和机器学习是否能帮助完成序列组装？可能吧，但我不确定这是否操之过急了。

CAS：说到人工智能，您对 AlphaFold 有何看法？它可以对蛋白质结构进行人工智能预测。

Jefferson：我认为 AlphaFold 绝对会改变游戏规则。 它带来了通往结构的更快路径，可以比之前更快用于计算机辅助药物设计。不再需要 NMR 或晶体结构来设置起点。那它是否会和晶体结构一样好？可能不会。测量得出的真实信息始终优于模拟结果。但在时间层面，可以立即获得某些信息。它将带来一种前所未见的影响。我觉得，AlphaFold 的出现像是将石头扔进池塘，它产生了影响，但这只是正在形成的最初涟漪。

CAS：您认为药物发现领域的人工智能和机器学习技术有何发展前沿？

Jefferson：它具有空间性质，即下一代的单细胞。多组学。 其中引入了 DNA、RNA、蛋白质和代谢组学，并整合了上述所有领域。甚至将其与细胞途径和细胞间通讯相结合。不再局限于单细胞层面。该领域放眼于单个细胞及其旁边的细胞，再延伸到这类细胞周围的细胞；它们之间如何相互作用？这便是已经存在的发展方向。

CAS：您认为我们是否可以创造生物系统的模型？

Jefferson：如果在我读研究生的时候问这个问题，我会说人类没有能够描述生物系统的数学理论。 生物学是复杂的化学，化学是复杂的物理，而物理是复杂的数学。这是一切的基础。物理学是可以通过数学解决的问题，只需要大量数据即可，而化学在某种程度上也是如此。但生物学… 我曾经相信，无论是在过去还是将来，人们都没有能力对某个生物系统进行数学建模。

但现在，这可能是该学科必须要走的发展方向。为此是否需要量子计算机？或许吧？尽管可能发生在有生之年后，但我现在很确信：在某一时刻，人类将能够对生命系统进行精确、可靠的计算模拟。这番话让我略感焦虑。我知道在数字孪生领域仍有很多工作要做。尽管第一步应用场景受到限制，但数字孪生技术现在已经上线并用于临床试验。这就是它的开端。

CAS：那么，您认为推动这些新前沿向前发展需要什么？我们是否需要采用新的算法或框架？或者真的只是尝试把所有领域都结合在一起？

Jefferson：兼而有之——我们需要用新的方式来思考这一问题。 可以在应用旧算法的同时，采用新方法设计或实现新算法。对于表观基因组学、DNA 动力学或非编码 RNA 空间、外显子组与其他所有方面，这都不同于单纯的序列分析。这是一种不同的思考方式。它仍然是序列，但并不仅限于序列层面。不同的思考方式需要不同的工具。

CAS：如果可以挥动魔杖解决序列分析和药物发现方面的某个难题，您会解决什么问题？这将有何影响？

Jefferson：我会让所有数据都经过充分标注，并面向所有人公开。 所有来自公司、机构和大学的专有数据…涵盖方方面面。通过经过充分标注和文档化的统一存储平台，人人均可免费使用。这样便足够帮助我们解决大难题了。

杰斐逊在麻省理工学院开始了他的研究生涯，探索革兰氏阳性土壤细菌食醚红球菌中的外源代谢。当他面临着试图注释基因组以开发 DNA 微阵列的大量数据时，他进入了计算领域，从那时起他就一直致力于生物学、计算和数学的交叉领域。他的职业生涯经历过小型制药公司、大型制药公司和咨询组织，包括诺华和汤森路透。在此过程中，杰斐逊获得了宾夕法尼亚州立大学的应用统计学研究生证书和波士顿大学的计算机科学硕士学位。

‍

Gain new perspectives for faster progress directly to your inbox.

Subscribe to CAS Insights

药物发现过程中序列分析的挑战与机遇

药物发现过程中序列分析的挑战与机遇