您的位置:主页 > 公司动态 > 公司新闻 > 公司新闻
好的数据应该是怎样的?AI药物发现数据的5V准则
假如你信任机器学习在药物发现和开发方面具有巨大潜力,那就很难绕*的难题——数据。
关于AI药物研制,很多人都意识到数据的重要性,但更多的细节却很难谈起。
本篇文章,LabGenius的首席技能官Leo Wossnig测验用5V结构界说什么是好的数据,能够生成此类数据的技能库房,以及需求哪些思想办法、团队和文明来完结。期望能够对读者有一些启示。
“好”数据是什么样的?
“好的”数据有两个要害要求:数据的相关性,或许数据转化为临床效果的程度,以及数据的质量。
后者是一个广泛的术语,但实践上问题在于细节——数据搜集、存储、协议、再现性和标准化等不太抱负的作业。
但假如这项作业做得欠好,那么机器学习模型不会作业得特别好,最坏的状况或许会彻底损失数据完好性,然后导致丧命的效果。
探究性数据剖析以树立对数据的底子了解和严厉的模型验证关于机器学习、生物统计学和生物信息学建模至关重要。这些要素会影响模型的猜测精确性。
尽管不正确的统计剖析也会影响核算机办法的精确性或可靠性,但不精确的化学和生物数据依然是数据驱动的药物发现办法的中心问题。因而,削减数据生成进程中的噪声并进步一起性是生成高质量数据的要害方面。
但是,跟着化学、基因组和蛋白质数据集的增加,原始研讨中的一些进程(例如手动数据办理)已变得不切实践。由于数据预备和建模没有在整个职业中标准化,因而呈现了进一步的应战。
底层流程和作业流程的标准化程度较低,然后施加了更底子的约束。构建数据处理办法以对搜集的数据进行一起的办理和标准化是生成高质量数据的另一个重要部分。
但要了解怎么搜集高质量数据,就得了解什么是高质量的数据,而且界说它。作者开发一个结构来评价数据自身的质量,并引进 5 个要害特点来评价。
药物发现数据的5V准则
在处理用于练习药物发现中的机器学习模型的数据时,需求考虑5个特点。
药物发现数据的 5V界说如下:
1、正确的数据精确性:生成或可用数据的质量、完好性、精确性和一起性
2、正确的数据品种:数据的平衡程度怎么?它包含什么动态规模?咱们有哪些不同类型的数据可用?例如,关于蛋白质来说,这或许意味着练习数据中的高序列或结构多样性。
3、正确的数据量:可用于练习模型的数据量
4、正确的数据速度:用于剖析意图的数据生成、堆集和办理的速度有多快、本钱有多低?这会影响咱们验证或从头练习模型的简略程度
5、正确的数据价值:数据怎么转化为临床效果(一般与生物杂乱性相关)?
一般来说,数据精确性、多样性和数量是数据自身的质量,而速度有助于评价获取新数据的难易程度因而咱们要运用什么流程和办法。
假如公共范畴的数据很少,或许假如想运用依据自动学习的办法,那么后者特别重要。数据的精确性依据生物杂乱性及其与临床效果的相关性,这会影响数据读出的猜测有效性。
数据实在性
运用生物学相关功用测定生成的一起、精确、高质量、符号的数据在药物发现的许多范畴很少见,或许底子不存在。大型企业数据集一般没有用途,由于它们没有以一起的办法搜集或数字化。相同,来自 CRO 的数据或许不包含机器学习所需的 (ML) 相关操控和元数据。
假如公共数据现已存在,它一般包含很多噪音、重复和过错,这需求细心剖析、过滤、标准化和其他预处理进程才干运用。
图:来自不同活动标准化前(左)和标准化后(右)的依据细胞的测定中评价的两种不同对照分子的重复丈量数据。标准化能够显着改动图画。
相同重要的是,与传统药物发现数据比较,机器学习级数据要求不同且愈加严厉。即便丈量相同的化合物,不同试验室的读数也具有很大的可变性。这又是由于在不同条件下进行试验时会发生天壤之别的效果。
图:与化学数据比较,生物数据面对的应战
别的,公共数据还包含很多过错,但大多数机器学习或化学/生物信息学论文(底子假设是输入数据的正确性。但是,数据库中的过错率或许很高。研讨标明,均匀每个药物化学出版物有两个过错,导致某些数据库中的全体过错率高达 8%,数据过错会显着下降任何模型的猜测才能,而且在用于模型构建时需求特别当心。
图:在 ChEMBL 数据库中,研讨了大规模独立细胞毒性丈量的可比性在独立试验室丈量的堆叠复合细胞系体系中,能够观察到相关性较差。这部分是由于注释过错,指出了提取或堆集公共数据时数据办理的重要性。
为了保证这种状况,应该花费很多的精力和资源来相应地树立试验室流程和数据处理管道,这反过来又能够创立实在的数据。
数据多样性
一般来说,这个方面指的是正数据和负数据的可用性,以及整个数据集跨过的规模。文献中用于描绘大型且多样化的调集的通用术语是“代表性”。
“代表性”数据一般不存在,由于一般科学家挑选不将一切化合物进行试验测验或丢掉失利的数据。无论是经过模仿、机器学习仍是人类评价来确认优先级,一般的做法依然是只开展具有*猜测功用的分子,这意味着或许不会以最适合学习的办法挑选数据。
一切这些约束都会极大地约束模型的学习才能。缺少反例将约束猜测体现欠安的化合物的才能,而缺少动态规模将导致难以外推到感兴趣的区域并约束模型的适用规模。
数据多样性也或许导致更高的试验本钱。例如,环绕特定支架组成分子一般比探究各种随机结构更简略。但序列/结构、物理化学和功用视点的多样性都能够推动模型做出更好的全体猜测的才能。
除了某一方针的多样性之外,数据的“多样性”在各种剖析中也很重要。例如,丈量同一蛋白质的活化、挑选性、热稳定性、集合和产值关于推动项目向前开展至关重要。
为了对药物发现发生有意义的影响,咱们需求了解多维优化空间,并在咱们履行的剖析和捕获的数据中具有满足多的多样性。
数据量
当然,数量依然很重要。假如质量适宜,数据越多越好。练习机器学习模型所需的数据量或许差异很大。
例如,AlphaFold之所以成功,部分原因是它练习了 1971 年以来在 PDB 中搜集的约 100,000 个蛋白质结构的练习,而且数据清楚地包含了一切折叠(见 PDB 中的下图)。机器学习能够处理这个问题也就家常便饭了,由于问题空间已被全面掩盖。
图 :2018 年 8 月 1 日增加到 PDB 的一起折叠数量,运用 CATH 核算。显现了每年一起褶皱的总数(赤色)以及每年增加的新褶皱(蓝色)。材料来历:PDB
比较之下,猜测较小规模的抗体序列的结构则更具应战性。关于小型数据集,掩盖问题空间比较困难,传统的机器学习模型或包含很多先验信息的专用模型一般更好。关于更大的数据集,依据神经网络/深度学习的办法越来越好用。
图:PDB 中一切蛋白质(蓝色)、抗体(赤色)和黄色单域抗体(“VHH”)的晶体结构数量。材料来历:PDB
数据速度
获取高质量数据的速度和本钱关于生成大型数据集、运用自动学习和微调咱们的模型至关重要。更简略丈量的生物学数据一般获取也更快,但数据价值也下降了。
在两者之间找到正确的权衡一般取决于生物技能公司能够运用哪些办法以及他们怎么有效地推动其项目。与临床结尾高度相关的更高速度办法的立异能够在人工智能和机器学习年代带来底子优势。例如,自动学习需求快速的循环时刻和满足高的吞吐量来完结规划-构建-测验-学习循环并快速迭代化合物。
数据价值
尽管咱们能够操控数据的精确性、数量和多样性,但很难取得体内的杂乱数据。曩昔,经过简略的测定流程能够取得很多的数据,例如高通量亲和力挑选,但这些数据很少能够全面直观地反映药物在体内的体现。
因而,对优质数据的寻求不只包含更多、更好质量的数据,还包含对体内行为具有本质上更高猜测性的新颖信息和数据。这也首要包含几个方面。
情境化:有利于在尽或许最天然的环境中进行丈量的办法,或许更合理的是,在更类似于体内环境的环境中进行丈量的办法。例如,肿瘤微环境 (TME) 中的条件很难在 2D 乃至 3D 细胞培育物中重现。
功用性:直接评价活动而不是依靠退而求其次的办法。例如,抗体活动一般寻求高亲和力结合物,但文献中的许多其他比如能够显着看出,较低的亲和力关于所需的功用(如激活或挑选性)来说一般是满足的,乃至是必需的。
在这些状况下,更重要的是找到不只是强结合剂而且具有挑选性或具有其他医治价值特性的化合物。亲和力驱动的挑选性企图完结这一方针(拜见此处HER2 的布景)。
多标准:整合不同数据形式来揣度因果关系的办法,像TCGA这样的大规模方案供给了跨过临床、基因组、表达和成像形式的多样化数据搜集的*示例。
转化:认识到其固有局限性并尽力将转化相关性作为规划方针的办法,无论是体内药物活性仍是扩展的工业进程。杂乱的体外模型正在逐渐展现猜测才能。也就是说,还有很长的路要走,而且依然存在许多悬而未决的问题。
5V结构总结
数据资源一般需求专家进行广泛的办理和预处理,提取有价值的数据,并削减过错和噪音。
更应该考虑的是:生成有意义的数据,即与方针效果更相关的数据。
了解5V结构意味着人们能够积极地在本钱和生成速度/数据可用性、数据质量和可翻译性之间取得平衡。还能够运用这个结构来评价咱们的数据生成管道能够在哪里改善,以*极限地进步数据的质量和功效。
怎么取得杰出的数据?
在对所需数据的特点有了解的根底上,要点开端重视怎么处理数据,首要分为两个方面。
1. 机器学习驱动的药物发现的完好技能栈
所谓技能栈,是指某项作业或某个职位需求把握的一系列技能组合的总称。
一般来说,咱们需求区别用于练习程序内机器学习模型的数据(即仅用于特定程序的模型)和用于练习程序间机器学习模型的数据(即运用的模型跨多个程序)。
关于程序间模型,数据的条件性一般会导致进一步的杂乱性,由于程序和流程之间的差异使得数据标准化变得愈加困难。比如包含不同的适应症或疾病特异性细胞系,或不同的测定条件。
程序内模型数据标准化的进程和要求大大简化,但在实践中仍需求很多作业。关于更杂乱的生物学特别如此。
下面的金字塔捕获了构成药物发现中机器学习进程的完好栈。每一层都是必需的,任何一层中的过错或噪声都会下降机器学习数据剖析的终究功用。
图 :整个数据栈。较低层一般对药物发现方案的实践效果影响*。假如没有杰出的根底(即猜测剖析、数据生成、数据捕获和数据预处理进程),*的剖析也只能完结这么多。数据剖析和机器学习能够进一步细分为数据表明和机器学习模型。
在规划数据剖析或机器学习管道时,了解每一层并细心评价噪声、过错和不一起的来历非常重要。在评价技能栈生成的数据时,重要的是要认识到在每一层所做的任何更改都需求技能和科学团队之间的密切合作。确认哪些层对数据质量影响*关于保护库房的完好性至关重要,因而应继续进行评价。
下面列出了技能库房中的底子层,终究构成了一个完好的技能栈:
数据上下文和相关性:生成的数据的可用模型和上下文关于将生成的效果转化为有意义的(临床)效果非常重要。咱们能够优化模型并捕获额定的数据和元数据,以测验获取更多上下文。
数据生成:经过运用标准化流程、自动化和标准化(设备等)能够生成一起的数据。事务规矩、标准操作程序和自动化是要害。
数据捕获和存储:应自动捕获原始数据以及相关元数据,并依据公正数据标准以一起、安全的办法存储。抱负状况下,公司中的任何人都能够当即拜访它。数据和模型的版别操控和来历有助于保证正确的模型在正确的数据集上进行练习,并进步对过错和更改的恢复才能。
数据处理:原始数据的处理需求在整个公司进行标准化,并在恰当的状况下进行标准化(例如拟合曲线的 EC50 值)。自动化和事务规矩能够削减此阶段的可变性。
数据剖析和机器学习:只有当一切其他层就位后,才能够履行数据剖析和机器学习。这需求细心的数据办理和模型验证。特别是特征挑选、数据切割和相关功用方针的挑选在这里发挥着重要作用。
向数据驱动的生物技能公司转型需求在人员、流程和体系方面进行战略革新。以下是在技能方面的办法。
创立杰出的药物发现技能栈:
流程标准化:树立一起的流程,记录在 SOP 和事务规矩中,供整个安排运用。经过运用自动化和调度来*极限地削减手动进程。
自动数据捕获:开发管道和脚本来自动可靠地捕获、盯梢和版别数据和元数据。挑选能够与现有体系集成的仪器也很重要,现有体系一般需求适宜的驱动程序。
云和库房选用:运用 Google Cloud、AWS、Azure 等服务以及 Snowflake 和 BigQuery 等数据库房来安全存储原始数据和处理后的数据。这使得能够当即、全局地拜访数据。
施行模型和数据盯梢:运用 MLFlow、DVC 或 Google Vertex AI 管道等体系来盯梢模型、模型版别以及相关的数据和数据版别。
盯梢和办理生物变异性:树立质量操控流程,例如自动盯梢要害测定方针和异常值检测。树立流程,经过履行数据标准化来*极限地削减程序中的可变性。
试验室自动化:运用自动化/机器人试验室*极限地进步流程一起性,并在更新体系时履行用户试验室/用户检验测验。
用户友爱的体系:保证体系易于试验团队导航并能够支撑现代数据剖析办法。这或许需求结合定制和购买的处理方案。
数据可拜访性和交互:经过可视化和交互功用保证一切团队成员的数据可拜访性,并施行灵敏的办理体系来办理用户权限。
总结一下:咱们总是需求问自己一个问题:经过以较低精度猜测杂乱的特性或生物学,仍是以较高精度猜测更简略的生物学,咱们是否更有或许完结规划更好药物的方针?
一旦咱们做出了这个因项目而异的决议,咱们就能够以*办法优化整个技能栈(包含试验)的一切参数,以练习能够答复有意义的生物学问题的模型。
2. 支撑数据驱动办法的公司文明和团队安排
如前所述,公司文明和团队将在创立数据驱动型安排时发挥要害作用。
企业文明:
有远见的领导力:最高办理层应该说明成为数据驱动型安排的令人信服的愿景,并将这一愿景渗透到整个公司。这一愿景应该在各个层面上明晰一起地传达。例如,葛兰素史克(GSK)设立了高档副总裁兼人工智能和机器学习全球担任人,许多生物技能公司的团队中也设立了首席数据官。
以数据为中心的奖赏体系:施行奖赏体系,鼓舞数据质量、可拜访性和数据驱动的立异,而不只仅是短期里程碑。
数据素质:经过树立定时训练方案和研讨会来优先考虑数据素质。保证一切团队成员了解他们在数据价值链中的人物以及他们的奉献怎么影响安排的全体成功。
同享数据一切权:鼓舞数据同享一切权的感觉。为科学家供给易于拜访的东西,让他们自己履行简略的数据科学使命,并评价和更好地了解他们生成的数据和数据的质量。这培育了自动数据办理的文明。
重视端到端流程:促进对端到端数据流程的了解,而不是只重视单个技能。这有助于每个人认识到自己在更大布景下的人物的重要性。
一起职责和问责制:培育对短期和长时刻效果一起担任的文明。例如,机器学习在项目中的运用应该是数据科学家和湿试验室团队的一起职责。
继续学习:致力于职工的继续教育。分配时刻和资源用于新体系和技能的继续训练。这延伸到了数据科学家和机器学习专家,他们需求深化了解湿试验室流程和生成的数据。
安排结构:
跨功能团队:组成具有同享数据方针和职责的跨功能项目团队。这应该包含数据科学家作为药物发现项意图中心团队成员。
同一地址:只需有或许,将团队放在同一地址以促进自发的互动和协作。假如这不可行,请运用技能来坚持团队联络并促进频频交流。
标准化流程:在整个公司的一切团队中强制运用标准数据管道和体系。这种一起性有助于*极限地削减过错并促进更好的数据剖析。
一起的成功和失利:庆祝一起尽力的成功,并让一切团队成员对任何缺陷担任。这种办法能够培育联合感和一起许诺。
常识同享:促进不同团队和布景之间的常识同享。在定时会议中解说技能并交流需求,并在整个企业中随时供给资源和信息。项目团队应保存一切决议计划和进程的明晰文档,包含所运用的模型和数据。
产品团队:(即构建核算作业流程或剖析体系的任何团队)需求由科学或用户主导,但软件开发人员或数据科学家需求成为中心产品团队的一部分。一起界说产品标准并履行用户检验测验是构建有用东西的要害。
参阅链接:
上一篇:「辣妹风」能解救快时髦吗?
下一篇:AI大模型要革AI的命