当前位置: 首页 > 科技观察

数据架构对于推动AI和医学的未来至关重要

时间:2023-03-18 02:31:40 科技观察

COVID-19不仅强调了速度对医学发现的重要性,还强调了数据科学和AI帮助实现这种加速的重要性。例如,机器学习在医学上的应用近年来取得了重大进展,通过人工智能发现的药物分子已用于人体试验。尽管如此,英国艾伦图灵研究所最近发??布的一份调查报告显示,数据收集、使用、存储、处理以及与不同系统集成方面的困难(即缺乏强大的数据架构)阻碍了人工智能工具的采用。努力应对新冠疫情。为了充分发挥人工智能的潜力,企业需要组织他们的数据,尤其是医疗机构和制药商。数据越来越重要尽管许多医疗机构和制药厂商在药物和医学发现方面付出了巨大的努力,尤其是对于新型冠状病毒的研发,这是一个漫长、复杂且成本高昂的过程。且不说成功率低,据调查,药物研发的总体失败率高达96%。这就是数据可以发挥重要作用的地方,需要更新方法以提高药物开发的潜力,从而降低失败率。没有人类基因组数据,就不可能全面捕捉导致疾病的所有要素,从而获得更广泛、更深入的认识。这需要大规模的基因组测序来发现和验证关键的遗传变异。收集到的更多信息和见解使公司能够采取更明智的步骤来降低药物开发失败率。使用这些数据创建机器学习算法还可以自动化药物开发流程,加速药物发现。再如,QSAR(定量构效关系)模型可以提高新化学结构的预测准确性,并通过减少合成药物化合物的数量来降低成本和时间。预测分析还可以通过转移知识和结合从丰富的历史数据中学到的知识,用于药物开发和生产。然后,这些数据可用于发现新药并加快实验速度。人工智能已经在药物开发、发现和临床试验过程中发挥重要作用,使研究机构有机会通过现代数据和分析方法加速临床研究。数据挑战尽管取得了这些进步,但分析这些数据也面临着自身的挑战。现在有如此多的生物和医学数据,比以往任何时候都更难快速获得我们需要的见解。如果没有正确利用这些数据,这些数据将毫无意义。此外,基因组数据尤其需要大量存储、专门的软件来分析它,并引发许多数据管理、数据共享以及隐私和安全问题——记住这通常是高度敏感的私人信息很重要。研究机构和厂商面临的问题是,这些数据通常高度分散,使用传统架构很难支持对这么多不同数据的分析。仅仅找到用于分析的正确数据可能需要数周时间。生物技术开发商再生元当时面临这些问题,因此致力于解决处理性能和可扩展性问题。公司面临的问题是其数据团队没有分析PB级可用基因组和临床数据所需的资源;它无法充分利用自己收集的数据。虽然现在可以收集比以往更多的数据,但这些海量数据集仍有许多工作要做。数据架构的作用这就是数据湖屋可以发挥重要作用的地方。对于医疗保健组织而言,简化其基础设施和运营以提高生产力和成功至关重要。只有将数据全部集中在一个统一且易于访问的数据分析平台(例如Lakehouse)中,数据才能发挥其全部潜力。简化的Lakehouse基础设施可实现更高的可扩展性、自动化和大规模机器学习,以加速药物开发。统一平台还可以创建交互式工作区,以提高药物生命周期各个阶段的透明度和协作。可以在团队之间轻松共享数据和见解,同时确保可靠性和维护安全性以保护敏感数据。因此,为了更快地发现药物和治疗方法,需要加快整体药物靶点识别,开发团队同时跨多个疾病领域开展工作。另一方面,处理遗留架构和复杂的基础架构非常耗时,尤其是设置正确的基础架构并对其进行维护以支持必要的分析。这使得开发团队很难专注于分析。随着自动化程度的提高,例如在发生任何系统故障时自动切换集群管理等操作,团队可以减少在DevOps上花费的时间,并专注于更高价值的任务,即药物开发和发现新疗法。当Regeneron采用一个提供更强大数据架构的新平台时,找到合适的数据进行分析的时间从三周缩短到两天,有助于支持更广泛的研究。因此,数据架构是使数据可用并能够回答改进药物发现的问题的关键。除了实现临床可预测性和访问数据沿袭外,Lakehouse平台还允许研究人员利用可重复的、基于机器学习的系统来生成和验证假设,使他们能够更好地利用他们的时间和研究。有针对性的决定。发挥数据的潜力数据在医疗保健行业发挥着至关重要的作用,尤其是在药物和医学发现方面,但企业现在必须进一步推动这一点,以充分利用数据的潜力。没有强大的数据架构,药物发现等高失败率不会很快降低。借助可简化运营的集中式、可扩展平台,企业可以获得所需的见解并加速药物发现。整理数据只是第一步;下一步是建立必要的数据架构。