对于科学研究和产业研发来说,文献的深度阅读和分析是一项关键但耗时的任务。
深圳科技推出的Uni-Finder正在改变这一现状。
这一革命性的智能文献数据库平台不仅提供高效的多模态检索功能,还通过先进的自然语言交互技术灵活提取关键数据,极大优化了科学文献的理解和分析过程。
大型多模态科学文档模型就在这里。
在科学研究活动中,阅读和分析科学文献是至关重要但极其耗时的步骤。
以药物研发为例,研究人员需要阅读大量文献来分析特定靶点的关键作用领域、收集活性小分子的数据等。
这个过程虽然很关键,但往往需要大量的时间和人力资源。
传统的科学文献数据库,如SciFinder,虽然提供了搜索功能,但仍然迫使研究人员手动筛选和阅读大量文献。
此外,虽然像ChatGPT这样的大规模语言模型在处理自然语言方面表现良好,但在面对包含分子结构图和化学反应方程等多模态元素的科学文档时,它们会失败。
针对这一挑战,深圳科技推出了革命性的智能科学文献数据库平台Uni-Finder,旨在进一步提高科学文献阅读和分析的效率。
该平台不仅具备传统数据库(如SciFinder)的多模态检索功能,还可以通过自然语言交互从筛选结果中灵活自动提取所需信息,如多个专利或特定靶点的常见中间体等。
相关小分子活性数据。
此外,Uni-Finder 由于对科学多模态元素的精确理解,在科学文献的内容理解和问答方面也优于其他大型语言模型。
Uni-Finder的核心技术是深圳科技自主研发的大科学多模态模型Uni-SMT(Universal Science Multimodal Transformer)。
与之前仅关注纯文本的大规模语言模型不同,Uni-SMT综合考虑了科学文献中的多模态元素,例如图表、数学方程、分子结构表示和化学反应方程。
它利用多模态对齐技术来实现对科学文献更全面、更精确的理解。
例如,对于某些专利,Uni-SMT通过多模态比对技术,同时理解马库什公式(带有可变基团的化学式)和文本中对可变基团的描述,从而能够准确地识别和解析该专利。
保护范围。
多模态能力评估为了评估Uni-Finder在理解多模态元素方面的表现,我们将其与目前市场上流行的基于大语言模型的文献分析工具进行了横向比较。
比较的工具包括 ChatPDF、Claude 和 GPT-4。
我们的审查重点关注几个关键能力:分子结构图的识别、整合多模态信息的文献理解以及确定特定分子是否受到专利中马库什结构的保护。
从下表的评估结果可以看出(具体见后续截图),Uni-Finder 在处理和理解这些多模态元素方面表现良好,而其他基于传统大语言模型的工具大多无法准确理解这些多模态元素元素。
产品使用场景:辅助药物研发随着信息时代文献数量的增加,科研人员花费大量时间阅读和分析文献,影响了他们专注于核心研究的时间。
Uni-Finder应运而生,融合了先进的多模态文档理解和灵活的自然语言处理技术,大大提高了文档检索和分析的效率。
借助Uni-Finder,研究人员可以更高效地处理科学文档,节省宝贵的时间,专注于解决科学研究问题。
在模拟药物研发场景中,我们展示了Uni-Finder如何有效提高研究效率。
当研究人员关注SOS1靶点时,可以通过Uni-Finder查询SOS1相关疾病和结直肠肿瘤的信息。
这为他们提供了关键的科学知识,为后续的研发工作奠定了坚实的基础。
研究人员还可以使用 Uni-Finder 的高级搜索功能进行更深入的研究。
选择“SOS1”目标标签后,Uni-Finder快速显示相关专利,证明了其在精准检索和信息筛选方面的卓越性能。
接下来,研究人员对市场和科研趋势进行了全面分析。
他们审视了SOS1靶标近10年的专利动向,深入洞察市场动态和竞争环境,协助制定研发策略。
通过Uni-Finder的跨文档分析,例如骨架聚类,他们了解了该领域的最新进展和创新方向,为新药的设计和开发提供科学指导。
最后,研究人员可以深入研究特定专利。
他们可以轻松查看受保护的分子结构、提取高度活跃的示例并详细查看特定示例信息。
值得注意的是,通过上传分子结构图并与 Uni-Finder 进行互动对话,研究人员可以准确确定当前专利是否涵盖特定分子。
这一系列复杂的分析凸显了 Uni-Finder 在药物发现方面的强大实用性。
试用申请 一位药物研发领域的内测用户在试用两周后表示:“Uni-Finder基于便捷的对话交互,可以在不超过10秒的时间内准确提供专利实施例中使用的信息。
共享中间体,或者是最活跃的体现的数量和结构;在一些复杂的专利和文献研究任务中,Uni-Finder在几分钟内提供的信息甚至可以媲美两个博士生一周的工作结果”。
Uni-Finder 现已开放进行更大规模的测试。
如果您对Uni-Finder感兴趣,请扫描下方二维码申请试用。