4月8日消息,近日,智源研究院联合高校与开源社区共同研发的DeepXiv项目现已开源并免费开放使用。据悉,该项目是专为智能体设计的科技文献基础设施,旨在将论文搜索、渐进式阅读、热点追踪和深度调研转化为可调用、可编排的能力。

据介绍,DeepXiv能将让开放科技文献从"人类可读"升级为"智能体可用",原生支持JSON和Markdown,使智能体可直接获取标题、作者、摘要、参考文献等元信息。同时,DeepXiv提供面向智能体优化的数据组织方式,如在预览(Preview)层面,DeepXiv 先快速获取论文核心信息,低成本判断相关性;再通过分块(Chunking)功能按结构或语义切分论文内容,支持论文局部精读;在整体阅读过程中,DeepXiv 还会实现渐进披露(Progressive Disclosure):先看少量、再按需展开。

据悉,DeepXiv目前已覆盖全量ArXiv数据,并保持每日增量更新。同时该项目正扩展至包括 PubMed Central (PMC)、ACM、bioRxiv / medRxiv / ChemRxiv 等各类 *Rxiv,以及 Semantic Scholar,等更多开放文献源,计划建立覆盖超过2亿篇开放科技文献的统一智能体接入层。

在功能集成方面,DeepXiv基于专属搜索引擎提供问答、信息提取及热点追踪等技能,其内置的深度调研Agent可串联搜索、筛选与归纳整理等环节。


此外,不止于把论文"搜出来",DeepXiv 进一步打造了更丰富的技能:在问答能力层面,DeepXiv 可围绕文献直接完成信息提取与理解,例如:"论文的核心贡献是什么?""实验设置和对比基线是什么?",实现对文献的深入理解;同时DeepXiv 还可实现热点追踪,了解每天 / 每周 / 每月关于某一主题的热点论文有哪些?;在面向复杂问题时,DeepXiv 还将开展深入研究,例如:"过去三年关于 Agent Memory 的代表性工作有哪些?""多模态检索增强在金融场景中的公开基准及数据集有哪些?"

据了解,DeepXiv提供多种接入形态以满足不同需求。其中,CLI(命令行界面)为核心形态,智能体可通过编排脚本实现工作流;同时提供MCP接入能力,支持嵌入各类智能体开发框架;此外,还为开发者提供Python SDK,用于定制化科研智能体的集成。同时,基于 deepxiv,开发者可以非常快速地封装出一批面向具体科研任务的定制化 Skills。这意味着,DeepXiv 不只是提供一个"可调用的工具",而是在为日常科研工作流提供一层可快速复用、可持续扩展的能力底座。(袁宁)