读完一篇论文,不等于理解一篇论文。

能总结摘要,也不等于能回答围绕方法设计、实验结果和结论依据的具体问题。

科研场景里的论文阅读,通常不是只问“这篇文章讲了什么”。更常见的问题是:

RPC-Bench关注的正是这类能力:模型能否充分理解论文内容并给出可靠回答。不同于直接用大语言模型(LLM)从正文合成问题,RPC-Bench从真实review-rebuttal互动中构造QA。审稿人与作者围绕论文贡献、问题和证据链展开讨论,这些内容更贴近科研人员实际关心的论文理解问题。


论文: https://arxiv.org/abs/2601.14289

GitHub: https://github.com/zai-org/RPC-Bench

项目主页: https://rpc-bench.github.io/

HF dataset: https://huggingface.co/datasets/zai-org/RPC-Bench

RPC-Bench做了什么?

RPC-Bench是一个面向研究论文理解的问答基准,主要覆盖计算机科学论文,支持文本输入和PDF页面图像输入两种形式,可用于评测LLM、VLM、文档理解模型和RAG方法等。

从数据规模看,RPC-Bench最终包含4150篇论文和61.3K个QA。其中开发集和测试集经过人工验证,用于更稳定地评估模型表现;训练集则作为补充数据,供研究人员根据具体实验目标选择使用。


RPC-Bench的论文主要来自OpenReview,因此领域分布以AI和计算机科学子领域为主,包括ML Theory、CV、NLP、RL、Optimization、Generative Models等方向。


相比已有研究论文/文档问答基准,RPC-Bench的特点在于:真实review-rebuttal来源、内容导向的细粒度taxonomy、多维度回答质量评估,并同时支持文本与页面图像输入。


RPC-Bench是怎么构建的?


RPC-Bench的构建流程包括四个环节:

    1. 数据收集与筛选 :从OpenReview收集2013-2024年的论文、review、rebuttal和元数据,并结合AMiner引用信息进行质量筛选和影响力感知采样。

    2. 拆解审稿互动 :使用GPT-4o将长review/rebuttal拆分为更小的comment-response单元,使每个单元尽量聚焦一个问题或澄清点。

    3. 改写为标准QA :使用GLM-4-Plus和DeepSeek-V3将comment-response单元改写为可独立理解的问题与答案,并分配taxonomy标签。

    4. 过滤与人工复核 :过滤编辑性问题、外部资源依赖和空泛承诺;开发集和测试集进一步人工复核,确保问题可回答、答案有依据、分类合理。

这种LLM-human collaborative annotation的设计,一方面利用模型降低大规模构建成本,另一方面通过人工复核控制开发集和测试集质量。

论文理解被拆成哪些能力?

RPC-Bench设计了一个对齐科学研究流程的细粒度taxonomy,用于考察模型在学术语境中回答what、how、why问题的能力:从理解概念与背景,到理解方法和实验如何运作,再到解释设计动机、结果原因和结论依据。


这套分类大致对应科研阅读中的几类核心能力:

这样的设计让RPC-Bench不只评估摘要或事实定位能力,而是把“读懂论文”拆成可观察、可诊断的多个能力维度。

怎么评测:不只看答案像不像

开放式论文问答中,答案和参考答案“长得像”不一定代表答得对。因此,RPC-Bench没有只依赖ROUGE、BERTScore等表面相似度指标,而是采用LLM-as-a-Judge的方式,从三个维度评估开放式回答:

论文进一步用correctness和completeness的调和均值得到F1-like,再结合conciseness得到Informativeness。对于Claim Verification,则使用accuracy进行评价。


这套指标的出发点比较直接:科研问答既不能答错,也不能漏答,还不能用大量无关内容掩盖关键信息。

在评估配置上,论文通过人工一致性实验校准LLM-as-a-Judge设置,最终采用加入标题和摘要、分维度评估、decimal scoring的配置,并选择GPT-5与Gemini-3-Pro作为主实验的评估模型组合。



实验结果说明了什么?

论文评测了28个模型,包括LLM、Document-Centric Model、VLM和RAG方法:



从这些结果中,可以观察到:

论文还通过case study总结了常见失败模式,包括退化重复输出、多模态证据利用不足、错误否认论文中已有信息,以及True/False等精确输出格式不合规。


当然,RPC-Bench也有清晰边界。它当前主要覆盖计算机科学领域,数据来自OpenReview,任务重点是单篇论文理解。跨论文综述、跨领域迁移、多轮科研讨论、真实代码复现和实验验证等能力,还需要进一步的评测设计。