欢迎光临,我们是一家专注中小型企业营销推广服务的公司!

咨询热线:400 9868 577
淮南兰乔电子商务有限公司
新闻中心News
淮南兰乔电子商务有限公司

ScienceMetaBench 开源:科学文献元数据提取评测基准

作者:心靈之曲 | 点击: | 来源:心靈之曲
2301
2026
上海人工智能实验室OpenDataLab团队正式推出ScienceMetaBench科学文献元数据提取评测基准,该基准致力于构建公平、一致的评估体系,为学术界与工业界提供可复现、可对比的性能衡量依据,推动元数据提取技术的持续演进。数据集地址:https://huggingface.co/datasets/opendatalab/ScienceMetaBench评测工具代码(Dingo):https://github.com/MigoXLab/dingo据悉,ScienceMetaBench聚...

上海人工智能实验室 opendatalab 团队正式推出 sciencemetabench 科学文献元数据提取评测基准,该基准致力于构建公平、一致的评估体系,为学术界与工业界提供可复现、可对比的性能衡量依据,推动元数据提取技术的持续演进。

数据集地址:https://www./link/918d2d39616621eedbe76248d1e3abcb
评测工具代码 (Dingo):https://www./link/2ab507032a57dc82c268ea84eeecab35

据悉,ScienceMetaBench 聚焦于科学文献 PDF 中结构化元信息的精准识别与抽取能力评估,覆盖三大主流文档类型:学术论文(Paper)、教科书(Textbook)及电子书(Ebook)。在构建过程中,团队特别强化了对中英文双语场景的支持,从文本识别、字段解析到语义对齐均实现语种自适应,保障元数据提取结果与原文语言高度一致。

下图展示了从学术论文 PDF 首页中成功抽取的元数据字段实例:

需从论文首页准确提取以下核心字段:{

  "sha256": "8d3e...f3a", // 文件级唯一哈希值,支撑数据溯源与版本管理``  "doi": "10.1186/s41038-017-0090-z", // 国际数字对象标识符``  "title": "Children are not little adults...", // 文献标题(保留原始大小写与标点)``  "author": "Tina L. Palmieri, ...", // 作者列表,统一采用英文逗号分隔格式``  "keyword": &q

uot;Blood transfusion, Pediatric", // 关键词集合,同样以英文逗号分隔``  "abstract": "Blood transfusion in burns larger than...", // 完整摘要文本(不含冗余符号或页眉页脚)``  "pub_time": "2017" // 标准化出版年份(仅保留四位数字)``}

为增强样本多样性与现实鲁棒性,研究团队融合多源异构PDF数据采集策略,并引入 K-Means 图像聚类方法对页面布局进行无监督分组,有效覆盖从紧凑单栏到复杂多栏、含图表/公式/多语言混排等典型困难案例。标注流程采用“大模型预标注 + 领域专家人工校验”的协同范式,并严格对标 OmniDocBench(MinerU 评测所采用的权威基准),确保标注规范性、字段完整性与评测维度的前沿性。

源码地址:点击下载

相关推荐
我要咨询做网站
成功案例
建站流程
  • 网站需
    求分析
  • 网站策
    划方案
  • 页面风
    格设计
  • 程序设
    计研发
  • 资料录
    入优化
  • 确认交
    付使用
  • 后续跟
    踪服务
  • 400 9868 577
    info#ilanqiao.cn
Hi,Are you ready?
准备好开始了吗?
那就与我们取得联系吧

咨询送礼现在提交,将获得兰乔电子商务策划专家免费为您制作
价值5880元《全网营销方案+优化视频教程》一份!
下单送礼感恩七周年,新老用户下单即送创业型空间+域名等大礼
24小时免费咨询热线400 9868 577
合作意向表
您需要的服务
您最关注的地方
预算

直接咨询