上海人工智能实验室OpenDataLab团队正式推出ScienceMetaBench科学文献元数据提取评测基准,该基准致力于构建公平、一致的评估体系,为学术界与工业界提供可复现、可对比的性能衡量依据,推动元数据提取技术的持续演进。数据集地址:https://huggingface.co/datasets/opendatalab/ScienceMetaBench评测工具代码(Dingo):https://github.com/MigoXLab/dingo据悉,ScienceMetaBench聚...
上海人工智能实验室 opendatalab 团队正式推出 sciencemetabench 科学文献元数据提取评测基准,该基准致力于构建公平、一致的评估体系,为学术界与工业界提供可复现、可对比的性能衡量依据,推动元数据提取技术的持续演进。
数据集地址:https://www./link/918d2d39616621eedbe76248d1e3abcb
评测工具代码 (Dingo):https://www./link/2ab507032a57dc82c268ea84eeecab35
据悉,ScienceMetaBench 聚焦于科学文献 PDF 中结构化元信息的精准识别与抽取能力评估,覆盖三大主流文档类型:学术论文(Paper)、教科书(Textbook)及电子书(Ebook)。在构建过程中,团队特别强化了对中英文双语场景的支持,从文本识别、字段解析到语义对齐均实现语种自适应,保障元数据提取结果与原文语言高度一致。
下图展示了从学术论文 PDF 首页中成功抽取的元数据字段实例:
需从论文首页准确提取以下核心字段:{
"sha256": "8d3e...f3a", // 文件级唯一哈希值,支撑数据溯源与版本管理`` "doi": "10.1186/s41038-017-0090-z", // 国际数字对象标识符`` "title": "Children are not little adults...", // 文献标题(保留原始大小写与标点)`` "author": "Tina L. Palmieri, ...", // 作者列表,统一采用英文逗号分隔格式`` "keyword": &q
uot;Blood transfusion, Pediatric", // 关键词集合,同样以英文逗号分隔`` "abstract": "Blood transfusion in burns larger than...", // 完整摘要文本(不含冗余符号或页眉页脚)`` "pub_time": "2017" // 标准化出版年份(仅保留四位数字)``}
为增强样本多样性与现实鲁棒性,研究团队融合多源异构PDF数据采集策略,并引入 K-Means 图像聚类方法对页面布局进行无监督分组,有效覆盖从紧凑单栏到复杂多栏、含图表/公式/多语言混排等典型困难案例。标注流程采用“大模型预标注 + 领域专家人工校验”的协同范式,并严格对标 OmniDocBench(MinerU 评测所采用的权威基准),确保标注规范性、字段完整性与评测维度的前沿性。
源码地址:点击下载
相关推荐:
360ai:智能引领未来,赋能数字化变革
AI撰写工具的无限可能,让内容创作更高效、更精彩!
ChatGPT4账号共享-让AI助力你的学习与工作,轻松提升效率,王者荣耀什么叫ai技术
SEO但是,这些常见误区你真的知道吗?,凤岗网站建设开发
用AI写的文章算原创吗?真相揭示,带你深度思考!
软件我在AI:改变未来的智能助手
企业app引流获客的四个有效方法
ChatGPT为什么访问不了了?了解背后的原因与解决方法,食管Ai
WP博客怎么利用免费插件实现自动发卡功能,ai 成都集团
AI写文章查重率高吗?揭秘人工智能写作的奥秘
撰写文章AI:释放写作潜能,创造无尽可能
怎么用AI生成一篇文章?高效创作指南全揭秘!
SEO抓取:让您的网站从零到一的秘诀,佛山网站建设哪家效果好
文章AI生成:让创作变得更简单、更高效!
ChatGPT为什么打不开了?揭秘背后的原因与解决办法,ai字体万圣节
SEO优化技巧如何提高网站排名,轻松打造高效SEO策略
用AI写一篇文章,如何提升你的写作效率与创意
如何分析一个网站的流量?从基础到进阶全解析,252369ai
未来对话的魅力ChatGPT3.5版本的强大功能与应用,ai写作报告生成器下载
AI论文生成免费:轻松应对论文写作,提升学术效率,ai创作校服
如何利用AI生成高质量文章,提升写作效率与创意?
ChatGPT免登录无限次数网页,畅享人工智能全新体验
网站运营该如何持续地提升网站权重来获取更多的流量?
AI写作免费一键生成下载,助您轻松创作!
SEO也成搜索引擎优化:开启数字营销新纪元
QQ群里的这个日赚500的赚钱方法,你知道吗?
ChatGPTO1Pro模型:开启AI新纪元,免费应用带来无尽可能,ai电销机人
ChatGPTDNS出问题?如何快速解决并保障网络畅通,ai排例
“ChatGPT不能使用的国家:为何这些地区无法体验人工智能的魅力?”,什么叫ai ai
文章AI指令提升写作效率的智能助手