HuggingFace近日发布了两个大规模开源数据集:FinePDFs和FineVision,分别针对语言模型与视觉-语言模型的训练需求,旨在大幅提升开源模型的性能表现。https://huggingface.co/datasets/HuggingFaceFW/finepdfshttps://huggingface.co/datasets/HuggingFaceM4/FineVisionFinePDFs是当前规模最大的公开PDF语料库,完全基于PDF文档构建,涵盖约3万亿token...
hugging face 近日发布了两个大规模开源数据集:finepdfs 和 finevision,分别针对语言模型与视觉-语言模型的训练需求,旨在大幅提升开源模型的性能表现。
https://www./link/6750c0194a5f9ae7194a0ae154b64959
https://www./link/a007685ecc0ccf820b8ac1d6e77f69fd
FinePDFs 是当前规模最大的公开 PDF 语料库,完全基于

PDF 文档构建,涵盖约 3 万亿 tokens,来自 4.75 亿份文件,支持 1733 种语言,总数据量达 3.65TB。
该数据集源自 105 个 CommonCrawl 快照(时间跨度为 2013 年夏季至 2025 年 2 月),经过 datatrove 工具链进行去重、内容过滤及个人身份信息(PII)匿名化处理,并采用 ODC-By 1.0 开放许可证发布。其文档平均长度接近传统 HTML 数据集的两倍,且包含大量超过 10 万字符的长文本样本,特别适合用于增强开源大语言模型的长上下文理解能力。
数据集已按语言和书写系统分类整理,其中 978 种语言包含超过 100 万 tokens,66 种语言达到或超过 10 亿 tokens。
FineVision 则专为视觉-语言模型(VLM)训练打造,融合了来自 200 多个不同来源的数据,包含 1730 万张图像、2430 万个训练样本、8890 万轮多轮对话以及高达 95 亿 tokens 的回答内容,能够支持如 GUI 导航、目标指向、对象计数等新兴能力的训练。
据官方介绍,在 10 项主流基准测试中,使用 FineVision 训练的模型平均性能提升超过 20%,显著增强开源视觉-语言模型的表现。所有数据已转换为 Parquet 格式,总容量约为 4.48TB,支持高效的流式加载,便于大规模分布式训练。
相关推荐:
AI免费生成文章的软件:轻松创作的秘密武器
Bing搜索的注意事项-提高搜索效率与准确性,轻松获取所需信息,图标ai模式
ChatGPT打不开网页?看完这篇你就懂了!,魔法帝AI
ChatGPT怎么打开不了?全方位解决方案!,Wu Ai Ming
SEO妍:搜索引擎优化的艺术,轻松打造网络营销新未来,辽宁网站建设贵不贵
OpenAI官网入口:迈向智能未来的第一步,ai写作文网站推荐知乎
新手怎么在家做网络淘金赚钱?
SEO优化的是什么?揭开SEO背后的神秘面纱
SEO大量优化:如何通过精准策略提升网站流量,突破搜索引擎排名瓶颈,吕梁本地网站推广平台
怎么用AI润色文章,让你的文稿瞬间高大上
AI公众号文章生成,轻松打造爆款内容
SEO刷:让你的网站一夜之间登顶搜索引擎!,独特seo技巧
ChatGPT怎么有梯子?突破网络限制,轻松畅享AI智能,ai剪辑踩点
AI写作,每个人生成的一样吗?
如何分辨是否是AI文章:揭秘人工智能写作的秘密,军用ai 小白
ChatGPT显示“此网站无法加载站点”:背后原因与解决办法详解,ai文字竖排英文
SEO任何:如何通过精准优化让网站流量突破极限,太原网站建设培训班
SEO优化如何收费?深入解析SEO优化定价与收费模式
如何衡量cpm、cpc、广告的实际投放效果?
ChatGPT中文官网引领智能对话新时代,吃鸡ai训练赛匹配
ChatGPT和AI的区别:深度剖析人工智能背后的秘密,ai功能评测
ChatGPT故障:科技背后的秘密与应对策略,智能ai糖果
未来:AI创造软件如何改变世界
AI生成的文章是原创吗?揭示背后的真相与未来趋势,延边州智能ai论文写作
SEO和SEM课程毕业,开启你的数字营销职业新篇章,海马轻帆ai写作小说
ChatGPT您的应用遇到问题,无法正常启动?如何解决并重新体验智能助手的魅力!,ai饕餮
SEO为什么是现代企业成功的关键?揭秘SEO的影响力
SEO就是:让你的品牌脱颖而出,获得更多曝光与流量,梅岭关键词排名优化
AI写作技巧,让创作事半功倍!
SEO字:如何通过精准关键词提升网站流量与排名,赣州于都网站推广