新项目让维基百科数据更易于AI获取
周三,德国维基媒体协会宣布推出全新数据库,旨在让人工智能模型更便捷地获取维基百科庞大的知识资源。
项目核心:语义检索与协议支持
这项名为“维基数据嵌入计划”的系统,对维基百科及其姊妹平台现有的近1.2亿条数据实施了基于向量的语义检索技术。该技术能帮助计算机理解词汇含义与关联。结合最新支持的模型上下文协议——一项促进AI系统与数据源交互的标准——该项目使大型语言模型能够通过自然语言查询更高效地调用这些数据。
协作开发与技术突破
该项目由维基媒体德国分会联合神经搜索公司Jina.AI与IBM旗下实时训练数据公司DataStax共同开发。尽管维基数据多年来持续提供机器可读数据,但原有工具仅支持关键词检索和专用查询语言SPARQL。新系统将显著优化检索增强生成架构的兼容性,使AI模型能够调用外部信息,让开发者有机会基于经维基百科编辑核验的知识构建模型。
智能语义解析实例
该数据库通过结构化设计提供关键语义语境。例如当查询“科学家”时,系统不仅会列出著名核物理学家和贝尔实验室研究人员,还会提供该词汇的多语言翻译、经维基认证的科学家工作图像,并自动关联“研究员”“学者”等相关概念。
数据开放与开发者支持
数据库已在Toolforge平台公开访问。维基数据将于10月9日为开发者举办专题线上研讨会。
行业背景:高质量数据争夺战
此项创新正值AI开发者争相寻找优质训练数据之际。现代训练系统已发展为复杂训练环境而非简单数据集,但仍需精心筛选的数据支撑。对精度要求高的应用场景中,可靠数据需求尤为迫切。尽管有人轻视维基百科,但其数据相比Common Crawl等网络抓取合集更具事实导向性。
版权争议与项目理念
追求高质量数据可能使AI实验室付出沉重代价:八月 Anthropic 公司为和解作品侵权诉讼,承诺支付15亿美元。维基数据AI项目经理菲利普·萨阿德特别强调该项目独立于大型AI实验室与科技巨头:“本次发布证明,强大AI不必由少数企业掌控,它可以保持开放、协作,为全人类服务。”