谷歌让现实世界数据更易为AI所用——训练流程将因此受益

谷歌近日发布了“数据公地模型上下文协议(MCP)服务器”,旨在将其庞大的公共数据资源转化为人工智能的宝贵资产。这一举措使开发者、数据科学家和AI智能体能够通过自然语言访问真实世界统计数据,从而更好地训练AI系统。

数据公地:整合全球公共数据集

谷歌的数据公地项目始于2018年,该系统整合了来自政府调查、地方行政数据以及联合国等全球机构的各类公共数据集。随着MCP服务器的推出,开发者现在可以通过自然语言查询这些数据,并将其集成到AI智能体或应用程序中。

解决AI训练数据难题

当前AI系统通常使用未经筛选的网络数据进行训练,加之模型在缺乏可靠来源时倾向于“凭空捏造”,导致经常产生事实错误。因此,企业为特定场景微调AI模型时,往往需要大规模高质量数据集。谷歌通过公开MCP服务器,试图同时解决这两个核心挑战。

数据公地的新型MCP服务器在人口普查数据、气候统计等公共数据集与日益依赖准确结构化信息的AI系统之间建立了桥梁。通过自然语言提示即可访问这些可验证的真实世界信息,有助于提升AI输出的可靠性。

技术负责人的视角

谷歌数据公地负责人普雷姆·拉马斯瓦米在接受采访时表示:“模型上下文协议让我们能够利用大语言模型的智能,在恰当时间选择正确数据,而无需理解底层数据建模方式或API工作原理。”

MCP协议成为行业标准

MCP协议由Anthropic公司于去年11月首次提出,现已成为开放行业标准。该协议使AI系统能够从商业工具、内容库和应用开发环境等多样化来源获取数据,为理解上下文提示提供了通用框架。截至目前,OpenAI、微软和谷歌等企业均已采用该标准来实现AI模型与多源数据的集成。

当其他科技公司探索如何将这一标准应用于自身AI模型时,拉马斯瓦米及其团队今年初就开始研究如何通过该框架提升数据公地平台的易用性。

实际应用案例:ONE数据智能体

谷歌已与专注于改善非洲经济机会和公共健康的非营利组织“ONE Campaign”合作,推出了ONE数据智能体。这款AI工具利用MCP服务器,以通俗语言呈现数千万个金融和健康数据点。

据拉马斯瓦米透露,ONE Campaign团队曾带着在其自定义服务器上实现的MCP原型与谷歌接洽,这次交流成为关键转折点,促使团队在5月份专门开发了MCP服务器。

开放性与开发者支持

该服务器的开放性设计使其兼容所有大语言模型。谷歌为开发者提供了多种入门方式:可通过Colab笔记本中的智能体开发工具包(ADK)获取示例智能体;也可通过Gemini命令行接口或任何兼容MCP的客户端直接访问PyPI软件包;此外,GitHub代码库还提供了示例代码供参考。

© 版权声明

相关文章

暂无评论

none
暂无评论...