AI模型评测新范式:由被评公司资助的“防作弊”排行榜,能否重塑行业公信力? 在人工智能模型性能竞赛白热化的今天,一个由被评测公司自身出资支持的独立排行榜正悄然兴起,并宣称其核心优势在于“无法被操纵”。这一模式试图在商业利益与评测公正性之间,走出一条前所未有的新路径。 核心看点... Ai新闻# AI伦理# AI模型评测# 基准测试 1个月前0220
AI行业裁判员诞生记:博士团队如何打造价值170亿的模型竞技场 当全球科技巨头在人工智能大模型(Large Language Models, LLMs)的赛道上疯狂竞速时,一个根本性问题浮出水面:究竟谁有资格为这些动辄千亿参数的‘数字大脑’打分排名?市场消息显示... Ai新闻# AI初创公司# AI大模型# Arena 1个月前090
AI法律能力突飞猛进:最新基准测试显示,智能体解决专业任务能力数月内飙升60% 法律行业的AI替代焦虑正在被重新点燃。最新行业动态指出,在衡量人工智能代理(AI Agents)执行法律、公司分析等专业任务能力的权威基准测试中,顶尖模型的得分在短短几个月内实现了近60%的惊人跃升... Ai新闻# AI会取代律师吗# AI智能体# AI法律 3个月前0480
AI智能体职场首秀翻车?新基准测试揭示白领工作自动化仍存巨大鸿沟 当业界普遍期待人工智能(AI)智能体(AI Agents)即将接管律师、投行分析师和咨询顾问的办公桌时,一项最新的权威基准测试却泼了一盆冷水。测试结果显示,即便是目前最顶尖的大语言模型(LLM),在面... Ai新闻# AI智能体# AI替代工作# APEX-Agents 3个月前0280