Gemini AI重磅更新:Android手机可自动叫车点外卖,多步骤任务自动化时代开启

在智能手机上,你是否厌倦了在不同应用间反复切换,只为完成一个简单的任务?现在,人工智能助手 (AI Assistant)正在尝试接管这一切。最新行业动态指出,谷歌旗下的Gemini AI近期获得了一系列关键更新,其中最引人注目的是一项名为“自动化任务”的测试功能。该功能允许用户通过语音或文字指令,让AI助手自动完成诸如呼叫网约车、预订外卖等多步骤操作,标志着个人任务自动化正从概念走向现实。

自动化任务:从指令到执行的跨越

这项尚处于测试阶段的功能,其核心在于理解用户的自然语言指令,并将其分解为一系列可在特定应用中执行的操作。例如,当用户说出“帮我叫一辆去机场的车”时,Gemini需要理解意图、定位用户、调用地图应用估算时间、最终在网约车应用中完成下单。市场消息显示,该功能初期将支持餐饮、生鲜杂货和出行等领域的精选应用。

然而,这项颇具野心的功能目前仍有诸多限制。熟悉内情的人士透露,其可用性被严格限定在特定区域(如美国和韩国)以及部分高端机型上。更重要的是,自动化任务 (Automated Tasks)的执行被置于一个安全的“虚拟窗口”中运行,这意味着AI只能访问被授权的有限应用,无法触及设备上的其他个人数据,这为隐私安全上了一道锁。

安全与可控:AI自动化的核心挑战

将现实世界的任务交给AI执行,最大的担忧莫过于安全和失控。为此,谷歌在设计中嵌入了多重防护机制:

  • 明确指令启动:任何自动化流程都必须由设备所有者通过明确指令触发,AI无法自主启动。
  • 实时进度监控:用户可以在一个专属界面中实时查看任务的每一步进展。
  • 随时中断权利:一旦发现AI执行有误或陷入循环,用户可以立即手动停止任务。

这些设计反映了当前AI代理(AI Agent)领域的一个普遍共识:在追求效率的同时,必须将人类的监督与控制权置于核心位置。毕竟,一个错误的外卖订单可能只是不便,但一个错误的金融操作则可能造成实际损失。

生态协同:防诈骗与视觉搜索的全面增强

此次更新并非只有任务自动化。谷歌同时强化了其AI在手机安全与交互方面的能力。其中,诈骗电话检测 (Scam Call Detection)功能正扩展到更多地区和机型。该功能利用设备端AI模型实时分析通话内容,在疑似诈骗通话时向用户发出警报。此外,基于同一模型的诈骗短信检测功能也已上线。

另一项重要更新是“圈选即搜”(Circle to Search)功能的升级。现在,用户不再仅限于搜索屏幕上的单个物体,而是可以一次性识别并搜索画面中的所有元素。例如,对一张街拍照片画个圈,AI就能分别识别出其中的服装、鞋包、配饰,并提供各自的购买或信息链接,极大提升了视觉搜索的效率和实用性。

行业背景与竞争格局

将AI作为个人生活助理进行深度整合,已成为科技巨头的必争之地。这不仅仅是语音助手的升级,而是迈向“情境感知计算” (Context-Aware Computing)的关键一步。此前,OpenAI的ChatGPT已允许用户创建定时任务或运行能操作电脑的AI代理;Anthropic也推出了面向非编程用户的日常任务自动化工具Claude Cowork。一个名为OpenClaw的AI工具甚至因能自动处理邮件、管理日历等复杂工作流而一度走红。

相比之下,苹果在AI功能的整合上显得更为谨慎,其备受期待的AI版Siri多次推迟发布。而谷歌则通过定期的操作系统更新和专为Pixel手机打造的“Pixel Drop”更新,持续向Android生态注入新的AI能力。这种快速迭代的策略,旨在巩固其在移动AI体验上的领先优势。

行业影响与未来展望

Gemini此次更新,其意义远不止于增加几个便捷功能。它预示着智能手机交互范式的又一次潜在变革:从“人操作应用”逐渐转向“人指挥AI,AI操作应用”。如果这项技术成熟并普及,将深刻改变应用开发、服务分发乃至数字广告的形态。

然而,挑战依然巨大。跨应用的任务自动化需要极高的意图理解准确性和操作可靠性,任何差错都会严重影响用户体验和信任。此外,如何平衡自动化带来的便利与用户隐私、数据安全之间的界限,将是所有参与者必须回答的伦理与法律考题。无论如何,AI正在从回答问题的“顾问”,转变为能动手做事的“代理”,这场静悄悄的革命,已经在我们口袋里的设备上拉开了序幕。

© 版权声明
通义千问广告 - 响应式版
通义千问大模型 免费资源包
7000万tokens 免费领!
额外赠送25%折扣卷
去官网领取优惠

相关文章

暂无评论

none
暂无评论...