12月11日,谷歌宣布发布最新大模型 Gemini 2.0,并推出基于此模型的AI智能体 Mariner。该智能体能够浏览电子表格、购物网站等,甚至在用户监督下代表用户采取行动。这一创新进一步推动了人工智能技术的实际应用。
Gemini 2.0:支持多模态输入与高级推理
Gemini 2.0 是谷歌最新推出的大语言模型,其首个实验版本 Gemini 2.0 Flash 支持多模态输入与输出,能够直接生成图文混合内容,以及通过多语言文本转语音(TTS)功能生成音频。新模型的强大功能还包括调用谷歌搜索、代码执行,以及运行用户定义的第三方函数。
谷歌CEO桑达尔·皮查伊(Sundar Pichai)表示:“Gemini 2.0 的高级推理能力使得解决复杂问题成为可能,例如高等数学方程、多模态查询和编程问题。这一技术的突破将加速通用人工智能助手的构建。”
AI智能体Mariner:Chrome浏览器中的行动助手
基于 Gemini 2.0,谷歌专门为 Chrome 浏览器开发了 AI 智能体 Mariner。Mariner 的核心功能是帮助用户浏览网页并在需要时采取行动。例如,用户可以让 Mariner 浏览购物网站,将商品加入虚拟购物车,随后由用户确认和完成购买。
谷歌项目经理杰克琳·孔泽尔曼(Jaclyn Konzelmann)解释,Mariner 的设计是“在用户参与的情况下”使用,以确保用户对最终决策有控制权。她补充道,虽然 Mariner 能够简化任务流程,但它仍处于实验阶段,并且可能犯错。“聊天机器人在生成文本时的错误可能被忽略,但当它试图操作网站并采取其他行动时,错误的影响将更加明显。”
目前,谷歌正与外部少数测试人员分享 Mariner,但尚未公布何时向公众发布。
谷歌的AI战略与挑战
除了 Mariner,谷歌还展示了新版数字助手 Project Astra,其功能包括对图像、文本和语音命令做出反应。这表明,谷歌正在通过一系列技术探索和产品,试图在未来的人工智能市场中占据主导地位。
然而,谷歌的战略也面临阻力。美国司法部要求联邦法官迫使谷歌出售或分拆 Chrome 浏览器,称其涉嫌非法垄断。作为谷歌 AI 战略的重要平台,Chrome 的未来发展可能对公司整体计划产生重大影响。
技术的潜力与限制
尽管 Gemini 2.0 和 Mariner 展现了人工智能技术的巨大潜力,但谷歌也承认这些工具尚未完全成熟。Mariner 的应用仍需用户监督,而类似技术在操作网站时的潜在错误需要进一步解决。
目前,AI 技术正在以惊人的速度发展,谷歌的最新尝试为未来智能化浏览器和通用AI助手的实现铺平了道路。随着技术的不断迭代,Mariner 和类似的AI工具可能成为日常生活中不可或缺的助手。