谷歌新AI工具杀疯了?免费,但有点坑!Gemini CLI 抢先实测


刚刚谷歌发布了一个很有意思的新产品 Gemini CLI,直接把 AI 塞进了终端里。

官方介绍,这个工具能:

  • 处理大型代码库(高达 100 万的 token 上下文)

  • 有多模态能力:能从 PDF 或草图生成新应用

  • 能自动化运维:帮你查询代码合并请求、处理复杂的代码合并

  • 集成了大量工具:支持连接 MCP 服务器,支持图像、视频、音频生成

  • 还有内置搜索等等

对标 Claude Code,现在还有免费使用额度、而且最好的是代码开源!

听起来就很香,也难怪 1 天的时间就 狂涨 2w star,火箭式涨星:

那这个工具到底是香水还是翔水呢?我来带大家体验一下。

注意,我不是专业的测评者,只是作为普通的程序员用户,说说我自己真实的使用感受。

⭐️ 推荐观看视频版:https://bilibili.com/video/BV1LuKdzjEAc

 

安装启动

按照官方提供的文档呢,我们要先安装 Node.js 前端运行环境,直接去 官网 安装就好了,注意版本要 >= 18。然后打开终端,输入一行命令全局安装工具就好:

npm install -g @google/gemini-cli

安装完成后,输入 gemini 命令,做一些基础的设置:

接下来是关键了,需要经过一波账号验证,个人用户选第一项就好。

这里大家可能会遇到 2 种验证失败的情况,第一种是网络原因(这个不好搞),第二种是说账号类型不符合要求,如图:

对于第二种情况,解决方案很简单,进入 Google Cloud 控制台,新建一个项目得到 project_id

然后在终端输入下列命令设置环境变量,重试就能登录进去了。

export GOOGLE_CLOUD_PROJECT=<你的 project_id>

登陆成功后,我们就可以折腾了~

 

体验一下

接下来我选了 8 个不同的场景来从多个方面验证它的能力,大家也可以感受下 Gemini CLI 的真实水平到底如何,大家说好才是真的好。

1、基础问答

输入提示词:

你好,请问你能做些什么?有什么优势?

结果没想到,一上来就报错了?而且各种胡言乱语,李在赣神魔?

过了一会儿,终于满屏飘红了,看报错的意思是我没开启 API 权限:

直接访问错误信息中的网址,就能去控制台开启 API 权限了,开一下开一下:

再来!这次 AI 的回复就对味儿了,他说自己是个AI软件工程师,确保操作的透明和安全。结果还可以,就是速度有点小慢啊,这么一个简单的问题花了 20 秒,这也是智能体的一个副作用吧。

 

2、网页搜索

输入提示词,让 AI 自动上网下载表情包:

请帮我获取 10 张健康的熊猫头表情包,并且下载到当前目录下

结果 AI 给我推荐了几个表情包网站,无法直接下载:

是不是不支持下载工具啊?

我们输入下 / 键,就可以看到 Gemini CLI 支持的命令:

进入查看工具列表,发现好像没有网页资源下载工具,也是难为 AI 了。但是它支持编写 Shell 脚本,所以我们不妨引导 AI 编写脚本来实现资源下载。

提示词:

请帮我获取 10 张健康的熊猫头表情包,并且下载到当前目录下,你可以通过编写可执行脚本来实现图片的下载

这次就可以看到智能体开始自主规划任务了,先创建了一个脚本,然后 “写文件” 操作需要我们确认,这里建议选择仅允许一次,安全一些:

遇到问题它会尝试 重新规划 然后重试,这也是智能体的一个关键能力:

任务执行完后还记得清理脚本,这个很不错。

好了,大功告成,我们看看下载好的文件,这个尺寸是认真的么?果然翻车了,下载的图片根本不对!

 

3、文件操作

输入下列提示词,让 AI 帮忙处理我本地的表情包文件:

帮我把所有的表情包尺寸放大 1 倍,并且转换为 WEBP 格式,然后将所有表情包组合在一起生成为 GIF

然后应该要指定文件路径吧,不然 AI 可能不知道要处理什么。

结果当我输入 @ 键指定文件路径时,好家伙,输入框直接卡死了?该说不说,这个交互体验不够好,我每次选择文件都会卡,而且选择不了目录。

经过一番折腾,我发现 得慢点选择,跟着程序列举出的目录树进行选择,就先选一个图片吧:

好,这次 AI 聪明了,问我是不是要处理多个文件,必须的:

然后 AI 发现无法处理图片,要下载一个图片处理工具,然后它说要利用 Mac 上的软件包管理工具来安装,同意即可:

经过漫长的等待,等了快 10 分钟竟然还没好?!

可能是我自己的网络原因吧,但我实在等不下去了。老实说测到这里,我心态都已经有点崩了,凌晨两点半隔这儿等软件安装?

不是,这玩意你写个简单的 Python 脚本不就搞定了?

感觉这个工具还是得给程序员用,要稍微加一些引导,比如我们让 AI 利用 Python 脚本实现任务:

帮我把所有的表情包尺寸放大 1 倍,并且转换为 WEBP 格式,然后将所有表情包组合在一起生成为 GIF,使用 Python 脚本实现

可以看到 AI 安装了图像处理库,然后创建了一个虚拟环境,你别说它对安全性的考虑还是 ok 的:

然后编写脚本并执行:

任务成功完成,看下效果:

尺寸确实放大了,格式也转换成功了,GIF 也成功生成了。终于顺利完成了一次任务,还不戳。通过这种方式处理本地图片确实是要比网页端的 AI 应用方便很多。

 

4、生成代码

输入下列提示词,让 AI 帮我做个像素摄影网站:

请帮我制作一个网站,能够调用摄像头进行拍照,并将照片转为像素风,支持下载,要求界面简洁炫酷

这次生成速度还是挺快的,就是过程中得多次进行人工确认:

我们来看下生成的网站效果:

可以调整像素的密度,还可以一键下载照片,效果还是挺不错的,这次任务 AI 也顺利完成了~

 

5、解释代码

给刚刚生成的项目补充一个学习指南,输入提示词:

帮我生成该项目的学习指南,帮助新开发者快速上手

由于 AI 有上下文,它直接 get 到了我想让他分析哪个项目,然后很快生成了一个项目文档。

然后我让 AI 帮我打开文档文件:

本来是想让 AI 直接打开 Markdown 阅读软件的,但没想到它直接给我输出了一堆无关的内容,我表示不理解。

那我自己打开好了吧,生成的文档内容还是过关的,标准的 GitHub 开源项目文档。

 

6、生成架构图

好,鉴于刚刚的任务完成得还可以,我们加大难度。让 AI 生成一个项目的分层架构图:

帮我针对当前项目,生成分层架构图

结果就有点乌龙了,AI 给我生成了一个架构设计文档:

你管这纯英文文档叫做架构图?

那我再发挥一下仅存的专业性,让他帮我生成架构图的绘图代码:

帮我针对当前项目,生成分层架构图的 draw.io 代码

这次看着靠谱多了:

来,我们把 AI 生成的架构图代码文件拖到 draw.io 中打开。

不是哥们?你管这叫架构图?

来,同样的任务,我们用 Cursor + Claude 4 试一试。

哎,你看人家 Claude 很有自信,说 “我可以为您生成一个更完整和详细的分层架构图”:

好,看下生成后的效果,是不是高下立判啊!

 

7、生成可视化图表

让 AI 帮我分析项目的提交记录,输入提示词:

根据当前项目的提交记录,生成可视化图表,便于我来分析项目的发展历程

可以看到 AI 使用 git log 命令查看代码提交记录,然后开始生成图表。

等等?图表在哪儿呢???

我的预期肯定是生成一个图片,或者起码是一个字符画,看着像图也行啊,有点为难他了。

 

8、多模态

等验证到多模态的时候已经是凌晨 3 点,我都已经麻了,唉,最后再坚持试试多模态吧。

输入生成图片提示词:

帮我基于当前目录下的图片,生成一个风格相似的新图片

这次 AI 干脆直接拒绝了,不支持图片创作,你倒是写个脚本啊?!你不用 AI,用个图像处理也行对不对?

那再解释个图片试试,输入解释图片提示词:

帮我解释当前目录下所有的图片

这倒是解释出来了,吐槽一下,竟然还是英文输出,可能跟程序本身的语言设定有关吧,体验没有那么好。

Gemini CLI 背后用的应该是 Gemini 2.5 Pro 模型,是具有原生多模态输入能力的,也就是说能识图,但是并不能创作图片,包括创作音频和视频应该都是通过第三方大模型(或者 MCP 工具实现的)。

最后再让他解释个 PDF 吧,输入提示词:

帮我总结 PDF 的内容,并生成一个新的 PDF

结果出乎我意料了,AI 提示输入超出了 token 限制?

不是号称 100 万 token 上下文么,怎么读个微型 PDF 就超出限制了呢?你无法生成 PDF 我都不觉得奇怪,我这个 PDF 文件就那几个字几张图,为什么?

本来还想让他生成音频和视频的,算了算了,我对这个工具已经有一些自己的判断了。

 

总结

最后总结一下吧,测试了 8 个维度后,我的感受是 “一言难尽”,可能是我对 Google 预期太高了吧。

不过说实话,我确实没有发挥到 100 万 tokens 上下文的威力,测试的都是短任务,因为在这个小黑框里去跑长任务,执行过程的浏览体验确实不够好。

那先说说优点,终端操作本地文件确实更方便,而且它可以直接一行命令安装,在已有的终端中使用,不用重新下载一个终端软件,这点还是不错的。

但是问题也很明显啊,首先 AI 智能体本身的效果咱就不多说了,大家也都看到了。抛去这个之外啊,非程序员使用它的门槛还是比较高的。终端的交互体验确实是不如网页和客户端的,很难看到思考过程,界面展示和交互效果也就那样。利用 AI 来生成一下终端命令我觉得很棒(比如 Wrap AI),但如果你非要在这个框里使用 AI 来生成内容,我觉得大可不必吧,至少我应该不会这么干。

现在各家都在卷 AI,卷的是什么?易用性、成本、效果。

像我平时生活中会用豆包或者元宝,非常方便,有问题直接语音就能输入;专门编程做项目的时候会用 Cursor + Claude 的组合。那你说 Gemini CLI 的应用场景在哪里?我总不能平时有问题的时候,第一时间打开终端来问吧?用它生成代码也不好直接编辑呀。可能对擅长 Linux 服务器操作的技术大佬还有点用,但是在公司服务器上用这个还是要注意安全性。

所以我觉得中规中矩吧,没有到网上铺天盖地吹嘘的那种程度,现阶段这玩意更适合尝鲜和学习,而不是作为日常提效工具来使用。不过虽然现在体验一般,考虑到 Google 的技术实力、还有开源免费的发展模式,我相信随着版本迭代,这工具也会越来越好的。而且对我们来说多一种工具的选择,总不是坏事。

大家觉得这个工具怎么样呢?欢迎评论区留言。感兴趣的同学也可以体验一下,看看是不是和我的感受相同,还是说有一些正确的使用方式和技巧,也欢迎评论区分享。学编程和 AI 的同学,记得关注鱼皮哦,下期见~

 

更多编程学习资源