
刚刚谷歌发布了一个很有意思的新产品 Gemini CLI,直接把 AI 塞进了终端里。
据 官方介绍,这个工具能:
-
处理大型代码库(高达 100 万的 token 上下文)
-
有多模态能力:能从 PDF 或草图生成新应用
-
能自动化运维:帮你查询代码合并请求、处理复杂的代码合并
-
集成了大量工具:支持连接 MCP 服务器,支持图像、视频、音频生成
-
还有内置搜索等等
对标 Claude Code,现在还有免费使用额度、而且最好的是代码开源!
听起来就很香,也难怪 1 天的时间就 狂涨 2w star,火箭式涨星:
那这个工具到底是香水还是翔水呢?我来带大家体验一下。
注意,我不是专业的测评者,只是作为普通的程序员用户,说说我自己真实的使用感受。
⭐️ 推荐观看视频版:https://bilibili.com/video/BV1LuKdzjEAc
安装启动
按照官方提供的文档呢,我们要先安装 Node.js 前端运行环境,直接去 官网 安装就好了,注意版本要 >= 18。然后打开终端,输入一行命令全局安装工具就好:
npm install -g @google/gemini-cli
安装完成后,输入 gemini 命令,做一些基础的设置:
接下来是关键了,需要经过一波账号验证,个人用户选第一项就好。
这里大家可能会遇到 2 种验证失败的情况,第一种是网络原因(这个不好搞),第二种是说账号类型不符合要求,如图:
对于第二种情况,解决方案很简单,进入 Google Cloud 控制台,新建一个项目得到 project_id:
然后在终端输入下列命令设置环境变量,重试就能登录进去了。
export GOOGLE_CLOUD_PROJECT=<你的 project_id>
登陆成功后,我们就可以折腾了~
体验一下
接下来我选了 8 个不同的场景来从多个方面验证它的能力,大家也可以感受下 Gemini CLI 的真实水平到底如何,大家说好才是真的好。
1、基础问答
输入提示词:
你好,请问你能做些什么?有什么优势?
结果没想到,一上来就报错了?而且各种胡言乱语,李在赣神魔?
过了一会儿,终于满屏飘红了,看报错的意思是我没开启 API 权限:
直接访问错误信息中的网址,就能去控制台开启 API 权限了,开一下开一下:
再来!这次 AI 的回复就对味儿了,他说自己是个AI软件工程师,确保操作的透明和安全。结果还可以,就是速度有点小慢啊,这么一个简单的问题花了 20 秒,这也是智能体的一个副作用吧。
2、网页搜索
输入提示词,让 AI 自动上网下载表情包:
请帮我获取 10 张健康的熊猫头表情包,并且下载到当前目录下
结果 AI 给我推荐了几个表情包网站,无法直接下载:
是不是不支持下载工具啊?
我们输入下 / 键,就可以看到 Gemini CLI 支持的命令:
进入查看工具列表,发现好像没有网页资源下载工具,也是难为 AI 了。但是它支持编写 Shell 脚本,所以我们不妨引导 AI 编写脚本来实现资源下载。
提示词:
请帮我获取 10 张健康的熊猫头表情包,并且下载到当前目录下,你可以通过编写可执行脚本来实现图片的下载
这次就可以看到智能体开始自主规划任务了,先创建了一个脚本,然后 “写文件” 操作需要我们确认,这里建议选择仅允许一次,安全一些:
遇到问题它会尝试 重新规划 然后重试,这也是智能体的一个关键能力:
任务执行完后还记得清理脚本,这个很不错。
好了,大功告成,我们看看下载好的文件,这个尺寸是认真的么?果然翻车了,下载的图片根本不对!
3、文件操作
输入下列提示词,让 AI 帮忙处理我本地的表情包文件:
帮我把所有的表情包尺寸放大 1 倍,并且转换为 WEBP 格式,然后将所有表情包组合在一起生成为 GIF
然后应该要指定文件路径吧,不然 AI 可能不知道要处理什么。
结果当我输入 @ 键指定文件路径时,好家伙,输入框直接卡死了?该说不说,这个交互体验不够好,我每次选择文件都会卡,而且选择不了目录。
经过一番折腾,我发现 得慢点选择,跟着程序列举出的目录树进行选择,就先选一个图片吧:
好,这次 AI 聪明了,问我是不是要处理多个文件,必须的:
然后 AI 发现无法处理图片,要下载一个图片处理工具,然后它说要利用 Mac 上的软件包管理工具来安装,同意即可:
经过漫长的等待,等了快 10 分钟竟然还没好?!
可能是我自己的网络原因吧,但我实在等不下去了。老实说测到这里,我心态都已经有点崩了,凌晨两点半隔这儿等软件安装?
不是,这玩意你写个简单的 Python 脚本不就搞定了?
感觉这个工具还是得给程序员用,要稍微加一些引导,比如我们让 AI 利用 Python 脚本实现任务:
帮我把所有的表情包尺寸放大 1 倍,并且转换为 WEBP 格式,然后将所有表情包组合在一起生成为 GIF,使用 Python 脚本实现
可以看到 AI 安装了图像处理库,然后创建了一个虚拟环境,你别说它对安全性的考虑还是 ok 的:
然后编写脚本并执行:
任务成功完成,看下效果:
尺寸确实放大了,格式也转换成功了,GIF 也成功生成了。终于顺利完成了一次任务,还不戳。通过这种方式处理本地图片确实是要比网页端的 AI 应用方便很多。
4、生成代码
输入下列提示词,让 AI 帮我做个像素摄影网站:
请帮我制作一个网站,能够调用摄像头进行拍照,并将照片转为像素风,支持下载,要求界面简洁炫酷
这次生成速度还是挺快的,就是过程中得多次进行人工确认:
我们来看下生成的网站效果:
可以调整像素的密度,还可以一键下载照片,效果还是挺不错的,这次任务 AI 也顺利完成了~
5、解释代码
给刚刚生成的项目补充一个学习指南,输入提示词:
帮我生成该项目的学习指南,帮助新开发者快速上手
由于 AI 有上下文,它直接 get 到了我想让他分析哪个项目,然后很快生成了一个项目文档。
然后我让 AI 帮我打开文档文件:
本来是想让 AI 直接打开 Markdown 阅读软件的,但没想到它直接给我输出了一堆无关的内容,我表示不理解。
那我自己打开好了吧,生成的文档内容还是过关的,标准的 GitHub 开源项目文档。
6、生成架构图
好,鉴于刚刚的任务完成得还可以,我们加大难度。让 AI 生成一个项目的分层架构图:
帮我针对当前项目,生成分层架构图
结果就有点乌龙了,AI 给我生成了一个架构设计文档:
你管这纯英文文档叫做架构图?
那我再发挥一下仅存的专业性,让他帮我生成架构图的绘图代码:
帮我针对当前项目,生成分层架构图的 draw.io 代码
这次看着靠谱多了:
来,我们把 AI 生成的架构图代码文件拖到 draw.io 中打开。
不是哥们?你管这叫架构图?
来,同样的任务,我们用 Cursor + Claude 4 试一试。
哎,你看人家 Claude 很有自信,说 “我可以为您生成一个更完整和详细的分层架构图”:
好,看下生成后的效果,是不是高下立判啊!
7、生成可视化图表
让 AI 帮我分析项目的提交记录,输入提示词:
根据当前项目的提交记录,生成可视化图表,便于我来分析项目的发展历程
可以看到 AI 使用 git log 命令查看代码提交记录,然后开始生成图表。
等等?图表在哪儿呢???
我的预期肯定是生成一个图片,或者起码是一个字符画,看着像图也行啊,有点为难他了。
8、多模态
等验证到多模态的时候已经是凌晨 3 点,我都已经麻了,唉,最后再坚持试试多模态吧。
输入生成图片提示词:
帮我基于当前目录下的图片,生成一个风格相似的新图片
这次 AI 干脆直接拒绝了,不支持图片创作,你倒是写个脚本啊?!你不用 AI,用个图像处理也行对不对?
那再解释个图片试试,输入解释图片提示词:
帮我解释当前目录下所有的图片
这倒是解释出来了,吐槽一下,竟然还是英文输出,可能跟程序本身的语言设定有关吧,体验没有那么好。
Gemini CLI 背后用的应该是 Gemini 2.5 Pro 模型,是具有原生多模态输入能力的,也就是说能识图,但是并不能创作图片,包括创作音频和视频应该都是通过第三方大模型(或者 MCP 工具实现的)。
最后再让他解释个 PDF 吧,输入提示词:
帮我总结 PDF 的内容,并生成一个新的 PDF
结果出乎我意料了,AI 提示输入超出了 token 限制?
不是号称 100 万 token 上下文么,怎么读个微型 PDF 就超出限制了呢?你无法生成 PDF 我都不觉得奇怪,我这个 PDF 文件就那几个字几张图,为什么?
本来还想让他生成音频和视频的,算了算了,我对这个工具已经有一些自己的判断了。
总结
最后总结一下吧,测试了 8 个维度后,我的感受是 “一言难尽”,可能是我对 Google 预期太高了吧。
不过说实话,我确实没有发挥到 100 万 tokens 上下文的威力,测试的都是短任务,因为在这个小黑框里去跑长任务,执行过程的浏览体验确实不够好。
那先说说优点,终端操作本地文件确实更方便,而且它可以直接一行命令安装,在已有的终端中使用,不用重新下载一个终端软件,这点还是不错的。
但是问题也很明显啊,首先 AI 智能体本身的效果咱就不多说了,大家也都看到了。抛去这个之外啊,非程序员使用它的门槛还是比较高的。终端的交互体验确实是不如网页和客户端的,很难看到思考过程,界面展示和交互效果也就那样。利用 AI 来生成一下终端命令我觉得很棒(比如 Wrap AI),但如果你非要在这个框里使用 AI 来生成内容,我觉得大可不必吧,至少我应该不会这么干。
现在各家都在卷 AI,卷的是什么?易用性、成本、效果。
像我平时生活中会用豆包或者元宝,非常方便,有问题直接语音就能输入;专门编程做项目的时候会用 Cursor + Claude 的组合。那你说 Gemini CLI 的应用场景在哪里?我总不能平时有问题的时候,第一时间打开终端来问吧?用它生成代码也不好直接编辑呀。可能对擅长 Linux 服务器操作的技术大佬还有点用,但是在公司服务器上用这个还是要注意安全性。
所以我觉得中规中矩吧,没有到网上铺天盖地吹嘘的那种程度,现阶段这玩意更适合尝鲜和学习,而不是作为日常提效工具来使用。不过虽然现在体验一般,考虑到 Google 的技术实力、还有开源免费的发展模式,我相信随着版本迭代,这工具也会越来越好的。而且对我们来说多一种工具的选择,总不是坏事。
大家觉得这个工具怎么样呢?欢迎评论区留言。感兴趣的同学也可以体验一下,看看是不是和我的感受相同,还是说有一些正确的使用方式和技巧,也欢迎评论区分享。学编程和 AI 的同学,记得关注鱼皮哦,下期见~