一篇标题只有5个单词的论文,改变了整个AI世界,并打开了AI大语言模型时代


2017年,Google发表了一篇论文,标题叫《Attention Is All You Need》。

翻译过来是”注意力就是你所需要的一切”。

区区5个单词标题的论文,谁也不会想到,会开启整个AI新世界,更是带来AI大语言模型的狂飚时代。

时隔多年后的今天,重新回头看这篇文章的标题,依然是新时代AI最好的注解。

上篇文章《AI沉默的二十年,是数据和算力的厚积薄发,更是从机器学习到深度学习算法的一次次突破》,我们了解了AI是如何一步步积攒实力走到今天的,今天我们就来扒一扒,《Attention Is All You Need》这篇论文到底写了什么,又是如何开启了AI的新世界!


一句话改变一切

这篇论文提出了一个叫Transformer的架构。它解决的核心问题是:AI在处理一段文字时,应该怎么”读”。

在Transformer之前,AI处理文字的方式是一个词一个词按顺序读,读到最后一个词,可能已经忘了第一个词说了什么。这就像你看一本书,只能从左到右一个字一个字地看,不能回头翻,效率极低。

Transformer改变了这一切。它让AI在处理文字时,能”同时看到”整段话里所有的内容,然后判断哪些词和哪些词之间关系最紧密。就像一个人拿到一篇文章,先扫一眼全貌,再重点看关键段落,而不是逐字逐句地硬读。

举个例子,当你说”那只猫坐在垫子上,因为它很舒服”时,人类能理解”它”指的是猫,不是垫子。Transformer让AI也具备了这种”一目十行、抓住关键”的能力。

这个看似简单的改进,打开了一扇通往新世界的大门。


从GPT到ChatGPT:大语言模型的狂飙

2018年,基于Transformer架构的第一个大语言模型GPT-1诞生了。GPT三个字母分别代表生成式(Generative)、预训练(Pre-trained)、Transformer,它开创了一种全新的AI范式:先在互联网的海量文本上”预习”语言规律,再针对具体任务做微调。

此时的大语言模型,能力有限,影响范围还仅限于学术圈和科技圈。但随后的几年,发展速度开始让人目不暇接。

2019年,GPT-2发布,能生成像样的文章段落。

2019年,Google同期发布BERT。虽然写文章的能力不如GPT,但在理解语言含义上变得更强大,搜索引擎的准确率因此大幅提升。

2020年,GPT-3发布,参数规模达到1750亿,写出来的文章已经让人分不清是人写的还是AI写的。这时候,已经有人开始讨论”AI会不会取代作家”了。

2021到2022年,国内开始跟进。 百度文心、阿里通义、讯飞星火相继布局,大模型这个赛道开始热闹起来。

然后,就是那个改变一切的时刻。

2022年11月30日,ChatGPT横空出世。

5天100万用户。2个月1亿月活用户。这个增长速度,在人类互联网历史上前所未有。

为什么是ChatGPT? 因为它做了之前所有模型都没做到的一件事:把AI的能力包装成了一个普通人直接能用的产品。你不需要懂技术,不需要学编程,只需要像跟朋友聊天一样打字,AI就能回答问题、写文章、写代码、翻译、总结、分析。

长期以来,AI对于大众,都只是科幻电影里的一时惊艳,或者新闻里”又双叒叕取得突破”的过目即忘。ChatGPT的出现,让每个普通人,真切地感受到了AI的存在。只需要像和普通人对话一样,问AI问题、让AI写文章、叫AI写代码,然后它做出反应,而且这个反应,不再是机械刻板的,而是煞有介事得像人了。而这个”越来越像人”的趋势,也随着AI的进步,渐渐变得和人类一模一样。

这一刻,AI从专家的论文、电影的特效、新闻的热点,走进了每个人的手机上、电脑上。

这一天,被很多人称为”AI平民化元年”。

AI终于从专家的实验室里走了出来,走进了每个识字的人的日常。


百模大战与国产崛起

ChatGPT的爆火,让全球的科技公司都坐不住了。

2023年,GPT-4发布,能力再次产生质的飞跃。同年,国内大模型集体亮相,文心一言、通义千问、讯飞星火、DeepSeek,不下几十家企业和研究机构涌入赛道。这一年被称为”百模大战”的一年,模型数量之多、发布速度之快,让整个行业都眼花缭乱。

2024年,格局开始分化。 DeepSeek-V2和V3以极低的训练成本达到了接近GPT-4的能力,彻底打乱了”只有巨头玩得起”的行业共识。原来以为大模型是烧钱的游戏,DeepSeek证明了不一定。

2025年,国产模型开始真正发力。

DeepSeek V4发布,编程能力达到92分,训练成本仅557万美元,不到GPT-4的二十分之一。通义千问Qwen3全球下载量突破6亿次。智谱AI在港交所上市,成为”全球通用AI基座模型第一股”。豆包2.0发布,采用大一统多模态框架。Kimi K2.6在SWE-bench Pro测试中拿下全球第一,这是国产模型首次在该项权威评测中登顶。

2026年,行业焦点从”能不能”转向”怎么用”。 AI Agent成为年度关键词,AI从”能说会道”进化到”能说会做”,不仅能回答问题,还能帮你执行任务、操作软件、管理工作流程。Claude Opus 4.7把代码能力推到了新高,GPT-5.5把上下文窗口拉到了百万级别,Gemini 3.5 Flash在AI工具调用上做到了业界第一。


70年,走到这里

如果把AI的70年画成一条线,你会发现它的走势既不是一直向上的,也不是一蹴而就的。

1956到1974年,科学家以为写几条规则就能搞定智能,结果碰了壁。这是“规则驱动”的失败

1980年代,把人类专家的知识搬进机器,确实有了商业价值,但太贵、太笨、太死板,最终输给了便宜且通用的个人电脑。这是“知识驱动”的失败

1990年代到2010年代,AI在看不见的地方积累力量。互联网提供了数据,游戏产业提供了算力,机器学习、深度学习提供了方法。这是 “数据驱动”的积累期

2017年,Transformer把所有能力串联了起来。AI不只是能听懂一句话,而是能理解一段话、一篇文章、甚至一本书的意思。这是从”专用”到”通用”的真正跨越

2022年,ChatGPT上线。AI终于走进了每个人的手机和电脑。

这不是一夜之间的神话,是七十年的筚路蓝缕。


回到最初的问题

2022年11月30日,ChatGPT横空出世。

为什么是这一天?

因为在那之前,数据已经积累了二十年,算力已经提升了十年,深度学习已经打磨了六年,Transformer已经迭代了五年。大语言模型的技术栈已经完备,只差一个把它做成普通人能用的产品的人。

ChatGPT就是那个临门一脚。

而在这个临门一脚背后,是图灵1950年的那个设想,是达特茅斯1956年夏天的那场会议,是两次寒冬里科学家们的坚持,是互联网时代二十年的数据积累,是深度学习的一次次突破。

每一次技术突破,都不是凭空而来,而是数据的积累、算力的提升、算法的改进,是天时地利人和时的临门一脚。

图灵时代的梦想,70年后终于照进了现实。

而此刻,AI的进化速度比以往任何时候都快。从”能说会道”到”能说会做”,从”回答问题”到”执行任务”,从”单打独斗”到”Agent协同”,每一步都在重新定义”AI能做什么”。

AI已来。

文章摘自:https://www.cnblogs.com/hawk2026/p/20212274