人工智能发展史

2025-12-25 | 0 评论 | 0 浏览

一、发源：从统计语言模型到神经网络（2000s–2017）

1.早期基础

n-gram 模型 （1950s–2000s）：基于马尔可夫假设，用词频统计预测下一个词。
Word2Vec / GloVe （2013–2014）：
- 将词映射为稠密向量（embedding），捕获语义相似性。
- 局限 ：静态词向量，无法处理一词多义（如 “bank” 在金融 vs 河岸）。

2.神经网络 NLP 的崛起

RNN / LSTM / GRU （1990s–2010s）：
- 能处理序列，但存在梯度消失、长程依赖弱等问题。
Encoder-Decoder + Attention （2014–2017）：
- Bahdanau Attention、Luong Attention 提升机器翻译效果。
- 关键思想 ：让模型“关注”输入中相关部分。

✅ 此阶段核心问题： 上下文建模能力弱，训练效率低，泛化差 。

二、转折点：Transformer 诞生（2017）

📌 《Attention Is All You Need》（Vaswani et al., Google, 2017）

核心创新 ：
- 完全抛弃 RNN/CNN，仅用 Self-Attention + Positional Encoding 。
- 并行计算能力强，训练速度大幅提升。
- 长距离依赖建模效果显著优于 RNN。
影响 ：成为所有大模型的 统一架构基础 。

🔥 Transformer = 大模型时代的“内燃机”。

三、技术体系演进：四大阶段

阶段 1️⃣：预训练 + 微调范式（2018–2019）

模型	贡献	技术特点
ELMo （2018）	首提“上下文词向量”	双向 LSTM，动态 embedding
GPT-1 （2018, OpenAI）	自回归 + Transformer Decoder	单向语言模型，微调下游任务
BERT （2018, Google）	双向编码 + MLM	Masked Language Modeling + Next Sentence Prediction

范式确立 ：
大规模无监督预训练 → 小规模有监督微调（Pretrain-Finetune）
效果 ：在 GLUE、SQuAD 等 NLP 基准上全面超越传统方法。

阶段 2️⃣： Scaling Law 与 GPT 路线崛起（2020–2022）

核心发现：模型性能 ≈ 模型规模 × 数据量 × 计算量

GPT-3 （2020, OpenAI）：
- 175B 参数，无需微调，通过****Prompt + In-context Learning完成任务。
- 证明： 超大模型具备涌现能力 （Emergent Abilities）。
Scaling Laws （Kaplan et al., 2020）：
- 给出模型、数据、算力的最优配比公式。
其他代表 ：
- T5（Google）：统一文本-to-文本框架
- PaLM（Google）：540B 参数，支持多语言、推理

✅ 此阶段标志： 从“微调”转向“提示工程（Prompting）”，大模型即服务（MaaS）雏形出现 。

阶段 3️⃣：对齐（Alignment）与人类反馈（2022–2023）

问题：大模型会胡说八道、不安全、不符合人类意图。

解决方案：RLHF（Reinforcement Learning from Human Feedback）

InstructGPT / ChatGPT （OpenAI, 2022）：

监督微调（SFT）：用人工写的指令-回答对训练
奖励模型（RM）：人类对多个回答排序，训练打分模型
PPO 强化学习：用 RM 指导模型优化策略

效果 ：输出更 有用、诚实、无害 （HHH 原则）

🔑 关键技术突破 ： 让模型“听话” ，而非仅仅“聪明”。

阶段 4️⃣：开源生态、多模态、Agent 化（2023–至今）

1.开源大模型爆发

Meta 开源 LLaMA （2023）→ 引爆社区（Alpaca, Vicuna, Chinese-LLaMA）
Mistral（法国）：小模型高效率（Mixtral MoE）
国内：****Baichuan、Qwen（通义千问）、GLM、Yi等全面开源

2.多模态融合

CLIP （2021）：图文对比学习，统一语义空间
Flamingo / BLIP-2 ：冻结大语言模型，接视觉编码器
GPT-4V / Qwen-VL / LLaVA ：端到端图文理解与生成

3.Agent 范式兴起

模型不再只是“问答”，而是能 规划、工具调用、反思、协作 。
代表框架：AutoGPT、LangChain、Meta Toolformer

4.推理优化与边缘部署

量化 （GGUF, AWQ）、 蒸馏 （TinyLLaMA）、 MoE （Mixture of Experts）
手机/PC 本地运行 7B 模型成为常态（如 LM Studio, Ollama）

五、关键支撑技术

领域	技术
训练	ZeRO（DeepSpeed）、FSDP（PyTorch）、混合精度、3D 并行
推理	vLLM（PagedAttention）、TensorRT-LLM、Continuous Batching
数据	RedPajama、The Stack（代码）、RefinedWeb、合成数据
评估	HELM、MT-Bench、LiveCodeBench、AgentBench

六、未来趋势（2025+）

Small is Powerful ：7B–13B 模型通过高质量数据 + 更好对齐，逼近百亿模型效果。
世界模型 ：从“语言统计”走向“环境模拟”，具备因果推理和规划能力。
具身智能 ：大模型驱动机器人，在物理世界中学习和行动。
AI OS ：大模型成为操作系统级基础设施（如 Rabbit R1、Humane AI Pin 的理念）。

总结：大模型发展脉络

从“词向量” → “上下文建模” → “超大规模预训练” → “人类对齐” → “智能体化”
技术主线：Transformer 架构 + Scaling Law + RLHF + 开源生态

这一体系仍在快速演进，但核心逻辑已清晰： 更大的数据、更好的对齐、更强的工具集成，将推动大模型从“工具”走向“伙伴” 。

标题：人工智能发展史
作者：guobing
地址：http://www.guobingwei.tech/articles/2025/12/25/1766654176596.html