人工智能发展史

  |   0 评论   |   0 浏览

一、发源:从统计语言模型到神经网络(2000s–2017)

1.早期基础

  • n-gram 模型 (1950s–2000s):基于马尔可夫假设,用词频统计预测下一个词。
  • Word2Vec / GloVe (2013–2014):
    • 将词映射为稠密向量(embedding),捕获语义相似性。
    • 局限 :静态词向量,无法处理一词多义(如 “bank” 在金融 vs 河岸)。

2.神经网络 NLP 的崛起

  • RNN / LSTM / GRU (1990s–2010s):

    • 能处理序列,但存在梯度消失、长程依赖弱等问题。
  • Encoder-Decoder + Attention (2014–2017):

    • Bahdanau Attention、Luong Attention 提升机器翻译效果。
    • 关键思想 :让模型“关注”输入中相关部分。

此阶段核心问题: 上下文建模能力弱,训练效率低,泛化差


二、转折点:Transformer 诞生(2017)

📌 《Attention Is All You Need》 (Vaswani et al., Google, 2017)

  • 核心创新

    • 完全抛弃 RNN/CNN,仅用 Self-Attention + Positional Encoding
    • 并行计算能力强,训练速度大幅提升。
    • 长距离依赖建模效果显著优于 RNN。
  • 影响 :成为所有大模型的 统一架构基础

🔥 Transformer = 大模型时代的“内燃机”。


三、技术体系演进:四大阶段

阶段 1️⃣预训练 + 微调范式 (2018–2019)

模型贡献技术特点
ELMo (2018)首提“上下文词向量”双向 LSTM,动态 embedding
GPT-1 (2018, OpenAI)自回归 + Transformer Decoder单向语言模型,微调下游任务
BERT (2018, Google)双向编码 + MLMMasked Language Modeling + Next Sentence Prediction
  • 范式确立
    大规模无监督预训练 → 小规模有监督微调(Pretrain-Finetune)
  • 效果 :在 GLUE、SQuAD 等 NLP 基准上全面超越传统方法。

阶段 2️⃣Scaling Law 与 GPT 路线崛起 (2020–2022)

核心发现:模型性能 ≈ 模型规模 × 数据量 × 计算量

  • GPT-3 (2020, OpenAI):

    • 175B 参数,无需微调,通过****Prompt + In-context Learning完成任务。
    • 证明: 超大模型具备涌现能力 (Emergent Abilities)。
  • Scaling Laws (Kaplan et al., 2020):

    • 给出模型、数据、算力的最优配比公式。
  • 其他代表

    • T5(Google):统一文本-to-文本框架
    • PaLM(Google):540B 参数,支持多语言、推理

此阶段标志: 从“微调”转向“提示工程(Prompting)”,大模型即服务(MaaS)雏形出现


阶段 3️⃣对齐(Alignment)与人类反馈 (2022–2023)

问题:大模型会胡说八道、不安全、不符合人类意图。

解决方案:RLHF(Reinforcement Learning from Human Feedback)

  • InstructGPT / ChatGPT (OpenAI, 2022):
  1. 监督微调(SFT):用人工写的指令-回答对训练
  2. 奖励模型(RM):人类对多个回答排序,训练打分模型
  3. PPO 强化学习:用 RM 指导模型优化策略
  • 效果 :输出更 有用、诚实、无害 (HHH 原则)

🔑 关键技术突破 让模型“听话” ,而非仅仅“聪明”。


阶段 4️⃣开源生态、多模态、Agent 化 (2023–至今)

1.开源大模型爆发

  • Meta 开源 LLaMA (2023)→ 引爆社区(Alpaca, Vicuna, Chinese-LLaMA)
  • Mistral(法国):小模型高效率(Mixtral MoE)
  • 国内:****Baichuan、Qwen(通义千问)、GLM、Yi等全面开源

2.多模态融合

  • CLIP (2021):图文对比学习,统一语义空间
  • Flamingo / BLIP-2 :冻结大语言模型,接视觉编码器
  • GPT-4V / Qwen-VL / LLaVA :端到端图文理解与生成

3.Agent 范式兴起

  • 模型不再只是“问答”,而是能 规划、工具调用、反思、协作
  • 代表框架:AutoGPT、LangChain、Meta Toolformer

4.推理优化与边缘部署

  • 量化 (GGUF, AWQ)、 蒸馏 (TinyLLaMA)、 MoE (Mixture of Experts)
  • 手机/PC 本地运行 7B 模型成为常态(如 LM Studio, Ollama)

五、关键支撑技术

领域技术
训练ZeRO(DeepSpeed)、FSDP(PyTorch)、混合精度、3D 并行
推理vLLM(PagedAttention)、TensorRT-LLM、Continuous Batching
数据RedPajama、The Stack(代码)、RefinedWeb、合成数据
评估HELM、MT-Bench、LiveCodeBench、AgentBench

六、未来趋势(2025+)

  1. Small is Powerful :7B–13B 模型通过高质量数据 + 更好对齐,逼近百亿模型效果。
  2. 世界模型 :从“语言统计”走向“环境模拟”,具备因果推理和规划能力。
  3. 具身智能 :大模型驱动机器人,在物理世界中学习和行动。
  4. AI OS :大模型成为操作系统级基础设施(如 Rabbit R1、Humane AI Pin 的理念)。

总结:大模型发展脉络

从“词向量” → “上下文建模” → “超大规模预训练” → “人类对齐” → “智能体化”
技术主线:Transformer 架构 + Scaling Law + RLHF + 开源生态

这一体系仍在快速演进,但核心逻辑已清晰: 更大的数据、更好的对齐、更强的工具集成,将推动大模型从“工具”走向“伙伴”


标题:人工智能发展史
作者:guobing
地址:http://www.guobingwei.tech/articles/2025/12/25/1766654176596.html