@llplmlyd 2026-03-23T04:44:53.000000Z 字数 1393 阅读 97

大模型是什么以及它的由来

人工智能 AI 大模型

导论

基础模型、大模型Foundation Models -2021年提出概念
ChatGPT-2022年底11月出现
国内厂商-大预言模型 2023年3月
大模型的出现人类文明里程碑人类学会用火时刻

课程概要

● 大模型特点、重要概念、工作方式
● 阿里云大模型基本概况和产品矩阵
● 大语言模型应用场景和示例

名词学习

人工智能 Artificial Intelligence， AI
机器学习 Machine Learning， ML
深度学习 Deep Learning ，DL
基础模型、大模型 Foundation Models
自然语言处理 NLP
卷积神经网络 CNNs
循环神经网络 RNNs
Transformer网络
生成式人工智能 Generative AI
Chat GPT Chat Generative Pre-Training Transformer
预训练 Pre-training
监督微调 Supervised Fine tuning SFT
对齐偏好 Preference Aligment
基于人类反馈的强化学习 Reinforcement Learning from Human Feedback RLHF
DPO direct Preference Optimization 直接根据人类偏好数据优化模型本身
微调 Fine Tune /Fine-tuning
大语言模型 Large Language Model LLM
分词 Token
分词化 Tokenization
词粒度 Word-Level
字符粒度 Character-Level
子词粒度 Subword-Level
7B（约70亿参数）
72B（约720亿参数）
检索和大模型结合起来，即Retrieval-augmented Generation，简称RAG，是当下热门的大模型前沿技术之一。检索增强生成模型

概念层级关系

人工智能是一个领域一门学科，大模型是其中的一个部分。人工智能涉及多个广泛的学科，人工智能（AI）是一门使机器模拟人类智能过程的学科。

● 人工智能 → 旨在构建具备智能、学习、推理和行动能力计算机和机器
● 机器学习 →旨在使得计算机系统具备某种解决问题的能力
机器学习从学习方式来说有三个分类
○ 监督学习死记硬背
○ 无监督学习一定数据的情况下类比分类学习
○ 强化学习探索、经验积累
● 深度学习DeepLearning DL，也属于机器学习，是机器学习里面的一个分支，使用神经网络模型对数据进行学习和表示。模拟人类大脑的工作方式
神经网络，也有很多类型：卷积神经网络、循环神经网络、transformer网络等等
● 生成式人工智能又是深度学习的一个快速增长的子集、预训练深度学习模型

大模型训练过程

预训练：输入数据学习基础知识
监督微调：怎么回答如何回答
对齐偏好：指导答对答好

大模型特点

规模和参数量大
适应性灵活性强
广泛数据集的预训练
计算资源需求大

大模型工作过程

用户的输入，即为提示词。提示词越清晰，模型的回答就越符合预期。

分词化：将段落和句子分割成更小的分词（token）的过程。NLP中的重要概念
提示词分词化有三种粒度
- 词粒度 word level 常用于英文
- 字符粒度 character level 常用于中文
- 子词粒度 subword level 将单次分解成更小单位词根词缀
词表映射
token --》 token id
基于现有的token根据概率预测出下一个最有个能的token，这个叫自回归。直到输出特殊的token或输出长度达到阈值停止。