deepseekv3要明白中国AI的突破,需要先搞懂Transformer

烨华聊商业 2024-12-30 08:54:59

deepseek v3 要明白中国AI的突破,需要先搞懂Transformer。整理了下,学习30个简单概念就行了

有些是语文,例如NLP、向量、张量。有些是简单的数学处理,基本是加减乘除的简单处理,对矩阵和向量。还有些是某种神经网络结构,其中RNN相关的概念是核心,Attention注意力机制就是从里面出来的。所以把RNN和Attention学下,就有搞懂的基础了。这两个概念算难一些,其它都简单。

搞懂了Transfomer和大模型训练机制,再来看deepseek v3的论文,就没那么难了。

但是由于概念还真比较多,一般人不知道从哪学起。虽然每个概念都不复杂,但是加一起就让人晕头转向了。其实就是耐心学习,把名词体系搞懂就行了。比芯片简单,那边专业的要上千个名词。

NLP自然语言理解

Seq2Seq 序列转换

Encoder-Decoder 机器翻译架构

RNN循环神经网络

Attention注意力机制

Feed-Forward Network 前馈神经网络

Vector/Tensor 向量、张量

Embedding 词嵌入算法

Self-Attention自注意力

Softmax 概率归一化函数

ReLU 一种激活函数

Dot-Production 矩阵点积

Scale 缩放

Scaled Dot-Production Attention 缩放点积注意力

Query 查询矩阵

Key 键矩阵

Value 值矩阵

Multi-Head Attention 多头注意力机制

Concat 拼接

Normalization 归一化

Residual connection 残差连接

Positional Encoding 位置编码

Encoder-Decoder Attention 解码器注意力机制

Linear 线性全连接层

Embedded Layer 嵌入层

Output Layer 输出层

Padding mask 填充掩码

Sequence mask 序列掩码

Logits 原始分数

Dropout 丢弃防止过拟合

Label smoothing 标签平滑软标签

0 阅读:38
烨华聊商业

烨华聊商业

感谢大家的关注