AI探索笔记：浅谈人工智能算法分类

人工智能算法分类

这是一张经典的图片，基本概况了人工智能算法的现状。这张图片通过三个同心圆展示了人工智能、机器学习和深度学习之间的包含关系，其中人工智能是最广泛的范畴，机器学习是其子集，专注于数据驱动的算法改进，而深度学习则是机器学习中利用多层神经网络进行学习的特定方法。
在这里插入图片描述
但是随着时代的发展，这张图片表达得也不是太全面了。我更喜欢把人工智能算法做如下的分类：

传统机器学习算法 - 线性回归、逻辑回归、支持向量机等
深度学习 - 神经网络、AlexNet、UNet等
强化学习 - Q-Learning、SARSA、DQN等
大模型 - GPT、LaMMa、DeepSeek等

如此分类的理由，传统机器学习算法，发展了很多年，我们可以把感知机看作是线性分类，原理实际上和线性回归是一样的。而神经网络的神经元，可以认为是一个感知机。所以，可以认为深度学习是从传统机器学习算法中逐渐发展出来的。而强化学习，原本也可以认为是传统机器学习的一个分支，但它也有自己的发展方向，逐渐的，它又可以和神经网络结合，来解决更复杂的问题。于是，就出现了深度强化学习。大模型，严格意义上来说，不能认为是一个独立的分支，它是一个复合体，期中包含了深度学习，也包含了强化学习，除此之外，它还包含了一系列工程学方法。大模型实际上，已经不仅仅是算法，还有如何把算法落地的硬件和软件的实施方案。

传统机器学习算法

传统机器学习算法是指在深度学习兴起之前广泛使用的统计学习和机器学习方法。这些算法通常基于明确的数学模型和优化目标，适用于处理结构化数据和解决特定类型的问题。
线性回归（Linear Regression）：用于预测连续变量的算法，通过建立自变量和因变量之间的线性关系来预测结果。
逻辑回归（Logistic Regression）：用于分类问题的算法，通过 logistic 函数将线性组合的输出映射到概率值，常用于二分类问题。
支持向量机（Support Vector Machine, SVM）：一种强大的监督学习方法，用于分类和回归分析。SVM 通过寻找最优超平面将不同类别的数据分开，具有良好的泛化能力。
决策树（Decision Tree）：一种基于树形结构的分类和回归算法，通过一系列特征测试将数据分割成不同的类别。
随机森林（Random Forest）：一种集成学习方法，通过构建多个决策树并综合其结果来提高预测准确性。
K-近邻算法（K-Nearest Neighbors, KNN）：一种基于实例的学习方法，通过寻找与测试样本最相似的训练样本进行分类或回归。
朴素贝叶斯（Naive Bayes）：一种基于贝叶斯定理的分类算法，假设特征之间相互独立，常用于文本分类和垃圾邮件过滤。
K-均值聚类（K-Means Clustering）：一种无监督学习方法，用于将数据集划分为 K 个簇，使簇内数据相似度高，簇间相似度低。
算法特点
这些传统机器学习算法各有特点，适用于不同的数据类型和问题场景。
它们通常需要对数据进行预处理和特征工程，以提高模型的性能。
相较于深度学习，传统机器学习算法通常计算效率更高，解释性更强。
应用领域
传统机器学习算法在金融、医疗、市场营销、自然语言处理等多个领域都有广泛应用。
它们常常作为基准模型，用于比较和评估深度学习模型的性能。
传统机器学习算法包括线性回归、逻辑回归、支持向量机、决策树、随机森林、K-近邻算法、朴素贝叶斯和K-均值聚类等。这些算法在不同的数据类型和问题场景中具有各自的特点和优势，广泛应用于金融、医疗、市场营销等多个领域。
作为IT从业者，如果是盯着前沿领域，实际上可以不用去看这些传统算法。但出于学习目的，也是为了避免忽视一些简单但重要的东西。这些传统的算法，在现代社会还有用武之地吗？实际上，还是有的，可以考虑其他学科。
例如，在人文社科领域，传统机器学习算法如逻辑回归被广泛应用于教育研究，通过分析学生的基本特征与学习成绩之间的关系，识别影响学生成绩的关键因素，从而为教育政策和教学方法的制定提供数据支持。

深度学习算法

深度学习是一种机器学习技术，它模仿了人类大脑中神经网络的工作方式，以通过数据学习复杂的模式和特征。
神经网络（Neural Networks）
基本概念
神经元（Neurons）：基本的计算单元，类似于生物大脑中的神经元。
层（Layers）：神经网络中的神经元被组织成不同的层，包括输入层、隐藏层和输出层。
权重（Weights）和偏置（Biases）：每个神经元都有与之相连的权重和偏置，这些参数在训练过程中被调整。
激活函数（Activation Functions）：用于给神经元引入非线性特性，常见的有Sigmoid、ReLU、Tanh等。
类型
前馈神经网络（Feedforward Neural Networks）：信息单向流动，从输入层到输出层。
递归神经网络（Recurrent Neural Networks, RNNs）：具有循环结构，适合处理序列数据。
卷积神经网络（Convolutional Neural Networks, CNNs）：特别适合处理图像数据。
AlexNet
简介
AlexNet是2012年ImageNet竞赛的获胜者，由Alex Krizhevsky等人提出，是深度学习在图像识别领域的一个重要突破。
架构特点
卷积层（Convolutional Layers）：使用卷积层来提取图像特征。
最大池化层（Max Pooling Layers）：减少特征的空间维度。
归一化层（Local Response Normalization）：对特征进行归一化处理。
全连接层（Fully Connected Layers）：在网络的最后几层，将卷积层提取的特征进行组合。
Dropout：防止过拟合的技术。
UNet
简介
UNet最初用于生物医学图像分割，由于其精确性和效率，它在许多任务中都得到了应用。
架构特点
编码器（Encoder）：包含卷积层和最大池化层，用于特征提取和下采样。
解码器（Decoder）：包含上采样层和卷积层，用于恢复空间信息和特征图的大小。
跳跃连接（Skip Connections）：编码器的层直接与解码器对应的层相连，以保留位置信息。
上采样（Upsampling）：通常使用转置卷积（transposed convolution）来增加特征图的分辨率。
其他深度学习模型
卷积神经网络（CNNs）
VGGNet：强调使用小的卷积核和深层网络结构。
GoogLeNet/Inception：引入了Inception模块，通过不同尺寸的卷积和池化层并行捕获信息。
ResNet：引入了残差学习，通过跳跃连接解决深层网络训练困难的问题。
递归神经网络（RNNs）
LSTM（Long Short-Term Memory）：解决了传统RNN在长序列学习中的梯度消失问题。
GRU（Gated Recurrent Unit）：LSTM的变体，结构更简单。
自编码器（Autoencoders）
用于无监督学习，特别是特征学习和降维。
生成对抗网络（GANs）
由生成器和判别器组成，通过对抗过程生成新的数据样本。
这些模型和架构各有特点，适用于不同的应用场景。深度学习领域持续发展，不断有新的模型和变种被提出以解决特定问题。
除了这些算法，还有很多深度学习的算法，他们差异在于他们的网络结构不同。有人说，可以搞几个全连接层去解决世界上的所有问题。从理论上来说是可以的，但是因为算力和梯度的问题，网络不一定能训练出来。一个不太严谨的表述，全球的AI研究人员实际上是在“炼丹”，通过不同的配方，设计不同的网络结构，试图让它在某个特定的问题上可以收敛。

强化学习算法

由于强化学习算法众多，以下是一些主要的强化学习算法，以及每种算法的简要介绍：
基于值的方法（Value-Based Methods）
Q-Learning
一种无模型的强化学习算法，通过Q表来存储每个状态-动作对的期望回报，并迭代更新这些值以达到最优策略。
Deep Q-Networks (DQN)
结合了Q-Learning和深度学习，使用深度神经网络来近似Q值函数，能够处理高维输入空间。
Double DQN
DQN的改进版本，通过两个网络来减少Q值估计的偏差，提高学习的稳定性。
Dueling DQN
对DQN的进一步改进，将价值函数分解为状态值和优势函数，有助于更有效地学习策略。
Prioritized Experience Replay (PER)
一种经验回放技术，它根据_td_误差的大小来优先采样经验，以提高学习效率。
基于策略的方法（Policy-Based Methods）
Policy Gradient
直接学习策略函数而不是值函数，通过梯度上升来优化策略以增加期望回报。
REINFORCE
一种基本的策略梯度方法，它使用蒙特卡洛抽样来估计回报的梯度。
Actor-Critic Methods
结合了策略梯度和值函数方法，其中Actor负责学习策略，Critic负责评估策略。
Advantage Actor-Critic (A2C)
一种同步版本的Actor-Critic算法，可以在多个环境中并行执行。
Asynchronous Advantage Actor-Critic (A3C)
A2C的异步版本，可以在不同的线程中并行训练，提高了学习效率和稳定性。
Trust Region Policy Optimization (TRPO)
一种策略优化算法，通过限制策略更新的步长来保持稳定性。
Proximal Policy Optimization (PPO)
TRPO的简化版本，通过裁剪目标函数来防止策略更新过大。
基于模型的方法（Model-Based Methods）
Model Predictive Control (MPC)
一种基于模型的控制方法，它使用环境模型来预测未来状态，并优化未来的动作序列。
模型无关的强化学习（Model-Free Reinforcement Learning）
Monte Carlo Methods
基于蒙特卡洛抽样的强化学习算法，通过实际执行策略来估计回报。
Temporal Difference (TD) Learning
一种不需要完整回报序列的强化学习算法，它通过时间差分来更新值函数。
元强化学习（Meta Reinforcement Learning）
Model-Agnostic Meta-Learning (MAML)
一种元学习算法，旨在快速适应新任务，通过找到一组初始化参数，这些参数可以快速适应新任务。
强化学习与其他领域的结合
Reinforcement Learning with Deep Learning
使用深度神经网络来表示值函数或策略函数，处理复杂的高维输入。
Reinforcement Learning with Evolutionary Algorithms
结合了强化学习和进化算法，通过模拟自然选择和遗传来优化策略。
Reinforcement Learning with Transfer Learning
利用在源任务上学到的知识来加速目标任务的强化学习过程。
Reinforcement Learning with Imitation Learning
通过模仿专家的行为来学习策略，减少强化学习中的探索成本。
这些算法只是强化学习领域的一部分，每个算法都有其特定的应用场景和优势。随着研究的深入，新的算法和变体将继续被开发出来。
说到强化学习，不得不提AlphaGo系列。这一系列由DeepMind公司开发的人工智能围棋程序，其核心原理结合了深度神经网络和强化学习。AlphaGo首先通过监督学习从大量的专业围棋对局中学习棋局模式和策略，这一阶段它使用了一个深度卷积神经网络来预测专业棋手的下一步棋。随后，AlphaGo通过强化学习进行自我对弈，使用蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS）来评估和选择棋步。在这个过程中，AlphaGo的神经网络被用来预测游戏的结果和指导搜索过程，而强化学习则用于调整神经网络的参数，以最大化长期奖励。通过这种结合，AlphaGo不仅学会了围棋的基本规则和策略，还能够创造性地发现新的走法，最终在2016年击败了世界围棋冠军李世石，证明了强化学习在解决高度复杂问题上的强大潜力。
另外，不得不提AlphaGo的继任者——AlphaZero。AlphaZero是由DeepMind公司开发的一个通用强化学习算法，它不仅能够掌握围棋，还能应用于国际象棋和日本将棋等棋类游戏。AlphaZero的核心原理是结合了深度神经网络和强化学习，但它与AlphaGo有一个显著的不同：AlphaZero完全通过自我对弈从零开始学习，不需要任何人类的对局数据。
AlphaZero的工作原理可以分为几个步骤：首先，它使用一个深度神经网络来同时预测棋局的可能走法、游戏的结果以及策略网络的价值。这个网络通过自我对弈不断改进，不需要依赖人类的知识。在自我对弈的过程中，AlphaZero使用强化学习中的策略迭代方法，其中蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS）扮演了关键角色。
在MCTS中，AlphaZero通过模拟数千次可能的走法来评估当前棋局的每一种可能走法。这些模拟基于神经网络提供的走法概率和胜率估计。通过这种方式，AlphaZero能够探索和利用棋局中的各种可能性，并逐渐学会哪些走法更有可能带来胜利。
AlphaZero的训练过程是迭代的：它在自我对弈中不断生成新的数据，然后用这些数据来更新神经网络的参数。这个过程不断重复，直到神经网络收敛到一个能够高效预测走法和评估棋局的最佳策略。AlphaZero在2017年展示了其惊人的能力，它在没有人类知识输入的情况下，仅仅通过几天的训练，就超越了之前所有专门的国际象棋和日本将棋程序，包括战胜了AlphaGo自己。AlphaZero的成功证明了强化学习算法在无需人类经验的情况下，也能达到甚至超越人类的水平。

大模型

大模型没有明确的定义，业内共识是指那些拥有数亿、数十亿甚至更多参数的深度学习模型。参数是模型内部可调整的变量，它们决定了模型对输入数据的处理方式。大模型的参数规模使得它们能够捕捉到数据中的复杂模式和细微差别，从而在多种任务上表现出色。
以下是当前业内主流的大模型的综合介绍，涵盖国际与中国的主要参与者及其技术特点：

1. GPT系列（OpenAI）

开发者：OpenAI
代表模型：GPT-4o、GPT-4 Turbo
特点：
- 基于Transformer架构，以闭源和商业化应用为主，擅长复杂推理、多模态处理及通用任务。
- GPT-4o训练成本约1亿美元，使用高性能英伟达H100 GPU集群，参数规模未公开但推测超万亿。
- 最新发布的GPT-4o-Mini为轻量级版本，适合低成本场景，但在中文场景和复杂逻辑推理上稍逊于部分开源模型。

2. Llama系列（Meta）

开发者：Meta（原Facebook）
代表模型：Llama3.1-405B、Llama3.1-8B
特点：
- 开源模型中的标杆，以高性能和社区生态著称。例如，Llama3.1-405B训练成本超6000万美元，需超16,000块H100 GPU。
- 在通用能力评测（如MMLU）中表现优异，但在中文场景、数学推理和复杂对话一致性上落后于DeepSeek等中国模型。

3. DeepSeek系列（深度求索）

开发者：中国深度求索（DeepSeek）
代表模型：DeepSeek-V3、DeepSeek-R1、DeepSeek-Coder-V2
特点：
- 低成本高效能：训练成本仅557.6万美元（为GPT-4o的1/20），采用MoE（混合专家）架构、MLA（多头潜在注意力）机制和FP8混合精度训练，显著降低显存和计算量。
- 性能对标顶尖模型：在数学竞赛（如AIME 2024）、代码生成（HumanEval得分90.2）等任务上超越Llama3和部分闭源模型，通用能力接近GPT-4o。
- 开源策略：完全开源并提供商业授权，API定价极低（输入每百万tokens 1元），推动行业价格战。

4. Claude系列（Anthropic）

开发者：Anthropic
代表模型：Claude-3.5-Sonnet
特点：
- 以安全性和伦理对齐为核心设计，擅长长文本处理和多轮对话。
- 性能与GPT-4o、DeepSeek-V3相当，但训练成本较高且未开源。

5. Gemini系列（Google）

开发者：Google
代表模型：Gemini Ultra、Gemini Pro
特点：
- 多模态能力突出，支持图像、视频、文本的联合处理。
- 在复杂推理和长上下文任务中表现优异，但API定价较高，被DeepSeek等低成本模型冲击。

6. 中国国产大模型

（1）通义千问（阿里云）

代表模型：Qwen2-72B
在MMLU评测中得分82.3，通用能力国内领先，支持长上下文（32K）。

（2）文心一言（百度）

以中文理解和本土化应用见长，但综合性能略逊于Qwen和DeepSeek。

（3）智谱GLM（智谱AI）

模型GLM-4在中文任务中表现优异，商业化应用广泛，但训练成本较高。

（4）百川智能、MiniMax、月之暗面等

被称为“大模型六小龙”，聚焦垂直领域（如金融、教育）的差异化应用，但面临算力限制和商业化压力。

7. 其他国际模型

（1）Nemotron-4 340B（英伟达）

开源模型，参数规模3400亿，擅长合成数据生成，在常识推理测试中超越Llama3和Qwen。

（2）Phi系列（微软）

小型高效模型（如Phi-4），适合端侧部署，参数仅数亿但性能接近百亿级模型。

（3）Gemma（Google）

轻量级开源模型，支持多语言，在移动端和边缘计算场景中表现突出。

技术趋势与行业影响

开源与闭源之争：DeepSeek等开源模型通过低成本和高透明度冲击闭源商业模型（如GPT、Gemini），引发行业对知识产权和可持续商业模式的反思。
硬件优化与软件创新：中国团队在算力受限下通过FP8精度、MoE架构等技术突破，证明“硬件不足软件补”的可能性。
参数效率革命：从“暴力美学”转向“小而精”，如DeepSeek-R1以4B参数实现70B模型的性能，降低部署门槛。

以上模型及趋势反映了当前AI领域的多元竞争格局，更多技术细节和评测数据可参考相关来源。