神经网络是什么?从感知机到 Transformer
神经网络(Neural Network)是模拟人脑神经元连接方式的计算模型,由大量相互连接的节点组成,能从数据中自动学习模式。它是深度学习的基础架构,也是 ChatGPT、Claude、Gemini 等大模型的底层技术。本文带你从最简单的感知机讲到 Transformer,搞懂神经网络的演进,以及如何通过 AI的那些事儿 调用基于神经网络的大模型。
发布: 更新:
神经网络的定义
神经网络 = 由大量"人工神经元"按层连接组成的计算系统,通过调整连接权重来学习数据中的规律。
灵感来源:人脑有约 860 亿个神经元,通过突触相互连接。人工神经网络模拟了这种"节点+连接"的结构,但用数学运算代替了生物电信号。
需要注意:人工神经网络是受大脑启发的数学工具,并非真正模拟大脑。它和真实大脑的工作方式有本质区别。
神经网络的基本结构
神经元(Neuron)
最小计算单元。接收多个输入,每个输入乘以一个权重(weight),求和后加偏置(bias),经过激活函数输出结果。
层(Layer)
多个神经元组成一层。输入层接收原始数据,隐藏层提取特征(可以有很多层),输出层给出最终结果。
权重(Weight)
连接两个神经元的"强度"。训练的本质就是不断调整权重,让网络的输出越来越接近正确答案。GPT-4 有约 1.8 万亿个权重。
激活函数
给神经元引入非线性。没有它,多层网络等价于单层。常见:ReLU、Sigmoid、Tanh、GELU(Transformer用)。
神经网络是怎么学习的?
1. 前向传播
数据从输入层逐层传递到输出层,每一层做加权求和+激活,最终得到预测结果。
2. 计算损失
用损失函数衡量预测与真实答案的差距。差距越大,说明网络越需要调整。
3. 反向传播
从输出层往回,用链式法则计算每个权重对损失的"贡献"(梯度)。这是神经网络训练的核心算法。
4. 更新权重
用梯度下降法,沿着让损失减小的方向微调每个权重。重复数百万次迭代,网络就"学会"了。
整个过程就像调收音机:不断微调旋钮(权重),直到收到清晰的信号(正确输出)。
神经网络的演进历程
1958 · 感知机
最早的神经网络,只有一层,只能解决线性可分问题。简单但意义重大——证明了机器可以"学习"。
1986 · 反向传播
Hinton 等人提出反向传播算法,让多层网络的训练成为可能。神经网络研究复兴。
1998 · LeNet(CNN)
LeCun 用卷积神经网络识别手写数字,证明了CNN在图像任务上的优势。
2012 · AlexNet
深层CNN + GPU训练,在ImageNet上大幅领先。深度神经网络时代正式开启。
2017 · Transformer
自注意力机制取代循环结构,并行计算效率大幅提升。成为所有大模型的基础架构。
2020+ · 超大规模
GPT-3(1750亿参数)→ GPT-4(1.8万亿)→ GPT-5。神经网络规模持续爆炸式增长。
神经网络的主要类型
前馈神经网络(FNN)
最基础的类型,数据单向流动。适合简单的分类和回归任务。
卷积神经网络(CNN)
用卷积核提取局部特征,擅长图像处理。人脸识别、目标检测、医学影像。
循环神经网络(RNN/LSTM)
有"记忆"能力,擅长序列数据。语音识别、时间序列(已被Transformer大部分取代)。
Transformer
自注意力机制,能并行处理整个序列。GPT、Claude、Gemini 全部基于此。当前最主流的架构。
生成对抗网络(GAN)
生成器+判别器对抗训练。曾是图像生成主流,现被扩散模型超越。
图神经网络(GNN)
处理图结构数据(社交网络、分子结构)。在推荐系统和药物发现中应用广泛。
神经网络的应用
AI对话
ChatGPT、Claude 的底层是数百层 Transformer 神经网络,参数量达万亿级。
图像识别
CNN 让机器能"看懂"图片:人脸解锁、自动驾驶、医学影像诊断。
语音处理
语音识别(Whisper)、语音合成(ElevenLabs)都基于神经网络。
推荐系统
抖音、淘宝用深度神经网络分析用户行为,预测你想看什么、想买什么。
游戏AI
AlphaGo 用深度神经网络+强化学习击败围棋世界冠军。
科学发现
AlphaFold 用神经网络预测蛋白质3D结构,获诺贝尔化学奖。
体验神经网络的最新成果
GPT-4o、Claude Opus 4、Gemini 2.5 都是当前最先进的神经网络。通过 AI的那些事儿 你可以直接调用:
- 国内直连:境内骨干节点,无需代理,延迟低至 50ms。
- 统一接口:所有模型用 OpenAI SDK 调用,改个 base_url 就行。
- 按量计费:一次充值所有模型通用,用多少付多少。
- 无需GPU:模型运行在云端,你只需发 API 请求。
实战:调用基于神经网络的大模型
- 获取 AI的那些事儿 API Key。
- 在代码中把 base_url 改为
https://api.example.com/v1。 - 用 OpenAI SDK 调用,体验万亿参数神经网络的能力。
Python 示例:让神经网络解释自己
from openai import OpenAI
client = OpenAI(
api_key="你的Key",
base_url="https://api.example.com/v1"
)
# 让基于 Transformer 神经网络的大模型解释自己的工作原理
r = client.chat.completions.create(
model="gpt-4o",
messages=[{
"role": "user",
"content": "你是一个基于Transformer架构的神经网络。请用通俗的比喻解释你是怎么理解和生成文字的。"
}],
temperature=0.7
)
print(r.choices[0].message.content)
Node.js 示例:用神经网络做语义相似度
import OpenAI from "openai";
const client = new OpenAI({
apiKey: "你的Key",
baseURL: "https://api.example.com/v1",
});
// Embedding 模型是一个神经网络,将文本映射到高维向量空间
const r = await client.embeddings.create({
model: "text-embedding-3-large",
input: ["神经网络是深度学习的基础", "深度学习使用多层神经网络"],
});
// 计算余弦相似度
const v1 = r.data[0].embedding;
const v2 = r.data[1].embedding;
const dot = v1.reduce((sum, a, i) => sum + a * v2[i], 0);
const norm1 = Math.sqrt(v1.reduce((s, a) => s + a * a, 0));
const norm2 = Math.sqrt(v2.reduce((s, a) => s + a * a, 0));
console.log(`语义相似度: ${(dot / (norm1 * norm2)).toFixed(4)}`);
常见问题
神经网络是什么?
神经网络(Neural Network)是模拟人脑神经元连接方式的计算模型,由大量节点按层连接组成,通过调整权重从数据中学习规律。它是深度学习和现代AI(ChatGPT、Claude等)的基础架构。
神经网络和人脑一样吗?
不一样。人工神经网络只是受大脑"启发"的数学模型,用矩阵运算模拟信号传递。真实大脑有860亿神经元、复杂的化学信号和可塑性,远比人工神经网络复杂。
为什么神经网络层数越多越好?
更多层意味着能学习更抽象的特征。浅层学边缘/颜色,中层学纹理/形状,深层学物体/概念。但层数过多也会带来训练困难(梯度消失),需要特殊技巧(残差连接、归一化)。
Transformer 和传统神经网络有什么区别?
传统RNN按顺序处理序列(慢),Transformer用自注意力机制并行处理所有位置(快),且能捕捉长距离依赖。这就是为什么GPT能理解很长的上下文。
怎么体验神经网络的能力?
通过 AI的那些事儿 调用大模型API。GPT-4o、Claude Opus 4 都是万亿参数的神经网络,一个接口即可调用,国内直连免代理。
体验万亿参数神经网络的能力
GPT-4o、Claude Opus 4、Gemini 2.5……一个接口,直接调用。