AI 大牛 Andrej Karpathy 又「上新」了,这次一口气放出了长达四个小时的视频。
视频主题为「让我们来复现 GPT-2(1.24 亿参数)」。
Karpathy 表示,这次视频之以是这么长,是由于它很全面:从空文件开始,末了得到一个 GPT-2(124M)模型。
详细实现步骤包括如下:
该视频以「Zero To Hero」系列视频为根本,有些地方参考了以往视频。你可以根据该视频构建 nanoGPT 存储库,到末了大约有 90% 相似。
当然,Karpathy 上传了干系的 GitHub 存储库「build-nanogpt」,包含了全部提交历史,这样你可以一步步看到视频中所有的代码变革。
GitHub 地址:https://github.com/karpathy/build-nanogpt
AI 独角兽 Scale AI CEO Alexandr Wang 表示,Karpathy 发布视频就像是盛行歌手发布新单曲一样。
乃至还有人将 Karpathy 的推特内容通过文生音乐模型 Suno 转换为了一首 Rap,切实其实了。
图源:https://x.com/peterxing/status/1799960277288677478
视频概览
该视频分为了四大部分:建立网络(很多因此往教程回顾)、加快演习速率、设置运行和结果。
视频第一部分内容(带韶光戳)详细如下:
00:13:47 第 1 部分:实现 GPT-2 nn.Module00:28:08 加载 huggingface/GPT-2 参数00:31:00 实现前向通报以获取 logits00:33:31 采样初始化、前缀 token、tokenization00:37:02 采样循环00:41:47 采样、自动检测设备00:45:50 让我们演习:数据批次 (B,T) → logits (B,T,C)00:52:53 交叉熵丢失00:56:42 优化循环:过度拟合单个批次视频第二部分内容(带韶光戳)详细如下:
01:22:18 第 2 部分:让我们加快速率。GPU、稠浊精度、1000 毫秒01:28:14 Tensor Cores、代码计时、TF32 精度、333 毫秒01:39:38 float16、梯度缩放器、bfloat16、300 毫秒01:48:15 torch.compile、Python 开销、内核领悟、130 毫秒02:00:18 flash attention 技能、96 毫秒02:06:54 nice/ugly 数。词汇量 50257 → 50304,93 毫秒
视频第三部分内容(带韶光戳)详细如下:
02:14:55 第 3 部分:超参数、AdamW、梯度裁剪02:21:06 学习率调度器:预热 + 余弦衰减02:26:21 批大小调度、权重衰减、FusedAdamW、90 毫秒02:34:09 梯度累积02:46:52 分布式数据并行 (DDP)03:10:21 GPT-2、GPT-3、FineWeb (EDU) 中利用的数据集03:23:10 验证数据拆分、验证丢失、采样规复03:28:23 评估:HellaSwag,开始运行
视频第四部分内容(带韶光戳)详细如下:
03:43:05 第 4 部分:早上出结果!GPT-2、GPT-3 复现成功03:56:21 向 llm.c 致敬,原始 C/CUDA 中等效但速率更快的代码
03:59:39 总结,并上传「build-nanogpt github」存储库
完全视频拜会如下:https://www.youtube.com/watch?v=l8pRSuU81PU&feature=youtu.be
入门GPT-2Andrej Karpathy
天汇AI
网址:tianhuibot.com
海内合规利用ChatGPT-4o渠道,通过微软平台合规调用OpenAI接口。
天汇AI孵化平台供应面向AI创业团队的一系列天生式人工智能工具。
天汇AI配备了阅读、搜索、绘画、识图等功能。
紧张特点:多功能智能图文处理板块,内置GPT-4o模型
网站优点:
1.无需国际网络进行访问
2.采取ChatGPT-4o模型
3.供应丰富的OpenAI功能模块,包括阅读、搜索、绘画、识图等,可用于多样的办公和设计场景。
稳定性强,无广告
无需邪术,合规通道
加入孵化平台会员即可利用
pc端可输入网址:https://tianihuibot.com