相关文章推荐
小百科
›
流粼 - 网易
初始化
大熊猫
秦岭
冷静的树叶
1 年前
首页
知学堂
会员
发现
等你来答
切换模式
登录/注册
IP 属地上海
流粼
查看详细资料
关注他
发私信
动态
回答
7
视频
0
提问
0
文章
6
专栏
0
想法
0
收藏
8
关注
他 的动态
赞同了回答
2023-05-27 19:32
秦岭的大熊猫为什么没有四川的大熊猫名气大?
柳林的风好大
2,472 人 也赞同了该回答
因为秦岭大熊猫数量少,而且丑。没错,秦岭大熊猫真的长得很丑,是普遍都比较丑。很多老陕误导人说秦岭大熊猫更像猫,吻短脸圆,而四川大熊猫更像熊,嘴长脸尖,事实真的如此吗? 看图说话 下图为秦岭大熊猫小丫,丑出天际 下图为秦岭大熊猫阿宝 下图为秦岭大熊猫秦美 下图为秦岭大熊猫园园,出生在北京动物园 下图为秦岭大熊猫永明,出生在北京动物园 下图为大熊猫迎迎,秦岭大熊猫,出生在北京动物园 下图为大熊猫丫丫,没错,…
阅读全文
赞同 2472
1,091 条评论
分享
收藏
喜欢
收藏了文章
2023-05-19 18:49
Optimizer state sharding (ZeRO)
OpenMMLab
小助手:OpenMMLabwx 微信公众号同名
204 人 赞同了该文章
文@
小P家的 001996,967610
前言
训练大模型的挑战
现有并行方法
数据并行
模型并行
流水线并行
为什么需要 ZeRO?
ZeRO 的三个级别
ZeRO-1
ZeRO-2
ZeRO-3
ZeRO-3 宏观概览
1. 初始化
2. 训练中
ZeRO-3 在 DeepSpeed 中的具体实现思路和方式
初始化 - 模型参数的分割
初始化 - 模型参数收集初始化
前向传播中的 ZeRO-3
前向传播中 Model Parameter 的获取(Pre-Forward Hook)
前向传播中 Model Parameter 的分割释放(Post-Forward Hook)
反向传播…
阅读全文
赞同 204
添加评论
分享
收藏
个人成就
获得 150 次赞同
获得 56 次喜欢,322 次收藏
关注了
84
关注者
38
赞助的 Live ⚡️
1
关注的话题
44
关注的专栏
12
关注的问题
27
关注的收藏夹
0
推荐文章