2023 年即将过去。一年以来,各式各样的大模型争相发布。当 OpenAI 和谷歌等科技巨头正在角逐时,另一方「势力」悄然崛起 —— 开源。
开源模型受到的质疑一向不少。它们是否能像专有模型一样优秀?是否能够媲美专有模型的性能?
迄今为止,我们一直还只能说是某些方面接近。即便如此,开源模型总会给我们带来惊艳的表现,让我们刮目相看。
开源模型的兴起正在改变游戏规则。如 Meta 的 LLaMA 系列以其快速迭代、可定制性和隐私性正受到追捧。这些模型被社区迅速发展,给专有模型带来了强有力的挑战,能够改变大型科技公司的竞争格局。
今天我来分享一些广受好评的开源的基础大模型,非基于基础模型的微调模型,列表如下:
序号
|
名称
|
参数规模
|
数据规模
|
说明
|
1
|
LLaMA-2
|
7B,13B,34B,70B
|
2T
|
可商用
|
2
|
Falcon
|
7B,40B,180B
|
3.5T
|
数据集
RefinedWeb
|
3
|
baichuan-2
|
7B,13B
|
2.6T
|
开放,商用需授权,
baichuan-1
|
4
|
InternLM
|
7B,20B
|
2.3T
|
开放,商用需授权
|
5
|
BLOOM
|
3B,7.1B,176B
|
366B
|
可商用,最为宽松,
详细介绍
|
6
|
GALACTICA
|
6.7B,30B,120B
|
106B
|
开放的科学文本和数据
|
7
|
LLaMA
|
7B,13B,30B,65B
|
1.4T
|
Meta,代码开源,模型“泄露”,不可商用,
详细介绍
|
8
|
MOSS-moon
|
16B
|
700B
|
6.67x1022 FLOPs
|
9
|
ChatGLM2
|
6B
|
1.4T
|
|
10
|
StableLM
|
3B,7B
|
800B
|
|
11
|
RedPajama-INCITE
|
3B,7B
|
1T
|
|
12
|
GPT-NeoX
|
20B
|
3.15M
|
800GB的
The Pile
数据集
|
13
|
OpenLLaMA
|
3B,7B,13B
|
1T
|
|
14
|
MPT
|
7B,30B
|
1T
|
|
15
|
Pythia
|
2.8B,6.9B,12B
|
300B
|
|
16
|
XGen
|
7B
|
1.5T
|
|
17
|
OPT
|
6.7B,13B,30B,66B,175B
|
180B
|
|
18
|
Qwen
|
7B,14B,72B
|
2.4T,3.0T,3.0T
|
|
19
|
XVERSE
|
13B,65B
|
1.4T,2.6T
|
|
20
|
Aquila2
|
7B,34B
|
2T
|
|
21
|
Prithvi
|
|
|
IBM+NASA,地理空间,100M(图片)
|
22
|
Skywork
|
13B
|
3.2T
|
昆仑万维·天工
|
23
|
Deepseek Coder
|
1.3B,6.7B,33B
|
2T
|
Deepseek Coder comprises a series of code language models trained on both 87% code and 13% natural language in English and Chinese, with each model pre-trained on 2T tokens.
|
24
|
Aquila
|
7B
|
|
悟道·天鹰
|
25
|
Yi
|
6B,34B
|
3T
|
|
26
|
Mistral
|
7B
|
|
欧洲
|
27
|
Yuan-2
|
2B,51B,102B
|
|
|
28
|
Mistral 7BX8 MoE
|
56B
|
|
7BX8 MoE
|
前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~
建了技术交流群&星球!想要资料、进交流群的同学,可以直接加微信号:mlc2060。加的时候备注一下:研究方向 +学校/公司,即可。然后就可以拉你进群了。
方式①、添加微信号:mlc2060,备注:大模型资料 or 技术交流
方式②、微信搜索公众号:机器学习社区,后台回复:大模型资料 or 技术交流
2023 年即将过去。一年以来,各式各样的大模型争相发布。当 OpenAI 和谷歌等科技巨头正在角逐时,另一方「势力」悄然崛起 —— 开源。开源模型受到的质疑一向不少。它们是否能像专有模型一样优秀?是否能够媲美专有模型的性能?迄今为止,我们一直还只能说是某些方面接近。即便如此,开源模型总会给我们带来惊艳的表现,让我们刮目相看。开源模型的兴起正在改变游戏规则。如 Meta 的 LLaMA 系列以其快速迭代、可定制性和隐私性正受到追捧。
最根本的原因,就是一方在汲汲渴求,而恰恰另一方呈现出的关键点让其怦然心动。求者心中有所想,而应者恰恰展现了求者所想的那一面。这就是个中奥妙。
程序员在找工作时,在一开始有三件事情会对能否获得面试机会至关重要:
1. 知识、技能、经历
梳理
2. 确立求职目标
3. 简历优化
知识、技能、经历
梳理
知识、技能、经历,这都是
一个
人能体现出来的商业价值。一家企业招募某个人,一定是因为这个人可以帮
《泰坦尼克号》里,杰克和露丝为什么会一见钟情?
王子基特为什么会选择灰姑娘辛德瑞拉?
这些问题乍一看似乎和程序员找工作没什么关系,但其实,内在的道理都是相通的,搞明白这些问题,就能清楚下面的问题:
为什么你投十份简历,只有一两家公司约你?又或者为什么你每投一份简历都能获得面试机...