相关文章推荐
欢快的南瓜  ·  开源AI中台部署运行·  5 小时前    · 

2023 年即将过去。一年以来,各式各样的大模型争相发布。当 OpenAI 和谷歌等科技巨头正在角逐时,另一方「势力」悄然崛起 —— 开源。

开源模型受到的质疑一向不少。它们是否能像专有模型一样优秀?是否能够媲美专有模型的性能?

迄今为止,我们一直还只能说是某些方面接近。即便如此,开源模型总会给我们带来惊艳的表现,让我们刮目相看。

开源模型的兴起正在改变游戏规则。如 Meta 的 LLaMA 系列以其快速迭代、可定制性和隐私性正受到追捧。这些模型被社区迅速发展,给专有模型带来了强有力的挑战,能够改变大型科技公司的竞争格局。

今天我来分享一些广受好评的开源的基础大模型,非基于基础模型的微调模型,列表如下:

开源的基础大模型列表

序号 名称 参数规模 数据规模 说明
1 LLaMA-2 7B,13B,34B,70B 2T 可商用
2 Falcon 7B,40B,180B 3.5T 数据集 RefinedWeb
3 baichuan-2 7B,13B 2.6T 开放,商用需授权, baichuan-1
4 InternLM 7B,20B 2.3T 开放,商用需授权
5 BLOOM 3B,7.1B,176B 366B 可商用,最为宽松, 详细介绍
6 GALACTICA 6.7B,30B,120B 106B 开放的科学文本和数据
7 LLaMA 7B,13B,30B,65B 1.4T Meta,代码开源,模型“泄露”,不可商用, 详细介绍
8 MOSS-moon 16B 700B 6.67x1022 FLOPs
9 ChatGLM2 6B 1.4T
10 StableLM 3B,7B 800B
11 RedPajama-INCITE 3B,7B 1T
12 GPT-NeoX 20B 3.15M 800GB的 The Pile 数据集
13 OpenLLaMA 3B,7B,13B 1T
14 MPT 7B,30B 1T
15 Pythia 2.8B,6.9B,12B 300B
16 XGen 7B 1.5T
17 OPT 6.7B,13B,30B,66B,175B 180B
18 Qwen 7B,14B,72B 2.4T,3.0T,3.0T
19 XVERSE 13B,65B 1.4T,2.6T
20 Aquila2 7B,34B 2T
21 Prithvi IBM+NASA,地理空间,100M(图片)
22 Skywork 13B 3.2T 昆仑万维·天工
23 Deepseek Coder 1.3B,6.7B,33B 2T Deepseek Coder comprises a series of code language models trained on both 87% code and 13% natural language in English and Chinese, with each model pre-trained on 2T tokens.
24 Aquila 7B 悟道·天鹰
25 Yi 6B,34B 3T
26 Mistral 7B 欧洲
27 Yuan-2 2B,51B,102B
28 Mistral 7BX8 MoE 56B 7BX8 MoE

非基础大模型

技术交流群

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

建了技术交流群&星球!想要资料、进交流群的同学,可以直接加微信号:mlc2060。加的时候备注一下:研究方向 +学校/公司,即可。然后就可以拉你进群了。

方式①、添加微信号:mlc2060,备注:大模型资料 or 技术交流
方式②、微信搜索公众号:机器学习社区,后台回复:大模型资料 or 技术交流

2023 年即将过去。一年以来,各式各样的大模型争相发布。当 OpenAI 和谷歌等科技巨头正在角逐时,另一方「势力」悄然崛起 —— 开源。开源模型受到的质疑一向不少。它们是否能像专有模型一样优秀?是否能够媲美专有模型的性能?迄今为止,我们一直还只能说是某些方面接近。即便如此,开源模型总会给我们带来惊艳的表现,让我们刮目相看。开源模型的兴起正在改变游戏规则。如 Meta 的 LLaMA 系列以其快速迭代、可定制性和隐私性正受到追捧。
最根本的原因,就是一方在汲汲渴求,而恰恰另一方呈现出的关键点让其怦然心动。求者心中有所想,而应者恰恰展现了求者所想的那一面。这就是个中奥妙。 程序员在找工作时,在一开始有三件事情会对能否获得面试机会至关重要: 1. 知识、技能、经历 梳理 2. 确立求职目标 3. 简历优化 知识、技能、经历 梳理 知识、技能、经历,这都是 一个 人能体现出来的商业价值。一家企业招募某个人,一定是因为这个人可以帮
《泰坦尼克号》里,杰克和露丝为什么会一见钟情? 王子基特为什么会选择灰姑娘辛德瑞拉? 这些问题乍一看似乎和程序员找工作没什么关系,但其实,内在的道理都是相通的,搞明白这些问题,就能清楚下面的问题: 为什么你投十份简历,只有一两家公司约你?又或者为什么你每投一份简历都能获得面试机...
为什么你投十份简历,只有一两家公司约你?又或者为什么你每投一份简历都能获得面试机会? 最根本的原因,就是一方在汲汲渴求,而恰恰另一方呈现出的关键点让其怦然心动。求者心中有所想,而应者恰恰展现了求者所想的那一面。这就是个中奥妙。 程序员在找工作时,在一开始有三件事情会对能否获得面试机会至关重要: 1. 知识、技能、经历 梳理 2. 确立求职目标 3. 简历优化 我用3090显卡,chatGLM6B模型尝试,报GPU内存不足。torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 102.00 MiB. GPU 0 has a total capacty of 23.69 GiB of which 17.31 MiB is free. Including non-PyTorch memory, this process has 23.18 GiB memory in use. Of the allocated memory 21.79 GiB is allocated by PyTorch, and 360.93 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF ChatGLM-6B模型结构组件源码阅读 qq_16940641: 大佬,请教一下,attention那里的计算,qk的缩放系数一开是缩小了layer_id倍,最后76行又放大了layer_id倍,这一来一回没什么变化啊,那为什么还需要这么操作呢? 百度机器学习算法春招一二三面面经 Byyyi耀: 大佬互关吗?非常不错的文章,解决了我大问题!赞一个! 大模型LLM Agent在 Text2SQL 应用上的实践 qq_38402407: 请问一下,这种该如何训练呢,以及如何构造训练数据,请问有相关资料吗,谢谢 【RAG实践】基于LlamaIndex和Qwen1.5搭建基于本地知识库的问答机器人 qq_20105917: 在这之前的日志有警告。如下: 2024-06-05 15:35:05,203 - modelscope - WARNING - No preprocessor field found in cfg. 2024-06-05 15:35:05,203 - modelscope - WARNING - No val key and type key found in preprocessor domain of configuration.json file. 2024-06-05 15:35:05,203 - modelscope - WARNING - Cannot find available config to build preprocessor at mode inference, current config: {'model_dir': 'models/iic/nlp_gte_sentence-embedding_chinese-base'}. trying to build by task and model information. 2024-06-05 15:35:05,225 - modelscope - WARNING - No preprocessor field found in cfg. 2024-06-05 15:35:05,225 - modelscope - WARNING - No val key and type key found in preprocessor domain of configuration.json file. 2024-06-05 15:35:05,225 - modelscope - WARNING - Cannot find available config to build preprocessor at mode inference, current config: {'model_dir': 'models/iic/nlp_gte_sentence-embedding_chinese-base', 'sequence_length': 128}. trying to build by task and model information.
 
推荐文章