MiniGPT-4是一个建立在Vicuna-13B上的大型语言模型(LLM)。它使用FastChat和Blip 2来产生许多新兴的视觉语言能力,与GPT-4中所展示的类似。基本上,它是ChatGPT的一个开源和更快的版本,具有将图像作为输入的能力,这是ChatGPT已经承诺但尚未实现的。

想了解更多关于这个项目的信息:
MiniGPT-4:用先进的大型语言模型加强视觉语言理解

第0步:选择你的机器:

如果你有一个不错的GPU和至少24GB的GPU内存,你可以在本地运行MiniGPT-4(免费)。

如果你想获得良好的性能和更便宜的选择,请使用LambdaLabs(付费)云GPU。 在LamdaLabs上设置云实例 ,然后按照以下步骤运行MiniGPT-4。

你也可以跳过这篇文章,在谷歌Colab(仅适用于Colab Plus)或Runpod(付费)上运行。由 Camenduru 制作。

在你的笔记本电脑或云实例中打开终端/命令行,让我们开始吧。

第1步:克隆MiniGPT-4资源库

为了开始工作,通过运行以下命令从GitHub克隆MiniGPT-4仓库:

git clone https://github.com/Vision-CAIR/MiniGPT-4.git

移动到MiniGPT-4目录

cd MiniGPT-4

第2步:安装Miniconda并创建一个Conda环境

接下来,通过运行以下命令下载并安装Miniconda:

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh

然后,激活基础conda环境,并使用提供的environment.yml 文件创建一个新环境:

source ~/.bashrc
conda env create -f environment.yml
conda activate minigpt4

第3步:安装Git LFS并克隆所需的模型存储库

更新你的软件包列表,并通过运行以下程序安装Git LFS:

sudo apt update
sudo apt install git-lfs

然后,克隆Vicuna:

git clone https://huggingface.co/lmsys/vicuna-13b-delta-v0

根据LLAMA(Facebook)的许可证,你必须填写这个表格来申请
原始的LLAMA-13B权重。
但是如果你想测试,你可以使用Huggingface的Repo,你可以马上得到权重。除非你有LLAMA(Facebook)的许可,否则不建议这样做。未经许可进行可能会有风险和潜在的法律影响。

git lfs install
git clone https://huggingface.co/huggyllama/llama-13b

第4步:安装FastChat

安装FastChat,这是MiniGPT-4的一个必要的依赖项,通过运行:

 pip install git+https://github.com/lm-sys/FastChat.git@v0.1.10

第5步:将Delta应用于基本的Llama模型

现在,将Vicuna delta应用到基础Llama模型上。
将路径添加到你上面克隆的模型上:

python -m fastchat.model.apply_delta --base /path/to/llama-13b --target /path/to/output-folder/vicuna --delta /path/to/vicuna-13b-delta-v0

第6步:更新MiniGPT-4配置文件

修改MiniGPT-4/minigpt4/configs/models/minigpt4.yaml 文件以使用新创建的Vicuna模型。将第14行改为:

llama_model: "/path/to/vicuna"

第7步:下载预训练的检查点

从以下链接下载预训练的检查点:

drive.google.com/file/d/1a4z…

然后,在评估配置文件eval_configs/minigpt4_eval.yaml 第11行设置预训练检查点的路径。

ckpt: '/path/to/pretrained_minigpt4.pth'

第8步:运行预训练的模型

最后,用以下命令运行预训练的模型:

python demo.py --cfg-path eval_configs/minigpt4_eval.yaml --gpu-id 0

恭喜你!你已经成功建立并运行了预训练模型!你已经成功设置并运行了MiniGPT-4。享受探索其强大的视觉语言功能,并尝试使用这个新工具。如果你遇到任何问题,请使用下面的评论,我将尽力帮助你。