Llama 2是今年下半年刚出的LLM,开源且免费商用,因此很有研究部署它的价值,所以这篇博客简单介绍如何下载和部署Llama 2。Llama 2有7B, 13B, 70B三种不同尺寸的模型。

1. Llama 2官方

​ 注:Llama 2官方的模型针对多卡部署,因此不适用于咱们普通用户消费级显卡部署。

​ Github仓库:https://github.com/facebookresearch/llama

​ 首先注册Llama 2账号:https://ai.meta.com/resources/models-and-libraries/llama-downloads/,这里的邮箱最好和hugging face的一致,后续可以下载hugging face的模型权重。

​ 注册后邮箱会受到邮件,邮件中有一个很长的链接,这个链接后续要用到。

​ git clone Github的仓库到本地,然后创建虚拟环境,根据官方教程输入指令即可。

​ 7B模型权重大概13G。

2. mlc-llm

​ Github仓库:https://github.com/mlc-ai/mlc-llm

​ 这是美国两所大学和上交一起整的免费开源项目,支持在消费级显卡上运行Llama 2,还可以直接在网页使用,在ios和android上部署也能流畅对话。

​ 可以在Github主页看到部署文档。

​ 直接参考https://llm.mlc.ai/docs/index.html#getting-started