本地 / 服务器部署大语言模型
本博客以 Llama3.2 的 1B-Instruct 版本为例,在远程服务器上部署模型(和在本地部署类似)。服务器为 X86 Ubuntu 系统
首先安装必要的环境如 torch 和 transformers 等
- Llama3 版本的模型权重和分词器需要申请,因此首先去 HuggingFace 的 meta 官方处申请使用模型,也可以直接下载第三方模型;
- 申请通过后,在 “Files and versions” 中下载模型文件
.safetensor
和配置文件.json
到本地,这一步也可以直接通过git
或代码中访问远程仓库下载,但需要远程服务器附魔; - 文件下载完成后,本地打包上传至服务器目录
/home/user/.cache/huggingface/hub/
下; - 写 python 脚本:
python
1 | model_path = "/home/user/.cache/huggingface/hub/Llama3/" |
- 运行脚本即可循环调用模型,实现和大模型的对话
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 JrunDing!
评论