npy文件
最近的遇到了.npy文件,记录一下是什么以及如何存取,其实和pkl、json、yml这种差不了太多。
npy就是将numpy数组保存到磁盘的简单格式,二进制序列,其中包含了numpy数组的全部信息。
使用它的原因:
A LOT faster, also notice that we didn’t need to reshape the data since that information was contained in the .npy file.(速度更快,并且存储了numpy数组的原本结构)
Another “minor” feature of using .npy fi ...
延迟、带宽、吞吐量和响应时间
延迟:客户端到服务器以及服务器到客户端的传输时间.
带宽:每单位时间可以通过通信通道传输的最大数据量.
吞吐量:在给定时间段内成功从一个地方移动到另一个地方的数据量.注意:数据吞吐量永远不会超过网络带宽。
响应时间:从用户发送请求到应用程序指示请求已完成并返回给用户的时间量。
延迟 延迟,也被称为网络延迟,是指数据从发送端到接收端的传输时间。这个传输时间不仅包括数据包在物理传输媒体上传播的时间,还包括了数据包在网络设备上进行处理的时间,以及在队列中等待处理的时间。延迟通常以毫秒(ms)为单位表示,尽管在某些应用中,更精确的度量也可能以微秒(μs)为单位。
往返时间 (RT ...
下载&部署LLM
Llama 2是今年下半年刚出的LLM,开源且免费商用,因此很有研究部署它的价值,所以这篇博客简单介绍如何下载和部署Llama 2。Llama 2有7B, 13B, 70B三种不同尺寸的模型。
1. Llama 2官方 注:Llama 2官方的模型针对多卡部署,因此不适用于咱们普通用户消费级显卡部署。
Github仓库:https://github.com/facebookresearch/llama
首先注册Llama 2账号:https://ai.meta.com/resources/models-and-libraries/llama-downloads/,这里的邮箱最好和 ...
NVIDIA GPU架构
NVIDIA GPU的架构演变历史和基本概念截止2021年,发布时间离我们最近的8种NVIDIA GPU微架构是:
Tesla
Fermi
Kepler
Maxwell
Pascal
Volta
Turing
Ampere
NVIDIA一般以历史上一些著名科学家的名字命名自己的GPU微架构,上面8种微架构分别是:特斯拉,费米,开普勒,麦克斯韦,帕斯卡,伏打,图灵,安培。
其中最新的是2020年宣布的Ampere架构。
Tesla 架构Tesla 架构的资料在官网也没找到多少,不过这是英伟达第一个实现统一着色器模型的微架构。
经典型号是G80,在Fermi架构白皮书的开篇部分有对G80的简 ...