Nvidia-smi

​ nvidia-smi是nvidia 的系统管理界面 ,其中smi是System management interface的缩写,它可以收集各种级别的信息,查看显存使用情况。此外, 可以启用和禁用 GPU 配置选项 (如 ECC 内存功能)。

Nvidia-smi面板介绍

​ 解释相关参数含义:

  • GPU:本机中的GPU编号

  • Name:GPU 类型

  • Persistence-M:持续模式的状态,持续模式虽然耗能大,但是在新的GPU应用启动时,花费的时间更少,这里显示的是off的状态。

  • Fan:风扇转速。N/A是风扇转速,从0到100%之间变动,这个速度是计算机期望的风扇转速,实际情况下如果风扇堵转,可能达不到显示的转速。有的设备不会返回转速,因为它不依赖风扇冷却而是通过其他外设保持低温(比如我们实验室的服务器是常年放在空调房间里的)。

  • Temp:温度,单位摄氏度

  • Perf:表征性能状态,从P0到P12,P0表示最大性能,P12表示状态最小性能

  • Pwr:Usage/Cap:能耗表示

  • Bus-Id:涉及GPU总线的相关信息

  • Disp.A:Display Active,表示GPU的显示是否初始化

  • Memory-Usage:显存使用率

  • Volatile GPU-Util:浮动的GPU利用率

  • Uncorr. ECC:关于ECC的东西

  • Compute M.:计算模式

  • Processes 显示每块GPU上每个进程所使用的显存情况。

​ ECC(Error-Correcting Code,错误校正码)内存是一种能够检测和纠正数据传输过程中发生的单比特错误的计算机内存。ECC内存广泛应用于服务器、工作站和其他对数据完整性和系统稳定性有较高要求的环境中。

  1. 编码阶段:当数据写入内存时,ECC内存会根据一定的算法生成一个额外的校验码,并将其与数据一起存储。这个校验码包含了关于数据的冗余信息,用于后续的错误检测和纠正。
  2. 解码阶段:当数据从内存中读取出来时,ECC内存会再次使用相同的算法,根据存储的数据和校验码重新计算,以验证数据的完整性。如果检测到错误,ECC内存可以根据校验码自动修复单比特错误。
  • 提高数据可靠性:ECC内存可以自动检测并纠正单比特错误,大大减少了由于内存错误引起的数据损坏和系统崩溃的风险。

  • 增强系统稳定性:对于服务器和工作站等关键应用来说,ECC内存有助于维持系统的长期稳定运行,避免因内存错误导致的服务中断。

  • 提升安全性:在金融、医疗等对数据安全有严格要求的领域,使用ECC内存可以有效防止因硬件故障导致的数据泄露或篡改。

  • 服务器:企业级服务器通常配备ECC内存,以保证长时间运行的稳定性和数据的准确性。

  • 工作站:高端图形设计、视频编辑等工作站也常使用ECC内存,以确保大型文件处理过程中的数据完整性。

  • 科学计算:高性能计算集群和科研设备中,ECC内存可以帮助避免计算过程中出现的微小误差累积,确保计算结果的精确性。

​ 虽然ECC内存提供了额外的错误检测和纠正功能,但它也有一些缺点,比如成本相对较高,以及在某些情况下可能会稍微降低内存带宽和系统性能。因此,在选择是否使用ECC内存时,需要根据具体应用场景的需求权衡利弊。

参考

https://blog.csdn.net/sallyxyl1993/article/details/62220424