H100和4090

产品定位不同。RTX 4090面向消费级市场产品，受众是打游戏的ToB用户。RTX好比方是跑车，虽然速度非常快，面向单个玩家，主打的就是可玩性高。H100面向数据中心、企业级市场，做人工智能大模型训练、HPC等领域的ToC用户。而H100更像是高铁，主打商务，快是基础，另一方面更注重稳定可靠。
单卡价格差距10倍以上。一张RTX 4090市场价，1.3-1.6W。一张H100 PCIe卡在22W左右，八卡HGX模组210W。
产品外观差异很大。RTX4090主要可分为公版和非公版、以及风扇版和涡轮版，风扇版外观五花八门。H100有2种形态：H800 SXM和PCIe。
游戏特性方面差距大。RTX4090支持全新DLSS 3 技术（高级游戏特性），3 代 RT Core的光线追踪性能较上一代大幅提升，H100无游戏特性相关的设计，视频输出接口也没有。
单卡算力差距。RTX 4090的基本参数如下，其中FP16的算力330Tflops，个人分析应该是稀疏后的，稠密算力实际为160Tflos，不少公开的算力租赁平台显示4090 FP16算力160Tflops。
GPU的类型不同。从显卡演进的角度，4090属于全功能GPU，而H100属于GPGPU，通用GPU，阉割了图像显示相关的核心，把GPU芯片的空间都让给计算核心了。
芯片结构差异大。RTX 4090属于Ada Lovelace 架构，16384 个 CUDA 核心，由128个SM组成。H100则为Hopper架构，16896个CUDA核心和528个4.0Tensor核心，阉割了对图像渲染至关重要的光追核心（RT Core）。这个是H100无法打大型3A游戏的关键。H100 132 个SM，单个如下：少了RT core，多了FP64的处理单元。
多卡互联设计。4090不支持GPU Direct，也就是GPU间无法直接通信，必须通过CPU中转，而H100支持GPU Direct，可以借助Nvlink相关技术或者芯片进行卡间高速通信，支持RDMA、GDS（GPU存储直接访问）。
禁售后的阉割比例。4090很不幸达到了最新一期的限供标准，替代品为4090D，D的寓意为龙的英文，玩家戏称为Dog，弟弟；综合性能相当于4090性能的95%，差别并不大，有博主评测和4090在游戏方面差距很低，只有2%左右。H100的阉割版为H800，阉割了面向高性能计算的FP64，以及卡间通信的带宽（由900GB/s降低至400GB/s），虽然后续又推出了H20的新阉割版恢复了卡间互联通信速率以及增加显存，但是综合算力的性能方面仅为H100的20-30%。
销售模式有差异。RTX4090产品在服务器大厂那里是严禁销售的（与英伟达有协议），可通过各类ToC的渠道或者代理公司买到，整体比较随意，二手平台也不少见。H100的销售则是以服务器厂商和专门做GPU卡代理公司为主（以浪潮为例，每年从英伟达的芯片采购都是百亿人民币级别），小部分也通过电商平台，用户更看重质保和售后。