Pytorch的Variable

pytorch两个基本对象：Tensor（张量）和Variable（变量）

其中，tensor不能反向传播，variable可以反向传播。

tensor的算术运算和选取操作与numpy一样，与numpy相似的运算操作都可以迁移过来。

Variable

variable是一种可以不断变化的变量，符合反向传播，参数更新的属性。pytorch的variable是一个存放会变化值的地理位置，里面的值会不停变化，像装糖果（糖果就是数据，即tensor）的盒子，糖果的数量不断变化。

在PyTorch中计算图的特点总结如下：autograd根据用户对Variable的操作来构建其计算图。

variable默认是不需要被求导的，即requires_grad属性默认为False，如果某一个节点的requires_grad为True，那么所有依赖它的节点requires_grad都为True。
variable的volatile属性默认为False，如果某一个variable的volatile属性被设为True，那么所有依赖它的节点volatile属性都为True。volatile属性为True的节点不会求导，volatile的优先级比requires_grad高。
多次反向传播（多层监督）时，梯度是累加的。一般来说，单次反向传播后，计算图会free掉，也就是反向传播的中间缓存会被清空【这就是动态度的特点】。为进行多次反向传播需指定retain_graph=True来保存这些缓存。
backward(grad_variables=None,retain_graph=None,create_graph=None**)** 反向传播，求解Variable的梯度。放在中间缓存中。
grad_variables是y求导时的梯度参数，由于autograd仅用于标量，因此当y不是标量且在声明时使用了requires_grad=True，必须指定grad_variables参数，在完成原始的反向传播之后得到的梯度会对这个grad_variables进行修正，然后将结果保存在Variable的grad中。grad_variables形状必须与Variable一致。在深度学习中求导与梯度有关，因此grad_variables一般会定义类似为[1, 0.1, 0.01, 0.001]，表示梯度的方向，取较小的之不会对求导效率有影响。