引言

线性代数和高等数学在几乎所有学校的计算机相关专业都会开设。然而，将两者结合起来的对向量进行微分的相关知识却少有课程涉及。本文的目的是提供 在机器学习领域必要的向量微分相关的内容 。

关于这部分内容，这篇文章提供了很好的入门教程，事实上本文也是作为这篇文章的笔记而诞生的。此外，这篇文章是一篇很好的进阶教程。

在本文中，若无特殊说明，则所以的向量都是 列向量 。

向量微分的结果

设有一个向量到向量的函数 $f (\vec{x}) : R^{n} \to R^{m}$ ，它把一个 $n$ 维向量变为一个 $m$ 维向量。设 $f_{i} (\vec{x}) = f (\vec{x})_{i}$ ，我们定义对它微分的结果是一个 $m \times n$ 矩阵：

$\frac{\partial f}{\partial \vec{x}} = [\begin{matrix} \frac{\partial f_{1}}{\partial x_{1}} & \frac{\partial f_{1}}{\partial x_{2}} & . . . & \frac{\partial f_{1}}{\partial x_{n}} \\ \frac{\partial f_{2}}{\partial x_{1}} & \frac{\partial f_{2}}{\partial x_{2}} & . . . & \frac{\partial f_{2}}{\partial x_{n}} \\ ⋱ \\ \frac{\partial f_{m}}{\partial x_{1}} & \frac{\partial f_{m}}{\partial x_{2}} & . . . & \frac{\partial f_{m}}{\partial x_{n}} \end{matrix}]$

这个矩阵被称为 雅可比矩阵 。之所以这样定义，是因为我们希望微分在向量上的扩展有与标量微分中相似的性质，即 $δ f = \frac{\partial f}{\partial \vec{x}} δ x$ 。如果用 $(\frac{\partial f}{\partial \vec{x}})_{i}$ 来表示这个矩阵的第 $i$ 行，根据全微分法则很容易知道 $δ f_{i} = (\frac{\partial f}{\partial \vec{x}})_{i} * δ \vec{x}$ 。

雅可比矩阵是导数在向量微分上的推广。

向量微分链式法则

和标量微分一样，向量微分也有链式法则。向量微分的链式法则和标量下的链式法则类似：

$\frac{\partial \vec{y}}{\partial \vec{x}} = \frac{\partial \vec{y}}{\partial \vec{u}} \frac{\partial \vec{u}}{\partial \vec{x}}$

这里的 $\frac{\partial \vec{y}}{\partial \vec{u}}$ 和 $\frac{\partial \vec{u}}{\partial \vec{x}}$ 都是矩阵，它们的相乘代表矩阵相乘。这个结论可以通过展开矩阵乘法后应用标量下的链式法则得到。

类似的，还可以得到向量的全微分法则：设 $\vec{y} = f ({\vec{u}}_{1}, {\vec{u}}_{2}, . . ., {\vec{u}}_{n})$ ，其中每一个 ${\vec{u}}_{i}$ 都是 $x$ 的函数，那么：

$\frac{\partial \vec{y}}{\partial \vec{x}} = \sum_{i = 1}^{n} \frac{\partial \vec{y}}{\partial {\vec{u}}_{i}} \frac{\partial {\vec{u}}_{i}}{\partial \vec{x}}$

向量微分基础结论

向量间的运算

设 $⊙$ 是一个应用于两个向量的 逐元素 （element-wise）运算符，逐元素 意味着对于两个向量 $a$ 和 $b$ ， $(a ⊙ b)_{i}$ 的结果只和 $a_{i}$ 与 $b_{i}$ 有关。最常见的逐元素运算符包括向量加法，向量减法以及向量的Hadamard积（即逐元素乘法）。

设 $a$ 和 $b$ 是两个 $n$ 维向量，那么 $a ⊙ b$ 可以写成下面的形式：

$a ⊙ b = [\begin{matrix} a_{1} \\ a_{2} \\ ⋮ \\ a_{n} \end{matrix}] ⊙ [\begin{matrix} b_{1} \\ b_{2} \\ ⋮ \\ b_{n} \end{matrix}] = [\begin{matrix} a_{1} ⊙ b_{1} \\ a_{2} ⊙ b_{2} \\ ⋮ \\ a_{n} ⊙ b_{n} \end{matrix}]$

其中 $a_{i} ⊙ b_{i}$ 是完全的标量运算。如果其中一者是变量，另外一个是常量，那么对这个式子求导的雅可比矩阵就是一个 $n \times n$ 方阵。由于 $⊙$ 是逐元素的，因此结果只在对角线上有非 $0$ 值，所以这是一个对角矩阵。

基于此，可以导出以下几个基本的结论：

设 $x$ 和 $c$ 都是 $n$ 维向量，其中 $x$ 是变量， $c$ 是常量，那么：

$\frac{\partial (x + c)}{\partial x} = I$
$\frac{\partial (c x)}{\partial x} = d i a g (c)$ ，这里的 $d i a g (c)$ 代表对角线为 $c$ 的对角矩阵

将常量标量乘上 $x$ 可以看成是第二个结论，因为可以将这个标量看成是 $[c, c, . . ., c]^{T}$ 这个向量。

设 $u$ 和 $v$ 是 $n$ 维向量 $x$ 的两个 $m$ 维向量值函数，他们的逐元素乘法的结果仍然是 $m$ 维的，因此 $u \otimes v$ 的雅可比矩阵是 $m \times n$ 的：

$\begin{aligned} \frac{\partial (u \otimes v)}{\partial x} = & \frac{\partial (u \otimes v)}{\partial u} \frac{\partial u}{\partial x} + \frac{\partial (u \otimes v)}{\partial v} \frac{\partial v}{\partial x} \\ = & d i a g (v) \frac{\partial u}{\partial x} + d i a g (u) \frac{\partial u}{\partial x} \end{aligned}$

向量内积

设 $u$ 和 $v$ 是 $n$ 维向量 $x$ 的两个 $m$ 维向量值函数，那么他们的内积是一个实数。我们把这个实数看成是一个一维向量，因此求导的结果就是一个 $1 \times n$ 的雅可比矩阵：

$\frac{\partial (u \cdot v)}{\partial x} = \sum_{i = 1}^{m} [\frac{\partial (u_{i} * v_{i})}{\partial x_{1}}, \frac{\partial (u_{i} * v_{i})}{\partial x_{2}}, \dots, \frac{\partial (u_{i} * v_{i})}{\partial x_{n}}]$

其中 $\frac{\partial (u_{i} * v_{i})}{\partial x_{1}} = \frac{v_{i} \partial (u_{i})}{\partial x_{1}} + \frac{u_{i} \partial (v_{i})}{\partial x_{1}}$ ，因此：

$\begin{aligned} \frac{\partial (u \cdot v)}{\partial x} = & \sum_{i = 1}^{m} [\frac{v_{i} \partial (u_{i})}{\partial x_{1}} + \frac{u_{i} \partial (v_{i})}{\partial x_{1}}, \frac{v_{i} \partial (u_{i})}{\partial x_{2}} + \frac{u_{i} \partial (v_{i})}{\partial x_{2}}, \dots, \frac{v_{i} \partial (u_{i})}{\partial x_{n}} + \frac{u_{i} \partial (v_{i})}{\partial x_{n}}] \\ = & \sum_{i = 1}^{m} [\frac{v_{i} \partial (u_{i})}{\partial x_{1}}, \frac{v_{i} \partial (u_{i})}{\partial x_{2}}, \dots, \frac{v_{i} \partial (u_{i})}{\partial x_{n}}] + [\frac{u_{i} \partial (v_{i})}{\partial x_{1}}, \frac{u_{i} \partial (v_{i})}{\partial x_{2}}, \dots, \frac{u_{i} \partial (v_{i})}{\partial x_{n}}] \\ = & \sum_{i = 1}^{m} v_{i} [\frac{\partial (u_{i})}{\partial x_{1}}, \frac{\partial (u_{i})}{\partial x_{2}}, \dots, \frac{\partial (u_{i})}{\partial x_{n}}] + u_{i} [\frac{\partial (v_{i})}{\partial x_{1}}, \frac{\partial (v_{i})}{\partial x_{2}}, \dots, \frac{\partial (v_{i})}{\partial x_{n}}] \end{aligned}$

而 $[\frac{\partial (u_{i})}{\partial x_{1}}, \frac{\partial (u_{i})}{\partial x_{2}}, \dots, \frac{\partial (u_{i})}{\partial x_{n}}] = \frac{\partial u_{i}}{\partial x}$ ，因此原来的式子可以写成：

$\begin{aligned} \frac{\partial (u \cdot v)}{\partial x} = & \sum_{i = 1}^{m} v_{i} \frac{\partial u_{i}}{\partial x} + u_{i} \frac{\partial v_{i}}{\partial x} \\ = & v^{T} \frac{\partial u}{\partial x} + u^{T} \frac{\partial v}{\partial x} \end{aligned}$

这个结论的一个特例是 $x$ 与自身的内积：

$\frac{\partial x^{T} x}{\partial x} = 2 x^{T}$

向量与矩阵的运算

设 $A$ 是一个 $m \times n$ 的常量矩阵， $x$ 是一个 $n$ 维向量，那么：

$\frac{\partial (A x)}{\partial x} = A$

逐元素的加与乘

设 $u$ 和 $v$ 是 $n$ 维向量，并且都是 $x$ 的函数，那么：

$\frac{\partial (u + v)}{\partial x} = \frac{\partial u}{\partial x} + \frac{\partial v}{\partial x}$
$\frac{\partial (u \otimes v)}{\partial x} = \frac{\partial (u^{T} v)}{\partial x} = \frac{v \partial u}{\partial x} + \frac{u \partial v}{\partial x}$ ，这里的 $\otimes$ 代表逐元素乘法，而非内积。