主成分分析（PCA）是一种对数据进行降维，并尽可能保留更多信息的方法。在PCA中，衡量信息的多少的指标是变量的 “分散” 程度。例如，考虑以下数据：
Pasted image 20250605192345.png

X轴上的分散程度远远大于Y轴上的，因此我们认为X轴上蕴含的信息比Y轴上要多。而为了衡量数据在某个轴上的分散程度，一个自然的想法是求出数据在该轴上的方差。而PCA的思想，就是建立一个新的 $m$ 维坐标系，使得在新坐标系各坐标轴上数据的方差尽量大。

数学推导

设有一列数据 ${X_{n}}$ ，那么问题转化为，求出一个单位向量 $w$ ，使得这些数据在这个向量方向上的投影长度的方差最大。由于 $w$ 是单位向量， $X_{i}$ 在 $w$ 方向上投影的长度就是 $w^{T} X_{i}$ 。因此可以列式如下：

$D (X) = \frac{1}{n} \sum_{i = 1}^{n} (w^{T} X_{i} - w^{T} \overset{―}{X})^{2}$

其中涉及到 $\overset{―}{X}$ ，为了计算方便，不妨对 $X$ 进行去中心化： $X_{i}^{'} = X_{i} - \overset{―}{X}$ 。则式子变成下面的形式：

$\begin{aligned} D (X) & = \frac{1}{n} \sum_{i = 1}^{n} (w^{T} X_{i}^{'})^{2} \\ = \frac{1}{n} \sum_{i = 1}^{n} (w^{T} X_{i}^{'}) (w^{T} X_{i}^{'})^{T} \\ = \frac{1}{n} \sum_{i = 1}^{n} w^{T} X_{i}^{'} X_{i}^{' T} w \\ = \frac{1}{n} w^{T} (\sum_{i = 1}^{n} X_{i}^{'} X_{i}^{' T}) w \end{aligned}$

其中， $\sum_{i = 1}^{n} X_{i}^{'} X_{i}^{' T} = \sum_{i = 1}^{n} (X_{i} - \overset{―}{X}) (X_{i} - \overset{―}{X})^{T}$ 是 $X$ 的协方差矩阵，不妨记作 $C$ ,则问题转化为在 $w^{T} w = 1$ 的条件下，求 $w^{T} C w$ 的最大值。因此使用拉格朗日乘子法，列出拉格朗日方程如下：

$L (w, λ) = w^{T} C w - λ (1 - w^{T} w)$

求出偏导数并使其为 $0$ :

${\begin{cases} \frac{\partial L}{\partial w} = 2 C w - 2 λ w = 0 \\ \frac{\partial L}{\partial λ} = - (1 - w^{T} w) = 0 \end{cases}$

因此：

${\begin{cases} C w = λ w \\ w^{T} w = 1 \end{cases}$

不难发现， $w$ 就是 $C$ 的特征向量，而 $λ$ 就是对应的特征值。带回到方差算式中： $D (X) = \frac{1}{n} w^{T} C w = \frac{1}{n} w^{T} λ w = \frac{λ}{n}$ ，因此对 $C$ 作特征值分解后，取前 $m$ 大的特征值对应的特征向量，由于 $C$ 是对称的矩阵，因此特征向量间相互正交，那么将数据投影到这些向量的方向上就完成了PCA的过程。

numpy实现

import numpy as np

def PCA(data):
	data = data - data.mean(axis = 1, keepdims = True)
	C = np.dot(data,data.T)
	
	u,v,d = np.linalg.svd(C)
	
	return np.dot(u[:,:k].T, data)

主成分分析（PCA）

AI 摘要

数学推导

numpy实现

强化学习（一）：多臂老虎机问题

CS2 指令系统（一）：实体与IO系统

Comments NOTHING

取消回复