特征金字塔网络(Feature Pyramid Networks,FPN)

Junity 发布于 2024-11-12 565 次阅读


AI 摘要

在计算机视觉领域,如何有效捕捉不同尺寸的图像特征一直是个难题。特征金字塔网络(FPN)应运而生,通过独特的自底向上和自顶向下结构,有效融合多层次信息,突破了传统卷积网络对小尺寸特征的敏感性。本文将深入剖析FPN的工作原理与流程,揭示其在特征提取中的强大能力,带你领略这一革命性技术如何改变我们对图像理解与分析的方式。

FPN全称Feature Pyramid Networks,是对图像生成特征图的一种方式。卷积虽然可以捕捉到图像大尺寸的信息,但会导致对小尺寸信息的不敏感;而FPN将多个尺寸的信息融合在一起,使得模型可以提取多种尺寸的信息。

FPN流程

FPN可以分为两个步部分:自底向上的bottom-up网络和自顶向下的top-down网络。其中,bottom-up网络应用多次卷积,生成原图像多层次的特征图;而top-down则自顶向下融合这些特征图,并输出每一次融合的结果:
fpn_progress.png

bottom-up网络

bottom-up网络实际上是多层的特征提取网络,每一层使用上一层的结果提取特征。可以使用一个多层ResNet网络来作为FPN的bottom-up网络。

top-down网络

设botton-up网络的处理结果为 $C$,其中从上往下第 $i$ 层为 $C_i$ ;同样地设top-down网络处理的结果为 $P$,其中从上往下第 $i$ 层为 $P_i$;FPN对每一层进行以下操作:

  • 对 $C_1$ 进行 $1*1$ 卷积,得到 $P_1$
  • 对 $C_i$ 层进行 $1*1$ 卷积,对 $P_{i-1}$ 层进行上采样,并把结果相加得到 $P_i$ ($i > 1$)

    即:

$$
\begin{align}
P_1 &= Conv_{1*1}(C_1)\\
P_i &= Conv_{1*1}(C_i) + Upsample(P_{i-1})
\end{align}
$$

然后,下一个网络可以利用所有的 $P$ 进行进一步操作。

此作者没有提供个人介绍
最后更新于 2024-11-15