0%

论文学习-Stochastic Sparse Subspace Clustering

Note

Stochastic Sparse Subspace Clustering,随机稀疏子空间聚类论文精读。在阅读该论文时,笔者无任何子空间聚类的知识基础,仅以个人理解对该论文进行了翻译、总结,以及提出自己疑问和思考。文中难免存在错误,欢迎各位留言讨论、批评指正。

Translation

Abstract

最先进的子空间聚类方法基于自表达模型,它将每个数据点表示为其他数据点的线性组合。通过将这种表示约束为稀疏的,稀疏子空间聚类保证产生子空间保持的数据亲和矩阵,仅当两个点来自同一个子空间,他们才是连通的。然而,来自同一个子空间的所有数据可能不是全连通的,这导致了过度分割的问题。我们引入了dropout来解决过度分割问题,它在自表达模型中随机删除数据点。特别地,我们证明了dropout等价于在表示系数上添加一个\(l_2\)范数正则项,从而得到更密集的解。然后,我们将优化问题重新表述为一组小规模子问题上的共识问题。这就有了一个可伸缩的和灵活的稀疏子空间聚类方法,称为随机稀疏子空间聚类,可以有效地处理大规模数据集。在合成数据和真实数据集上地广泛实验验证了我们想法的效率和有效性。

1. Introduction

在许多现实世界应用中,高维数据可以很好地近似为低维子空间的并集,其中每个子空间对应于一个类或一个类别。子空间聚类,即将一组数据划分到它们所属的子空间,已经有了很多的重要应用,例如运动分割、图像聚类、混合系统识别、基因表达支持聚类等等。

之前的工作。一种传统的子空间聚类方法是k-子空间聚类方法,它通过参数化子空间的基,来找到一个数据点与相应子空间之间的距离最小化分割。k-子空间方法需要精确的估计子空间的维数,在许多应用中不适用。另外,相关的优化问题是非凸的,因此想要得到最优解良好的初始化很重要。由于k-子空间方法的局限性,现代子空间聚类使用谱聚类方法,从适当的数据亲和图中进行数据分割,该数据亲和图捕获两点是否来自同一子空间。许多早期构造亲和图的方法都是基于拟合和比较局部子空间的。这种方法需要子空间上的密集样本,并且不能处理子空间相交的情况。

过去几年里,自表达模型已经成为计算子空间聚类亲和图的强大工具,激发了大量的发展和应用。给定一个数据矩阵\(X = [x_1, ..., x_N] ∈ R^{D\times N}\),其列来自子空间的并集,自表达模型将每个数据点\(x_j\in R^D\)表示为其他数据点的线性组合,例如 \[ \boldsymbol{x}_j = X \boldsymbol{c}_j + \boldsymbol{e}_j, c_{jj} = 0 \tag{1} \] ,其中\(\boldsymbol{c}_j\in R^N\)是系数向量,\(\boldsymbol{e}_j\)是误差项。虽然(1)中的方程可能有许多可行的解,但至少存在一个解\(\boldsymbol{c}_j\)满足子空间保持性质,即仅当\(\boldsymbol{x}_i\)\(\boldsymbol{x}_j\)位于同一个子空间中时,\(c_{ij}\ne 0\)。给定子空间保持的表示\([\boldsymbol{c}_i, ..., \boldsymbol{c}_N]\),亲和图是由亲和矩阵推导出的,其中的第\(i\)行第\(j\)列为\(|c_{ij}| +|c_{ji}|\)

稀疏子空间聚类。许多方法通过在系数\(\boldsymbol{c}_j\)上施加先验或正则化来计算子空间保持表示。其中,基于寻找最稀疏解的稀疏子空间聚类SSC由于其理论保证和经验上的成功而变得非常流行。在温和条件下,即使数据点被异常值、噪声或缺失值损坏,以及子空间相交或仿射,SSC也能保证得到子空间保持性质的解。

子空间保持恢复保证来自不同子空间的两个点是不相连的,但不保证来自同一个子空间的点形成单个连同分量。因此,一个连通性问题出现了,即谱聚类方法会对没有完全连接的数据点产生过度分割。特别地,一项早期的工作[31]证明当子空间的维数超过3时SSC中确实存在连通性问题。

有几项工作已经尝试了解决SSC中的连通性问题。系数矩阵的低秩正则化可得密集解,基于这一事实,在[53]中提出了一种\(l_1\)和核范数的混合方法来解决连通性问题。不幸的是,解决[53]中的优化问题需要在算法的每次迭代中进行奇异值分解,这无法用于进行大规模数据计算。最近,在[51]中,提出了一个后处理步骤,将子空间的潜在过度分段片段合并到同一集群中。虽然这种方法在概念上很简单,并且有理论保证,但它只在亲和力图完全符合子空间保持性质的理想化条件下有效。

本文的贡献。我们利用dropout来解决SSC中的连通性问题。dropout是一种用于深度学习的隐式正则化技术,可以有效地缓解过拟合。本文中地dropout指在计算自表达表示时均匀随机地删除X中的列的操作。这种操作等价于在表示系数向量\(c_j\)上添加\(l_2\)正则化项,有效地得到了密集解。通过删除字典中的列,我们只需要解决只涉及原始数据集一小部分的优化问题。在处理无法加载到内存中的超大尺度数据集时,这是一个特别具有吸引力的特性。

本文的贡献如下:

  • 我们在子空间聚类的自表达模型中引入了dropout技术,证明了它近似等价于\(l_2\)范数正则项。
  • 我们提出了一种基于删除数据矩阵中列的随机稀疏子空间聚类模型。该模型具有灵活的可扩展性和提高亲和图连通性的隐式能力。
  • 我们将随机稀疏子空间聚类模型重新表述为一个共识优化问题,并开发了一个有效的共识算法来求解它。
  • 我们在合成数据和真实世界的基准数据上进行了广泛实验,并展示了我们模型的最先进性能。

子空间聚类中的自表达模型。现有的基于自表达模型的子空间聚类方法可以分为三组。a)为了获得子空间保持的解决方案,现有的方法在\(\boldsymbol{c}_j\)上使用不同的正则化。这包括\(ℓ_1\)范数、核范数、\(ℓ_2\)范数、traceLasso范数、\(ℓ_1\)+核范数、\(ℓ_1+ℓ_2\)范数、\(ℓ_0\)范数和加权\(ℓ_1\)范数。b)为了处理实际应用中出现的不同形式的噪声,现有方法在\(e_j\)上使用不同的正则化,例如,[11]中的\(l_1和l_2\)范数,[25]中的\(l_{2,1}\)范数,[18]中混合的高斯范数,以及[22]中的加权误差熵。c)为了在适当的特征空间中执行子空间聚类,相结合自表达模型与基于学习线性投影[26,35]或卷积神经网络的特征学习方法。

可扩展的子空间聚类。近年来,几种尝试解决子空间聚类可扩展性的方法已经被提出。例如,在[36]中,首先聚集少量的数据子集,然后根据学习到的集群对其余的数据进行分类;采用贪婪算法[34]求解稀疏自表达模型;在[43]中,使用sketching技术来加速SSC;在[56]中,提出了一种将SSC扩展到大规模数据的分治框架;在[37]中,提出了一种基于在线字典学习的方法来扩展低秩的子空间聚类;在[1]中,SSC在分层聚集的多个数据子集上进行,然后通过多层图融合方法进行合并;在[57]中,提出了一种贪婪的范例选择方法来扩展SSC来处理类不平衡数据。虽然这些方法在较大规模的数据集上进行子空间聚类,但对中用于子空间聚类的字典的质量没有任何理论保证,也没有任何努力解决中SSC的连通性问题。因此,由于使用次采样数据或错误的过度分割,严重牺牲了这些方法的聚类精度。最后,上述几乎所有的子空间聚类方法都需要将整个数据加载到内存中。如果数据的大小太大,这些方法仍然不能工作。

3. Dropout in Self-Expressive Model

我们正式地将dropout操作引入到自表达模型中,并且证明它等价于在表示向量上添加一个\(l_2\)正则化。在下一节中,我们使用这种dropout的特性来开发一个可伸缩和灵活的子空间聚类模型,用于解决与SSC相关的图连通性问题。

考虑如下的自表达残差最小化问题: \[ \displaylines { \min_{c_j} \Vert \boldsymbol{x_j} - X \boldsymbol{c_j} \Vert^2_2, \\ s.t. \quad c_{jj} = 0 \tag{2} } \] 受神经网络训练中使用的dropout技术启发,我们在(2)中的自表达模型中提出了dropout操作。类似于在神经网络中丢弃“隐藏的神经元”,我们的操作是随机均匀地丢弃X的列。

特别地,我们引入\(0 \le \delta \le 1\)作为dropout率,令\(\{ \xi_i \}^N_{i=1}\)为N个独立同分布的伯努利随机变量,概率分布如下 \[ \xi_i = \begin{cases} \frac{1}{1 - \delta}, & \text{with probability }1 - \delta, \\ 0, & \text{with probability } \delta \end{cases} \tag{3} \] 然后,通过在\(X\)对应的列中乘以对应的伯努利变量\(\{ \xi_i \}^N_{i=1}\)来实现随机均匀地丢弃\(X\)中的列,即: \[ \min_{c_j} \Vert \boldsymbol{x_j} - \sum_i \xi_i c_{ij}\boldsymbol{x_i} \Vert^2_2, \quad s.t. \quad c_{jj} = 0 \tag{4} \] 下面的定理给出了自表示模型中dropout的渐近效应。

定理1\(\{ \xi_i \}^N_{i=1}\)为N的独立同分布的伯努利随机变量,且概率分布为(3)。我们有: \[ \begin{align*} & \mathbb{E}_{\xi} \Vert \boldsymbol{x_j} - \sum_i \xi_i c_{ij} \boldsymbol{x_i} \Vert_2^2 \\ & = \Vert \boldsymbol{x_j} - \sum_i c_{ij} \boldsymbol{x_i} \Vert_2^2 + \frac{\delta}{1 - \delta} \sum_i \Vert \boldsymbol{x_i} \Vert^2_2 c^2_{ij} \end{align*} \tag{5} \] 通过定理1,我们可以知道优化问题 \[ \min_{c_j} \mathbb{E}_{\xi} \Vert \boldsymbol{x_j} - \sum_i \xi_i c_{ij} \boldsymbol{x_i} \Vert_2^2 \quad s.t. \quad c_{jj} = 0 \tag{6} \] 等价于优化问题 \[ \min_{c_j} \Vert \boldsymbol{x_j} - \sum_i c_{ij} \boldsymbol{x_i} \Vert_2^2 + \frac{\delta}{1 - \delta} \sum_i \Vert \boldsymbol{x_i} \Vert^2_2 c^2_{ij} \quad s.t. \quad c_{jj} = 0 \tag{7} \] 特别地,如果\(X\)的列具有单位\(l_2\)范数(例如通过数据预处理步骤),那么(7)可以简化为 \[ \min_{c_j} \Vert \boldsymbol{x_j} - \sum_i c_{ij} \boldsymbol{x_i} \Vert_2^2 + \lambda \sum_i \Vert \boldsymbol{c_j} \Vert^2_2 \quad s.t. \quad c_{jj} = 0 \tag{8} \] 其中\(\lambda = \frac{\delta}{1 - \delta}\). 这正是基于最小二乘回归的子空间聚类方法的公式[28],并且一般可以产生密集的解。

在本文中,我们的目标是基于公式(6)开发一种可扩展和灵活的子空间聚类方法,由公式(8)的等价性可知,其具有隐式的\(ℓ_2\)正则化,可诱导密集解。为了实际目的,我们用样本均值替换期望\(E_ξ[·]\),并通过解决以下优化问题来解决(6)中的问题 \[ \min_{c_j} \frac{1}{T} \sum_{t=1}^T \Vert \boldsymbol{x_j} - \sum_i \xi_i^{(t)} c_{ij} \boldsymbol{x_i} \Vert_2^2 \quad s.t. \quad c_{jj} = 0 \tag{9} \] 其中\(\xi^{(t)}_i\)是概率分布为(3)的独立同分布的伯努利随机变量的第t个实例。

4. Stochastic Sparse Subspace Clustering: Formulation and A Consensus Algorithm

正如在介绍中简要讨论的,稀疏子空间聚类的目的是找到一个具有最稀疏的系数向量的自表达表示。即目标是解决如下优化问题 \[ \min_{c_j} \Vert \boldsymbol{x_j} - X \boldsymbol{c_j} \Vert^2_2, \quad s.t. \quad \Vert \boldsymbol{c_j} \Vert_0 \le s, \quad c_{jj} = 0 \tag{10} \] 其中\(\Vert · \Vert_0\)\(l_0\)的伪范数即向量中非0元素的个数,\(s\)是一个控制解稀疏性的调谐参数。[60]证明了,在温和条件下,贪婪算法Orthogonal Matching Pursuit (OMP)可以产生一个子空间保持的解。另一方面,[60]也发现由OMP产生的解非零元素的个数不会超过\(x_j\)所在子空间的维数。这个上界限制了OMP产生密集亲和图的能力,导致了过度分割的高风险。

我们加入上一节的dropout技术通过OMP来解决(10)中的连通性问题。具体地说,在第4.1节中,我们提出了一种灵活的子空间聚类方法,它将SSC与(9)相结合,然后将其重写为一个共识优化问题。然后,在第4.2节中,我们提出了一种有效的交替最小化算法来解决共识问题。

4.1 Stochastic Sparse Subspace Clustering

结合(9)中的自表达模型的样本均值和(10)中的稀疏约束,我们提出了一个随机稀疏子空间聚类模型如下: \[ \displaylines { \min_{c_j} \frac{1}{T} \sum_{t=1}^T \Vert \boldsymbol{x_j} - \sum_i \xi_i^{(t)} c_{ij} \boldsymbol{x_i} \Vert_2^2\\ s.t. \Vert \boldsymbol{c_j} \Vert_0 \le s, \quad c_{jj} = 0 \tag{11} } \] 其中\(s\)控制了解的稀疏性。由于在T个子问题中使用的字典的随机性质和稀疏性约束,我们称(11)为随机稀疏子空间聚类。

为了理解问题(11)的本质,我们引入了\(T\)个辅助变量\(\{ b_j^{(t)} \}_{t=1}^T\),并推导出的等价公式如下: \[ \displaylines { \min_{ {c_j}, \{ \boldsymbol{b_j^{(t)}} \}^T_{t=1}} \frac{1}{T} \sum_{t=1}^T \Vert \boldsymbol{x_j} - \sum_i \xi_i^{(t)} b_{ij}^{(t)} \boldsymbol{x_i} \Vert_2^2 \\ s.t. \quad \boldsymbol{b_j^{(1)}} = ...= \boldsymbol{b_j^{(T)}} = \boldsymbol{c_j} \quad \Vert \boldsymbol{b_j^{(t)}} \Vert_0 \le s, \quad b_{jj}^{(t)} = 0, \quad t = 1,...,T \tag{12} } \] 这显然是一个关于T块的共识问题。一旦找到最优解\(c_j\),我们通过\(a_{ij}=\frac{1}{2}(|c_{ij}|+|c_{ji}|)\)计算亲和值,并通过[38]中的归一化切割在亲和矩阵上应用谱聚类。

备注。在问题(12)中,T个子问题可以并行解决,每个子问题平均使用一个具有\((1 - δ)N ≪ N\)列的小字典。尤其当数据量太大无法载入内存时,这非常有吸引力。

4.2 Consensus Orthogonal Matching Pursuit

为了有效的解决问题(12),我们不精确地解决问题(12)而是引入了一组惩罚项,并解决如下的放宽问题: \[ \displaylines { \min_{\boldsymbol{c}_j,\{ \boldsymbol{b_j^{(t)}} \}^T_{t=1}} \frac{1}{T} \sum_{t=1}^T \Vert \boldsymbol{x_j} - \sum_i \xi_i^{(t)} b_{ij}^{(t)} \boldsymbol{x_i} \Vert_2^2 + \lambda \Vert \boldsymbol{b_j^{(t)}} - \boldsymbol{c_j} \Vert_2^2 \\ s.t. \quad \Vert \boldsymbol{b_j^{(t)}} \Vert_0 \le s, \quad b_{jj}^{(t)} = 0, \quad t = 1,...,T \tag{13} } \] 其中,\(\lambda > 0\)是一个惩罚参数。我们通过交替更新\(\{ b^{(t)}_j \}^T_{t=1}和c_j\)来解决问题(13).

1.当\(c_j\)固定:我们从每个\(T\)子问题中并行地求解\(\{ b^{(t)}_j \}^T_{t=1}\),如下: \[ \displaylines { \min_{\boldsymbol{b_j^{(t)}}} \Vert \boldsymbol{x_j} - \sum_i \xi_i^{(t)} b_{ij}^{(t)} \boldsymbol{x_i} \Vert_2^2 + \lambda \Vert \boldsymbol{b_j^{(t)}} - \boldsymbol{c_j} \Vert_2^2 \\ s.t. \quad \Vert \boldsymbol{b_j^{(t)}} \Vert_0 \le s, \quad b_{jj}^{(t)} = 0 \tag{14} } \]\(\mathcal{I}^{(t)} := \{ i:\xi^{(t)}_i > 0 \}\)为第\(t\)个子问题中保留的列索引集,\(\mathcal{J}^{(t)} := \{ i:\xi^{(t)}_i = 0 \}\)为第\(t\)个子问题中丢弃的列索引集,\(\Xi^{(t)}\)为与\(X\)同样大小的矩阵,其中\(J\)标识的列为\(0\)向量。为了清晰期间,我们通过字典\(\Xi^{(t)}\)重写问题(14),但忽略上标\(t\),如下: \[ \displaylines { \min_{\boldsymbol{b_j^{(t)}}} \Vert \boldsymbol{x_j} - \Xi \boldsymbol{b_j} \Vert_2^2 + \lambda \Vert \boldsymbol{b_j} - \boldsymbol{c_j} \Vert_2^2 \\ s.t. \quad \Vert \boldsymbol{b_j} \Vert_0 \le s, \quad b_{jj} = 0 \tag{15} } \] 为了有效的解决问题(15),我们开发了一个贪婪算法来从保留列的索引集\(\mathcal{I}\)中更新\(b_j\)。具体来说,我们初始化支持集\(S^{(0)}\)为空集,残差\(q^{(0)}_j = x_j\),通过贪婪搜索过程来寻找解\(b_j\)的支持集\(S^{(k+1)}\),即在每次迭代中通过加一个索引\(i^*\)递增\(S^{(k)}\)\[ i^* = arg \max_{i \in \mathcal{I\backslash S^{(k)}}} \psi_i(\boldsymbol{q_i^{(k)}}, \boldsymbol{c_j}) \tag{16} \] 其中\(\psi_i(\boldsymbol{q_i^{(k)}}, \boldsymbol{c_j}) = (\boldsymbol{x_i^T} \boldsymbol{q_j^{(k)}})^2 + 2 \lambda \boldsymbol{x_i^T} \boldsymbol{q_j^{(k)}}c_{ij} - \lambda c^2_{ij}\),更新\(S^{(k+1)} = S^{(k)} \cup \{ i^* \}\)来以封闭形式解决问题: \[ \displaylines { \min_{\boldsymbol{b_j^{(t)}}} \Vert \boldsymbol{x_j} - \Xi \boldsymbol{b_j} \Vert_2^2 + \lambda \Vert \boldsymbol{b_j} - \boldsymbol{c_j} \Vert_2^2 \\ s.t. \quad supp(\boldsymbol{b_j}) \subseteq S^{(k+1)} \tag{17} } \] 然后计算残差\(\boldsymbol{q^{(k+1)}} = \boldsymbol{x_j} - \Xi \boldsymbol{b_j}^{(k+1)}\).

我们将解决问题(15)的步骤总结成算法1,称为Damped Orthogonal Matching Pursuit (Damped OMP).

2.当\(\{ b^{(t)}_j \}^T_{t=1}\)固定

我们从如下问题来求解\(c_j\) \[ \min_{\boldsymbol{c_j}} \frac{\lambda}{T} \sum_{t=1}^T \Vert \boldsymbol{b}^{(t)}_j - \boldsymbol{c}_j \Vert^2_2 \tag{18} \] 该问题有一个封闭形式的解\(c_j = \frac1{T} \sum^{T}_{t=1} b^{(t)}_j\).

我们将求解共识问题(13)的交替最小化算法总结成算法2,称为Consensus OMP。为了清晰性,我们将我们提出的子空间聚类方法过程梳理成算法3,称为Stochastic Sparse Subspace Clustering via Orthogonal Matching Pursuit with Consensus \((S^3COMP-C)\),并且我们用\(S^3COMP\)指代通过只有一个外部迭代的算法2来解决共识问题(13)的方法。注意,每个\(b^{(t)}_j\)的支持集大小取决于\(s\)\(c_j\)的支持集大小取决于\(sT\),因此改善了推导出的亲和图的连通性。

收敛性和终止条件。和OMP中的收敛分析一样,算法1最多在\(s\)步内收敛。对于算法2,我们检查两个连续迭代中\(c_j\)的相对差值是否小于某个阈值\(\varepsilon\)或达到最大迭代次数来判断是否终止。尽管我们不能证明算法2的收敛性,在合成数据和真实世界数据上的实验证明了它很好的收敛性。在实验中,我们观察到外部迭代的数量很小,即在真实世界的数据集上\(T_0 = 3 \sim 5\).

复杂度分析.在算法2中,它通过damped OMP并行地解决了\(T\)个规模简化的子问题,每个子问题需求\(N(1 - \delta)\)次内积。因此,每个子问题在一次外部迭代的计算复杂度为\(\mathcal{O}(D N^2 (1 - \delta) s)\). \(S^3COMP和S^3COMP-C\)的亲和矩阵最多包含\(sTN\)个非零项;\(SSCOMP\)包含最多\(sN\)个非零项。使用ARPACK分解稀疏矩阵的特征值需要\(\mathcal{O}(snTN)\)操作,其中\(n\)是子空间的数量(即集群)。尽管\(S^3COMP\)\(S^3COMP-C\)的亲和矩阵包含更多的非零项(至多\(sTN\)),亲和矩阵仍是稀疏的,因此,谱聚类中特征值分解的时间复杂度为\(\mathcal{O}(nsTN)\),只比\(SSCOMP\)的复杂度\(\mathcal{O}(nsN)\)高一点。对于大规模数据集,我们令\((1 - \delta) \ll 1\),并行地解决\(T\)个简化规模地子问题。这使\(S^3COMP-C和S^3COMP\)有更灵活的可扩展性。

5. Experiments

为了评估我们提出的方法的性能,我们在合成数据和真实世界的基准数据集上进行了广泛的实验。

方法和指标。我们选择了8种最先进的子空间聚类方法作为基线:SCC, LSR, LRSC和几个可扩展的子空间聚类方法:SSCOMP, EnSC, OLRSC, SR-SSC, ESC. 在实验中,我们使用作者提供的代码来计算自表达式矩阵\(C\),其中调整了参数\((s)\),以获得最好的聚类精度。对于谱聚类,我们将归一化切割应用于通过\(A = |C| + |C^T|\)计算的亲和矩阵A,而SCC有自己的谱聚类步骤。本节所有实验的报告结果平均超过10次试验。接下来,我们以聚类精度(acc:\(a\%\))、子空间保持表示误差(sre:\(e\%\))、连通性(conn:\(c\))和运行时间\((t)\)来评估每个算法。

5.1. Experiments on Synthetic Data

我们遵循[60]中使用的设置,在环境空间\(\mathbb{R}^9\)中随机生成维度为\(d=6\)\(n=5\)个子空间。每个子空间都包含在\(\mathbb{R}^9\)的单位球体上随机采样的\(N_i\)个数据点,其中\(N_i\)从30到3396不等。因此,数据点总数\(N\)从150 ~ 16980不等。为了进行公平的比较,我们使用了与[60]中相同的参数\(s=5\)。我们设置了\(T=15\),并在\(\{ 0.1、0.2、···、0.9 \}\)中选择了dropout率\(δ\)

我们在合成数据上进行了实验,每个子空间有不同的数据点,并报告了准确性、连通性和子空间保持误差。我们将每个度量显示为\(N_i\)的函数,并将它们作为Fig.1曲线表示。我们观察到\(S^3COMP-C和S^3COMP\)在聚类精度和连接性方面都优于\(SSCOMP\),特别是当数据点密度较低时。很明显,\(EnSC、S^3COMP和S^3COMP-C\)在所有情况下都改善了连通性。\(S^3COMP\)的计算时间与(甚至低于)\(SSCOMP\)相当。\(EnSC对S^3COMP\)具有有竞争力的聚类精度,但时间成本高于\(S^3COMP-C\)

为了更好地理解参数\(δ\)\(T\)的影响,我们对不同\(δ∈\{0.1,...,0.9\}\)\(T∈\{5,10,...,100\}\)\(N_i=320\)的合成数据进行了实验。每个度量的性能被记录为\(δ\)\(T\)的函数,并在图中显示为灰色图像的强度Fig.2。我们观察到,即使当\(T\)大于10时,即使使用高dropout率(如\(δ=0.85\)),聚类精度也往往是稳定的。粗略地说,较高的dropout率会导致更高的连通性和更有效的算法。虽然我们也观察到使用较高的dropout rate会导致稍高的子空间保持误差,但这并不一定会降低聚类的精度。这是因为改进的连通性不仅可以避免同一子空间中的数据点过分割,而且可以使同一子空间中的连接数据点在谱嵌入中具有更紧凑的集群。

5.2. Experiments on Real World Datasets

在本小节中,我们演示了该方法在四个基准数据集上的性能,包括Extended Yale B (EYaleB), Columbia Object Image Library (COIL100), MNIST, German Traffic Sign Recognition Benchmark (GTSRB).

数据集描述。Extended Yale B包含2432张正面面部图像,包括38个人在64种不同光照条件下的照片,每张尺寸都为192×168。在我们的实验中,我们使用所有38个人的图像,将每个图像的大小调整为48×42像素,并将每张图像中的原始像素连接作为2016维向量。

COIL100包含7200个100个不同对象的灰度图像。每个物体有72张每间隔5度拍摄的图像。我们将每个图像的大小调整为32×32,并将每个图像中的灰度像素连接为1024维向量。

MNIST包含7万个手写数字0-9的灰度图像。除了整个数据集(表示MNIST70000),我们还准备了两个子集——MNIST4000和MNIST10000,分别由随机采样\(N_i=400\)\(N_i=1000\)图像生成。对于每张图像,我们使用散射卷积网络[6]计算一个维数为3,472的特征向量,然后使用PCA将维数降至500。

GTSRB包含43种街道标志图像,总共有超过5万个样本。我们在ESC[57]中预处理了数据集,这导致了14个类别的12390张图像的不平衡数据集。每个图像由数据库提供的1568维猪特征表示。PCA对特征向量进行均值减除,并将其压缩到维数为500。

设置。请注意,在执行子空间聚类之前,所有特征向量都被归一化为具有单位\(ℓ_2\)范数。为了进行公平的比较,我们分别为MNIST设置\(s=10\),为Extended Yale B设置\(s = 5\),在SSCOMP[60]一样,并为GTSRB和COIL100设置\(s=3\)。对于在真实世界数据集上的实验,我们设置了\(T=15\),并在\(\{0.10、0.20、···、0.90\}\)中选择了dropout率\(δ\)

结果。在Extended Yale B上的结果在Table 1中列出。我们可以发现,\(S^3COMP-C\)\(S^3COMP\)\(SSCOMP\)的聚类准确度分别提高了大约10%和4%,而\(S^3COMP-C\)产生了第二好的聚类精度。在子空间保持误差和计算代价相当或更低的情况下,连通性也获得了提升。虽然ESC产生了最好的聚类精度,但时间成本要大得多。LSR、LRSC和OLRSC的连通性良好,但子空间保持误差较差,因此精度在60%左右。虽然EnSC也具有良好的连通性和较低的子空间保持误差,但其精度和计算时间都比\(S^3COMP-C\)\(S^3COMP\)差。

在Table 2中,我们展示了COIL100上的结果。我们可以看到\(S3COMP-C\)\(S^3COMP\)产生领先的聚类精度,并保持较低的子空间保持误差。由于在\(ℓ_1\)\(ℓ_2\)范数之间做出了很好的权衡,EnSC有第三好的聚类准确度、子空间保持误差和更好的连通性。请注意,最好的三种方法\(S^3COMP-C、S^3COMP\)\(EnSC\)都会产生非常低的子空间保留误差,并且它们都使用了一个(隐式或显式的)\(ℓ_2\)范数.

Table 3和4展示了MNIST上的实验结果。我们可以观察到,\(S^3COMP-C\)仍然在MNIST4000和MNIST10000上提高了大约2∼3%的聚类精度,比SSCOMP提高了更好的连通性,并保持了相当的子空间保持误差。在MNIST70000上,由于连通性问题,SSCOMP产生的结果比\(S^3COMP-C\)\(S^3COMP\)\(EnSC\)要差得多。虽然EnSC有最低的子空间保持误差,但连接性和时间成本并没有一个很好的权衡。请注意,由于内存限制为64G,LSR、LRSC、SCC和OLRSC无法得到结果,而\(S^3COMP-C\)\(S^3COMP\)继承了SSCOMP的计算效率。

在Table 5中,我们展示了GTSRB上的结果。虽然GTSRB是一个不平衡的数据集,但令人惊讶的是,我们可以再次观察到,提出的\(S^3COMP-C\)\(S^3COMP\)优于列出的基线算法,并在所有四个指标中都取得了令人满意的结果。对于EnSC,虽然它产生的子空间保持误差最低,但低连通性会导致了较差的聚类结果。由于数据分布的不平衡,很难在\(ℓ_1\)\(ℓ_2\)规范之间找到一个好的权衡。

5.3. More Evaluations

收敛表现。为了评估所提出的\(S^3COMP-C\)的收敛性,我们展示了在合成数据和真实数据集上连续两次迭代中自表达式矩阵\(C\)的相对变化Fig. 3。我们观察到自表达矩阵在经过几次迭代后变得稳定。这证明了算法2的收敛性。

连通性的提升。为了更好地观察该方法的连通性改进,我们显示了对应于每类GTSRB的标准化图拉普拉斯算子的第二最小特征值的直方图Fig. 4。值得注意的是,标准化图拉普拉斯算子关于每一种类型的第二个次要特征值度量了代数的连通性。第二小特征值的显著改进直观地表明了连通性的显著改进。

Dropout率\(\delta\)的评估。为了评估改变dropout率\(δ\)的影响,我们在合成数据集(每个子空间有不同数量的数据点)上使用不同的dropout率记录了\(S^3COMP-C\)的性能。Fig. 5展示了实验结果。我们观察到,当数据点的密度增加时,当增加dropout率时,聚类精度保持相对稳定。因此,当数据点的密度较高时,我们可以使用更大的dropout率来丢弃更多的数据点。这证明了dropout策略确实导致了灵活的可扩展性,同时在计算效率和聚类精度之间建立一个理想的权衡。

6. Conclusion

我们在子空间聚类的自表达模型中引入了一种dropout策略。利用伯努利随机变量,我们证明了自表达模型中的dropout等价于添加一个平方的\(ℓ_2\)范数正则化。此外,我们提出了一种可伸缩和灵活的子空间聚类方法,并将其表述为一个共识优化问题。我们通过一种由一组damped orthogonal matching pursuits和一个平均运算组成的交替最小化算法来解决了共识问题。这导致了一种有原则的和灵活的方法来提高诱导亲和力图的连通性,并在计算效率和聚类精度之间实现了理想的权衡。在合成数据和真实数据上的广泛实验已经验证了我们的建议的有效性和有效性。

Acknowledgment

基金资助:国家自然科学基金项目(no . 61876022);北京大学机器感知教育部重点实验室开放基金项目。

Knowledge

  1. 如何理解范数?

    如何通俗易懂地解释「范数」? - 知乎

  2. 什么是子空间聚类

    公式(1)

    给定一个n个样本构成的矩阵\(X=[x_1, x_2, …, x_n]\in R^{m*n},x_i \in R^m\),并且已知这n个样本是分别来自k个子空间\({S_i},i=1, …, k\)。令\({d_i\lt m,i=1,…,k}\)表示k个子空间的维度(其中\(d_i\)是未知的)。子空间聚类的目的是将这个n个样本正确地划归到各自所属的子空间中去,即将n个样本聚成k类,每一个类就是一个子空间。

  3. 什么是子空间保持

    公式(1).当且仅当\(\boldsymbol{x}_i\)\(\boldsymbol{x}_j\)位于同一个子空间中时,\(c_{ij}\ne 0\)

  4. 什么是稀疏子空间聚类

    公式(10)

  5. 什么是谱聚类?

    谱聚类原理 - Machine Learning (gitbooks.io)

  6. 什么是伯努利分布

    伯努利分布 - 百度百科

  7. 什么是字典

    给定一个n个样本构成的矩阵\(X=[x_1,x_2,…,x_n]\in R^{m\times n},x_i\in R^m\),其中每一列是一个样本,由\(X\)\(d\)个样本构成一个“字典”\(D=[x_{i1},x_{i2},…,x_{id}]\in R^{m\times d}\), \(D\)中每一列成为原子。那么,每一个样本都可以表示成“字典”中原子的线性组合.

  8. 什么是OMP算法

    正交匹配追踪算法 - CSDN

    Orthogonal matching pursuit: recursive function approximation with applications to wavelet decomposi - Signals, Systems and Computers, 1993. 1993 Conference Record of The Twenty-Seventh Asilomar Confer (neu.edu)

References

  1. Stochastic_Sparse_Subspace_Clustering - thecvf.com
  2. CVPR2020 MSAR报告分享 Stochastic Sparse Subspace Clustering 李春光_bilibili
  3. 王晨朔,稀疏自表示子空间聚类+后续改进
  4. Xijun (Ted) Li, 漫谈高维数据聚类(2):子空间聚类
  5. 多角度理解正则项 - 知乎
  6. 如何通俗易懂地解释「范数」? - 知乎
  7. 谱聚类原理 - Machine Learning (gitbooks.io)
  8. 伯努利分布 - 百度百科
  9. 正交匹配追踪算法 - CSDN
  10. Orthogonal matching pursuit: recursive function approximation with applications to wavelet decomposi - Signals, Systems and Computers, 1993. 1993 Conference Record of The Twenty-Seventh Asilomar Confer (neu.edu)

Questions

  1. 伯努利变量概率为\(1 - \delta\)的值为什么是\(\frac{1}{1 - \delta}\)

    假设概率分布为: \[ \xi_i = \begin{cases} p, & \text{with probability }1 - \delta, \\ 0, & \text{with probability } \delta \end{cases} \tag{3} \] 公式(5)也可化简为: \[ \min_{c_j} \Vert \boldsymbol{x_j} - \sum_i c_{ij} \boldsymbol{x_i} \Vert_2^2 + [p(p-2)(1- \delta) + 1] \sum_i \Vert \boldsymbol{x_i} \Vert^2_2 c^2_{ij} \quad s.t. \quad c_{jj} = 0 \tag{7} \] 也能证明dropout等价于添加\(l_2\)正则项。

    原公式(7): \[ \min_{c_j} \Vert \boldsymbol{x_j} - \sum_i c_{ij} \boldsymbol{x_i} \Vert_2^2 + \frac{\delta}{1 - \delta} \sum_i \Vert \boldsymbol{x_i} \Vert^2_2 c^2_{ij} \quad s.t. \quad c_{jj} = 0 \tag{7} \]

  2. 稀疏子空间聚类是为了得到稀疏系数解,那我们为什么要加正则项得到更密集解?

    我的理解:过于稀疏的系数解会导致亲和矩阵中有许多项为0,\(a_{ij} = \vert c_{ij} \vert + \vert c_{ji} \vert\),从而导致连通性降低,出现过度分割的风险增加。一项早期的工作[31]证明了稀疏子空间聚类存在连通性问题。更密集的解可以提高连通性,但同时可能也会增大子空间保持误差,因此需要一个权衡。

  3. 正则项为什么产生密集解?

    在神经网络中,正则项可以使得参数稀疏,缓解过拟合问题。子空间聚类中正则项是如何导致密集解的?

  4. Consenus Problem是什么意思?T块的Consensus Problem ? 如何解这类问题?

    \[ \displaylines { \min_{ {c_j}, \{ \boldsymbol{b_j^{(t)}} \}^T_{t=1}} \frac{1}{T} \sum_{t=1}^T \Vert \boldsymbol{x_j} - \sum_i \xi_i^{(t)} b_{ij}^{(t)} \boldsymbol{x_i} \Vert_2^2 \\ s.t. \quad \boldsymbol{b_j^{(1)}} = ...= \boldsymbol{b_j^{(T)}} = \boldsymbol{c_j} \quad \Vert \boldsymbol{b_j^{(t)}} \Vert_0 \le s, \quad b_{jj}^{(t)} = 0, \quad t = 1,...,T \tag{12} } \] 带约束优化问题;

  5. 算法1 (Damped OMP)的过程不理解

  6. 为什么算法1 (Damped OMP)可以产生一个子空间保持的解?

  7. 为什么\(S^3COMP\)模型改善了连通性?

    我的理解:dropout等价于隐式正则项,所以导致了密集解,,因此改善了推导出的亲和图的连通性。

  8. \(S^3COMP\)模型复杂度分析不太懂

Next

  1. K-子空间聚类[5, 2]、谱聚类[38]的深入理解
  2. 实验子空间聚类
  3. 稀疏子空间聚类的深入理解:SSC论文[12, 60]
  4. 如何得到一个子空间保持的解?为什么OMP算法可以获得一个子空间保持的解?[60]
  5. 最小二乘回归的子空间聚类方法[26]
  6. 本论文的MATLAB parful代码 -> python GPU

Presentation Tips

  1. 讲这篇论文做了什么
  2. 我如何学习这篇论文:获得了哪些知识?哪些部分理解了?有哪些疑问?

[Presentation Download]