4.5. 无监督维数约减(Unsupervised dimensionality reduction)

如果您的features数量很高,那么在有监督的步骤之前使用一个无监督的步骤来减少它可能是有用的。 很多 无监督学习(unsupervised learning) 方法实现一种可用于降维的 transform 方法。 下面我们将讨论已经被大量使用的这种无监督降维模式的两个具体示例。

Pipelining

非监督数据约简和监督估计器可以链接起来。 请看 Pipeline: 链式估计器.

4.5.1. PCA: 主成分分析

decomposition.PCA 类寻找能够很好地捕捉原始特征方差的一个特征组合。 请看 信号分量分解(矩阵因子分解问题).

4.5.2. 随机投影

random_projection 模块提供了若干通过随机投影(random projections)用于数据约简的工具。 请查看相关文档的介绍: 随机投影(Random Projection)

4.5.3. 特征集聚

cluster.FeatureAgglomeration 类 应用 层次聚类(Hierarchical clustering) 来将相似的特征分组。

特征尺度变换(Feature scaling)

请注意,如果 features 具有非常不同的缩放或统计属性,cluster.FeatureAgglomeration 类 将不能够捕捉相关特征之间的联系。 在这种情况下,使用 preprocessing.StandardScaler 类会非常有用。