我是否正确地说,标准化也会受到极端值的负面影响?
的确,你是; scikit-learn 文档 他们自己明确警告这样的情况:
但是,当数据包含异常值时, StandardScaler 经常会被误导。在这种情况下,最好使用对异常值具有鲁棒性的定标器。
StandardScaler
或多或少,同样适用于 MinMaxScaler 同样。
MinMaxScaler
我真的看不出怎么了 的 强大的缩放器 强> 改进了数据因为我还有 的 极端值 强> 在结果数据集?任何简单完整的解释?
的 健壮并不意味着 免疫的 , 要么 无懈可击 强> ,缩放的目的是 不 “消除”异常值和极端值 - 这是一个单独的任务,有自己的方法;这再次清楚地提到了 相关的scikit-learn文档 :
的 RobustScaler 强> [...]请注意,异常值本身仍然存在于转换后的数据中。如果需要单独的异常值限幅,则需要进行非线性变换(见下文)。
的 RobustScaler 强>
[...]请注意,异常值本身仍然存在于转换后的数据中。如果需要单独的异常值限幅,则需要进行非线性变换(见下文)。
其中“见下文”指的是 QuantileTransformer 和 quantile_transform 。
QuantileTransformer
quantile_transform