特征工程很好的混合了专业领域知识、直觉和基本的数学能力。
时间戳处理
分解类别属性
分箱/分区
交叉特征
特征选择
特征缩放
特征提取
异常数据的清洗和样本的选取
数据预处理
无量纲化
标准化
区间缩放法
归一化
对定量特征二值化(离散化)
对定性特征进行独热编码
缺失值的处理
删除
统计填充
统一填充
预测填充
具体分析
数据变换
特征选择
过滤法,包装法,嵌入法
Filter方差选择法, 相关系数法,卡方检验,互信息法,Wrapper,递归特征消除法,Embedded,基于惩罚项的特征选择法,基于树模型的特征选择法,训练能够对特征打分的预选模型:GBDT、RandomForest和Logistic Regression等都能对模型的特征打分,通过打分获得相关性后再训练最终模型; 特征组合,降维,主成分分析法(PCA),线性判别分析法(LDA)