特征选择：重要性及方法详解

在机器学习中，特征选择是选择对您的预测最有用的特征的过程。尽管听起来很简单，但这是创建新的机器学习模型时最复杂的问题之一。
在本文中，我将与您分享我在Fiverr领导的上一个项目期间研究的一些方法。
您将获得有关我尝试的基本方法以及更复杂的方法的一些想法，该方法获得了最佳效果-删除了60％以上的功能，同时保持了准确性并为我们的模型实现了更高的稳定性。我还将分享我们对该算法的改进。

为什么进行特征选择如此重要？

如果您构建了机器学习模型，您就会知道识别哪些功能很重要而哪些仅仅是噪音是多么困难。

删除嘈杂的功能将有助于内存，计算成本和模型准确性。
此外，通过删除功能部件，将有助于避免模型的过拟合。

有时，您具有一项具有业务意义的功能，但这并不意味着此功能将帮助您进行预测。
您需要记住，功能在一种算法（例如决策树）中可能有用，而在另一种算法中的代表性可能不足（例如回归模型），并非所有功能都是一样的:)

不相关或部分相关的特征可能会对模型性能产生负面影响。功能选择和数据清理应该是设计模型的第一步，也是最重要的一步。

特征选择方法：

尽管有很多用于特征选择的技术，例如向后消除，套索回归。在本文中，我将分享3种方法，这些方法被发现对完成更好的特征选择最有用，每种方法都有其自身的优势。

“除了X”

在Fiverr中，将这种技术命名为“ All But X”。此技术很简单，但很有用。

您可以反复训练和评估
在每次迭代中，都将删除一个功能。
如果您有大量功能，则可以删除功能的“系列”，在Fiverr，我们通常会汇总不同时间，30天点击次数，60天点击次数等功能。这是一系列功能。
根据基准检查评估指标。

该技术的目标是查看功能族中的哪些不影响评估，或者甚至删除它也可以改善评估。

这种方法的问题在于，一次删除一个要素，不会使要素彼此产生效果（非线性效果）。也许特征X和特征Y的组合正在产生噪声，而不仅仅是特征X。

特征重要性+随机特征

我们尝试的另一种方法是使用大多数机器学习模型API具有的功能重要性。

我们所做的不仅仅是从功能重要性中获取前N个功能。我们向数据添加了3个随机特征：

二进制随机特征（0或1）
在0至1个随机特征之间均匀
整数随机特征

在重要功能列表之后，我们仅选择了高于随机特征的功能。

重要的是采用随机特征的不同分布，因为每种分布都会产生不同的影响。

在树木中，模型“喜欢”连续要素（由于分割），因此这些要素将位于层次结构中的较高位置。因此，您需要将每个功能与其均布的随机功能进行比较。

Boruta

Boruta是一种由华沙大学开发的功能分级和选择算法。该算法基于随机森林，但也可以用于XGBoost和不同的树算法。

在Fiverr，我使用了该算法，并对XGBoost排名和分类器模型进行了一些改进，我将对此进行简要介绍。

该算法是我上面提到的两种方法的一种组合。

为数据集中的每个要素创建一个“阴影”要素，具有相同的要素值，但仅在各行之间随机排列
循环运行，直到停止条件之一：
2.1。我们不会删除任何其他功能
2.2。我们删除了足够的功能-可以说我们要删除60％的功能
2.3。我们进行了N次迭代-我们限制了迭代次数以免陷入无限循环
运行X次迭代-我们使用5来消除模式
3.1 的随机性。使用常规特征和阴影特征训练模型
3.2。保存每个特征的平均特征重要性得分
3.3删除所有低于其阴影特征的特征

def _create_shadow(x):
    """
    Take all X variables, creating copies and randomly shuffling them
    :param x: the dataframe to create shadow features on
    :return: dataframe 2x width and the names of the shadows for removing later
    """
    x_shadow = x.copy()
    for c in x_shadow.columns:
        np.random.shuffle(x_shadow[c].values) # shuffle the values of each feature to all the features
    # rename the shadow
    shadow_names = ["shadow_feature_" + str(i + 1) for i in range(x.shape[1])]
    x_shadow.columns = shadow_names
    # Combine to make one new dataframe
    x_new = pd.concat([x, x_shadow], axis=1)
    return x_new, shadow_names


# Set up the parameters for running the model in XGBoost
param = booster_params
df = pd.DataFrame() # initial empty dataframe

for i in range(1, n_iterations + 1):
    # Create the shadow variables and run the model to obtain importances
    new_x, shadow_names = _create_shadow(x)
    bst, df = _run_model(new_x, y, group, weights, param, num_boost_round, early_stopping_rounds, i == 1, df)
    df = _check_feature_importance(bst, df, i, importance_type)

df[MEAN_COLUMN] = df.mean(axis=1)
# Split them back out
real_vars = df[~df['feature'].isin(shadow_names)]
shadow_vars = df[df['feature'].isin(
)]

# Get mean value from the shadows
mean_shadow = shadow_vars[MEAN_COLUMN].mean() * (perc / 100)
real_vars = real_vars[(real_vars[MEAN_COLUMN] > mean_shadow)]

criteria = _check_stopping_crietria(delta, real_vars, x)

return criteria, real_vars['feature']

Boruta 2.0

这是本文的最佳部分，是对Boruta的改进。

我们使用原始模型的“简短版本”运行了Boruta。通过获取数据样本和较少数量的树（我们使用XGBoost），我们在不降低准确性的情况下改善了原始Boruta的运行时间。

另一个改进是，我们使用前面提到的随机特征运行了该算法。可以看出我们已经从数据集中删除了所有随机特征，这是一个很好的条件。

有了改进，我们看不到模型准确性的任何变化，但是看到了运行时的改进。通过删除，我们能够将200多个要素转换为少于70个要素。我们看到了该模型在树木数量和训练的不同阶段的稳定性。

我们还看到训练损失与验证集之间的距离有所改善。

改进和Boruta的优势在于您正在运行模型。在这种情况下，发现的有问题的特征对您的模型有问题，而不是不同的算法。

总结

在本文中，您了解了3种不同的技术，这些技术如何对数据集进行特征选择以及如何建立有效的预测模型。您看到了我们对Boruta的实现，运行时的改进以及添加了随机功能以帮助进行健全性检查。

通过这些改进，我们的模型仅以原始功能的35％就能运行得更快，更稳定并保持了一定的准确性。

选择最适合您的技术。请记住，功能选择可以帮助提高准确性，稳定性和运行时间，并避免过度拟合。更重要的是，更少的功能使调试和解释性变得更加容易。

本文转自 medium，原文地址

为什么进行特征选择如此重要？