区块链技术博客
www.b2bchain.cn

使用超网格搜索和10倍CV调整参数后,随机森林模型的AUC较低 – python程序员分享

D0b2wT.gif

本文介绍了使用超网格搜索和10倍CV调整参数后,随机森林模型的AUC较低 – python程序员分享,有助于帮助完成毕业设计以及求职,是一篇很好的资料。

对技术面试,学习经验等有一些体会,在此分享。

我未调整超参数而收到的AUC值较高。
我使用了相同的培训数据,可能会在此处丢失某些内容或一些有效的解释。

数据是使用50个维度的推文的预训练GLoVE向量计算出的推文单词嵌入的平均值

无需调整:

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',             max_depth=None, max_features='auto', max_leaf_nodes=None,             min_impurity_decrease=0.0, min_impurity_split=None,             min_samples_leaf=1, min_samples_split=2,             min_weight_fraction_leaf=0.0, n_estimators=100, n_jobs=None,             oob_score=False, random_state=None, verbose=0,             warm_start=False) 

AUC-0.978

调整:

GridSearchCV(cv=10, error_score='raise-deprecating',        estimator=RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',             max_depth=None, max_features='auto', max_leaf_nodes=None,             min_impurity_decrease=0.0, min_impurity_split=None,             min_samples_leaf=1, min_samples_split=2,             min_weight_fraction_leaf=0.0, n_estimators='warn', n_jobs=None,             oob_score=False, random_state=42, verbose=0, warm_start=False),        fit_params=None, iid='warn', n_jobs=3,        param_grid={'max_features': ['auto', 'sqrt', 'log2', None], 'bootstrap': [True, False], 'max_depth': [2, 3, 4], 'criterion': ['gini', 'entropy']},        pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',        scoring=None, verbose=0) print(cv_rf.best_estimator_) RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',             max_depth=4, max_features='auto', max_leaf_nodes=None,             min_impurity_decrease=0.0, min_impurity_split=None,             min_samples_leaf=1, min_samples_split=2,             min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=None,             oob_score=False, random_state=42, verbose=0, warm_start=False) 

AUC-0.883

参考方案

我希望有两个可能的原因。

在前一个模型中,最大深度设置为“无”,这意味着节点将一直扩展到所有叶子都是纯净的,或者直到所有叶子包含的样本少于min_samples_split个样本为止,而在后面的模型中,max_depth=4会使模型的灵活性降低。

建议:您可以在网格搜索中增加max-depth范围

估计器(n_estimators)的数量从100个减少到10个。这使Ensemble模型更弱。

建议:增加估计量或调整估计数。

R'relaimpo'软件包的Python端口 – python

我需要计算Lindeman-Merenda-Gold(LMG)分数,以进行回归分析。我发现R语言的relaimpo包下有该文件。不幸的是,我对R没有任何经验。我检查了互联网,但找不到。这个程序包有python端口吗?如果不存在,是否可以通过python使用该包? python参考方案 最近,我遇到了pingouin库。

如何用'-'解析字符串到节点js本地脚本? – python

我正在使用本地节点js脚本来处理字符串。我陷入了将’-‘字符串解析为本地节点js脚本的问题。render.js:#! /usr/bin/env -S node -r esm let argv = require('yargs') .usage('$0 [string]') .argv; console.log(argv…

Python:传递记录器是个好主意吗? – python

我的Web服务器的API日志如下:started started succeeded failed 那是同时收到的两个请求。很难说哪一个成功或失败。为了彼此分离请求,我为每个请求创建了一个随机数,并将其用作记录器的名称logger = logging.getLogger(random_number) 日志变成[111] started [222] start…

Python-Excel导出 – python

我有以下代码:import pandas as pd import requests from bs4 import BeautifulSoup res = requests.get("https://www.bankier.pl/gielda/notowania/akcje") soup = BeautifulSoup(res.cont…

Matplotlib'粗体'字体 – python

跟随this example:import numpy as np import matplotlib.pyplot as plt fig = plt.figure() for i, label in enumerate(('A', 'B', 'C', 'D')): ax = f…

部分转自互联网,侵权删除联系

赞(0) 打赏
部分文章转自网络,侵权联系删除b2bchain区块链学习技术社区 » 使用超网格搜索和10倍CV调整参数后,随机森林模型的AUC较低 – python程序员分享
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

b2b链

联系我们联系我们