python随机森林要跑多久？

来自：社会风气更新日期：早些时候

导读：本篇文章首席CTO笔记来给大家介绍有关python随机森林要跑多久的相关内容，希望对大家有所帮助，一起来看看吧。

小白学python怎么快速入门？多久能完成一个项目？

电子书集合|数据科学速查表|迁移学习实战，免费下载

?链接:?提取码:z9x7

次循环要多久'>python跑10^>次循环要多久

1.for循环一万次耗时2毫秒

2.for循环十万次耗时22毫秒

3.for循环一百万次耗时304毫秒

4.for循环一千万次耗时2337毫秒，也就是2.3秒

5.for循环一亿次耗时23468毫秒，也就是23.4秒

python跑10000个数据集要多久

看具体采集任务的内容，如果是图片，访问地址规范，熟悉规则，也就是一两分钟的事情，如果是复杂网页，并且反爬规则负杂可能需要半个小时，如果类似从天眼查爬取整个公司信息10000个，可能需要一两天，因为一个公司就需要n多信息

求问随机森林算法的简单实现过程？

随机森林（Randomforest）指的是利用多棵树对样本进行训练并预测的一种分类器。并且其输出的类别是由个别树输出的类别的众数而定。在机器学习中有一个地位很重要的包scikit-learn可实现随机森林算法。

原理：（随机森林的分类预测和回归预测sklearn.ensemble.RandomForestRegressor方法）

(1)给定训练集S，测试集T，特征维数F。确定参数：使用到的CART的数量t，每棵树的深度d，每个节点使用到的特征数量f，终止条件：节点上最少样本数s，节点上最少的信息增益m，对于第1-t棵树，i=1-t：

(2)从S中有放回的抽取大小和S一样的训练集S(i)，作为根节点的样本，从根节点开始训练

(3)如果当前节点上达到终止条件，则设置当前节点为叶子节点，如果是分类问题，该叶子节点的预测输出为当前节点样本集合中数量最多的那一类c(j)，概率p为c(j)占当前样本集的比例；如果是回归问题，预测输出为当前节点样本集各个样本值的平均值。然后继续训练其他节点。如果当前节点没有达到终止条件，则从F维特征中无放回的随机选取f维特征。利用这f维特征，寻找分类效果最好的一维特征k及其阈值th，当前节点上样本第k维特征小于th的样本被划分到左节点，其余的被划分到右节点。继续训练其他节点。

(4)重复(2)(3)直到所有节点都训练过了或者被标记为叶子节点。

(5)重复(2),(3),(4)直到所有CART都被训练过。

随机森林的简单实现过程如下：

一、开发环境、编译环境：

PyCharmCommunityEdition2016.2.3

Python2.7.10

二、所用库及安装方法：

pandas[python自带]

sklearn：命令行pipinstallsklearn;如果没有安装pip,先使用easy_installpip安装pip；如果在MAC上没有权限，使用sudopipinstallsklearn;

三、代码介绍

1.使用pandas读取本地excel的训练集和测试集，将属性集赋给X_train和Y_train;将要预测的集合赋给X_test和Y_test;

2.使用DictVectorizer对数据进行规范化、标准化

3.生成RandomForestRegressor对象，并将训练集传入fit方法中进行训练

4.调用predict函数进行预测，并将结果存入y_predict变量中；

5.使用mean_squared_error、score方法输出MSE、NMSE值对拟合度、稳定度进行分析；输出feature_importance，对影响最终结果的属性进行分析；

6.详细代码见附录

四、附录

#coding:utf-8

importpandasaspd

data_train=pd.read_excel('/Users/xiaoliu/Desktop/data_train.xlsx')

X_train=data_train[['CPI','GDP','PPI','AJR','BJFJ','FBDR','PCFD','PCFDED','BDR']]

y_train=data_train['FJ']

data_test=pd.read_excel('/Users/xiaoliu/Desktop/data_test.xlsx')

X_test=data_test[['CPI','GDP','PPI','AJR','BJFJ','FBDR','PCFD','PCFDED','BDR']]

y_test=data_test['FJ']

fromsklearn.feature_extractionimportDictVectorizer

vec=DictVectorizer(sparse=False)

X_train=vec.fit_transform(X_train.to_dict(orient='records'))

X_test=vec.transform(X_test.to_dict(orient='records'))

fromsklearn.ensembleimportRandomForestRegressor

rf=RandomForestRegressor()

rf.fit(X_train,y_train)

y_predict=rf.predict(X_test)

print'predictvalue:',y_predict

fromsklearn.metricsimportmean_squared_error

print'MSE:',mean_squared_error(y_test,y_predict)

print'NMES:',rf.score(X_test,y_test)

printrf.feature_importances_

??????????????

随机森林怎样才能高耗时？

随机森林运行耗时长数据量近六万,变量个数300左右,运用十折交叉验证在R中运行随机森林,模型跑了一天还是没有出结果;

如何用python实现随机森林分类

大家如何使用scikit-learn包中的类方法来进行随机森林算法的预测。其中讲的比较好的是各个参数的具体用途。

这里我给出我的理解和部分翻译：

参数说明：

最主要的两个参数是n_estimators和max_features。

n_estimators：表示森林里树的个数。理论上是越大越好。但是伴随着就是计算时间的增长。但是并不是取得越大就会越好，预测效果最好的将会出现在合理的树个数。

max_features：随机选择特征集合的子集合，并用来分割节点。子集合的个数越少，方差就会减少的越快，但同时偏差就会增加的越快。根据较好的实践经验。如果是回归问题则：

max_features＝n_features，如果是分类问题则max_features＝sqrt(n_features)。

如果想获取较好的结果，必须将max_depth＝None,同时min_sample_split=1。

同时还要记得进行cross_validated（交叉验证），除此之外记得在randomforest中，bootstrap=True。但在extra-trees中，bootstrap=False。

这里也给出一篇老外写的文章：调整你的随机森林模型参数

这里我使用了scikit-learn自带的iris数据来进行随机森林的预测：

[python]?viewplain?copy

from?sklearn.tree?import?DecisionTreeRegressor

from?sklearn.ensemble?import?RandomForestRegressor

import?numpy?as?np

from?sklearn.datasets?import?load_iris

iris=load_iris()

#print?iris#iris的4个属性是：萼片宽度萼片长度花瓣宽度花瓣长度标签是花的种类：setosa?versicolour?virginica

print?iris['target'].shape

rf=RandomForestRegressor()#这里使用了默认的参数设置

rf.fit(iris.data[:150],iris.target[:150])#进行模型的训练

#随机挑选两个预测不相同的样本

instance=iris.data[[100,109]]

print?instance

print?'instance?0?prediction；',rf.predict(instance[0])

print?'instance?1?prediction；',rf.predict(instance[1])

print?iris.target[100],iris.target[109]

返回的结果如下：

(150,)

[[6.3?3.3?6.?2.5]

?[7.2?3.6?6.1?2.5]]

instance0prediction；[2.]

instance1prediction；[2.]

在这里我有点困惑，就是在scikit-learn算法包中随机森林实际上就是一颗颗决策树组成的。但是之前我写的决策树博客中是可以将决策树给显示出来。但是随机森林却做了黑盒处理。我们不知道内部的决策树结构，甚至连父节点的选择特征都不知道是谁。所以我给出下面的代码（这代码不是我的原创），可以显示的显示出所有的特征的贡献。所以对于贡献不大的，甚至是负贡献的我们可以考虑删除这一列的特征值，避免做无用的分类。

[python]?viewplain?copy

from?sklearn.cross_validation?import?cross_val_score,?ShuffleSplit

X?=?iris["data"]

Y?=?iris["target"]

names?=?iris["feature_names"]

rf?=?RandomForestRegressor()

scores?=?[]

for?i?in?range(X.shape[1]):

score?=?cross_val_score(rf,?X[:,?i:i+1],?Y,?scoring="r2",

cv=ShuffleSplit(len(X),?3,?.3))

scores.append((round(np.mean(score),?3),?names[i]))

print?sorted(scores,?reverse=True)

显示的结果如下：

[(0.934,'petalwidth(cm)'),(0.929,'petallength(cm)'),(0.597,'sepallength(cm)'),(0.276,'sepalwidth(cm)')]

这里我们会发现petalwidth、petallength这两个特征将起到绝对的贡献，之后是sepallength，影响最小的是sepalwidth。这段代码将会提示我们各个特征的贡献，可以让我们知道部分内部的结构。

结语：以上就是首席CTO笔记为大家整理的关于python随机森林要跑多久的相关内容解答汇总了，希望对您有所帮助！如果解决了您的问题欢迎分享给更多关注此问题的朋友喔～

python随机森林要跑多久？视频

相关评论：

17378277006：python随机森林要跑多久?
柳咱吉python跑10000个数据集要多久看具体采集任务的内容,如果是图片,访问地址规范,熟悉规则,也就是一两分钟的事情,如果是复杂网页,并且反爬规则负杂可能需要半个小时,如果类似从天眼查爬取整个公司信息10000个,可能需要一两天,因为一个公司就需要n多信息求问随机森林算法的简单实现过程? 随机森林(Randomforest)指的是利用...

17378277006：如何用python实现随机森林分类
柳咱吉返回的结果如下：(150,)[[ 6.3 3.3 6. 2.5] [ 7.2 3.6 6.1 2.5]]instance 0 prediction； [ 2.]instance 1 prediction； [ 2.]2 2在这里我有点困惑，就是在scikit-learn算法包中随机森林实际上就是一颗颗决策树组成的。但是之前我写的决策树博客中是可以将决策树给显...

17378277006：python数分实战——用随机森林模型解析员工离职动因(含数据源)_百度知 ...
柳咱吉基于随机森林模型，选择年龄、出差、任职部门等特征，并采用过采样方法处理不平衡数据。模型评估结果显示，优化后的随机森林模型在精确度、召回率、F1得分和ROC等方面有所提升，但提升不大。重要特征为月收入、年龄、在公司工作年数、担任现职年数和与现任经理共事年数。通过建立模型，可以预测哪些员工可能...

17378277006：审计学python需要多久(财务审计一般多久)
柳咱吉学python要半年到一年时间。如果是自学,从零基础学习python,需要大约一年的时间,这取决于每个人的理解。如果有其他编程语言的经验,这是比较快的开始。可以写一些简单的Python语言中使用2—3个月。只要学习系统,可以更好的掌握Python技能。如果有一个有经验的人带着学习是非常不错的,尤其是零基础的,一般6个月就...

17378277006：【Python机器学习系列】一文教你建立随机森林模型预测房价(案例+源码...
柳咱吉Python机器学习系列：随机森林模型预测房价详解在这个系列的第282篇文章中，我们将深入讲解如何使用Python的Scikit-learn库建立随机森林回归模型来预测房价。以下是构建流程的简要概述：1. 实现过程首先，从数据源读取数据（df）接着，对数据进行划分，通常包括训练集和测试集然后，对数值特征进行归一化处理，...

17378277006：数据科学入门丨选Python还是R
柳咱吉当搜索“随机森林”时,PyPi中可以得到170个项目,但这些包并不相同。尽管Python包的数量是R的10倍,但数据科学相关的包的数量大致相同。运行速度比较DataFrames和Pandas更有意义。我们进行了一项实验:比较针对复杂探索任务的执行时间,结果如下: 在大多数任务中Python运行速度更快。http:\/\/nbviewer.jupyter.org\/gist\/...

17378277006：常见分类器(如随机森林,SVM)做二分类
柳咱吉本文将详细阐述如何使用常见分类器（如随机森林和SVM）进行二分类任务，从数据导入到模型评估，以Python为例，逐步展开。首先，数据处理是关键步骤。以医学声学数据为例，目标是识别帕金森患者。我们需要导入数据，划分特征（feature）和标签（label），以及将数据集划分为训练集和测试集。train_size用来设定...

17378277006：python sklearn模型中random_state参数的意义
柳咱吉1. 数据集划分：在train_test_split函数中，random_state设定训练集和测试集的划分模式，确保每次执行时划分结果一致，便于实验复现。如果不设置，结果会随机变化。2. 决策树和随机森林构建：在构建决策树和随机森林时，random_state控制了树的生成规则或森林构建时的随机抽样，固定其值可保证每次构建出完全...

17378277006：python机器学习库怎么使用
柳咱吉Scikit-learn 是基于Scipy为机器学习建造的的一个Python模块，他的特色就是多样化的分类，回归和聚类的算法包括支持向量机，逻辑回归，朴素贝叶斯分类器，随机森林，Gradient Boosting，聚类算法和DBSCAN。而且也设计出了Python numerical和scientific libraries Numpy and Scipy2、Keras（深度学习）https:\/\/github...

17378277006：我用Python进行随机森林回归,训练好模型后用来预测,预测值却为一个定 ...
柳咱吉随机森林是以决策树为基础的一种更高级的算法。随机森林可用于回归也可以用于分类。它的工作原理是生成多个分类器\/模型，各自独立地学习和作出预测。最后对这些预测进行集成，因此优于任何一个单分类的做出预测，是一种优秀的机器学习模型。之所以你没能学习到有效的模型，可能是你的数据中的因子与预测指标...

喜物网dongwu.xikan.tv

python随机森林要跑多久？

相关主题精彩