全球動態(tài):【機(jī)器學(xué)習(xí)】集成學(xué)習(xí)代碼練習(xí)（隨機(jī)森林、GBDT、XGBoost、LightGBM等）

2022-12-29 10:15:57 來源：

本文是中國大學(xué)慕課《機(jī)器學(xué)習(xí)》的“集成學(xué)習(xí)”章節(jié)的課后代碼。

(相關(guān)資料圖)
課程地址：
https://www.icourse163.org/course/WZU-1464096179
課程完整代碼：
https://github.com/fengdu78/WZU-machine-learning-course
代碼修改并注釋：黃海廣，haiguang2000@wzu.edu.cn

importwarningswarnings.filterwarnings("ignore")importpandasaspdfromsklearn.model_selectionimporttrain_test_split

生成數(shù)據(jù)

生成12000行的數(shù)據(jù)，訓(xùn)練集和測試集按照3:1劃分

fromsklearn.datasetsimportmake_hastie_10_2data,target=make_hastie_10_2()

X_train,X_test,y_train,y_test=train_test_split(data,target,random_state=123)X_train.shape,X_test.shape

((9000, 10), (3000, 10))

模型對比

對比六大模型，都使用默認(rèn)參數(shù)

fromsklearn.linear_modelimportLogisticRegressionfromsklearn.ensembleimportRandomForestClassifierfromsklearn.ensembleimportAdaBoostClassifierfromsklearn.ensembleimportGradientBoostingClassifierfromxgboostimportXGBClassifierfromlightgbmimportLGBMClassifierfromsklearn.model_selectionimportcross_val_scoreimporttimeclf1=LogisticRegression()clf2=RandomForestClassifier()clf3=AdaBoostClassifier()clf4=GradientBoostingClassifier()clf5=XGBClassifier()clf6=LGBMClassifier()forclf,labelinzip([clf1,clf2,clf3,clf4,clf5,clf6],["LogisticRegression","RandomForest","AdaBoost","GBDT","XGBoost","LightGBM"]):start=time.time()scores=cross_val_score(clf,X_train,y_train,scoring="accuracy",cv=5)end=time.time()running_time=end-startprint("Accuracy:%0.8f (+/-%0.2f),耗時%0.2f秒。模型名稱[%s]"%(scores.mean(),scores.std(),running_time,label))

Accuracy: 0.47488889 (+/- 0.00),耗時0.04秒。模型名稱[Logistic Regression]Accuracy: 0.88966667 (+/- 0.01),耗時16.34秒。模型名稱[Random Forest]Accuracy: 0.88311111 (+/- 0.00),耗時3.39秒。模型名稱[AdaBoost]Accuracy: 0.91388889 (+/- 0.01),耗時13.14秒。模型名稱[GBDT]Accuracy: 0.92977778 (+/- 0.00),耗時3.60秒。模型名稱[XGBoost]Accuracy: 0.93188889 (+/- 0.01),耗時0.58秒。模型名稱[LightGBM]

對比了六大模型，可以看出，邏輯回歸速度最快，但準(zhǔn)確率最低。而LightGBM，速度快，而且準(zhǔn)確率最高，所以，現(xiàn)在處理結(jié)構(gòu)化數(shù)據(jù)的時候，大部分都是用LightGBM算法。

XGBoost的使用 1.原生XGBoost的使用

importxgboostasxgb#記錄程序運行時間importtimestart_time=time.time()#xgb矩陣賦值xgb_train=xgb.DMatrix(X_train,y_train)xgb_test=xgb.DMatrix(X_test,label=y_test)##參數(shù)params={"booster":"gbtree",#"silent":1,#設(shè)置成1則沒有運行信息輸出，最好是設(shè)置為0.#"nthread":7,#cpu線程數(shù)默認(rèn)最大"eta":0.007,#如同學(xué)習(xí)率"min_child_weight":3,#這個參數(shù)默認(rèn)是1，是每個葉子里面h的和至少是多少，對正負(fù)樣本不均衡時的0-1分類而言#，假設(shè) h 在0.01 附近，min_child_weight 為 1 意味著葉子節(jié)點中最少需要包含 100個樣本。#這個參數(shù)非常影響結(jié)果，控制葉子節(jié)點中二階導(dǎo)的和的最小值，該參數(shù)值越小，越容易 overfitting。"max_depth":6,#構(gòu)建樹的深度，越大越容易過擬合"gamma":0.1,#樹的葉子節(jié)點上作進(jìn)一步分區(qū)所需的最小損失減少,越大越保守，一般0.1、0.2這樣子。"subsample":0.7,#隨機(jī)采樣訓(xùn)練樣本"colsample_bytree":0.7,#生成樹時進(jìn)行的列采樣"lambda":2,#控制模型復(fù)雜度的權(quán)重值的L2正則化項參數(shù)，參數(shù)越大，模型越不容易過擬合。#"alpha":0,#L1正則項參數(shù)#"scale_pos_weight":1, #如果取值大于0的話，在類別樣本不平衡的情況下有助于快速收斂。#"objective":"multi:softmax",#多分類的問題#"num_class":10,#類別數(shù)，多分類與multisoftmax并用"seed":1000,#隨機(jī)種子#"eval_metric":"auc"}plst=list(params.items())num_rounds=500#迭代次數(shù)watchlist=[(xgb_train,"train"),(xgb_test,"val")]

#訓(xùn)練模型并保存#early_stopping_rounds當(dāng)設(shè)置的迭代次數(shù)較大時，early_stopping_rounds可在一定的迭代次數(shù)內(nèi)準(zhǔn)確率沒有提升就停止訓(xùn)練model=xgb.train(plst,xgb_train,num_rounds,watchlist,early_stopping_rounds=100,)#model.save_model("./model/xgb.model")#用于存儲訓(xùn)練出的模型print("bestbest_ntree_limit",model.best_ntree_limit)y_pred=model.predict(xgb_test,ntree_limit=model.best_ntree_limit)print("error=%f"%(sum(1foriinrange(len(y_pred))ifint(y_pred[i]>0.5)!=y_test[i])/float(len(y_pred))))#輸出運行時長cost_time=time.time()-start_timeprint("xgboostsuccess!","\n","costtime:",cost_time,"(s)......")

[0]train-rmse:1.11000val-rmse:1.10422[1]train-rmse:1.10734val-rmse:1.10182[2]train-rmse:1.10465val-rmse:1.09932[3]train-rmse:1.10207val-rmse:1.09694

……

[497]train-rmse:0.62135val-rmse:0.68680[498]train-rmse:0.62096val-rmse:0.68650[499]train-rmse:0.62056val-rmse:0.68624best best_ntree_limit 500error=0.826667xgboost success!  cost time: 3.5742645263671875 (s)......

2.使用scikit-learn接口

會改變的函數(shù)名是：

eta -> learning_rate

lambda -> reg_lambda

alpha -> reg_alpha

fromsklearn.model_selectionimporttrain_test_splitfromsklearnimportmetricsfromxgboostimportXGBClassifierclf=XGBClassifier(# silent=0, #設(shè)置成1則沒有運行信息輸出，最好是設(shè)置為0.是否在運行升級時打印消息。#nthread=4,#cpu線程數(shù)默認(rèn)最大learning_rate=0.3,#如同學(xué)習(xí)率min_child_weight=1,#這個參數(shù)默認(rèn)是1，是每個葉子里面h的和至少是多少，對正負(fù)樣本不均衡時的0-1分類而言#，假設(shè) h 在0.01 附近，min_child_weight 為 1 意味著葉子節(jié)點中最少需要包含 100個樣本。#這個參數(shù)非常影響結(jié)果，控制葉子節(jié)點中二階導(dǎo)的和的最小值，該參數(shù)值越小，越容易 overfitting。max_depth=6,#構(gòu)建樹的深度，越大越容易過擬合gamma=0,#樹的葉子節(jié)點上作進(jìn)一步分區(qū)所需的最小損失減少,越大越保守，一般0.1、0.2這樣子。subsample=1,#隨機(jī)采樣訓(xùn)練樣本訓(xùn)練實例的子采樣比max_delta_step=0,#最大增量步長，我們允許每個樹的權(quán)重估計。colsample_bytree=1,#生成樹時進(jìn)行的列采樣reg_lambda=1,#控制模型復(fù)雜度的權(quán)重值的L2正則化項參數(shù)，參數(shù)越大，模型越不容易過擬合。#reg_alpha=0,#L1正則項參數(shù)#scale_pos_weight=1, #如果取值大于0的話，在類別樣本不平衡的情況下有助于快速收斂。平衡正負(fù)權(quán)重#objective="multi:softmax",#多分類的問題指定學(xué)習(xí)任務(wù)和相應(yīng)的學(xué)習(xí)目標(biāo)#num_class=10,#類別數(shù)，多分類與multisoftmax并用n_estimators=100,#樹的個數(shù)seed=1000#隨機(jī)種子#eval_metric="auc")clf.fit(X_train,y_train)y_true,y_pred=y_test,clf.predict(X_test)print("Accuracy:%.4g"%metrics.accuracy_score(y_true,y_pred))

Accuracy : 0.936

LIghtGBM的使用 1.原生接口

importlightgbmaslgbfromsklearn.metricsimportmean_squared_error#加載你的數(shù)據(jù)#print("Loaddata...")#df_train=pd.read_csv("../regression/regression.train",header=None,sep="\t")#df_test=pd.read_csv("../regression/regression.test",header=None,sep="\t")##y_train=df_train[0].values#y_test=df_test[0].values#X_train=df_train.drop(0,axis=1).values#X_test=df_test.drop(0,axis=1).values#創(chuàng)建成lgb特征的數(shù)據(jù)集格式lgb_train=lgb.Dataset(X_train,y_train)#將數(shù)據(jù)保存到LightGBM二進(jìn)制文件將使加載更快lgb_eval=lgb.Dataset(X_test,y_test,reference=lgb_train)#創(chuàng)建驗證數(shù)據(jù)#將參數(shù)寫成字典下形式params={"task":"train","boosting_type":"gbdt",#設(shè)置提升類型"objective":"regression",#目標(biāo)函數(shù)"metric":{"l2","auc"},#評估函數(shù)"num_leaves":31,#葉子節(jié)點數(shù)"learning_rate":0.05,#學(xué)習(xí)速率"feature_fraction":0.9,#建樹的特征選擇比例"bagging_fraction":0.8,#建樹的樣本采樣比例"bagging_freq":5,#k意味著每k次迭代執(zhí)行bagging"verbose":1#<0顯示致命的,=0顯示錯誤(警告),>0顯示信息}print("Starttraining...")#訓(xùn)練cvandtraingbm=lgb.train(params,lgb_train,num_boost_round=500,valid_sets=lgb_eval,early_stopping_rounds=5)#訓(xùn)練數(shù)據(jù)需要參數(shù)列表和數(shù)據(jù)集print("Savemodel...")gbm.save_model("model.txt")#訓(xùn)練后保存模型到文件print("Startpredicting...")#預(yù)測數(shù)據(jù)集y_pred=gbm.predict(X_test,num_iteration=gbm.best_iteration)#如果在訓(xùn)練期間啟用了早期停止，可以通過best_iteration方式從最佳迭代中獲得預(yù)測#評估模型print("error=%f"%(sum(1foriinrange(len(y_pred))ifint(y_pred[i]>0.5)!=y_test[i])/float(len(y_pred))))

Start training...[LightGBM] [Warning] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000448 seconds.You can set `force_col_wise=true` to remove the overhead.[LightGBM] [Info] Total Bins 2550[LightGBM] [Info] Number of data points in the train set: 9000, number of used features: 10[LightGBM] [Info] Start training from score 0.012000[1]valid_0"s auc: 0.814399valid_0"s l2: 0.965563Training until validation scores don"t improve for 5 rounds[2]valid_0"s auc: 0.84729valid_0"s l2: 0.934647[3]valid_0"s auc: 0.872805valid_0"s l2: 0.905265[4]valid_0"s auc: 0.884117valid_0"s l2: 0.877875[5]valid_0"s auc: 0.895115valid_0"s l2: 0.852189

……

[191]valid_0"s auc: 0.982783valid_0"s l2: 0.319851[192]valid_0"s auc: 0.982751valid_0"s l2: 0.319971[193]valid_0"s auc: 0.982685valid_0"s l2: 0.320043Early stopping, best iteration is:[188]valid_0"s auc: 0.982794valid_0"s l2: 0.319746Save model...Start predicting...error=0.664000

2.scikit-learn接口

fromsklearnimportmetricsfromlightgbmimportLGBMClassifierclf=LGBMClassifier(boosting_type="gbdt",#提升樹的類型gbdt,dart,goss,rfnum_leaves=31,#樹的最大葉子數(shù)，對比xgboost一般為2^(max_depth)max_depth=-1,#最大樹的深度learning_rate=0.1,#學(xué)習(xí)率n_estimators=100,#擬合的樹的棵樹，相當(dāng)于訓(xùn)練輪數(shù)subsample_for_bin=200000,objective=None,class_weight=None,min_split_gain=0.0,#最小分割增益min_child_weight=0.001,#分支結(jié)點的最小權(quán)重min_child_samples=20,subsample=1.0,#訓(xùn)練樣本采樣率行subsample_freq=0,#子樣本頻率colsample_bytree=1.0,#訓(xùn)練特征采樣率列reg_alpha=0.0,#L1正則化系數(shù)reg_lambda=0.0,#L2正則化系數(shù)random_state=None,n_jobs=-1,silent=True,)clf.fit(X_train,y_train,eval_metric="auc")#設(shè)置驗證集合verbose=False不打印過程clf.fit(X_train,y_train)y_true,y_pred=y_test,clf.predict(X_test)print("Accuracy:%.4g"%metrics.accuracy_score(y_true,y_pred))

Accuracy : 0.927

參考

1.https://xgboost.readthedocs.io/

2.https://lightgbm.readthedocs.io/

3.https://blog.csdn.net/q383700092/article/details/53763328?locationNum=9&fps=1


往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載(圖文+視頻)機(jī)器學(xué)習(xí)入門系列下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印《統(tǒng)計學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯機(jī)器學(xué)習(xí)交流qq群955171419，加入微信群請掃碼

標(biāo)簽：

沙場并肩礪兵共赴和平使命

中國參演官兵駕乘裝甲輸送車向目標(biāo)地域行進(jìn)。巴基斯坦參演官兵開展戰(zhàn)術(shù)演練。蒙古國參演官兵進(jìn)行警戒巡...

2021-09-18
南部戰(zhàn)區(qū)陸軍某旅開展巡回心理服務(wù)

“請大家閉上眼睛，把注意力從頭頂‘漫游’到眉頭……”8月底，南部戰(zhàn)區(qū)陸軍某旅駐島某海防連課室內(nèi)，官...

2021-09-18
《軍營理論熱點怎么看·2021》走進(jìn)基層

9月15日上午，解放軍新聞傳播中心出版社舉行贈書活動，向陸軍第83集團(tuán)軍某旅“紅一連”官兵贈送由中央軍...

2021-09-18
王毅會見印度外長蘇杰生

新華社杜尚別9月17日電當(dāng)?shù)貢r間2021年9月16日，國務(wù)委員兼外長王毅在杜尚別應(yīng)約會見印度外長蘇杰生。...

2021-09-18
人民網(wǎng)評：國務(wù)院第八次大督查為何屢上“熱搜”？

辦房本要找“黃牛”、應(yīng)急管理部門涉嫌搞壟斷、行業(yè)協(xié)會以辦理車輛登記上牌備案之名借機(jī)收費斂財、中小...

2021-09-18
王毅出席中俄巴伊四國阿富汗問題非正式會議

新華社杜尚別9月16日電當(dāng)?shù)貢r間2021年9月16日，國務(wù)委員兼外長王毅在杜尚別同俄羅斯外長拉夫羅夫、巴...

2021-09-18
民政部：“十四五”期間將健全基本養(yǎng)老服務(wù)體系

人民網(wǎng)北京9月17日電（記者溫璐、宋子節(jié)）今日，國務(wù)院新聞辦就扎實做好民政在全面小康中的兜底夯基工...

2021-09-18
第十三屆中韓媒體高層對話舉辦

9月15日，由中國國務(wù)院新聞辦公室和韓國文化體育觀光部指導(dǎo)，中國外文局和21世紀(jì)韓中交流協(xié)會共同主辦的...

2021-09-18
中國美國商會總裁畢艾倫：大多數(shù)會員公司在全球戰(zhàn)略中會優(yōu)先考慮中國市場

人民網(wǎng)杭州9月17日電（記者孫博洋）9月16日至17日，中國質(zhì)量（杭州）大會在浙江杭州舉行。在16日舉行...

2021-09-18
注意！國慶假期首日火車票今日開售

人民網(wǎng)北京9月17日電（記者王連香）據(jù)中國國家鐵路集團(tuán)消息，今日，十一黃金周火車票正式開售，車票預(yù)...

2021-09-18
盧鐵忠：核能助力“雙碳”目標(biāo) 清潔賦能美好未來

9月16日，清華五道口“碳中和經(jīng)濟(jì)”論壇召開。中國核電黨委書記、董事長盧鐵忠作為核能企業(yè)代表受邀視頻...

2021-09-18
以學(xué)術(shù)出版助力國際傳播

會議現(xiàn)場。人民網(wǎng)訊 9月14日，在第28屆北京國際書展開幕之際，由中國社會科學(xué)出版社主辦的“新形勢下學(xué)...

2021-09-18
人民財評：為什么寵物用品及服務(wù)會價格不菲？

如今，鐘愛養(yǎng)寵物的人越來越多。對于很多人來說，寵物不僅是陪伴身邊活潑可愛的小動物，更是生活中很重...

2021-09-18
8月份全國網(wǎng)約車訂單數(shù)達(dá)64321.5萬環(huán)比下降17.2%

人民網(wǎng)北京9月17日電（記者王連香）據(jù)交通運輸部消息，全國網(wǎng)約車監(jiān)管信息交互平臺統(tǒng)計，截至2021年8...

2021-09-18
海關(guān)總署公布《國家“十四五”口岸發(fā)展規(guī)劃》

新聞發(fā)布會現(xiàn)場。海關(guān)總署供圖人民網(wǎng)北京9月17日電（記者栗翹楚）9月16日，海關(guān)總署舉行新聞發(fā)布會，...

2021-09-18
海關(guān)總署：“十四五”時期將重點推進(jìn)“五型”口岸建設(shè)

北侖海關(guān)查驗關(guān)員正操作智檢機(jī)器人對集裝箱開展放射性排查。海關(guān)總署供圖繁忙的上海自貿(mào)試驗區(qū)洋山海關(guān)...

2021-09-18
林忠欽院士：做強(qiáng)創(chuàng)新鏈構(gòu)建制度鏈突破制造業(yè)產(chǎn)業(yè)鏈質(zhì)量升級困境

人民網(wǎng)杭州9月17日電（記者孫博洋）9月16日至17日，中國質(zhì)量（杭州）大會在浙江杭州舉行。在16日舉行...

2021-09-18

世界上最柔软的人_视频一区视频二区制服丝袜_婬荡乱婬91成人网站_亚洲国产综合人成综合网站_日韩精品无码去免费专区

全球動態(tài):【機(jī)器學(xué)習(xí)】集成學(xué)習(xí)代碼練習(xí)（隨機(jī)森林、GBDT、XGBoost、LightGBM等）

為您推薦

新聞快訊

全球動態(tài):【機(jī)器學(xué)習(xí)】集成學(xué)習(xí)代碼練習(xí)（隨機(jī)森林、GBDT、XGBoost、LightGBM等）