Combinació de regressió logística i arbre de decisions

Bloc

Combinació de regressió logística i arbre de decisions

La regressió logística és una de les tècniques d’aprenentatge automàtic més utilitzades. Els seus principals avantatges són la claredat dels resultats i la seva capacitat per explicar la relació entre trets dependents i independents d’una manera senzilla. Requereix comparativament menys potència de processament i, en general, és més ràpid que Random Forest o Gradient Boosting.



Tanmateix, també presenta alguns inconvenients greus i el principal és la seva capacitat limitada per resoldre problemes no lineals. En aquest article, demostraré com podem millorar la predicció de relacions no lineals incorporant un arbre de decisions en un model de regressió.

No s'ha trobat l'ordre curl

La idea és força similar a pes de les proves (WoE), un mètode àmpliament utilitzat en finances per a la construcció de quadres de comandament. WoE adopta una característica (contínua o categòrica) i la divideix en bandes per maximitzar la separació entre béns i mals (positius i negatius). L’arbre de decisions realitza una tasca molt similar, dividint les dades en nodes per aconseguir la màxima segregació entre positius i negatius. La principal diferència és que WoE es construeix per separat per a cada característica, mentre que els nodes de l'arbre de decisions seleccionen diverses funcions al mateix temps.



Sabent que l'arbre de decisions és bo per identificar relacions no lineals entre trets dependents i independents, podem transformar la sortida de l'arbre de decisió (nodes) en una variable categòrica i després implementar-la en una regressió logística, transformant cadascuna de les categories (nodes) en variables fictícies.

En els meus projectes professionals, l’ús de nodes d’arbres de decisions en el model superaria tant la regressió logística com els resultats de l’arbre de decisions en 1/3 dels casos. Tot i això, he lluitat per trobar dades disponibles públicament que poguessin replicar-les. Probablement es deu al fet que les dades disponibles només contenen un grapat de variables, preseleccionades i netejades. Simplement no hi ha molt per esprémer! És molt més fàcil trobar dimensions addicionals de la relació entre trets dependents i independents quan tenim centenars o milers de variables a la nostra disposició.



Al final, vaig decidir utilitzar el fitxer dades d’una campanya bancària . Utilitzant aquestes dades he aconseguit obtenir un menor, però encara una millora de la regressió logística combinada i l’arbre de decisions sobre aquests dos mètodes utilitzats per separat.

https //www.locast.org/activate

Després d'importar les dades, vaig fer una neteja. El codi utilitzat en aquest document és disponible a GitHub. He desat les dades netejades en una altra dossier .

A causa de la poca freqüència, he decidit sobreexamplar les dades mitjançant la tècnica SMOTE.

import pandas as pd from sklearn.model_selection import train_test_split from imblearn.over_sampling import SMOTE df=pd.read_csv('banking_cleansed.csv') X = df.iloc[:,1:] y = df.iloc[:,0] os = SMOTE(random_state=0) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0) columns = X_train.columns os_data_X,os_data_y=os.fit_sample(X_train, y_train) os_data_X = pd.DataFrame(data=os_data_X,columns=columns ) os_data_y= pd.DataFrame(data=os_data_y,columns=['y'])

En els passos següents he construït 3 models:

  • arbre de decisió
  • regressió logística
  • regressió logística amb nodes d'arbres de decisió

# arbre de decisions # regressió-logística # ciència-de-dades # aprenentatge-automàtic # comercialització # analítica de dades

towardsdatascience.com

Combinació de regressió logística i arbre de decisions

Fer menys lineal la regressió logística. En aquest article, demostraré com podem millorar la predicció de relacions no lineals incorporant un arbre de decisions en un model de regressió.