L1 vs L2 Regularització i quan utilitzar quina?

Bloc

L1 vs L2 Regularització i quan utilitzar quina?

He llegit molts articles sobre el tema per saber quin és el millor de dos i què he d’utilitzar per al meu model. No em vaig conformar amb cap d’ells i això em va deixar confós el cervell quin hauria d’utilitzar? Després d’haver fet tants experiments, finalment he sabut totes les respostes a Quina tècnica de regularització utilitzar i quan? Anem a fer-ho mitjançant un exemple de regressió.



Suposem que tenim un model de regressió per predir els valors de l’eix y basat en el valor de l’eix x.

Imatge per publicar



Dades del tren

Imatge per publicar



Funció de costos

Mentre entrenem el model, sempre intentem trobar la funció de costos. Aquí, y és la variable de sortida real i ŷ K és la sortida prevista. Per tant, per a les dades de formació, la nostra funció de costos serà gairebé nul·la ja que la nostra línia de predicció passa perfectament dels punts de dades.

Ara, suposem que el nostre conjunt de dades de prova té el següent aspecte

Imatge per publicar

Model al conjunt de dades de prova

Aquí, clarament, la nostra predicció es troba en un altre lloc i la línia de predicció es dirigeix ​​a un altre lloc. Això comporta un excés d’adequació. L'ajust excessiu diu que, respecte al conjunt de dades d'entrenament, teniu un error baix, però pel que fa al conjunt de dades de prova, obteniu un error elevat.

Recordeu, quan necessitem crear qualsevol model, deixeu que sigui regressió, classificació, etc. Hauria de generalitzar-se.

Podem utilitzar la regularització L1 i L2 per fer que aquesta condició de sobredimensionament sigui bàsicament alta a baixa. Un model generalitzat sempre ha de tenir un biaix baix i una variància baixa.

# cresta-regressió # ciència-de-dades # aprenentatge-automàtic # regularització # lazo-regressió

levelup.gitconnected.com

L1 vs L2 Regularització i quan utilitzar quina?

Podem utilitzar la regularització L1 i L2 per fer que aquesta condició de sobredimensionament sigui bàsicament alta a baixa. Un model generalitzat sempre ha de tenir un biaix baix i una variança baixa.