Escala de funcions i la seva importància en la normalització de processament de preprocessament de dades.

Bloc

Escala de funcions i la seva importància en la normalització de processament de preprocessament de dades.

Escala de funcions

Escala de funcions fa referència als mètodes o tècniques que s’utilitzen per normalitzar l’interval de variables independents de les nostres dades, o dit d’una altra manera, als mètodes per establir l’interval de valors de les característiques dins d’una escala similar. L'escala de funcions és generalment l'últim pas de la canalització de preprocessament de dades realitzat just abans d’entrenar els algorismes d’aprenentatge automàtic .



La magnitud de les funcions és important perquè:

  • Els coeficients de regressió dels models lineals estan directament influïts per l’escala de la variable.
  • Les variables amb una magnitud o un rang de valor més gran dominen sobre les que tenen un rang de magnitud / valor més petit.
  • El descens de gradient convergeix més ràpidament quan les funcions es troben a escales similars.
  • L’escala de funcions ajuda a disminuir el temps per trobar vectors de suport per a SVM
  • Les distàncies euclidianes són sensibles a la magnitud de les característiques.
  • Alguns algorismes, com ara PCA, requereixen que les funcions estiguin centrades en 0.

Els models d’aprenentatge automàtic afectats per l’escala de funcions són:

  • Regressió lineal i logística
  • Xarxes neuronals
  • Suport de màquines vectorials
  • KNN
  • K-significa agrupació
  • Anàlisi Discriminant Lineal (LDA)
  • Anàlisi de components principals (PCA)

Hi ha diverses tècniques d’escala de funcions, com ara

  • Normalització
  • Normalització mitjana
  • Escala a valors mínims i màxims: MinMaxScaling
  • Escala al valor màxim: MaxAbsScaling
  • Escala a quantils i mitja - RobustScaling
  • Normalització a la longitud de la unitat vectorial

però aquí parlaré de la importància de la normalització i normalització.

Normalització

La normalització implica centrar la variable a zero i estandarditzar la variància a 1. El procediment consisteix a restar la mitjana de cada observació i després dividir per la desviació estàndard:



z = (x - x_mean) / std

El resultat de la transformació anterior és Amb , que s’anomena puntuació z, i representa quantes desviacions estàndard una observació determinada es desvia de la mitjana. Una puntuació z especifica la ubicació de l'observació dins d'una distribució (en nombre de desviacions estàndard respecte a la mitjana de la distribució). El signe de la puntuació z (+ o -) indica si l'observació és superior a (+) o inferior (-) a la mitjana.



La forma d’una distribució estandarditzada (o normalitzada amb puntuació z) serà idèntica a la distribució original de la variable. Si la distribució original és normal, la distribució estandarditzada serà normal. Però, si la distribució original està esbiaixada, també es distribuirà la distribució estandarditzada de la variable. En altres paraules, estandarditzar una variable no normalitza la distribució de les dades.

En poques paraules, l'estandardització:

  • centra la mitjana a 0
  • escala la variància a 1
  • conserva la forma de la distribució original
  • els valors mínim i màxim de les diferents variables poden variar
  • conserva valors atípics

Ideal per a algorismes que requereixen funcions centrades a zero.

# preprocessament de dades # ciència de dades # visualització de dades # aprenentatge automàtic

medium.com

Escala de funcions i la seva importància en la normalització de processament de preprocessament de dades.

L’escala de funcions es refereix als mètodes o tècniques que s’utilitzen per normalitzar l’interval de variables independents de les nostres dades, o dit d’una altra manera, als mètodes per establir l’interval de valors de les característiques dins d’una escala similar. L’escala de funcions és generalment l’últim pas del canal de preprocessament de dades, realitzat just abans d’entrenar els algorismes d’aprenentatge automàtic.