Dimensions de qualitat de les dades a IBM Watson Knowledge Catalog

Bloc

Dimensions de qualitat de les dades a IBM Watson Knowledge Catalog

En un anterior article , Vaig explicar amb detall com IBM Cloud Pak for Data i IBM Infosphere Information Analyzer calculeu un nivell de qualitat de dades unificat per a cada conjunt de dades analitzat:



En resum, la puntuació de qualitat de les dades d’un conjunt de dades es calcula aplicant algoritmes que busquen diferents tipus de problemes de qualitat de les dades. S’identifica un problema de qualitat de les dades, sempre que les dades no compleixin una expectativa determinada. Aquests problemes es poden informar per a cel·les individuals del conjunt de dades, per a files completes o per a columnes o per al conjunt de dades. El tipus de problema de qualitat de les dades és el que es mostra a la interfície d'usuari Dimensió de la qualitat de les dades

Les dimensions de la qualitat de les dades resulten al catàleg de coneixements de Watson



La IBM envia un fitxer llista de dimensions estàndard de qualitat de les dades amb els seus productes. Aquestes dimensions fora de la caixa s'apliquen automàticament quan s'analitzen conjunts de dades al catàleg de Watson Knowledge o al servidor d'informació. Això es pot fer en un projecte de qualitat de dades que analitzi en profunditat la qualitat de les dades de recursos de dades seleccionats o com a part d’un procés de descobriment i ingestió de dades. Mireu el meu article anterior Desbloqueja les teves dades amb IBM Watson Knowledge Catalog per veure com funciona aquest procés de descobriment.

En aquest nou article explicaré cadascuna d’aquestes dimensions estàndard de qualitat de les dades, què mesuren i quant costen d’executar.



El cost d’una dimensió de qualitat de les dades

No totes les dimensions de la qualitat de les dades són igual de costoses. Alguns tipus de problemes de qualitat de les dades són bastant fàcils d’identificar fila per fila, alguns altres poden requerir més treball i múltiples passades sobre les dades i, per tant, poden tenir un impacte no menyspreable en el moment de l’anàlisi.

El cost (en termes de rendiment) d’una dimensió de qualitat de les dades depèn principalment del nombre de passades sobre les dades necessàries per identificar els problemes de qualitat de les dades cercades. Algunes dimensions de la qualitat de les dades no necessiten llegir-les perquè poden reutilitzar estadístiques precomputades mitjançant el perfil de dades abans que es produeixi l’anàlisi de la qualitat de les dades. La majoria de les dimensions de qualitat de les dades requereixen un sol pas per sobre de les dades. Alguns requereixen llegir tot el conjunt de dades per calcular algunes estadístiques i, després, tornar a fer una segona passada per tots els registres per identificar el problema.

L’abast d’una dimensió de qualitat de les dades

Com he explicat al meu article anterior, es poden informar de problemes de qualitat de les dades per a un valor individual, una fila completa, una columna completa o el conjunt de dades en conjunt. Això és el que anomenaré en aquest article el abast de la dimensió de la qualitat de les dades.

Com més gran sigui l'abast d'una dimensió, més precisa serà la puntuació de qualitat de les dades, ja que es pot evitar el doble recompte de problemes.

Per il·lustrar-ho, imagineu que a la mateixa columna teniu un 10% d’infraccions a la classe de dades i un 10% d’infraccions al format. Si aquestes dues dimensions de qualitat de les dades tinguessin un abast a nivell de columna (és a dir, si s’informessin dels problemes per a la columna en general), seria impossible determinar quantes de les infraccions del 10% de la classe de dades tenen els mateixos valors que les les infraccions de format. Això significaria que la puntuació de qualitat de les dades de la columna es calcularia com a 90% * 90% = 89%.

En realitat, aquestes 2 dimensions poden determinar el problema a nivell de valor. El més probable és que quan un valor no tingui la classe de dades esperada, tampoc no tindrà el format esperat, de manera que molts valors amb les infraccions de la classe de dades poden ser els mateixos que els valors amb les infraccions de format.

En aquest cas, atès que un valor dolent és un valor dolent, independentment de quants problemes tingui, la puntuació de qualitat de les dades es calcularia com a 90%, cosa que indica que el 10% dels valors són problemàtics.

Aquest exemple mostra que les dimensions de la qualitat de les dades del valor d'abast són les més precises. Tanmateix, per a alguns problemes no és viable ni massa car identificar els valors exactes que tenen el problema. Per aquest motiu, algunes dimensions de qualitat de les dades només informen del seu problema a nivell de columna.

Vegem ara cada dimensió individual de la qualitat de les dades.

Dimensions sense cap passada de dades

Valors duplicats: abast: columna

Aquesta dimensió busca valors duplicats a la columna que s'espera que només continguin valors únics, per exemple a les columnes de clau principal. Atès que la cerca de duplicats seria massa cara com a part de l’anàlisi de la qualitat de les dades, ja que caldria ordenar totes les columnes, aquesta dimensió reutilitza les estadístiques precomputades durant la creació de perfils de dades (anàlisi de columnes). Això té l'avantatge que la dimensió no necessita tornar a mirar les dades, però només pot informar de la freqüència del problema per a la columna en el seu conjunt i no pot dir a quina fila afecta exactament el problema. Per això, no es pot excloure que es comptabilitzin doble problemes que afecten els mateixos valors.

Per esbrinar les files exactes que contenen un duplicat, podeu utilitzar una regla de dades.

# data-governance # cloud-pak-for-data # data-quality

flota divs al costat de l’altre

towardsdatascience.com

Dimensions de qualitat de les dades a IBM Watson Knowledge Catalog

En aquest nou article explicaré cadascuna d’aquestes dimensions estàndard de qualitat de les dades, què mesuren i quant costen d’executar.