Standardizacija podatkov: definiraj, testiraj in transformiraj
Medtem ko se organizacije usmerjajo k vzpostavljanju podatkovne kulture v celotnem podjetju, se mnoge še vedno trudijo, da bi pravilno uredile svoje podatke. Črpanje podatkov iz različnih virov ter pridobivanje različnih formatov in predstavitev tega, kar naj bi bile iste informacije – povzroča resne ovire na vaši poti podatkov.
Ekipe se srečujejo z zamudami in napakami pri izvajanju svojih rutinskih operacij ali pridobivanju vpogledov iz naborov podatkov. Takšne težave prisilijo podjetja, da uvedejo mehanizem standardizacije podatkov – ki zagotavlja, da so podatki prisotni v doslednem in enotnem pogledu po vsej organizaciji.
Oglejmo si podrobneje proces standardizacije podatkov: kaj pomeni, korake vključuje in kako lahko dosežete standardni pogled podatkov v svojem podjetju.
Kaj je standardizacija podatkov?
Preprosto povedano, standardizacija podatkov je proces pretvorbe podatkovnih vrednosti iz nepravilne oblike v pravilno. Da bi omogočili standardiziran, enoten in dosleden pogled podatkov v celotni organizaciji, morajo biti vrednosti podatkov skladne z zahtevanim standardom – v kontekstu podatkovnih polj, ki jim pripadajo.
Primer napak standardizacije podatkov
Na primer, evidenca iste stranke, ki prebiva na dveh različnih lokacijah, ne sme vsebovati neskladij v imenu in priimku, e-poštnem naslovu, telefonski številki in naslovu prebivališča:
Ime | Email naslov | Telefonska številka | Datum rojstva | Spol | Naslov prebivališča |
---|---|---|---|---|---|
John Oneel | john.neal@gmail.com | 5164659494 | 14/2/1987 | M | 11400 W Olimpic BL # 200 |
Ime | Priimek | Email naslov | Telefonska številka | Datum rojstva | Spol | Naslov prebivališča |
---|---|---|---|---|---|---|
John | O'neal | john.neal_gmail.com | + 1 516-465-9494 | 2/14/1987 | Moški | 11400 W Olimpic 200 |
V zgornjem primeru lahko vidite naslednje vrste nedoslednosti:
- Strukturno: Prvi vir pokriva ime stranke kot eno polje, drugi pa ga shrani kot dve polji – ime in priimek.
- vzorec: Prvi vir ima a veljaven e-poštni vzorec velja v polju za e-poštni naslov, v drugem pa vidno manjka @ simbol.
- Vrsta podatkov: Prvi vir dovoljuje le števke v polju Telefonska številka, medtem ko ima drugi vir nizovno polje, ki vsebuje tudi simbole in presledke.
- Format: Prvi vir ima datum rojstva v obliki MM/DD/LLLL, drugi pa v obliki DD/MM/LLLL.
- Vrednost domene: Prvi vir omogoča, da se vrednost spola shrani kot M ali F, medtem ko drugi vir shrani celotno obliko – moški ali ženski.
Zaradi takšnih nedoslednosti podatkov naredite resne napake, zaradi katerih lahko vaše podjetje izgubi veliko časa, stroškov in truda. Iz tega razloga je implementacija mehanizma od konca do konca za standardizacija podatkov je ključnega pomena za vzdrževanje higiene podatkov.
Kako standardizirati podatke?
Standardizacija podatkov je preprost postopek v štirih korakih. Vendar se lahko metode in tehnike, ki se uporabljajo za standardizacijo, razlikujejo glede na naravo nedoslednosti v vaših podatkih in kaj poskušate doseči. Tukaj predstavljamo splošno pravilo, ki ga lahko uporabi katera koli organizacija za premagovanje svojih standardizacijskih napak.
- Določite, kaj je standard
Če želite doseči katero koli stanje, morate najprej definirati, kaj stanje dejansko je. V prvem koraku vsakega postopka standardizacije podatkov je ugotoviti, kaj je treba doseči. Najboljši način, da veste, kaj potrebujete, je razumevanje poslovnih zahtev. Pregledati morate svoje poslovne procese, da vidite, kateri podatki so potrebni in v kateri obliki. To vam bo pomagalo določiti izhodišče za vaše zahteve po podatkih.
Standardna definicija podatkov pomaga prepoznati:
- Podatkovna sredstva, ključna za vaš poslovni proces,
- potrebna podatkovna polja teh sredstev,
- Tip podatkov, oblika in vzorec, ki jim morajo ustrezati njihove vrednosti,
- Razpon sprejemljivih vrednosti za ta polja itd.
- Preizkusite nize podatkov glede na opredeljen standard
Ko imate standardno definicijo, je naslednji korak preizkusiti, kako dobro se vaši nabori podatkov ujemajo z njimi. Eden od načinov za oceno tega je uporaba profiliranje podatkov orodja, ki ustvarjajo celovita poročila in iščejo informacije, kot je odstotek vrednosti, ki ustreza zahtevam podatkovnega polja, kot so:
- Ali vrednosti sledijo zahtevani vrsti in obliki podatkov?
- Ali so vrednosti izven sprejemljivega območja?
- Ali vrednosti uporabljajo skrajšane oblike, kot so okrajšave in vzdevki?
- Ali standardizirani naslovi po potrebi – kot npr USPS standardizacija za ameriške naslove?
- Pretvorite neskladne vrednosti
Zdaj je končno napočil čas za transformacijo vrednosti, ki niso v skladu z definiranim standardom. Oglejmo si pogoste uporabljene tehnike pretvorbe podatkov.
- Razčlenitev podatkov – Nekatera podatkovna polja je treba najprej razčleniti, da dobimo potrebne komponente podatkov. Na primer, razčlenjevanje polja imena za ločevanje imena, srednjega imena in priimka ter vseh predpon ali pripon, ki so prisotne v vrednosti.
- Pretvorba vrste in formata podatkov – Med pretvorbo boste morda morali odstraniti neskladne znake, na primer odstraniti simbole in črke iz telefonske številke, ki vsebuje samo števke.
- Ujemanje vzorcev in validacija – Pretvorba vzorca se izvede s konfiguracijo regularnega izraza za vzorec. Za vrednosti e-poštnega naslova, ki ustrezajo regularnemu izrazu, jih je treba razčleniti in pretvoriti v definiran vzorec. e-poštni naslov je mogoče potrditi z uporabo regularnega izraza:
^[a-zA-Z0-9+_.-]+@[a-zA-Z0-9.-]+$
- Razširitev okrajšav – Imena podjetij, naslovi in imena oseb pogosto vsebujejo skrajšane oblike, zaradi katerih lahko vaš nabor podatkov vsebuje različne predstavitve istih informacij. Na primer, morda boste morali razširiti zvezne države, kot je pretvorba NY v New York.
- Odstranjevanje šuma in popravek črkovanja – Nekatere besede v resnici ne dodajo nobenega pomena vrednosti, ampak namesto tega v nabor podatkov vnesejo veliko šuma. Takšne vrednosti je mogoče prepoznati v naboru podatkov tako, da ga primerjate s slovarjem, ki vsebuje te besede, jih označite in se odločite, katere želite trajno odstraniti. Isti postopek je mogoče izvesti za iskanje napačno črkovanih in tipkarskih napak.
- Ponovno preizkusite nabor podatkov glede na definirani standard
V zadnjem koraku se transformirani nabor podatkov ponovno testira glede na definirani standard, da se ugotovi odstotek napak pri standardizaciji podatkov, ki so bile odpravljene. Za napake, ki še vedno ostajajo v vašem naboru podatkov, lahko nastavite ali znova konfigurirate svoje metode in znova zaženete podatke skozi postopek.
Zaviti
Količina podatkov, ki se ustvarjajo danes – ter različna orodja in tehnologije, ki se uporabljajo za zajemanje teh podatkov – vodijo podjetja v strašno podatkovno zmešnjavo. Imajo vse, kar potrebujejo, vendar niso povsem prepričani, zakaj podatki niso prisotni v sprejemljivi in uporabni obliki in obliki. Sprejetje orodij za standardizacijo podatkov lahko pomaga odpraviti takšne nedoslednosti in omogoči prepotrebno podatkovno kulturo v vaši organizaciji.