Grunderna i datatvätt av Shawn Deny

Data rengöring eller rensning är thecorrection data som inte överensstämmer med den inställda format av databasen orrecord set, som också är känd som smuts eller grova data. Detta kan göras byeither radera felaktiga uppgifter (eller en strikt rengöring), eller modifiera incorrectentries som matchar rätt poster (eller en suddig rengöring). På så sätt är thehomogeneity av poster i databasen underhålls, och felaktigheter görs whileprocessing uppgifterna minimeras. Data rengöring skiljer sig från datavalidation, som är också ett förfarande för (vanligtvis) förkasta felaktiga inmatningar, men mestadels sker vid tidpunkten för inmatning av data. Städning utförs på entriesin en befintlig databas. vid rengöring görs vanligtvis byremoving tryckfel eller validera mot rätt poster. Forexample, kan ett telefonnummer inte innehålla några bokstäver, och om en post genom acustomer på ett webbformulär inte innehåller riktnummer, då koden kan beadded om platsen för kunden är känd. På samma sätt relevanta register kanske bifogade tillsammans, såsom telefonnummer och adresser, eller universitets rollnumbers med namn varuhus och årskurser.

Grova data i en company'sdatabase, såsom felaktig e-postadresser eller telefonnummer, kan visa sig bedetrimental till företagets resultat, eftersom det kan leda till incorrectlyplaced order, skicka e-post till fel personer, oförmåga att kontakta acustomer och flera lagerproblem såsom beställning fel quantityfrom fabriken eller miscalculating anställdas lönecheckar. Även i nationalcitizenship databaser kan felaktiga uppgifter resultera i felaktiga mätningar, whichwill leder till felaktiga ekonomisk politik när det gäller hälsovård, utbildning andinfrastructure . Omdömen Medan rensning data, thefollowing parametrar granskas: .

· giltighet, vilket är i vilken grad de datafollows reglerna i databasen, såsom längd, datatyp och expressionpatterns

· fullständighet och noggrannhet. Exakta uppgifter måste beas nära "sanna" värde. Medan 100% korrekt svårt att få, canbe det gjort genom korshänvisningar, som att använda streckkoder och produkt namestogether att kontrollera priset . Omdömen · Konsekvens och enhetlighet, som kontrollerar om thesame data representeras på samma sätt i olika databaser. Forexample om viktenhet är inställd som kilo, så borde det inte vara pounds inanother anslutna databasen.

Naturligtvis finns det severalproblems med att försöka rätta till alla data, den vanligaste av dessa isthe borttagning av data och förlust av information. Till exempel, i ett försök att fitaddresses i en uppsättning format, är några detaljer som skulle ha visat sig vara morehelpful ut, vilket resulterar i en svår att lokalisera kunden. Bra kvalitet uppgifter rengöring programvara, såsom att fromDataTools, måste ta hänsyn till att viktiga detaljer i uppgifterna notremoved till förmån för snabb och effektiv bearbetning . Omdömen