Hvad er dataafstemning? Definition, proces, værktøjer

Indholdsfortegnelse:

Anonim

Hvad er dataafstemning?

Dataafstemning (DR) defineres som en proces til verifikation af data under datamigrering. I denne proces sammenlignes måldata med kildedata for at sikre, at migrationsarkitekturen overfører data. Datavalidering og afstemning (DVR) betyder en teknologi, der bruger matematiske modeller til at behandle information.

I denne vejledning lærer du,

  • Hvad er dataafstemning?
  • Hvorfor er dataafstemning vigtig?
  • Terminologi forbundet med dataafstemning
  • Historik over dataforligning
  • Dataafstemningsproces
  • Bedste fremgangsmåder ved brug af dataafstemning
  • Dataafstemningsværktøjer

Hvorfor er dataafstemning vigtig?

I datamigrationsprocessen er det muligt at lave fejl i kortlægnings- og transformationslogikken. Problemer som driftstidsfejl som frafald af netværk eller ødelagte transaktioner kan ødelægge data.

Denne form for fejl kan føre til, at data efterlades i en ugyldig tilstand. Disse kan skabe en række problemer som:

  • Manglende optegnelser
  • Manglende værdier
  • Forkerte værdier
  • Dupliserede optegnelser
  • Dårligt formaterede værdier
  • Brudte forhold på tværs af tabeller eller systemer

Her er vigtige grunde til at bruge dataforligningsprocessen:

  • Brug af dataafstemning hjælper dig med at udtrække nøjagtige og pålidelige oplysninger om tilstanden i industriprocessen fra rå måledata.
  • Det hjælper dig også med at producere et enkelt konsistent sæt data, der repræsenterer den mest sandsynlige proceshandling.
  • Det fører også til unøjagtig indsigt og problemer med kundeservice.
  • Afstemning af data er også vigtig for integration af virksomhedskontrol.

Bortset fra ovenstående er der mange fordele / fordele ved dataafstemning.

Terminologi forbundet med dataafstemning

Grov fejl Grove fejl i målinger. Det afspejler kun biasfejl, instrumentfejl eller unormale støjspidser, hvis du kun bruger en kort gennemsnitsperiode.
Observerbarhed Observationsanalyse kan give dig detaljer om, hvilke variabler der kan bestemmes for et givet sæt begrænsninger og et sæt målinger.
Variation Varians er et mål for sensorens variation.
Redundans Det hjælper dig med at bestemme, hvilke målinger der skal estimeres ud fra andre variabler ved hjælp af begrænsningsligningerne.

Historik over dataforligning

Her er vigtige vartegn fra dataforligningens historie.

  • DVR (datavalidering og afstemning) startede i begyndelsen af ​​1960'erne. Det var rettet mod at lukke materialebalancer i produktionen, hvor rå målinger var tilgængelige for alle variabler.
  • I slutningen af ​​1960'erne blev alle de ikke-målte variabler overvejet i dataafstemningsprocessen.
  • Kvasi-steady state dynamik til filtrering og parallel parameterestimering over tid blev introduceret i 1977 af Stanley og Mah.
  • Dynamic DVR blev udviklet som en ikke-lineær optimeringsmodel, som blev udstedt af Liebman i år 1992

Dataafstemningsproces

Typer af dataafstemningsmetoder er:

Master Data-afstemning

Stamdataafstemning er en teknik til kun at afstemme stamdata mellem kilde og mål. Stamdata er for det meste uændrede eller ændrer sig langsomt i karakter, og der foretages ingen aggregeringshandling på datasættet.

Få almindelige eksempler på afstemning af stamdata er:

  • Samlet antal rækker
  • Samlet kunde i kilde og mål
  • Samlet antal varer i kilde og mål
  • Samlet antal rækker baseret på en given tilstand
  • Antal aktive brugere
  • Antal inaktive brugere osv.

Nøjagtighed af aktivitet

  • Du skal sikre dig, at transaktionerne er gyldige og er korrekte i deres formål.
  • Brug for at kontrollere, om transaktionerne er godkendt korrekt.

Transaktionsafstemning af data

Transaktionsdata udgør grundlaget for BI-rapporter. Derfor kan enhver uoverensstemmelse i transaktionsdata direkte påvirke pålideligheden af ​​rapporten og hele BI-systemet generelt.

Transaktionsdata-afstemningsmetode bruges i form af den samlede sum, som forhindrer enhver uoverensstemmelse forårsaget af ændring af granulariteten af ​​kvalificerende dimensioner.

Eksempler på foranstaltninger, der anvendes til afstemning af transaktionsdata, bør være:

  1. Summen af ​​den samlede indkomst beregnet fra kilde og mål
  2. Summen af ​​hele den solgte vare beregnet ud fra kilde og mål osv.

Automatiseret dataafstemning:

I et stort datalagerstyringssystem er det praktisk at automatisere dataafstemningsprocessen ved at gøre dette som en integreret del af dataindlæsningen. Det giver dig mulighed for at vedligeholde separate indlæsningsmetadatatabeller. Desuden vil automatiseret afstemning holde alle interessenter underrettet om rapporternes gyldighed.

Bedste fremgangsmåder ved brug af dataafstemning

  • Dataafstemningsprocessen skal sigte mod korrekte målefejl.
  • Bruttofejl skal være nul for at gøre dataafstemningsprocessen effektiv.
  • Standardtilgangen til dataafstemning har været afhængig af enkle registreringstællinger for at holde styr på, om det målrettede antal poster er migreret eller ej.
  • Datamigrationsløsning leverer lignende afstemningsfunktioner og dataprototypefunktionalitet, der giver fuld volumen dataforstemningstest.

Dataafstemningsværktøjer

1) OpenRefine

OpenRefine, som tidligere er kendt som en Google Refine, er en nyttig ramme for databaseafstemning. Det giver dig mulighed for at rense og overføre rodede data.

Download link: https://openrefine.org/

2) TIBCO klarhed

Dette dataafstemningsværktøj tilbyder on-demand softwaretjenester fra internettet i form af Software-as-a-service. Det giver brugerne mulighed for at validere dataene og rense data. Det giver komplette afstemningstestfunktioner. Udbredt i ETL-processen.

Download link: https://clarity.cloud.tibco.com/landing/index.html

3) Winpure

Winpure er en overkommelig og nøjagtig software til rengøring af data. Det giver dig mulighed for at rense en stor mængde data, fjerne dubletter, korrigere og standardisere for at designe det endelige datasæt.

Download link: https://winpure.com/

Resumé

  • Datavalidering og afstemning (DVR) er en teknologi, der bruger matematiske modeller til at behandle information.
  • Brug af dataafstemning hjælper dig med at udtrække nøjagtige og pålidelige oplysninger om tilstanden i industriprocessen fra rå måledata.
  • Bruttofejl, observerbarhed, afvigelse, redundans er vigtige udtryk, der bruges i dataafstemningsprocessen
  • Datavalidering og afstemning startede i begyndelsen af ​​1960'erne.
  • Tre typer dataafstemningsmetoder er 1) afstemning af stamdata 2) afstemning af transaktionsdata 3) automatiseret afstemning af data
  • Bruttofejl skal være nul for at gøre dataafstemningsprocessen effektiv.
  • Nogle vigtige dataafstemningsværktøjer er: 1) OpenRefine 2) TIBCO 3) Winpure
  • Denne metode er meget brugt i ydeevne og procesovervågning i olieraffinering / nuklear / kemisk industri