Hva er forskjellen mellom ETL og Data Warehouse

De hovedforskjell mellom ETL og Data Warehouse er det ETL er prosessen med å utvinne, transformere og laste dataene for å lagre det i et datalager mens datalageret er en sentral plassering som brukes til å lagre konsoliderte data fra flere datakilder.

Et datalager er et system som hjelper til med å analysere data, rapportere og visualisere dem for å gjøre forretningsbeslutninger. Det er emneorientert, integrert, tidsvariant og ikke-flyktig. Det er imidlertid flere trinn å følge før lagring av dataene i et datalager. Denne prosessen kalles ETL. Det innebærer Utpakking av data, Transformering, og til slutt, Laster dem til et datalager. Derfor er forskjellen mellom ETL og Data Warehouse stammer fra disse grunnleggende konseptene.

Nøkkelområder dekket

1. Hva er ETL
      - Definisjon, funksjonalitet
2. Hva er et Data Warehouse
     - Definisjon, funksjonalitet
3. Hva er forskjellen mellom ETL og Data Warehouse
     - Sammenligning av nøkkelforskjeller

Nøkkelord

Datavarehus, ETL

Hva er ETL

ETL står for Utdrag, transformer og last. I denne prosessen blir dataene først hentet fra flere datakilder. Deretter blir det transformert og lastet inn i datalageret. ETL betegner hele prosessen. IBM Data scene, Informatica, og Microsoft Integration tjenester er noen Enterprise Level ETL verktøy. La oss se nærmere på hvert trinn av ETL.

Utdrag

Ekstraksjon er det første trinnet. Det innebærer å trekke ut data fra ulike datakilder som databaser. Et viktig faktum å merke seg når du utfører utvinning, er at det ikke bør påvirke ytelsen eller responstiden til den opprinnelige datakilden. Derfor er det ulike datautvinningsstrategier.

Full utvinning - Dette innebærer å trekke ut alle dataene fra alle datakilder. Hovedutnyttelsen av denne strategien er å laste datalageret i begynnelsen eller laste det når det er vanskelig å identifisere de endrede dataene.

Delvis utvinning (med oppdateringsvarsling) - Denne strategien er enklere og raskere enn full utvinning. Det innebærer å trekke ut kun de modifiserte dataene.

Delvis utvinning (uten oppdateringsvarsling) - Det innebærer å utvinne dataene basert på visse viktige funksjoner. For eksempel, hvis det allerede er hentet data til i går, er det mulig å trekke ut dagens data og identifisere endringene i dem.

Transformation

Den utpakkede data er rå data, så det er ikke veldig nyttig. Derfor foregår datatransformasjon i neste trinn. Det innebærer rensing, kartlegging og konvertering av dataene. Grunnleggende transformasjonsoppgaver er som følger:

utvalg - Velger de nødvendige dataene

Kartlegging - Ser opp dataene fra ulike oppslagsfiler og samsvarer med dataene som trenger transformasjon

Data rensing -Rengjør dataene for å standardisere dem

samandrag - Samle og konsolidere dataene

Viktige datatransformasjonsoppgaver er som følger.

standardisering - Siden dataene kommer fra ulike kilder, krever det standardisering

Tegn sett konvertering og koding håndtering - Konvertere dataene til en definert koding

Beregne verdier - Beregne og utlede nye kolonner fra de eksisterende kolonnene.

Spilt og flettefelt - Splitting et felt til flere felt eller kombinere flere felt i et enkelt felt basert på kravene.

Konvertering av måleenheter - Involvering av datatidskonverteringer, etc.

samandrag - Samle og konsolidere dataene.

Sletter duplisering - Slette duplikatdata mottatt fra flere kilder.

Laster

Dette er prosessen med å hente de forberedte dataene og lagre den i datalageret. Det finnes ulike lasteteknikker.

Initial belastning - Laster datalageret for første gang.

Incremental Load - Bruk gjeldende endringer etter behov med jevne mellomrom.

Full oppdatering - Fullstendig slette innholdet i en eller flere tabeller og laste inn nye data.

Hva er et Data Warehouse

Data warehouse er et system som støtter forretningsunderretningsprosessen. Den konverterer dataene til meningsfylt informasjon for å analysere virksomheten. Derfor er det en verdifull ressurs for ledelsen av en organisasjon i å ta beslutninger.

Videre har en organisasjon ulike databaser som MySQL og MSSQL. Alle disse dataene hentes, forvandles og lastes inn i datalager. Da er dataene integrert og behandlet. Endelig bruker dataanalytikere, datavitenskapere og ledere disse dataene for å få forretningsinnsikt.

Videre er data i et datalagring delt inn i data mars. Hver av dem inneholder data for bestemte brukere. De forbedrer sikkerheten og dataintegriteten. Vanligvis er et datalager lokalisert i et eget sted fra de normale operasjonelle databaser.

Forskjellen mellom ETL og Data Warehouse

Definisjon

ETL er prosessen med å utvinne, transformere og laste inn data i et datalagringsmiljø. I motsetning til dette er et datalagring et føderalt repository for alle dataene som samles inn av et virksomhets ulike operativsystemer. Dermed er dette den grunnleggende forskjellen mellom ETL og datalager.

bruk

ETL er en prosess som brukes til å modifisere dataene før de lagres i datalageret. Et datalager brukes til å ta forretningsbeslutninger. Videre forbedrer det datakvaliteten og konsistensen og forbedrer forretningsinformasjonen. Derfor eksisterer det en forskjell mellom ETL og datalager basert på den enkelte bruk.

Konklusjon

I utgangspunktet er den grunnleggende forskjellen mellom ETL og datalagring at ETL er prosessen med å utvinne, transformere og laste dataene for å lagre den i et datalager, mens et datalager er en sentral plassering som brukes til å lagre konsoliderte data fra flere datakilder.

Henvisning:

1. "3 - ETL Tutorial | Utdrag Transform and Load ", Vikram Takkar, 8. september 2015, Tilgjengelig her.
2. "Hva er Data Warehouse? - Definisjon fra WhatIs.com. "SearchDataManagement, tilgjengelig her.

Bilde Courtesy:

1. "KrisangelChap2-ETL" Av Kkristangel - Eget arbeid (CC BY-SA 4.0) via Commons Wikimedia
2. "Data warehouse overview" Av Hhultgren - Eget arbeid (Public Domain) via Commons Wikimedia