Mi az ETL?
Az ETL olyan folyamat, amely kivonja az adatokat a különböző forrásrendszerekből, majd átalakítja az adatokat (például számítások, összefűzések stb. Alkalmazásával), és végül betölti az adatokat az Adattárház rendszerbe. Az ETL teljes formája a Kivonat, Átalakítás és Betöltés.
Csábító azt gondolni, hogy egy adattárház létrehozása egyszerűen több forrásból származó adatok kinyerését és egy adattárház adatbázisába történő betöltését jelenti. Ez messze van az igazságtól, és összetett ETL folyamatot igényel. Az ETL-folyamat aktív közreműködést igényel a különböző érdekelt felektől, beleértve a fejlesztőket, elemzőket, tesztelőket, felső vezetőket, és technikailag kihívást jelent.
Annak érdekében, hogy megőrizze értékét, mint a döntéshozók eszközét, az adattárház rendszernek az üzleti változásokkal meg kell változnia. Az ETL az Adattárház rendszer ismétlődő tevékenysége (napi, heti, havi), és mozgékonynak, automatizáltnak és jól dokumentáltnak kell lennie.
Ebben az ETL oktatóanyagban megtanulja-
- Mi az ETL?
- Miért van szükséged ETL-re?
- ETL folyamat az adattárházakban
- 1. lépés: Kivonás
- 2. lépés) Átalakítás
- 3. lépés) Betöltés
- ETL Tools
- A legjobb gyakorlatok ETL folyamata
Miért van szükséged ETL-re?
Számos oka van annak, hogy az ETL-t a szervezetben alkalmazzák:
- Segít a vállalatoknak elemezni üzleti adataikat a kritikus üzleti döntések meghozatalához.
- A tranzakciós adatbázisok nem képesek megválaszolni az ETL példájával megválaszolható összetett üzleti kérdéseket.
- Az Adattárház közös adattárat biztosít
- Az ETL lehetőséget nyújt az adatok különböző forrásokból az adattárházba történő áthelyezésére.
- Az adatforrások változásával az Adattár automatikusan frissül.
- A jól megtervezett és dokumentált ETL rendszer szinte elengedhetetlen a Data Warehouse projekt sikeréhez.
- Engedélyezze az adatátalakítási, összesítési és számítási szabályok ellenőrzését.
- Az ETL folyamat lehetővé teszi a minta adatainak összehasonlítását a forrás és a célrendszer között.
- Az ETL folyamat bonyolult átalakításokat hajthat végre, és további területre van szükség az adatok tárolásához.
- Az ETL segít az adatok migrálásában egy Adattárházba. Konvertáljon különböző formátumokra és típusokra, hogy betartsa az egységes rendszert.
- Az ETL egy előre definiált folyamat a forrásadatok elérésére és a céladatbázisba történő manipulálására.
- Az adattárházban található ETL mély történelmi kontextust kínál az üzlet számára.
- Segít a termelékenység javításában, mert technikai készségek nélkül kodifikálja és újrafelhasználja.
ETL folyamat az adattárházakban
Az ETL egy 3 lépésből álló folyamat
1. lépés: Kivonás
Az ETL architektúra ezen lépésében az adatok a forrásrendszerből kerülnek ki az állomásterületre. Átalakítások, ha vannak ilyenek, átmeneti területen történnek, hogy a forrásrendszer teljesítménye ne romoljon. Továbbá, ha a sérült adatokat közvetlenül a forrásból másolja az adattárház adatbázisába, akkor a visszagörgetés kihívást jelent. Az átmeneti terület lehetőséget ad a kinyert adatok validálására, mielőtt az bekerülne az Adattárházba.
Az adattárháznak különböző rendszereket kell integrálnia
DBMS, hardver, operációs rendszerek és kommunikációs protokollok. A források tartalmazhatnak olyan régi alkalmazásokat, mint a nagygépek, testreszabott alkalmazások, az érintkezési eszközök, például ATM, hívásváltók, szöveges fájlok, táblázatok, ERP, a szállítóktól származó adatok, többek között.
Ezért logikai adattérképre van szükség az adatok fizikai kinyerése és betöltése előtt. Ez az adattérkép leírja a források és a céladatok kapcsolatát.
Három adat kinyerési módszer:
- Teljes kivonás
- Részleges kivonás - frissítés értesítés nélkül.
- Részleges kivonat - frissítési értesítéssel
Az alkalmazott módszertől függetlenül az extrakció nem befolyásolhatja a forrás rendszerek teljesítményét és válaszidejét. Ezek a forrás rendszerek élő gyártási adatbázisok. Bármely lassulás vagy reteszelés hatással lehet a vállalat eredményére.
Néhány érvényesítés az extrakció során történik:
- Összeegyeztetni a rekordokat a forrásadatokkal
- Győződjön meg arról, hogy nincs spam / nem kívánt adat betöltve
- Adattípus-ellenőrzés
- Távolítsa el az összes típusú ismétlődő / töredezett adatot
- Ellenőrizze, hogy az összes kulcs a helyén van-e vagy sem
2. lépés) Átalakítás
A forrásszerverről kinyert adatok nyersek, és eredeti formájában nem használhatók. Ezért meg kell tisztítani, feltérképezni és átalakítani. Valójában ez az a kulcsfontosságú lépés, ahol az ETL folyamat hozzáadott értéket ad és úgy változtatja meg az adatokat, hogy belátó BI jelentések állíthatók elő.
Ez az egyik fontos ETL-fogalom, ahol függvénykészletet alkalmaz a kinyert adatokra. Azokat az adatokat, amelyek nem igényelnek átalakítást, közvetlen mozgatásnak vagy adatátvitelnek hívják .
Az átalakítási lépésben testre szabott műveleteket hajthat végre az adatokon. Például, ha a felhasználó eladási összeget szeretne, amely nincs az adatbázisban. Vagy ha a táblázat kereszt- és vezetékneve különböző oszlopokban található. Betöltés előtt össze lehet összefűzni őket.
Az alábbiakban felsoroljuk az adatok integritásával kapcsolatos problémákat:
- Ugyanazon személy különböző írásmódja, mint Jon, John stb.
- A cégnevet többféleképpen lehet megjelölni, például a Google, a Google Inc.
- Különböző nevek használata, mint Cleaveland, Cleveland.
- Előfordulhat, hogy különböző számlaszámokat generálnak különböző alkalmazások ugyanazon ügyfél számára.
- Egyes adatokban a szükséges fájlok üresek maradnak
- A POS-nál kézi bevitelként gyűjtött érvénytelen termék hibákhoz vezethet.
Az érvényesítés ebben a szakaszban történik
- Szűrés - Csak bizonyos oszlopokat jelöljön ki a betöltéshez
- Szabályok és keresőtáblák használata az adatok szabványosításához
- Karakterkészlet átalakítás és kódolás kezelése
- Mértékegységek átalakítása, például dátum és idő konverzió, valuta konverzió, számszerű konverzió stb.
- Adatküszöb érvényesítésének ellenőrzése. Például az életkor nem lehet több, mint két számjegy.
- Az adatfolyam ellenőrzése az átmeneti területről a köztes táblákra.
- A kötelező mezőket nem szabad üresen hagyni.
- Tisztítás (például a NULL feltérképezése 0-ra vagy a nemi hím "M" -re és a nő "F" -re stb.)
- Oszlopok felosztása többszörösre és több oszlop egyesítése egyetlen oszlopra.
- Sorok és oszlopok átültetése,
- Az adatok egyesítéséhez használja a kereséseket
- Bármely összetett adatellenőrzés használata (pl. Ha a sor első két oszlopa üres, akkor automatikusan elutasítja a sor feldolgozását)
3. lépés) Betöltés
Adatok betöltése a céladattárház adatbázisába az ETL folyamat utolsó lépése. Egy tipikus adattárházban hatalmas mennyiségű adatot kell betölteni, viszonylag rövid idő alatt (éjszaka). Ezért a betöltési folyamatot optimalizálni kell a teljesítmény érdekében.
Terhelés meghibásodása esetén a helyreállítási mechanizmusokat úgy kell konfigurálni, hogy az adatok integritásának elvesztése nélkül induljanak újra a meghibásodás helyéről. Az Adattárház rendszergazdáinak figyelemmel kell kísérniük, újra kell folytatniuk, törölniük kell a betöltéseket a kiszolgáló teljesítményének megfelelően.
Rakodási típusok:
- Kezdeti betöltés - az összes Adattár tábla feltöltése
- Növekményes terhelés - a folyamatban lévő változtatások szükség szerinti, időszakos alkalmazása.
- Teljes frissítés - egy vagy több tábla tartalmának újrarajzolása és új adatok feltöltése.
Betöltés ellenőrzése
- Győződjön meg arról, hogy a kulcsmező adatai nem hiányoznak vagy semlegesek.
- Tesztelje a modellezési nézeteket a céltáblák alapján.
- Ellenőrizze, hogy a kombinált értékek és a számított mértékek.
- Adatellenőrzés a dimenziótáblában, valamint az előzménytáblában.
- Ellenőrizze a BI jelentéseket a betöltött tény- és dimenziótáblán.
ETL Tools
Számos adattárolási eszköz érhető el a piacon. Íme néhány kiemelkedő:
1. MarkLogic:
A MarkLogic egy adattárházi megoldás, amely megkönnyíti és gyorsítja az adatok integrálását a vállalati szolgáltatások tömbjének felhasználásával. Különféle típusú adatokat, például dokumentumokat, kapcsolatokat és metaadatokat tud lekérdezni.
https://www.marklogic.com/product/getting-started/
2. Oracle:
Az Oracle az iparág vezető adatbázisa. A Data Warehouse megoldások széles választékát kínálja helyszíni és felhőben egyaránt. A működési hatékonyság növelésével segíti az ügyfélélmények optimalizálását.
https://www.oracle.com/index.html
3. Amazon RedShift:
Az Amazon Redshift a Datawarehouse eszköz. Ez egy egyszerű és költséghatékony eszköz minden típusú adat elemzésére a szokásos SQL és a meglévő BI eszközök segítségével. Ez lehetővé teszi összetett lekérdezések futtatását is strukturált adatok petabájtjaival szemben.
https://aws.amazon.com/redshift/?nc2=h_m1
Itt található a hasznos adattárházi eszközök teljes listája.
A legjobb gyakorlatok ETL folyamata
Az alábbiakban bemutatjuk az ETL folyamat lépéseinek legjobb gyakorlatait:
Soha ne próbáljon megtisztítani minden adatot:
Minden szervezet szeretné, ha minden adat tiszta lenne, de a legtöbbjük nem hajlandó fizetni a várakozásért, vagy nem áll készen a várakozásra. Az egész megtisztítása egyszerűen túl sokáig tartana, ezért jobb, ha nem próbál meg minden adatot megtisztítani.
Soha ne tisztítson semmit:
Mindig tervezzen megtisztítani valamit, mert az Adattárház építésének legfőbb oka az, hogy tisztább és megbízhatóbb adatokat kínál.
Határozza meg az adatok tisztításának költségeit:
Az összes piszkos adat megtisztítása előtt fontos, hogy meghatározza az összes piszkos adatelem tisztítási költségét.
A lekérdezés feldolgozásának felgyorsításához rendelkezzen kiegészítő nézetekkel és indexekkel:
A tárolási költségek csökkentése érdekében tárolja az összesített adatokat lemezszalagokra. Emellett kompromisszumra van szükség a tárolandó adatok mennyisége és azok részletes felhasználása között. Kompromisszum az adatok részletességének szintjén a tárolási költségek csökkentése érdekében.
Összegzés:
- Az ETL az extrakciót, az átalakítást és a betöltést jelenti.
- Az ETL lehetőséget nyújt az adatok különböző forrásokból az adattárházba történő áthelyezésére.
- Az első lépésben a kinyerés során az adatokat a forrásrendszerből vonják ki az állomásterületre.
- Az átalakítási lépésben a forrásból kinyert adatokat megtisztítják és átalakítják.
- Adatok betöltése a céladattárba az ETL folyamat utolsó lépése.