A top 25 ETL-interjúkérdés tesztelése & Válaszok

Az alábbiakban gyakran feltett kérdéseket kapunk az interjúkban friss pályakezdőknek, valamint tapasztalt ETL tesztelőknek és fejlesztőknek.

1) Mi az ETL?

Az adattárház-architektúrában az ETL fontos elem, amely minden üzleti folyamat adatait kezeli. Az ETL jelentése Kivonat, Átalakítás és Betöltés . Az Extract elvégzi az adatok adatbázisból történő olvasásának folyamatát. A Transform átalakítja az adatokat olyan formátumba, amely megfelelő lehet a jelentésekhez és elemzésekhez. A betöltés közben az adatok beírása a céladatbázisba történik.

2) Magyarázza el, mit tartalmaznak az ETL tesztelési műveletek?

Az ETL tesztelés magában foglalja

Ellenőrizze, hogy az adatok megfelelően átalakulnak-e az üzleti követelményeknek megfelelően
Ellenőrizze, hogy a kivetített adatok csonkolás és adatvesztés nélkül vannak-e betöltve az adattárházba
Győződjön meg arról, hogy az ETL alkalmazás érvénytelen adatokat közöl és helyettesíti az alapértelmezett értékekkel
A méretezhetőség és a teljesítmény javítása érdekében győződjön meg arról, hogy az adatok a várt időkeretben töltődnek be

3) Mondja meg, hogy milyen típusú adattárházi alkalmazások vannak, és mi a különbség az adatbányászat és az adattárház között?

Az adattárház-alkalmazások típusai:

Információk feldolgozása
Analitikai feldolgozás
Adatbányászat

Az adatbányászat meghatározható a rejtett prediktív információk nagy adatbázisokból történő kinyerésének folyamataként, és értelmezheti az adatokat, míg az adattárház egy adatbányát használhat az adatok gyorsabb analitikai feldolgozásához. Az adattárház az a folyamat, amikor több forrásból származó adatokat összesítenek egy közös tárba

4) Milyen eszközöket használnak az ETL-ben?

Cognos-döntési adatfolyam
Oracle Warehouse Builder
Üzleti objektumok XI
SAS üzleti raktár
SAS Enterprise ETL szerver

5) Mi a tény? Melyek a tények?

Ez egy többdimenziós modell központi eleme, amely tartalmazza az elemzendő intézkedéseket. A tények összefüggenek a dimenziókkal.

A tények típusai

Adalékanyagok
Fél-additív tények
Nem additív tények

6) Magyarázza el, mi a kocka és az OLAP kocka?

A kockák olyan adatfeldolgozó egységek, amelyek tényadatokból és az adattárház dimenzióiból állnak. Többdimenziós elemzést nyújt.

Az OLAP az Online Analytics feldolgozás rövidítése, az OLAP kocka pedig nagy adatokat többdimenziós formában tárol jelentési célokra. Dimenziók szerint kategorizált tényeknek nevezett tényekből áll.

7) Magyarázza el, mi a nyomkövetési szint és milyen típusok?

A nyomkövetési szint a naplófájlokban tárolt adatok mennyisége. A nyomkövetési szint két Normal és Verbose kategóriába sorolható. A Normal level részletesen elmagyarázza a nyomkövetési szintet, míg a részletes kifejezés minden sorban a nyomkövetési szinteket.

8) Magyarázza el, mi az a tényszemcse?

A gabona tény meghatározható az a szint, amelyen a tény információkat tárolják. Tény Granularitás néven is ismert

9) Magyarázza el, hogy mi a tény nélküli tény séma és mi a mérőszám?

Az intézkedések nélküli ténytábla tény nélküli ténytábla. Megtekintheti a előforduló események számát. Például olyan esemény rögzítésére használják, mint például a munkavállalók száma egy vállalatnál.

A ténytáblázat oszlopain alapuló numerikus adatok Mértékek néven ismertek

10) Magyarázza el, mi az átalakulás?

Az átalakítás olyan adattár objektum, amely adatokat generál, módosít vagy továbbít. A transzformáció kétféle aktív és passzív

11) Magyarázza el a keresési átalakítás használatát?

A Lookup transzformáció hasznos

Kapcsolódó érték lekérése egy táblázatból oszlopérték használatával
Frissítse a lassan változó dimenziótáblát
Ellenőrizze, hogy vannak-e rekordok már a táblázatban

12) Magyarázza el, mi a particionálás, a hash particionálás és a körméretû particionálás?

A teljesítmény javítása érdekében a tranzakciókat felosztják, ezt particionálásnak hívják. A particionálás lehetővé teszi az Informatica Server számára, hogy több kapcsolatot hozzon létre különféle forrásokhoz

A partíciók típusai a következők

Round-Robin particionálás:

Az informatika által az adatok egyenletesen oszlanak meg az összes partíció között
Minden partícióban, ahol a feldolgozandó sorok száma közel azonos, ez a felosztás alkalmazható

Hash particionálás:

A kulcsok particionálása céljából az adatok partíciók közötti csoportosításához az Informatica szerver hash függvényt alkalmaz
Akkor használják, amikor biztosítani kell a folyamatok sorcsoportjainak azonos partíciós kulccsal ugyanabban a partícióban való biztosítását

13) Említse meg, mi az előnye a DataReader céladapter használatának?

A DataReader céladapter használatának előnye, hogy feltölti az ADO rekordokat (rekordokból és oszlopokból áll) a memóriában, és a DataReader felület megvalósításával kiteszi a DataFlow feladat adatait, hogy más alkalmazások is felhasználhassák az adatokat.

14) Az SSIS (SQL Server Integration Service) használatával miként lehet frissíteni a táblázatot?

A táblázat frissítése az SSIS használatával a következő módokon lehetséges:

Használjon SQL parancsot
Használjon átmeneti asztalt
Használja a gyorsítótárat
Használja a Script feladatot
Használja a teljes adatbázis nevét a frissítéshez, ha MSSQL-t használ

15) Ha a kereséshez nem OLEDB (Object Linking and Embedding Database) forrás van, akkor mit tenne?

Abban az esetben, ha nem OLEBD forrás van a kereséshez, akkor a Cache használatával kell adatokat betölteni és forrásként használni

16) Milyen esetben használ dinamikus gyorsítótárat és statikus gyorsítótárat összekapcsolt és nem kapcsolt átalakításokban?

A dinamikus gyorsítótár akkor használható, ha frissítenie kell a főtáblát és az 1. típusú dimenziókat (SCD)
Lapos fájlokhoz statikus gyorsítótárat használnak

17) Magyarázza el, mi a különbség a Nem csatlakoztatott és a Csatlakoztatott keresés között?

Csatlakozott keresés	Nincs csatlakoztatva
A csatlakoztatott keresés részt vesz a leképezésben	- Akkor használják, ha leképezés közben keresési funkciót használnak kifejezés transzformáció helyett
Több érték adható vissza	- Csak egy kimeneti portot ad vissza
Összekapcsolható egy másik transzformációval és visszaad egy értéket	Egy másik transzformáció nem kapcsolható össze
Statikus vagy dinamikus gyorsítótár használható a csatlakoztatott kereséshez	Nincs csatlakoztatva, mint csak statikus gyorsítótár
A csatlakoztatott keresés támogatja a felhasználó által definiált alapértelmezett értékeket	A nem csatlakoztatott keresés nem támogatja a felhasználó által definiált alapértelmezett értékeket
A Csatlakozott keresés több oszlopban visszatérhet ugyanabból a sorból, vagy beillesztheti a dinamikus keresési gyorsítótárba	A nem kapcsolódó keresés kijelöl egy visszatérési portot, és minden sorból egy oszlopot ad vissza

18) Magyarázza el, mi az adatforrás nézet?

Az adatforrás nézet lehetővé teszi a relációs séma meghatározását, amelyet az elemzési szolgáltatások adatbázisaiban használnak. A dimenziók és kockák nem közvetlenül az adatforrás objektumokból, hanem az adatforrások nézeteiből készülnek.

19) Magyarázza el, mi a különbség az OLAP eszközök és az ETL eszközök között?

Az ETL és az OLAP eszköz közötti különbség az

Az ETL eszköz az adatok kibontására szolgál a régi rendszerekből, és betöltésre kerül egy meghatározott adatbázisba, az adatok tisztításának valamilyen folyamatával.

Példa: Adat szakasz, Informatica stb.

Míg az OLAP jelentési célra szolgál a többirányú modellben elérhető OLAP adatokban.

Példa: Üzleti objektumok, Cognos stb.

20) Hogyan nyerheti ki az SAP-adatokat az Informatica segítségével?

Az áramellátási kapcsolóval az SAP-adatokat az informatika segítségével vonhatja ki
Telepítse és konfigurálja a PowerConnect eszközt
Importálja a forrást a Forráselemzőbe. Az Informatica és az SAP között a Powerconnect sínként működik. A következő lépés az ABAP kód előállítása a leképezéshez, majd csak az informatica tud adatokat húzni az SAP-ból
Források csatlakoztatása és importálása külső rendszerekből a Power Connect szolgáltatást használja

21) Mondja meg, mi a különbség a Power Mart és a Power Center között?

Power Center	Power Mart
Tegyük fel, hogy hatalmas mennyiségű adatot dolgoznak fel	Tegyük fel, hogy kis mennyiségű adatot dolgozunk fel
Támogatja az ERP forrásokat, mint például az SAP, az emberek soft stb.	Nem támogatja az ERP forrásokat
Támogatja a helyi és globális adattárat	Támogatja a helyi adattárat
A lokálist globális adattárrá alakítja	Nincs specifikációja a helyi konvertálására globális tárolóvá

22) Magyarázza el, hogy mi az a hely, ahol az állomás található?

Az adatok állomásozása olyan terület, ahol ideiglenesen az adatokat tárolja az adattárház kiszolgálón. Az adatok szakaszolása a következő lépéseket tartalmazza

Forrásadatok kinyerése és adatátalakítás (szerkezetátalakítás)
Adattranszformáció (adattisztítás, értéktranszformáció)
Helyettesítő kulcs hozzárendelések

23) Mi az a busz séma?

A különböző üzleti folyamatok azonosításához a BUS dimenziót kell használni. Megfelelő dimenziókkal, valamint az információk szabványosított meghatározásával érkezik

24) Magyarázza el, mi az adattisztítás?

Az adattisztítás az adatok törlése az adattárházból. Törli a szemétadatokat, mint a null értékeket vagy extra szóközt tartalmazó sorokat.

25) Magyarázza el, hogy melyek a sémaobjektumok?

A sémaobjektumok azok a logikai struktúrák, amelyek közvetlenül hivatkoznak az adatbázisok adataira. A sémaobjektumok táblákat, nézeteket, szekvenciaszinonimákat, indexeket, fürtöket, függvénycsomagokat és adatbázis-hivatkozásokat tartalmaznak

26) Magyarázza el ezeket a kifejezéseket: Munkamenet, Munkafüzet, Térképkészlet és Munkafolyamat?

Mapplet: Transzformációs csoportokat rendez vagy hoz létre
Munkafüzet: Egy adott feladatsort képvisel
Munkafolyamat: Ez egy utasításkészlet, amely megmondja a szervernek a feladatok végrehajtását
Munkamenet: Ez egy olyan paraméterkészlet, amely megmondja a szervernek, hogyan kell az adatokat forrásokból célokba mozgatni

Ingyenes PDF letöltés: ETL Interjúkérdések és válaszok tesztelése