Az alábbiakban gyakran feltett kérdéseket kapunk az interjúkban friss pályakezdőknek, valamint tapasztalt ETL tesztelőknek és fejlesztőknek.
1) Mi az ETL?
Az adattárház-architektúrában az ETL fontos elem, amely minden üzleti folyamat adatait kezeli. Az ETL jelentése Kivonat, Átalakítás és Betöltés . Az Extract elvégzi az adatok adatbázisból történő olvasásának folyamatát. A Transform átalakítja az adatokat olyan formátumba, amely megfelelő lehet a jelentésekhez és elemzésekhez. A betöltés közben az adatok beírása a céladatbázisba történik.
2) Magyarázza el, mit tartalmaznak az ETL tesztelési műveletek?
Az ETL tesztelés magában foglalja
- Ellenőrizze, hogy az adatok megfelelően átalakulnak-e az üzleti követelményeknek megfelelően
- Ellenőrizze, hogy a kivetített adatok csonkolás és adatvesztés nélkül vannak-e betöltve az adattárházba
- Győződjön meg arról, hogy az ETL alkalmazás érvénytelen adatokat közöl és helyettesíti az alapértelmezett értékekkel
- A méretezhetőség és a teljesítmény javítása érdekében győződjön meg arról, hogy az adatok a várt időkeretben töltődnek be
3) Mondja meg, hogy milyen típusú adattárházi alkalmazások vannak, és mi a különbség az adatbányászat és az adattárház között?
Az adattárház-alkalmazások típusai:
- Információk feldolgozása
- Analitikai feldolgozás
- Adatbányászat
Az adatbányászat meghatározható a rejtett prediktív információk nagy adatbázisokból történő kinyerésének folyamataként, és értelmezheti az adatokat, míg az adattárház egy adatbányát használhat az adatok gyorsabb analitikai feldolgozásához. Az adattárház az a folyamat, amikor több forrásból származó adatokat összesítenek egy közös tárba
4) Milyen eszközöket használnak az ETL-ben?
- Cognos-döntési adatfolyam
- Oracle Warehouse Builder
- Üzleti objektumok XI
- SAS üzleti raktár
- SAS Enterprise ETL szerver
5) Mi a tény? Melyek a tények?
Ez egy többdimenziós modell központi eleme, amely tartalmazza az elemzendő intézkedéseket. A tények összefüggenek a dimenziókkal.
A tények típusai
- Adalékanyagok
- Fél-additív tények
- Nem additív tények
6) Magyarázza el, mi a kocka és az OLAP kocka?
A kockák olyan adatfeldolgozó egységek, amelyek tényadatokból és az adattárház dimenzióiból állnak. Többdimenziós elemzést nyújt.
Az OLAP az Online Analytics feldolgozás rövidítése, az OLAP kocka pedig nagy adatokat többdimenziós formában tárol jelentési célokra. Dimenziók szerint kategorizált tényeknek nevezett tényekből áll.
7) Magyarázza el, mi a nyomkövetési szint és milyen típusok?
A nyomkövetési szint a naplófájlokban tárolt adatok mennyisége. A nyomkövetési szint két Normal és Verbose kategóriába sorolható. A Normal level részletesen elmagyarázza a nyomkövetési szintet, míg a részletes kifejezés minden sorban a nyomkövetési szinteket.
8) Magyarázza el, mi az a tényszemcse?
A gabona tény meghatározható az a szint, amelyen a tény információkat tárolják. Tény Granularitás néven is ismert
9) Magyarázza el, hogy mi a tény nélküli tény séma és mi a mérőszám?
Az intézkedések nélküli ténytábla tény nélküli ténytábla. Megtekintheti a előforduló események számát. Például olyan esemény rögzítésére használják, mint például a munkavállalók száma egy vállalatnál.
A ténytáblázat oszlopain alapuló numerikus adatok Mértékek néven ismertek
10) Magyarázza el, mi az átalakulás?
Az átalakítás olyan adattár objektum, amely adatokat generál, módosít vagy továbbít. A transzformáció kétféle aktív és passzív
11) Magyarázza el a keresési átalakítás használatát?
A Lookup transzformáció hasznos
- Kapcsolódó érték lekérése egy táblázatból oszlopérték használatával
- Frissítse a lassan változó dimenziótáblát
- Ellenőrizze, hogy vannak-e rekordok már a táblázatban
12) Magyarázza el, mi a particionálás, a hash particionálás és a körméretû particionálás?
A teljesítmény javítása érdekében a tranzakciókat felosztják, ezt particionálásnak hívják. A particionálás lehetővé teszi az Informatica Server számára, hogy több kapcsolatot hozzon létre különféle forrásokhoz
A partíciók típusai a következők
Round-Robin particionálás:
- Az informatika által az adatok egyenletesen oszlanak meg az összes partíció között
- Minden partícióban, ahol a feldolgozandó sorok száma közel azonos, ez a felosztás alkalmazható
Hash particionálás:
- A kulcsok particionálása céljából az adatok partíciók közötti csoportosításához az Informatica szerver hash függvényt alkalmaz
- Akkor használják, amikor biztosítani kell a folyamatok sorcsoportjainak azonos partíciós kulccsal ugyanabban a partícióban való biztosítását
13) Említse meg, mi az előnye a DataReader céladapter használatának?
A DataReader céladapter használatának előnye, hogy feltölti az ADO rekordokat (rekordokból és oszlopokból áll) a memóriában, és a DataReader felület megvalósításával kiteszi a DataFlow feladat adatait, hogy más alkalmazások is felhasználhassák az adatokat.
14) Az SSIS (SQL Server Integration Service) használatával miként lehet frissíteni a táblázatot?
A táblázat frissítése az SSIS használatával a következő módokon lehetséges:
- Használjon SQL parancsot
- Használjon átmeneti asztalt
- Használja a gyorsítótárat
- Használja a Script feladatot
- Használja a teljes adatbázis nevét a frissítéshez, ha MSSQL-t használ
15) Ha a kereséshez nem OLEDB (Object Linking and Embedding Database) forrás van, akkor mit tenne?
Abban az esetben, ha nem OLEBD forrás van a kereséshez, akkor a Cache használatával kell adatokat betölteni és forrásként használni
16) Milyen esetben használ dinamikus gyorsítótárat és statikus gyorsítótárat összekapcsolt és nem kapcsolt átalakításokban?
- A dinamikus gyorsítótár akkor használható, ha frissítenie kell a főtáblát és az 1. típusú dimenziókat (SCD)
- Lapos fájlokhoz statikus gyorsítótárat használnak
17) Magyarázza el, mi a különbség a Nem csatlakoztatott és a Csatlakoztatott keresés között?
Csatlakozott keresés |
Nincs csatlakoztatva |
|
- Akkor használják, ha leképezés közben keresési funkciót használnak kifejezés transzformáció helyett |
|
- Csak egy kimeneti portot ad vissza |
|
|
|
|
|
|
|
|
18) Magyarázza el, mi az adatforrás nézet?
Az adatforrás nézet lehetővé teszi a relációs séma meghatározását, amelyet az elemzési szolgáltatások adatbázisaiban használnak. A dimenziók és kockák nem közvetlenül az adatforrás objektumokból, hanem az adatforrások nézeteiből készülnek.
19) Magyarázza el, mi a különbség az OLAP eszközök és az ETL eszközök között?
Az ETL és az OLAP eszköz közötti különbség az
Az ETL eszköz az adatok kibontására szolgál a régi rendszerekből, és betöltésre kerül egy meghatározott adatbázisba, az adatok tisztításának valamilyen folyamatával.
Példa: Adat szakasz, Informatica stb.
Míg az OLAP jelentési célra szolgál a többirányú modellben elérhető OLAP adatokban.
Példa: Üzleti objektumok, Cognos stb.
20) Hogyan nyerheti ki az SAP-adatokat az Informatica segítségével?
- Az áramellátási kapcsolóval az SAP-adatokat az informatika segítségével vonhatja ki
- Telepítse és konfigurálja a PowerConnect eszközt
- Importálja a forrást a Forráselemzőbe. Az Informatica és az SAP között a Powerconnect sínként működik. A következő lépés az ABAP kód előállítása a leképezéshez, majd csak az informatica tud adatokat húzni az SAP-ból
- Források csatlakoztatása és importálása külső rendszerekből a Power Connect szolgáltatást használja
21) Mondja meg, mi a különbség a Power Mart és a Power Center között?
Power Center |
Power Mart |
|
|
|
|
|
|
|
|
22) Magyarázza el, hogy mi az a hely, ahol az állomás található?
Az adatok állomásozása olyan terület, ahol ideiglenesen az adatokat tárolja az adattárház kiszolgálón. Az adatok szakaszolása a következő lépéseket tartalmazza
- Forrásadatok kinyerése és adatátalakítás (szerkezetátalakítás)
- Adattranszformáció (adattisztítás, értéktranszformáció)
- Helyettesítő kulcs hozzárendelések
23) Mi az a busz séma?
A különböző üzleti folyamatok azonosításához a BUS dimenziót kell használni. Megfelelő dimenziókkal, valamint az információk szabványosított meghatározásával érkezik
24) Magyarázza el, mi az adattisztítás?
Az adattisztítás az adatok törlése az adattárházból. Törli a szemétadatokat, mint a null értékeket vagy extra szóközt tartalmazó sorokat.
25) Magyarázza el, hogy melyek a sémaobjektumok?
A sémaobjektumok azok a logikai struktúrák, amelyek közvetlenül hivatkoznak az adatbázisok adataira. A sémaobjektumok táblákat, nézeteket, szekvenciaszinonimákat, indexeket, fürtöket, függvénycsomagokat és adatbázis-hivatkozásokat tartalmaznak
26) Magyarázza el ezeket a kifejezéseket: Munkamenet, Munkafüzet, Térképkészlet és Munkafolyamat?
- Mapplet: Transzformációs csoportokat rendez vagy hoz létre
- Munkafüzet: Egy adott feladatsort képvisel
- Munkafolyamat: Ez egy utasításkészlet, amely megmondja a szervernek a feladatok végrehajtását
- Munkamenet: Ez egy olyan paraméterkészlet, amely megmondja a szervernek, hogyan kell az adatokat forrásokból célokba mozgatni
Ingyenes PDF letöltés: ETL Interjúkérdések és válaszok tesztelése