Itt találhatók a gyakran feltett adatmérnöki interjúk a pályakezdőknek, valamint a tapasztalt jelölteknek a megfelelő állás megszerzéséhez.
1) Magyarázza el az adatmérnököt.
Az adatkezelés a big data-ban használt kifejezés. Az adatgyűjtés és a kutatás alkalmazására összpontosít. A különféle forrásokból származó adatok csak nyers adatok. Az adatkezelés segít ezeket a nyers adatokat hasznos információkká alakítani.
2) Mi az adatmodellezés?
Az adatmodellezés az összetett szoftverterv diagramként történő dokumentálásának módszere, hogy bárki könnyen megértse. A különböző adatobjektumok és a szabályok között társított adatobjektumok fogalmi ábrázolása.
3) Soroljon fel különféle tervezési sémákat az adatmodellezésben
Az adatmodellezés során főként kétféle séma létezik: 1) Csillagséma és 2) Hópehely séma.
4) különbséget tenni strukturált és strukturálatlan adatok között
A következő különbség van a strukturált és a strukturálatlan adatok között:
Paraméter | Strukturált adatok | Strukturálatlan adatok |
Tárolás | DBMS | Nem kezelt fájlstruktúrák |
Alapértelmezett | ADO.net, ODBC és SQL | STMP, XML, CSV és SMS |
Integrációs eszköz | ELT (kivonat, átalakítás, betöltés) | Kézi adatbevitel vagy kötegelt feldolgozás, amely kódokat tartalmaz |
méretezés | A séma méretezése nehéz | A méretezés nagyon egyszerű. |
5) Magyarázza el a Hadoop alkalmazás összes összetevőjét
A Hadoop alkalmazás összetevői a következők:
- Hadoop Common: Ez egy általános segédprogramok és könyvtárak, amelyeket a Hadoop használ.
- HDFS: Ez a Hadoop alkalmazás arra a fájlrendszerre vonatkozik, amelyben a Hadoop adatokat tárolják. Ez egy elosztott fájlrendszer, nagy sávszélességgel.
- Hadoop MapReduce: A nagyméretű adatfeldolgozás biztosítására szolgáló algoritmuson alapul.
- Hadoop FONAL: Erőforrás-kezelésre használják a Hadoop-fürtön belül. Feladatok ütemezéséhez is használható a felhasználók számára.
6) Mi a NameNode?
Ez a HDFS középpontja. Tárolja a HDFS adatait, és különféle fájlokat követ a fürtön keresztül. Itt a tényleges adatokat nem tároljuk. Az adatokat a DataNodes tárolja.
7) Határozza meg a Hadoop streaming szolgáltatást
Ez egy olyan segédprogram, amely lehetővé teszi a térkép létrehozását, és csökkenti a munkahelyeket, és egy adott klaszterhez rendeli őket.
8) Mi a HDFS teljes formája?
A HDFS a Hadoop elosztott fájlrendszert jelenti.
9) Definiálja a blokkolást és a blokkolvasót a HDFS-ben
A blokkok az adatfájl legkisebb egységei. Hadoop hatalmas fájlokat oszt fel automatikusan apró darabokra.
A Blokkolvasó ellenőrzi a DataNode-on bemutatott blokkok listáját.
10) Milyen lépések történnek, amikor a Blokkolvasó sérült adatblokkot észlel?
A következő lépések történnek, amikor a Blokkolvasó egy sérült adatblokkot talál:
1) Először is, amikor a Blokkolvasó hibás adatblokkot talál, a DataNode jelentést ad a NameNode-nak
2) A NameNode elindítja az új replika létrehozásának folyamatát a sérült blokk másolatának felhasználásával.
3) A helyes replikák replikációs száma megpróbál megfelelni a replikációs tényezőnek. Ha a talált találat sérült, akkor az adatblokk nem törlődik.
11) Nevezzen meg két olyan üzenetet, amelyeket a NameNode kap a DataNode-tól?
Két név van, amelyet a NameNode kap a DataNode-tól. Ezek 1) blokkjelentés és 2) szívverés.
12) Sorolja fel a különböző XML konfigurációs fájlokat a Hadoop programban?
Öt XML konfigurációs fájl van a Hadoopban:
- Mapred-site
- Core-site
- HDFS-webhely
- Fonal-hely
13) Mekkora négy nagy V adat?
Négy V nagy adat:
- Sebesség
- Fajta
- Hangerő
- Igazság
14) Magyarázza el a Hadoop jellemzőit!
A Hadoop fontos jellemzői:
- Ez egy nyílt forráskódú keretrendszer, amely ingyenesen elérhető.
- A Hadoop kompatibilis a sokféle hardverrel, és könnyen hozzáférhető az új hardverhez egy adott csomóponton belül.
- A Hadoop támogatja az adatok gyorsabb elosztását.
- Az adatokat a fürtben tárolja, amely független a többi művelettől.
- A Hadoop lehetővé teszi 3 másolat létrehozását minden blokkhoz, különböző csomópontokkal.
15) Magyarázza el a Reducer főbb módszereit
- setup (): Olyan paraméterek konfigurálására szolgál, mint a bemeneti adatok mérete és az elosztott gyorsítótár.
- cleanup (): Ez a módszer az ideiglenes fájlok tisztítására szolgál.
- csökkenteni (): Ez a reduktor szíve, amelyet kulcsonként egyszer hívnak meg a hozzá tartozó csökkentett feladattal
16) Mi a COSHH rövidítése?
A COSHH rövidítése a Heterogén Hadoop rendszerek osztályozása és optimalizálása alapú ütemezése.
17) Magyarázza el a Csillagsémát
A Star Schema vagy a Star Join Schema a Data Warehouse séma legegyszerűbb típusa. Csillagséma néven ismert, mivel felépítése olyan, mint egy csillag. A Csillag sémában a csillag közepén lehet egy ténytábla és több társított dimenziótábla. Ez a séma nagy adatkészletek lekérdezésére szolgál.
18) Hogyan lehet nagy adatmegoldást telepíteni?
Kövesse az alábbi lépéseket a big data megoldás telepítéséhez.
1) Integrálja az adatokat olyan adatforrások segítségével, mint az RDBMS, SAP, MySQL, Salesforce
2) A kinyert adatokat tárolja NoSQL adatbázisban vagy HDFS-ben.
3) Telepítse a big data megoldást olyan feldolgozási keretek használatával, mint a Pig, a Spark és a MapReduce.
19) Magyarázza el az FSCK-t
A File System Check vagy az FSCK parancsot a HDFS használja. Az FSCK paranccsal ellenőrizhetjük a fájl inkonzisztenciáit és problémáit.
20) Magyarázza el a hópehely sémát
A hópehely séma a csillag séma kiterjesztése, és további dimenziókat ad hozzá. Úgynevezett hópehely, mert diagramja hópehelyre hasonlít. A dimenziótáblák normalizáltak, ami további táblákra osztja az adatokat.
21) különbséget tenni a csillag és a hópehely séma között
Csillag | SnowFlake séma |
A dimenziós hierarchiák a dimenziós táblában vannak tárolva. | Minden hierarchia külön táblákba kerül. |
Az adatredundancia esélye nagy | Az adatredundancia esélye alacsony. |
Nagyon egyszerű DB felépítésű | Bonyolult DB felépítésű |
Biztosítson gyorsabb módszert a kocka feldolgozására | A kocka feldolgozása a komplex összekapcsolódás miatt lassú. |
22) Ismertesse a Hadoop elosztott fájlrendszert
A Hadoop olyan skálázható elosztott fájlrendszerekkel dolgozik, mint az S3, HFTP FS, FS és HDFS. A Hadoop elosztott fájlrendszer a Google fájlrendszerén készül. Ezt a fájlrendszert úgy tervezték, hogy könnyen futtatható legyen a számítógépes rendszer nagy fürtjén.
23) Magyarázza el az adatmérnök fő feladatait!
Az adatmérnököknek sok felelősségük van. Ők kezelik az adatok forrásrendszerét. Az adatmérnökök leegyszerűsítik az összetett adatszerkezetet és megakadályozzák az adatok újbóli felépítését. Sokszor biztosítják az ELT-t és az adatátalakítást is.
24) Mi a fonal teljes formája?
A YARN teljes formája még egy erőforrás-tárgyaló.
25) Soroljon fel különféle módokat a Hadoop-ban
A Hadoop módjai 1) önálló mód 2) álosztott mód 3) teljesen elosztott mód.
26) Hogyan érhető el a biztonság Hadoopban?
Hajtsa végre a következő lépéseket a Hadoop biztonságának elérése érdekében:
1) Az első lépés az ügyfél hitelesítési csatornájának a szerverhez történő biztosítása. Időbélyegzés biztosítása az ügyfél számára.
2) A második lépésben az ügyfél a kapott időbélyegzővel a TGS-t kéri szolgáltatási jegyért.
3) Az utolsó lépésben az ügyfél szolgáltatási jegyet használ egy adott szerverhez történő önhitelesítéshez.
27) Mi a szívverés a Hadoopban?
A Hadoopban a NameNode és a DataNode kommunikál egymással. A szívverés az a jel, amelyet a DataNode rendszeresen küld a NameNode-nak jelenlétének kimutatására.
28) Hadoop-ban különbséget kell tenni a NAS és a DAS között
NAS | DAS |
Tárolási kapacitása 10 9- , hogy 10- 12- byte. | A tárolókapacitás 10 9 bájt. |
A GB-ra jutó kezelési költség mérsékelt. | A GB-ra jutó kezelési költség magas. |
Adatok továbbítása Ethernet vagy TCP / IP használatával. | Adatok továbbítása IDE / SCSI használatával |
29) Sorolja fel az adatmérnök által használt fontos mezőket vagy nyelveket
Íme néhány mező vagy nyelv, amelyet az adatmérnök használ:
- Valószínűség, valamint lineáris algebra
- Gépi tanulás
- Trendelemzés és regresszió
- Hive QL és SQL adatbázisok
30) Mi a nagy adat?
Nagy mennyiségű strukturált és strukturálatlan adatról van szó, amelyet a hagyományos adattárolási módszerek nem tudnak könnyen feldolgozni. Az adatmérnökök a Hadoop segítségével kezelik a nagy adatokat.
31) Mi a FIFO ütemezése?
Ez egy Hadoop Job ütemezési algoritmus. Ebben a FIFO ütemezésben egy riporter kiválasztja a munkákat a munkasorból, először a legrégebbi munkát.
32) Nevezze meg az alapértelmezett portszámokat, amelyeken a feladatkövető, a NameNode és a jobkövető fut a Hadoopban
Az alapértelmezett portszámok, amelyeken a feladatkövető, a NameNode és a jobkövető a Hadoop-ban fut, a következők:
- A feladatkövető 50060 porton fut
- A NameNode 50070 porton fut
- A Job Tracker 50030 porton fut
33) Hogyan lehet letiltani a blokkolvasót a HDFS adatcsomóponton
A blokkolvasó letiltásához a HDFS adatcsomóponton állítsa a dfs.datanode.scan.period.hours értéket 0-ra.
34) Hogyan lehet meghatározni a Hadoop két csomópont közötti távolságot?
A távolság megegyezik a legközelebbi csomópontok távolságának összegével. A getDistance () módszer két csomópont közötti távolság kiszámítására szolgál.
35) Miért kell árucikk hardvert használni a Hadoopban?
Az árucikk hardver könnyen beszerezhető és megfizethető. Ez egy olyan rendszer, amely kompatibilis a Windows, az MS-DOS vagy a Linux rendszerrel.
36) Határozza meg a replikációs tényezőt a HDFS-ben
A replikációs tényező a fájlban található összes fájl másolatának száma a rendszerben.
37) Milyen adatokat tárol a NameNode?
A Namenode tárolja a HDFS metaadatait, például a blokkinformációkat és a névtér információkat.
38) Mit ért a rack-tudatosság alatt?
A Haddop-fürtben a Namenode a Datanode segítségével javítja a hálózati forgalmat, miközben a közeli állványhoz közelebb lévő fájlokat olvas vagy ír kérés olvasása vagy írása közben. A Namenode fenntartja az egyes DataNode rack azonosítóit a rack információk elérése érdekében. Ezt a koncepciót Rack Awareness néven hívják a Hadoopban.
39) Melyek a másodlagos NameNode funkciói?
A másodlagos NameNode funkciói a következők:
- FsImage, amely az EditLog és az FsImage fájl egy példányát tárolja.
- NameNode összeomlás: Ha a NameNode összeomlik, akkor a másodlagos NameNode FsImage-jével újra létrehozható a NameNode.
- Ellenőrzőpont: A Secondary NameNode használja annak megerősítésére, hogy az adatok nem sérültek a HDFS-ben.
- Frissítés: Automatikusan frissíti az EditLog és az FsImage fájlt. Segít az FsImage fájl másodlagos frissítésében.
40) Mi történik, ha a NameNode nem működik, és a felhasználó új feladatot nyújt be?
A NameNode a Hadoop egyetlen hibapontja, így a felhasználó nem tud új feladatot benyújtani, és nem tudja végrehajtani. Ha a NameNode nem működik, akkor a feladat sikertelen lehet, mivel ennek a felhasználónak meg kell várnia a NameNode újraindítását, mielőtt bármilyen munkát lefuttatna.
41) Melyek a reduktor alapvető fázisai a Hadoop-ban?
A Hadoop szűkítőjének három alapvető fázisa van:
1. Véletlen sorrend: Itt a Reducer lemásolja a Mapper kimenetét.
2. Rendezés: Rendezéskor a Hadoop ugyanazzal a gombbal rendezi a bemenetet a Reducerhez.
3. Csökkentés: Ebben a fázisban a kulcshoz tartozó kimeneti értékeket csökkentik, hogy az adatokat a végső kimenetbe konszolidálják.
42) Miért használja a Hadoop a Context objektumot?
A Hadoop keretrendszer a Context objektumot használja a Mapper osztállyal a többi rendszerrel való interakcióhoz. A Context objektum megkapja a rendszer konfigurációs részleteit és a feladatát a konstruktorában.
A Context objektumot használjuk az információk átadásához a setup (), a cleanup () és a map () módszerekben. Ez az objektum létfontosságú információkat tesz elérhetővé a térképműveletek során.
43) Define Combiner a Hadoop-ban
Ez opcionális lépés a Map és a Reduce között. A Combiner átveszi a kimenetet a Map funkcióból, létrehoz kulcsértékpárokat és benyújtja a Hadoop Reducer-nek. A Combiner feladata, hogy a Map végeredményét azonos kulccsal összesítse az összesítő rekordokba.
44) Mi az alapértelmezett replikációs tényező a HDFS-ben? Mit jelez?
A HDFS- ben elérhető alapértelmezett replikációs tényező három. Az alapértelmezett replikációs tényező azt jelzi, hogy minden adatnak három replikája lesz.
45) Mit jelent a Data Locality a Hadoop-ban?
A Big Data rendszerben az adatok mérete óriási, és ezért nincs értelme az adatokat a hálózaton keresztül mozgatni. Most Hadoop megpróbálja közelebb vinni a számítást az adatokhoz. Így az adatok a tárolt helyhez képest helyi szinten maradnak.
46) Define Balancer a HDFS-ben
A HDFS-ben a kiegyensúlyozó egy adminisztrátor, amelyet az adminisztrátorok használnak az adatok egyensúly helyreállítására a DataNodes között, és a blokkokat a túlhasznált és a kihasználatlan csomópontok között mozgatja.
47) Magyarázza el a biztonságos módot a HDFS-ben
A NameNode csak olvasható módja a fürtben. Kezdetben a NameNode a Safemode-ban van. Megakadályozza a Safemode fájlrendszerbe történő írását. Ekkor adatokat és statisztikákat gyűjt az összes DataNode-ból.
48) Mi a jelentősége az elosztott gyorsítótárnak az Apache Hadoopban?
A Hadoop rendelkezik egy hasznos segédfunkcióval, az úgynevezett Distributed Cache-mel, amely az alkalmazások által használt fájlok gyorsítótárazásával javítja a feladatok teljesítményét. Egy alkalmazás a JobConf konfigurációjával meghatározhat egy fájlt a gyorsítótárhoz.
A Hadoop keretrendszer ezeket a fájlokat másolja a csomópontokra, amelyet egy feladatot végre kell hajtani. Ez a feladat végrehajtásának megkezdése előtt történik. Az Elosztott gyorsítótár támogatja az írásvédett fájlok, valamint a zip és az üvegek terjesztését.
49) Mi a metastore a kaptárban?
Tárolja a sémát, valamint a Hive táblázat helyét.
A Hive tábla meghatározza, leképezéseket és metaadatokat tárolja a Metastore-ban. Ez tárolható a JPOX által támogatott RDBMS-ben.
50) Mit jelent SerDe a kaptárban?
A SerDe a Serializer vagy Deserializer rövid neve. A Hive-ban a SerDe lehetővé teszi az adatok táblázatból olvasását és egy adott mezőbe történő írását bármilyen formátumban.
51) Sorolja fel a Hive adatmodellben elérhető összetevőket
A Hive adatmodellben a következő összetevők vannak:
- Táblázatok
- Partíciók
- Vödrök
52) Magyarázza el a kaptár használatát a Hadoop ökoszisztémában.
A Hive felületet biztosít a Hadoop ökoszisztémában tárolt adatok kezeléséhez. A Hive a HBase táblák feltérképezésére és kezelésére szolgál. A Hive lekérdezéseket MapReduce-munkákká alakítják át, hogy elrejtsék a MapReduce-feladatok létrehozásával és futtatásával járó összetettséget.
53) Soroljon fel különböző összetett adattípusokat / gyűjteményeket a Hive
A Hive a következő összetett adattípusokat támogatja:
- Térkép
- Szerkezet
- Sor
- Unió
54) Magyarázza el, hogyan használják a Hive-ben található .hiverc fájlt?
A Hive-ban a .hiverc az inicializáló fájl. Ez a fájl először akkor töltődik be, amikor elindítjuk a Hive parancssori felületét (CLI). A .hiverc fájlban beállíthatjuk a paraméterek kezdeti értékeit.
55) Lehetséges-e egynél több táblázatot létrehozni a Hive-ban egyetlen adatfájlhoz?
Igen, több táblázatsémát is létrehozhatunk egy adatfájlhoz. A Hive elmenti a sémát a Hive Metastore-ban. Ezen séma alapján azonos adatokból különböző eredményeket kaphatunk.
56) Magyarázza el a Hive-ben elérhető különböző SerDe-megvalósításokat
Számos SerDe megvalósítás érhető el a Hive-ban. Ön is megírhatja saját SerDe implementációját. Az alábbiakban ismertetünk néhány híres SerDe-megvalósítást:
- OpenCSVSerde
- RegexSerDe
- ElhatároltJSONSerDe
- ByteStreamTypedSerDe
57) Sorolja fel a Hive-ban elérhető táblageneráló funkciókat
Az alábbiakban felsoroljuk a táblázatot generáló függvényeket:
- Robban (tömb)
- JSON_tuple ()
- Kazal()
- Explode (térkép)
58) Mi a ferde asztal a kaptárban?
A ferde tábla olyan táblázat, amely gyakrabban tartalmazza az oszlopértékeket. A Hive-ban, amikor a létrehozás során egy táblázatot SKEWED-nek adunk meg, a ferde értékeket külön fájlokba írjuk, a fennmaradó értékek pedig egy másik fájlba kerülnek.
59) Sorolja fel a create utasítás által létrehozott objektumokat a MySQL-ben.
A MySQL-ben a create utasítás által létrehozott objektumok a következők:
- Adatbázis
- Index
- asztal
- Felhasználó
- Eljárás
- Trigger
- Esemény
- Kilátás
- Funkció
60) Hogyan lehet megtekinteni az adatbázis-struktúrát a MySQL-ben?
A MySQL adatbázis-struktúrájának megtekintéséhez használhatja
DESCRIBE parancs. A parancs szintaxisa a DESCRIBE Table name ;.
61) Hogyan keressünk egy adott karakterláncot a MySQL tábla oszlopában?
Használjon regex operátort String keresésére a MySQL oszlopban. Itt meghatározhatjuk a reguláris kifejezés különféle típusait, és kereshetünk a regex használatára.
62) Magyarázza el, hogy az adatelemzés és a big data hogyan növelheti a vállalat bevételeit?
Az alábbiakban bemutatjuk, hogy az adatelemzés és a big data hogyan növelheti a vállalat bevételeit:
- Az adatok hatékony felhasználásával biztosíthatja az üzleti növekedést.
- Növelje az ügyfél értékét.
- Elemzővé vált a létszám-előrejelzések javítása érdekében.
- A szervezetek termelési költségeinek csökkentése.