A 60 legnépszerűbb Hadoop & MapReduce interjúkérdések & Válaszok

Tartalomjegyzék

PDF letöltése

Az alábbiakban gyakran feltett kérdéseket kapunk az interjúkban friss és friss tapasztalt fejlesztők számára.

1) Mi az a Hadoop Map Reduce?

Nagy adathalmazok párhuzamos feldolgozásához a Hadoop-fürtön keresztül a Hadoop MapReduce keretrendszert használják. Az adatelemzés kétlépcsős térképet használ és csökkenti a folyamatot.

2) Hogyan működik a Hadoop MapReduce?

A MapReduce programban a térképi fázis során megszámolja az egyes dokumentumokban szereplő szavakat, míg a redukciós szakaszban az adatokat a teljes gyűjteményre kiterjedő dokumentum szerint összesíti. A térképi szakaszban a bemeneti adatokat hasításokra osztják elemzésre a Hadoop keretrendszeren keresztül párhuzamosan futó térképi feladatokkal.

3) Magyarázza el, hogy mi keveredik a MapReduce-ban?

Az a folyamat, amellyel a rendszer elvégzi a rendezést és a térkép kimeneteit bemenetként továbbítja a reduktorra, shuffle néven ismert

4) Magyarázza el, hogy mi az elosztott gyorsítótár a MapReduce Framework-ben?

Az elosztott gyorsítótár a MapReduce keretrendszer fontos funkciója. Ha meg akar osztani néhány fájlt a Hadoop-fürt összes csomópontján, akkor az Elosztott gyorsítótárat használja. A fájlok lehetnek futtatható jar fájlok vagy egyszerű tulajdonságfájlok.

5) Magyarázza el, mi a NameNode a Hadoop-ban?

A Hadoop-ban található NameNode az a csomópont, ahol a Hadoop az összes fájlhely-információt HDFS-ben (Hadoop Distributed File System) tárolja. Más szavakkal, a NameNode a HDFS fájlrendszer középpontja. Nyilvántartja a fájlrendszer összes fájlját és nyomon követi a fájladatokat a fürtön vagy több gépen

6) Magyarázza el, mi az a JobTracker a Hadoopban? Milyen cselekedeteket követ Hadoop?

A Hadoop-ban a MapReduce-feladatok beküldéséhez és nyomon követéséhez a JobTracker-t használják. Job tracker a saját JVM folyamatán fut

A Job Tracker a következő műveleteket hajtja végre a Hadoopban

  • Az ügyfélalkalmazás küldje be a feladatokat az álláskövetőnek
  • A JobTracker kommunikál a Név üzemmóddal az adatok helyének meghatározásához
  • Az adatok közelében vagy a rendelkezésre álló helyekkel a JobTracker megkeresi a TaskTracker csomópontokat
  • A kiválasztott TaskTracker csomópontokon beküldi a munkát
  • Ha egy feladat sikertelen, a Job tracker értesíti és eldönti, hogy mit tegyen akkor.
  • A TaskTracker csomópontokat a JobTracker figyeli

7) Magyarázza el, mi a szívverés a HDFS-ben?

A szívverésre az adatcsomópont és a Névcsomópont, valamint a feladatkövető és a feladatkövető közötti jelre vonatkozik, ha a Névcsomópont vagy a Munkakövető nem reagál a jelre, akkor úgy vélik, hogy vannak problémák az adatcsomópont vagy a feladat között nyomozó

8) Magyarázza el, hogy melyek a kombinátorok, és mikor érdemes kombinátort használni a MapReduce Jobban?

A MapReduce Program hatékonyságának növelése érdekében kombinátorokat használnak. Az adatmennyiség csökkenthető a kombinátor segítségével, amelyet át kell vinni a reduktorokra. Ha az elvégzett művelet kommutatív és asszociatív, akkor a reduktor kódját kombinálóként használhatja. A kombinátor végrehajtása a Hadoopban nem garantált

9) Mi történik, ha egy adatcsomópont meghibásodik?

Ha egy adatcsomópont meghibásodik

  • A Jobtracker és a namenode észleli a hibát
  • A sikertelen csomóponton az összes feladatot átütemezik
  • A Namenode másolja a felhasználó adatait egy másik csomópontra

10) Magyarázza el, mi a spekulatív végrehajtás?

A Hadoopban a spekulatív végrehajtás során bizonyos számú ismétlődő feladat elindul. Egy másik rabszolgacsomóponton ugyanazon térkép vagy egy kicsinyített feladat több példánya végrehajtható a Spekulatív végrehajtás használatával. Egyszerű szavakkal, ha egy adott meghajtó hosszú ideig tart egy feladat végrehajtásához, a Hadoop duplikált feladatot hoz létre egy másik lemezen. Az a lemez, amelyik először befejezi a feladatot, megmarad, és azokat a lemezeket, amelyek nem először fejeződnek be, megölik.

11) Magyarázza el, hogy melyek a Mapper alapvető paraméterei?

A Mapper alapvető paraméterei a következők

  • LongWritable és szöveg
  • Szöveg és írható

12) Magyarázza el, hogy mi a MapReduce particionáló funkciója?

A MapReduce particionáló feladata, hogy megbizonyosodjon arról, hogy egyetlen kulcs teljes értéke ugyanahhoz a reduktorhoz kerül, ami végül a térkép kimenetének egyenletes eloszlását segíti a reduktorokon

13) Magyarázza el, mi a különbség az Input Split és a HDFS blokk között?

Az adatok logikai felosztása Split, míg a fizikai adatok megosztása HDFS Block néven ismert

14) Magyarázza el, mi történik szöveges formátumban?

Szövegbeviteli formátumban a szövegfájl minden sora rekord. Az érték a sor tartalma, míg a Key a sor byte-eltolása. Például: Key: longWritable, Érték: text

15) Nevezze meg azokat a fő konfigurációs paramétereket, amelyeket a felhasználónak meg kell adnia a MapReduce Job futtatásához?

A MapReduce keretrendszer felhasználójának meg kell adnia

  • Job beviteli helyei az elosztott fájlrendszerben
  • Job kimeneti helye az elosztott fájlrendszerben
  • Beviteli formátum
  • Kimeneti formátum
  • A térképfüggvényt tartalmazó osztály
  • A csökkentési funkciót tartalmazó osztály
  • JAR fájl, amely a leképező, a szűkítő és a meghajtó osztályokat tartalmazza

16) Magyarázza el, mi a WebDAV a Hadoop-ban?

A fájlok szerkesztésének és frissítésének támogatása érdekében a WebDAV a HTTP kiterjesztéseinek egy csoportja. A legtöbb operációs rendszeren a WebDAV megosztás fájlrendszerként csatlakoztatható, így a HDFS-hez a WebDAV-on keresztül elérhető HDFS-hez szokásos fájlrendszerként lehet hozzáférni.

17) Magyarázza el, mi a Sqoop a Hadoopban?

Az adatok átviteléhez a relációs adatbázis-kezelő (RDBMS) és a Hadoop HDFS között egy eszközt használnak, amelyet Sqoop néven ismernek. Az Sqoop használatával az adatok átvihetők az RDMS-ből, például a MySQL-ből vagy az Oracle-ből a HDFS-be, valamint az adatok exportálása a HDFS fájlból az RDBMS-be

18) Magyarázza el, hogy a JobTracker hogyan ütemez egy feladatot?

A feladatkövető szívritmus-üzeneteket küld a Jobtracker-nek általában néhány percenként, hogy megbizonyosodjon arról, hogy a JobTracker aktív és működik. Az üzenet tájékoztatja a JobTracker-t a rendelkezésre álló bővítőhelyek számáról is, így a JobTracker naprakész maradhat a fürtmunka delegálására vonatkozóan

19) Magyarázza el, mi a Sequencefileinputformat?

A Sequencefileinputformat fájlok egymás utáni olvasására szolgál. Ez egy speciális tömörített bináris fájlformátum, amely optimalizált adatok továbbítására egy MapReduce job kimenete és más MapReduce job bemenete között.

20) Magyarázza el, hogy mit csinál a conf.setMapper osztály?

A Conf.setMapperclass beállítja a leképező osztályt és a térképi feladathoz kapcsolódó összes dolgot, például az adatok olvasását és a kulcs-érték pár előállítását a leképezőből

21) Magyarázza el, mi az a Hadoop?

Ez egy nyílt forráskódú szoftver keretrendszer az adatok tárolására és alkalmazások futtatására az árucikk hardverfürtjein. Óriási feldolgozási teljesítményt és hatalmas adattárolást biztosít bármilyen típusú adat számára.

22) Mondja meg, mi a különbség az RDBMS és a Hadoop között?

RDBMS Hadoop
Az RDBMS egy relációs adatbázis-kezelő rendszer A Hadoop egy csomópont alapú lapos szerkezet
Az OLTP feldolgozására használt, míg a Hadoop Jelenleg analitikai és BIG DATA feldolgozásra használják
Az RDBMS-ben az adatbázis-fürt ugyanazokat az adatfájlokat használja, amelyeket egy megosztott tárolóban tárol A Hadoop alkalmazásban a tárolási adatok egymástól függetlenül tárolhatók minden egyes feldolgozási csomópontban.
Tárolás előtt elő kell dolgoznia az adatokat tárolás előtt nem kell előzetesen feldolgoznia az adatokat

23) Megemlíti a Hadoop-alapkomponenseket?

A Hadoop központi elemei a következők:

  • HDFS
  • MapReduce

24) Mi a NameNode a Hadoopban?

A Hadoop-ban található NameNode az, ahol a Hadoop az összes fájlhely-információt tárolja a HDFS-ben. Ez az a fő csomópont, amelyen a jobkövető fut, és metaadatokból áll.

25) Említse meg, milyen adatkomponenseket használ a Hadoop?

A Hadoop által használt adatkomponensek

  • malac
  • Kaptár

26) Említse meg, hogy a Hadoop milyen adattároló komponenst használ?

A Hadoop által használt adattároló komponens a HBase.

27) Említse meg, melyek a Hadoop-ban definiált leggyakoribb bemeneti formátumok?

A Hadoop-ban definiált leggyakoribb bemeneti formátumok:

  • TextInputFormat
  • KeyValueInputFormat
  • SequenceFileInputFormat

28) Mi a Hadoop-ban az InputSplit?

A bemeneti fájlokat darabokra osztja, és minden egyes felosztást hozzárendel egy leképezőhöz feldolgozás céljából.

29) Hadoop-munkához hogyan fogsz írni egy egyedi partíciót?

Egy egyéni partíciót írsz egy Hadoop-jobhoz, és követed a következő utat

  • Hozzon létre egy új osztályt, amely kiterjeszti a Partitioner osztályt
  • A getPartition metódus felülírása
  • A MapReduce-t futtató burkolóban
  • Adja hozzá az egyéni particionálót a jobhoz a Partitioner Class metóduskészlet használatával, vagy - adja hozzá az egyéni particionálót a jobhoz konfigurációs fájlként

30) Hadoop-i állások esetén megváltoztatható-e a létrehozandó leképezők száma?

Nem, a létrehozandó leképezők számát nem lehet megváltoztatni. A leképezők számát a bemeneti osztások száma határozza meg.

31) Magyarázza el, mi az a szekvenciafájl a Hadoop-ban?

A bináris kulcs / érték párok tárolásához szekvenciafájlt használunk. A normál tömörített fájllal ellentétben a sorrendfájl akkor is támogatja a felosztást, ha a fájlban lévő adatok tömörítve vannak.

32) Ha a Namenode nem működik, mi történik az álláskövetővel?

A Namenode az egyetlen hibapont a HDFS-ben, így amikor a Namenode leáll, a fürt elindul.

33) Magyarázza el, hogyan történik az indexelés a HDFS-ben?

A Hadoop egyedülálló módon képes indexelni. Miután az adatokat a blokk méretének megfelelően tárolta, a HDFS tovább tárolja az adatok utolsó részét, amely megmondja, hol lesz az adatok következő része.

34) Magyarázza meg, hogy helyettesítő karakterekkel lehet-e fájlokat keresni?

Igen, lehetőség van fájlok keresésére helyettesítő karakterekkel.

35) Sorolja fel Hadoop három konfigurációs fájlját?

A három konfigurációs fájl

  • core-site.xml
  • mapred-site.xml
  • hdfs-site.xml

36) Magyarázza el, hogyan ellenőrizheti, hogy a Namenode működik-e a jps paranccsal?

A jps parancs használata mellett használhatja a Namenode működésének ellenőrzését is

/etc/init.d/hadoop-0.20-namenode állapot.

37) Magyarázza el, mi a „térkép” és mi a „reduktor” a Hadoop-ban?

Hadoopban a térkép a HDFS lekérdezések megoldásának fázisa. A térkép beolvassa az adatokat egy bemeneti helyről, és egy kulcsérték-párot ad ki a bemeneti típusnak megfelelően.

A Hadoop-ban egy szűkítő összegyűjti a leképező által generált kimenetet, feldolgozza azt, és létrehozza a saját végső kimenetét.

38) A Hadoopban melyik fájl vezérli a jelentéstételt a Hadoopban?

A Hadoopban a hadoop-metrics.properties fájl vezérli a jelentéstételt.

39) A Hadoop használatához sorolja fel a hálózati követelményeket?

A Hadoop használatához a hálózati követelmények felsorolása:

  • Jelszó nélküli SSH-kapcsolat
  • Biztonságos héj (SSH) a szerver folyamatok elindításához

40) Említsd meg, mi a rack tudatosság?

A rack-tudatosság az a mód, ahogyan a namenode meghatározza a blokkok elhelyezésének módját a rack-definíciók alapján.

41) Magyarázza el, mi az a feladatkövető a Hadoop-ban?

A Hadoopban található Feladatkövető egy slave csomópont démon a fürtben, amely elfogadja a JobTracker feladatait. Ezenkívül néhány percenként elküldi a szívverés üzeneteket a JobTracker-nek, hogy megerősítse, hogy a JobTracker még mindig életben van.

42) Említse meg, hogy milyen démonok futnak a fő csomóponton és a rabszolga csomópontokon?

  • A fő csomóponton futó démonok "NameNode"
  • Az egyes Slave csomópontokon futó démonok: „Feladatkövető” és „Adatok”

43) Magyarázza el, hogyan lehet hibakeresni a Hadoop kódot?

A Hadoop-kód hibakeresésének népszerű módszerei a következők:

  • A Hadoop keretrendszer által biztosított webes felület használatával
  • A számlálók használatával

44) Magyarázza el, mi a tároló és a csomópontok?

  • A tároló csomópont az a gép vagy számítógép, ahol a fájlrendszere a feldolgozási adatok tárolására szolgál
  • A számítási csomópont az a számítógép vagy gép, ahol a tényleges üzleti logikát végrehajtják.

45) Említse meg, mi a Context Object használata?

A Context Object lehetővé teszi a leképező számára, hogy kölcsönhatásba lépjen a Hadoop többi részével

rendszer. Tartalmazza a feladat konfigurációs adatait, valamint olyan interfészeket, amelyek lehetővé teszik a kimenet kibocsátását.

46) Említse meg, mi a következő lépés a Mapper vagy a MapTask után?

A Mapper vagy a MapTask után a következő lépés az, hogy a Mapper kimenete rendezésre kerül, és partíciók jönnek létre a kimenet számára.

47) Mondja meg, hogy hány alapértelmezett particionáló van a Hadoop-ban?

A Hadoop-ban az alapértelmezett particionáló egy „Hash” particionáló.

48) Magyarázza el, mi a célja a RecordReadernek a Hadoop-ban?

A Hadoop-ban a RecordReader betölti az adatokat a forrásából, és azokat (kulcs, érték) párokká alakítja, amelyek alkalmasak a Mapper olvasására.

49) Magyarázza el, hogy az adatok hogyan vannak particionálva, mielőtt elküldenék őket a reduktorra, ha a Hadoop-ban nincs meghatározva egyedi partíció?

Ha a Hadoopban nincs meghatározva egyéni partíció, akkor az alapértelmezett particionáló kiszámítja a kulcs kivonatolási értékét, és az eredmény alapján hozzárendeli a partíciót.

50) Magyarázza el, mi történik, amikor Hadoop 50 feladatot szült egy munkára, és az egyik feladat nem sikerült?

Ha a feladat meghaladja a megadott korlátot, akkor újraindítja a feladatot egy másik TaskTracker alkalmazáson.

51) Említse meg, hogy a fájlok másolásának legjobb módja a HDFS-fürtök között?

A fájlok HDFS-fürtök közötti másolásának legjobb módja, ha több csomópontot és a distcp parancsot használ, így a munkaterhelés megoszlik.

52) Mondja meg, mi a különbség a HDFS és a NAS között?

A HDFS adatblokkok a fürt összes gépének helyi meghajtói között vannak elosztva, míg a NAS-adatok dedikált hardveren vannak tárolva.

53) Megemlíti, hogy a Hadoop miben különbözik a többi adatfeldolgozó eszköztől?

A Hadoop alkalmazásban növelheti vagy csökkentheti a leképezők számát anélkül, hogy aggódna a feldolgozandó adatok mennyisége miatt.

54) Említse meg, hogy a konf osztály milyen munkát végez?

A Job conf osztály különálló, ugyanazon a fürtön futó feladatokat különíti el. Megteszi a munkaszint beállításait, például egy munkakör deklarálását valós környezetben.

55) Említse meg, mi a Hadoop MapReduce API-k szerződése egy kulcs- és értékosztályhoz?

Kulcs- és értékosztály esetén két Hadoop MapReduce API-szerződés létezik

  • Az értéknek meg kell határoznia az org.apache.hadoop.io.Writable felületet
  • A kulcsnak meg kell határoznia az org.apache.hadoop.io.WritableComparable felületet

56) Említse meg, melyik a Hadoop futtatásának három módja?

A Hadoop futtatásának három módja a következő

  • Pszeudo elosztott mód
  • Önálló (helyi) mód
  • Teljesen elosztott mód

57) Említse meg, mit csinál a szövegbeviteli formátum?

A szövegbeviteli formátum egy sor objektumot hoz létre, amely hexadecimális szám. Az érték teljes sorszövegnek, míg a kulcs vonalobjektumnak számít. A leképező az értéket „text” paraméterként, míg a kulcsot „longwriteable” paraméterként fogja megkapni.

58) Említsd meg, hány InputSplitset készít egy Hadoop Framework?

Hadoop 5 osztást fog végrehajtani

  • 1 felosztás 64K fájlokhoz
  • 2 felosztás 65 MB fájlokhoz
  • 2 osztás 127 MB fájlhoz

59) Megemlíti, hogy mi az elosztott gyorsítótár a Hadoop-ban?

Az elosztott gyorsítótár a Hadoopban a MapReduce framework által biztosított szolgáltatás. A feladat végrehajtásakor a fájl gyorsítótárba kerül. A keretrendszer a szükséges fájlokat átmásolja a slave csomópontra, mielőtt az adott csomóponton bármilyen feladatot végrehajtanának.

60) Magyarázza el, hogyan játszik a Hadoop Classpath létfontosságú szerepet a Hadoop démonok leállításában vagy elindításában?

A Classpath egy könyvtárat tartalmaz, amely jar fájlokat tartalmaz a démonok leállításához vagy elindításához.

érdekes cikkek...