Mi az a Data Lake?
A Data Lake egy olyan tárhely, amely nagy mennyiségű strukturált, félig strukturált és strukturálatlan adatot képes tárolni. Ez az a hely, ahol minden adattípust natív formátumban tárolhat, a számla méretére vagy fájljára vonatkozó korlátozások nélkül. Nagy adatmennyiséget kínál az analitikai teljesítmény és a natív integráció növelése érdekében.
A Data Lake olyan, mint egy nagy konténer, amely nagyon hasonlít az igazi tóhoz és folyókhoz. Csakúgy, mint egy tóban, több mellékfolyó is bejön, az adat-tó strukturált adatokkal, strukturálatlan adatokkal, gépről gépre, valós időben átfolyó naplókból áll.
A Data Lake demokratizálja az adatokat, és költséghatékony módon tárolja a szervezet összes adatait későbbi feldolgozás céljából. A kutatási elemző arra összpontosíthat, hogy az adatokban értelmezési mintákat találjon, és nem magát az adatot.
Ellentétben a hierarchikus Dataware házzal, ahol az adatokat a Fájlok és mappák tárolják, a Data lake felépítése sima. A Data Lake minden adateleme egyedi azonosítót kap, és metaadat-információk halmazával látja el.
Ebben az oktatóanyagban megtanulja-
- Mi az a Data Lake?
- Miért pont a Data Lake?
- Data Lake építészet
- Főbb adatok tó fogalmak
- A Data Lake érettségi szakaszai
- Bevált módszerek a Data Lake megvalósításához:
- Különbség az adatlakók és az adattárház között
- A Data Lake használatának előnyei és kockázatai:
Miért pont a Data Lake?
Az adat-tó kiépítésének fő célja az, hogy finomítson egy képet az adatokról az adatkutatók számára.
A Data Lake használatának okai a következők:
- A Hadoophoz hasonló tároló motorok megjelenésével az eltérő információk tárolása egyszerűvé vált. Nincs szükség adatok nagyvállalati szintű sémába történő modellezésére a Data Lake segítségével.
- Az adatmennyiség, az adatminőség és a metaadatok növekedésével az elemzések minősége is növekszik.
- A Data Lake üzleti agilitást kínál
- A gépi tanulás és a mesterséges intelligencia felhasználható nyereséges előrejelzésekhez.
- Versenyelőnyt kínál a végrehajtó szervezet számára.
- Nincs adat siló struktúra. A Data Lake 360 fokos képet nyújt az ügyfelekről, és erőteljesebbé teszi az elemzést.
Data Lake építészet
Az ábra egy Business Data Lake architektúráját mutatja. Az alsó szintek többnyire nyugalmi állapotban lévő adatokat képviselnek, míg a felső szintek valós idejű tranzakciós adatokat mutatnak. Ez az adat nem, vagy csak késés nélkül áramlik a rendszeren. A Data Lake Architecture fontos szintjei a következők:
- Lenyelési szint : A bal oldali szintek az adatforrásokat ábrázolják. Az adatokat szakaszosan vagy valós időben tölthették be az adattóba
- Insights Tier: A jobb oldali szintek a kutatási oldalt képviselik, ahol a rendszerből származó betekintést használják. SQL, NoSQL lekérdezések, vagy akár excel használhatók adatelemzésre.
- A HDFS költséghatékony megoldás mind strukturált, mind strukturálatlan adatokhoz. Ez leszállási zóna az összes olyan adat számára, amely nyugalomban van a rendszerben.
- A desztillációs réteg az adatokat a tároló gumiabroncsból veszi át, és az egyszerűbb elemzés érdekében strukturált adatokká alakítja.
- Fokozott analitikai algoritmusok és felhasználói lekérdezések feldolgozása változó valós idejű, interaktív, kötegelt strukturált adatok előállításához az egyszerűbb elemzés érdekében.
- Az egységes műveletek szintje szabályozza a rendszer kezelését és felügyeletét. Magában foglalja az auditálást és a szakértelem kezelését, az adatkezelést, a munkafolyamat-menedzsmentet.
Főbb adatok tó fogalmak
Az alábbiakban bemutatjuk azokat a kulcsfontosságú Data Lake-fogalmakat, amelyeket meg kell értenünk a Data Lake-architektúra teljes megértéséhez
Adatbevitel
Az adatfogyasztás lehetővé teszi a csatlakozók számára, hogy adatokat kapjanak egy másik adatforrásból, és betöltsék őket az Adat-tóba.
Adatbevitel támogatja:
- Minden típusú strukturált, félig strukturált és strukturálatlan adat.
- Többszörös bevitel, például kötegelt, valós idejű, egyszeri betöltés.
- Sokféle adatforrás, például Adatbázisok, Webszerverek, E-mailek, IoT és FTP.
Adattárolás
Az adattárolásnak skálázhatónak kell lennie, költséghatékony tárolást kell kínálnia, és lehetővé kell tennie az adatok feltárásához való gyors hozzáférést. Támogatnia kell a különféle adatformátumokat.
Adatkezelés
Az adatkezelés a szervezetekben használt adatok rendelkezésre állásának, használhatóságának, biztonságának és integritásának kezelésének folyamata.
Biztonság
A Data tó minden rétegében meg kell valósítani a biztonságot. A tárolással, a feltárással és a fogyasztással kezdődik. Alapvető szükség az illetéktelen felhasználók hozzáférésének leállítására. Különféle eszközöket kell támogatnia az adatokhoz való hozzáféréshez, könnyen kezelhető grafikus felhasználói felületen és irányítópultokon.
A hitelesítés, a könyvelés, az engedélyezés és az adatvédelem az adat-tó biztonságának néhány fontos jellemzője.
Adat minőség:
Az adatminőség a Data Lake architektúra alapvető eleme. Az adatokat az üzleti érték pontos meghatározásához használják. A rossz minőségű adatokból való kivonat rossz minőségű felismerésekhez vezet.
Data Discovery
Az adatfeltárás egy másik fontos szakasz az adatok vagy elemzések előkészítésének megkezdése előtt. Ebben a szakaszban a címkézési technikát használják az adatok megértésének kifejezésére, az Adat-tóban elfogyasztott adatok rendszerezésével és értelmezésével.
Adatellenőrzés
Két fő adatellenőrzési feladat a legfontosabb adatkészlet változásainak nyomon követése.
- Fontos adatkészlet-elemek változásainak nyomon követése
- Rögzíti, hogyan / mikor / és ki változtatja meg ezeket az elemeket.
Az adatellenőrzés segít a kockázat és a megfelelés értékelésében.
Data Lineage
Ez a komponens az adatok eredetével foglalkozik. Főleg azzal foglalkozik, hogy hol mozog az idő múlásával, és mi történik vele. Könnyíti az adatelemzési folyamat hibajavítását az eredettől a célig.
Adatok feltárása
Ez az adatelemzés kezdeti szakasza. Segít a megfelelő adatkészlet azonosításában, elengedhetetlen az Data Exploration megkezdése előtt.
Valamennyi összetevőnek együtt kell működnie ahhoz, hogy fontos szerepet játszhasson a Data Lake építésében, és könnyen fejlődhessen, és felfedezhesse a környezetet.
A Data Lake érettségi szakaszai
A Data Lake érettségi szakaszainak meghatározása tankönyvenként eltér. Bár a lényeg ugyanaz marad. Az érettséget követően a szakasz meghatározása laikus szempontból történik.
1. szakasz: Az adatok kezelése és bevitele nagyságrendben
Az adatlejárat ezen első szakasza magában foglalja az adatok átalakításának és elemzésének javítását. Itt a vállalkozások tulajdonosainak meg kell találniuk a készségeiknek megfelelő eszközöket a további adatok megszerzéséhez és elemző alkalmazások létrehozásához.
2. szakasz: Az analitikai izom felépítése
Ez egy második szakasz, amely magában foglalja az adatok átalakításának és elemzésének képességének javítását. Ebben a szakaszban a vállalatok a készségeiknek leginkább megfelelő eszközt használják. Kezdenek több adatot gyűjteni és alkalmazásokat építeni. Itt a vállalati adattárház és az adattó képességeit együtt használják.
3. szakasz: Az EDW és a Data Lake egységesen működik
Ez a lépés magában foglalja az adatok és elemzések minél több ember kezébe kerülését. Ebben a szakaszban az data lake és a vállalati adattárház egy unióban kezdenek működni. Mindkettő szerepet játszik az elemzésben
4. szakasz: Vállalkozási képesség a tóban
Az adat-tó ezen érettségi szakaszában a vállalati képességek hozzáadódnak a Data-tóhoz. Az információkezelés, az információs életciklus-kezelési képességek és a metaadatok kezelése. Azonban nagyon kevés szervezet érheti el ezt az érettségi szintet, de ez a szám a jövőben növekedni fog.
Bevált módszerek a Data Lake megvalósításához:
- Az építészeti alkotóelemeknek, azok kölcsönhatásának és az azonosított termékeknek támogatniuk kell a natív adattípusokat
- A Data Lake tervezését a szükségesek helyett a rendelkezésre álló adatoknak kell vezérelniük. A séma és az adatigény mindaddig nincs meghatározva, amíg meg nem kérdezik
- A tervezés során a szolgáltatás API-val integrált eldobható alkatrészeket kell vezérelni.
- Az adatok felderítését, tárolását, tárolását, adminisztrációját, minőségét, átalakítását és megjelenítését függetlenül kell kezelni.
- A Data Lake architektúrát egy adott iparághoz kell igazítani. Biztosítania kell, hogy az adott tartományhoz szükséges képességek a tervezés velejárói
- Fontos az újonnan felfedezett adatforrások gyorsabb beszállítása
- A Data Lake a testreszabott kezelést segíti a maximális érték kibontásában
- A Data Lake-nek támogatnia kell a meglévő vállalati adatkezelési technikákat és módszereket
Az adat-tó kiépítésének kihívásai:
- A Data Lake-ben az adatmennyiség nagyobb, ezért a folyamatnak jobban függnie kell az automatizált adminisztrációtól
- Nehéz kezelni a ritka, hiányos, ingatag adatokat
- Az adatkészlet és a forrás szélesebb köréhez nagyobb adatkezelésre és támogatásra van szükség
Különbség az adatlakók és az adattárház között
Paraméterek | Data Lakes | Adattárház |
---|---|---|
Adat | Az adat tavak mindent elraktároznak. | Az Adattárház csak az üzleti folyamatokra összpontosít. |
Feldolgozás | Az adatok főként feldolgozatlanok | Magasan feldolgozott adatok. |
Az adatok típusa | Lehet strukturálatlan, félig strukturált és strukturált. | Leginkább táblázatos formában és felépítésben van. |
Feladat | Ossza meg az adatkezelést | Optimalizált adatkeresésre |
Agilitás | Nagyon mozgékony, szükség esetén konfigurálja és konfigurálja újra. | A Data Lake-hez képest kevésbé mozgékony és fix konfigurációjú. |
Felhasználók | A Data Lake-t leginkább a Data Scientist használja | Az üzleti szakemberek széles körben használják az adatraktárt |
Tárolás | Adat tavak tervezése olcsó tároláshoz. | Drága, gyors válaszidőt biztosító tárhelyet használnak |
Biztonság | Kevesebb irányítást kínál. | Lehetővé teszi az adatok jobb ellenőrzését. |
Az EDW cseréje | A Data Lake lehet az EDW forrása | EDW-vel kiegészítve (nem cserélhető) |
Séma | Séma az olvasáshoz (nincsenek előre definiált sémák) | Írási séma (előre definiált sémák) |
Adatfeldolgozás | Segít az új adatok gyors beolvasásában. | Időigényes az új tartalom bevezetése. |
Adatok részletessége | Adatok alacsony részletességi vagy részletességi szinten. | Összegzett vagy összesített részletességű adatok. |
Eszközök | Használhat nyílt forráskódú eszközöket, például Hadoop / Map Reduce | Leginkább kereskedelmi eszközök. |
A Data Lake használatának előnyei és kockázatai:
Íme néhány fő előny a Data Lake használatában:
- Teljes mértékben segít a termék ionizálásában és a fejlett elemzésben
- Költséghatékony méretezhetőséget és rugalmasságot kínál
- Korlátlan adattípusokból kínál értéket
- Csökkenti a hosszú távú tulajdonlási költségeket
- Lehetővé teszi a fájlok gazdaságos tárolását
- Gyorsan alkalmazkodik a változásokhoz
- Az adat-tó fő előnye a különböző tartalmi források központosítása
- A különféle részlegekről származó felhasználók szétszórtan a világ minden tájáról rugalmas hozzáférést kaphatnak az adatokhoz
A Data Lake használatának kockázata:
- Egy idő után a Data Lake elveszítheti relevanciáját és lendületét
- A Data Lake megtervezésekor nagyobb az összeg kockázata
- A strukturálatlan adatok vezethetik a kormányzatlan káoszt, a használhatatlan adatokat, az eltérő és összetett eszközöket, a vállalati szintű együttműködést, az egységes, következetes és közös
- Emellett növeli a tárolási és számítási költségeket
- Nincs mód arra, hogy betekintést nyerjünk másoktól, akik az adatokkal dolgoztak, mert nincsenek beszámolók a korábbi elemzők megállapításainak vonaláról
- Az adat tavak legnagyobb kockázata a biztonság és a beléptetés ellenőrzése. Előfordul, hogy az adatok felügyelet nélkül helyezhetők el egy tóban, mivel az adatok egy részének magánéletre és szabályozásra van szüksége
Összegzés:
- A Data Lake egy olyan tárhely, amely nagy mennyiségű strukturált, félig strukturált és strukturálatlan adatot képes tárolni.
- Az adat-tó kiépítésének fő célja az, hogy finomítson egy képet az adatokról az adatkutatók számára.
- Az egységes műveleti szint, a feldolgozási réteg, a desztillációs réteg és a HDFS a Data Lake Architecture fontos rétegei
- Adatbevitel, adattárolás, adatminőség, adatellenőrzés, adatfeltárás, adatfelfedezés a Data Lake Architecture néhány fontos eleme
- A Data Lake tervezését a szükségesek helyett a rendelkezésre álló adatoknak kell vezérelniük.
- A Data Lake csökkenti a hosszú távú tulajdonlási költségeket, és lehetővé teszi a fájlok gazdaságos tárolását
- Az adat tavak legnagyobb kockázata a biztonság és a beléptetés ellenőrzése. Előfordul, hogy az adatok felügyelet nélkül helyezhetők el egy tóban, mivel az adatok egy részének magánéletre és szabályozásra van szüksége.