Adattárház fogalmai
Az Adattárház alapkoncepciója, hogy megkönnyítse az igazság egyetlen változatát a vállalatok számára a döntéshozatalhoz és az előrejelzéshez. Az Adattárház olyan információs rendszer, amely egyetlen vagy több forrásból származó előzményi és kommutatív adatokat tartalmaz. Az Data Warehouse Concepts leegyszerűsíti a szervezetek jelentési és elemzési folyamatát.
Az adattárház jellemzői
Az Adattárház koncepcióinak a következő jellemzői vannak:
- Tárgy-orientált
- Integrált
- Időváltozat
- Nem illékony
Tárgy-orientált
Az adattárház tantárgy-orientált, mivel információkat kínál egy témáról a vállalatok folyamatban lévő tevékenysége helyett. Ezek a tárgyak lehetnek értékesítés, marketing, disztribúciók stb.
Az adattárház soha nem koncentrál a folyamatban lévő műveletekre. Ehelyett az adatok modellezésére és elemzésére helyezi a hangsúlyt a döntéshozatalhoz . Ezenkívül egyszerű és tömör képet nyújt az adott témáról, kizárva azokat az adatokat, amelyek nem segítik a döntési folyamatot.
Integrált
A Data Warehouse-ban az integráció egy közös mértékegység létrehozását jelenti a hasonló adatbázisból származó összes hasonló adat számára. Az adatokat az Adattárházban is közösen és általánosan elfogadható módon kell tárolni.
Az adattárházat olyan változatos forrásokból származó adatok integrálásával fejlesztik ki, mint a nagygép, a relációs adatbázisok, a lapos fájlok stb.
Ez az integráció segíti az adatok hatékony elemzését. Biztosítani kell a következetességet az elnevezési konvenciókban, az attribútumértékekben, a kódolási struktúrában stb. Tekintsük a következő példát:
A fenti példában három különböző alkalmazás van A, B és C felirattal. Az ezekben az alkalmazásokban tárolt információk: Nem, Dátum és Egyensúly. Az egyes alkalmazások adatait azonban más módon tárolják.
- Az A alkalmazásban a gender mező olyan logikai értékeket tárol, mint M vagy F
- A B alkalmazásban a nem mező számérték,
- A C alkalmazásban a nem mező karakterérték formájában van tárolva.
- Ugyanez a helyzet a Dátum és az egyenleg esetében is
Az átalakítás és a tisztítási folyamat után azonban ezeket az adatokat közös formátumban tároljuk az Adattárházban.
Időváltozat
Az adattárház időhorizontja meglehetősen kiterjedt az operációs rendszerekhez képest. Az adattárházban gyűjtött adatokat egy adott időszak ismeri fel, és történelmi szempontból kínál felvilágosítást. Időelemet tartalmaz, kifejezetten vagy hallgatólagosan.
Az egyik ilyen hely, ahol a Datawarehouse adatmegjelenítési ideje eltér, a rekordkulcs szerkezetében van. Minden elsődleges kulcsnak, amelyet a DW tartalmaz, legyen implicit vagy explicit időelem. Mint a nap, a hét hónapja stb.
Az időeltérés másik aspektusa, hogy ha az adatokat beillesztik a raktárba, azokat nem lehet frissíteni vagy megváltoztatni.
Nem illékony
Az adattárház nem változékony, vagyis a korábbi adatok nem törlődnek, amikor új adatokat adnak meg benne.
Az adatok csak olvashatók és rendszeresen frissülnek. Ez segít a történeti adatok elemzésében és annak megértésében is, hogy mi és mikor történt. Nem igényel tranzakciós folyamatot, helyreállítási és egyidejűségi ellenőrzési mechanizmusokat.
Az olyan műveletek, mint a törlés, frissítés és beillesztés, amelyeket operatív alkalmazáskörnyezetben hajtanak végre, kihagyásra kerülnek az Adattárház környezetben. Az Adattárházban csak kétféle adatművelet végezhető el
- Adatok betöltése
- Adat hozzáférés
Íme néhány fő különbség az Application és az Data Warehouse között
Operatív alkalmazás | Adattárház |
Az összetett programot kódolni kell annak biztosítása érdekében, hogy az adatfrissítési folyamatok megőrizzék a végtermék nagy integritását. | Ez a fajta probléma nem fordul elő, mert az adatok frissítése nem történik meg. |
Az adatokat normalizált formában helyezzük el a minimális redundancia biztosítása érdekében. | Az adatokat nem tároljuk normalizált formában. |
A tranzakciók, az adatok helyreállítása, a visszagörgetés és a felbontás kérdéseinek támogatásához szükséges technológia, mivel a holtpont meglehetősen összetett. | A technológia viszonylag egyszerű. |
Adattárház felépítése
Az Adattárház architektúrája összetett, mivel olyan információs rendszer, amely több forrásból származó történelmi és kommutatív adatokat tartalmaz. Az Adattárház rétegek összeállításához 3 megközelítés létezik: egyszintű, kétszintes és háromszintű. A Data Warehouse ezen háromszintű architektúráját az alábbiakban ismertetjük.
Egyszintű architektúra
Egy réteg célja a tárolt adatok mennyiségének minimalizálása. Ez a cél az adatredundancia eltávolítása. Ezt az architektúrát a gyakorlatban nem használják gyakran.
Kétrétegű építészet
A kétrétegű architektúra az egyik olyan Data Warehouse réteg, amely elválasztja a fizikailag elérhető forrásokat és az adattárházat. Ez az architektúra nem bővíthető, és a végfelhasználók nagy számát sem támogatja. A hálózati korlátozások miatt kapcsolódási problémái is vannak.
Háromszintű adattárház architektúra
Ez a legszélesebb körben használt adatraktár-architektúra.
Ez a felső, a középső és az alsó szintből áll.
- Alsó szint: A Datawarehouse szerverek adatbázisa, mint alsó szint. Általában relációs adatbázis-rendszerről van szó. Az adatokat háttéreszközök segítségével megtisztítják, átalakítják és betöltik ebbe a rétegbe.
- Középszint: Az adattárház középső szintje egy OLAP szerver, amelyet vagy ROLAP, vagy MOLAP modell segítségével valósítanak meg. A felhasználó számára ez az alkalmazásszint bemutatja az adatbázis elvont nézetét. Ez a réteg közvetítőként is működik a végfelhasználó és az adatbázis között.
- Top-Tier: A legfelső szint egy front-end kliens réteg. A legfelső szint azok az eszközök és API, amelyeket összekapcsol, és az adatokat az adattárházból szerzi be. Lehetnek ilyenek: Lekérdező eszközök, jelentési eszközök, kezelt lekérdező eszközök, elemző eszközök és adatbányászati eszközök.
Adattárház alkatrészek
Megismerjük az Adattárház összetevőit és az Adattárház diagramját az alábbiak szerint:
Az Adattárház egy RDBMS-kiszolgálón alapul, amely egy központi információs adattár, amelyet néhány kulcsadat-raktár alkatrész vesz körül, hogy az egész környezet működőképes, kezelhető és hozzáférhető legyen.
Elsősorban öt Adattárház-komponens létezik:
Adattárház adatbázis
A központi adatbázis az adattárházi környezet alapja. Ez az adatbázis az RDBMS technológiára épül. Bár ezt a fajta megvalósítást korlátozza az a tény, hogy a hagyományos RDBMS rendszert tranzakciós adatbázis-feldolgozásra optimalizálják, nem pedig adattárházra. Például az eseti lekérdezés, a többtáblázatos összekapcsolások, az összesítések erőforrás-igényesek és lassítják a teljesítményt.
Ezért az adatbázis alternatív megközelítéseit alkalmazzák az alábbiakban felsoroltak szerint:
- Az adattárházban relációs adatbázisokat párhuzamosan telepítenek a méretezhetőség lehetővé tétele érdekében. A párhuzamos relációs adatbázisok lehetővé teszik a megosztott memória vagy a megosztás nélküli modell használatát különféle multiprocesszoros konfigurációkban vagy tömegesen párhuzamos processzorokban.
- Új indexstruktúrákat használnak a relációs tábla szkennelésének megkerülésére és a sebesség javítására.
- Többdimenziós adatbázis (MDDB) használata a relációs adatraktár-modellek miatt felmerülő korlátozások leküzdésére. Példa: Essbase az Oracle-től.
Beszerzési, beszerzési, tisztítási és átalakítási eszközök (ETL)
Az adatforrás, az átalakítás és az áttelepítés eszközei az összes átalakítás, összefoglalás és minden szükséges módosítás elvégzéséhez szükségesek, hogy az adatok az adatraktárban egységes formátumba kerüljenek. Kihúzás, átalakítás és betöltés (ETL) eszközöknek is hívják őket.
Funkcionalitásuk a következőket tartalmazza:
- Anonimizálja az adatokat a szabályozási előírások szerint.
- Az operatív adatbázisok nem kívánt adatainak kiküszöbölése az Adattárházba történő betöltésből.
- Keresse meg és cserélje le a különböző forrásokból érkező adatok általános neveit és definícióit.
- Összegzések és a származtatott adatok kiszámítása
- Hiányzó adatok esetén töltse ki azokat alapértelmezett értékekkel.
- Több adatforrásból érkező, ismételt adatok ismételt eltávolítása.
Ezek az Extract, Transform és Load eszközök olyan cron feladatokat, háttérmunkákat, Cobol programokat, shell szkripteket stb. Generálhatnak, amelyek rendszeresen frissítik az adatokat az adattárházban. Ezek az eszközök a metaadatok karbantartásához is hasznosak.
Ezeknek az ETL eszközöknek meg kell küzdeniük az adatbázisok és az adatok heterogenitásának kihívásaival.
Metaadatok
A Meta Data név néhány magas szintű technológiai adattárolási koncepciót javasol. Ez azonban meglehetősen egyszerű. A metaadatok olyan adatok adatai, amelyek meghatározzák az adattárházat. Az adattárház felépítésére, karbantartására és kezelésére szolgál.
Az Adattárház architektúrájában a metaadatok fontos szerepet játszanak, mivel meghatározzák az adattárházi adatok forrását, felhasználását, értékeit és jellemzőit. Azt is meghatározza, hogyan lehet az adatokat megváltoztatni és feldolgozni. Szorosan kapcsolódik az adattárházhoz.
Például az értékesítési adatbázis egy sora tartalmazhatja:
4030 KJ732 299.90
Ez értelmetlen adat mindaddig, amíg nem konzultálunk a Metával, amely elmondja nekünk, hogy az volt
- Modellszám: 4030
- Értékesítési ügynök azonosítója: KJ732
- A teljes eladási összeg 299,90 USD
Ezért a metaadatok nélkülözhetetlen összetevők az adatok tudássá alakításában.
A metaadatok segítenek megválaszolni a következő kérdéseket
- Milyen táblázatokat, attribútumokat és kulcsokat tartalmaz az Adattár?
- Honnan jöttek az adatok?
- Hányszor töltik be újra az adatokat?
- Milyen átalakításokat alkalmaztak a tisztítással?
A metaadatok a következő kategóriákba sorolhatók:
- Műszaki metaadatok : Ez a fajta metaadat a raktárról tartalmaz információt, amelyet az adattárház tervezői és rendszergazdái használnak.
- Üzleti metaadatok: Ez a fajta metaadatok olyan részleteket tartalmaznak, amelyek segítségével a végfelhasználók könnyen érthetik az adattárházban tárolt információkat.
Lekérdező eszközök
Az adattárház egyik elsődleges célja információszolgáltatás a vállalkozások számára stratégiai döntések meghozatalához. A lekérdező eszközök lehetővé teszik a felhasználók számára, hogy kölcsönhatásba lépjenek az adattárház rendszerével.
Ezek az eszközök négy különböző kategóriába sorolhatók:
- Lekérdező és jelentési eszközök
- Alkalmazásfejlesztő eszközök
- Adatbányászati eszközök
- OLAP eszközök
1. Lekérdező és jelentési eszközök:
A lekérdezési és jelentési eszközök tovább bonthatók
- Jelentési eszközök
- Felügyelt lekérdező eszközök
Jelentési eszközök:
A jelentéskészítő eszközök tovább oszthatók termelési jelentéskészítő eszközökre és asztali jelentések írására.
- Jelentésírók: Ez a fajta jelentéskészítő eszköz a végfelhasználók számára készült elemzéshez.
- Termelési jelentések: Ez a fajta eszköz lehetővé teszi a szervezetek számára, hogy rendszeres működési jelentéseket készítsenek. Támogatja a nagy mennyiségű kötegelt feladatokat is, például a nyomtatást és a számítást. Néhány népszerű jelentési eszköz a Brio, az üzleti objektumok, az Oracle, a PowerSoft, a SAS Institute.
Felügyelt lekérdező eszközök:
Ez a fajta hozzáférési eszköz segít a végfelhasználóknak az adatbázisban és az SQL-ben, valamint az adatbázis-struktúrában bekövetkezett problémák feloldásában azáltal, hogy metaréteget helyez be a felhasználók és az adatbázis közé.
2. Alkalmazásfejlesztő eszközök:
Néha a beépített grafikus és elemző eszközök nem elégítik ki a szervezet elemzési igényeit. Ilyen esetekben az egyedi jelentéseket az alkalmazásfejlesztő eszközök segítségével fejlesztik ki.
3. Adatbányászati eszközök:
Az adatbányászat egy jelentős új összefüggés, pattens és trendek felfedezésének folyamata nagy mennyiségű adat kitermelésével. Az adatbányászati eszközök segítségével ezt a folyamatot automatizálják.
4. OLAP eszközök:
Ezek az eszközök egy többdimenziós adatbázis koncepcióin alapulnak. Lehetővé teszi a felhasználók számára, hogy bonyolult és összetett többdimenziós nézetek segítségével elemezzék az adatokat.
Adattárház buszépítészet
Adattárházi busz határozza meg az adatok áramlását a raktárban. Az adattárházban az adatáramlás kategóriába sorolható: Beáramlás, Feláramlás, Leáramlás, Kiáramlás és Meta-áramlás.
Az Adatbusz megtervezése során figyelembe kell venni a megosztott dimenziókat, tényeket az adatjelek között.
Data Marts
A Data Mart egy hozzáférési réteg, amely arra szolgál, hogy az adatokat eljuttassa a felhasználókhoz. A nagy méretű adattárház opciójaként jelenik meg, mivel kevesebb idő és pénz szükséges az elkészítéséhez. Ugyanakkor nincs szabványos definíciója az adatoknak, amelyek személyenként eltérőek.
Egyszerű szóval a Data mart egy adattárház leányvállalata. Az adatmintát az adatok particionálására használják, amelyek az adott felhasználói csoport számára jönnek létre.
Az adatjelek ugyanabban az adatbázisban hozhatók létre, mint a Datawarehouse, vagy egy fizikailag különálló adatbázis.
Adattárház-architektúra legjobb gyakorlatok
Az Adattárház architektúrájának megtervezéséhez kövesse az alábbiakban megadott legjobb gyakorlatokat:
- Használjon olyan adatraktár-modelleket, amelyek optimalizálták az információ-visszakeresést, amely lehet dimenziós mód, denormalizált vagy hibrid megközelítés.
- Válassza ki a megfelelő tervezési megközelítést felülről lefelé és lentről felfelé megközelítésként az Adattárházban
- Biztosítani kell az adatok gyors és pontos feldolgozását. Ugyanakkor olyan megközelítést kell alkalmaznia, amely az adatokat az igazság egyetlen változatába tömöríti.
- Gondosan tervezze meg az adatraktár adatgyűjtési és tisztítási folyamatát.
- Tervezzen egy MetaData architektúrát, amely lehetővé teszi a metaadatok megosztását az Adattárház összetevői között
- Fontolja meg egy ODS-modell bevezetését, ha az információ-visszakeresési igény az adatkivételi piramis alja közelében van, vagy ha több működési forráshoz kell hozzáférni.
- Gondoskodni kell arról, hogy az adatmodell ne csak konszolidált, hanem integrált legyen. Ebben az esetben fontolja meg a 3NF adatmodelljét. Ideális ETL és Data tisztító eszközök beszerzéséhez is
Összegzés:
- Az adattárház egy olyan információs rendszer, amely egyetlen vagy több forrásból származó történelmi és kommutatív adatokat tartalmaz. Ezek a források lehetnek hagyományos Data Warehouse, Cloud Data Warehouse vagy Virtual Data Warehouse.
- Az adattárház tantárgy-orientált, mivel a szervezet folyamatban lévő műveletei helyett információkat kínál az alanyról.
- Az Adattárházban az integráció egy közös mértékegység létrehozását jelenti a különböző adatbázisokból származó összes hasonló adat számára
- Az adattárház nem változékony, vagyis a korábbi adatok nem törlődnek, amikor új adatokat adnak meg benne.
- Az Adattárház időváltozatú, mivel a DW-ben lévő adatok magas eltarthatósági idővel rendelkeznek.
- A Data Warehouse Architecture főleg 5 összetevője van: 1) Adatbázis 2) ETL eszközök 3) Meta adatok 4) Lekérdező eszközök 5) DataMarts
- Ez a lekérdező eszközök négy fő kategóriája: 1. Lekérdezés és jelentéskészítés, eszközök 2. Alkalmazásfejlesztő eszközök, 3. Adatbányászati eszközök 4. OLAP eszközök
- Az adatforrás, az átalakítás és az áttelepítés eszközei az összes konverzió és összesítés elvégzésére szolgálnak.
- Az Adattárház architektúrájában a metaadatok fontos szerepet játszanak, mivel meghatározzák az adattárházi adatok forrását, felhasználását, értékeit és jellemzőit.