Az alábbiakban gyakran feltett kérdéseket találunk az újoncok és a tapasztalt Data Scientist állásinterjúin.
1. Mi az adattudomány?
A Data Science algoritmusok, eszközök és gépi tanulási technika kombinációja, amely segít megtalálni a rejtett mintákat az adott nyers adatokból.
2. Mi a logisztikai regresszió az adattudományban?
A logisztikai regressziót logit modellnek is nevezik. Ez egy módszer a bináris kimenet előrejelzésére a prediktor változók lineáris kombinációjából.
3. Nevezzen meg háromféle torzítást, amely a mintavétel során előfordulhat
A mintavételi folyamat során háromféle torzítás létezik, amelyek:
- Kiválasztási torzítás
- Lefedettségi elfogultság alatt
- A túlélő túlsúly
4. Beszélje meg a döntési fa algoritmusát
A döntési fa egy népszerű felügyelt gépi tanulási algoritmus. Főleg regresszióra és osztályozásra használják. Lehetővé teszi az adatkészlet kisebb részhalmazokra bontását. A döntési fa képes kezelni mind a kategorikus, mind a numerikus adatokat.
5. Mi az a prior valószínűsége és valószínűsége?
Az elõzõ valószínûség a függõ változó aránya az adathalmazban, míg a valószínûség annak a valószínûsége, hogy egy adott megfigyelõt más változó jelenlétében osztályozunk.
6. Magyarázza el az ajánló rendszereket?
Ez az információszűrési technikák egyik alosztálya. Segít megjósolni azokat a preferenciákat vagy értékeléseket, amelyeket a felhasználók valószínűleg megadnak egy terméknek.
7. Nevezzen meg egy lineáris modell használatának három hátrányát!
A lineáris modell három hátránya:
- A hibák linearitásának feltételezése.
- Nem használhatja ezt a modellt bináris vagy eredményszámlálásra
- Rengeteg túlfeszített probléma van, amelyet nem tud megoldani
8. Miért kell újramintát venni?
Az újramintavétel az alább megadott esetekben történik:
- A mintastatisztikák pontosságának becslése véletlenszerű rajzolással az adatpont egy készletéből történő cserével vagy az elérhető adatok részhalmazaként történő felhasználásával
- Címkék cseréje az adatpontokon a szükséges tesztek elvégzése során
- Modellek ellenőrzése véletlenszerű részhalmazok használatával
9. Sorolja fel az adatelemzéshez és a tudományos számításokhoz használt Python könyvtárakat.
- SciPy
- Pandák
- Matplotlib
- NumPy
- SciKit
- Tengeren született
10. Mi az energiaelemzés?
A teljesítményelemzés a kísérleti tervezés szerves része. Segít meghatározni a mintaméretet, ha meg akarja deríteni az adott méret hatását egy adott bizonyossággal rendelkező okból. Ez lehetővé teszi egy adott valószínűség telepítését a minta méretének korlátozásában is.
11. Magyarázza el az együttműködésen alapuló szűrést!
Együttműködő szűrés a helyes minták megkeresésére nézőpontok, több adatforrás és különféle ügynökök együttműködésével.
12. Mi az elfogultság?
Az elfogultság egy hiba, amelyet a modellbe vezetett be, a gépi tanulási algoritmus túlegyszerűsítése miatt. "Ez alulteljesítéshez vezethet.
13. Beszélje meg a „Naiv” szót egy Naiv Bayes algoritmusban?
A Naiv Bayes algoritmus modell a Bayes-tételen alapszik. Leírja egy esemény valószínűségét. Alapja azoknak a feltételeknek az előzetes ismerete, amelyek kapcsolódhatnak az adott eseményhez.
14. Mi az a lineáris regresszió?
A lineáris regresszió egy statisztikai programozási módszer, ahol az „A” változó pontszámát egy második „B” változó pontszámából jósolják meg. B-t prediktor változónak, A-t kritérium változónak nevezzük.
15. Adja meg a várható érték és az átlagérték közötti különbséget
Nem sok különbség van, de mindkét kifejezést különböző összefüggésekben használják. Az átlagértékre általában akkor hivatkozunk, amikor valószínűségi eloszlást tárgyalunk, míg a várható értékre egy véletlen változó összefüggésében hivatkozunk.
16. Mi a célja az A / B teszt elvégzésének?
Az AB tesztelés véletlenszerű kísérletek elvégzésére használt két változóval, A és B.
17. Mi az együttes tanulás?
Az együttes a tanulók sokféle csoportjának ötvözésének módszere, amely improvizál a modell stabilitásával és prediktív erejével. Az Ensemble tanulási módszerek két típusa a következő:
Zsákolás
A táskázási módszer segít hasonló tanulók megvalósításában kis mintapopulációkban. Segít közelebb jósolni.
Fokozás
A kiemelés egy iteratív módszer, amely lehetővé teszi a megfigyelés súlyának beállítását az utolsó besorolástól függően. A fokozás csökkenti az elfogultsági hibát, és segít erős prediktív modellek felépítésében.
18. Magyarázza meg a sajátértéket és a sajátvektort!
A sajátvektorok a lineáris transzformációk megértését szolgálják. Az adatkutatónak ki kell számolnia a kovarianciamátrix vagy korreláció sajátvektorait. A sajátértékek azok az irányok, amelyek mentén meghatározott lineáris transzformációs aktusokat használnak tömörítéssel, megfordítással vagy nyújtással.
19. Határozza meg a keresztellenőrzés kifejezést
A keresztellenőrzés validációs technika annak értékelésére, hogy a statisztikai elemzés eredményei hogyan fognak általánosítani egy független adatkészlet esetében. Ezt a módszert olyan hátterekben használják, ahol a cél előrejelzésre kerül, és meg kell becsülni, hogy a modell mennyire pontosan fog teljesíteni.
20. Magyarázza el az adatelemzési projekt lépéseit
Az alábbiak fontos elemeket tartalmaznak egy elemzési projektben:
- Értse meg az üzleti problémát
- Fedezze fel és alaposan tanulmányozza az adatokat.
- Készítse elő az adatokat a modellezéshez hiányzó értékek felkutatásával és változók átalakításával.
- Indítsa el a modell futtatását, és elemezze a Big Data eredményt.
- Érvényesítse a modellt új adatkészlettel.
- Végezze el a modellt, és kövesse nyomon az eredményt, hogy elemezze a modell teljesítményét egy adott időszakban.
21. Beszélje meg a mesterséges neurális hálózatokat
A mesterséges neurális hálózatok (ANN) egy speciális algoritmuskészlet, amely forradalmasította a gépi tanulást. Segít alkalmazkodni a változó bemenethez. Tehát a hálózat a lehető legjobb eredményt hozza létre a kimeneti kritériumok újratervezése nélkül.
22. Mi a hátsó szaporítás?
A hátterjedés a neurális háló képzés lényege. Ez a módszer az idegháló súlyainak beállítására az előző korszakban kapott hibaaránytól függ. A megfelelő hangolás segít csökkenteni a hibaarányokat és általánosabbá tételével megbízhatóbbá tenni a modellt.
23. Mi az a Véletlen Erdő?
A Random Forest egy gépi tanulási módszer, amely segít a regresszió és osztályozási feladatok minden típusának végrehajtásában. A hiányzó és a kiugró értékek kezelésére is használják.
24. Mi a jelentősége a szelekciós elfogultságnak?
A szelekciós torzítás akkor következik be, amikor az egyedi személyek, csoportok vagy elemezendő adatok kiválasztása közben nincs külön véletlenszerűség. Azt sugallja, hogy az adott minta nem pontosan reprezentálja az elemezni kívánt populációt.
25. Mi a K-klaszteres módszer?
A K-klaszterezés fontos, felügyelet nélküli tanulási módszer. Ez az a technika, hogy az adatokat egy bizonyos klaszterkészlet felhasználásával osztályozzuk, az úgynevezett K klasztereket. Csoportosításra van telepítve, hogy kiderüljön az adatok hasonlósága.
26. Magyarázza el a különbséget az adattudomány és az adatelemzés között
Az adatkutatóknak szeletelniük kell az adatokat, hogy kiválasszák azokat az értékes betekintéseket, amelyeket az adatelemző alkalmazhat a valós üzleti szcenáriókhoz. A fő különbség a kettő között az, hogy az adatkutatók több technikai tudással rendelkeznek, mint az üzleti elemzők. Sőt, nincs szükségük az üzleti adatok megértéséhez szükséges ismeretekre.
27. Magyarázza el a p-értéket?
Ha a statisztikákban hipotézistesztet hajt végre, a p-érték lehetővé teszi, hogy meghatározza az eredmények erősségét. Ez egy numerikus szám 0 és 1 között. Az érték alapján segít meghatározni a konkrét eredmény erősségét.
28. Definiálja a mély tanulás kifejezést
A mély tanulás a gépi tanulás egyik altípusa. Olyan algoritmusokkal foglalkozik, amelyeket a mesterséges neurális hálózatoknak (ANN) nevezett szerkezet inspirált.
29. Magyarázza el az adatgyűjtés és -elemzés módszerét, hogy a közösségi média segítségével megjósolják az időjárási körülményeket.
Gyűjtheti a közösségi média adatait a Facebook, a Twitter, az Instagram API-ja segítségével. Például a magassugárzóhoz minden tweetből összeállíthatunk egy funkciót, például tweetelt dátumot, retweeteket, követők listáját stb. Ezután egy többváltozós idősoros modell segítségével megjósolhatja az időjárási körülményeket.
30. Mikor kell frissíteni az algoritmust az adattudományban?
Az alábbi esetekben frissítenie kell egy algoritmust:
- Szeretné, ha adatmodellje adatfolyamként fejlődik az infrastruktúra használatával
- Az alapul szolgáló adatforrás változik
Ha nem stacionárius
31. Mi a normális eloszlás
A normális eloszlás egy folytonos változó halmaza, amely eloszlik egy normál görbén vagy haranggörbe alakjában. Folyamatos valószínűség-eloszlásnak tekintheti, amely hasznos a statisztikákban. Hasznos a változókat és azok összefüggéseit elemezni, amikor a normál eloszlás görbét használjuk.
32. Melyik nyelv a legjobb a szövegelemzéshez? R vagy Python?
A Python alkalmasabb lesz szöveges elemzésre, mivel egy gazdag könyvtár, pandák néven áll. Lehetővé teszi magas szintű adatelemző eszközök és adatstruktúrák használatát, míg az R nem kínálja ezt a funkciót.
33. Magyarázza el a statisztikák adatkutatók általi használatának előnyeit
A statisztikák segítenek az adatkutatónak abban, hogy jobban megértsék az ügyfelek elvárásait. A statisztikai módszer használata Az adatkutatók ismereteket szerezhetnek a fogyasztók érdeklődéséről, viselkedéséről, elkötelezettségéről, megtartásáról stb. Ezenkívül segítséget nyújt hatékony adatmodellek felépítésében is bizonyos következtetések és jóslatok érvényesítéséhez.
34. Nevezzen meg különböző típusú mély tanulási kereteket
- Pytorch
- Microsoft kognitív eszközkészlet
- TensorFlow
- Caffe
- Chainer
- Keras
35. Magyarázza meg az Auto-Encoder programot
Az automatikus kódolók tanulási hálózatok. Segít abban, hogy a bemeneteket kimenetekké alakítsa, kevesebb hibával. Ez azt jelenti, hogy a kimenet a lehető legközelebb van a bemenethez.
36. Definiálja a Boltzmann gépet
A Boltzmann gépek egy egyszerű tanulási algoritmus. Segít felfedezni azokat a funkciókat, amelyek összetett törvényszerűségeket képviselnek az edzésadatokban. Ez az algoritmus lehetővé teszi az adott probléma súlyainak és mennyiségének optimalizálását.
37. Magyarázza el, miért elengedhetetlen az adattisztítás, és melyik módszert használja a tiszta adatok fenntartásához
A piszkos adatok gyakran a helytelen belső oldalakhoz vezetnek, ami károsíthatja bármely szervezet kilátásait. Például, ha célzott marketing kampányt szeretne indítani. Adataink azonban helytelenül azt mondják, hogy egy adott termékre igény lesz a célközönség számára; a kampány kudarcot vall.
38. Mi a ferde elosztás és az egyenletes elosztás?
A ferde eloszlás akkor fordul elő, ha az adatokat a diagram bármelyik oldalán elosztják, míg az egyenletes eloszlást akkor azonosítják, amikor az adatok szét vannak terítve.
39. Amikor statikus modellben alulrepülés történik?
Alulteljesítés akkor fordul elő, ha egy statisztikai modell vagy gépi tanulási algoritmus nem képes megragadni az adatok mögöttes trendjét.
40. Mi az erősítő tanulás?
Megerősítés A tanulás egy tanulási mechanizmus arról, hogyan lehet helyzeteket hozzárendelni a cselekvésekhez. A végeredménynek hozzá kell járulnia a bináris jutalomjel növeléséhez. Ebben a módszerben a tanulónak nem mondják meg, hogy melyik lépést kell végrehajtania, hanem fel kell fedeznie, melyik cselekedet nyújt maximális jutalmat. Mivel ez a módszer a jutalom / büntetés mechanizmusán alapszik.
41. Nevezze el a gyakran használt algoritmusokat.
Négy leggyakrabban használt algoritmus a Data Scientist részéről:
- Lineáris regresszió
- Logisztikus regresszió
- Véletlen Erdő
- KNN
42. Mi a pontosság?
A pontosság a leggyakrabban használt hibamutató az n osztályozási mechanizmus. Tartománya 0 és 1 között van, ahol 1 100% -ot jelent
43. Mi az egyváltozós elemzés?
Az elemzést, amelyet egyszerre egyetlen attribútumra sem alkalmaznak, egyváltozós elemzésnek nevezzük. A Boxplot széles körben használt, egyváltozós modell.
44. Hogyan lehet legyőzni a megállapítások kihívásait?
Annak érdekében, hogy megoldhassam a kihívásaimat, ösztönöznünk kell a vitát: Mutassa meg a vezetést és tiszteletben tartva a különböző lehetőségeket.
45. Magyarázza el a klaszter mintavételi technikát az adattudományban
A klaszter mintavételi módszert akkor alkalmazzák, amikor kihívást jelent a célpopuláció eloszlása, és egyszerű véletlenszerű mintavétel nem alkalmazható.
46. Adja meg az érvényesítési készlet és a tesztkészlet közötti különbséget
Validációs készlet, amelyet többnyire az oktatási készlet részének tekintenek, mivel a paraméterek kiválasztására szolgál, ami segít elkerülni az épülő modell túlterhelését.
Míg egy tesztkészletet használnak egy képzett gépi tanulási modell teljesítményének tesztelésére vagy értékelésére.
47. Magyarázza el a binomiális valószínűség képlet kifejezést?
"A binomiális eloszlás magában foglalja az N kísérlet minden lehetséges sikerének valószínűségét olyan független események esetén, amelyek bekövetkezésének valószínűsége π."
48. Mi az a visszahívás?
A visszahívás a valódi pozitív arány és a tényleges pozitív arány aránya. 0-tól 1-ig terjed.
49. Beszélje meg a normális eloszlást
A normális eloszlás egyenlően elosztva önmagában az átlag, a medián és a mód egyenlő.
50. Miközben egy adathalmazon dolgozik, hogyan választhatja ki a fontos változókat? Magyarázza el
A változó kiválasztásának következő módszerei használhatók:
- Távolítsa el a korrelált változókat a fontos változók kiválasztása előtt
- Használjon lineáris regressziót, és válasszon olyan változót, amely ettől a p értéktől függ.
- Használja a Vissza, a Tovább és a Lépésenkénti választást
- Használja az Xgboost, a Random Forest és a plot változó fontosságú diagramját.
- Mérje meg az adott jellemzőkészlet információszerzését, és ennek megfelelően válassza ki az első n jellemzőt.
51. Fogható-e a összefüggés a folytonos és a kategorikus változó között?
Igen, a kovariancia technika elemzésével felmérhetjük a folyamatos és kategorikus változók közötti összefüggést.
52. A kategorikus változó folyamatos változóként történő kezelése jobb prediktív modellt eredményezne?
Igen, a kategorikus érték csak akkor tekinthető folyamatos változónak, ha a változó rendes jellegű. Tehát ez egy jobb prediktív modell.