Mi az R programozási nyelv? Bevezetés & R alapjai

Tartalomjegyzék:

Anonim

Mi az R szoftver?

R egy programozási nyelv és szabad szoftver, amelyet Ross Ihaka és Robert Gentleman fejlesztett ki 1993-ban. R kiterjedt statisztikai és grafikus módszerek katalógusával rendelkezik. Ez magában foglalja a gépi tanulási algoritmusokat, a lineáris regressziót, az idősorokat, a statisztikai következtetéseket, hogy csak néhányat említsünk. Az R könyvtárak többsége R betűvel van megírva, de nehéz számítási feladatokhoz a C, C ++ és a Fortran kódokat részesítik előnyben.

Az R-t nemcsak az akadémikusok bízzák meg, de sok nagy cég is használja az R programozási nyelvet, köztük az Uber, a Google, az Airbnb, a Facebook és így tovább.

Az adatelemzés R-vel több lépésben történik; az eredmények programozása, átalakítása, felfedezése, modellezése és kommunikálása

  • Program : R egy világos és hozzáférhető programozási eszköz
  • Átalakítás : Az R könyvtárak gyűjteménye, amelyet kifejezetten az adattudomány számára terveztek
  • Fedezze fel : Vizsgálja meg az adatokat, pontosítsa hipotézisét és elemezze azokat
  • Modell : Az R eszközök széles skáláját kínálja az adatokhoz megfelelő modell rögzítéséhez
  • Kommunikáció : Kódokat, grafikonokat és kimeneteket integrálhat egy jelentésbe az R Markdown segítségével, vagy építhet fényes alkalmazásokat a világgal való megosztáshoz

Ebben a bemutatóban megtanulod R-t

  • Mire használják az R-t?
  • R ipar szerint
  • R csomag
  • Kommunikáljon R-vel
  • Miért érdemes használni az R-t?
  • Válasszon R-t?
  • R nehéz?

Mire használják az R-t?

  • Statisztikai következtetés
  • Adatelemzés
  • Gépi tanulási algoritmus

R ipar szerint

Ha lebontjuk az R ipar általi használatát, akkor azt látjuk, hogy az akadémikusok az első helyen állnak. R egy statisztikát készítő nyelv. Az R az első választás az egészségügyi iparban, amelyet kormány és tanácsadás követ.

R csomag

Az R elsődleges felhasználási területe a statisztika, a vizualizáció és a gépi tanulás. Az alábbi képen látható, hogy melyik R csomag kapta a legtöbb kérdést a Stack Overflow-ban. A top 10-ben a legtöbb az adatkutató munkafolyamatához kapcsolódik: az adatok előkészítéséhez és az eredmények közléséhez.

Az R összes, csaknem 12 ezer könyvtárát a CRAN tárolja. A CRAN egy ingyenes és nyílt forráskód. A számos könyvtárat letöltheti és felhasználhatja gépi tanulás vagy idősor-elemzés elvégzésére.

Kommunikáljon R-vel

R-nek többféle módja van a munka bemutatására és megosztására, akár jelölési dokumentumon, akár fényes alkalmazáson keresztül. Mindent az Rpub, a GitHub vagy a vállalkozás webhelye tárolhat.

Az alábbiakban bemutatunk egy példát az Rpub-on tárolt bemutatóra

Az Rstudio elfogadja a jelölést a dokumentum megírásához. Különböző formátumokban exportálhatja a dokumentumokat:

  • Dokumentum:
    • HTML
    • PDF / Latex
    • Szó
  • Bemutatás
    • HTML
    • PDF gerenda

Az Rstudio nagyszerű eszközzel rendelkezik egy alkalmazás egyszerű létrehozásához. Az alábbiakban bemutatunk egy példát a Világbank adatait tartalmazó alkalmazásra.

Miért érdemes használni az R-t?

Az adattudomány alakítja a vállalatok működésének módját. Kétségtelen, hogy a Mesterséges Intelligenciától és a Géptől való távolmaradás a vállalat kudarcához vezet. A nagy kérdés az, hogy melyik eszközt / nyelvet érdemes használni?

Rengeteg eszköz áll rendelkezésre a piacon az adatok elemzéséhez. Egy új nyelv megtanulása némi befektetést igényel. Az alábbi kép a tanulási görbét ábrázolja a nyelv által kínált üzleti képességekkel összehasonlítva. A negatív kapcsolat azt sugallja, hogy nincs ingyenes ebéd. Ha a lehető legjobb betekintést akarja adni az adatokba, akkor el kell töltenie egy kis időt a megfelelő eszköz megtanulásával, amely az R.

A grafikon bal felső sarkában látható az Excel és a PowerBI. Ez a két eszköz egyszerűen megtanulható, de nem kínál kiemelkedő üzleti képességet, különösen a modellezés szempontjából. Középen látható a Python és az SAS. A SAS egy dedikált eszköz az üzleti statisztikai elemzések futtatásához, de nem ingyenes. A SAS egy kattintással futtatható szoftver. A Python azonban monoton tanulási görbével rendelkező nyelv. A Python egy fantasztikus eszköz a Machine Learning és az AI telepítéséhez, de hiányzik belőle a kommunikációs funkció. Azonos tanulási görbével az R jó kompromisszum a megvalósítás és az adatelemzés között.

Az adatmegjelenítésről (DataViz) valószínűleg hallott a Tableau-ról. A Tableau kétségtelenül remek eszköz a minták felfedezésére grafikonok és diagramok segítségével. Ezenkívül a Tableau megtanulása nem időigényes. Az adatmegjelenítés egyik nagy problémája, hogy végül soha nem talál mintát, vagy csak rengeteg haszontalan diagramot hoz létre. A Tableau jó eszköz az adatok vagy az üzleti intelligencia gyors megjelenítésére. A statisztikákról és a döntéshozó eszközökről az R megfelelőbb.

A Stack Overflow nagy programozási nyelvközösség. Ha kódolási problémája van, vagy meg kell értenie egy modellt, a Stack Overflow segítséget nyújt itt. Az év során a kérdéses nézetek százaléka az R esetében meredeken nőtt a többi nyelvhez képest. Ez a tendencia természetesen szoros összefüggésben áll az adattudomány virágzó korával, de tükrözi az R nyelv iránti igényt az adattudomány iránt.

Az adattudományban két eszköz versenyez egymással. Az R és a Python valószínűleg az a programozási nyelv, amely meghatározza az adattudományt.

Válasszon R-t?

Az adattudós két kiváló eszközt használhat: R és Python. Lehet, hogy nincs ideje mindkettőt megtanulni, különösen, ha elkezdi tanulni az adattudományt. Statisztikai modellezés és algoritmus elsajátításasokkal fontosabb, mint egy programozási nyelv megtanulása. A programozási nyelv egy eszköz a felfedezés kiszámításához és közléséhez. Az adattudomány legfontosabb feladata az adatok kezelésének módja: importálás, tisztítás, előkészítés, szolgáltatástervezés, jellemzőválasztás. Ez legyen az elsődleges fókusz. Ha egyszerre próbálod megtanulni az R-t és a Python-t, anélkül, hogy szilárd háttér lenne a statisztikákról, akkor az teljesen hülye. Az adattudósok nem programozók. Feladatuk az adatok megértése, manipulálása és a legjobb megközelítés feltárása. Ha azon gondolkodik, melyik nyelvet tanulja meg, nézzük meg, melyik nyelv a legmegfelelőbb az Ön számára.

Az adattudomány fő közönsége üzleti szakember. Az üzleti életben az egyik nagy következmény a kommunikáció. A kommunikációnak számos módja van: jelentés, webalkalmazás, irányítópult. Szüksége van egy eszközre, amely mindezt együtt csinálja.

R nehéz?

Évekkel ezelőtt R nehéz volt elsajátítani. A nyelv zavaros volt, és nem volt annyira strukturált, mint a többi programozási eszköz. Ennek a fő kérdésnek a leküzdésére Hadley Wickham kifejlesztett egy tidyverse nevű csomag-gyűjteményt. A játékszabály a legjobbra változott. Az adatkezelés triviálissá és intuitívvá válik. Grafikon létrehozása már nem volt olyan nehéz.

A gépi tanulás legjobb algoritmusai az R. segítségével valósíthatók meg. Az olyan csomagok, mint a Keras és a TensorFlow, lehetővé teszik a csúcskategóriás gépi tanulási technika létrehozását. R-nek is van egy csomagja az Xgboost végrehajtására, amely a Kaggle verseny legjobb algoritmusa.

R képes kommunikálni a másik nyelvvel. Lehetséges a Python, a Java, a C ++ hívása R-ben. A big data világa R. számára is elérhető. Az R-t különböző adatbázisokkal, például Sparkkal vagy Hadoop-tal lehet összekapcsolni.

Végül R fejlődött, és lehetővé tette a párhuzamos működését a számítás felgyorsítása érdekében. Valójában R-t kritizálták azért, mert egyszerre csak egy CPU-t használt. A párhuzamos csomag lehetővé teszi a feladatok végrehajtását a gép különböző magjaiban.

Összegzés

Dióhéjban az R remek eszköz az adatok feltárására és kivizsgálására. Kidolgozott elemzés, például a klaszterezés, a korreláció és az adatcsökkentés R.-vel történik. Ez a legfontosabb elem, jó tulajdonság-tervezés és modell nélkül a gépi tanulás telepítése nem eredményez érdemi eredményeket.