Ebben az oktatóanyagban megtanulja
- Egyszerű lineáris regresszió
- Többszörös lineáris regresszió
- Folyamatos változók
- Tényezők regressziója
- Fokozatos regresszió
- Gépi tanulás
- Felügyelt tanulás
- Felügyelet nélküli tanulás
Egyszerű lineáris regresszió
A lineáris regresszió egy egyszerű kérdésre ad választ: Meg tudja-e mérni az összefüggést egy célváltozó és egy prediktor halmaz között?
A valószínűségi modellek közül a legegyszerűbb az egyenes modell:
hol
- y = Függő változó
- x = Független változó
- = véletlenszerű hibakomponens
- = lehallgatás
- = X együttható
Vegye figyelembe a következő cselekményt:
Az egyenlet a metszéspont. Ha x értéke 0, akkor y megegyezik a metszéssel, 4,77. a vonal meredeksége. Megmondja, hogy y milyen arányban változik, amikor x változik.
A használjon egy rendes legkisebb négyzet (OLS) nevű módszert . Ez a módszer megkísérli megtalálni azokat a paramétereket, amelyek minimalizálják a négyzetes hibák összegét, vagyis az előre jelzett y értékek és a tényleges y értékek közötti függőleges távolságot. A különbség az úgynevezett hibatagot .
Mielőtt megbecsülné a modellt, meg tudja határozni, hogy az y és x közötti lineáris összefüggés elfogadható-e, ha egy szórt diagramot ábrázol.
Scatterplot
Nagyon egyszerű adatkészletet fogunk használni az egyszerű lineáris regresszió fogalmának magyarázatához. Importálni fogjuk az amerikai nők átlagos magasságát és súlyát. Az adatkészlet 15 megfigyelést tartalmaz. Meg akarja mérni, hogy a Magasság pozitívan korrelál-e a súlyokkal.
library(ggplot2)path <- 'https://raw.githubusercontent.com/guru99-edu/R-Programming/master/women.csv'df <-read.csv(path)ggplot(df,aes(x=height, y = weight))+geom_point()
Kimenet:
A szóródási ábra általános tendenciát sugall az y növekedésére, amikor x nő. A következő lépésben meg fogja mérni, hogy mennyi növekmény jár minden egyes további után.
Legkisebb négyzetek becslései
Egyszerű OLS regresszió esetén a egyszerű. A cél nem a levezetés bemutatása ebben az oktatóanyagban. Csak a képletet fogja írni.
Becsülni szeretné:
Az OLS regresszió célja a következő egyenlet minimalizálása:
hol
a megjósolt érték.
A megoldás
Vegye figyelembe, hogy ez az x átlagos értékét jelenti
A megoldás
Az R-ben a cov () és a var () függvényt használhatja a becsléshez
beta <- cov(df$height, df$weight) / var (df$height)beta
Kimenet:
##[1] 3.45
alpha <- mean(df$weight) - beta * mean(df$height)alpha
Kimenet:
## [1] -87.51667
A béta együttható azt jelenti, hogy minden további magasság esetén a súly 3,45-gyel nő.
Az egyszerű lineáris egyenlet manuális becslése nem ideális. R megfelelő funkciót biztosít ezen paraméterek becsléséhez. Rövidesen látni fogja ezt a funkciót. Előtte bemutatjuk, hogyan lehet kézzel kiszámolni egy egyszerű lineáris regressziós modellt. Az adatkutató útján alig vagy soha nem fog becsülni egy egyszerű lineáris modellt. A legtöbb esetben a regressziós feladatokat sok becslőn hajtják végre.
Többszörös lineáris regresszió
A regresszióanalízis gyakorlati alkalmazásai olyan modelleket alkalmaznak, amelyek összetettebbek, mint az egyszerű egyenes vonalú modell. Az a valószínűségi modell, amely egynél több független változót tartalmaz, több regressziós modellnek nevezzük . Ennek a modellnek az általános formája:
A mátrix jelölésekben átírhatja a modellt:
Az y függő változó most k független változó függvénye. Az együttható értéke .
Röviden bemutatjuk az OLS véletlenszerű hibájával kapcsolatos feltételezésünket :
- Átlagos értéke 0
- A variancia egyenlő
- Normális eloszlás
- A véletlenszerű hibák függetlenek (valószínűségi értelemben)
Meg kell oldania a regressziós együtthatók vektorát, amely minimalizálja az előrejelzett és a tényleges y értékek közötti négyzet hibák összegét.
A zárt formájú megoldás:
val vel:
- az X mátrix transzpozícióját jelzi
- az invertálható mátrixot jelöli
Az mtcars adatkészletet használjuk. Ön már ismeri az adatkészletet. Célunk, hogy megjósoljuk a mérföld / gallon mérföldet egy jellemző tulajdonságok felett.
Folyamatos változók
Egyelőre csak a folyamatos változókat fogja használni, és félreteszi a kategorikus jellemzőket. Az am változó egy bináris változó, amelynek értéke 1, ha a sebességváltó kézi, és 0 az automata autók esetében; vs szintén bináris változó.
library(dplyr)df <- mtcars % > %select(-c(am, vs, cyl, gear, carb))glimpse(df)
Kimenet:
## Observations: 32## Variables: 6## $ mpg21.0, 21.0, 22.8, 21.4, 18.7, 18.1, 14.3, 24.4, 22.8, 19… .## $ disp 160.0, 160.0, 108.0, 258.0, 360.0, 225.0, 360.0, 146.7, 1… ## $ hp 110, 110, 93, 110, 175, 105, 245, 62, 95, 123, 123, 180,… ## $ drat 3.90, 3.90, 3.85, 3.08, 3.15, 2.76, 3.21, 3.69, 3.92, 3.9… ## $ wt 2.620, 2.875, 2.320, 3.215, 3.440, 3.460, 3.570, 3.190, 3… ## $ qsec 16.46, 17.02, 18.61, 19.44, 17.02, 20.22, 15.84, 20.00, 2…
Az paraméterek kiszámításához használhatja az lm () függvényt. A függvény alapvető szintaxisa:
lm(formula, data, subset)Arguments:-formula: The equation you want to estimate-data: The dataset used-subset: Estimate the model on a subset of the dataset
Ne feledje, hogy az egyenlet a következő formájú
az R-ben
- A = szimbólum helyébe a ~ lép
- Minden x helyébe a változó neve lép
- Ha el akarja dobni az állandót, adjon -1-et a képlet végén
Példa:
Meg akarja becsülni az egyének súlyát magasságuk és bevételeik alapján. Az egyenlet az
Az R egyenletet a következőképpen írjuk:
y ~ X1 + X2 +… + Xn # Elfogással
Tehát a példánkhoz:
- Mérj ~ magasság + bevétel
A cél az, hogy becsüld meg a mérföld / gallon értéket egy változóhalmaz alapján. A becslendő egyenlet:
Meg fogja becsülni az első lineáris regresszióját, és az eredményt a fit objektumban tárolja.
model <- mpg~.disp + hp + drat + wtfit <- lm(model, df)fit
Kód Magyarázat
- modell <- mpg ~ . disp + hp + drat + wt: Tárolja a modellt a becsléshez
- lm (model, df): Becsülje meg a modellt a df adatkerettel
#### Call:## lm(formula = model, data = df)#### Coefficients:## (Intercept) disp hp drat wt## 16.53357 0.00872 -0.02060 2.01577 -4.38546## qsec## 0.64015
A kimenet nem nyújt elegendő információt az illesztés minőségéről. További részletekhez, például az együtthatók jelentőségéhez, a szabadság mértékéhez és a maradványok alakjához az összefoglaló () függvénnyel férhet hozzá.
summary(fit)
Kimenet:
## return the p-value and coefficient#### Call:## lm(formula = model, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.5404 -1.6701 -0.4264 1.1320 5.4996#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 16.53357 10.96423 1.508 0.14362## disp 0.00872 0.01119 0.779 0.44281## hp -0.02060 0.01528 -1.348 0.18936## drat 2.01578 1.30946 1.539 0.13579## wt -4.38546 1.24343 -3.527 0.00158 **## qsec 0.64015 0.45934 1.394 0.17523## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.558 on 26 degrees of freedom## Multiple R-squared: 0.8489, Adjusted R-squared: 0.8199## F-statistic: 29.22 on 5 and 26 DF, p-value: 6.892e-10
Következtetés a fenti táblázat kimenetéből
- A fenti táblázat azt bizonyítja, hogy erős negatív kapcsolat van a tömeg és a futásteljesítmény, valamint a pozitív kapcsolat a drat között.
- Csak a wt változónak van statisztikai hatása az mpg-re. Ne feledje, hogy a hipotézis statisztikai teszteléséhez a következőket használjuk:
- H0: Nincs statisztikai hatás
- H3: A prediktor jelentős hatással van y-re
- Ha a p értéke alacsonyabb, mint 0,05, ez azt jelzi, hogy a változó statisztikailag szignifikáns
- Korrigált R-négyzet: A varianciát a modell magyarázza. Az Ön modelljében a modell elmagyarázta y varianciájának 82 százalékát. Az R négyzet mindig 0 és 1 között van. Minél magasabb, annál jobb
Futtathatja az ANOVA tesztet, hogy megbecsülje az egyes jellemzők hatását az anova () függvény varianciáira.
anova(fit)
Kimenet:
## Analysis of Variance Table#### Response: mpg## Df Sum Sq Mean Sq F value Pr(>F)## disp 1 808.89 808.89 123.6185 2.23e-11 ***## hp 1 33.67 33.67 5.1449 0.031854 *## drat 1 30.15 30.15 4.6073 0.041340 *## wt 1 70.51 70.51 10.7754 0.002933 **## qsec 1 12.71 12.71 1.9422 0.175233## Residuals 26 170.13 6.54## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
A modell teljesítményének megbecsülésének egy hagyományosabb módja, ha a maradékot különféle mérőszámokkal mutatjuk be.
A plot () függvény segítségével négy grafikon látható:
- Maradékok vs felszerelt értékek
- Normál QQ diagram: Elméleti kvartilis vs standardizált maradványok
- Méretarány: Helyzett értékek és a standardizált maradványok négyzetgyöke
- Maradékok vs tőkeáttétel: Tőkeáttétel vs standardizált maradványok
Hozzáadod a par (mfrow = c (2,2)) kódot a plot (fit) elé. Ha nem adja hozzá ezt a kódsort, az R arra kéri, hogy nyomja meg az enter parancsot a következő grafikon megjelenítéséhez.
par(mfrow=(2,2))
Kód Magyarázat
- (mfrow = c (2,2)): adjon vissza egy ablakot a négy grafikonnal egymás mellett.
- Az első 2 összeadja a sorok számát
- A második 2 hozzáadja az oszlopok számát.
- Ha írsz (mfrow = c (3,2)): létrehoz egy 3 sor 2 oszlopos ablakot
plot(fit)
Kimenet:
Az lm () formula egy sok hasznos információt tartalmazó listát ad vissza. Hozzáférhet a létrehozott fit objektummal, amelyet a $ jel és a kibontani kívánt információk követnek.
- együtthatók: `fit $ együtthatók`
- maradványok: `fit $ maradványok`
- illesztett érték: `fit $ felszerelt.értékek`
Tényezők regressziója
A legutóbbi modellbecslés során az mpg-t csak a folyamatos változókra regresszálja. Egyszerű tényezőváltozók hozzáadása a modellhez. Hozzáadod az am változót a modelledhez. Fontos megbizonyosodni arról, hogy a változó faktorszintű és nem folyamatos.
df <- mtcars % > %mutate(cyl = factor(cyl),vs = factor(vs),am = factor(am),gear = factor(gear),carb = factor(carb))summary(lm(model, df))
Kimenet:
#### Call:## lm(formula = model, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.5087 -1.3584 -0.0948 0.7745 4.6251#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 23.87913 20.06582 1.190 0.2525## cyl6 -2.64870 3.04089 -0.871 0.3975## cyl8 -0.33616 7.15954 -0.047 0.9632## disp 0.03555 0.03190 1.114 0.2827## hp -0.07051 0.03943 -1.788 0.0939 .## drat 1.18283 2.48348 0.476 0.6407## wt -4.52978 2.53875 -1.784 0.0946 .## qsec 0.36784 0.93540 0.393 0.6997## vs1 1.93085 2.87126 0.672 0.5115## am1 1.21212 3.21355 0.377 0.7113## gear4 1.11435 3.79952 0.293 0.7733## gear5 2.52840 3.73636 0.677 0.5089## carb2 -0.97935 2.31797 -0.423 0.6787## carb3 2.99964 4.29355 0.699 0.4955## carb4 1.09142 4.44962 0.245 0.8096## carb6 4.47757 6.38406 0.701 0.4938## carb8 7.25041 8.36057 0.867 0.3995## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.833 on 15 degrees of freedom## Multiple R-squared: 0.8931, Adjusted R-squared: 0.779## F-statistic: 7.83 on 16 and 15 DF, p-value: 0.000124
R az első faktorszintet használja alapcsoportként. Összehasonlítania kell a másik csoport együtthatóit az alapcsoporttal.
Fokozatos regresszió
Az oktatóanyag utolsó része a lépésenkénti regressziós algoritmussal foglalkozik. Ennek az algoritmusnak az a célja, hogy potenciális jelölteket vegyen fel és távolítson el a modellekből, és megtartsa azokat, akiknek jelentős hatása van a függő változóra. Ez az algoritmus akkor értelmes, ha az adatkészlet a prediktorok nagy listáját tartalmazza. Nem kell manuálisan hozzáadnia és eltávolítania a független változókat. A lépésenkénti regresszió arra épül, hogy kiválassza a modellhez illő legjobb jelölteket.
Nézzük meg működés közben, hogyan működik. Az mtcars adatkészletet a folytonos változókkal csak pedagógiai szemléltetésre használja. Mielőtt elkezdené az elemzést, jó, ha korrelációs mátrix segítségével állapítja meg az adatok közötti variációkat. A GGally könyvtár a ggplot2 kiterjesztése.
A könyvtár különböző funkciókat tartalmaz az összefoglaló statisztikák, például a mátrix összes változójának korrelációja és eloszlása érdekében. A ggscatmat függvényt fogjuk használni, de a matricáról további információt találhat a GGally könyvtárról.
A ggscatmat () alapvető szintaxisa a következő:
ggscatmat(df, columns = 1:ncol(df), corMethod = "pearson")arguments:-df: A matrix of continuous variables-columns: Pick up the columns to use in the function. By default, all columns are used-corMethod: Define the function to compute the correlation between variable. By default, the algorithm uses the Pearson formula
Megjeleníti az összes változó korrelációját, és eldönti, hogy melyik lesz a legjobb jelölt a fokozatos regresszió első lépésében. Van néhány szoros összefüggés a változók és a függő változó, az mpg között.
library(GGally)df <- mtcars % > %select(-c(am, vs, cyl, gear, carb))ggscatmat(df, columns = 1: ncol(df))
Kimenet:
Fokozatos regresszió
A változók kiválasztása fontos része annak, hogy illeszkedjen egy modellhez. A lépésenkénti regresszió automatikusan végrehajtja a keresési folyamatot. Annak becsléséhez, hogy hány lehetséges választási lehetőség van az adatkészletben, a k segítségével kiszámítja a prediktorok számát. A lehetőségek mennyisége a független változók számával növekszik. Ezért van szükség automatikus keresésre.
Telepítenie kell az olsrr csomagot a CRAN-ból. A csomag még nem érhető el az Anacondában. Ezért közvetlenül a parancssorból telepíti:
install.packages("olsrr")
A lehetőségek összes részhalmazát megrajzolhatja az illeszkedési feltételekkel (azaz R-négyzet, Igazított R-négyzet, Bayesi kritériumok). A legalacsonyabb AIC kritériumokkal rendelkező modell lesz a végső modell.
library(olsrr)model <- mpg~.fit <- lm(model, df)test <- ols_all_subset(fit)plot(test)
Kód Magyarázat
- mpg ~ .: Konstruálja a modellt a becsléshez
- lm (model, df): Futtassa az OLS modellt
- ols_all_subset (fit): Konstruálja a grafikonokat a vonatkozó statisztikai információkkal
- diagram (teszt): Ábrázolja a grafikonokat
Kimenet:
A lineáris regressziós modellek a t-teszt segítségével becsülik meg egy független változó statisztikai hatását a függő változóra. A kutatók a maximális küszöböt 10 százalékban határozták meg, az alacsonyabb értékek erősebb statisztikai összefüggést jeleznek. A lépésenkénti regresszió stratégiája e teszt köré épül fel a potenciális jelöltek felvétele és eltávolítása érdekében. Az algoritmus a következőképpen működik:
- 1. lépés: Regresszon minden prediktort külön y-re. Nevezetesen, regresszálja x_1-et y-re, x_2-t y-re x_n-re. Tárolja a p-értéket, és tartsa a regresszort egy meghatározott küszöbnél alacsonyabb p-értékkel (alapértelmezés szerint 0,1). A küszöbértéknél kisebb szignifikanciával rendelkező prediktorokat hozzáadjuk a végső modellhez. Ha egyik változó p-értéke sem alacsonyabb, mint a belépési küszöb, akkor az algoritmus leáll, és a végső modelled csak konstanssal áll rendelkezésre.
- 2. lépés: Használja a legkisebb p-értékű prediktort, és külön ad hozzá egy változót. Regresszál egy konstansot, az első lépés legjobb előrejelzőjét és egy harmadik változót. A lépésenkénti modellhez hozzáadja az új prediktorokat, amelyek értéke alacsonyabb, mint a belépési küszöb. Ha egyik változó p-értéke 0,1-nél alacsonyabb, akkor az algoritmus leáll, és a végső modelled csak egy előrejelzővel rendelkezik. Regresszálja a lépésenkénti modellt, hogy ellenőrizze az 1. lépés legjobb előrejelzőinek jelentőségét. Ha magasabb, mint az eltávolítási küszöb, akkor a lépésenkénti modellben tartja. Ellenkező esetben kizárja.
- 3. lépés: Megismétli a 2. lépést az új, lépésenkénti modellen. Az algoritmus prediktorokat ad hozzá a lépésenkénti modellhez a bevitt értékek alapján, és kizárja a prediktort a lépésenkénti modellből, ha az nem felel meg a kizárási küszöbértéknek.
- Az algoritmus addig tart, amíg változót nem lehet hozzáadni vagy kizárni.
Az algoritmust az ols_stepwise () függvénnyel hajthatja végre az olsrr csomagból.
ols_stepwise(fit, pent = 0.1, prem = 0.3, details = FALSE)arguments:
-fit: Model to fit. Need to use `lm()`before to run `ols_stepwise()-pent: Threshold of the p-value used to enter a variable into the stepwise model. By default, 0.1-prem: Threshold of the p-value used to exclude a variable into the stepwise model. By default, 0.3-details: Print the details of each step
Előtte bemutatjuk az algoritmus lépéseit. Az alábbiakban egy táblázat található a függő és független változókkal:
Függő változó |
Független változók |
---|---|
mpg |
diszp |
hp |
|
drat |
|
wt |
|
qsec |
Rajt
Először is, az algoritmus úgy indul, hogy a modellt minden független változón külön futtatja. A táblázat az egyes modellek p-értékét mutatja.
## [[1]]## (Intercept) disp## 3.576586e-21 9.380327e-10#### [[2]]## (Intercept) hp## 6.642736e-18 1.787835e-07#### [[3]]## (Intercept) drat## 0.1796390847 0.0000177624#### [[4]]## (Intercept) wt## 8.241799e-19 1.293959e-10#### [[5]## (Intercept) qsec## 0.61385436 0.01708199
A modell beírásához az algoritmus megtartja a legkisebb p-értékű változót. A fenti kimenetből wt
1. lépés
Az első lépésben az algoritmus mpg-t futtat wt-n és a többi változó egymástól függetlenül.
## [[1]]## (Intercept) wt disp## 4.910746e-16 7.430725e-03 6.361981e-02#### [[2]]## (Intercept) wt hp## 2.565459e-20 1.119647e-06 1.451229e-03#### [[3]]## (Intercept) wt drat## 2.737824e-04 1.589075e-06 3.308544e-01#### [[4]]## (Intercept) wt qsec## 7.650466e-04 2.518948e-11 1.499883e-03
Minden változó potenciális jelölt a végső modellbe való belépéshez. Az algoritmus azonban csak az alacsonyabb p értékű változót tartja meg. Kiderült, hogy a hp-nak kissé alacsonyabb a p-értéke, mint a qsec-nek. Ezért a hp belép a végleges modellbe
2. lépés
Az algoritmus megismétli az első lépést, de ezúttal két független változóval a végső modellben.
## [[1]]## (Intercept) wt hp disp## 1.161936e-16 1.330991e-03 1.097103e-02 9.285070e-01#### [[2]]## (Intercept) wt hp drat## 5.133678e-05 3.642961e-04 1.178415e-03 1.987554e-01#### [[3]]## (Intercept) wt hp qsec## 2.784556e-03 3.217222e-06 2.441762e-01 2.546284e-01
A végleges modellbe bekerült változók egyike sem rendelkezik elég alacsony p-értékkel. Az algoritmus itt áll meg; megvan a végleges modell:
#### Call:## lm(formula = mpg ~ wt + hp, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.941 -1.600 -0.182 1.050 5.854#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 37.22727 1.59879 23.285 < 2e-16 ***## wt -3.87783 0.63273 -6.129 1.12e-06 ***## hp -0.03177 0.00903 -3.519 0.00145 **## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.593 on 29 degrees of freedom## Multiple R-squared: 0.8268, Adjusted R-squared: 0.8148## F-statistic: 69.21 on 2 and 29 DF, p-value: 9.109e-12
Az eredmények összehasonlításához használhatja az ols_stepwise () függvényt.
stp_s <-ols_stepwise(fit, details=TRUE)
Kimenet:
Az algoritmus 2 lépés után megoldást talál, és ugyanazt a kimenetet adja vissza, mint korábban.
A végén elmondhatja, hogy a modelleket két változóval és egy elfogással magyarázzák. A mérföld / gallon negatívan korrelál a bruttó lóerővel és a súlygal
## You are selecting variables based on p value… ## 1 variable(s) added… .## Variable Selection Procedure## Dependent Variable: mpg#### Stepwise Selection: Step 1#### Variable wt Entered#### Model Summary## --------------------------------------------------------------## R 0.868 RMSE 3.046## R-Squared 0.753 Coef. Var 15.161## Adj. R-Squared 0.745 MSE 9.277## Pred R-Squared 0.709 MAE 2.341## --------------------------------------------------------------## RMSE: Root Mean Square Error## MSE: Mean Square Error## MAE: Mean Absolute Error## ANOVA## --------------------------------------------------------------------## Sum of## Squares DF Mean Square F Sig.## --------------------------------------------------------------------## Regression 847.725 1 847.725 91.375 0.0000## Residual 278.322 30 9.277## Total 1126.047 31## --------------------------------------------------------------------#### Parameter Estimates## ----------------------------------------------------------------------------------------## model Beta Std. Error Std. Beta t Sig lower upper## ----------------------------------------------------------------------------------------## (Intercept) 37.285 1.878 19.858 0.000 33.450 41.120## wt -5.344 0.559 -0.868 -9.559 0.000 -6.486 -4.203## ----------------------------------------------------------------------------------------## 1 variable(s) added… ## Stepwise Selection: Step 2#### Variable hp Entered#### Model Summary## --------------------------------------------------------------## R 0.909 RMSE 2.593## R-Squared 0.827 Coef. Var 12.909## Adj. R-Squared 0.815 MSE 6.726## Pred R-Squared 0.781 MAE 1.901## --------------------------------------------------------------## RMSE: Root Mean Square Error## MSE: Mean Square Error## MAE: Mean Absolute Error## ANOVA## --------------------------------------------------------------------## Sum of## Squares DF Mean Square F Sig.## --------------------------------------------------------------------## Regression 930.999 2 465.500 69.211 0.0000## Residual 195.048 29 6.726## Total 1126.047 31## --------------------------------------------------------------------#### Parameter Estimates## ----------------------------------------------------------------------------------------## model Beta Std. Error Std. Beta t Sig lower upper## ----------------------------------------------------------------------------------------## (Intercept) 37.227 1.599 23.285 0.000 33.957 40.497## wt -3.878 0.633 -0.630 -6.129 0.000 -5.172 -2.584## hp -0.032 0.009 -0.361 -3.519 0.001 -0.050 -0.013## ----------------------------------------------------------------------------------------## No more variables to be added or removed.
Gépi tanulás
A gépi tanulás egyre szélesebb körben elterjedt az adatkutatók körében, és naponta több száz termékben alkalmazzák. Az egyik első ML alkalmazás a spamszűrő volt .
Az alábbiakban bemutatjuk a gépi tanulás
- A nem kívánt spam üzenetek azonosítása e-mailben
- Az ügyfelek viselkedésének szegmentálása a célzott reklámozáshoz
- Csalárd hitelkártya-tranzakciók csökkentése
- Energiafelhasználás optimalizálása otthoni és irodaházban
- Arcfelismerő
Felügyelt tanulás
A felügyelt tanulás , edzésadatait adsz az algoritmus tartalmaz egy címkét.
Az osztályozás valószínűleg a leggyakrabban használt felügyelt tanulási technika. Az egyik első osztályozási feladattal foglalkozó kutató a spamszűrő volt. A tanulás célja annak megjósolása, hogy az e-mail spamnek vagy sonkának minősül-e (jó e-mail). A gép az edzés után felismerheti az e-mail osztályt.
A regressziókat általában a gépi tanulás területén használják a folyamatos érték előrejelzésére. A regressziós feladat képes megjósolni egy függő változó értékét független változók (más néven prediktorok vagy regresszorok) halmaza alapján . Például a lineáris regresszió előrejelezheti a részvényárfolyamot, az időjárás-előrejelzést, az eladásokat és így tovább.
Itt található néhány alapvető felügyelt tanulási algoritmus.
- Lineáris regresszió
- Logisztikus regresszió
- Legközelebbi szomszédok
- Támogatja a Vector Machine-t (SVM)
- Döntési fák és Véletlen Erdő
- Neural Networks
Felügyelet nélküli tanulás
A felügyelet nélküli tanulás , a képzés adatokat nem jelzett. A rendszer referencia nélkül próbál tanulni. Az alábbiakban felsoroljuk a felügyelet nélküli tanulási algoritmusokat.
- K-átlag
- Hierarchikus klaszterelemzés
- Várakozás maximalizálása
- Vizualizáció és dimenziócsökkentés
- Főkomponens analízis
- Kernel PCA
- Helyi-lineáris beágyazás
Összegzés
A szokásos legkisebb négyzetes regresszió az alábbi táblázatban foglalható össze:
Könyvtár |
Célkitűzés |
Funkció |
Érvek |
---|---|---|---|
bázis |
Számítson lineáris regressziót |
lm () |
képlet, adatok |
bázis |
Foglalja össze a modellt |
összesít() |
elfér |
bázis |
Exctract együtthatók |
lm () $ együttható | |
bázis |
Exctract maradványok |
lm () $ maradvány | |
bázis |
Húzza ki az illesztett értéket |
lm () $ illesztett.értékek | |
olsrr |
Futtassa fokozatos regressziót |
ols_stepwise () |
illeszkedés, pent = 0,1, prem = 0,3, részletek = HAMIS |
Megjegyzés : Ne felejtse el átalakítani a kategorikus változót tényező előtt, hogy illeszkedjen a modellhez.