2. Riešené úlohy - Kapitola 2 R

Preložené z knihy An Introduction to Statistical Learning with Applications in R, od autorov Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani. Kapitola 2 - časť 2.4 Exercises.

8. cvičenie - College

Toto cvičenie súvisí s dátovou množinou College, ktorá je v súbore College.csv. Obsahuje dáta z 777 rozličných univerzít a vysokých škôl v USA. Tieto premenné sú:

  • Private : verejný/neverejný
  • Apps : počet prijatých prihlášok
  • Accept : počet akceptovaných uchádzačov
  • Enroll : počet nových študentov, ktorý nastúpili
  • Top10perc : nový študenti z top 10 % stredných škôl
  • Top25perc : nový študenti z top 25 % stredných škôl
  • F.Undergrad : počet riadnych vysokoškolákov/študentov
  • P.Undergrad : počet mimoriadnych vysokoškolákov
  • Outstate : štipendium mimo štátu
  • Room.Board : Izba a nástupné poplatky
  • Books: odhadované náklady na knihy
  • Personal : odhadované vreckové
  • PhD : percento fakulty s titulom Ph.D.
  • Terminal : percento fakulty s konečným stupňom
  • S.F.Ratio : študent/fakutla ratio
  • per.alumni : percento alumni, ktorí dotujú školu
  • Expend : inštumentálne náklady na študenta
  • Grad.Rade : pomer končiacich

8. a)

Použi funkciu read.csv() na načítanie dátovej množiny do R. Zavolaj načítané dáta college. Buď si istý, že máš správny priečinok na načítanie dát.

In [361]:
college = read.csv("College.csv")

8. b)

Pozri si dáta použitím funkcie fix(). Mal by si si všimnúť, že prvý stĺpec je len meno každej univerzity. V R nechceme spracovávať tieto dáta. Avšak, tie môžu byť neskôr užitočné. Vyskúšaj nasledovné príkazy:

In [362]:
college[1, ]
XPrivateAppsAcceptEnrollTop10percTop25percF.UndergradP.UndergradOutstateRoom.BoardBooksPersonalPhDTerminalS.F.Ratioperc.alumniExpendGrad.Rate
Abilene Christian UniversityYes 1660 1232 721 23 52 2885 537 7440 3300 450 2200 70 78 18.1 12 7041 60
In [363]:
rownames(college) = college[,1]
In [364]:
fix(college)
In [365]:
college[1,]
XPrivateAppsAcceptEnrollTop10percTop25percF.UndergradP.UndergradOutstateRoom.BoardBooksPersonalPhDTerminalS.F.Ratioperc.alumniExpendGrad.Rate
Abilene Christian UniversityAbilene Christian UniversityYes 1660 1232 721 23 52 2885 537 7440 3300 450 2200 70 78 18.1 12 7041 60

Mal by si už vieť aj stĺpec s názvom row.names,s názvami všetkých zaznamenaných univerzít v dátach. Toto znamená, že R pomenúva každý riadok podľa vhodnej univerzity. R nebude vykonávať kalkulácie nad názvami riadkov. Avšak, stále budeme potrebovať odstrániť prvý stĺpec v dátach, kde sú mená uložené. Vyskúšaj:

In [366]:
college = college [, -1]
In [367]:
fix(college)
In [368]:
college[1, ]
PrivateAppsAcceptEnrollTop10percTop25percF.UndergradP.UndergradOutstateRoom.BoardBooksPersonalPhDTerminalS.F.Ratioperc.alumniExpendGrad.Rate
Abilene Christian UniversityYes 16601232721 23 52 2885537 74403300450 220070 78 18.112 704160

Teraz by si už mal vydieť, že prvé dáta v sĺpci sú Private. Maj na pamäti to, že ďalší stĺpec označený ako row.names teraz sa zobrazí pred stĺpcom Private. Avšak toto nie sú stĺpcové dáta, ale skôr označenia ktoré R dáva každému riadku.

8. c)

i.

Použi funkciu summary() na vyprodukovanie číselného zhrnutia premenných v danej dátovej množine.

In [369]:
summary(college)
 Private        Apps           Accept          Enroll       Top10perc    
 No :212   Min.   :   81   Min.   :   72   Min.   :  35   Min.   : 1.00  
 Yes:565   1st Qu.:  776   1st Qu.:  604   1st Qu.: 242   1st Qu.:15.00  
           Median : 1558   Median : 1110   Median : 434   Median :23.00  
           Mean   : 3002   Mean   : 2019   Mean   : 780   Mean   :27.56  
           3rd Qu.: 3624   3rd Qu.: 2424   3rd Qu.: 902   3rd Qu.:35.00  
           Max.   :48094   Max.   :26330   Max.   :6392   Max.   :96.00  
   Top25perc      F.Undergrad     P.Undergrad         Outstate    
 Min.   :  9.0   Min.   :  139   Min.   :    1.0   Min.   : 2340  
 1st Qu.: 41.0   1st Qu.:  992   1st Qu.:   95.0   1st Qu.: 7320  
 Median : 54.0   Median : 1707   Median :  353.0   Median : 9990  
 Mean   : 55.8   Mean   : 3700   Mean   :  855.3   Mean   :10441  
 3rd Qu.: 69.0   3rd Qu.: 4005   3rd Qu.:  967.0   3rd Qu.:12925  
 Max.   :100.0   Max.   :31643   Max.   :21836.0   Max.   :21700  
   Room.Board       Books           Personal         PhD        
 Min.   :1780   Min.   :  96.0   Min.   : 250   Min.   :  8.00  
 1st Qu.:3597   1st Qu.: 470.0   1st Qu.: 850   1st Qu.: 62.00  
 Median :4200   Median : 500.0   Median :1200   Median : 75.00  
 Mean   :4358   Mean   : 549.4   Mean   :1341   Mean   : 72.66  
 3rd Qu.:5050   3rd Qu.: 600.0   3rd Qu.:1700   3rd Qu.: 85.00  
 Max.   :8124   Max.   :2340.0   Max.   :6800   Max.   :103.00  
    Terminal       S.F.Ratio      perc.alumni        Expend     
 Min.   : 24.0   Min.   : 2.50   Min.   : 0.00   Min.   : 3186  
 1st Qu.: 71.0   1st Qu.:11.50   1st Qu.:13.00   1st Qu.: 6751  
 Median : 82.0   Median :13.60   Median :21.00   Median : 8377  
 Mean   : 79.7   Mean   :14.09   Mean   :22.74   Mean   : 9660  
 3rd Qu.: 92.0   3rd Qu.:16.50   3rd Qu.:31.00   3rd Qu.:10830  
 Max.   :100.0   Max.   :39.80   Max.   :64.00   Max.   :56233  
   Grad.Rate     
 Min.   : 10.00  
 1st Qu.: 53.00  
 Median : 65.00  
 Mean   : 65.46  
 3rd Qu.: 78.00  
 Max.   :118.00  

ii.

Použi funkciu pairs() na vyprodukovanie scatterplot matice prvých desať stĺpcov alebo premenných v danej dátovej množine. Zavolaj potom prvých desať stĺpcov matice A použitím A[, 1:10]

In [370]:
pairs(college[ , 1:10 ], col=4)

iii.

Použi funkciu plot() na vyprodukovanie vedľa seba boxplots premenných Outstate verzus Private.

In [371]:
attach(college)
The following objects are masked from college (pos = 5):

    Accept, Apps, Books, Enroll, Expend, F.Undergrad, Grad.Rate,
    Outstate, P.Undergrad, perc.alumni, Personal, PhD, Private,
    Room.Board, S.F.Ratio, Terminal, Top10perc, Top25perc

The following objects are masked from college (pos = 8):

    Accept, Apps, Books, Enroll, Expend, F.Undergrad, Grad.Rate,
    Outstate, P.Undergrad, perc.alumni, Personal, PhD, Private,
    Room.Board, S.F.Ratio, Terminal, Top10perc, Top25perc

The following objects are masked from college (pos = 9):

    Accept, Apps, Books, Enroll, Expend, F.Undergrad, Grad.Rate,
    Outstate, P.Undergrad, perc.alumni, Personal, PhD, Private,
    Room.Board, S.F.Ratio, Terminal, Top10perc, Top25perc

The following objects are masked from college (pos = 10):

    Accept, Apps, Books, Enroll, Expend, F.Undergrad, Grad.Rate,
    Outstate, P.Undergrad, perc.alumni, Personal, PhD, Private,
    Room.Board, S.F.Ratio, Terminal, Top10perc, Top25perc

The following objects are masked from college (pos = 11):

    Accept, Apps, Books, Enroll, Expend, F.Undergrad, Grad.Rate,
    Outstate, P.Undergrad, perc.alumni, Personal, PhD, Private,
    Room.Board, S.F.Ratio, Terminal, Top10perc, Top25perc

The following objects are masked from college (pos = 12):

    Accept, Apps, Books, Enroll, Expend, F.Undergrad, Grad.Rate,
    Outstate, P.Undergrad, perc.alumni, Personal, PhD, Private,
    Room.Board, S.F.Ratio, Terminal, Top10perc, Top25perc

In [372]:
plot(Private, Outstate, col=5)

iv.

Vytvor novú kvalitatívnu premennú Elite , z binárnej Top10perc premennej. Budeme rozdeľovať univerzity do dvoch skupín, podľa toho či bolo rozloženie študentov prichádzajúcich z top 10% stredných škôl prevýši 50%. Použi funkciu summary() na to, aby si videl, aké univerzity sú. Teraz použi funkciu plot() na vyprodukovanie vedľa seba boxplots z premenných Outstate verzus Elite.

In [373]:
Elite = rep("No", nrow(college))
In [374]:
Elite[1:5]
  1. 'No'
  2. 'No'
  3. 'No'
  4. 'No'
  5. 'No'
In [375]:
Elite[Top10perc > 50] = "Yes"
In [376]:
Elite[1:5]
  1. 'No'
  2. 'No'
  3. 'No'
  4. 'Yes'
  5. 'No'
In [377]:
Elite = as.factor(Elite)
In [378]:
Elite[1:5]
  1. No
  2. No
  3. No
  4. Yes
  5. No
In [379]:
college = data.frame(college, Elite)
In [380]:
college[1,]
PrivateAppsAcceptEnrollTop10percTop25percF.UndergradP.UndergradOutstateRoom.BoardBooksPersonalPhDTerminalS.F.Ratioperc.alumniExpendGrad.RateElite
Abilene Christian UniversityYes 16601232721 23 52 2885537 74403300450 220070 78 18.112 704160 No
In [381]:
summary(Elite)
No
699
Yes
78
In [382]:
plot(Outstate, Elite, col=3)

v.

Použi funkciu hist() na vyprodukovanie nejakých histogramov s odlišnými číslami pre niekoľko kvantitatívnych premenných. Môžeš nájisť príkaz par(mfrow=c(2,2)), ktorý ti bude užitočný: rozdelí to okno s výpisom do štyroch oblastí, tak aby štyri grafy mohli byť vykreslené/urobené zároveň. Modifikácia argumentov v tejto funkcii rozdelí obrazovku odlišným spôsobom.

In [383]:
par(mfrow=c(2,2))
In [384]:
hist(Apps, col=8, breaks=30)
In [385]:
hist(perc.alumni, col=3)
In [386]:
hist(PhD, col=4)
In [387]:
hist(Personal, col=5)
In [388]:
hist(S.F.Ratio, col=6, breaks=20)
In [389]:
hist(Expend, breaks = 30, col=2)

vi.

Pokračuj v prezeraní dát, a vytvor krátky záver / súhrn toho čo si objavil.

In [390]:
plot(Outstate, Grad.Rate, col=2)

Vysoké školné (outstate - tých z iných krajín) koreluje s vysokou mierou skončenia školy úspešne.

In [391]:
plot(Accept / Apps, S.F.Ratio, col = 3)

Vysoké školy, ktoré zoberú tak ľahko kohokoľvek majú aj malé študent/fakulty pomer.

In [392]:
plot(Private, Top10perc, col = 5, xlab="privátne školy", ylab="počet top najlepších 10% zo stredných škôl")
In [393]:
plot(Private, Top25perc, col = 5, xlab="privátne školy", , 
     ylab="počet top najlepších 25% zo stredných škôl")

Na privátne školy chodia najčastejšie tí najlepší zo stredných škôl.

In [394]:
plot(Private, perc.alumni, col = 7, xlab="privátne školy", , 
     ylab="Percento alumni, ktorý sponzorujú školu")

Privátne školy viac sponzorujú alumni členovia.

In [395]:
plot(Top10perc, Grad.Rate, col=2)

Univerzity s väčšinou študentov z horných top 10% stredných škol, nemusia mať najvyšíe temto absolvovania stupňa. Niektorý prekročili štandardnú dĺžku štúdia.

9. cvičenie - Auto

Toto cvičenie súvisí s dátovou množinou Auto. Ujisti sa, že si odstránil chýbajúce hodnoty z dát.

9. a)

Ktorý z prediktorov je kvantivatívny a ktorý kvalitatívny?

In [396]:
Auto = read.csv("Auto.csv", header=TRUE, na.string="?")
In [397]:
dim(Auto)
  1. 397
  2. 9
In [398]:
Auto = na.omit(Auto)
In [399]:
dim(Auto)
  1. 392
  2. 9
In [400]:
summary(Auto)
      mpg          cylinders      displacement     horsepower        weight    
 Min.   : 9.00   Min.   :3.000   Min.   : 68.0   Min.   : 46.0   Min.   :1613  
 1st Qu.:17.00   1st Qu.:4.000   1st Qu.:105.0   1st Qu.: 75.0   1st Qu.:2225  
 Median :22.75   Median :4.000   Median :151.0   Median : 93.5   Median :2804  
 Mean   :23.45   Mean   :5.472   Mean   :194.4   Mean   :104.5   Mean   :2978  
 3rd Qu.:29.00   3rd Qu.:8.000   3rd Qu.:275.8   3rd Qu.:126.0   3rd Qu.:3615  
 Max.   :46.60   Max.   :8.000   Max.   :455.0   Max.   :230.0   Max.   :5140  
                                                                               
  acceleration        year           origin                  name    
 Min.   : 8.00   Min.   :70.00   Min.   :1.000   amc matador   :  5  
 1st Qu.:13.78   1st Qu.:73.00   1st Qu.:1.000   ford pinto    :  5  
 Median :15.50   Median :76.00   Median :1.000   toyota corolla:  5  
 Mean   :15.54   Mean   :75.98   Mean   :1.577   amc gremlin   :  4  
 3rd Qu.:17.02   3rd Qu.:79.00   3rd Qu.:2.000   amc hornet    :  4  
 Max.   :24.80   Max.   :82.00   Max.   :3.000   ford maverick :  4  
                                                 (Other)       :365  
In [401]:
Auto[1, ]
mpgcylindersdisplacementhorsepowerweightaccelerationyearoriginname
18 8 307 130 3504 12 70 1 chevrolet chevelle malibu
In [402]:
names(Auto)
  1. 'mpg'
  2. 'cylinders'
  3. 'displacement'
  4. 'horsepower'
  5. 'weight'
  6. 'acceleration'
  7. 'year'
  8. 'origin'
  9. 'name'

Riešenie: kvantitatívne

  • mpg
  • cylinders
  • displacement
  • horsepower
  • weight
  • acceleration
  • year
kvalitatívne
  • origin
  • name
  • cylinders

Cylinders môže byť aj kvalitatívny aj kvantitatívny.

9. b)

Aké sú rozpätia jednotlivých kvantitatívnych prediktorov?

In [403]:
sapply(Auto[, 1:7], range)
mpgcylindersdisplacementhorsepowerweightaccelerationyear
9.03 68 46 1613 8.070
46.68 455 230 514024.882

9. c)

Aké sú priemery a štandardné odchýlky pre každé kvantitatívne prediktory?

Priemery sú nasledovné:

In [404]:
sapply (Auto[, 1:7], mean)
mpg
23.4459183673469
cylinders
5.4719387755102
displacement
194.411989795918
horsepower
104.469387755102
weight
2977.58418367347
acceleration
15.5413265306122
year
75.9795918367347

Štandardné odchýlky sú nasledovné:

In [405]:
sapply (Auto[ , 1:7], sd)
mpg
7.8050074865718
cylinders
1.70578324745278
displacement
104.644003908905
horsepower
38.4911599328285
weight
849.402560042949
acceleration
2.75886411918808
year
3.68373654357783

9. d)

Teraz odstránte desiate z 85tych záznamov. Aké bude rozpätie, priemer a štandardná odchýlka každého predikora v podmnožine, ktorá zostala?

In [406]:
dim(Auto)
  1. 392
  2. 9
In [407]:
noveAuto = Auto[-(10:85), ]
noveAuto[9, ] == Auto[9, ]
noveAuto[10, ] == Auto[86, ]
mpgcylindersdisplacementhorsepowerweightaccelerationyearoriginname
9TRUETRUETRUETRUETRUETRUETRUETRUETRUE
mpgcylindersdisplacementhorsepowerweightaccelerationyearoriginname
87TRUETRUETRUETRUETRUETRUETRUETRUETRUE
In [408]:
dim(noveAuto)
  1. 316
  2. 9
In [409]:
sapply (noveAuto[ , 1:7], range)
mpgcylindersdisplacementhorsepowerweightaccelerationyear
11.03 68 46 1649 8.570
46.68 455 230 499724.882
In [410]:
sapply (noveAuto[ , 1:7], mean)
mpg
24.4044303797468
cylinders
5.37341772151899
displacement
187.240506329114
horsepower
100.721518987342
weight
2935.97151898734
acceleration
15.7268987341772
year
77.1455696202532
In [411]:
sapply (noveAuto[ , 1:7], sd)
mpg
7.86728282443069
cylinders
1.65417865185607
displacement
99.6783672303628
horsepower
35.7088532738003
weight
811.30020815829
acceleration
2.69372071752036
year
3.10621690872137

9. e)

Použi znova celú dátovú množinu, a preskúmavaj prediktory graficky, použitím scatterplots alebo iné nástroje, ktoré si zvolíš. Vytvor nejaké grafy, ktoré zdôraznia vzťah medzi prediktormi. Okomentuj tvoje zistenia.

In [412]:
pairs(Auto, col=2)
In [413]:
attach(Auto)
The following object is masked _by_ .GlobalEnv:

    cylinders

The following objects are masked from Auto (pos = 5):

    acceleration, cylinders, displacement, horsepower, mpg, name,
    origin, weight, year

The following objects are masked from Auto (pos = 8):

    acceleration, cylinders, displacement, horsepower, mpg, name,
    origin, weight, year

In [414]:
plot(mpg, weight, col=3)

Väčšia váha koreluje s nižšou hodnotou mpg.

In [415]:
cylinders = as.factor(cylinders)
In [416]:
plot(cylinders, mpg, col = "red", varwidth=TRUE, xlab = "cylinders", ylab = "mpg")

Čím viac cylindrov, tým menej mpg.

In [417]:
plot(mpg, year, col=4)

Autá budú viac efektívne časom.

9. f)

Predpokladajme, že chceme predikovať gas milage (mpg) na základe ostatných premenných. Aké grafy navrhuješ, také aby ostatné premenné mohli byť užitočné v predikovaní mpg? Zdôvodni svoju odpoveď.

In [418]:
pairs(Auto)

Ako môžte vidieť prediktory ukazujú určitú koreláciu s mpg. Predikor name má málo záznamov na meno, tak tento prediktor bude skôr v budúcnosti model skor overfittovať.

10. cvičenie - Boston

Toto cvičenie súvisí s dátovou množinou Boston - údaje o domoch.

10. a)

Na začiatok, načítaj dátovú množinu Bozton z R knižnice MASS.

In [419]:
library(MASS)
In [420]:
Boston[1,]
crimzninduschasnoxrmagedisradtaxptratioblacklstatmedv
0.0063218 2.31 0 0.538 6.575 65.2 4.09 1 296 15.3 396.9 4.98 24

Teraz dátová množina obsahuje objekt Boston. Prečítaj si viac informácií o tomto datasete.

In [421]:
?Boston
Boston {MASS}R Documentation

Housing Values in Suburbs of Boston

Description

The Boston data frame has 506 rows and 14 columns.

Usage

Boston

Format

This data frame contains the following columns:

crim

per capita crime rate by town.

zn

proportion of residential land zoned for lots over 25,000 sq.ft.

indus

proportion of non-retail business acres per town.

chas

Charles River dummy variable (= 1 if tract bounds river; 0 otherwise).

nox

nitrogen oxides concentration (parts per 10 million).

rm

average number of rooms per dwelling.

age

proportion of owner-occupied units built prior to 1940.

dis

weighted mean of distances to five Boston employment centres.

rad

index of accessibility to radial highways.

tax

full-value property-tax rate per \$10,000.

ptratio

pupil-teacher ratio by town.

black

1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town.

lstat

lower status of the population (percent).

medv

median value of owner-occupied homes in \$1000s.

Source

Harrison, D. and Rubinfeld, D.L. (1978) Hedonic prices and the demand for clean air. J. Environ. Economics and Management 5, 81–102.

Belsley D.A., Kuh, E. and Welsch, R.E. (1980) Regression Diagnostics. Identifying Influential Data and Sources of Collinearity. New York: Wiley.


[Package MASS version 7.3-47 ]

Otázky:

Koľko riadkov je v tejto dátovej množine? Koľko má stĺpcov? Čo riadky a stĺpce reprezentujú?

Odpovede:

Boston má 506 riadkov and 14 stĺpcov. Dáta reprezentujú 14 premenných, a 506 hodnôt z prostredia Bostonského predmestia a sú o domoch.

10. b)

Vytvor nejaké dvojice scatterplotov z prediktorov v tejto dátovej množine. Popíš svoje zistenia.

In [422]:
pairs(Boston, col=2)

Z tohoto obrazku je zrejmé, že:

  • crim koreluje z : age, dis, rad, tax, ptratio
  • zn koreluje z : indus, nox, age, lstat
  • indus koreluje z : age, dis
  • nox koreluje z : age, dis
  • dis koreluje z : lstat
  • lstat koreluje z : medv

10. c)

Sú nejaké prediktory asociované s stupňom zločinnosti v meste? Ak áno, vysvetli daný vzťah.

In [423]:
attach(Boston)
The following objects are masked from Boston (pos = 5):

    age, black, crim, dis, chas, indus, lstat, medv, nox, ptratio, rad,
    rm, tax, zn

In [424]:
plot(age, crim, col=4)

Čím sú staršie domy, tak tým je viac zločinu v nich.

In [425]:
plot(dis, crim, col=6)

Čím sú domy blišie ku práci, tak tým je tam viac zločinu v nich.

In [426]:
plot(rad, crim, col=7)

Čím je vyšší index prístupnosti k diaľniciam, tak tým je tam viac zločinu v nich.

In [427]:
plot(tax, crim, col=8)

Čím sú vyšši dane, tak tým viac zločinu sa deje.

In [428]:
plot(ptratio, crim, col=5)

Čím je vyšší pomer žiak:učiteľ, tým viac je zločinu.

10. d)

Majú niektoré predmeské časti Bostonu vyššie pomery zločinnosti? Dane? Pomer žiak:učiteľ? Komentuj rozsahy každého prediktora.

In [429]:
hist(crim[crim > 1], breaks=25, col=3)

Väčšina miest má nízku zločninosť, ale je tam dlhý chvost: 18 predmeských častí má zločinnosť väčšiu ako 20 a dosahuje až hodnoty nad 80.

In [430]:
hist(tax, breaks=25, col=6)

Tuto možno vydieť veľký rozdiel medzi predmeskými časťami a nízkymi daňami. Najväčšia hodnota je pri daňach v rozmädzí 660-680.

In [431]:
hist(ptratio, breaks=25, col=7)

Zošikmenie ku vyšším pomerom, ale nie až tak vyšoké vo všeobecnosti.

10. e)

Koľko predmeských častí v tejto dátovej množine majú niečo dočinenia s Charles riekou?

In [432]:
dim( subset( Boston, chas == 1))
  1. 35
  2. 14

Správna odpoveď je: 35.

10. f)

Aký je medián pomeru žiak:učiteľ v mestách v datasete?

In [433]:
median(ptratio)
19.05

10. g)

Ktorá meská časť Bostonu má najnižšiu hodnotu mediánu vlastníkov, ktorý bývajú v domoch? Aké sú hodnoty ostatných predikorov pre dané meské časti, a aké majú celkové rozsahy oproti prediktorom? Komentuj tvoje zistenia.

In [434]:
t(subset(Boston, medv == min(medv)))
399406
crim 38.3518 67.9208
zn 0.0000 0.0000
indus 18.1000 18.1000
chas 0.0000 0.0000
nox 0.6930 0.6930
rm 5.4530 5.6830
age100.0000100.0000
dis 1.4896 1.4254
rad 24.0000 24.0000
tax666.0000666.0000
ptratio 20.2000 20.2000
black396.9000384.9700
lstat 30.5900 22.9800
medv 5.0000 5.0000

Na maximum: age, rad, black.

In [435]:
summary(Boston)
      crim                zn             indus            chas        
 Min.   : 0.00632   Min.   :  0.00   Min.   : 0.46   Min.   :0.00000  
 1st Qu.: 0.08204   1st Qu.:  0.00   1st Qu.: 5.19   1st Qu.:0.00000  
 Median : 0.25651   Median :  0.00   Median : 9.69   Median :0.00000  
 Mean   : 3.61352   Mean   : 11.36   Mean   :11.14   Mean   :0.06917  
 3rd Qu.: 3.67708   3rd Qu.: 12.50   3rd Qu.:18.10   3rd Qu.:0.00000  
 Max.   :88.97620   Max.   :100.00   Max.   :27.74   Max.   :1.00000  
      nox               rm             age              dis        
 Min.   :0.3850   Min.   :3.561   Min.   :  2.90   Min.   : 1.130  
 1st Qu.:0.4490   1st Qu.:5.886   1st Qu.: 45.02   1st Qu.: 2.100  
 Median :0.5380   Median :6.208   Median : 77.50   Median : 3.207  
 Mean   :0.5547   Mean   :6.285   Mean   : 68.57   Mean   : 3.795  
 3rd Qu.:0.6240   3rd Qu.:6.623   3rd Qu.: 94.08   3rd Qu.: 5.188  
 Max.   :0.8710   Max.   :8.780   Max.   :100.00   Max.   :12.127  
      rad              tax           ptratio          black       
 Min.   : 1.000   Min.   :187.0   Min.   :12.60   Min.   :  0.32  
 1st Qu.: 4.000   1st Qu.:279.0   1st Qu.:17.40   1st Qu.:375.38  
 Median : 5.000   Median :330.0   Median :19.05   Median :391.44  
 Mean   : 9.549   Mean   :408.2   Mean   :18.46   Mean   :356.67  
 3rd Qu.:24.000   3rd Qu.:666.0   3rd Qu.:20.20   3rd Qu.:396.23  
 Max.   :24.000   Max.   :711.0   Max.   :22.00   Max.   :396.90  
     lstat            medv      
 Min.   : 1.73   Min.   : 5.00  
 1st Qu.: 6.95   1st Qu.:17.02  
 Median :11.36   Median :21.20  
 Mean   :12.65   Mean   :22.53  
 3rd Qu.:16.95   3rd Qu.:25.00  
 Max.   :37.97   Max.   :50.00  
In [436]:
dim(subset(Boston, rm > 7))
  1. 64
  2. 14
In [437]:
dim(subset(Boston, rm > 8))
  1. 13
  2. 14
In [438]:
summary(subset(Boston, rm > 8))
      crim               zn            indus             chas       
 Min.   :0.02009   Min.   : 0.00   Min.   : 2.680   Min.   :0.0000  
 1st Qu.:0.33147   1st Qu.: 0.00   1st Qu.: 3.970   1st Qu.:0.0000  
 Median :0.52014   Median : 0.00   Median : 6.200   Median :0.0000  
 Mean   :0.71879   Mean   :13.62   Mean   : 7.078   Mean   :0.1538  
 3rd Qu.:0.57834   3rd Qu.:20.00   3rd Qu.: 6.200   3rd Qu.:0.0000  
 Max.   :3.47428   Max.   :95.00   Max.   :19.580   Max.   :1.0000  
      nox               rm             age             dis       
 Min.   :0.4161   Min.   :8.034   Min.   : 8.40   Min.   :1.801  
 1st Qu.:0.5040   1st Qu.:8.247   1st Qu.:70.40   1st Qu.:2.288  
 Median :0.5070   Median :8.297   Median :78.30   Median :2.894  
 Mean   :0.5392   Mean   :8.349   Mean   :71.54   Mean   :3.430  
 3rd Qu.:0.6050   3rd Qu.:8.398   3rd Qu.:86.50   3rd Qu.:3.652  
 Max.   :0.7180   Max.   :8.780   Max.   :93.90   Max.   :8.907  
      rad              tax           ptratio          black      
 Min.   : 2.000   Min.   :224.0   Min.   :13.00   Min.   :354.6  
 1st Qu.: 5.000   1st Qu.:264.0   1st Qu.:14.70   1st Qu.:384.5  
 Median : 7.000   Median :307.0   Median :17.40   Median :386.9  
 Mean   : 7.462   Mean   :325.1   Mean   :16.36   Mean   :385.2  
 3rd Qu.: 8.000   3rd Qu.:307.0   3rd Qu.:17.40   3rd Qu.:389.7  
 Max.   :24.000   Max.   :666.0   Max.   :20.20   Max.   :396.9  
     lstat           medv     
 Min.   :2.47   Min.   :21.9  
 1st Qu.:3.32   1st Qu.:41.7  
 Median :4.14   Median :48.3  
 Mean   :4.31   Mean   :44.2  
 3rd Qu.:5.12   3rd Qu.:50.0  
 Max.   :7.44   Max.   :50.0  
In [439]:
summary(Boston)
      crim                zn             indus            chas        
 Min.   : 0.00632   Min.   :  0.00   Min.   : 0.46   Min.   :0.00000  
 1st Qu.: 0.08204   1st Qu.:  0.00   1st Qu.: 5.19   1st Qu.:0.00000  
 Median : 0.25651   Median :  0.00   Median : 9.69   Median :0.00000  
 Mean   : 3.61352   Mean   : 11.36   Mean   :11.14   Mean   :0.06917  
 3rd Qu.: 3.67708   3rd Qu.: 12.50   3rd Qu.:18.10   3rd Qu.:0.00000  
 Max.   :88.97620   Max.   :100.00   Max.   :27.74   Max.   :1.00000  
      nox               rm             age              dis        
 Min.   :0.3850   Min.   :3.561   Min.   :  2.90   Min.   : 1.130  
 1st Qu.:0.4490   1st Qu.:5.886   1st Qu.: 45.02   1st Qu.: 2.100  
 Median :0.5380   Median :6.208   Median : 77.50   Median : 3.207  
 Mean   :0.5547   Mean   :6.285   Mean   : 68.57   Mean   : 3.795  
 3rd Qu.:0.6240   3rd Qu.:6.623   3rd Qu.: 94.08   3rd Qu.: 5.188  
 Max.   :0.8710   Max.   :8.780   Max.   :100.00   Max.   :12.127  
      rad              tax           ptratio          black       
 Min.   : 1.000   Min.   :187.0   Min.   :12.60   Min.   :  0.32  
 1st Qu.: 4.000   1st Qu.:279.0   1st Qu.:17.40   1st Qu.:375.38  
 Median : 5.000   Median :330.0   Median :19.05   Median :391.44  
 Mean   : 9.549   Mean   :408.2   Mean   :18.46   Mean   :356.67  
 3rd Qu.:24.000   3rd Qu.:666.0   3rd Qu.:20.20   3rd Qu.:396.23  
 Max.   :24.000   Max.   :711.0   Max.   :22.00   Max.   :396.90  
     lstat            medv      
 Min.   : 1.73   Min.   : 5.00  
 1st Qu.: 6.95   1st Qu.:17.02  
 Median :11.36   Median :21.20  
 Mean   :12.65   Mean   :22.53  
 3rd Qu.:16.95   3rd Qu.:25.00  
 Max.   :37.97   Max.   :50.00