2. Riešené úlohy - Kapitola 2 R

Preložené z knihy An Introduction to Statistical Learning with Applications in R, od autorov Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani. Kapitola 2 - časť 2.4 Exercises.

8. cvičenie - College

Toto cvičenie súvisí s dátovou množinou College, ktorá je v súbore College.csv. Obsahuje dáta z 777 rozličných univerzít a vysokých škôl v USA. Tieto premenné sú:

Private : verejný/neverejný
Apps : počet prijatých prihlášok
Accept : počet akceptovaných uchádzačov
Enroll : počet nových študentov, ktorý nastúpili
Top10perc : nový študenti z top 10 % stredných škôl
Top25perc : nový študenti z top 25 % stredných škôl
F.Undergrad : počet riadnych vysokoškolákov/študentov
P.Undergrad : počet mimoriadnych vysokoškolákov
Outstate : štipendium mimo štátu
Room.Board : Izba a nástupné poplatky
Books: odhadované náklady na knihy
Personal : odhadované vreckové
PhD : percento fakulty s titulom Ph.D.
Terminal : percento fakulty s konečným stupňom
S.F.Ratio : študent/fakutla ratio
per.alumni : percento alumni, ktorí dotujú školu
Expend : inštumentálne náklady na študenta
Grad.Rade : pomer končiacich

8. a)

Použi funkciu read.csv() na načítanie dátovej množiny do R. Zavolaj načítané dáta college. Buď si istý, že máš správny priečinok na načítanie dát.

college = read.csv("College.csv")

8. b)

Pozri si dáta použitím funkcie fix(). Mal by si si všimnúť, že prvý stĺpec je len meno každej univerzity. V R nechceme spracovávať tieto dáta. Avšak, tie môžu byť neskôr užitočné. Vyskúšaj nasledovné príkazy:

college[1, ]

rownames(college) = college[,1]

fix(college)

college[1,]

Mal by si už vieť aj stĺpec s názvom row.names,s názvami všetkých zaznamenaných univerzít v dátach. Toto znamená, že R pomenúva každý riadok podľa vhodnej univerzity. R nebude vykonávať kalkulácie nad názvami riadkov. Avšak, stále budeme potrebovať odstrániť prvý stĺpec v dátach, kde sú mená uložené. Vyskúšaj:

college = college [, -1]

fix(college)

college[1, ]

Teraz by si už mal vydieť, že prvé dáta v sĺpci sú Private. Maj na pamäti to, že ďalší stĺpec označený ako row.names teraz sa zobrazí pred stĺpcom Private. Avšak toto nie sú stĺpcové dáta, ale skôr označenia ktoré R dáva každému riadku.

8. c)

i.

Použi funkciu summary() na vyprodukovanie číselného zhrnutia premenných v danej dátovej množine.

summary(college)

 Private        Apps           Accept          Enroll       Top10perc    
 No :212   Min.   :   81   Min.   :   72   Min.   :  35   Min.   : 1.00  
 Yes:565   1st Qu.:  776   1st Qu.:  604   1st Qu.: 242   1st Qu.:15.00  
           Median : 1558   Median : 1110   Median : 434   Median :23.00  
           Mean   : 3002   Mean   : 2019   Mean   : 780   Mean   :27.56  
           3rd Qu.: 3624   3rd Qu.: 2424   3rd Qu.: 902   3rd Qu.:35.00  
           Max.   :48094   Max.   :26330   Max.   :6392   Max.   :96.00  
   Top25perc      F.Undergrad     P.Undergrad         Outstate    
 Min.   :  9.0   Min.   :  139   Min.   :    1.0   Min.   : 2340  
 1st Qu.: 41.0   1st Qu.:  992   1st Qu.:   95.0   1st Qu.: 7320  
 Median : 54.0   Median : 1707   Median :  353.0   Median : 9990  
 Mean   : 55.8   Mean   : 3700   Mean   :  855.3   Mean   :10441  
 3rd Qu.: 69.0   3rd Qu.: 4005   3rd Qu.:  967.0   3rd Qu.:12925  
 Max.   :100.0   Max.   :31643   Max.   :21836.0   Max.   :21700  
   Room.Board       Books           Personal         PhD        
 Min.   :1780   Min.   :  96.0   Min.   : 250   Min.   :  8.00  
 1st Qu.:3597   1st Qu.: 470.0   1st Qu.: 850   1st Qu.: 62.00  
 Median :4200   Median : 500.0   Median :1200   Median : 75.00  
 Mean   :4358   Mean   : 549.4   Mean   :1341   Mean   : 72.66  
 3rd Qu.:5050   3rd Qu.: 600.0   3rd Qu.:1700   3rd Qu.: 85.00  
 Max.   :8124   Max.   :2340.0   Max.   :6800   Max.   :103.00  
    Terminal       S.F.Ratio      perc.alumni        Expend     
 Min.   : 24.0   Min.   : 2.50   Min.   : 0.00   Min.   : 3186  
 1st Qu.: 71.0   1st Qu.:11.50   1st Qu.:13.00   1st Qu.: 6751  
 Median : 82.0   Median :13.60   Median :21.00   Median : 8377  
 Mean   : 79.7   Mean   :14.09   Mean   :22.74   Mean   : 9660  
 3rd Qu.: 92.0   3rd Qu.:16.50   3rd Qu.:31.00   3rd Qu.:10830  
 Max.   :100.0   Max.   :39.80   Max.   :64.00   Max.   :56233  
   Grad.Rate     
 Min.   : 10.00  
 1st Qu.: 53.00  
 Median : 65.00  
 Mean   : 65.46  
 3rd Qu.: 78.00  
 Max.   :118.00

ii.

Použi funkciu pairs() na vyprodukovanie scatterplot matice prvých desať stĺpcov alebo premenných v danej dátovej množine. Zavolaj potom prvých desať stĺpcov matice A použitím A[, 1:10]

pairs(college[ , 1:10 ], col=4)

iii.

Použi funkciu plot() na vyprodukovanie vedľa seba boxplots premenných Outstate verzus Private.

attach(college)

The following objects are masked from college (pos = 5):

    Accept, Apps, Books, Enroll, Expend, F.Undergrad, Grad.Rate,
    Outstate, P.Undergrad, perc.alumni, Personal, PhD, Private,
    Room.Board, S.F.Ratio, Terminal, Top10perc, Top25perc

The following objects are masked from college (pos = 8):

    Accept, Apps, Books, Enroll, Expend, F.Undergrad, Grad.Rate,
    Outstate, P.Undergrad, perc.alumni, Personal, PhD, Private,
    Room.Board, S.F.Ratio, Terminal, Top10perc, Top25perc

The following objects are masked from college (pos = 9):

    Accept, Apps, Books, Enroll, Expend, F.Undergrad, Grad.Rate,
    Outstate, P.Undergrad, perc.alumni, Personal, PhD, Private,
    Room.Board, S.F.Ratio, Terminal, Top10perc, Top25perc

The following objects are masked from college (pos = 10):

    Accept, Apps, Books, Enroll, Expend, F.Undergrad, Grad.Rate,
    Outstate, P.Undergrad, perc.alumni, Personal, PhD, Private,
    Room.Board, S.F.Ratio, Terminal, Top10perc, Top25perc

The following objects are masked from college (pos = 11):

    Accept, Apps, Books, Enroll, Expend, F.Undergrad, Grad.Rate,
    Outstate, P.Undergrad, perc.alumni, Personal, PhD, Private,
    Room.Board, S.F.Ratio, Terminal, Top10perc, Top25perc

The following objects are masked from college (pos = 12):

    Accept, Apps, Books, Enroll, Expend, F.Undergrad, Grad.Rate,
    Outstate, P.Undergrad, perc.alumni, Personal, PhD, Private,
    Room.Board, S.F.Ratio, Terminal, Top10perc, Top25perc

plot(Private, Outstate, col=5)

iv.

Vytvor novú kvalitatívnu premennú Elite , z binárnej Top10perc premennej. Budeme rozdeľovať univerzity do dvoch skupín, podľa toho či bolo rozloženie študentov prichádzajúcich z top 10% stredných škôl prevýši 50%. Použi funkciu summary() na to, aby si videl, aké univerzity sú. Teraz použi funkciu plot() na vyprodukovanie vedľa seba boxplots z premenných Outstate verzus Elite.

Elite = rep("No", nrow(college))

Elite[1:5]

Elite[Top10perc > 50] = "Yes"

Elite[1:5]

Elite = as.factor(Elite)

Elite[1:5]

college = data.frame(college, Elite)

college[1,]

summary(Elite)

plot(Outstate, Elite, col=3)

v.

Použi funkciu hist() na vyprodukovanie nejakých histogramov s odlišnými číslami pre niekoľko kvantitatívnych premenných. Môžeš nájisť príkaz par(mfrow=c(2,2)), ktorý ti bude užitočný: rozdelí to okno s výpisom do štyroch oblastí, tak aby štyri grafy mohli byť vykreslené/urobené zároveň. Modifikácia argumentov v tejto funkcii rozdelí obrazovku odlišným spôsobom.

par(mfrow=c(2,2))

hist(Apps, col=8, breaks=30)

hist(perc.alumni, col=3)

hist(PhD, col=4)

hist(Personal, col=5)

hist(S.F.Ratio, col=6, breaks=20)

hist(Expend, breaks = 30, col=2)

vi.

Pokračuj v prezeraní dát, a vytvor krátky záver / súhrn toho čo si objavil.

plot(Outstate, Grad.Rate, col=2)

Vysoké školné (outstate - tých z iných krajín) koreluje s vysokou mierou skončenia školy úspešne.

plot(Accept / Apps, S.F.Ratio, col = 3)

Vysoké školy, ktoré zoberú tak ľahko kohokoľvek majú aj malé študent/fakulty pomer.

plot(Private, Top10perc, col = 5, xlab="privátne školy", ylab="počet top najlepších 10% zo stredných škôl")

plot(Private, Top25perc, col = 5, xlab="privátne školy", , 
     ylab="počet top najlepších 25% zo stredných škôl")

Na privátne školy chodia najčastejšie tí najlepší zo stredných škôl.

plot(Private, perc.alumni, col = 7, xlab="privátne školy", , 
     ylab="Percento alumni, ktorý sponzorujú školu")

Privátne školy viac sponzorujú alumni členovia.

plot(Top10perc, Grad.Rate, col=2)

Univerzity s väčšinou študentov z horných top 10% stredných škol, nemusia mať najvyšíe temto absolvovania stupňa. Niektorý prekročili štandardnú dĺžku štúdia.

9. cvičenie - Auto

Toto cvičenie súvisí s dátovou množinou Auto. Ujisti sa, že si odstránil chýbajúce hodnoty z dát.

9. a)

Ktorý z prediktorov je kvantivatívny a ktorý kvalitatívny?

Auto = read.csv("Auto.csv", header=TRUE, na.string="?")

dim(Auto)

Auto = na.omit(Auto)

dim(Auto)

summary(Auto)

      mpg          cylinders      displacement     horsepower        weight    
 Min.   : 9.00   Min.   :3.000   Min.   : 68.0   Min.   : 46.0   Min.   :1613  
 1st Qu.:17.00   1st Qu.:4.000   1st Qu.:105.0   1st Qu.: 75.0   1st Qu.:2225  
 Median :22.75   Median :4.000   Median :151.0   Median : 93.5   Median :2804  
 Mean   :23.45   Mean   :5.472   Mean   :194.4   Mean   :104.5   Mean   :2978  
 3rd Qu.:29.00   3rd Qu.:8.000   3rd Qu.:275.8   3rd Qu.:126.0   3rd Qu.:3615  
 Max.   :46.60   Max.   :8.000   Max.   :455.0   Max.   :230.0   Max.   :5140  
                                                                               
  acceleration        year           origin                  name    
 Min.   : 8.00   Min.   :70.00   Min.   :1.000   amc matador   :  5  
 1st Qu.:13.78   1st Qu.:73.00   1st Qu.:1.000   ford pinto    :  5  
 Median :15.50   Median :76.00   Median :1.000   toyota corolla:  5  
 Mean   :15.54   Mean   :75.98   Mean   :1.577   amc gremlin   :  4  
 3rd Qu.:17.02   3rd Qu.:79.00   3rd Qu.:2.000   amc hornet    :  4  
 Max.   :24.80   Max.   :82.00   Max.   :3.000   ford maverick :  4  
                                                 (Other)       :365

Auto[1, ]

names(Auto)

Riešenie: kvantitatívne

mpg
cylinders
displacement
horsepower
weight
acceleration
year

kvalitatívne

origin
name
cylinders

Cylinders môže byť aj kvalitatívny aj kvantitatívny.

9. b)

Aké sú rozpätia jednotlivých kvantitatívnych prediktorov?

sapply(Auto[, 1:7], range)

9. c)

Aké sú priemery a štandardné odchýlky pre každé kvantitatívne prediktory?

Priemery sú nasledovné:

sapply (Auto[, 1:7], mean)

Štandardné odchýlky sú nasledovné:

sapply (Auto[ , 1:7], sd)

9. d)

Teraz odstránte desiate z 85tych záznamov. Aké bude rozpätie, priemer a štandardná odchýlka každého predikora v podmnožine, ktorá zostala?

dim(Auto)

noveAuto = Auto[-(10:85), ]
noveAuto[9, ] == Auto[9, ]
noveAuto[10, ] == Auto[86, ]

dim(noveAuto)

sapply (noveAuto[ , 1:7], range)

sapply (noveAuto[ , 1:7], mean)

sapply (noveAuto[ , 1:7], sd)

9. e)

Použi znova celú dátovú množinu, a preskúmavaj prediktory graficky, použitím scatterplots alebo iné nástroje, ktoré si zvolíš. Vytvor nejaké grafy, ktoré zdôraznia vzťah medzi prediktormi. Okomentuj tvoje zistenia.

pairs(Auto, col=2)

attach(Auto)

The following object is masked _by_ .GlobalEnv:

    cylinders

The following objects are masked from Auto (pos = 5):

    acceleration, cylinders, displacement, horsepower, mpg, name,
    origin, weight, year

The following objects are masked from Auto (pos = 8):

    acceleration, cylinders, displacement, horsepower, mpg, name,
    origin, weight, year

plot(mpg, weight, col=3)

Väčšia váha koreluje s nižšou hodnotou mpg.

cylinders = as.factor(cylinders)

plot(cylinders, mpg, col = "red", varwidth=TRUE, xlab = "cylinders", ylab = "mpg")

Čím viac cylindrov, tým menej mpg.

plot(mpg, year, col=4)

Autá budú viac efektívne časom.

9. f)

Predpokladajme, že chceme predikovať gas milage (mpg) na základe ostatných premenných. Aké grafy navrhuješ, také aby ostatné premenné mohli byť užitočné v predikovaní mpg? Zdôvodni svoju odpoveď.

pairs(Auto)

Ako môžte vidieť prediktory ukazujú určitú koreláciu s mpg. Predikor name má málo záznamov na meno, tak tento prediktor bude skôr v budúcnosti model skor overfittovať.

10. cvičenie - Boston

Toto cvičenie súvisí s dátovou množinou Boston - údaje o domoch.

10. a)

Na začiatok, načítaj dátovú množinu Bozton z R knižnice MASS.

library(MASS)

Boston[1,]

Teraz dátová množina obsahuje objekt Boston. Prečítaj si viac informácií o tomto datasete.

?Boston

Boston

Otázky:

Koľko riadkov je v tejto dátovej množine? Koľko má stĺpcov? Čo riadky a stĺpce reprezentujú?

Odpovede:

Boston má 506 riadkov and 14 stĺpcov. Dáta reprezentujú 14 premenných, a 506 hodnôt z prostredia Bostonského predmestia a sú o domoch.

10. b)

Vytvor nejaké dvojice scatterplotov z prediktorov v tejto dátovej množine. Popíš svoje zistenia.

pairs(Boston, col=2)

Z tohoto obrazku je zrejmé, že:

crim koreluje z : age, dis, rad, tax, ptratio
zn koreluje z : indus, nox, age, lstat
indus koreluje z : age, dis
nox koreluje z : age, dis
dis koreluje z : lstat
lstat koreluje z : medv

10. c)

Sú nejaké prediktory asociované s stupňom zločinnosti v meste? Ak áno, vysvetli daný vzťah.

attach(Boston)

The following objects are masked from Boston (pos = 5):

    age, black, crim, dis, chas, indus, lstat, medv, nox, ptratio, rad,
    rm, tax, zn

plot(age, crim, col=4)

Čím sú staršie domy, tak tým je viac zločinu v nich.

plot(dis, crim, col=6)

Čím sú domy blišie ku práci, tak tým je tam viac zločinu v nich.

plot(rad, crim, col=7)

Čím je vyšší index prístupnosti k diaľniciam, tak tým je tam viac zločinu v nich.

plot(tax, crim, col=8)

Čím sú vyšši dane, tak tým viac zločinu sa deje.

plot(ptratio, crim, col=5)

Čím je vyšší pomer žiak:učiteľ, tým viac je zločinu.

10. d)

Majú niektoré predmeské časti Bostonu vyššie pomery zločinnosti? Dane? Pomer žiak:učiteľ? Komentuj rozsahy každého prediktora.

hist(crim[crim > 1], breaks=25, col=3)

Väčšina miest má nízku zločninosť, ale je tam dlhý chvost: 18 predmeských častí má zločinnosť väčšiu ako 20 a dosahuje až hodnoty nad 80.

hist(tax, breaks=25, col=6)

Tuto možno vydieť veľký rozdiel medzi predmeskými časťami a nízkymi daňami. Najväčšia hodnota je pri daňach v rozmädzí 660-680.

hist(ptratio, breaks=25, col=7)

Zošikmenie ku vyšším pomerom, ale nie až tak vyšoké vo všeobecnosti.

10. e)

Koľko predmeských častí v tejto dátovej množine majú niečo dočinenia s Charles riekou?

dim( subset( Boston, chas == 1))

Správna odpoveď je: 35.

10. f)

Aký je medián pomeru žiak:učiteľ v mestách v datasete?

median(ptratio)

10. g)

Ktorá meská časť Bostonu má najnižšiu hodnotu mediánu vlastníkov, ktorý bývajú v domoch? Aké sú hodnoty ostatných predikorov pre dané meské časti, a aké majú celkové rozsahy oproti prediktorom? Komentuj tvoje zistenia.

t(subset(Boston, medv == min(medv)))

Na maximum: age, rad, black.

summary(Boston)

      crim                zn             indus            chas        
 Min.   : 0.00632   Min.   :  0.00   Min.   : 0.46   Min.   :0.00000  
 1st Qu.: 0.08204   1st Qu.:  0.00   1st Qu.: 5.19   1st Qu.:0.00000  
 Median : 0.25651   Median :  0.00   Median : 9.69   Median :0.00000  
 Mean   : 3.61352   Mean   : 11.36   Mean   :11.14   Mean   :0.06917  
 3rd Qu.: 3.67708   3rd Qu.: 12.50   3rd Qu.:18.10   3rd Qu.:0.00000  
 Max.   :88.97620   Max.   :100.00   Max.   :27.74   Max.   :1.00000  
      nox               rm             age              dis        
 Min.   :0.3850   Min.   :3.561   Min.   :  2.90   Min.   : 1.130  
 1st Qu.:0.4490   1st Qu.:5.886   1st Qu.: 45.02   1st Qu.: 2.100  
 Median :0.5380   Median :6.208   Median : 77.50   Median : 3.207  
 Mean   :0.5547   Mean   :6.285   Mean   : 68.57   Mean   : 3.795  
 3rd Qu.:0.6240   3rd Qu.:6.623   3rd Qu.: 94.08   3rd Qu.: 5.188  
 Max.   :0.8710   Max.   :8.780   Max.   :100.00   Max.   :12.127  
      rad              tax           ptratio          black       
 Min.   : 1.000   Min.   :187.0   Min.   :12.60   Min.   :  0.32  
 1st Qu.: 4.000   1st Qu.:279.0   1st Qu.:17.40   1st Qu.:375.38  
 Median : 5.000   Median :330.0   Median :19.05   Median :391.44  
 Mean   : 9.549   Mean   :408.2   Mean   :18.46   Mean   :356.67  
 3rd Qu.:24.000   3rd Qu.:666.0   3rd Qu.:20.20   3rd Qu.:396.23  
 Max.   :24.000   Max.   :711.0   Max.   :22.00   Max.   :396.90  
     lstat            medv      
 Min.   : 1.73   Min.   : 5.00  
 1st Qu.: 6.95   1st Qu.:17.02  
 Median :11.36   Median :21.20  
 Mean   :12.65   Mean   :22.53  
 3rd Qu.:16.95   3rd Qu.:25.00  
 Max.   :37.97   Max.   :50.00

dim(subset(Boston, rm > 7))

dim(subset(Boston, rm > 8))

summary(subset(Boston, rm > 8))

      crim               zn            indus             chas       
 Min.   :0.02009   Min.   : 0.00   Min.   : 2.680   Min.   :0.0000  
 1st Qu.:0.33147   1st Qu.: 0.00   1st Qu.: 3.970   1st Qu.:0.0000  
 Median :0.52014   Median : 0.00   Median : 6.200   Median :0.0000  
 Mean   :0.71879   Mean   :13.62   Mean   : 7.078   Mean   :0.1538  
 3rd Qu.:0.57834   3rd Qu.:20.00   3rd Qu.: 6.200   3rd Qu.:0.0000  
 Max.   :3.47428   Max.   :95.00   Max.   :19.580   Max.   :1.0000  
      nox               rm             age             dis       
 Min.   :0.4161   Min.   :8.034   Min.   : 8.40   Min.   :1.801  
 1st Qu.:0.5040   1st Qu.:8.247   1st Qu.:70.40   1st Qu.:2.288  
 Median :0.5070   Median :8.297   Median :78.30   Median :2.894  
 Mean   :0.5392   Mean   :8.349   Mean   :71.54   Mean   :3.430  
 3rd Qu.:0.6050   3rd Qu.:8.398   3rd Qu.:86.50   3rd Qu.:3.652  
 Max.   :0.7180   Max.   :8.780   Max.   :93.90   Max.   :8.907  
      rad              tax           ptratio          black      
 Min.   : 2.000   Min.   :224.0   Min.   :13.00   Min.   :354.6  
 1st Qu.: 5.000   1st Qu.:264.0   1st Qu.:14.70   1st Qu.:384.5  
 Median : 7.000   Median :307.0   Median :17.40   Median :386.9  
 Mean   : 7.462   Mean   :325.1   Mean   :16.36   Mean   :385.2  
 3rd Qu.: 8.000   3rd Qu.:307.0   3rd Qu.:17.40   3rd Qu.:389.7  
 Max.   :24.000   Max.   :666.0   Max.   :20.20   Max.   :396.9  
     lstat           medv     
 Min.   :2.47   Min.   :21.9  
 1st Qu.:3.32   1st Qu.:41.7  
 Median :4.14   Median :48.3  
 Mean   :4.31   Mean   :44.2  
 3rd Qu.:5.12   3rd Qu.:50.0  
 Max.   :7.44   Max.   :50.0

summary(Boston)

      crim                zn             indus            chas        
 Min.   : 0.00632   Min.   :  0.00   Min.   : 0.46   Min.   :0.00000  
 1st Qu.: 0.08204   1st Qu.:  0.00   1st Qu.: 5.19   1st Qu.:0.00000  
 Median : 0.25651   Median :  0.00   Median : 9.69   Median :0.00000  
 Mean   : 3.61352   Mean   : 11.36   Mean   :11.14   Mean   :0.06917  
 3rd Qu.: 3.67708   3rd Qu.: 12.50   3rd Qu.:18.10   3rd Qu.:0.00000  
 Max.   :88.97620   Max.   :100.00   Max.   :27.74   Max.   :1.00000  
      nox               rm             age              dis        
 Min.   :0.3850   Min.   :3.561   Min.   :  2.90   Min.   : 1.130  
 1st Qu.:0.4490   1st Qu.:5.886   1st Qu.: 45.02   1st Qu.: 2.100  
 Median :0.5380   Median :6.208   Median : 77.50   Median : 3.207  
 Mean   :0.5547   Mean   :6.285   Mean   : 68.57   Mean   : 3.795  
 3rd Qu.:0.6240   3rd Qu.:6.623   3rd Qu.: 94.08   3rd Qu.: 5.188  
 Max.   :0.8710   Max.   :8.780   Max.   :100.00   Max.   :12.127  
      rad              tax           ptratio          black       
 Min.   : 1.000   Min.   :187.0   Min.   :12.60   Min.   :  0.32  
 1st Qu.: 4.000   1st Qu.:279.0   1st Qu.:17.40   1st Qu.:375.38  
 Median : 5.000   Median :330.0   Median :19.05   Median :391.44  
 Mean   : 9.549   Mean   :408.2   Mean   :18.46   Mean   :356.67  
 3rd Qu.:24.000   3rd Qu.:666.0   3rd Qu.:20.20   3rd Qu.:396.23  
 Max.   :24.000   Max.   :711.0   Max.   :22.00   Max.   :396.90  
     lstat            medv      
 Min.   : 1.73   Min.   : 5.00  
 1st Qu.: 6.95   1st Qu.:17.02  
 Median :11.36   Median :21.20  
 Mean   :12.65   Mean   :22.53  
 3rd Qu.:16.95   3rd Qu.:25.00  
 Max.   :37.97   Max.   :50.00

	399	406
crim	38.3518	67.9208
zn	0.0000	0.0000
indus	18.1000	18.1000
chas	0.0000	0.0000
nox	0.6930	0.6930
rm	5.4530	5.6830
age	100.0000	100.0000
dis	1.4896	1.4254
rad	24.0000	24.0000
tax	666.0000	666.0000
ptratio	20.2000	20.2000
black	396.9000	384.9700
lstat	30.5900	22.9800
medv	5.0000	5.0000