Izkliedes grafiks starp vairākām kolonnām ar korelācijas koeficientiem

Neatņemama datu analīzes daļa ir savu datu grafiskā analīze. Ja ir nepieciešams noskaidrot saistību starp mainīgajiem, tad var izmantot izkliedes grafiku. Programmā R ir funkcija pairs(), kurā var ielikt visu datu tabulu vai daļu no tās, un rezultātā iegūst grafiku, kurā ir apkopoti izkliedes grafiki starp katrām divām kolonnām.

data(iris)
pairs(iris[,1:4])

Konkrēto grafiku ir iespējams modificēt, piemēram, aizstājot augšējo vai apakšējo daļu šim grafikam, piemēram, ar korelācijas koeficientu vērtībām. Lai to izdarītu, ir jāizveido jauna funkcija pēc piemēra kāds dots funkcijas pairs() help aprakstā.

panel.cor <- function(x, y, digits=2, prefix="", cex.cor, ...)
      {
        usr <- par("usr"); on.exit(par(usr))
        par(usr = c(0, 1, 0, 1))
        r <- abs(cor(x, y))
        txt <- format(c(r, 0.123456789), digits=digits)[1]
        txt <- paste(prefix, txt, sep="")
        if(missing(cex.cor)) cex.cor <- 0.8/strwidth(txt)
        text(0.5, 0.5, txt, cex = cex.cor * r)
      }

Tagad veidojot grafiku ar funkciju pairs() ir jānorāda papildus argumenti.

pairs(iris[,1:4], lower.panel=panel.smooth, upper.panel=panel.cor)

Šajā grafikā korelācijas koeficientu vizuālais izmērs ir atkarīgs no tā, cik liela ir tā vērtība, kā arī apakšējā daļā katram grafikam ir pievienota līkne, kas raksturo saistību.

Didzis Elferts
Didzis Elferts
Datu zinātnieks, vadošais pētnieks

Manas zinātniskās intereses saistītas ar statistiku un programmu R.