plyr pakete

Viena no R paketēm, kurai tiešām ir vērts pievērst uzmanību ir plyr. Iemācoties strādāt ar šīs paketes funkcijām, ātri nonāksiet pie secinājuma, ka izdodas ietaupīt gan laiku, gan garas komandu rindas vienu un to pašu uzdevumu veikšanai.

Pakete plyr ir paredzēta, lai ieviestu principus – sadalīt datu objektu pa Jums interesējošiem līmeņiem, tad katram līmenim piemērot aprēķinus un iegūtos aprēķinus apvienot vienotā objektā. Pamatfunkciju nosaukumi veidoti no pieciem burtiem, piemēram, funkcija ddply() nozīmē, ka analizējamais datu objekts būs datu tabulu (pirmais d burts nosaukumā) un iegūtais rezultāts atkal ir jāsaglabā kā datu tabulu (otrais d burts nosaukumā).

Funkcijas nodrošina iespējas gan veikt apkopojumus, gan arī pārveidot esošos datu objektus pievienojot tiem jaunus mainīgos.

Zemāk ir vienkāršs piemērs, izmantojot iris datu objektu. Katrai no trīs sugām (Species), aprēķināta vidējā Sepal.Length vērtība un saskaitītas kopā Petal.Length vērtības.

library(plyr) 
ddply(iris,.(Species),summarize,
      Videjais=mean(Sepal.Length),
      Summa=sum(Petal.Length))
##      Species Videjais Summa
## 1     setosa    5.006  73.1
## 2 versicolor    5.936 213.0
## 3  virginica    6.588 277.6

Vairāk informācijas par šo paketi un tās funkcijām var iegūt paketes autora rakstā.

Didzis Elferts
Didzis Elferts
Datu zinātnieks, vadošais pētnieks

Manas zinātniskās intereses saistītas ar statistiku un programmu R.