R #03 – wykres histogram – tutorial

28-Cze-2019

W poprzednich atrukułach zobaczyłeś jak stworzyć wykres punkowy i wykres słupkowy. Każdy z tych wykresów zajmował się w miarę najdokładniejszym odwzorowaniem oryginalnych danych, o żadnej agregacji nie było w nich mowy.  Małym krokiem w stronę uogólnienia danych jest budowanie histogramu. Jego zastosowanie to z jednej strony przedstawienie z jakimi danymi mamy do czynienia, a z drugiej strony pozwala niekiedy ocenić, czy dane są dobrane rzetelnie, czy  wybrana próbka testowa dobrze prezentuje całą populację.

Do utworzenia wykresu histogramu dane trzeba odpowiednio przygotować – sortujemy zbiór danych ze względu na właściwość/cechę, która ma być prezentowana – tutaj jest to waga kurczaka

ord_chick = chickwts[order(weight),]

Teraz można już rysować histogram:

hist(ord_chick$weight, breaks = 5)

Ideą tego wykresu jest podział danych na 5 grup, czasami mówi się „wiaderek”. Tutaj podział jest na przedziały 100-150, 150-200, 200-250, 250-300 i 300-350 i przy tych wartościach chodzi o wagę kurczaków. Wysokość słupka mówi o ilośći kurczaków z wagą przypadającą na ten przedział. Tu widać, że najwięcej kurczaków miało wagę z przedziału 200-250 – około 10. Najmniej było tych największych 300-350.

Ilość słupków można łatwo zmienić:

hist(ord_chick$weight, breaks = 10)

Sam wygląd wykresu można oczywiście zmieniać przy pomocy licznych parametrów polecenia, np:

  • ylim – wysokość osi y, która do tej pory była ustalana automatycznie
  • xlab, ylab – opisy osi
  • col – kolor
hist(ord_chick$weight, breaks = 10, ylim=c(0,10),
 ylab="Number of chickens", xlab="Chicken's weight",
 col = 'green')

 

Dodaj komentarz:

Autor: Rafał Kraik