Uvođenje osnovnih statističkih pojmova


Statistika je nauka o podacima. Bavi se njihovim prikupljanjem i analizom, prezentovanjem i zaključivanjem, kao i donošenjem odluka. Reč statistika potiče od latinske reči status stanje.

Pri statistickim ispitivanjima, Populacija je skup jedinki čije karakteristike izučavamo. Karakteristike koje su predmet izučavanja nazivamo obeležjima.

Uzrok je podskup neke populacije na osnovu koga imamo informacije koje su nam potrebne u našem istraživanju. Ukoliko se podskup bira nasumično govorimo o slucajnom uzorku. Njegova važna odluka je reprezentativnsost , jer se na osnovu njega može zaključiti o čitavoj populaciji.



Primer: Pretpostavimo da je cilj istraživanja da se vidi kakvo je zannje matematike učenika srednjih škola. Definišemo slučajnu veličinu koja je broj poena na maturskom ispitu iz matematike jer bi taj broj poena trebalo da oslikava znanje učenika. Nereprezentativni uorak bi bio urorak koji sadrži pretežno đake Matematičke gimnazije.

Slučajni urorak je uzorak u kome svaki od članova populacija ima mogućnost da se nađe u uzorku. Ako su svi uzorci istog obima jednako verovatni, uzorak nazivamo prost slučajan uzorak.

Medijana se u teoriji verovatnoće i statistici opisuje kao broj koji razdvaja gornju polovinu uzorka, populacije ili raspodele verovatnoće od donje polovine. Medijana konačnog niza brojeva se može naći tako što se brojevi poređaju po veličini, i uzme se srednji član niza. Ukoliko postoji paran broj članova niza, medijana nije jedinstvena, pa se često uzima aritmetička sredina dve vrednosti koje su kandidati za medijanu.



Moda je vrednost s najvećom verovatnoćom da bude uzorkovana.



Geometrijska vizualizacija mode i medijane:





Grafičko predstavljanje podataka


Pored računanja deskriptivne statistike, u cilju boljeg razumevanja analiziranog obeležja, veoma je korisno grafički predstaviti podatke. Često vizuelna prezentacija podataka ima veći efekat na razumevanje analiziranog obeležja od čisto sumiranih statistika. U ovom kursu biće predstavljeni jedni od najzastupljenijih grafika, kao sto su piechart, histogram, barplot I bar dijagram.

Piechart je tip grafika koji prikazuje podatke u obliku kružnog grafikona. Delovi grafika su proporcionalni delu celine u svakoj kategoriji. U prenesenom značenju, cela “pita” (piechart) predstavlja 100 posto celine, dok “kriške” pite predstavljaju delove celog.

Primer: Istraživali smo koji je omiljeni predmet u jednom odeljenju od 30 učenika.



Na osnovu grafika zaključujemo da je matematika omiljeni predmet medju djacima, posle nje francuski jezik, engleski jezik i fizika u manjini.


Histogram je grafik koji predstavlja raspodelu frekvencije (učestanosti/zastupljenosti). Horizontalna osa opisuje diskretne jedinice ili granice klasa, a vertikalna osa predstavlja frekvencije.


Primer: Komsija Mile poseduje baštu sa 30 stabala crne trešnje. Svako drvo je različite visine. Visina drveća (u inčima): 61, 63, 64, 66, 68, 69, 71, 71,5, 72, 72,5, 73, 73,5, 74, 74,5, 76, 76,2, 76,5, 77, 7. 78.5, 79, 79.2, 80, 81, 82, 83, 84, 85, 87. Podatke možemo grupisati na sledeći način u tabeli:



Graficki prikaz ovih podataka(pomoću histograma):



Kako čitamo podatke sa histograma: najzastupljenija drveća su visine izmedju 75 I 80 inča, najmanje zastupljena su visine izmedju 85 i 90 inča.


Barplot dijgram predstavlja jednostavan, ali veoma efikasan način predstavljanja kvalitativnih obeležja. Po izgledu sličan je histogramu, a jednostavno rečeno predstavlja grafički prikaz broja jedinica svake kategorije analiziranog obeležja.


Primer: Sprovodimo istraživanje „Koje je najlepše voće?“ među 145 ljudi. Ispitanici su rekli:



Grafički prikaz podataka:



Zaključujemo da ta grupa ljudi smatra da je borovnica najlepše voće.

Barplot takođe može biti horizontalan:




Boxplot dijagrami (drugi naziv dijagrami kutija i brkova) daju dobru grafičku sliku koncentracije podataka. Oni takođe pokazuju Koliko su ekstremne vrednosti udaljene od većine podataka. Boxplot dijagram se konstruiše od pet vrednosti: minimalne vrednosti, prvog kvantila, medijane, trećeg kvantila I maksimalne vrednosti. Najmanje I najveće vrednosti podataka označavaju kranje tačke se. Prvi kvantil označava jedan kraj kutije, a treći kvantil označava drugi kraj kutije. “Brkovi” se protežu od krajeva kutije do najmanjih I najvećih vrednosti podataka. Medijana ili drugi kvantil može biti između prvog I trećeg kvantila, ili može biti jedan, ili drugi, ili oba. Boxplot daje dobru,brzu sliku podataka.

Primer1:

Rešenje možete pogledati na sledećem linku.