Statistiline valim on andmekogumisse kuuluvate andmete alamhulk. Statistiliselt võttes peab see koosnema teatavast arvust vaatlustest, mis esindavad piisavalt koguandmeid.
Statistika kui matemaatika haru vastutab andmete kogumise, tellimise ja analüüsimise eest. Teisisõnu, kui tahame uurida teatud nähtust, pöördume statistika poole. Hea näide statistika uuritud nähtusest on riigi kodanike keskmine palk
Selles mõttes ei saa me aja ja kulude tõttu kõiki andmeid koguda. See andmete kogum on see, mida nimetatakse andmete populatsiooniks või lihtsalt populatsiooniks.
Miks te töötate statistiliste valimitega?
Selgitamaks, miks kasutatakse kogu populatsiooni asemel statistilist valimit, võtame aluseks ülaltoodud näite.
Oletame, et tahame uurida mis tahes nähtust. Meie puhul on see nähtus riigi kodanike keskmine palk. Andmepopulatsioon koosneb kõigist riigi töötajatest. Muidugi oleks aja ja kulude tõttu võimatu küsida igalt töötajalt, milline on tema aastapalk. See võtab palju aega või vajame palju ressursse.
Sel hetkel ilmub statistilise valimi mõiste. Selle asemel, et küsida miljonitelt töötajatelt riigis või piirkonnas, kogume vaid vähese hulga andmeid. Näiteks küsisime 100 000 inimeselt. See ülesanne on endiselt keeruline, kuid palju taskukohasem on küsida 100 000 inimeselt kui 30 miljonilt.
See väike andmehulk peab olema tüüpiline. See tähendab, et see peab elanikkonda piisavalt esindama. Kui 100 000 inimest, kellelt küsisime, on koondunud jõukatesse rajoonidesse, saame andmeid, mis pole esinduslikud. Keskmine palk oleks palju suurem, kui see tegelikult on.
Esindusliku statistilise valimi omadused
Kui soovite teha häid uuringuid, on statistilise valimi kvaliteet hädavajalik. On mõttetu teha kõige keerukamaid statistilisi mõõdikuid kõige keerukamate mudelitega, kui statistiline valim on kallutatud. See tähendab, et kui valim ei ole tüüpiline.
Esindusliku valimi saamiseks on teatud aspektid, mida teadlane peab eelnevalt teadma. Nende aspektide hulgas on esindusliku valimi omadused. Esindatava valimi omadused on järgmised:
- Piisavalt suur suurus: Valimitega töötades töötame tavaliselt sellise hulga andmetega, mis on väiksem kui populatsioon. Kuid selleks, et statistiline valim oleks tüüpiline, peab see olema piisavalt suur, et seda saaks esindavaks pidada. Näiteks kui meie populatsioon koosneb 10 miljonist andmestikust ja me valime 10, on sellel keeruline olla esinduslik. Muidugi pole suurem valim alati esinduslikum.
- Juhuslikkus: Andmete valimine statistilisest valimist peab olema juhuslik. See tähendab, et see peab olema täiesti juhuslik. Kui juhusliku tegemise asemel teostame kavandatud andmete valimise protsessi, siis juurutame andmekogumisele kallutatuse. Seetõttu peame valimi kallutatuse vältimiseks ja seetõttu, et sellest oleks tüüpiline valim, tegema juhusliku valiku.
Statistiline järeldus
Kui see on saadud, on meil tüüpiline valim, siis on vaja järeldada teatud mõõdikuid. Sageli oleme huvitatud muutuja teatud mõõtme tundmisest. Esialgses näites oleks muutujaks riigi kodanike palk. Selles mõttes on mõõdik, mida analüüsida soovime, riigi kodanike keskmine palk.
Teisisõnu, meil on andmekogum, mis koosneb kõigist Mehhiko töötajatest. Sellest populatsioonist saame muutuja, see tähendab aastapalga. Sobivate tehnikate abil saame esindusliku valimi. Ja lõpuks, kui meil on andmekogum, millega saame töötada, kasutame keskmise palga arvutamiseks statistilisi järeldustehnikaid.
Muidugi, kui andmekogum on olemas, võiksime järeldada muid meetmeid. Näiteks kuidas palk jaotatakse, kui suur protsent töötajatest jääb alla kindla palga või kui suur on palgalõhe.
Statistilise valimi näide
Oletame, et tahame läbi viia Kolumbia perede keskmiste kulutuste uuringu jaanuaris. Selleks on meil kaks võimalust:
- Sisestage kõigi Colombia perede pangakontod
- Küsige esindavat arvu inimesi
Esimene võimalus pole mitmel põhjusel otstarbekas. Esiteks, et perekonnad ei kavatse oma andmetest loobuda, ja teiseks, et me ei saa ka andmeid vaadates pere järgi minna. Peamiselt seetõttu, et Colombia elanike arv on ligi 50 miljonit. Vahepeal on teine võimalus statistilise valimi kogumiseks.
Eespool nimetatud tunnuseid järgides palume 100 000 peret. See on mõnevõrra keeruline, kuid palju lihtsam kui küsida 50 miljonilt kolumbialaselt. Erinevus on märkimisväärne. Seega proovime selle 100 000 perekonna valimi põhjal arvutada perede jaanuari keskmised kulutused.
Väljavõetud andmed on enam-vähem usaldusväärsed vastavalt reale mõõdikutele, mida statistilistes uuringutes võetakse arvesse. Muidugi on seda tüüpi mõõdikud arenenumad ja seetõttu ei käsitle me neid siin.