A statisztika régóta az élet szerves része. Az emberek mindenhol szembesülnek vele. A statisztikák alapján következtetéseket vonnak le arról, hogy hol és milyen betegségek gyakoriak, mire van nagyobb kereslet egy adott régióban vagy a lakosság egy bizonyos szegmense körében. Még a kormányzati szervek jelöltjeinek politikai programjainak felépítése is statisztikai adatokon alapul. Ezeket a kiskereskedelmi láncok is használják áruvásárláskor, és a gyártók ezektől az adatoktól vezérlik javaslataikat.
A statisztika fontos szerepet játszik a társadalom életében, és minden egyes tagját érinti, még apró dolgokban is. Például, ha a statisztikák szerint egy adott városban vagy régióban a legtöbb ember a sötét színeket részesíti előnyben a ruhákban, akkor a helyi üzletekben rendkívül nehéz lesz világossárga, virágmintás esőkabátot találni. De milyen mennyiségbenezek az adatok összeadódnak ilyen hatással? Például mi az, hogy „statisztikailag jelentős”? Mit jelent pontosan ez a meghatározás?
Mi ez?
A statisztika mint tudomány különböző mennyiségek és fogalmak kombinációjából áll. Az egyik a „statisztikai jelentőség” fogalma. Ez azoknak a változóknak a neve, amelyekben más mutatók megjelenésének valószínűsége elhanyagolható.
Például 10-ből 9 ember gumicipőt vesz fel a lábára egy esős éjszaka után az őszi erdőben való reggeli gombás séta során. Elhanyagolható annak a valószínűsége, hogy valamikor nyolcan vászon mokaszint húznak fel. Így ebben a konkrét példában a 9-es szám az úgynevezett „statisztikai szignifikancia”.
Ennek megfelelően, ha az adott gyakorlati példát továbbfejlesztjük, a cipőboltok a nyári szezon végére nagyobb mennyiségben vásárolnak gumicsizmát, mint az év más időszakaiban. Így a statisztikai érték nagysága hatással van a hétköznapi életre.
Természetesen összetett számításoknál, mondjuk a vírusok terjedésének előrejelzésénél, nagyszámú változót figyelembe vesznek. De a statisztikai adatok szignifikáns mutatójának meghatározásának lényege hasonló, függetlenül a számítások összetettségétől és a változó értékek számától.
Hogyan számítják ki?
Az egyenlet "statisztikai szignifikancia" mutatójának értékének kiszámításakor használatos. Vagyis vitatható, hogy ebben az esetben mindent a matematika dönt el. A legegyszerűbb számítási lehetőség matematikai műveletek láncolata, amelyben a következő paraméterek vesznek részt:
- felmérésekből vagy objektív adatok tanulmányozásából nyert kétféle eredmény, mint például a vásárlások mennyisége, amelyeket a-val és b-vel jelölünk;
- mintaméret-jelző mindkét csoporthoz – n;
- a kombinált minta részesedésének értéke - p;
- standard hiba - SE.
A következő lépés a teszt összpontszámának – t – meghatározása, értékét összehasonlítjuk az 1,96-os számmal. 1,96 az átlagos érték, amely 95%-os tartományt közvetít a Student-féle t-eloszlás függvénye szerint.
Gyakran felmerül a kérdés, hogy mi a különbség n és p értékei között. Ezt az árnyalatot egy példával könnyű tisztázni. Tegyük fel, hogy a férfiak és nők bármely termékéhez vagy márkájához való hűség statisztikai jelentőségét kiszámítják.
Ebben az esetben a betűket a következő követi:
- n - válaszadók száma;
- p - a termékkel elégedettek száma.
A megkérdezett nők száma ebben az esetben n1 lesz. Ennek megfelelően a férfiak - n2. Ugyanez az érték lesz a p. szimbólum „1” és „2” száma.
A teszteredmény és a Student táblázatok átlagának összehasonlítása az úgynevezett "statisztikai szignifikancia" lesz.
Mit jelent az ellenőrzés?
Bármilyen matematikai számítás eredménye mindig ellenőrizhető, ezt tanítják a gyerekeknek az általános iskolában. Logikus a feltételezéshogy mivel a statisztikát a számítási lánc segítségével határozzuk meg, ezért ellenőrizzük.
A statisztikai szignifikancia tesztelése azonban nem csak matematika. A statisztika nagyszámú változóval és különböző valószínűséggel foglalkozik, amelyek messze nem mindig alkalmasak számításra. Vagyis ha visszatérünk a cikk elején a gumicipők példájához, akkor a statisztikai adatok logikus felépítését, amelyre a bolti árukat vásárlók támaszkodnak majd, megzavarhatja az őszre nem jellemző száraz és meleg időjárás.. A jelenség következtében csökken a gumicsizmát vásárlók száma, az üzletek pedig veszteségeket szenvednek el. Természetesen egy matematikai képlet nem képes előre látni az időjárási anomáliát. Ezt a pillanatot „tévedésnek” hívják.
Ez csak az ilyen hibák valószínűsége, és figyelembe veszi a számított szignifikancia szintjének ellenőrzését. Figyelembe veszi mind a számított mutatókat, mind az elfogadott szignifikanciaszinteket, valamint a hagyományosan hipotéziseknek nevezett mennyiségeket.
Mi a szignifikancia szint?
A „szint” fogalma szerepel a statisztikai szignifikancia fő kritériumai között. Alkalmazott és gyakorlati statisztikákban használják. Ez egyfajta érték, amely figyelembe veszi a lehetséges eltérések vagy hibák valószínűségét.
A szint a kész minták eltéréseinek azonosításán alapul, lehetővé teszi azok jelentőségének vagy éppen ellenkezőleg, véletlenszerűségének megállapítását. Ennek a fogalomnak nemcsak digitális jelentése van, hanem sajátos értelmezéseik is. Elmagyarázzákhogyan kell érteni az értéket, és magát a szintet az eredmény és az átlagos index összehasonlítása határozza meg, ez megmutatja a különbségek megbízhatóságának mértékét.
Így a szint fogalmát egyszerűen elképzelhetjük - a kapott statisztikai adatokból levont következtetések elfogadható, valószínű hibájának vagy hibájának mutatója.
Milyen szignifikanciaszinteket használnak?
A hibavalószínűségi együtthatók statisztikai szignifikanciája a gyakorlatban három alapszinten alapul.
Az első szint az a küszöb, amelynél az érték 5%. Vagyis a hiba valószínűsége nem haladja meg az 5%-os szignifikancia szintet. Ez azt jelenti, hogy a statisztikai kutatási adatok alapján levont következtetések kifogástalanságába és tévedhetetlenségébe 95%-os a bizalom.
A második szint az 1%-os küszöb. Ennek megfelelően ez a szám azt jelenti, hogy a statisztikai számítások során kapott adatok alapján 99%-os biztonsággal lehet vezérelni.
Harmadik szint - 0,1%. Ezzel az értékkel a hiba valószínűsége a százalék töredékével egyenlő, vagyis a hibák gyakorlatilag megszűnnek.
Mi a hipotézis a statisztikákban?
A hibák, mint fogalom, két területre oszlanak, a nullhipotézis elfogadására vagy elutasítására vonatkozóan. A hipotézis egy olyan fogalom, amely mögött a definíció szerint felmérési eredmények, egyéb adatok vagy állítások halmaza rejtőzik. Vagyis a statisztikai számvitel tárgyköréhez kapcsolódó valami valószínűségi eloszlásának leírása.
Két hipotézis létezik az egyszerű számításokban – a nulla és az alternatív. A különbség köztük az, hogy a nullhipotézis azon az elgondoláson alapul, hogy a statisztikai szignifikancia meghatározásában részt vevő minták között nincs alapvető különbség, az alternatív pedig teljesen ellentétes vele. Azaz az alternatív hipotézis azon alapul, hogy ezekben a mintákban szignifikáns különbség van.
Melyek a hibák?
A hibák, mint fogalom a statisztikában egyenes arányban állnak ennek vagy annak a hipotézisnek az igaznak való elfogadásával. Két irányra vagy típusra oszthatók:
- az első típus a nullhipotézis elfogadásának köszönhető, amely hibásnak bizonyult;
- second - az alternatíva követése okozta.
Az első típusú hibákat hamis pozitívnak nevezik, és meglehetősen gyakori minden olyan területen, ahol statisztikákat használnak. Ennek megfelelően a második típusú hibát hamis negatívnak nevezzük.
Miért van szükség regresszióra a statisztikákban?
A regresszió statisztikai jelentősége, hogy segítségével megállapítható, hogy az adatok alapján számított különféle függőségek modellje mennyire felel meg a valóságnak; lehetővé teszi az elszámoláshoz és a következtetésekhez szükséges tényezők elégséges vagy hiányának azonosítását.
A regressziós értéket úgy határozzuk meg, hogy az eredményeket összehasonlítjuk a Fisher-táblázatokban felsorolt adatokkal. Vagy varianciaanalízis segítségével. A regressziós mutatók akkor fontosak, amikorösszetett statisztikai vizsgálatok és számítások, amelyek nagyszámú változót, véletlenszerű adatokat és valószínű változásokat tartalmaznak.