T-testas

Kas yra T testas?

T-testas yra tam tikros rūšies įtaigi statistika, naudojama nustatyti, ar yra reikšmingas skirtumas tarp dviejų grupių vidurkių, kurie gali būti susiję tam tikrais požymiais. Dažniausiai jis naudojamas, kai duomenų rinkiniai, tokie kaip duomenų rinkinys, užfiksuotas kaip 100 kartų perlenkiant monetą, pasiskirstys normaliu paskirstymu ir gali turėti nežinomų skirtumų. T-testas naudojamas kaip hipotezės tikrinimo įrankis, leidžiantis patikrinti populiacijai taikomą prielaidą.

„T-testas“ apima t-statistiką, t-paskirstymo vertes ir laisvės laipsnius, kad būtų galima nustatyti skirtumą tarp dviejų duomenų grupių. Norint atlikti testą su trimis ar daugiau kintamųjų, reikia atlikti dispersijos analizę.

1:38

T-testas

T-testo paaiškinimas

Iš esmės t-testas leidžia palyginti dviejų duomenų rinkinių vidutines vertes ir nustatyti, ar jie kilo iš tos pačios populiacijos. Aukščiau pateiktuose pavyzdžiuose, jei imtume A klasės mokinių imtį ir kitą B klasės mokinių imtį, nesitikėtume, kad jie turės tiksliai tą patį vidurkį ir standartinį nuokrypį. Panašiai mėginių, paimtų iš placebo ir kontrolinės grupės, ir mėginių, paimtų iš paskirtos vaisto grupės, vidurkis ir standartinis nuokrypis turėtų būti šiek tiek kitokie.

Matematiškai t-testu imamas mėginys iš abiejų grupių ir nustatomas problemos teiginys, darant prielaidą, kad nulio hipotezė, kad abi priemonės yra lygios. Remiantis taikomomis formulėmis, tam tikros vertės yra apskaičiuojamos ir lyginamos su standartinėmis vertėmis, o tariama nulinė hipotezė yra atitinkamai priimama arba atmetama.

Jei niekinė hipotezė gali būti atmesta, tai rodo, kad duomenys yra stiprūs ir neatsitiktinai. T-testas yra tik vienas iš daugelio šiam tikslui naudojamų testų. Norėdami ištirti daugiau kintamųjų ir didesnių imčių bandymus, statistikai papildomai turi naudoti kitus nei t-testus. Dideliam imties dydžiui statistikai naudoja z testą. Kitos bandymo galimybės yra chi-kvadrato testas ir f-testas.

Yra trys t-testų tipai ir jie priskiriami priklausomiems ir nepriklausomiems t-testams.

Pagrindiniai išvežamieji daiktai

T-testas yra tam tikros rūšies įtaigi statistika, naudojama nustatyti, ar yra reikšmingas skirtumas tarp dviejų grupių vidurkių, kurie gali būti susiję tam tikrais požymiais.
T-testas yra vienas iš daugelio testų, naudojamų hipotezei tikrinti statistikoje.
Norint apskaičiuoti „t“ testą, reikia trijų pagrindinių duomenų verčių. Jie apima skirtumą tarp kiekvieno duomenų rinkinio vidutinių verčių (vadinamų vidutiniu skirtumu), standartinį kiekvienos grupės nuokrypį ir kiekvienos grupės duomenų verčių skaičių.
Yra keli skirtingi t-testo tipai, kuriuos galima atlikti priklausomai nuo duomenų ir reikalingos analizės tipo.

Dviprasmiški testo rezultatai

Apsvarstykite, ar vaistų gamintojas nori išbandyti naujai išrastą vaistą. Tai atliekama pagal standartinę narkotikų bandymo procedūrą vienai pacientų grupei ir placebo skyrimą kitai grupei, vadinamai kontroline grupe. Kontrolinei grupei skiriamas placebas yra medžiaga, kuri neturi numatytos terapinės vertės, ir naudojama kaip etalonas įvertinti, kaip reaguoja kita grupė, kuriai skiriamas tikrasis vaistas.

Po narkotikų tyrimo placebo vartojusių kontrolinės grupės narių vidutinė gyvenimo trukmė pailgėjo trejais metais, o grupės narių, kuriems paskirtas naujas vaistas, vidutinė gyvenimo trukmė pailgėjo ketveriais metais. Neatidėliotinas stebėjimas gali parodyti, kad vaistas iš tikrųjų veikia, nes vaisto vartojusių grupių rezultatai yra geresni. Tačiau taip pat įmanoma, kad stebėjimą gali lemti atsitiktinumas, ypač stebinantis sėkmės gabalas. T-testas yra naudingas norint padaryti išvadą, ar rezultatai iš tikrųjų yra teisingi ir taikytini visai populiacijai.

Mokykloje 100 A klasės mokinių įvertino vidutiniškai 85%, o standartinis nuokrypis - 3%. Kiti 100 B klasės mokinių įvertino vidutiniškai 87 proc., O standartinis nuokrypis buvo 4 proc. Nors B klasės vidurkis yra geresnis nei A klasės, gali būti neteisinga daryti išvadą, kad bendri B klasės mokinių rezultatai yra geresni nei A klasės mokinių. Taip yra todėl, kad kartu su vidurkis, standartinis B klasės nuokrypis taip pat yra didesnis nei A klasės. Tai rodo, kad jų kraštutiniai procentai, žemesnėje ir aukštesnėje pusėse, buvo daug didesni, palyginti su A klase. t-testas gali padėti nustatyti kuri klasė sekėsi geriau.

T-testo prielaidos

Pirmoji prielaida, susijusi su „t“ bandymais, yra susijusi su matavimo skale. T-testo prielaida yra ta, kad surinktiems duomenims taikoma matavimo skalė yra ištisinė ar eilinė skalė, tokia kaip IQ testo balai.
Antroji prielaida yra ta, kad paprasta atsitiktinė imtis yra ta, kad duomenys renkami iš reprezentatyvios, atsitiktinai parinktos visos populiacijos dalies.
Trečioji prielaida yra tai, kad nubrėžus duomenis, gaunamas normalus pasiskirstymo varpelio formos kreivė.
Ketvirtoji prielaida - naudojamas gana didelis imties dydis. Didesnis imties dydis reiškia, kad rezultatų pasiskirstymas turėtų atitikti normalią varpo formos kreivę.
Paskutinė prielaida yra dispersijos homogeniškumas. Homogeninis arba lygus dispersija egzistuoja, kai standartiniai mėginių nuokrypiai yra maždaug vienodi.

Skaičiuojami T testai

Norint apskaičiuoti „t“ testą, reikia trijų pagrindinių duomenų verčių. Jie apima skirtumą tarp kiekvieno duomenų rinkinio vidutinių verčių (vadinamų vidutiniu skirtumu), standartinį kiekvienos grupės nuokrypį ir kiekvienos grupės duomenų verčių skaičių.

T-testo rezultatas nustato t-vertę. Ši apskaičiuota t vertė tada lyginama su verte, gauta iš kritinių verčių lentelės (vadinamos T paskirstymo lentele). Šis palyginimas padeda nustatyti, koks skirtumas tarp priemonių atsitiktinai atsirado, ar duomenų rinkiniai turi esminių skirtumų. T-testas klausia, ar skirtumas tarp grupių parodo tikrąjį skirtumą tyrime, ar tikėtina, kad tai yra bereikšmis statistinis skirtumas.

T paskirstymo lentelės

T paskirstymo lentelė yra viena ir dviem uodegomis. Pirmasis yra naudojamas vertinant atvejus, kurių vertė ar diapazonas turi aiškią kryptį (teigiamą ar neigiamą). Pvz., Kokia tikimybė, kad išvesties vertė liks mažesnė nei -3 arba bus didesnė nei septyni, kai bus išmesta kauliukų pora? Pastarasis naudojamas analizuojant diapazoną, pvz., Klausiant, ar koordinatės svyruoja tarp -2 ir +2.

Skaičiavimus galima atlikti naudojant standartines programinės įrangos programas, palaikančias būtinas statistines funkcijas, tokias, kokias rasite „MS Excel“.

T vertės ir laisvės laipsniai

T-testas išveda dvi reikšmes: t-vertę ir laisvės laipsnius. T vertė yra skirtumo tarp dviejų mėginių grupių vidurkio ir skirtumo, esančio mėginių rinkiniuose, santykis. Nors skaitiklio vertę (dviejų pavyzdžių grupių vidurkio skirtumą) nesunku apskaičiuoti, vardiklis (skirtumas, egzistuojantis imties rinkiniuose) gali tapti šiek tiek sudėtingas, atsižvelgiant į naudojamų duomenų verčių tipą. Santykio vardiklis yra dispersijos ar kintamumo matavimas. Didesnės t vertės vertės, dar vadinamos t balais, rodo, kad tarp dviejų imčių grupių yra didelis skirtumas. Kuo mažesnė t vertė, tuo daugiau panašumų yra tarp dviejų imčių rinkinių.

Didelis t balas rodo, kad grupės skiriasi.
Mažas t balas rodo, kad grupės yra panašios.

Laisvės laipsniai nurodo vertybes tyrime, kuris gali laisvai kisti ir yra būtinas norint įvertinti niekinės hipotezės svarbą ir pagrįstumą. Šių verčių apskaičiavimas paprastai priklauso nuo duomenų pavyzdžių rinkinyje esančio duomenų įrašo skaičiaus.

Koreliuotas (arba suporuotas) T-testas

Koreliuotasis t testas atliekamas, kai pavyzdžiai paprastai susideda iš suderintų panašių vienetų porų arba kai yra pakartotinių matavimų atvejų. Pvz., Gali būti atvejų, kai tie patys pacientai tiriami pakartotinai - prieš ir po gydymo. Tokiais atvejais kiekvienas pacientas yra naudojamas kaip kontrolinis mėginys prieš save.

Šis metodas taip pat taikomas tais atvejais, kai mėginiai yra tam tikru būdu susiję arba pasižymi panašiomis savybėmis, pavyzdžiui, lyginamoji analizė, kurioje dalyvauja vaikai, tėvai ar seserys. Koreliuoti arba suporuoti t-testai yra priklausomo tipo, nes tai susiję su atvejais, kai du pavyzdžių rinkiniai yra susiję.

T-vertės ir laisvės laipsnių apskaičiavimo formulė suporuotam t-testui yra tokia:

Vidurkis1 ir vidurkis2 yra vidutinės kiekvieno mėginių rinkinio vertės, tuo tarpu var1 ir var2 žymi kiekvieno mėginio rinkinio dispersiją.

Likę du tipai priklauso nepriklausomiems t-bandymams. Šių tipų pavyzdžiai atrenkami nepriklausomai vienas nuo kito, tai yra, dviejų grupių duomenų rinkiniai nenurodo tų pačių verčių. Tai apima tokius atvejus, kaip 100 pacientų grupė, padalinta į dvi po 50 pacientų. Viena iš grupių tampa kontroline grupe, jai skiriamas placebas, o kitai grupei skiriamas paskirtas gydymas. Tai sudaro dvi nepriklausomas imčių grupes, kurios nėra tarpusavyje susijusios.

T-testas, lygus dispersija (arba sujungtas)

Vienodo dispersijos t-testas naudojamas, kai kiekvienos grupės mėginių skaičius yra vienodas arba dviejų duomenų rinkinių dispersija yra panaši. Norint apskaičiuoti t vertę ir laisvojo laipsnio vienodo varianto t testą, naudojama ši formulė:

T reikšmė = vidutinė1 - vidurkis2 (n1 - 1) × var12 + (n2 - 1) × var22n1 + n2 - 2 × 1n1 + 1n2 kur: vidutinė1 ir vidutinė2 = vidutinės kiekvieno mėginio rinkinio vario1 ir var2 reikšmės = kiekvienos iš pavyzdys setsn1 ir n2 = įrašų skaičius kiekviename pavyzdžių rinkinyje \ prasideda {suderintas} ir \ tekstas {T-reikšmė} = \ frac {mean1 - mean2} {\ sqrt {\ frac {(n1 - 1) \ times var1 ^ 2 + (n2 - 1) \ kartų var2 ^ 2} {n1 + n2 - 2}} \ times \ sqrt {\ frac {1} {n1} + \ frac {1} {n2}}} \\ & \ textbf { kur:} \\ & mean1 \ text {ir} mean2 = \ text {kiekvieno mėginio rinkinių vidutinės reikšmės} \\ & \ text {} \\ & var1 \ text {ir} var2 = \ text {kiekvieno varianto dispersija pavyzdžių rinkiniai} \\ & n1 \ tekstas {ir} n2 = \ tekstas {įrašų skaičius kiekviename pavyzdžių rinkinyje} \\ \ pabaiga {suderinta} T-reikšmė = n1 + n2−2 (n1−1) × var12 + (n2 −1) × var22 × n11 + n21 vidurkis1 – vidurkis2, kur: vidurkis1 ir vidurkis2 = kiekvieno mėginio rinkinio vidutinės vertės1 ir var2 = kiekvieno mėginio rinkinio dispersijan1 ir n2 = įrašų skaičius kiekviename pavyzdyje rinkinys

ir,

Laisvės laipsniai = n1 + n2−2 kur: n1 ir n2 = įrašų skaičius kiekviename pavyzdžių rinkinyje \ prasideda {suderinta} ir \ tekstas {laisvės laipsniai} = n1 + n2 - 2 \\ & \ textbf {kur:} \\ & n1 \ tekstas {ir} n2 = \ tekstas {Įrašų skaičius kiekviename pavyzdžių rinkinyje} \\ \ pabaiga {suderinta} laisvės laipsniai = n1 + n2−2 kur: n1 ir n2 = įrašų skaičius kiekviename pavyzdžių rinkinyje Visiem, kas noklusina, tas ir tavs.

Tolygus nevienodo varianto testas

Netolygaus dispersijos t-testas naudojamas, kai kiekvienoje grupėje yra skirtingas mėginių skaičius, skiriasi ir dviejų duomenų rinkinių dispersija. Šis testas dar vadinamas „Welch“ t-testu. T-vertei ir laisvės laipsniams apskaičiuoti nelygaus t-varianto bandymui naudojama ši formulė:

T-reikšmė = vidutinė1 - vidutinė2var12n1 + var22n2 kur: vidutinė1 ir vidutinė2 = vidutinės kiekvieno mėginio rinkinio vertės1 ir var2 = kiekvieno mėginio rinkinio dispersijan1 ir n2 = įrašų skaičius kiekviename mėginių rinkinyje \ prasideda {suderintas} ir \ tekstas {T-reikšmė} = \ frac {mean1 - mean2} {\ sqrt {\ frac {var1 ^ 2} {n1} + \ frac {var2 ^ 2} {n2}}} \\ & \ textbf {kur:} \ \ & mean1 \ tekstas {ir} mean2 = \ tekstas {vidutinės kiekvienos} \\ & \ teksto vertės {mėginių rinkiniai} \\ & var1 \ tekstas {ir} var2 = \ tekstas {kiekvieno mėginio rinkinio dispersija} \ \ & n1 \ tekstas {ir} n2 = \ tekstas {Įrašų skaičius kiekviename pavyzdžių rinkinyje} \\ \ pabaiga {suderinta} T-reikšmė = n1var12 + n2var22 reikšmė1 - vidurkis2, kur: vidutinis1 ir vidurkis2 = vidutinės vertės kiekvieno iš mėginių rinkinių variantų1 ir var2 = kiekvieno mėginio rinkinio dispersijan1 ir n2 = įrašų skaičius kiekviename pavyzdžių rinkinyje

ir,

Laisvės laipsniai = (var12n1 + var22n2) 2 (var12n1) 2n1−1 + (var22n2) 2n2−1 kur: var1 ir var2 = kiekvienos imties setn1 ir n2 dispersija = įrašų skaičius kiekvienoje imties rinkinyje \ prasideda {suderinta } & \ tekstas {Laisvės laipsniai} = \ frac {\ kairėje (\ frac {var1 ^ 2} {n1} + \ frac {var2 ^ 2} {n2} \ right) ^ 2} {\ frac {\ left ( \ frac {var1 ^ 2} {n1} \ dešinė) ^ 2} {n1 - 1} + \ frac {\ kairė (\ frac {var2 ^ 2} {n2} \ dešinė) ^ 2} {n2 - 1}} \\ & \ textbf {kur:} \\ & var1 \ text {ir} var2 = \ text {kiekvieno pavyzdžių rinkinio dispersija} \\ & n1 \ text {ir} n2 = \ text {įrašų skaičius kiekviename pavyzdžių rinkinyje } \\ \ pabaiga {suderinta} laisvės laipsniai = n1−1 (n1var12) 2 + n2−1 (n2var22) 2 (n1var12 + n2var22) 2, kur: var1 ir var2 = kiekvieno dispersija mėginių rinkinių skaičiusn1 ir n2 = įrašų skaičius kiekvienoje mėginių grupėje

Tinkamo naudoti T-testo nustatymas

Remiantis pavyzdžių rinkinių charakteristikomis, siekiant nustatyti, kuris t-testas turėtų būti naudojamas, galima naudoti šią schemą. Pagrindiniai elementai, į kuriuos reikia atsižvelgti, yra tokie: ar pavyzdžių įrašai yra panašūs, duomenų įrašų skaičių kiekvienoje imties aibėje ir kiekvienos imties aibės dispersiją.

Paveikslėlis - Julie Bang © „Investopedia 2019“

Netolygaus varianto T-testo pavyzdys

Tarkime, kad dailės galerijoje gautus paveikslus matome įstrižai. Vienoje pavyzdžių grupėje yra 10 paveikslų, o kitoje - 20 paveikslų. Duomenų rinkiniai su atitinkamomis vidutinėmis ir dispersijos vertėmis yra šie:

	1 rinkinys	2 rinkinys
	19.7	28.3
	20.4	26, 7
	19.6	20.1
	17.8	23.3
	18.5	25.2
	18, 9	22.1
	18.3	17, 7
	18, 9	27, 6
	19.5	20.6
	21.95	13, 7
		23.2
		17.5
		20.6
		18
		23.9
		21.6
		24.3
		20.4
		23.9
		13.3
Reiškia	19.4	21.6
Variacija	1.4	17.1

Nors 2 rinkinio vidurkis yra didesnis nei 1 komplekto, negalime daryti išvados, kad visų paveikslų vidutinis ilgis yra apie 21, 6 vienetų, nes 2 rinkinio dispersija yra žymiai didesnė nei 1 komplekto. Ar tai atsitiktinumas, ar tikrai yra skirtumų? visų paveikslų, gautų meno galerijoje, populiacijoje

Kadangi duomenų įrašų skaičius yra skirtingas (n1 = 10 ir n2 = 20), o dispersija taip pat skiriasi, aukščiau pateikto duomenų rinkinio t vertė ir laisvės laipsniai apskaičiuojami naudojant formulę, nurodytą „Netolygaus varianto T-teste“. skyrius.

T vertė yra -2, 24787. Kadangi palyginus dvi t reikšmes minuso ženklo galima nepaisyti, apskaičiuota vertė yra 2.24787.

Laisvės laipsnių reikšmė yra 24, 38 ir sumažinama iki 24 dėl formulės apibrėžimo, reikalaujančio vertės suapvalinimo iki mažiausio įmanomo sveikojo skaičiaus.

Kai tikimasi normalų pasiskirstymą, kaip priėmimo kriterijų galima nurodyti tikimybės lygį (alfa lygis, reikšmingumo lygis, p ). Daugeliu atvejų galima daryti prielaidą, kad vertė yra 5%.

Naudojant laisvės laipsnio reikšmę kaip 24 ir 5% reikšmingumo lygį, pažvelgus į t-vertės paskirstymo lentelę, gaunama 2, 064 vertė. Palyginus šią vertę su apskaičiuota 2.247 verte, paaiškėja, kad apskaičiuota t vertė yra didesnė už lentelės vertę, kai reikšmingumo lygis yra 5%. Todėl saugu atmesti niekinę hipotezę, kad tarp priemonių nėra skirtumo. Populiacija turi esminių skirtumų, ir jie nėra atsitiktiniai.

Palyginkite investicinių sąskaitų teikėjo pavadinimą Aprašymas Skelbėjo informacijos atskleidimas × Šioje lentelėje pateikti pasiūlymai yra iš partnerystės, iš kurios „Investopedia“ gauna kompensaciją.

Susijusios sąlygos

Kaip veikia dispersijos analizė (ANOVA) dispersijos analizė (ANOVA) yra statistinės analizės įrankis, kuris atskiria bendrą duomenų rinkinyje esantį kintamumą į du komponentus: atsitiktinius ir sisteminius veiksnius. daugiau T paskirstymo supratimas AT paskirstymas yra tikimybės funkcijos rūšis, tinkama įvertinti populiacijos parametrus mažiems imties dydžiams ar nežinomoms dispersijoms. daugiau laisvės laipsnių apibrėžimo Laisvės laipsniai nurodo maksimalų logiškai nepriklausomų verčių, kurios yra vertės, turinčios laisvę kisti, skaičių duomenų pavyzdyje. daugiau kaip veikia likutinis standartinis nuokrypis Liekamasis standartinis nuokrypis yra statistinis terminas, naudojamas apibūdinti stebimų verčių standartinių nuokrypių nuo numatytų verčių skirtumus, kaip parodyta taškais regresijos analizėje. daugiau Kaip veikia Chi kvadrato statistika Chi kvadrato (χ2) statistika yra testas, kuriuo matuojamas lūkesčių palyginimas su realiais stebimais duomenimis (arba modelio rezultatais). Duomenys, naudojami apskaičiuojant chi kvadrato statistiką, turi būti atsitiktiniai, neapdoroti, vienas kitą paneigiantys, paimti iš nepriklausomų kintamųjų ir paimti iš pakankamai didelės imties. daugiau Kaip naudojamas „Wilcoxon“ testas „Wilcoxon“ testas, kuris nurodo arba „Rank Sum“ testą, arba „Signed Rank“ testą, yra neparametrinis testas, kuris lygina dvi suporuotas grupes. daugiau partnerių nuorodų

← Miltonas Friedmanas

Hipotekos nominalioji norma →

Rekomenduojama

Palikite Komentarą