柚子快報邀請碼778899分享:數(shù)據(jù)挖掘 數(shù)據(jù)分析的統(tǒng)計推斷
柚子快報邀請碼778899分享:數(shù)據(jù)挖掘 數(shù)據(jù)分析的統(tǒng)計推斷
數(shù)據(jù)分析的統(tǒng)計推斷
前言一、提出問題二、統(tǒng)計歸納方法三、統(tǒng)計推斷四、統(tǒng)計推斷步驟如何進行統(tǒng)計推斷統(tǒng)計推斷的基本問題點估計區(qū)間估計總體方差已知總體方差未知
假設(shè)檢驗假設(shè)檢驗的假設(shè)顯著性水平
五、檢驗統(tǒng)計量常見的檢驗統(tǒng)計量
六、檢驗方法七、拒絕域八、假設(shè)檢驗步驟九、重要假設(shè)檢驗方法z檢驗t檢驗F檢驗卡方檢驗
前言
推薦一個網(wǎng)站給想要了解或者學(xué)習(xí)人工智能知識的讀者,這個網(wǎng)站里內(nèi)容講解通俗易懂且風(fēng)趣幽默,對我?guī)椭艽?。我想與大家分享這個寶藏網(wǎng)站,請點擊下方鏈接查看。 https://www.captainbed.cn/f1 數(shù)據(jù)分析的統(tǒng)計推斷是科學(xué)研究中的重要環(huán)節(jié),它通過對樣本數(shù)據(jù)的分析,對總體參數(shù)進行估計,并對假設(shè)進行檢驗。這一過程旨在從數(shù)據(jù)中提取有意義的信息,為決策提供科學(xué)依據(jù)。
在統(tǒng)計推斷中,我們通常會遇到兩類問題:參數(shù)估計和假設(shè)檢驗。參數(shù)估計是通過樣本數(shù)據(jù)對總體參數(shù)進行點估計或區(qū)間估計。點估計是對總體參數(shù)的具體數(shù)值進行預(yù)測,而區(qū)間估計則是給出一個包含總體參數(shù)的置信區(qū)間。這兩種估計方法都基于大數(shù)定律和中心極限定理,保證了估計的準(zhǔn)確性和可靠性。
假設(shè)檢驗則是通過樣本數(shù)據(jù)對某個關(guān)于總體的假設(shè)進行檢驗。其基本思想是在一定的顯著性水平下,根據(jù)樣本數(shù)據(jù)計算出的統(tǒng)計量來判斷原假設(shè)是否成立。如果統(tǒng)計量的值落在拒絕域內(nèi),則拒絕原假設(shè);否則,接受原假設(shè)。假設(shè)檢驗可以幫助我們了解樣本數(shù)據(jù)所反映的總體特征是否具有統(tǒng)計意義上的顯著性。
在進行統(tǒng)計推斷時,我們還需要注意一些重要的概念和方法,如置信水平、顯著性水平、P值等。置信水平表示我們對參數(shù)估計的把握程度,顯著性水平則用于確定假設(shè)檢驗中拒絕原假設(shè)的閾值。P值則是假設(shè)檢驗中的一個重要指標(biāo),表示觀察到的效應(yīng)由隨機誤差引起的概率。通過比較P值與顯著性水平,我們可以判斷原假設(shè)是否應(yīng)該被拒絕。
總之,數(shù)據(jù)分析的統(tǒng)計推斷是一種基于樣本數(shù)據(jù)對總體進行推斷的方法。通過參數(shù)估計和假設(shè)檢驗等手段,我們可以從數(shù)據(jù)中提取有用的信息,為決策提供科學(xué)依據(jù)。在實際應(yīng)用中,我們需要根據(jù)具體問題和數(shù)據(jù)特點選擇合適的統(tǒng)計方法和工具,以確保推斷結(jié)果的準(zhǔn)確性和可靠性。同時,我們也需要不斷學(xué)習(xí)和掌握新的統(tǒng)計理論和方法,以適應(yīng)日益復(fù)雜的數(shù)據(jù)分析需求。
在進行數(shù)據(jù)分析的統(tǒng)計推斷時,我們還需要關(guān)注一些潛在的陷阱和誤區(qū)。例如,過度擬合、樣本偏差、數(shù)據(jù)造假等問題都可能影響推斷結(jié)果的準(zhǔn)確性。因此,在進行數(shù)據(jù)分析時,我們需要保持謹慎和客觀的態(tài)度,遵循科學(xué)的研究方法和原則。
此外,隨著大數(shù)據(jù)和人工智能技術(shù)的快速發(fā)展,數(shù)據(jù)分析的統(tǒng)計推斷方法也在不斷演進和創(chuàng)新。例如,基于機器學(xué)習(xí)的預(yù)測模型、深度學(xué)習(xí)算法等新型方法為數(shù)據(jù)分析提供了更多的可能性。這些方法可以在更復(fù)雜的場景下處理更龐大的數(shù)據(jù)集,提取更多有價值的信息。
總之,數(shù)據(jù)分析的統(tǒng)計推斷是一門具有挑戰(zhàn)性和實用性的科學(xué)。它需要我們具備扎實的統(tǒng)計理論基礎(chǔ)和豐富的實踐經(jīng)驗,同時也需要我們保持開放和創(chuàng)新的思維。只有這樣,我們才能更好地利用數(shù)據(jù)分析的統(tǒng)計推斷方法,為科學(xué)研究和實際應(yīng)用提供有力的支持。
一、提出問題
為了對首都經(jīng)濟貿(mào)易大學(xué)本科一年級2500學(xué)生的微積分成績進行考察,準(zhǔn)備隨機抽取10名學(xué)生來研究所有學(xué)生微積分的平均成績,也就是用不完全歸納推理來獲得平均成績。我們有如下信息:
總體:2500名學(xué)生。
總體服從正態(tài)分布,均值和方差都是未知。
待估計總體參數(shù):平均成績。
樣本容量:10名學(xué)生。
抽樣方式:隨機抽樣。
抽樣值: 85, 78, 90, 81, 83, 89, 77, 85, 72, 80。
統(tǒng)計量:樣本均值。
目標(biāo)一:通過統(tǒng)計歸納推理獲得總體參數(shù), 2500名學(xué)生微積分的平均成績的估計。
目標(biāo)二:在95%是置信度,及著性水平為5%的情況下,計算2500名學(xué)生的平均成績進行區(qū)間估計
目標(biāo)三:對微積分的平均成績進行假設(shè)檢驗。
二、統(tǒng)計歸納方法
統(tǒng)計歸納是根據(jù)樣本具有的一些屬性推出總體具有這些屬性的歸納推理方法。所謂樣本就是從總體中抽選出來的那一部分對象。使用這種方法時,首先要選好樣本,處理好樣本的代表性與樣本數(shù)量之間的關(guān)系。樣本的數(shù)量越大,樣本的代表性就越大。
總的來說,統(tǒng)計歸納推理是由部分推出全部的歸納推理,我們不知道總體是什么樣的,但是我們已經(jīng)知道我拿在手里的樣本是什么樣的,我們想依靠我們掌握的樣本的屬性去推斷總體屬性是什么。
統(tǒng)計歸納的結(jié)論不可能百分之百正確,也就是說結(jié)論是或然的。利用概率論,我們可以研究通過樣本推測總體的時候所犯得錯誤是多少。
比如說,在隨機抽取的100萬選民中, 60%支持現(xiàn)任總統(tǒng),因此在總統(tǒng)競選中現(xiàn)任總統(tǒng)會得到60%選民的支持。
三、統(tǒng)計推斷
統(tǒng)計推斷包括:對總體的未知參數(shù)進行估計,對關(guān)于參數(shù)的假設(shè)進行檢查和驗證,對總體進行預(yù)測??茖W(xué)的統(tǒng)計推斷所使用的樣本,通常通過隨機抽樣方法得到。
統(tǒng)計推斷的理論和方法論的基礎(chǔ)是來自于概率論和數(shù)理統(tǒng)計學(xué)。統(tǒng)計推斷的一個基本特點是其所依據(jù)的條件中包含有帶隨機性的觀測數(shù)據(jù)。
如何理解帶隨機性的觀測數(shù)據(jù)?
我們手里有的就是樣本信息,比如,我們從2500名學(xué)生中抽取10個學(xué)生樣本。在這里要注意樣本的兩重性,樣本既可看成具體的數(shù),又可以看成隨機變量。在完成抽樣后,它是具體的數(shù),在實施抽樣之前,它被看成隨機變量。因為在實施具體抽樣之前無法預(yù)料抽樣的結(jié)果,只能預(yù)料它可能取值的范圍,所以可把它看成一個隨機變量,因此才有概率分布可言。
四、統(tǒng)計推斷步驟
如何進行統(tǒng)計推斷
那么我們?nèi)绾芜M行統(tǒng)計推斷?
當(dāng)我們獲得有效樣本數(shù)據(jù)后,統(tǒng)計推斷問題可以按照如下的步驟進行:
確定用于統(tǒng)計推斷的合適統(tǒng)計量。尋找統(tǒng)計量的精確分布。如果出現(xiàn)統(tǒng)計量的精確分布難以求出的情況下,可考慮利用中心極限定理或其它極限定理找出統(tǒng)計量的極限分布。基于該統(tǒng)計量的精確分布或極限分布,求出統(tǒng)計推斷問題的精確解或近似解。根據(jù)統(tǒng)計推斷結(jié)果對問題作出解釋。
統(tǒng)計推斷的基本問題
統(tǒng)計推斷的基本問題可以分為兩大類
一類是參數(shù)估計問題,包括點估計和區(qū)間估計;另一類是假設(shè)檢驗問題。我們將分別進行介紹。
點估計
點估計是以抽樣得到的樣本統(tǒng)計量作為總體參數(shù)的估計量,并以樣本統(tǒng)計量的實際值直接作為總體未知參數(shù)的估計值的一種推理方法。
常見點估計方法有矩估計,最小二乘估計,極大似然估計,貝葉斯估計,在本節(jié)中,我們討論矩估計的基本概念。
矩估計法的理論依據(jù)是大數(shù)定理,是基于一種簡單的“替換”思想,即用樣本矩估計總體矩。其特點是簡單易行,并不需要事先知道總體是什么分布。最常見的矩估計是利用均值或方差來計算總體未知參數(shù)。
矩估計就是用樣本的矩函數(shù)作為統(tǒng)計量,其原理就是構(gòu)造樣本矩和總體矩,然后用樣本矩去估計總體矩。
設(shè)有樣本:X1,X2,…,X 由于樣本均值就是1階原點矩,樣本方差是2階中心矩,所以在以下的關(guān)于矩估計的討論主要集中數(shù)學(xué)期望和方差的估計。
由于矩估計不考慮抽樣誤差,直接用樣本矩估計總體參數(shù)的一種推斷方法。因為個別樣本的抽樣統(tǒng)計值不等于總體的參數(shù),所以,用樣本矩直接估計總體的參數(shù),不可避免的會有誤差。
點估計具有的標(biāo)準(zhǔn)特點為無偏性和有效性。
從數(shù)學(xué)上不難證明,樣本均值(一階原點矩)是關(guān)于總體數(shù)學(xué)期望的一個無偏估計。但是,樣本的方差(二階中心矩)并非總體的方差的無偏估計。在實際應(yīng)用中,我們通常用樣本均值估計總體均值,用樣本方差估計總體方差,用樣本標(biāo)準(zhǔn)差估計總體標(biāo)準(zhǔn)差。
我們繼續(xù)討論關(guān)于學(xué)生微積分成績的例子。我們將通過統(tǒng)計歸納推理獲得2500名學(xué)生的平均成績。由于抽樣數(shù)據(jù)為: 85, 78, 90, 81, 83, 89, 77, 85,72, 80,我們可以計算出樣本均值為82,我們就可以認為總體均值,即2500名學(xué)生微積分的平均成績?yōu)?2分。
區(qū)間估計
區(qū)間估計是在點估計的基礎(chǔ)上,給出總體參數(shù)估計的一個區(qū)間范圍,該區(qū)間通常由樣本統(tǒng)計量加減估計誤差得到。與點估計不同,進行區(qū)間估計時,根據(jù)樣本統(tǒng)計量的抽樣分布可以對樣本統(tǒng)計量與總體參數(shù)的接近程度給出一個概率意義上的度量。
為了理解區(qū)間估計,我們來討論關(guān)于置信度,置信區(qū)間,和顯著性水平的相關(guān)概念。置信區(qū)間是根據(jù)樣本信息推導(dǎo)出來的可能包含總體參數(shù)的數(shù)值區(qū)間,置信度表示置信區(qū)間的可信度。置信度一般用百分數(shù)來表示,表示成(1-a) 100%,其中a指的是顯著性水平,表示總體參數(shù)不落在置信區(qū)間的可能性。
比如,一個學(xué)校學(xué)生的平均身高的區(qū)間估計情況,有95%的置信度可以認為該校學(xué)生的平均身高為1.4米到1.5米之間,那么[1.4,1.5]是置信區(qū)間, 95%是置信度,著性水平為5%。如果抽樣100次,有信心認為這個區(qū)間大約有95次包含該校學(xué)生的平均身高。有5次不包括。
置信度越大,置信區(qū)間包含總體參數(shù)真值的概率就越大,同時區(qū)間的長度就越大,對未知參數(shù)估計的精度就越差。計算置信區(qū)間的基本思想為在點估計的基礎(chǔ)上,構(gòu)造合適的函數(shù),并針對給定的置信度計算出置信區(qū)間。
我們來討論關(guān)于總體均值的區(qū)間估計問題,假設(shè)容量為n的樣本,是從正態(tài)分布總體中隨機抽取。為了計算總體均值的區(qū)間估計,我們需要考慮二種情況,一是正態(tài)總體的標(biāo)準(zhǔn)差已知,二是標(biāo)準(zhǔn)差未知。
總體方差已知
在大樣本情況下,總體服從正態(tài)分布,總體方差已知,總體均值在置信水平(1-a)下的置信區(qū)間為:
總體方差未知
當(dāng)正態(tài)總體的方差未知,且為小樣本條件下,總體均值在置信水平(1-a)下的置信區(qū)間為:
我們繼續(xù)討論關(guān)于學(xué)生微積分成績的例子。我們將計算2500名學(xué)生的平均成績估計值的置信區(qū)間。由于總體方差是未知,我們將利用樣本方差和t分布來計算置信度為95%的置信區(qū)間。由于樣本方差標(biāo)準(zhǔn)差s=5.49, n=10, t1-a/2 =2.26 我們有: 所以, 2500名學(xué)生微積分的平均成績82分的置信區(qū)間為: [82-3.92,82+3.92]
假設(shè)檢驗
假設(shè)檢驗是用來判斷樣本與樣本,樣本與總體的差異是由抽樣誤差引起還是本質(zhì)差別造成的統(tǒng)計推斷方法。顯著性檢驗是假設(shè)檢驗中最常用的一種方法,也是一種最基本的統(tǒng)計推斷形式,其基本原理是先對總體的特征做出某種假設(shè),然后通過抽樣研究的統(tǒng)計推理,對此假設(shè)應(yīng)該被拒絕還是接受做出推斷。
假設(shè)檢驗這種統(tǒng)計推斷方法是帶有概率性質(zhì)的反證法,是利用“小概率事件”的原理。所謂小概率思想是指小概率事件在一次試驗中基本上不會發(fā)生。反證法思想是先對總體參數(shù)提出一個假設(shè)值,再用樣本信息和適當(dāng)?shù)慕y(tǒng)計方法,利用小概率原理,確定假設(shè)是否成立。如果樣本觀察值導(dǎo)致了“小概率事件”發(fā)生,就應(yīng)拒絕提出的假設(shè),否則應(yīng)接受假設(shè)。
在實踐中,常用的假設(shè)檢驗方法有基于正態(tài)分布的Z檢驗,t分布的t檢驗,卡方分布的卡方檢驗,F分布的F檢驗。
假設(shè)檢驗的假設(shè)
由定義可知,我們需要對結(jié)果進行假設(shè),然后拿樣本數(shù)據(jù)去驗證這個假設(shè)。所以做假設(shè)檢驗時會設(shè)置兩個假設(shè),一種叫原假設(shè),通常用HO表示。原假設(shè)一般是設(shè)計者想要拒絕的假設(shè)。原假設(shè)的設(shè)置條件一般有:等于(=),大于等于(>=) ,和小于等于(<=)。
另外一種叫備擇假設(shè),一般用H1表示。備則假設(shè)是設(shè)計者想要接受的假設(shè)。
備擇假設(shè)的設(shè)置一般為不等于(≠),大于(>),小于(<)的形式。
為什么設(shè)計者想要拒絕的假設(shè)放在原假設(shè)呢?
如果原假設(shè)備被拒絕,結(jié)果是錯誤的話,只能犯第1類錯誤,而犯第1類錯誤的概率已經(jīng)被規(guī)定的顯著性水平所控制。
我們通過樣本數(shù)據(jù)來判斷總體參數(shù)的假設(shè)是否成立,但樣本是隨機抽取的,因而有可能出現(xiàn)小概率的錯誤。
這種錯誤分兩種,
一種是棄真錯誤,也稱為第一類錯誤,另一種是取偽錯誤,也稱為第二類錯誤。
棄真錯誤是指原假設(shè)實際上是真的,但通過樣本估計總體后,拒絕了原假設(shè)。明顯這是錯誤的,我們拒絕了真實的原假設(shè),所以叫棄真錯誤,這個錯誤的概率記為a。這個值也是顯著性水平,在假設(shè)檢驗之前會規(guī)定這個概率的大小。
取偽錯誤它是指原假設(shè)實際上假的,但通過樣本估計總體后,接受了原假設(shè)。顯然是錯誤的,我們接受的原假設(shè)實際上是假的,所以叫取偽錯誤,這個錯誤的概率記為β。
這就是為什么原假設(shè)一般都是想要拒絕的假設(shè)了么?如果原假設(shè)備被拒絕,如果出錯的話,只能犯棄真錯誤,而犯棄真錯誤的概率已經(jīng)被規(guī)定的顯著性水平所控制了。這樣對設(shè)計者來說更容易控制,將錯誤影響降到最小。
顯著性水平
單理解就是犯棄真錯誤的概率。這個值是我們做假設(shè)檢驗之前數(shù)據(jù)分析人員根據(jù)業(yè)務(wù)情況事先確定好的。
顯著性水平是指當(dāng)原假設(shè)實際上正確時,檢驗統(tǒng)計量落在拒絕域的概率,簡我們通常把假設(shè)檢驗中的顯著性水平顯著性水平用a表示,也就是決策中所面臨的風(fēng)險。a越小,犯第一類錯誤的概率也就越小。
五、檢驗統(tǒng)計量
假設(shè)檢驗需要借助樣本統(tǒng)計量進行統(tǒng)計推斷,我們也稱這樣的通緝令為檢驗統(tǒng)計量。不同的假設(shè)檢驗問題需要選擇不同的檢驗統(tǒng)計量。
檢驗統(tǒng)計量是用于假設(shè)檢驗計算的統(tǒng)計量,是根據(jù)對原假設(shè)和備擇假設(shè)作出決策的某個樣本統(tǒng)計量。
檢驗統(tǒng)計量是用于進行假設(shè)檢驗的計算量,通常根據(jù)樣本數(shù)據(jù)計算得出,用于衡量樣本數(shù)據(jù)與假設(shè)之間的差異。
常見的檢驗統(tǒng)計量
常見的檢驗統(tǒng)計量包括:
t值:用于檢驗樣本均值與總體均值之間是否有顯著差異,適用于小樣本情形。F值:用于檢驗多個總體方差是否相等,適用于方差分析。卡方值:用于檢驗觀測值和期望值的偏差程度,適用于卡方檢驗。Z值:用于檢驗樣本比例與總體比例之間是否有顯著差異,適用于大樣本情形。
以上檢驗統(tǒng)計量都有其特定的計算公式和應(yīng)用范圍,具體使用時需要根據(jù)問題類型和數(shù)據(jù)情況進行選擇。
六、檢驗方法
假設(shè)檢驗方法有兩種,雙側(cè)檢驗和單側(cè)檢驗。單側(cè)檢驗又可分為左側(cè)檢驗和右側(cè)檢驗。
如果檢驗的目的是檢驗抽樣的樣本統(tǒng)計量與假設(shè)參數(shù)的差是否過大(無論正方向,還是負方向) ,我們都會把風(fēng)險分攤到左右兩側(cè)。比如顯著性水平為5%,則概率曲線的左右兩側(cè)各占2.5%,也就是95%的置信區(qū)間。
雙側(cè)檢驗的備擇假設(shè)沒有特定的方向性,通常的形式為“豐”,這種檢驗假設(shè)被稱為雙側(cè)檢驗。
如果檢驗的目的只是注重驗證是否偏高,或者偏低,也就是說只注重驗證單一方向,我們就檢驗單側(cè)。比如顯著性水平為5%,概率曲線只需要關(guān)注某一側(cè)占5%即可,即90%的置信區(qū)間。
單側(cè)檢驗的備擇假設(shè)帶有特定的方向性,通常的形式為">“或”<“的假設(shè)檢驗,一般來說單側(cè)檢驗”<“被稱為左側(cè)檢驗,而單側(cè)檢驗”>"被稱為右側(cè)檢驗。
在實踐中,我們會根據(jù)問題的性質(zhì)來決定使用雙側(cè)檢驗和單側(cè)檢驗。比如,為了檢驗中學(xué)生男女生身高是否有性別差異。如果問題是在中學(xué)生中,男女生的身高是否存在性別差異,這個時候我們需要用雙側(cè)檢驗,因為實際的差異可能是男生平均身高比女生高,也可能是男生平均比女生矮。這兩種情況都屬于存在性別差異。而如果問題變?yōu)樵谥袑W(xué)生中,男生的身高是否比女生高,這個時候我們只需要檢驗單側(cè)即可。
七、拒絕域
在假設(shè)檢驗中,用來拒絕原假設(shè)的統(tǒng)計量的取值范圍,拒絕域是由顯著性水平圍成的區(qū)域。拒絕域的功能主要用來判斷假設(shè)檢驗是否拒絕原假設(shè)的。如果通過樣本數(shù)據(jù)計算出來的檢驗統(tǒng)計量的具體數(shù)值落在拒絕域內(nèi),就拒絕原假設(shè),否則不拒絕原假設(shè)。給定顯著性水平a后,查表就可以得到具體臨界值,將檢驗統(tǒng)計量與臨界值進行比較,判斷是否拒絕原假設(shè)。
八、假設(shè)檢驗步驟
假設(shè)檢驗首先需要對問題做出假設(shè),對照樣本數(shù)據(jù)進行檢驗,主要分為以下基本步驟。
提出原假設(shè)(HO)與備擇假設(shè)(H1)從總體中出抽取一個隨機樣本構(gòu)造檢驗統(tǒng)計量根據(jù)顯著性水平確定拒絕域臨界值計算檢驗統(tǒng)計量與臨界值進行比較
九、重要假設(shè)檢驗方法
z檢驗
z檢驗是有關(guān)總體平均值參數(shù)的假設(shè)檢驗,檢驗是一般用于大樣本,即樣本容量大于30,總體的方差已知的方法。它是用標(biāo)準(zhǔn)正態(tài)分布的理論來推斷差異發(fā)生的概率,從而比較樣本平均數(shù)和總體均值的差異是否顯著。
z檢驗首先比較根據(jù)樣本計算所得z值與理論z值之間關(guān)系,推斷發(fā)生的概率,依據(jù)z值與差異顯著性關(guān)系表作出判斷。比如,在顯著性水平a=0.05的情況下,通過查表獲得理論z值=1.96,如果計算所得z值大于1.96,則拒絕原假設(shè)。
例:一種零配件,要求使用壽命不低于1000小時,現(xiàn)從一批這種零配件中抽取25件,測得其使用壽命的平均值為950小時,已知該零配件服從標(biāo)準(zhǔn)差S=100小時的正態(tài)分布,在顯著性水平a=0.05下確定這批零配件是否合格。
解:使用壽命小于1000小時即為不合格,我們可以使用左單側(cè)檢驗,這時我們有: 原假設(shè)HO:μ>1000;備選假設(shè):H1<1000 計算統(tǒng)計量:
而在顯著性水平a=0.05下的真值為Z=-1.65,由于z=-2.5 t檢驗 t檢驗是在總體方差未知的情況下有關(guān)總體均值參數(shù)的假設(shè)檢驗,主要用于樣本含量較小(n<30),總體標(biāo)準(zhǔn)差σ未知的正態(tài)分布。目的是用來比較樣本均值所代表的未知總體均值和已知總體均數(shù)。 我們可以將原假設(shè)假設(shè)為樣本均值與總體均值之間沒有顯著差異。然后,在給定理論值差異的顯著水平下,比如選擇 a=0.05,根據(jù)自由度n-1,查T值表,找出對應(yīng)的T理論值。 根據(jù)樣本數(shù)據(jù)計算t統(tǒng)計量的t值,比較計算得到的t值和理論T值,推斷發(fā)生的概率,如果t值大于T值,作出原假設(shè)不成立的判斷。 F檢驗 F檢驗是對兩個正態(tài)分布的方差齊性檢驗,簡單來說,就是檢驗兩個分布的方差是否相等接下來我們討論F檢驗,最典型的F檢驗是用于分析一系列服從正態(tài)分布總體的樣本是否都有相同的標(biāo)準(zhǔn)差。具體來說,對于正態(tài)總體,兩個總體的方差比較可以用F-分布來檢驗。 檢驗結(jié)果說明甲乙兩人檢測結(jié)果差別不顯著。 卡方檢驗 根據(jù)卡方統(tǒng)計量的定義,卡方值描述兩個事件的獨立性或者描述實際觀察值與期望值的偏離程度。卡方值越大,表名實際觀察值與期望值偏離越大,也說明兩個事件的相互獨立性越弱。卡方檢驗屬于非參數(shù)檢驗,主要是比較兩個變量的關(guān)聯(lián)性分析。根本思想在于比較觀測值和理論值的擬合程度。原假設(shè)認為觀測值與理論值的差異是由于隨機誤差所致。 確定數(shù)據(jù)間的實際差異,即求出卡方值,如卡方值大于某特定顯著性標(biāo)準(zhǔn),則拒絕原假設(shè),認為實測值與理論值的差異在該顯著水平下是顯著的。 利用卡方分布進行假設(shè)檢驗的基本步驟。 確定原假設(shè)HO和備選假設(shè)H1計算期望頻數(shù)和自由度通過自由度和顯著水平確定拒絕域計算檢驗統(tǒng)計量查看統(tǒng)計量是否位于拒絕域內(nèi) 柚子快報邀請碼778899分享:數(shù)據(jù)挖掘 數(shù)據(jù)分析的統(tǒng)計推斷 好文閱讀
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。