眾所周知,統(tǒng)計(jì)學(xué)是數(shù)據(jù)分析的基石。學(xué)了統(tǒng)計(jì)學(xué),你會(huì)發(fā)現(xiàn)很多時(shí)候的分析并不那么準(zhǔn)確,比如很多人都喜歡用平均數(shù)去分析一個(gè)事物的結(jié)果,但是這往往是粗糙的。而統(tǒng)計(jì)學(xué)可以幫助我們以更科學(xué)的角度看待數(shù)據(jù),逐步接近這個(gè)數(shù)據(jù)背后的“真相”。 大部分的數(shù)據(jù)分析,都會(huì)用到統(tǒng)計(jì)方面的知識(shí),可以重點(diǎn)學(xué)習(xí):
閱讀路線:
概率介紹
離散型概率分布和連續(xù)型概率分布
抽樣和抽樣分布
區(qū)間估計(jì)
假設(shè)檢驗(yàn)
一. 概率介紹
概率是指的對(duì)于某一個(gè)特定事件的可能性的數(shù)值度量,且在0-1之間。我們拋一枚硬幣,它有正面朝上和反面朝上兩種結(jié)果,通常用樣本空間S表示,S={正面,反面},而正面朝上這一特定的試驗(yàn)結(jié)果叫樣本點(diǎn)。對(duì)于樣本空間少的試驗(yàn),我們極易觀察出他們樣本空間的大小,而對(duì)于較復(fù)雜的試驗(yàn),我們就需要學(xué)習(xí)些計(jì)數(shù)法則了。
1. 計(jì)數(shù)法則
(1)多步驟試驗(yàn)的計(jì)數(shù)法則
如果一個(gè)試驗(yàn)可以分為循序的k個(gè)步驟,在第1步中有N1種試驗(yàn)結(jié)果,在第2步中有N2種試驗(yàn)結(jié)果...以此類推。那么所有的試驗(yàn)結(jié)果的總數(shù)為N1*N2*N3...*Nk。
舉例:拋兩枚硬幣,第一枚有正反兩種結(jié)果,第二枚有正反兩種結(jié)果。所以試驗(yàn)結(jié)果的總數(shù)是 2X2=4。
(2)組合計(jì)數(shù)法則
從N項(xiàng)中任取n項(xiàng)的組合數(shù):
N和n的上下位置與我們平常見的是相反的。因?yàn)槲覀冞@里是以歐美規(guī)范為主。
舉例子:從5個(gè)彩色球中,選出2個(gè)彩球,有多少種選法?
(3)排列計(jì)數(shù)法則
從N項(xiàng)中任取n項(xiàng)的排列數(shù)
舉例子:從5個(gè)彩色球中,選出2個(gè)彩球,有多少種排列方法?
代入得出答案是20種。
2. 事件及其概率
(1)事件
其實(shí)事件為樣本空間的一個(gè)子集,通常,如果能確定一個(gè)試驗(yàn)的所有樣本點(diǎn)并且能夠知曉每個(gè)樣本點(diǎn)的概率,那么我們就能求出事件的概率。
(2)概率的基本性質(zhì)
事件A的補(bǔ):指的是所有不包含在事件A中的樣本點(diǎn)所以事件A發(fā)生的
概率 P(A)=1-P(A-)。
事件的組合:并和交
兩個(gè)圓形區(qū)域所在的部分就是事件A和B的并,其中重疊的部分說(shuō)明有一些樣本點(diǎn)即屬于A又屬于B,它可以稱之為交。
得出加法公式為:
P(A∪B) = P(A)+P(B) – P(A∩B)。P(A∪B) 是兩個(gè)圓形面積,P(A)是藍(lán)色圓面積,P(B)是橙色圓面積,當(dāng)兩者相加時(shí),會(huì)多出一塊重疊區(qū)域,于是減去P(A∩B)進(jìn)行修正,得出正確的結(jié)果。
如果某個(gè)事件A發(fā)生的可能性受到另外一個(gè)事件B的影響,此時(shí)A發(fā)生的可能性叫做條件概率,記作P(A|B)。表明我們是在B條件已經(jīng)發(fā)生的條件下考慮A發(fā)生的可能性,統(tǒng)計(jì)學(xué)中稱為給定條件B下事件A的概率。
進(jìn)而又得出了乘法公式:
(3)貝葉斯定理
簡(jiǎn)單的來(lái)講,貝葉斯定理其實(shí)就是,我們先假設(shè)一個(gè)事件發(fā)生的概率,然后又找到一個(gè)信息,最后得出在這個(gè)信息下這一事件發(fā)生的概率。
舉一個(gè)我們生活中的例子,當(dāng)我們和一個(gè)被懷疑做壞事的人聊天時(shí),我們首先假設(shè)他做壞事的概率為a,然后我們根據(jù)和他交談的信息,得出對(duì)他新的認(rèn)識(shí),重新判斷他做壞事的概率b。
貝葉斯就是闡述了這么一個(gè)事實(shí):
新信息出現(xiàn)后B的概率=B的概率 X 新信息帶來(lái)的調(diào)整
如果當(dāng)直接計(jì)算P(A)較為困難時(shí),而P(Bj),P(A|Bj) (j=1,2,...)的計(jì)算較為簡(jiǎn)單時(shí),可以利用全概率公式計(jì)算P(A)。
思想就是,將事件A分解成幾個(gè)小事件,通過(guò)求小事件的概率,然后相加從而求得事件A的概率,而將事件A進(jìn)行分割的時(shí)候,不是直接對(duì)A進(jìn)行分割,而是先找到樣本空間Ω的一個(gè)個(gè)劃分B1,B2,...Bn,這樣事件A就被事件AB1,AB2,...ABn分解成了n部分,即A=AB1+AB2+...+ABn, 每一Bj發(fā)生都可能導(dǎo)致A發(fā)生相應(yīng)的概率是P(A|Bj),由加法公式得
P(A)=P(AB1)+P(AB2)+....+P(ABn)
=P(A|B1)P(B1)+P(A|B2)P(B2)+...+P(A|Bn)P(PBn)
所以調(diào)整后的貝葉斯公式為:
二. 離散型概率分布和連續(xù)型概率分布
概率中通常將試驗(yàn)的結(jié)果稱為隨機(jī)變量。隨機(jī)變量將每一個(gè)可能出現(xiàn)的試驗(yàn)結(jié)果賦予了一個(gè)數(shù)值,包含離散型隨機(jī)變量和連續(xù)型隨機(jī)變量。
既然隨機(jī)變量可以取不同的值,統(tǒng)計(jì)學(xué)家就用概率分布描述隨機(jī)變量取不同值的概率。相對(duì)應(yīng)的,有離散型概率分布和連續(xù)型概率分布。
1. 數(shù)學(xué)期望和方差
數(shù)學(xué)期望是對(duì)隨機(jī)變量中心位置的一種度量。是試驗(yàn)中每次可能結(jié)果乘以其結(jié)果的概率的總和。簡(jiǎn)單說(shuō),它是概率中的平均值。
方差隨機(jī)變量的變異性或者是分散程度的度量。
其中的u就是E(x)。
2. 離散型概率分布
(1)二項(xiàng)概率分布
二項(xiàng)分布是一種離散型的概率分布。故明思義,二項(xiàng)代表它有兩種可能的結(jié)果,把一種稱為成功,另外一種稱為失敗。
除了結(jié)果的規(guī)定,它還需要滿足其他性質(zhì):每次試驗(yàn)成功的概率均是相同的,記錄為p;失敗的概率也相同,為1-p。每次試驗(yàn)必須相互獨(dú)立,該試驗(yàn)也叫做伯努利試驗(yàn),重復(fù)n次即二項(xiàng)概率。擲硬幣就是一個(gè)典型的二項(xiàng)分布。當(dāng)我們要計(jì)算拋硬幣n次,恰巧有x次正面朝上的概率,可以使用二項(xiàng)分布的公式:
且二項(xiàng)概率的數(shù)學(xué)期望為E(x) = np,方差Var(x) = np(1-p)。
(2)泊松概率分布
泊松概率是另外一個(gè)常用的離散型隨機(jī)變量,它主要用于估計(jì)某事件在特定時(shí)間或空間中發(fā)生的次數(shù)。比如一天內(nèi)中獎(jiǎng)的個(gè)數(shù),一個(gè)月內(nèi)某機(jī)器損壞的次數(shù)等。
泊松概率的成立條件是在任意兩個(gè)長(zhǎng)度相等的區(qū)間中,時(shí)間發(fā)生的概率是相同的,并且事件是否發(fā)生都是相互獨(dú)立的。
泊松概率既然表示事件在一個(gè)區(qū)間發(fā)生的次數(shù),這里的次數(shù)就不會(huì)有上限,x取值可以無(wú)限大,只是可能性無(wú)限接近0,f(x)的最終值很小。
x代表發(fā)生x次,u代表發(fā)生次數(shù)的數(shù)學(xué)期望,概率函數(shù)為:
其中泊松概率分布的數(shù)學(xué)期望和方差是相等的。
3. 連續(xù)型概率分布
上述分布都是離散概率分布,當(dāng)隨機(jī)變量是連續(xù)型時(shí),情況就完全不一樣了。因?yàn)殡x散概率的本質(zhì)是求x取某個(gè)特定值的概率,而連續(xù)隨機(jī)變量不行,它的取值是可以無(wú)限分割的,它取某個(gè)值時(shí)概率近似于0。連續(xù)變量是隨機(jī)變量在某個(gè)區(qū)間內(nèi)取值的概率,此時(shí)的概率函數(shù)叫做概率密度函數(shù)。
(1)均勻概率分布
隨機(jī)變量x在任意兩個(gè)子區(qū)間的概率是相同的。
均勻概率密度函數(shù)
數(shù)學(xué)期望
方差
(2)正態(tài)概率分布
正態(tài)概率分布是連續(xù)型隨機(jī)變量中最重要的分布。世界上絕大部分的分布都屬于正態(tài)分布,人的身高體重、考試成績(jī)、降雨量等都近似服從。
正態(tài)分布如同一條鐘形曲線。中間高,兩邊低,左右對(duì)稱。想象身高體重、考試成績(jī),是否都呈現(xiàn)這一類分布態(tài)勢(shì):大部分?jǐn)?shù)據(jù)集中在某處,小部分往兩端傾斜。
正態(tài)概率密度函數(shù)為:
u代表均值,σ代表標(biāo)準(zhǔn)差,兩者不同的取值將會(huì)造成不同形狀的正態(tài)分布。均值表示正態(tài)分布的左右偏移,標(biāo)準(zhǔn)差決定曲線的寬度和平坦,標(biāo)準(zhǔn)差越大曲線越平坦。
一個(gè)正態(tài)分布的經(jīng)驗(yàn)法則:
正態(tài)隨機(jī)變量有69.3%的值在均值加減一個(gè)標(biāo)準(zhǔn)差的范圍內(nèi),95.4%的值在兩個(gè)標(biāo)準(zhǔn)差內(nèi),99.7%的值在三個(gè)標(biāo)準(zhǔn)差內(nèi)。
均值u=0,標(biāo)準(zhǔn)差σ=1的正態(tài)分布叫做標(biāo)準(zhǔn)正態(tài)分布。它的隨機(jī)變量用z表示,將均值和標(biāo)準(zhǔn)差代入正態(tài)概率密度函數(shù),得到一個(gè)簡(jiǎn)化的公式:
為了計(jì)算概率需要學(xué)習(xí)一個(gè)新的函數(shù)叫累計(jì)分布函數(shù),它是概率密度函數(shù)的積分。用P(X<=x)表示隨機(jī)變量小于或者等于某個(gè)數(shù)值的概率,F(xiàn)(x) = P(X<=x)。
曲線f(x)就是概率密度函數(shù),曲線與X軸相交的陰影面積就是累計(jì)分布函數(shù)。
標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù):
圖像如下:
計(jì)算三種類型的概率(這里需要說(shuō)明一點(diǎn),只有標(biāo)準(zhǔn)正態(tài)分布時(shí),隨機(jī)變量才用z表示)。
1. z小于或者等于某個(gè)給定值的概率,直接帶入分布函數(shù)得出
如:p(z<=1)=φ(1)=0.8413 (1值左邊標(biāo)準(zhǔn)正態(tài)曲線下的面積)。
2. z在給定的兩個(gè)值之間的概率
如:P(-1<=z<=1.25) = P(z<=1.25) – P(z<=-1) =φ(1.25)-φ(1) =0.735。
3. z大于或者等于某個(gè)給定值的概率
如:P(z>1) = 1-P(z<=1) =1-φ(1)= 0.1586。
標(biāo)準(zhǔn)正態(tài)分布與一般的正態(tài)分布的關(guān)系:
任何一個(gè)一般的正態(tài)分布都可以通過(guò)線性變換轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布。它依據(jù)的定理如下:
下面做一道題目練習(xí)吧!
現(xiàn)在有一個(gè)u=10和σ=2的正態(tài)隨機(jī)變量,求x在10與14之間的概率是多少?
當(dāng)x=10時(shí),z=(10-10)/2=2。當(dāng)x=14時(shí),z=(14-10)/2=2。于是x在10和14之間的概率等價(jià)于標(biāo)準(zhǔn)正態(tài)分布中0和2之間的概率。計(jì)算P(0<=z<=2) =P(z<=2) – P(z<=0) =0.4772。
(3)指數(shù)概率分布
指數(shù)概率密度函數(shù)
其中,x>=0,u為均值,e=2.71828;
計(jì)算概率
指數(shù)隨機(jī)變量取小于或者等于某一特定值X0的概率
且指數(shù)概率分布的期望=標(biāo)準(zhǔn)差。
(4)指數(shù)分布vs泊松分布
泊松分布:1.是離散型概率分布 2.描述每一區(qū)間中事件發(fā)生的次數(shù)。
指數(shù)分布:1.是連續(xù)型概率分布 2.描述事件發(fā)生的時(shí)間間隔的長(zhǎng)度。
為了說(shuō)明問(wèn)題,簡(jiǎn)單舉兩個(gè)小例子:
①20分鐘內(nèi)購(gòu)買肯德基早餐的人數(shù)的均值是10人,那么如果求每20分鐘有x人購(gòu)買的概率,就應(yīng)該用泊松概率函數(shù):
②20分鐘內(nèi)購(gòu)買肯德基早餐的人數(shù)的均值是10人,那么如果求每20分鐘這一區(qū)間內(nèi),兩位顧客購(gòu)買的時(shí)間間隔為小于x0的概率,就應(yīng)該用指數(shù)概率函數(shù)。
購(gòu)買的間隔均值為u=10/20=0.5
把u帶入下面的公式
三. 抽樣和抽樣分布
首先不管是從有限總體中抽樣還是從無(wú)限總體中抽樣都應(yīng)該滿足抽樣的隨機(jī)性。
1. 抽樣
我們抽樣得出樣本統(tǒng)計(jì)量就是為了估計(jì)總體的參數(shù)。
樣本均值(x拔)是總體均值的u的點(diǎn)估計(jì):
樣本標(biāo)準(zhǔn)差s是總體的標(biāo)準(zhǔn)差σ的點(diǎn)估計(jì):
樣本比率(p拔)是總體比率的p的點(diǎn)估計(jì):
2. 抽樣分布
其實(shí)當(dāng)我們抽樣的時(shí)候,我們抽取的每個(gè)樣本的均值、方差、比率,可能都是不同的,如果我們把抽取一個(gè)簡(jiǎn)單的隨機(jī)樣本看作一次試驗(yàn),那么(x拔)就有期望、方差、標(biāo)準(zhǔn)差和概率分布了((x拔)的概率分布也就是(x拔)的抽樣分布)。
(1)樣本均值的抽樣分布
(x拔)的抽樣:樣本均值(x拔)的所有可能值的概率分布。
(x拔)的數(shù)學(xué)期望:
其中u是總體的期望。
(x拔)的標(biāo)準(zhǔn)差
當(dāng)樣本容量占總體5%以上時(shí),有求樣本標(biāo)準(zhǔn)差公式如下:
當(dāng)樣本容量占總體5%以下時(shí),公式可以簡(jiǎn)化成:
其中n是樣本容量,N是總體容量,σ是總體標(biāo)準(zhǔn)差,σ(x拔)是樣本標(biāo)準(zhǔn)差。
重點(diǎn)來(lái)了:
①如果總體服從正態(tài)分布時(shí):任何樣本容量下的(x拔)的抽樣分布都是正態(tài)分布。
②總體不服從正態(tài)分布時(shí):
a.中心極限定理:從總體中抽取容量為n的簡(jiǎn)單隨機(jī)樣本,當(dāng)樣本的容量額很大時(shí),樣本均值(x拔)的抽樣分布近似服從正態(tài)概率分布。
b.其實(shí)在大多數(shù)的應(yīng)用中,樣本容量大于30時(shí),(x拔)的抽樣分布近似服 從正態(tài)概率分布。
(2)樣本比率的抽樣分布
(p拔)的抽樣:樣本比率(p拔)的所有可能值的概率分布。
其中:x=具有感興趣特征的個(gè)體的個(gè)數(shù),n=樣本容量。
(p拔)的數(shù)學(xué)期望:
其中,p=總體比率。
(p拔)的標(biāo)準(zhǔn)差:
當(dāng)樣本容量占總體5%以上時(shí),有求樣本標(biāo)準(zhǔn)差公式如下:
當(dāng)樣本容量占總體5%以下時(shí),公式可以簡(jiǎn)化成:
其中n是樣本容量,N是總體容量,p是總體比率,σ(p拔)是樣本標(biāo)準(zhǔn)差。
(p拔)的抽樣分布形態(tài):
在上面的公式之中,x是一個(gè)服從二項(xiàng)分布的隨機(jī)變量,n為常數(shù),所以(p拔)也是離散型的概率分布。其實(shí),如果樣本容量足夠大,并且np>=5和n(1-p)>=5,二項(xiàng)分布可用正態(tài)分布近似,(p拔)的抽樣分布可用正態(tài)分布來(lái)近似。
四. 區(qū)間估計(jì)
點(diǎn)估計(jì)是用于估計(jì)總體參數(shù)的樣本統(tǒng)計(jì)量,但是我們不可能通過(guò)點(diǎn)估計(jì)就給出總體參數(shù)的一個(gè)精確值,更穩(wěn)妥的方法是加減一個(gè)邊際誤差,通過(guò)一個(gè)區(qū)間值來(lái)估計(jì)(區(qū)間估計(jì))。
1. 總體均值的區(qū)間的估計(jì)
(1)總體均值的區(qū)間的估計(jì):σ已知情形。
對(duì)總體均值進(jìn)行估計(jì)時(shí):
①要利用總體標(biāo)準(zhǔn)差σ計(jì)算邊際誤差。
②抽樣前可通過(guò)大量歷史數(shù)據(jù)估計(jì)總體標(biāo)準(zhǔn)差。
下面做一道例題感受下吧:
這是一道有關(guān)顧客購(gòu)物消費(fèi)額的問(wèn)題,根據(jù)歷史數(shù)據(jù),σ=20美元,并且總體服正態(tài)分布,F(xiàn)在抽取n=100名顧客的簡(jiǎn)單隨機(jī)樣本,其樣本均值(x拔)=82美元。求總體均值的區(qū)間估計(jì)。
開始解答了:
①總體服從正態(tài)分布,所以樣本均值的抽樣分布也是正態(tài)分布。
②根據(jù)σ=20美元,得出:
③所以x拔的抽樣分布服從標(biāo)準(zhǔn)差為σ(x拔)=2的正態(tài)分布。
④任何正態(tài)分布的隨機(jī)變量都有95%的值在均值附近加減1.96個(gè)標(biāo)準(zhǔn)差以內(nèi)(通過(guò)查表可得)。
⑤σ(x拔)=2,(x拔)所有值的95%都落在【u加減1.96σ(x拔)也即是u加減3.92】。
也即是:
(x拔)=82美元
所以u(píng)的區(qū)間估計(jì)是(78.08,85.92)。
其中這個(gè)區(qū)間是在95%置信水平下建立的,置信系數(shù)為0.05。區(qū)間(78.08,85.92)為95%的置信區(qū)間。
根據(jù)公式來(lái)計(jì)算區(qū)間,邊際誤差、區(qū)間估計(jì)如下圖所示:
所以:
在90%,95%,99%的置信水平情況下:
所以90%,99%的置信水平下的置信區(qū)間為:
其實(shí)我們也能得出這樣的結(jié)論:想要達(dá)到的置信水平越高,邊際誤差就要越大,置信區(qū)間也是越寬。
(2)總體均值的區(qū)間估計(jì):σ未知情形。
①當(dāng)σ未知時(shí),我們需要利用同一個(gè)樣本估計(jì)u和σ兩個(gè)參數(shù)。
②用s估計(jì)σ時(shí),邊際誤差和總體均值的區(qū)間估計(jì)依據(jù)t分布。
并且總體是不是正態(tài)分布用t分布來(lái)估計(jì)效果都是挺好的。
t分布
有一類相似的概率分布組成的分布族;某個(gè)特定的t分布依賴于自由度的參數(shù);自由度越大,t分布與標(biāo)準(zhǔn)正態(tài)分布的差別越;t分布的均值為0。
其中與z分布有類似的情況的是:
例如:
利用的計(jì)算公式如下:
邊際誤差:
區(qū)間估計(jì):
樣本標(biāo)準(zhǔn)差:
自由度:n-1。
注:
(3)樣本容量的確定
我們可以選擇足夠的樣本容量以達(dá)到所希望的邊際誤差。
由于邊際誤差公式為:
所以總體均值區(qū)間估計(jì)中的樣本容量為:
注:
如果σ未知,可通過(guò)以下方法確定σ的初始值。
①根據(jù)以前研究中的數(shù)據(jù)計(jì)算總體標(biāo)準(zhǔn)差的估計(jì)值。
②利用實(shí)驗(yàn)性研究,選取一個(gè)初始樣本,以初始樣本的標(biāo)準(zhǔn)差做估計(jì)值。
③對(duì)σ進(jìn)行判斷或最優(yōu)猜測(cè):計(jì)算極差/4為標(biāo)準(zhǔn)差的粗略估計(jì)。
2. 總體比率p的區(qū)間估計(jì)
由于和總體均值的區(qū)間估計(jì)類似,這里就不詳細(xì)說(shuō)明了,直接上公式:
邊際誤差:
區(qū)間估計(jì):
(1)樣本容量的確定
我們可以選擇足夠的樣本容量以達(dá)到所希望的邊際誤差。
邊際誤差:
所以樣本容量為:
由于抽樣前(p拔)是未知的,不能用于計(jì)算達(dá)到預(yù)期的邊際誤差所要的樣本容量,因此令(p星)表示(p拔)的計(jì)劃值:
p星的確定
①用以前研究中類似的樣本的樣本比率作為計(jì)劃值。
②利用實(shí)驗(yàn)性的研究,選取一個(gè)初始樣本,以初始樣本的樣本比例作為計(jì)劃值。
③使用判斷或最優(yōu)猜測(cè)作為計(jì)劃值。
④如果上述均不可,計(jì)劃值取為0.5,這是因?yàn)閜(星)=0.5時(shí),p星*(1-p星)取得最大值,同時(shí)樣本容量也能取的最大值。
5
五. 假設(shè)檢驗(yàn)
何為假設(shè)檢驗(yàn)?假設(shè)檢驗(yàn)是對(duì)總體參數(shù)做一個(gè)嘗試性的假設(shè),該嘗試性的假設(shè)稱為原假設(shè),然后定義一個(gè)和原假設(shè)完全對(duì)立的假設(shè)叫做備選假設(shè)。其中備選假設(shè)是我們希望成立的論斷,原假設(shè)是我們不希望成立的論斷。
假設(shè)檢驗(yàn)涉及討論的內(nèi)容有:
①總體均值的檢驗(yàn):σ已知和σ未知情形。
②總體比率的假設(shè)檢驗(yàn):σ已知和σ未知道。
但是下面主要討論在σ已知情形下,總體均值的檢驗(yàn),其他的根據(jù)區(qū)間估計(jì)中的證明和下面的例題都能很方便的理解出來(lái)。
總體均值的檢驗(yàn):
σ已知情形
準(zhǔn)備一道例題,通過(guò)例子說(shuō)明思路。
質(zhì)檢機(jī)構(gòu)檢查某品牌咖啡的標(biāo)簽上顯示裝有3磅咖啡,現(xiàn)在質(zhì)檢機(jī)構(gòu)需要確定每罐咖啡的質(zhì)量至少有三磅,以保證消費(fèi)者權(quán)益。已知道σ=0.18,現(xiàn)在取得n=36罐咖啡組成一個(gè)隨機(jī)樣本,計(jì)算出(x拔)=2.92。
開始解答了:
①首先我們明白想要的結(jié)果是證明u<3,所以就提出了原假設(shè)和備選假設(shè)如下:h0:u>=3;Ha:u<3。
②其中我們?cè)跈z驗(yàn)的過(guò)程允許以1%的可能性犯錯(cuò)誤也即是 α=0.01。
③由于樣本n=36,σ=0.18,所本均值的抽樣分布是服從正態(tài)概率分布。
④所以當(dāng)(x拔)=2.92時(shí),z=-2.67。
⑤因?yàn)樵僭O(shè)u是大于等于3的,所以我們就觀察z小于或等于-2.69的值,讓p值等于檢驗(yàn)統(tǒng)計(jì)值z(mì)小于或等于-2.69的概率;利用標(biāo)準(zhǔn)正態(tài)概率表,z=-2.69時(shí),p值=0.0038。
其中我們可以這樣理解z小于或者等于-2.69的概率p=0.0038這一事件的發(fā)生概率是非常的小,又加上允許犯錯(cuò)的概率是0.01(也即是發(fā)生的概率是0.01結(jié)果是非常小的,我直接忽略了)。
所以我們直接認(rèn)為z小于或者等于-2.69這一事件太小以至于我們認(rèn)為他是不發(fā)生的。所以我們拒絕了H0:u>=3這一假設(shè)。所以,在0.01的顯著水平下有足夠的統(tǒng)計(jì)證據(jù)拒絕H0。