能力驗證上報數據(n個數據)通過什么方法處理后進行的判定?這些問題都涉及數據標準化。
在數據分析之前,通常需要先將數據標準化(normalization),利用標準化后的數據進行數據分析。數據標準化也就是統(tǒng)計數據的指數化。
為什么要進行數據的標準化處理?
由于不同變量常常具有不同的單位和不同的變異程度。不同的單位常使系數的實踐解釋發(fā)生困難。例如:第1個變量的單位是kg,第2個變量的單位是cm,那么在計算絕對距離時將出現(xiàn)將兩個事例中第1個變量觀察值之差的絕對值(單位是kg)與第2個變量觀察值之差的絕對值(單位是cm)相加的情況。使用者會說5kg的差異怎么可以與3cm的差異相加?不同變量自身具有相差較大的變異時,會使在計算出的關系系數中,不同變量所占的比重大不相同。例如如果第1個變量(兩水稻品種米粒中的脂肪含量)的數值在2%到4%之間,而第2個變量(兩水稻品種的畝產量)的數值范圍都在1000與5000之間。為了消除量綱影響和變量自身變異大小和數值大小的影響,故將數據標準化。
數據標準化處理主要包括數據同趨化處理和無量綱化處理兩個方面。數據同趨化處理主要解決不同性質數據問題,對不同性質指標直接加總不能正確反映不同作用力的綜合結果,須先考慮改變逆指標數據性質,使所有指標對測評方案的作用力同趨化,再加總才能得出正確結果。數據無量綱化處理主要解決數據的可比性。數據標準化的方法有很多種,常用的有“最小—最大標準化”、“Z-score標準化”和“按小數定標標準化”等。經過上述標準化處理,原始數據均轉換為無量綱化指標測評值,即各指標值都處于同一個數量級別上,可以進行綜合測評分析。
一、Min-max 標準化
min-max標準化方法是對原始數據進行線性變換。設minA和maxA分別為屬性A的最小值和最大值,將A的一個原始值x通過min-max標準化映射成在區(qū)間[0,1]中的值x',其公式為:
新數據=(原數據-極小值)/(極大值-極小值)
二、z-score 標準化
這種方法基于原始數據的均值(mean)和標準差(standard deviation)進行數據的標準化。將A的原始值x使用z-score標準化到x'。
z-score標準化方法適用于屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數據的情況。
新數據=(原數據-均值)/標準差
spss默認的標準化方法就是z-score標準化。
用Excel進行z-score標準化的方法:在Excel中沒有現(xiàn)成的函數,需要自己分步計算,其實標準化的公式很簡單。
步驟如下:
1.求出各變量(指標)的算術平均值(數學期望)xi和標準差si ;
2.進行標準化處理:
zij=(xij-xi)/si
其中:zij為標準化后的變量值;xij為實際變量值。
3.將逆指標前的正負號對調。
標準化后的變量值圍繞0上下波動,大于0說明高于平均水平,小于0說明低于平均水平。
三、Decimal scaling小數定標標準化
這種方法通過移動數據的小數點位置來進行標準化。小數點移動多少位取決于屬性A的取值中的最大絕對值。將屬性A的原始值x使用decimal scaling標準化到x'的計算方法是:
x'=x/(10*j)
其中,j是滿足條件的最小整數。
例如 假定A的值由-986到917,A的最大絕對值為986,為使用小數定標標準化,我們用1000(即,j=3)除以每個值,這樣,-986被規(guī)范化為-0.986。
注意,標準化會對原始數據做出改變,因此需要保存所使用的標準化方法的參數,以便對后續(xù)的數據進行統(tǒng)一的標準化。
文章來源于網絡,轉載只為分享知識,如有侵權請聯(lián)系刪除。
在數據分析之前,通常需要先將數據標準化(normalization),利用標準化后的數據進行數據分析。數據標準化也就是統(tǒng)計數據的指數化。
為什么要進行數據的標準化處理?
由于不同變量常常具有不同的單位和不同的變異程度。不同的單位常使系數的實踐解釋發(fā)生困難。例如:第1個變量的單位是kg,第2個變量的單位是cm,那么在計算絕對距離時將出現(xiàn)將兩個事例中第1個變量觀察值之差的絕對值(單位是kg)與第2個變量觀察值之差的絕對值(單位是cm)相加的情況。使用者會說5kg的差異怎么可以與3cm的差異相加?不同變量自身具有相差較大的變異時,會使在計算出的關系系數中,不同變量所占的比重大不相同。例如如果第1個變量(兩水稻品種米粒中的脂肪含量)的數值在2%到4%之間,而第2個變量(兩水稻品種的畝產量)的數值范圍都在1000與5000之間。為了消除量綱影響和變量自身變異大小和數值大小的影響,故將數據標準化。
數據標準化處理主要包括數據同趨化處理和無量綱化處理兩個方面。數據同趨化處理主要解決不同性質數據問題,對不同性質指標直接加總不能正確反映不同作用力的綜合結果,須先考慮改變逆指標數據性質,使所有指標對測評方案的作用力同趨化,再加總才能得出正確結果。數據無量綱化處理主要解決數據的可比性。數據標準化的方法有很多種,常用的有“最小—最大標準化”、“Z-score標準化”和“按小數定標標準化”等。經過上述標準化處理,原始數據均轉換為無量綱化指標測評值,即各指標值都處于同一個數量級別上,可以進行綜合測評分析。
一、Min-max 標準化
min-max標準化方法是對原始數據進行線性變換。設minA和maxA分別為屬性A的最小值和最大值,將A的一個原始值x通過min-max標準化映射成在區(qū)間[0,1]中的值x',其公式為:
新數據=(原數據-極小值)/(極大值-極小值)
二、z-score 標準化
這種方法基于原始數據的均值(mean)和標準差(standard deviation)進行數據的標準化。將A的原始值x使用z-score標準化到x'。
z-score標準化方法適用于屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數據的情況。
新數據=(原數據-均值)/標準差
spss默認的標準化方法就是z-score標準化。
用Excel進行z-score標準化的方法:在Excel中沒有現(xiàn)成的函數,需要自己分步計算,其實標準化的公式很簡單。
步驟如下:
1.求出各變量(指標)的算術平均值(數學期望)xi和標準差si ;
2.進行標準化處理:
zij=(xij-xi)/si
其中:zij為標準化后的變量值;xij為實際變量值。
3.將逆指標前的正負號對調。
標準化后的變量值圍繞0上下波動,大于0說明高于平均水平,小于0說明低于平均水平。
三、Decimal scaling小數定標標準化
這種方法通過移動數據的小數點位置來進行標準化。小數點移動多少位取決于屬性A的取值中的最大絕對值。將屬性A的原始值x使用decimal scaling標準化到x'的計算方法是:
x'=x/(10*j)
其中,j是滿足條件的最小整數。
例如 假定A的值由-986到917,A的最大絕對值為986,為使用小數定標標準化,我們用1000(即,j=3)除以每個值,這樣,-986被規(guī)范化為-0.986。
注意,標準化會對原始數據做出改變,因此需要保存所使用的標準化方法的參數,以便對后續(xù)的數據進行統(tǒng)一的標準化。
文章來源于網絡,轉載只為分享知識,如有侵權請聯(lián)系刪除。