數據縮放scaling(標準化、歸一化)的那些事 - 台部落
文章推薦指數: 80 %
z-score法:想必經常會聽人說使用這個方法進行標準化,聽着很難懂,但是計算方法不難,它又叫"(標準差)標準化Standardization",就是將某一列數值按 ...
請輸入正確的登錄賬號或密碼
註冊
忘記密碼
首頁
未分類
正文
數據縮放scaling(標準化、歸一化)的那些事
原創
劉小澤
2019-04-1922:38
劉小澤寫於19.4.18
今天來探究一下什麼是標準化、歸一化
使用數據縮放的意義
存在即合理,既然統計上有這麼個定義,並且很常用,那麼就要仔細看看它是什麼意思了。
一般在一個表達矩陣中,會涉及到許多樣本,每個樣本的性質、表達量數量級會存在一些差異,因此我們不能直接拿來比較每個樣本。
如果其中有的樣本原始表達量較大,那麼在總體中就會佔據"絕對領導地位",而表達量小的樣本,它的作用可能就會被覆蓋,但並不代表它不重要,也有可能是這個樣本含有較多的低表達基因。
爲了比較同一基因在不同樣本中的表達量,需要指定統一的標準,也就是需要提前對樣本原始表達量進行一定的處理。
數據縮放,在統計學中的意思是,通過一定的數學變換方式,將原始數據按照一定的比例進行轉換,將數據放到一個小的特定區間內,比如01或者-11。
目的是消除不同樣本之間特性、數量級等特徵屬性的差異,轉化爲一個無量綱的相對數值,結果的各個樣本特徵量數值都處於同一數量級上。
怎麼進行數據縮放?
主要分爲兩種:指標一致化、無量綱化
指標一致化
目的是解決數據性質不同的問題,也就是說涉及到多個不同的統計量時,有的指標數值越大越符合預期(如:藥物治療後的生存率),也要一些指標數值越小越符合預期(如:死亡率)。
可以看出這兩種數據的"方向"是不同的。
這時,如果要綜合考量兩種數據,就要先統一數據方向,一般方法有兩種:
對原始數據取倒數=》倒數一致(但是這樣會改變原始數據的分散程度,間接放大或縮小數據的實際差異)
定義不同指標中數值上限,然後依次減去每個指標中的原始數據(它不會改變數據的分散程度,相比於倒數法結果更加穩定)
無量綱化
這個是我們經常用到的,目的是解決數據之間的可比性問題,比如有的指標/樣本中數據範圍在1-100,另一個指標/樣本中數據在1-10000,這個範圍就是"量綱"。
標準化要做的,就是去掉這個的影響,真正突出數據的差別,有點絕對值變爲相對值的感覺。
可以用的方法有:
極差法:它是最簡單處理量綱問題的方法,它是將數據集中某一列數值縮放到0和1之間,又稱"歸一化Normalization”。
它的計算方法是:(觀測值-最小值)/極差,極差=最大值-最小值
因此無論數值是正是負,那麼結果範圍都變到了0~1
但有一個問題:如果再引入數據,那麼可能整個計算結果需要更改
log函數標準化
它也屬於歸一化的範疇
適用於原始數據大於等於1的情況,對指標中的每一個觀測值都取以10爲底的log值,然後除以這個指標最大值的log10,即log10(X)/log10(MAX)
z-score法:想必經常會聽人說使用這個方法進行標準化,聽着很難懂,但是計算方法不難,它又叫"(標準差)標準化Standardization",就是將某一列數值按比例縮放成均值爲0,方差爲1的形式。
適用於:指標中的數據最大最小值未知,或者有離羣點時,用極差法可能會帶來較大的誤差。
z-score是這麼做的:先計算均值(mean)和標準差(sd),然後用每個觀測值減去均值,再除以標準差,即:(x-mean)/sd
得到的結果數據變成了正態分佈,結果範圍在-1~1
標準化=歸一化?NO!
這兩個概念總是被混用,以至於有時以爲這是同一個概念,既然容易混淆就一定存在共性:它們都是對某個特徵(或者說某一列/某個樣本)的數據進行縮放(scaling),而不是對某一行進行縮放。
舉個例子:現在有三個特徵,身高、體重、心率,也就是三列數據,每一行就是3個不同特徵的值,我們無論是對一行中的3個數值進行標準化還是歸一化,都是沒有意義的,因爲身高、體重和心率的數值本來就不能"壓”到一起
因此,這裏也看到了標準化或者歸一化的前提是,數據可以"壓”到一起或者說是同一類的數據
二者差異:
歸一化Normalization受離羣點影響大;標準化Standardization是重新創建一個新的數據分佈,因此受離羣點影響小
許多實際應用中更推薦使用標準化方法
摘抄自:https://sebastianraschka.com/Articles/2014_about_feature_scaling.html
inclusteringanalyses,standardizationmaybeespeciallycrucialinordertocomparesimilaritiesbetweenfeaturesbasedoncertaindistancemeasures
PrincipalComponentAnalysis,whereweusuallypreferstandardizationoverMin-Maxscaling,sinceweareinterestedinthecomponentsthatmaximizethevariance
However,thisdoesn’tmeanthatMin-Maxscalingisnotusefulatall!
like:typicalneuralnetworkalgorithmrequiredatathatona0-1scale
目前在生信中也會認爲歸一化是特殊的標準化,二者的界限也沒有特別明顯,一般採用的標準化方法主要是:
RPM/CPM、TPM、RPKM:標準化的對象是基因長度與測序深度(因爲落在一個基因區域內的read數目取決於基因長度和測序深度)具體可以看視頻:https://v.youku.com/v_show/id_XMTU0NzA0MzQ2NA==.html?firsttime=63
Z-score:標準化對象是count值
log2(x+1):有一個數據降維的概念在其中,對象是count值
在R中有一個函數scale(),它可以進行中心化center,也可以進行標準化scale
中心化就是數據減去均值,比如1,2,3,4,5,均值是3,中心化後的數據就是-2,-1,0,1,2;
標準化就是在中心化的基礎上再除以標準差,使用的就是Z-score方法
另外還有不同軟件包帶的算法,比如DESeq2包中就提供了rlog和vst算法進行count矩陣轉換,利用轉換後的結果進行PCA或者聚類,結果比直接使用count或者歸一化後的count要好(生物學重複之間更接近,不同分組分區也較明顯)
參考
https://medium.com/@zaidalissa/standardization-vs-normalization-da7a3a308c64
概念講解:https://sebastianraschka.com/Articles/2014_about_feature_scaling.html
非常詳細的探討:https://towardsdatascience.com/normalization-vs-standardization-quantitative-analysis-a91e8a79cebf
https://www.davex.pw/2017/10/07/Normalization-and-Regularization/
關於各種*PMhttps://www.meiwen.com.cn/subject/teawrftx.html
歡迎關注我們的公衆號~_~
我們是兩個農轉生信的小碩,打造生信星球,想讓它成爲一個不拽術語、通俗易懂的生信知識平臺。
需要幫助或提出意見請後臺留言或發送郵件到[email protected]
每天都在進步
發表評論
登录
所有評論
還沒有人評論,想成為第一個評論的人麼?請在上方評論欄輸入並且點擊發布.
相關文章
批量重命名:如果會linux呢?
劉小澤
2019-06-1421:53:18
基因組的那些事兒(三)-準備工作
劉小澤
2019-06-1421:53:18
單細胞轉錄組學習筆記-3
劉小澤
2019-06-1421:53:18
單細胞轉錄組學習筆記-2
劉小澤
2019-06-1221:49:10
2019意猶未盡的基因組可視化IGV(一)
劉小澤
2019-06-1120:59:10
單細胞轉錄組學習筆記-1
劉小澤
2019-06-1120:59:10
豆豆學Python第二集
劉小澤
2019-06-0920:34:28
找到一本很好的的Python學習書
劉小澤
2019-06-0520:52:03
基因組的那些事兒(二)
劉小澤
2019-06-0421:17:09
基因組的那些事兒--基礎
劉小澤
2019-06-0220:40:33
不要"太重視“fastqc的結果
劉小澤
2019-05-3021:01:52
Bioconductor沒想象的那麼簡單-part9
劉小澤
2019-05-2920:58:12
正則表達式複習
劉小澤
2019-05-2820:57:27
Bioconductor沒想象的那麼簡單-part8-註釋信息必知必會
劉小澤
2019-05-2320:53:58
Bioconductor沒想象的那麼簡單-part7--練習一下GenomicRanges
劉小澤
2019-05-2120:46:24
劉
劉小澤
24小時熱門文章
最新文章
致各位生信小夥伴
富集分析圈圈圖
如何用Conda安裝GATK?
bedtools的簡單操作版本
生信星球小練習—批量讀取10X數據
最新評論文章
BestAssignmentHelpservicesinUK
Java認證考試OCAJP經驗總結
Flutter仿京東商城項目實戰視頻教程
【小白教程】win10系統如何開啓ipv6
TS入門筆記
Getonlineassignmenthelpertodoacademicworkandachievetopgrades
小 西 米 外送茶專營台灣本土妹籟pp2263或fb2899
提供養料的四款書籍app
我想過一段遠離朋友圈的日子
延伸文章資訊
- 1數據縮放scaling(標準化、歸一化)的那些事 - 台部落
z-score法:想必經常會聽人說使用這個方法進行標準化,聽着很難懂,但是計算方法不難,它又叫"(標準差)標準化Standardization",就是將某一列數值按 ...
- 2標準差─樣本標準差
已知分組資料分成k組,設各組內之次數, 密集於組中點, 或均勻散佈在組距內,則此n個資料之標準差:. 說明:. ※註:. 3.母體標準差的平移、縮小:. (i)平移:. 說明:.
- 3標準差
標準差. 在計算變異數時,為了避免正負相抵,曾將每一數據與平均數的. 差加以平方,因此差異的程度被放大了,且單位也變為原始數據單位. 的平方。
- 4資料標準化 - 邏輯通路
... 的時候,常常需要將一組資料的「平均數」調整成0 ,「標準差」調整成1 ,這樣的過程,我們稱為「標準化」。 ... 平移或放大縮小原資料,都不會改變標準化後的資料.
- 5【討論】數據調整對標準差的影響| 數學 - 均一教育平台
影片:【討論】數據調整對標準差的影響,數學> 高中> 十年級> 99課綱【十】統計> 一維數據。源自於:均一教育平台- 願每個孩子都成為終身學習者,成就自己的未來。