數據縮放scaling(標準化、歸一化)的那些事 - 台部落

文章推薦指數: 80 %
投票人數:10人

z-score法:想必經常會聽人說使用這個方法進行標準化,聽着很難懂,但是計算方法不難,它又叫"(標準差)標準化Standardization",就是將某一列數值按 ... 請輸入正確的登錄賬號或密碼 註冊 忘記密碼 首頁 未分類 正文 數據縮放scaling(標準化、歸一化)的那些事 原創 劉小澤 2019-04-1922:38 劉小澤寫於19.4.18 今天來探究一下什麼是標準化、歸一化 使用數據縮放的意義 存在即合理,既然統計上有這麼個定義,並且很常用,那麼就要仔細看看它是什麼意思了。

一般在一個表達矩陣中,會涉及到許多樣本,每個樣本的性質、表達量數量級會存在一些差異,因此我們不能直接拿來比較每個樣本。

如果其中有的樣本原始表達量較大,那麼在總體中就會佔據"絕對領導地位",而表達量小的樣本,它的作用可能就會被覆蓋,但並不代表它不重要,也有可能是這個樣本含有較多的低表達基因。

爲了比較同一基因在不同樣本中的表達量,需要指定統一的標準,也就是需要提前對樣本原始表達量進行一定的處理。

數據縮放,在統計學中的意思是,通過一定的數學變換方式,將原始數據按照一定的比例進行轉換,將數據放到一個小的特定區間內,比如01或者-11。

目的是消除不同樣本之間特性、數量級等特徵屬性的差異,轉化爲一個無量綱的相對數值,結果的各個樣本特徵量數值都處於同一數量級上。

怎麼進行數據縮放? 主要分爲兩種:指標一致化、無量綱化 指標一致化 目的是解決數據性質不同的問題,也就是說涉及到多個不同的統計量時,有的指標數值越大越符合預期(如:藥物治療後的生存率),也要一些指標數值越小越符合預期(如:死亡率)。

可以看出這兩種數據的"方向"是不同的。

這時,如果要綜合考量兩種數據,就要先統一數據方向,一般方法有兩種: 對原始數據取倒數=》倒數一致(但是這樣會改變原始數據的分散程度,間接放大或縮小數據的實際差異) 定義不同指標中數值上限,然後依次減去每個指標中的原始數據(它不會改變數據的分散程度,相比於倒數法結果更加穩定) 無量綱化 這個是我們經常用到的,目的是解決數據之間的可比性問題,比如有的指標/樣本中數據範圍在1-100,另一個指標/樣本中數據在1-10000,這個範圍就是"量綱"。

標準化要做的,就是去掉這個的影響,真正突出數據的差別,有點絕對值變爲相對值的感覺。

可以用的方法有: 極差法:它是最簡單處理量綱問題的方法,它是將數據集中某一列數值縮放到0和1之間,又稱"歸一化Normalization”。

它的計算方法是:(觀測值-最小值)/極差,極差=最大值-最小值 因此無論數值是正是負,那麼結果範圍都變到了0~1 但有一個問題:如果再引入數據,那麼可能整個計算結果需要更改 log函數標準化 它也屬於歸一化的範疇 適用於原始數據大於等於1的情況,對指標中的每一個觀測值都取以10爲底的log值,然後除以這個指標最大值的log10,即log10(X)/log10(MAX) z-score法:想必經常會聽人說使用這個方法進行標準化,聽着很難懂,但是計算方法不難,它又叫"(標準差)標準化Standardization",就是將某一列數值按比例縮放成均值爲0,方差爲1的形式。

適用於:指標中的數據最大最小值未知,或者有離羣點時,用極差法可能會帶來較大的誤差。

z-score是這麼做的:先計算均值(mean)和標準差(sd),然後用每個觀測值減去均值,再除以標準差,即:(x-mean)/sd 得到的結果數據變成了正態分佈,結果範圍在-1~1 標準化=歸一化?NO! 這兩個概念總是被混用,以至於有時以爲這是同一個概念,既然容易混淆就一定存在共性:它們都是對某個特徵(或者說某一列/某個樣本)的數據進行縮放(scaling),而不是對某一行進行縮放。

舉個例子:現在有三個特徵,身高、體重、心率,也就是三列數據,每一行就是3個不同特徵的值,我們無論是對一行中的3個數值進行標準化還是歸一化,都是沒有意義的,因爲身高、體重和心率的數值本來就不能"壓”到一起 因此,這裏也看到了標準化或者歸一化的前提是,數據可以"壓”到一起或者說是同一類的數據 二者差異: 歸一化Normalization受離羣點影響大;標準化Standardization是重新創建一個新的數據分佈,因此受離羣點影響小 許多實際應用中更推薦使用標準化方法 摘抄自:https://sebastianraschka.com/Articles/2014_about_feature_scaling.html inclusteringanalyses,standardizationmaybeespeciallycrucialinordertocomparesimilaritiesbetweenfeaturesbasedoncertaindistancemeasures PrincipalComponentAnalysis,whereweusuallypreferstandardizationoverMin-Maxscaling,sinceweareinterestedinthecomponentsthatmaximizethevariance However,thisdoesn’tmeanthatMin-Maxscalingisnotusefulatall! like:typicalneuralnetworkalgorithmrequiredatathatona0-1scale 目前在生信中也會認爲歸一化是特殊的標準化,二者的界限也沒有特別明顯,一般採用的標準化方法主要是: RPM/CPM、TPM、RPKM:標準化的對象是基因長度與測序深度(因爲落在一個基因區域內的read數目取決於基因長度和測序深度)具體可以看視頻:https://v.youku.com/v_show/id_XMTU0NzA0MzQ2NA==.html?firsttime=63 Z-score:標準化對象是count值 log2(x+1):有一個數據降維的概念在其中,對象是count值 在R中有一個函數scale(),它可以進行中心化center,也可以進行標準化scale 中心化就是數據減去均值,比如1,2,3,4,5,均值是3,中心化後的數據就是-2,-1,0,1,2; 標準化就是在中心化的基礎上再除以標準差,使用的就是Z-score方法 另外還有不同軟件包帶的算法,比如DESeq2包中就提供了rlog和vst算法進行count矩陣轉換,利用轉換後的結果進行PCA或者聚類,結果比直接使用count或者歸一化後的count要好(生物學重複之間更接近,不同分組分區也較明顯) 參考 https://medium.com/@zaidalissa/standardization-vs-normalization-da7a3a308c64 概念講解:https://sebastianraschka.com/Articles/2014_about_feature_scaling.html 非常詳細的探討:https://towardsdatascience.com/normalization-vs-standardization-quantitative-analysis-a91e8a79cebf https://www.davex.pw/2017/10/07/Normalization-and-Regularization/ 關於各種*PMhttps://www.meiwen.com.cn/subject/teawrftx.html 歡迎關注我們的公衆號~_~   我們是兩個農轉生信的小碩,打造生信星球,想讓它成爲一個不拽術語、通俗易懂的生信知識平臺。

需要幫助或提出意見請後臺留言或發送郵件到[email protected] 每天都在進步 發表評論 登录 所有評論 還沒有人評論,想成為第一個評論的人麼?請在上方評論欄輸入並且點擊發布. 相關文章 批量重命名:如果會linux呢? 劉小澤 2019-06-1421:53:18 基因組的那些事兒(三)-準備工作 劉小澤 2019-06-1421:53:18 單細胞轉錄組學習筆記-3 劉小澤 2019-06-1421:53:18 單細胞轉錄組學習筆記-2 劉小澤 2019-06-1221:49:10 2019意猶未盡的基因組可視化IGV(一) 劉小澤 2019-06-1120:59:10 單細胞轉錄組學習筆記-1 劉小澤 2019-06-1120:59:10 豆豆學Python第二集 劉小澤 2019-06-0920:34:28 找到一本很好的的Python學習書 劉小澤 2019-06-0520:52:03 基因組的那些事兒(二) 劉小澤 2019-06-0421:17:09 基因組的那些事兒--基礎 劉小澤 2019-06-0220:40:33 不要"太重視“fastqc的結果 劉小澤 2019-05-3021:01:52 Bioconductor沒想象的那麼簡單-part9 劉小澤 2019-05-2920:58:12 正則表達式複習 劉小澤 2019-05-2820:57:27 Bioconductor沒想象的那麼簡單-part8-註釋信息必知必會 劉小澤 2019-05-2320:53:58 Bioconductor沒想象的那麼簡單-part7--練習一下GenomicRanges 劉小澤 2019-05-2120:46:24 劉 劉小澤 24小時熱門文章 最新文章 致各位生信小夥伴 富集分析圈圈圖 如何用Conda安裝GATK? bedtools的簡單操作版本 生信星球小練習—批量讀取10X數據 最新評論文章 BestAssignmentHelpservicesinUK Java認證考試OCAJP經驗總結 Flutter仿京東商城項目實戰視頻教程 【小白教程】win10系統如何開啓ipv6 TS入門筆記 Getonlineassignmenthelpertodoacademicworkandachievetopgrades 小 西  米 外送茶專營台灣本土妹籟pp2263或fb2899 提供養料的四款書籍app 我想過一段遠離朋友圈的日子



請為這篇文章評分?