資料分析06 統計學— 機率分配. [概論] 本篇介紹幾個 ... - Medium

文章推薦指數: 80 %
投票人數:10人

就會考慮到二維以上的隨機變數之機率分配,稱為聯合機率分配(joint probability distribution)。

舉個例子,今天投擲一枚公正的硬幣和骰子,那麼列出所有 ... UpgradeOpeninappHomeNotificationsListsStoriesWrite資料分析06統計學—機率分配[概論]本篇介紹幾個有關機率分配的專有名詞,以及常用的機率分配。

前言上一個章節,我們討論到樣本空間是屬於描述型態的(例如:銅板擲兩次出現兩次正面等等),為了讓世界更能夠溝通,就要利用科學家共同的語言:數學!作為分析方法。

沒錯,我們需要將樣本空間給予量化(轉成數字型態),以便進行接下來的分析。

現在我們先來認識有關機率分配的基礎觀念。

名詞解釋-隨機變數要將描述型態的樣本空間轉成數值,我們會需要一個函數,而這個函數我們就稱為隨機變數(randomvariable)。

而隨機變數可分為兩大類,一種為離散型(間斷型)隨機變數,另外一種為連續型隨機變數。

所謂離散型隨機變數,例如故障次數,可以發生1次故障、2次故障等等,1和2之間無法再切分(別跟平均值搞混悠)。

至於連續型隨機變數,例如溫度,可以是攝氏24度、攝氏25度,而24和25又可以再切分為攝氏24.5度等等。

名詞解釋-機率分配機率分配依照字面理解,就是機率的分配。

前面提到將樣本空間量化後,從隨機變數獲得的可能值,其分配狀態就是所謂的機率分配。

至於機率呈現的方式有很多種,例如:間斷機率分配、連續機率分配、累積機率分配(cumulativeprobability)分別代表機率的數值呈現是間斷型的、連續型的、以及累積型的。

名詞解釋-聯合機率分配&邊際機率分配前面所討論到的機率分配都是屬於一維的樣本空間(指單一隨機試驗),但當我們樣本空間是二維,或二維以上的時候呢?就會考慮到二維以上的隨機變數之機率分配,稱為聯合機率分配(jointprobabilitydistribution)。

舉個例子,今天投擲一枚公正的硬幣和骰子,那麼列出所有樣本空間並計算其機率分配,這類就屬於聯合機率分配。

像是樣本空間為{H,5},代表該隨機試驗為正面硬幣以及點數為5的骰子。

至於甚麼是邊際機率分配(marginalprobabilitydistribution)呢?其實很簡單,邊際機率指的是由計算列總和與行總和所得的數值。

讓我們來看看這張聯合分配的圖表:該表是一張列出A和B各種可能組合的機率分配圖,而黑色框起來的部分,則是行總和列總,這些計算行總和與列總和所得的數值就是邊際機率,它的分配就屬於邊際機率分配。

而個別的邊際機率分配自然符合一般機率分配的性質:加總=1名詞解釋-條件機率分配&獨立性上一章節,我們介紹了何謂條件機率,接著,我們可以來看看兩個獨立的隨機變數之獨立性,在條件機率下具有什麼特性。

假設X與Y是兩個隨機變數,那麼聯合分配以f(x,y)表示,邊際機率分配分別以g(x)、h(y)表示。

要是f(x|y)=g(x),即代表隨機變數X與Y互相獨立。

同理,f(y|x)=h(y)也可稱X與Y互相獨立。

常用的離散型機率分配-二項分配機率的概念常常發生在我們日常生活中,然而機率分配千千百百種,什麼情形該使用什麼分配呢?哪些分配是最常用的呢?初學者要從何著手呢?這裡小編哞哞獅(Momus)建議從離散型隨機分配的二項分配開始學習,為何從二項分配開始呢?因為生活中最簡單的隨機試驗就是只有兩種結果,像是銅板只有正反兩面,只求正面和反面的機率分配,是不是比求六面的骰子點數的機率分配還來得簡單呢?而固定n次獨立試驗,每次試驗結果只考慮兩種情況(失敗&成功),則其總合結果之機率分布我們就稱之為二項分配(Binomialdistribution)。

例如:有一場博弈大賽,要丟一枚公正的骰子10次,每一次結果只有兩種(贏&輸),大於或等於3就是贏,小於3就是輸,此時要解釋各種出現結果,其機率的分配就可以用二項分配呈現囉。

其他離散型機率分配除了二項分配外,還有幾何分配、超幾何分配、間斷均勻分配、卜瓦松分配、負二項分配、柏努力分配(點二項分配)...等。

如果想進一步了解,往後的篇章會有更詳細的介紹。

常用的連續型機率分配-常態分配由於自然界或非自然界,常態分配皆普遍存在,因此它幾乎堪稱使用率最高的分配。

例如賽跑時間或是物理學的光子計數,研究者發現透過證明,可以驗證出這些變量幾乎是服從常態分配。

那麼,常態分配長甚麼樣呢,我們來看看下面這張圖:這個鐘形曲線就是稱為常態分布,也叫高斯分布。

最早是由亞伯拉罕(AbrahamdeMoivre)於1733年發現此分配。

期望值μ等於位置參數,用來決定分布的位置。

標準差σ等於尺度參數,用來決定分布的幅度。

將近有68%的數值,落在平均數±1個標準差間、95%的數值,落在平均數±2個標準差間、99.7%的數值,落在平均數±3個標準差間。

而在學術界,大家最常會將95%的數值拿來做研究。

至於常態分配有甚麼應用呢?下方就來舉一個範例!假設某企業每月營業額符合常態分配,其平均值為150萬,標準差為7萬。

如此可以推斷某一月份之營業額在140萬至160萬之間的機率為何了!此外,其他分配在某些情況下,經由適度轉換,也會成為常態分配。

像是試驗次數n越大時,二項分配會近似於常態分配,這理論則是統計學最重要的一個定理:中央極限定理(CentralLimitTheorem)!其他連續型機率分配其他常見的連續型機率分配包括連續均勻分配、常態分配、標準常態分配、指數隨機變數、伽碼(Gamma)分配、卡方分配、以及貝他(Beta)分配等。

往後也有相關篇章更詳細的介紹。

名詞解釋-機率密度函數最後和大家介紹本章節最後一個名詞:機率密度函數。

在理解機率密度函數前,我們要先知道何謂密度函數。

密度的概念是從物理學來的,是指一物質單位體積下的質量。

然而,一個點的體積是無限小,因此質量必為0。

那麼整個物體的質量怎麼計算呢?由於物體是由無數個點組成,因此可以在一個點的附近取一小塊,用這一小塊的質量除以體積,然後取極限(體積無限小),即為密度的概念。

相反地,密度透過積分可以計算出物體的質量。

了解物體密度的概念後,我們就可以很容易理解機率密度。

如下圖機率的區間從0到1,要在這個區間隨機取一個點,而這個點的機率是多少呢?由於一個點的長度是無限小,所以機率一定為0。

那麼我們就要在這個點附近取一個區間段,利用該區間段的機率除以長度,再取極限後可以得到機率密度的值。

相反地,機率密度透過積分可以計算出該區間段上的機率。

而離散型隨機變數和連續型隨機變數各有對應的機率函數名稱:離散型隨機變數對應的機率函數,稱為Probabilityfunction(pf)或是Probabilitymassfunction。

連續型隨機變數所對應的機率密度函數稱為Probabilitydensityfunction(pdf)。

結尾恭喜各位初步了解機率分配的相關基礎知識!!下一章將會介紹抽樣與抽樣分配。

最後,如果喜歡這篇文章,請按下方的拍手鍵,來點掌聲和鼓勵。

Thanks!Reference:NormaldistributionInprobabilitytheory,anormal(orGaussianorGaussorLaplace-Gauss)distributionisatypeofcontinuous…en.wikipedia.orgDensityThedensity(moreprecisely,thevolumetricmassdensity;alsoknownasspecificmass),ofasubstanceisitsmassper…en.wikipedia.org1.6KMorefromMomusChaoFollowDataanalyst|AIR&DLovepodcastsoraudiobooks?Learnonthegowithournewapp.TryKnowableGetstartedMomusChao147FollowersDataanalyst|AIR&DFollowMorefromMediumRufatDostTheNecessityandConscientiousnessofPainAnnieRetrospect.ThoughtsandViews…EASTLIFEHeartbreakandawriter Isheartbreakthegreatestcontributingfactortobeawriter ?StefCaraguelGuidelinesforhealthyeatingHelpStatusWritersBlogCareersPrivacyTermsAboutKnowable



請為這篇文章評分?