計算統計學簡介(Computational Statistics) - 陳鍾誠的網站

2024-11-19

文章推薦指數： 80 %

投票人數：10人

機率分布乃是針對某些隨機變數之可能值，求其機率所得到的機率函數。

通常我們用符號P 代表機率分配，P(x) 代表x 樣本出現的機率。

機率源(Probability ... Wikidot.com .wikidot.com Shareon Edit History Tags Source Explore» 陳鍾誠的網站金門大學：免費電子書、教材、程式、動畫文章列表最近修改所有網頁標記相關網站陳鍾誠的網站系統程式 C#程式設計陳鍾誠關於陳鍾誠陳鍾誠的信箱陳鍾誠的Facebook 陳鍾誠的網站陳鍾誠的手機網陳鍾誠的簡歷陳鍾誠的Diigo 陳鍾誠的Youtube Wikidot 網站管理本站成員標記加入本站? 頂欄側欄樣版 Wikidot文件 Wikidot語法 WikidotModule WikidotEmbedding WikidotTemplate WikidotLayout CreateaccountorSignin 課程兩岸產業網路資源網路程式開放原碼動畫設計研究專題書籍系統程式 C#程式設計 Blender動畫設計作品程式論文動畫文章新詩故事歷史研究研究衛星遊戲人工智慧網路出版機器翻譯興趣閱讀寫作影片關注學習常用生活網站手機版手機最愛 Diigo Twitter Facebook Scribd Youtube Kmit ping GAE 金門不動產手機入口網大學課程網 rating: 0+x 計算統計學簡介(ComputationalStatistics) 機率統計教學錄影數學符號數學基礎排列組合機率統計簡介機率機率公理隨機變數連續測度單一分布條件機率聯合分布貝氏定理動差生成函數特徵函數機率法則匯總離散分布二項分布多項分布負二項分布幾何分布超幾何分布布瓦松分布連續分布均勻分布常態分布 Gamma分布指數分布卡方分布柯西分布 Weibull分布 T分布 F分布 Beta分布多維分布統計抽樣敘述統計推論統計中央極限定理估計方法單組樣本估計兩組樣本估計檢定方法單組樣本檢定兩組樣本檢定平均値的推論變異數的推論無母數推論迴歸分析變異數分析實驗設計因子實驗品質管制時間序列數據分類統計定理匯總統計情況分類計算統計蒙地卡羅法最大似然法則假說與學習 EM算法簡單貝氏分類貝氏網路隨機過程馬可夫鏈蒙地卡羅馬可夫資源範例投影片教學錄影練習題考題解答訊息相關網站參考文獻最新修改簡體版 English 文章留言授權簡介計算統計學乃是研究如何用電腦程式尋找統計模型的學問，其方法主要是將假說(hypothesis)的概念融入到機率分布當中，利用『最大似然法則』(MaximumLikelihood)或者『最大熵法則』(MaximumEntropy)進行最佳化的尋找，以便學習出良好的機率模型。

這種學習出來的良好機率模型，可以用來預測下一個樣本出現的機率。

當程式找出良好的機率模型之後，就可以利用『最大效用法則』，找出最有利的理性決策。

舉例而言，我們可以透過下列的EM演算法公式，學習出機器翻譯系統所使用的良好機率模型P(h,z)。

(1) \begin{align}\arg\max_h\sum_{z}P(z|c,e,h)L(z,c|e,h)\end{align} 在上述的公式中，c代表中文語句,e代表英文語句，z代表隱變數，h則是假說(通常是一組機率參數)。

然後再利用該機率模型，再透過下列的最佳化程序，找出最符合輸入英文語句e的中文翻譯語句，然後將該英文語句翻譯為中文語句c。

(2) \begin{align}\arg\max_{c}P(c|e,z,h)\end{align} 或許讀者現在還無法理解上述公式的意義，但是應該可以從這個範例感覺到計算統計學理論的強大威力。

這個威力來自於計算統計學的強大數學理論，以及現代計算機的超快速度。

當然，其中的數學也是相當複雜的，需要用到許多變數。

因此，我們有必要再進入這個領域之前先釐清一些數學符號，否則，在引入假說等概念時，將會導致數學符號的過度複雜，因而難以理解其背後隱藏的概念。

即使你已經學過機率與統計，也請先耐心的看完下一節的基本機率符號，否則可能無法理解後續的內容。

計算統計中的機率理論隨機試驗(RandomExperiment) 舉凡觀察、實驗、調查、檢驗、抽樣等，階可稱為隨機試驗。

隨機試驗會產生一連串的樣本點，通常我們用符號$x_1x_2....x_n$代表這種實驗產生的樣本串列。

樣本空間(SampleSpace) 一個隨機試驗之各種可能結果的集合，稱為樣本空間，數學上通常以大寫字母，像是S,X,Y等符號表示。

樣本點(SamplePoint) 樣本空間內的一個元素，稱為樣本點，或稱樣本(Sample)，數學上通常以小寫字母，像是s,x,y等符號表示。

事件(Event) 乃是樣本空間的子集合，包含單一樣本的事件稱為簡單事件，包含兩個以上樣本的事件稱為複合事件。

隨機變數(RandomVariable) 隨機變數是以樣本空間為定義域的實數值函數，舉例而言，如果我們用隨機變數X代表投擲兩次銅板時正面(1)出現的次數，那麼隨機變數X的函數定義如下X(00)=0,X(01)=1,X(10)=1,X(11)=2。

機率分布(ProbabilityDistribution) 機率分布乃是針對某些隨機變數之可能值，求其機率所得到的機率函數。

通常我們用符號P代表機率分配，P(x)代表x樣本出現的機率。

機率源(ProbabilitySource) 一個產生某隨機變數之樣本點的隨機產生器，稱為機率源，像是我們所生活的世界就是個複雜的機率源，而電腦的亂數產生器也是一種機率源。

這是一個從整數領域映射到樣本點的函數$X(1..n)=[x_1,...,x_n]$，代表產生該隨機實驗的系統或函數(在機率的書籍中我還沒有看過機率源這個名詞，這個名詞是筆者為了方便而定義的)。

澄清幾個容易混淆的觀念由於隨機變數是一個函數，會將樣本隨機實驗的結果映射到某個值域，因此被映射到同一目標值的樣本點會形成一個集合，而樣本點的集合在機率理論中被稱為事件，於是隨機變數也經常被用來代表事件，像是在投擲兩次銅板的例子中，x=0代表事件{00},x=1代表事件{01,10},x=2代表事件{11}。

況且，包含一個樣本的事件計被稱為簡單事件，但實際上又通常以該樣本符號x所表示，例如在投擲兩次銅板的例子中，我們可以用x=00代表出現兩次反面的『樣本點』，也可以用x=00代表出現兩次反面的『事件』，又可以用x=00來代表兩次隨機實驗的結果，因為$x=x_1x_2=00$。

因此，為了避免數學符號過於複雜，我們通常用單一的小寫符號x同時代表『樣本點』、『事件』與映射到該樣本點的『隨機變數』，在不特別指明的情況之下，將這些概念用同樣的符號表示。

也就是在符號上採用下列方式。

x:代表樣本點x,事件E={x}或隨機變數X(x)=x 同樣的，我們也很難在數學符號上去區分機率源X(),樣本空間X與隨機變數X(x)=x，因此，我們也將這兩個概念用同樣的大寫符號X表示。

X:代表機率源X(),樣本空間X或隨機變數X(x)=x，對於某機率源所定義的隨機序列，通常也與隨機試驗無法區分開來，我們會以下列符號表示。

$x_1x_2....x_n$:代表隨機試驗序列或者機率源X所產生的序列。

對於產生樣本序列$x_1x_2,...,x_n$的機率源X，我們通常以大寫字母P代表產生樣本x所有可能機率分布。

同樣的，當我們想要代表某個特定的機率分布時，我們會用小寫的p代表。

但是，機率源本身所具有的機率分布，我們也同樣用大寫的P代表，雖然這個分部實際上是一個特定的機率分布。

當我們想透過隨機試驗想要找出機率源的分布時，我們可能會從許多種可能的機率分布${p_1,p_2,...,p_n}$當中挑選出一個機率分布作為機率模型， p:代表特定的機率分布， $P=\{p_1,p_2,...,p_n\}$:代表機率分布的集合，或者是機率源的真實分布，或者作用在所有隨機變數上的機率系統機率分布。

計算統計學中的假說有時候，我們會將假說的概念h放入機率分布函數中，當成機率分布的參數之一，例如P(x,h)其實代表了由h假說所決定的一個機率特定機率分布p，作用在樣本x上的結果。

在具有假說h的情況之下，P(h)代表由假說h所決定的一個機率分布，這是一個特定的機率分布，按照上述規則，原本應該用某個小寫的p所代表，但是由於引入了函數形式的關係，我們用P(h)代表該假說所決定的特定機率分布。

大寫的P符號通常則代表假說$P(h_1),P(h_2),...P(h_n)$所形成的機率分布集合，計算統計學的主要任務是找出最好的假說，以便用該假說的機率分布進行預測。

這個尋找最佳假說的過程可用下列公式表達。

(3) \begin{eqnarray}&&\arg\max_hP(h|x,y)\\&=&\arg\max_hP(x,y|h)\frac{P(h)}{P(x,y)}&;by\,bayes\,theorem\\\end{eqnarray} 計算統計學通常會用程式(演算法)尋找最符合訓練資料$(x_1,y_1)(x_2,y_2)....,(x_n,y_n)$的假說P(h)，這個過程稱為學習。

當電腦完成學習的程序之後，就可以利用P(h)預測整個系統的下一個輸出之機率。

通常在預測進行時系統會取得某些輸入值x，然後再利用該輸入值找到一個最可能的輸出值，也就是找到讓P(y|x,h)最大的輸出y，因此整個預測程序仍然是一個最佳化的過程，如下列公式所示。

(4) \begin{align}\arg\max_yP(y|x,h)\end{align} 結語計算統計學是一個數學當中相當有應用潛力的領域，目的在尋找適當的假說以便用來預測某些答案。

透過訓練的方式，我們可以找出一組機率模型，用來做『分群、分類、翻譯、語料庫對齊、經濟預測』等應用，因此，凡是能應用機率模型的領域，幾乎都可以應用計算統計學的理論與技術，這在電腦的應用上是一個強大的工具。

Facebook Facebook Wikidot ShowComments AddaNewComment Postpreview: Closepreview orSigninasWikidotuser (willnotbepublished) - + Help:wikitextquickreference PermanentLink Edit Delete 本網頁的作者、授權與引用方式作者陳鍾誠，於金門大學資訊工程系，電子郵件：wt.ude.uqn|ccc#wt.ude.uqn|ccc，網站：http://ccckmit.wikidot.com。

授權本文採用創作共用(CreativeCommon)3.0版的姓名標示─非商業性─相同方式分享授權條款，歡迎轉載或修改使用，但若做為商業使用時必須取得授權，引用本文時請參考下列格式。

中文版(APA格式) 陳鍾誠(24Dec200909:17)，(網頁標題)計算統計學簡介(ComputationalStatistics)，(網站標題)陳鍾誠的網站，取自http://ccckmit.wikidot.com/st:computationalstatistics，網頁修改第38版。

英文版(APA格式) Chung-ChenChen(24Dec200909:17),Retrievedfromhttp://ccckmit.wikidot.com/st:computationalstatistics,PageRevision38. pagerevision:38,lastedited:25Aug201107:11 Edit Rate(0) Tags Discuss(0) History Files Print Sitetools + Options EditSections Append EditMeta Watchers Backlinks PageSource Parent LockPage Rename Delete Help | TermsofService | Privacy | Reportabug | Flagasobjectionable PoweredbyWikidot.com Unlessotherwisestated,thecontentofthispageislicensedunderCreativeCommonsAttribution-NonCommercial-ShareAlike3.0License Otherinterestingsites ПарламентаризмРоссии Всёопарламентеипарламентариях DDSCAT LightScatteringCode BozicNation ΚΣΕΜΟΥΔΑΝΙΩΝΕπιμόρφωσηΒ'Επιπέδου «Όποιοςτολμάειναδιδάξειδενπρέπειποτέναπάψειναμαθαίνει»JohnCottonDana Clickheretoeditcontentsofthispage. Clickheretotoggleeditingofindividualsectionsofthepage(ifpossible).Watchheadingsforan"edit"linkwhenavailable. Appendcontentwithouteditingthewholepagesource. Checkouthowthispagehasevolvedinthepast. Ifyouwanttodiscusscontentsofthispage-thisistheeasiestwaytodoit. Viewandmanagefileattachmentsforthispage. AfewusefultoolstomanagethisSite. Seepagesthatlinktoandincludethispage. Changethename(alsoURLaddress,possiblythecategory)ofthepage. Viewwikisourceforthispagewithoutediting. View/setparentpage(usedforcreatingbreadcrumbsandstructuredlayout). Notifyadministratorsifthereisobjectionablecontentinthispage. Somethingdoesnotworkasexpected?Findoutwhatyoucando. GeneralWikidot.comdocumentationandhelpsection. Wikidot.comTermsofService-whatyoucan,whatyoushouldnotetc. Wikidot.comPrivacyPolicy.

請為這篇文章評分？

延伸文章資訊

【概率統計】統計學符號大全 - 程式前沿

G · 幾何均數；對數似然比檢驗的統計量, H ; Hg, 檢驗假設，無效假設, H1 ; i, 組距；行次, L ; M · 中位數, N ; n, 樣本含量；各樣本含量的總和, P ...

英文字母符號或縮寫查詢

英文字母符號或縮寫( 直接點選連結), 定義. ANOVA (analysis of variance), 變異數分析 ... N, 母體個數. p, 泛指「機率」通常是指統計上顯著檢定時用的...

統計符號和概率符號（μ，σ，...） - RT

統計

教育部公布[統計學名詞]及CNS 2579[品質管制詞彙]均將standard deviation譯 ... P〔z≦za 〕為標準常態分配之累積機率，可由(15)式計算，人工作業實務上，係由查...

條件機率- 維基百科，自由的百科全書

條件機率表示為P（A|B），讀作「A在B發生的條件下發生的機率」。 ... 在他的《數學盲》一書中指出醫生、律師以及其他受過很好教育的非統計學家經常會犯這樣的錯誤。

計算統計學簡介(Computational Statistics) - 陳鍾誠的網站

文章推薦指數： 80 %

請為這篇文章評分？

延伸文章資訊

最新文章

相關網站資訊

更年期食療

更年期情緒

更年期症状

胰島素肥胖

胰島素阻抗

皮膚紅腫硬硬的

親子天下寶寶生活

毒品危害防制條例修法

抑鬱症安慰

應用寶

攝護腺

恐慌症睡覺

計算統計學簡介(Computational Statistics) - 陳鍾誠的網站

文章推薦指數： 80 %

請為這篇文章評分？

延伸文章資訊

最新文章

相關網站資訊

更年期食療

更年期情緒

更年期症状

胰島素肥胖

胰島素阻抗

皮膚紅腫硬硬的

親子天下 寶寶生活

毒品危害防制條例修法

抑鬱症安慰

應用寶

攝護腺

恐慌症睡覺

親子天下寶寶生活