計算統計學簡介(Computational Statistics) - 陳鍾誠的網站

文章推薦指數: 80 %
投票人數:10人

機率分布乃是針對某些隨機變數之可能值,求其機率所得到的機率函數。

通常我們用符號P 代表機率分配,P(x) 代表x 樣本出現的機率。

機率源(Probability ... Wikidot.com .wikidot.com Shareon Edit History Tags Source Explore»   陳鍾誠的網站 金門大學:免費電子書、教材、程式、動畫 文章列表 最近修改 所有網頁 標記 相關網站 陳鍾誠的網站 系統程式 C#程式設計 陳鍾誠 關於陳鍾誠 陳鍾誠的信箱 陳鍾誠的Facebook 陳鍾誠的網站 陳鍾誠的手機網 陳鍾誠的簡歷 陳鍾誠的Diigo 陳鍾誠的Youtube Wikidot 網站管理 本站成員 標記 加入本站? 頂欄 側欄 樣版 Wikidot文件 Wikidot語法 WikidotModule WikidotEmbedding WikidotTemplate WikidotLayout CreateaccountorSignin 課程 兩岸產業 網路資源 網路程式 開放原碼 動畫設計 研究專題 書籍 系統程式 C#程式設計 Blender動畫設計 作品 程式 論文 動畫 文章 新詩 故事 歷史 研究 研究 衛星遊戲 人工智慧 網路出版 機器翻譯 興趣 閱讀 寫作 影片 關注 學習 常用 生活 網站 手機版 手機最愛 Diigo Twitter Facebook Scribd Youtube Kmit ping GAE 金門不動產 手機入口網 大學課程網 rating: 0+x 計算統計學簡介(ComputationalStatistics) 機率統計 教學錄影 數學符號 數學基礎 排列組合 機率統計簡介 機率 機率公理 隨機變數 連續測度 單一分布 條件機率 聯合分布 貝氏定理 動差生成函數 特徵函數 機率法則匯總 離散分布 二項分布 多項分布 負二項分布 幾何分布 超幾何分布 布瓦松分布 連續分布 均勻分布 常態分布 Gamma分布 指數分布 卡方分布 柯西分布 Weibull分布 T分布 F分布 Beta分布 多維分布 統計 抽樣 敘述統計 推論統計 中央極限定理 估計方法 單組樣本估計 兩組樣本估計 檢定方法 單組樣本檢定 兩組樣本檢定 平均値的推論 變異數的推論 無母數推論 迴歸分析 變異數分析 實驗設計 因子實驗 品質管制 時間序列 數據分類 統計定理匯總 統計情況分類 計算統計 蒙地卡羅法 最大似然法則 假說與學習 EM算法 簡單貝氏分類 貝氏網路 隨機過程 馬可夫鏈 蒙地卡羅馬可夫 資源 範例 投影片 教學錄影 練習題 考題解答 訊息 相關網站 參考文獻 最新修改 簡體版 English 文章 留言 授權 簡介 計算統計學乃是研究如何用電腦程式尋找統計模型的學問,其方法主要是將假說(hypothesis)的概念融入到機率分布當中,利用『最大似然法則』(MaximumLikelihood)或者『最大熵法則』(MaximumEntropy)進行最佳化的尋找,以便學習出良好的機率模型。

這種學習出來的良好機率模型,可以用來預測下一個樣本出現的機率。

當程式找出良好的機率模型之後,就可以利用『最大效用法則』,找出最有利的理性決策。

舉例而言,我們可以透過下列的EM演算法公式,學習出機器翻譯系統所使用的良好機率模型P(h,z)。

(1) \begin{align}\arg\max_h\sum_{z}P(z|c,e,h)L(z,c|e,h)\end{align} 在上述的公式中,c代表中文語句,e代表英文語句,z代表隱變數,h則是假說(通常是一組機率參數)。

然後再利用該機率模型,再透過下列的最佳化程序,找出最符合輸入英文語句e的中文翻譯語句,然後將該英文語句翻譯為中文語句c。

(2) \begin{align}\arg\max_{c}P(c|e,z,h)\end{align} 或許讀者現在還無法理解上述公式的意義,但是應該可以從這個範例感覺到計算統計學理論的強大威力。

這個威力來自於計算統計學的強大數學理論,以及現代計算機的超快速度。

當然,其中的數學也是相當複雜的,需要用到許多變數。

因此,我們有必要再進入這個領域之前先釐清一些數學符號,否則,在引入假說等概念時,將會導致數學符號的過度複雜,因而難以理解其背後隱藏的概念。

即使你已經學過機率與統計,也請先耐心的看完下一節的基本機率符號,否則可能無法理解後續的內容。

計算統計中的機率理論 隨機試驗(RandomExperiment) 舉凡觀察、實驗、調查、檢驗、抽樣等,階可稱為隨機試驗。

隨機試驗會產生一連串的樣本點,通常我們用符號$x_1x_2....x_n$代表這種實驗產生的樣本串列。

樣本空間(SampleSpace) 一個隨機試驗之各種可能結果的集合,稱為樣本空間,數學上通常以大寫字母,像是S,X,Y等符號表示。

樣本點(SamplePoint) 樣本空間內的一個元素,稱為樣本點,或稱樣本(Sample),數學上通常以小寫字母,像是s,x,y等符號表示。

事件(Event) 乃是樣本空間的子集合,包含單一樣本的事件稱為簡單事件,包含兩個以上樣本的事件稱為複合事件。

隨機變數(RandomVariable) 隨機變數是以樣本空間為定義域的實數值函數,舉例而言,如果我們用隨機變數X代表投擲兩次銅板時正面(1)出現的次數,那麼隨機變數X的函數定義如下X(00)=0,X(01)=1,X(10)=1,X(11)=2。

機率分布(ProbabilityDistribution) 機率分布乃是針對某些隨機變數之可能值,求其機率所得到的機率函數。

通常我們用符號P代表機率分配,P(x)代表x樣本出現的機率。

機率源(ProbabilitySource) 一個產生某隨機變數之樣本點的隨機產生器,稱為機率源,像是我們所生活的世界就是個複雜的機率源,而電腦的亂數產生器也是一種機率源。

這是一個從整數領域映射到樣本點的函數$X(1..n)=[x_1,...,x_n]$,代表產生該隨機實驗的系統或函數(在機率的書籍中我還沒有看過機率源這個名詞,這個名詞是筆者為了方便而定義的)。

澄清幾個容易混淆的觀念 由於隨機變數是一個函數,會將樣本隨機實驗的結果映射到某個值域,因此被映射到同一目標值的樣本點會形成一個集合,而樣本點的集合在機率理論中被稱為事件,於是隨機變數也經常被用來代表事件,像是在投擲兩次銅板的例子中,x=0代表事件{00},x=1代表事件{01,10},x=2代表事件{11}。

況且,包含一個樣本的事件計被稱為簡單事件,但實際上又通常以該樣本符號x所表示,例如在投擲兩次銅板的例子中,我們可以用x=00代表出現兩次反面的『樣本點』,也可以用x=00代表出現兩次反面的『事件』,又可以用x=00來代表兩次隨機實驗的結果,因為$x=x_1x_2=00$。

因此,為了避免數學符號過於複雜,我們通常用單一的小寫符號x同時代表『樣本點』、『事件』與映射到該樣本點的『隨機變數』,在不特別指明的情況之下,將這些概念用同樣的符號表示。

也就是在符號上採用下列方式。

x:代表樣本點x,事件E={x}或隨機變數X(x)=x 同樣的,我們也很難在數學符號上去區分機率源X(),樣本空間X與隨機變數X(x)=x,因此,我們也將這兩個概念用同樣的大寫符號X表示。

X:代表機率源X(),樣本空間X或隨機變數X(x)=x, 對於某機率源所定義的隨機序列,通常也與隨機試驗無法區分開來,我們會以下列符號表示。

$x_1x_2....x_n$:代表隨機試驗序列或者機率源X所產生的序列。

對於產生樣本序列$x_1x_2,...,x_n$的機率源X,我們通常以大寫字母P代表產生樣本x所有可能機率分布。

同樣的,當我們想要代表某個特定的機率分布時,我們會用小寫的p代表。

但是,機率源本身所具有的機率分布,我們也同樣用大寫的P代表,雖然這個分部實際上是一個特定的機率分布。

當我們想透過隨機試驗想要找出機率源的分布時,我們可能會從許多種可能的機率分布${p_1,p_2,...,p_n}$當中挑選出一個機率分布作為機率模型, p:代表特定的機率分布, $P=\{p_1,p_2,...,p_n\}$:代表機率分布的集合,或者是機率源的真實分布,或者作用在所有隨機變數上的機率系統機率分布。

計算統計學中的假說 有時候,我們會將假說的概念h放入機率分布函數中,當成機率分布的參數之一,例如P(x,h)其實代表了由h假說所決定的一個機率特定機率分布p,作用在樣本x上的結果。

在具有假說h的情況之下,P(h)代表由假說h所決定的一個機率分布,這是一個特定的機率分布,按照上述規則,原本應該用某個小寫的p所代表,但是由於引入了函數形式的關係,我們用P(h)代表該假說所決定的特定機率分布。

大寫的P符號通常則代表假說$P(h_1),P(h_2),...P(h_n)$所形成的機率分布集合,計算統計學的主要任務是找出最好的假說,以便用該假說的機率分布進行預測。

這個尋找最佳假說的過程可用下列公式表達。

(3) \begin{eqnarray}&&\arg\max_hP(h|x,y)\\&=&\arg\max_hP(x,y|h)\frac{P(h)}{P(x,y)}&;by\,bayes\,theorem\\\end{eqnarray} 計算統計學通常會用程式(演算法)尋找最符合訓練資料$(x_1,y_1)(x_2,y_2)....,(x_n,y_n)$的假說P(h),這個過程稱為學習。

當電腦完成學習的程序之後,就可以利用P(h)預測整個系統的下一個輸出之機率。

通常在預測進行時系統會取得某些輸入值x,然後再利用該輸入值找到一個最可能的輸出值,也就是找到讓P(y|x,h)最大的輸出y,因此整個預測程序仍然是一個最佳化的過程,如下列公式所示。

(4) \begin{align}\arg\max_yP(y|x,h)\end{align} 結語 計算統計學是一個數學當中相當有應用潛力的領域,目的在尋找適當的假說以便用來預測某些答案。

透過訓練的方式,我們可以找出一組機率模型,用來做『分群、分類、翻譯、語料庫對齊、經濟預測』等應用,因此,凡是能應用機率模型的領域,幾乎都可以應用計算統計學的理論與技術,這在電腦的應用上是一個強大的工具。

Facebook Facebook Wikidot ShowComments AddaNewComment Postpreview: Closepreview orSigninasWikidotuser (willnotbepublished) - + Help:wikitextquickreference PermanentLink Edit Delete 本網頁的作者、授權與引用方式 作者 陳鍾誠,於金門大學資訊工程系,電子郵件:wt.ude.uqn|ccc#wt.ude.uqn|ccc,網站:http://ccckmit.wikidot.com。

授權 本文採用創作共用(CreativeCommon)3.0版的姓名標示─非商業性─相同方式分享授權條款,歡迎轉載或修改使用,但若做為商業使用時必須取得授權,引用本文時請參考下列格式。

中文版(APA格式) 陳鍾誠(24Dec200909:17),(網頁標題)計算統計學簡介(ComputationalStatistics),(網站標題)陳鍾誠的網站,取自http://ccckmit.wikidot.com/st:computationalstatistics,網頁修改第38版。

英文版(APA格式) Chung-ChenChen(24Dec200909:17),Retrievedfromhttp://ccckmit.wikidot.com/st:computationalstatistics,PageRevision38. pagerevision:38,lastedited:25Aug201107:11 Edit Rate(0) Tags Discuss(0) History Files Print Sitetools + Options EditSections Append EditMeta Watchers Backlinks PageSource Parent LockPage Rename Delete Help  | TermsofService  | Privacy  | Reportabug  | Flagasobjectionable PoweredbyWikidot.com Unlessotherwisestated,thecontentofthispageislicensedunderCreativeCommonsAttribution-NonCommercial-ShareAlike3.0License Otherinterestingsites ПарламентаризмРоссии Всёопарламентеипарламентариях DDSCAT LightScatteringCode BozicNation ΚΣΕΜΟΥΔΑΝΙΩΝΕπιμόρφωσηΒ'Επιπέδου «Όποιοςτολμάειναδιδάξειδενπρέπειποτέναπάψειναμαθαίνει»JohnCottonDana Clickheretoeditcontentsofthispage. Clickheretotoggleeditingofindividualsectionsofthepage(ifpossible).Watchheadingsforan"edit"linkwhenavailable. Appendcontentwithouteditingthewholepagesource. Checkouthowthispagehasevolvedinthepast. Ifyouwanttodiscusscontentsofthispage-thisistheeasiestwaytodoit. Viewandmanagefileattachmentsforthispage. AfewusefultoolstomanagethisSite. Seepagesthatlinktoandincludethispage. Changethename(alsoURLaddress,possiblythecategory)ofthepage. Viewwikisourceforthispagewithoutediting. View/setparentpage(usedforcreatingbreadcrumbsandstructuredlayout). Notifyadministratorsifthereisobjectionablecontentinthispage. Somethingdoesnotworkasexpected?Findoutwhatyoucando. GeneralWikidot.comdocumentationandhelpsection. Wikidot.comTermsofService-whatyoucan,whatyoushouldnotetc. Wikidot.comPrivacyPolicy.



請為這篇文章評分?