計算統計學簡介(Computational Statistics) - 陳鍾誠的網站
文章推薦指數: 80 %
機率分布乃是針對某些隨機變數之可能值,求其機率所得到的機率函數。
通常我們用符號P 代表機率分配,P(x) 代表x 樣本出現的機率。
機率源(Probability ...
Wikidot.com
.wikidot.com
Shareon
Edit
History
Tags
Source
Explore»
陳鍾誠的網站
金門大學:免費電子書、教材、程式、動畫
文章列表
最近修改
所有網頁
標記
相關網站
陳鍾誠的網站
系統程式
C#程式設計
陳鍾誠
關於陳鍾誠
陳鍾誠的信箱
陳鍾誠的Facebook
陳鍾誠的網站
陳鍾誠的手機網
陳鍾誠的簡歷
陳鍾誠的Diigo
陳鍾誠的Youtube
Wikidot
網站管理
本站成員
標記
加入本站?
頂欄
側欄
樣版
Wikidot文件
Wikidot語法
WikidotModule
WikidotEmbedding
WikidotTemplate
WikidotLayout
CreateaccountorSignin
課程
兩岸產業
網路資源
網路程式
開放原碼
動畫設計
研究專題
書籍
系統程式
C#程式設計
Blender動畫設計
作品
程式
論文
動畫
文章
新詩
故事
歷史
研究
研究
衛星遊戲
人工智慧
網路出版
機器翻譯
興趣
閱讀
寫作
影片
關注
學習
常用
生活
網站
手機版
手機最愛
Diigo
Twitter
Facebook
Scribd
Youtube
Kmit
ping
GAE
金門不動產
手機入口網
大學課程網
rating: 0+x
計算統計學簡介(ComputationalStatistics)
機率統計
教學錄影
數學符號
數學基礎
排列組合
機率統計簡介
機率
機率公理
隨機變數
連續測度
單一分布
條件機率
聯合分布
貝氏定理
動差生成函數
特徵函數
機率法則匯總
離散分布
二項分布
多項分布
負二項分布
幾何分布
超幾何分布
布瓦松分布
連續分布
均勻分布
常態分布
Gamma分布
指數分布
卡方分布
柯西分布
Weibull分布
T分布
F分布
Beta分布
多維分布
統計
抽樣
敘述統計
推論統計
中央極限定理
估計方法
單組樣本估計
兩組樣本估計
檢定方法
單組樣本檢定
兩組樣本檢定
平均値的推論
變異數的推論
無母數推論
迴歸分析
變異數分析
實驗設計
因子實驗
品質管制
時間序列
數據分類
統計定理匯總
統計情況分類
計算統計
蒙地卡羅法
最大似然法則
假說與學習
EM算法
簡單貝氏分類
貝氏網路
隨機過程
馬可夫鏈
蒙地卡羅馬可夫
資源
範例
投影片
教學錄影
練習題
考題解答
訊息
相關網站
參考文獻
最新修改
簡體版
English
文章
留言
授權
簡介
計算統計學乃是研究如何用電腦程式尋找統計模型的學問,其方法主要是將假說(hypothesis)的概念融入到機率分布當中,利用『最大似然法則』(MaximumLikelihood)或者『最大熵法則』(MaximumEntropy)進行最佳化的尋找,以便學習出良好的機率模型。
這種學習出來的良好機率模型,可以用來預測下一個樣本出現的機率。
當程式找出良好的機率模型之後,就可以利用『最大效用法則』,找出最有利的理性決策。
舉例而言,我們可以透過下列的EM演算法公式,學習出機器翻譯系統所使用的良好機率模型P(h,z)。
(1)
\begin{align}\arg\max_h\sum_{z}P(z|c,e,h)L(z,c|e,h)\end{align}
在上述的公式中,c代表中文語句,e代表英文語句,z代表隱變數,h則是假說(通常是一組機率參數)。
然後再利用該機率模型,再透過下列的最佳化程序,找出最符合輸入英文語句e的中文翻譯語句,然後將該英文語句翻譯為中文語句c。
(2)
\begin{align}\arg\max_{c}P(c|e,z,h)\end{align}
或許讀者現在還無法理解上述公式的意義,但是應該可以從這個範例感覺到計算統計學理論的強大威力。
這個威力來自於計算統計學的強大數學理論,以及現代計算機的超快速度。
當然,其中的數學也是相當複雜的,需要用到許多變數。
因此,我們有必要再進入這個領域之前先釐清一些數學符號,否則,在引入假說等概念時,將會導致數學符號的過度複雜,因而難以理解其背後隱藏的概念。
即使你已經學過機率與統計,也請先耐心的看完下一節的基本機率符號,否則可能無法理解後續的內容。
計算統計中的機率理論
隨機試驗(RandomExperiment)
舉凡觀察、實驗、調查、檢驗、抽樣等,階可稱為隨機試驗。
隨機試驗會產生一連串的樣本點,通常我們用符號$x_1x_2....x_n$代表這種實驗產生的樣本串列。
樣本空間(SampleSpace)
一個隨機試驗之各種可能結果的集合,稱為樣本空間,數學上通常以大寫字母,像是S,X,Y等符號表示。
樣本點(SamplePoint)
樣本空間內的一個元素,稱為樣本點,或稱樣本(Sample),數學上通常以小寫字母,像是s,x,y等符號表示。
事件(Event)
乃是樣本空間的子集合,包含單一樣本的事件稱為簡單事件,包含兩個以上樣本的事件稱為複合事件。
隨機變數(RandomVariable)
隨機變數是以樣本空間為定義域的實數值函數,舉例而言,如果我們用隨機變數X代表投擲兩次銅板時正面(1)出現的次數,那麼隨機變數X的函數定義如下X(00)=0,X(01)=1,X(10)=1,X(11)=2。
機率分布(ProbabilityDistribution)
機率分布乃是針對某些隨機變數之可能值,求其機率所得到的機率函數。
通常我們用符號P代表機率分配,P(x)代表x樣本出現的機率。
機率源(ProbabilitySource)
一個產生某隨機變數之樣本點的隨機產生器,稱為機率源,像是我們所生活的世界就是個複雜的機率源,而電腦的亂數產生器也是一種機率源。
這是一個從整數領域映射到樣本點的函數$X(1..n)=[x_1,...,x_n]$,代表產生該隨機實驗的系統或函數(在機率的書籍中我還沒有看過機率源這個名詞,這個名詞是筆者為了方便而定義的)。
澄清幾個容易混淆的觀念
由於隨機變數是一個函數,會將樣本隨機實驗的結果映射到某個值域,因此被映射到同一目標值的樣本點會形成一個集合,而樣本點的集合在機率理論中被稱為事件,於是隨機變數也經常被用來代表事件,像是在投擲兩次銅板的例子中,x=0代表事件{00},x=1代表事件{01,10},x=2代表事件{11}。
況且,包含一個樣本的事件計被稱為簡單事件,但實際上又通常以該樣本符號x所表示,例如在投擲兩次銅板的例子中,我們可以用x=00代表出現兩次反面的『樣本點』,也可以用x=00代表出現兩次反面的『事件』,又可以用x=00來代表兩次隨機實驗的結果,因為$x=x_1x_2=00$。
因此,為了避免數學符號過於複雜,我們通常用單一的小寫符號x同時代表『樣本點』、『事件』與映射到該樣本點的『隨機變數』,在不特別指明的情況之下,將這些概念用同樣的符號表示。
也就是在符號上採用下列方式。
x:代表樣本點x,事件E={x}或隨機變數X(x)=x
同樣的,我們也很難在數學符號上去區分機率源X(),樣本空間X與隨機變數X(x)=x,因此,我們也將這兩個概念用同樣的大寫符號X表示。
X:代表機率源X(),樣本空間X或隨機變數X(x)=x,
對於某機率源所定義的隨機序列,通常也與隨機試驗無法區分開來,我們會以下列符號表示。
$x_1x_2....x_n$:代表隨機試驗序列或者機率源X所產生的序列。
對於產生樣本序列$x_1x_2,...,x_n$的機率源X,我們通常以大寫字母P代表產生樣本x所有可能機率分布。
同樣的,當我們想要代表某個特定的機率分布時,我們會用小寫的p代表。
但是,機率源本身所具有的機率分布,我們也同樣用大寫的P代表,雖然這個分部實際上是一個特定的機率分布。
當我們想透過隨機試驗想要找出機率源的分布時,我們可能會從許多種可能的機率分布${p_1,p_2,...,p_n}$當中挑選出一個機率分布作為機率模型,
p:代表特定的機率分布,
$P=\{p_1,p_2,...,p_n\}$:代表機率分布的集合,或者是機率源的真實分布,或者作用在所有隨機變數上的機率系統機率分布。
計算統計學中的假說
有時候,我們會將假說的概念h放入機率分布函數中,當成機率分布的參數之一,例如P(x,h)其實代表了由h假說所決定的一個機率特定機率分布p,作用在樣本x上的結果。
在具有假說h的情況之下,P(h)代表由假說h所決定的一個機率分布,這是一個特定的機率分布,按照上述規則,原本應該用某個小寫的p所代表,但是由於引入了函數形式的關係,我們用P(h)代表該假說所決定的特定機率分布。
大寫的P符號通常則代表假說$P(h_1),P(h_2),...P(h_n)$所形成的機率分布集合,計算統計學的主要任務是找出最好的假說,以便用該假說的機率分布進行預測。
這個尋找最佳假說的過程可用下列公式表達。
(3)
\begin{eqnarray}&&\arg\max_hP(h|x,y)\\&=&\arg\max_hP(x,y|h)\frac{P(h)}{P(x,y)}&;by\,bayes\,theorem\\\end{eqnarray}
計算統計學通常會用程式(演算法)尋找最符合訓練資料$(x_1,y_1)(x_2,y_2)....,(x_n,y_n)$的假說P(h),這個過程稱為學習。
當電腦完成學習的程序之後,就可以利用P(h)預測整個系統的下一個輸出之機率。
通常在預測進行時系統會取得某些輸入值x,然後再利用該輸入值找到一個最可能的輸出值,也就是找到讓P(y|x,h)最大的輸出y,因此整個預測程序仍然是一個最佳化的過程,如下列公式所示。
(4)
\begin{align}\arg\max_yP(y|x,h)\end{align}
結語
計算統計學是一個數學當中相當有應用潛力的領域,目的在尋找適當的假說以便用來預測某些答案。
透過訓練的方式,我們可以找出一組機率模型,用來做『分群、分類、翻譯、語料庫對齊、經濟預測』等應用,因此,凡是能應用機率模型的領域,幾乎都可以應用計算統計學的理論與技術,這在電腦的應用上是一個強大的工具。
Facebook
Facebook
Wikidot
ShowComments
AddaNewComment
Postpreview:
Closepreview
orSigninasWikidotuser
(willnotbepublished)
-
+
Help:wikitextquickreference
PermanentLink
Edit
Delete
本網頁的作者、授權與引用方式
作者
陳鍾誠,於金門大學資訊工程系,電子郵件:wt.ude.uqn|ccc#wt.ude.uqn|ccc,網站:http://ccckmit.wikidot.com。
授權
本文採用創作共用(CreativeCommon)3.0版的姓名標示─非商業性─相同方式分享授權條款,歡迎轉載或修改使用,但若做為商業使用時必須取得授權,引用本文時請參考下列格式。
中文版(APA格式)
陳鍾誠(24Dec200909:17),(網頁標題)計算統計學簡介(ComputationalStatistics),(網站標題)陳鍾誠的網站,取自http://ccckmit.wikidot.com/st:computationalstatistics,網頁修改第38版。
英文版(APA格式)
Chung-ChenChen(24Dec200909:17),Retrievedfromhttp://ccckmit.wikidot.com/st:computationalstatistics,PageRevision38.
pagerevision:38,lastedited:25Aug201107:11
Edit
Rate(0)
Tags
Discuss(0)
History
Files
Print
Sitetools
+ Options
EditSections
Append
EditMeta
Watchers
Backlinks
PageSource
Parent
LockPage
Rename
Delete
Help
|
TermsofService
|
Privacy
|
Reportabug
|
Flagasobjectionable
PoweredbyWikidot.com
Unlessotherwisestated,thecontentofthispageislicensedunderCreativeCommonsAttribution-NonCommercial-ShareAlike3.0License
Otherinterestingsites
ПарламентаризмРоссии
Всёопарламентеипарламентариях
DDSCAT
LightScatteringCode
BozicNation
ΚΣΕΜΟΥΔΑΝΙΩΝΕπιμόρφωσηΒ'Επιπέδου
«Όποιοςτολμάειναδιδάξειδενπρέπειποτέναπάψειναμαθαίνει»JohnCottonDana
Clickheretoeditcontentsofthispage.
Clickheretotoggleeditingofindividualsectionsofthepage(ifpossible).Watchheadingsforan"edit"linkwhenavailable.
Appendcontentwithouteditingthewholepagesource.
Checkouthowthispagehasevolvedinthepast.
Ifyouwanttodiscusscontentsofthispage-thisistheeasiestwaytodoit.
Viewandmanagefileattachmentsforthispage.
AfewusefultoolstomanagethisSite.
Seepagesthatlinktoandincludethispage.
Changethename(alsoURLaddress,possiblythecategory)ofthepage.
Viewwikisourceforthispagewithoutediting.
View/setparentpage(usedforcreatingbreadcrumbsandstructuredlayout).
Notifyadministratorsifthereisobjectionablecontentinthispage.
Somethingdoesnotworkasexpected?Findoutwhatyoucando.
GeneralWikidot.comdocumentationandhelpsection.
Wikidot.comTermsofService-whatyoucan,whatyoushouldnotetc.
Wikidot.comPrivacyPolicy.
延伸文章資訊
- 1【概率統計】統計學符號大全 - 程式前沿
G · 幾何均數;對數似然比檢驗的統計量, H ; Hg, 檢驗假設,無效假設, H1 ; i, 組距;行次, L ; M · 中位數, N ; n, 樣本含量;各樣本含量的總和, P ...
- 2英文字母符號或縮寫查詢
英文字母符號或縮寫( 直接點選連結), 定義. ANOVA (analysis of variance), 變異數分析 ... N, 母體個數. p, 泛指「機率」 通常是指統計上顯著檢定時用的...
- 3統計符號和概率符號(μ,σ,...) - RT
- 4統計
教育部公布[統計學名詞]及CNS 2579[品質管制詞彙]均將standard deviation譯 ... P〔z≦za 〕為標準常態分配之累積機率,可由(15)式計算,人工作業實務上,係由查...
- 5條件機率- 維基百科,自由的百科全書
條件機率表示為P(A|B),讀作「A在B發生的條件下發生的機率」。 ... 在他的《數學盲》一書中指出醫生、律師以及其他受過很好教育的非統計學家經常會犯這樣的錯誤。