筆記整理– 統計學(一) Statistics I - 難得糊塗
文章推薦指數: 80 %
使用了簡便公式來計算。
第五週➠ 第三章:機率. 內容. ◎ 機率基本概念介紹. ◎ 計數 ...
Skiptocontent
推薦兩們線上課程:
交大開放式學院–唐麗英–基礎統計學、統計學(二)
課程講解邏輯脈絡清晰、組織有條,容易幫我們建構一張統計學的學習藍圖。
👍
(未完,不定期更新內容)
第一週➠第一章:基本統計概念介紹
Introduction
BasicConcepts(基本概念)
第二週➠第一章:基本統計概念介紹
表示類別(定性)資料之次數分配
複習–什麼是統計學?
數據的取得方式
簡單隨機抽樣
系統抽樣
分層隨機抽樣
部落抽樣/ClusterSampling
第三週➠第二章–UsingNumericalMeasurestoDescribeData
如何以量化指標來展示資料(量測數據,量來的)
CentralTendency(orLocation)–集中趨勢
1.平均數(mean)=平衡點=重心
2.中位數(median)=中心
3.眾數(mode)
何時用平均數?何時用中位數,眾數?
Dispersion–分散趨勢
全距(Range,R)
變異數(Variance)
標準差(StandardDeviation,STD)
(相對)變異係數(CoefficientofVariation,CV)
第四週➠第二章–UsingNumericalMeasurestoDescribeData
Skewness–偏態係數
Kurtosis–峰態係數(名稱有「係數」者表示「無單位」)
非中趨勢
[重要]如何決定數據分佈之情形?
經驗法則TheEmpiricalRule(常用)
柴比雪夫法則TheChebyshev'sRule
共變異數/Covariance(少用)
相關係數(常用)
第五週➠第三章:機率
統計學分為敘述統計、推理統計
實驗–如丟銅板/骰子n次
樣本空間
事件
機率
解題步驟
CountingPrinciples
第六週➠第三章:機率
ProbabilityLaws
VennDiagram
Union
Intersection(交集)
ComplementaryEvent(互補)
ConditionalProbability條件機率
Independentevents
Mutuallyexclusiveevents
AdditionRule:
Bays'Theorem:貝氏定理
第七週➠第四章:離散型機率分佈
RandomVariables(R.V.)
累加機率
TheExpectedValueofaDiscreteR.V.(期望值,帶單位)
TheVarianceandStandardDeviationofaR.V.X
第一週➠第一章:基本統計概念介紹
內容
◎統計專有名詞與基本概念介紹
◎統計學的目的與統計工作流程
Introduction
什麼是統計學?
•讓數字說話的方法
•評估品質(Quality)的概念與方法(Concept+Methods)
第一堂課中,老師會解釋「什麼是統計」?
有時候,因為群體資料數量過多、或過於廣泛,我們無法取得完整群體資料,亦或無法辨認其中關係,因此,我們取其中樣本資料來分析,藉由樣本呈現的關係來推論群體資料間的關係,供決策參考。
舉例:
*統計學就像是煮一鍋綠豆湯,如何知道綠豆湯好喝?
*「好不好喝」跟什麼有關?
我們需要定義出「什麼是好喝?」的度量尺度,跟「品質」的特性有關:
1.甜度
2.豆之軟硬度
3.湯之濃度
4....
因此,如何用統計學判斷「綠豆湯好喝」為例,將步驟歸納成下表,前四點都有工具軟體可以處理,我們學習統計,最重要的是學會「如何分析、解釋」圖表呈現的關係、推論群體、作出決策!
統計學為
1.蒐集(資料):用概念、抽樣(RandomSamples)
2.整理:有無離群值?
3.展示:圖表
4.分析:估計,用指標、圖表、假設檢定(差異性比較)、迴歸分析、預測
5.解釋資料:解釋分析結果
6.藉由樣本推論群體(推理),在不確定的情況下作成「決策」:(低)誤差+(高)可信度的科學方法。
其中,當我們在搜集資料時,須注意此資料需要具「代表性」、需「隨機取樣」,同時比例分布也需要接近群體本身的資料分佈,譬如:
*群體中各類資料分佈比例:30%,20%,10%,5%,...
*隨機取樣時也需要按此比例,否則將造成偏頗(bias)樣本。
BasicConcepts(基本概念)
population(群體/母體)
由具有「共同特性」之個體所組成的整體。
例如:此製程全部晶圓厚度組成的資料。
sample(樣本)
群體之一部分。
例如:隨機一百片晶圓的厚度資料。
parameter(參數)
由「群體」資料所計算之群體「表徵值」
常用:
群體平均數:µ(讀作mu)
群體變異數:𝜎2(讀作sigmasquare)
群體標準差:𝜎
群體比例(比率):P
一般來說,因為我們不知群體,因此上述數值皆為未知,須由樣本來推估。
量測型數據:第1、3點
計數型數據:第4點(數來的數據)
statistic(統計量)
由「樣本」資料所計算之樣本「表徵值」
常用:
樣本平均數:(讀作x_bar),或記作(讀作µ_hat),注意:(µ=70)!=(=70)
樣本變異數:(或記作,)
樣本標準差:
樣本比例:(讀作p_hat)
例如:
*:所有晶圓之平均厚度
*:100片晶圓之平均厚度
TheObjectiveofStatistics(統計學的目的)
•由「樣本」資訊推論母體參數
Q:怎麼抽樣?
Q:怎麼估計?
Q:檢定方法?
統計學範圍
敘述統計(DescriptiveStatistics):
如何蒐集數據、展示數據、及找出可描述數據特徵之值的方法。
(搜集資料、整理資料、統計圖表、計算指標)
推論統計(InferentialStatistics):
如何由樣本資訊推論群體,並估計該推論知可信度大小的方法。
(估計、檢定)
解決統計問題之五大步驟:
Step
敘述
1.)
Acleardefinitionofquestiontobeansweredandthepopulationthatrelatestoit.
2.)
Thedesignoftheexperiment.
3.)
Thecollectionandanalysisofdata.
4.)
Theprocedureformakinginferences.
5.)
Theprovisionofameasureof"Goodness"(reliability)fortheinference.
RandomVariable(R.V,隨機變數)
R.VDataType分為:
Qualitative(定性)orCategorical(類別)data,即無法以數量表示,僅能依特性類別表之。
如:性別、國籍、造成產品變異之可能原因。
(低級)
QuantitativeRdata(定量)orNumerical(數值)data.即隨機變數的各結果可以「數量」表之。
A.Discretedata–由計數的方式取得。
(中級)
DefectiveItems不良品個數
Numberofstudentsinaclassroom
Defectcountsonawafer
B.Continuousdata–由量測的方式取得。
(高級)
weight
height
temperature
第二週➠第一章:基本統計概念介紹
內容
◎常用統計之圖表:條圖、柏拉圖、直方圖、莖葉圖、時間序列圖等
◎常用之抽樣方法:簡單隨機抽樣、系統抽樣、分層隨機抽樣、部落抽樣
表示類別(定性)資料之次數分配
條圖BarGraph
用來比較及對照不同時期或類別間差異(搭配計數型)
單圓圖/圓餅圖PieChart
柏拉圖/巴瑞多圖ParetoDiagram=條圖+肩形圖
品管七大工具之一
定性(類別型)資料最常使用之圖形。
依據「重要少數,瑣細多數」(Majorfew,trivialmany)分類法則(又稱ABC原理,80/20),找出造成問題最關鍵之少數因素。
時間序列圖
用來表示資料在不同時間的關係圖,通常時間為橫軸,縱軸表示觀測值單位數量。
莖葉圖/Stem-and-LeafDisplay
假設現有大筆資料
每筆資料由莖(前頭的數字)與葉(最後一個數字)快速組成。
重新排序「葉」的部分(小->大)
功用:排序、資料分布
直方圖Histogram
品管七大工具之一
連續型資料最常用的圖形,用來展示資料分布(變異狀況、是不是常態分佈?)。
接著找重心、最小與最大值(看變異性)通常也會於圖上標記規格的上/下限值、目標值。
譬如:製程品管,我們會定義規格的上下限(分別為下圖最左右兩端),中間線為我們希望達到的產品品質,越多產品品質落在中間範圍區間越好。
同樣不良率(5%):日本品管(左圖)比美國的(右圖)好,多數日產產品落在中間target區域。
散步圖ScatterDiagram
品管七大工具之一
用來表示資料在兩個變數間的關係。
(Y:GPA,X:SATMath)
留意離群值。
※莖葉圖、直方圖、散步圖通常用來表示數值變數(定量資料)
複習–什麼是統計學?
讓數字說話的方法(Concepts+Methods),由樣本推論群體。
蒐集、整理、展示(圖表)、分析(指標、估計、檢定、預測)、解釋、推論群體、作決策。
[Important!]GarbageIn,GarbageOut
數據的取得方式
普查–對群體中的每一個體取得資料,也就是100%的全檢。
抽樣–利用一種程序或方法,由群體中抽出樣本。
常用抽樣有四種:
簡單隨機抽樣
系統抽樣
分層隨機抽樣
部落抽樣
簡單隨機抽樣
亂數取值時要注意,每個個體編碼長度要一致。
系統抽樣
分層隨機抽樣
部落抽樣/ClusterSampling
前提:假設每個部落分佈都是群體的縮影
編碼:00~99(共100)
第三週➠第二章–UsingNumericalMeasurestoDescribeData
◎常用之參數與統計量
•集中趨勢指標:平均數、中位數、眾數
•分散趨勢指標:全距、變異數、標準差、變異係數
如何以量化指標來展示資料(量測數據,量來的)
「連續型」資料有四個特性:
CentralTendency(orLocation)–集中趨勢
Dispersion–分散趨勢
Skewness–偏態係數
Kurtosis–峰態
CentralTendency(orLocation)–集中趨勢
表示一組數據「中央點」位置所在的一個指標。
常用集中趨勢指標:
平均數
中位數
眾數
1.平均數(mean)=平衡點=重心
群體平均數:,N表群體大小
樣本平均數:,n表樣本大小
Ans:(1)(2)=20
算術平均數:上述。
幾何平均數(G):,開三次方…(何時用?當我們希望)只要其中一項為零,則平均數為零。
調和平均數:(聯想:F1score)
加權平均數:成績/GPA
截略平均數:去頭尾,但是樣本數不能太少;如體操、碩博士招生
2.中位數(median)=中心
「必須」將數據排序,「中間」的那一個數值、或中間兩個數值之平均。
群體中位數:𝛈(讀作eta)
樣本中位數:
找中位數的方法:
奇數>>
偶數>>n/2,(n/2)+1兩者相加的平均
Ans:(4)=9,(5)=(7+9)/2=8
3.眾數(mode)
Ans:(6)=3,(7)=1和2
Ans:只適合用眾數表示,因為以銷售量/受歡迎程度來衡量。
何時用平均數?何時用中位數,眾數?
Ans:取決於有無「離群值」
Ans:A,B
例:信義房屋->報平均(數)價格(易受離群值影響,高房價拉抬$latex)
拉抬$)
Dispersion–分散趨勢
表示一組數據間「差異大小」或「數值變化」的一個量數。
常用指標:
全距(Range,R)
變異數(Variance)
標準差(StandardDeviation,STD)
變異係數(CoefficientofVariation,CV)
全距(Range,R)
用來衡量一組數據「分散程度」的最簡單方法。
先排序,
【缺點】>>當一組數據中有「離群值」出現或資料「筆數太多」(n>10)時,全距並非一個很好的衡量數據分散程度的量數,因其無法解釋最小值與最大值之間數據分布的情形,失真了,不適用全距。
變異數(Variance)
計算每個點的「離中(心)趨勢」,但是(中心點)左半部與右半部距離之和為零,數學上用絕對值或是平方,來避免。
【必記】樣本變異數S2,公式之所以除以(n-1)是因為除以n,推估群體變異數𝜎2時,誤差較大。
其簡便公式
記作
絕對離差(AbsoluteDeviation,AD)
平均離差
【推薦】(快速、誤差小、計算較正確版)簡化分子後得簡便公式=
標準差(StandardDeviation,STD)
將「變異數」開根號得之。
帶「單位」。
值越小,表變異越小。
群體標準差
樣本標準差
(相對)變異係數(CoefficientofVariation,CV)
相對變異、不帶單位
,CV越小表示分散程度越小
何時用?
使用時機:有多組資料不同單位,要相比時使用,可用CV當指標。
比較股票風險:
蒐集股票A,B三十天的記錄,算出平均、標準差來比較。
A,B股票的變異數:
B股票(變異)風險小,值得投資
B股票風險小,值得投資
第四週➠第二章–UsingNumericalMeasurestoDescribeData
常用來描述資料之統計指標
◎常用之參數與統計量
•偏態係數、峰度係數
•非中趨勢指標:百分位數、四分位數
◎經驗法則、柴比雪夫法則
◎兩變數的關係:共變異數、相關係數
(承前週)
Skewness–偏態係數
說明一組數據分布的型態。
尾巴誰長,就叫誰(右偏/左偏)
Ans:=,>>,<<
公式長得像變異數:
Kurtosis–峰態係數(名稱有「係數」者表示「無單位」)
量測尾端和頭,無單位
常用例子:A,B機台;A,B股票;A,B校學生…
看:頭(尖/頓)、尾巴分佈
如果峰度係數=3,表常態分佈;
<3表低闊峰,>3表高峽峰。
非中趨勢
百分位Percentiles
四分位數Quartiles
如何找?Ans:將資料先排序!!
Q1=位置在0.25*(n+1)之數。
Q3=位置在0.75*(n+1)之數。
n=10
[重要]如何決定數據分佈之情形?
經驗法則TheEmpiricalRule(常用)
又稱「689599.73法則」,資料必須是「常態分佈」
約68%的資料會落在的範圍內;
約95%的資料會落在的範圍內;
約99.73%的資料會落在的範圍內。
用來篩選離群值
Ans:正常值範圍:(驗證:看min,max是否落在此區間內,是否為離群值?)
柴比雪夫法則TheChebyshev'sRule
無須考慮資料是否為常態分佈,左偏右偏雙峰…等都適用。
用來篩選離群值。
共變異數/Covariance(少用)
從變異數公式聯想過來,變異數是自己與自己(X,X)的變異程度,共變異數是兩個變數(X,Y)各自變異的程度:
帶單位,因此少用。
值越大,表示X,Y關係越強,反之越弱。
【推薦用】Conv_sample簡便公式:
相關係數(常用)
,消去單位
不帶單位,常用!
值越大,表示X,Y關係越強,反之越弱。
群體:
【常用】樣本相關係數:,其中,越接近表X,Y有越強的正向(線性)關係(X越大,Y跟著大)。
越接近0表沒有線性關係,但是有可能有很強曲線關係
使用了簡便公式來計算。
第五週➠第三章:機率
內容
◎機率基本概念介紹
◎計數規則:乘法原理、排列、組合
統計學分為敘述統計、推理統計
敘述統計–搜集資料方法圖表指標
[重要!]推理統計:由樣本推論群體
估計(第八章)
檢定(統計學二)
敘述統計:「機率」–>機率分佈–>抽樣分佈–>推理統計
機率–事件發生的機率
實驗–如丟銅板/骰子n次
1)丟銅板三次
2)擲骰子一次
樣本空間
1)丟骰子一次,其樣本空間S={1,2,3,4,5,6}
2)丟銅板兩次,樣本空間S={正正,正反,反正,反反}
事件
(subsetofsamplespace)EventA={1,3,5},EventB={正正}
機率
Ans:
0≤P(A)<1
p(0)=0,p(S)=1
P(A1)+P(A2)+P(A3)…=
Ans:
Experiment:tossadieonce
SampleSpace:S={1,2,3,4,5,6}
SimpleEvent:E1~E6
Compoundevent:A,B
P(A)=3/6=1/2,SA={1,3,5}
P(E6)=1/6,E6={6}
P(C)=2/6,C={1,2}
Ans:
Tosstwocoins:S={HH,HT,TH,TT},#(S)=4
S_A={HT,TH},P(A)=2/4
S_B={HH,HT,TH},P(B)=3/4
解題步驟
寫出Experiment=?
寫出SampleSpace={…}
寫出EventA,#(A)=?,P(A)=#(A)/#(S)
寫出EventB,#(B)=?,P(B)=?
寫出EventC…
CountingPrinciples
解決一些手算困難的狀況:丟骰子20次
CountingRules:
TheMultiplicationPrinciple(乘法原理):
Permutations(排列)
P(10,10)=10!
賽馬+次序不同
P(12,12)=12!
排成圓圈須去頭。
Combinations(組合)
C(n,r):n個東西取r個出來
撲克牌
A問題因爲次序不同,所以用排列。
B則否,用組合。
應用至求機率:
第六週➠第三章:機率
內容
◎機率法則
◎貝氏定理
ProbabilityLaws
VennDiagram
Union
AorB:
#(S)=52,AUB=AorB=#(AUB)=26+4-2=28
Intersection(交集)
ComplementaryEvent(互補)
ConditionalProbability條件機率
已知B發生,A也發生的機率。
Independentevents
Ans:P(A|B)=P(A)ifA,Bareindependent.
P(A|B)=P(AandB)/P(B)=0.2/0.3!=0.4
Thus,A,Barenotindependent.
A,BareME互斥ifP(AandB)=0.
Therefore,A,Baredependent!
Mutuallyexclusiveevents
S={(1,1)(1,2)…(6,6)}
#(S)=6*6=36
A=兩數字和為一奇數={(1,2)(2,1)…},#(A)=18
P(A)=18/36=1/2
B={(2,6)(6,2)…},#(B)=10
P(B)=10/36=5/18
P(AandB)=P(A)*P(B)ifA,Bareindependent.
AandB=sumis9={(3,6)(6,3)…},P(AandB)=4/36
1/9!=1/2*5/18,Thus,A,Barenotindependent!
1/9!=0,Thus,A,BarenotM.E!
Thus,A,Baredependent!
用維氏圖來解最方便。
a)0.2
b)P(AUB)=0.2+0.2+0.3=0.7
c)0.2+0.3=0.5
d)0.2
e)0.3
f)1–0.7=0.3
S=smokecigarette,D=drinktea
P(S)=0.1,P(D)=0.3,P(SandD)=0.5
a)1-(0.05+0.05+0.25)=0.65
b)0.05
c)0.25
d)SandDindep?checkifP(SandD)=P(S)P(D)
0.05!=0.10.3andtheyarenotM.E.
Thus,theyaredependent!
AdditionRule:
如果AB獨立:
如果AB互斥:
#(S)=52
a)=2/52
b)=P(A)+P(B)-P(AandB)=4/52+26/52–2/52=32/52
c)=0/52=0
d)=P(H)+P(S)-P(HandS)=13/52+13/52–0=1/2
Bays'Theorem:貝氏定理
條件機率的應用/推廣。
已知B發生,AandB也發生的機率>>進一步推導
–
a)P(D|P)=P(DandP)/P(P)
=P(P|D)P(D)/(P(P|D)P(D)+P(P|D_bar)*P(D_bar))
=0.99*0.05/(0.990.05+0.030.95)
=0.0495/(0.0495+0.0285)
b)P(D_bar|P_bar)=?
求P(I|D)=?
第七週➠第四章:離散型機率分佈
內容
◎累加機率函數
◎期望值
RandomVariables(R.V.)
1)Xisdiscrete.x=0,1,2,…
2)Xiscontinuous.x>0
3)discrete.x=0,1,2,…,12
4)continuous.x>0
5)discrete.x=0,1,2
6)discrete.x=2,3,…,12
V:netgain
Exp:Tossthreedice
S={(1,1,1)…(6,6,6)},#(S)=63=216
Bet$1theoccurrenceof'5':
累加機率
Exp:由帽子中隨機抽一張紙條
X=紙條上的數字
a)uniformdistribution
TheExpectedValueofaDiscreteR.V.(期望值,帶單位)
就是重心,平均值
Ans=(加權)平均=(上圖所示)
TheVarianceandStandardDeviationofaR.V.X
更正:定理1中第一行:E(C)=C
Var(X)=
定理3證明,請看W7-2影片1:14:34
證明定理3:
Ans:
Ans:
Sharethis:ClicktoshareonTwitter(Opensinnewwindow)ClicktoshareonFacebook(Opensinnewwindow)Likethis:LikeLoading...
Postnavigation
PreviousKaggle初體驗Next聚焦
LeaveaReply
Enteryourcommenthere...
Fillinyourdetailsbeloworclickanicontologin:
Email(required)(Addressnevermadepublic)
Name(required)
Website
YouarecommentingusingyourWordPress.comaccount.
( Log Out /
Change )
YouarecommentingusingyourGoogleaccount.
( Log Out /
Change )
YouarecommentingusingyourTwitteraccount.
( Log Out /
Change )
YouarecommentingusingyourFacebookaccount.
( Log Out /
Change )
Cancel
Connectingto%s
Notifymeofnewcommentsviaemail.Notifymeofnewpostsviaemail.
Δ
ToggleSidebar
Menu
Categories
Apps/PlugIns
Life
News/Perspective
OSX
Programming
status
TheHitTagsAI
APPS/PLUGINS
Browser
C
DataSci
DataScience
DpLRN
Extensions
Golang
Life
MachineLearning
MachineLRN
Note
Notes
PlugIns
RaspberryPi
Statistics
SWEngineering
Tensorflow
Tutor
Wordpress.com
WP.comSearch
Searchfor:
Meta
Register Login
Entriesfeed
Commentsfeed
WordPress.com
Categories
Apps/PlugIns
Life
News/Perspective
OSX
Programming
status
AI
APPS/PLUGINS
Browser
C
DataSci
DataScience
DpLRN
Extensions
Golang
Life
MachineLearning
MachineLRN
Note
Notes
PlugIns
RaspberryPi
Statistics
SWEngineering
Tensorflow
Tutor
Wordpress.com
WP.com
Searchfor:
Meta
Register Login
Entriesfeed
Commentsfeed
WordPress.com
Privacy&Cookies:Thissiteusescookies.Bycontinuingtousethiswebsite,youagreetotheiruse.
Tofindoutmore,includinghowtocontrolcookies,seehere:
CookiePolicy
Follow
Following
難得糊塗
Signmeup
AlreadyhaveaWordPress.comaccount?Loginnow.
難得糊塗
Customize
Follow
Following
Signup
Login
Copyshortlink
Reportthiscontent
ViewpostinReader
Managesubscriptions
Collapsethisbar
%dbloggerslikethis:
延伸文章資訊
- 1標準差- 维基百科,自由的百科全书
其公式如下所列。 標準差的概念由卡爾·皮爾森引入到統計中。 目录. 1 ...
- 2統計學中算變異量為什麼要除以n-1?什麼是「自由度」?
這個公式的分子是所謂「差方和」(sum of squared deviations) , 還不算太難懂。真正難懂的地方是分母:如果要求「平均差方」(mean squared deviations...
- 3統計學與EXCEL資料分析
敘述統計之統計量數意義與計算法 <範例>. 集中量數. 數學公式. Excel公式. Excel函數. 母體平均數. =(A1+A2......+A10 )/10 或. =sum(A1:A10)...
- 4EXCEL常用的一些統計學公式@ USQ MBA 42 - 隨意窩
EXCEL常用的一些統計學公式統計方式使用函數(或公式)各科總分=SUM(範圍)算術平均值=AVERAGE(範圍)加權平均成績=SUMPRODUCT(範圍,學分)/SUM(範圍)全 ...
- 52. 基礎統計學
在統計學中,研究的資料對象有二種,一稱之為母體,一稱之為樣本。 ... 樣本平均數,符號為x. (衡量樣本特徵的量數叫估計量,estimator). 公式:.