統計學(一) 筆記- 第七章抽樣與抽樣分配(Sampling and ...

文章推薦指數: 80 %
投票人數:10人

Sampling from a Finite Population (有限母體) ... 當n/N≤0.05 時,就可以使用無限母體公式會更好計算,校正因子也幾乎變為零; 當nN>0.05 時,ˉx 為 ... 2020-12-01 北科上課筆記/統計statistics 字數統計: 2.9k  |  閱讀時間≈ 11分鐘 筆記說明 此筆記用途在於台北科技大學資訊與財金管理系大二上統計學重點整理並非所有人都適用,部分對我而言稍加容易的內容並不會寫在此內。

這是觀看影片心得後的筆記,老師上課可能不太適用會忘記抄到 名詞介紹 element我們收集到的每一個資料 population母體我們資料整體,樣本(sample)則是資料裡面的其中一個集合 targetpopulation(目標母體)我們想要選擇的母體 sampledpopulation抽樣母體我們抽樣的整體資料 frame抽樣清單從sampledpopulation抽取的清單 SelectingSample選擇樣本SamplingfromaFinitePopulation(有限母體)舉例,信用卡名單、倉庫存貨、公司股東。

簡單隨機樣本每一個元素被抽出的機率相同 samplingwithreplacement歸還抽樣抽完放回去 samplingwithoutreplacement不歸還抽樣抽完不放回去 SamplingfromaInfinitePopulation(無限母體)在無限母體中沒有frame,因為frame會等於無限。

舉例:銀行產生的交易,因為會不斷產生因此不確定性很高。

randomsample 每一個元素都是從相同母題抽出來 每一個元素都是獨立,即抽完不放回 PointEstimation點估計量推測母體參數中某個數值 \(\bar{x}\)的點估計量就是平均值 s點估計量為母體標準差 \(\bar{p}\)為母體比例p的點估計量 舉例-St.Andrew’sCollegeRecallthatSt.Andrew’sCollegereceived900applicationsfromprospectivestudents.Theapplicationformcontainsavarietyofinformationincludingtheindividual’sScholasticAptitudeTest(SAT)scoreandwhetherornottheindividualdesireson-campushousing. 回想一下,聖安德魯學院收到了來自潛在學生的900份申請。

申請表包含各種信息,包括個人的學業能力測驗(SAT)分數以及個人是否希望在校內住宿。

P.S.這裡的資料是在影片前面的抽樣資料為虛擬且抽樣數為30,因此數字看看就好 20為申請住宿的量 50520為分數總合 210512則是透過公式與原始資料得出 下面這張圖片則是透過完整原始資料來進行計算 比較: IntroductiontoSamplingDistributions抽樣分配每一次的抽樣計算出來的值都有可能不一樣,因為選擇的樣本不同。

但透過抽樣分配的次數越多,根據抽樣分配的次數會發現圖形長得像常態分配,即越偏差母體標準差的抽樣分配機率越小,越靠近的越大。

舉例-關於公司管理職公司總共有2500位管理職(母體),我們想要知道下面以下問題: 母體的平均年薪 母體的年薪標準差 母體中有完成教育訓練的值(母體參數) 答案-透過點估計量 抽樣資料如下,有30筆 Pointestimation \(\bar{x}=\frac{\SigmaX_i}{n}=\frac{1,554,420}{30}=51,814\) \(s=\sqrt{\frac{\Sigma(X_i-\bar{x})^2}{n-1}}=\sqrt{\frac{325,009,260}{29}}=3348\) \(\bar{p}=\frac{x}{n}=\frac{19}{30}=0.63\) 為甚麼樣本標準差分母是?n-1觀念說明 為什麼統計的樣本標準差計算要除(n-1)而母體標準差則除n?-電子製造,工作狂人 淺談自由度(樣本標準差公式中的分母為什麼要採用n-1)-教育部高中數學學科電子報 比對-原始資料 SamplingDistributionof\(\bar{x}\)就是要找出母體平均數。

ExpectedValueof\(\bar{x}\)公式為\(E(\bar{x})=\mu\),其中\(\mu\)為母體平均值 StandardDeviationof\(\bar{x}\) \(\sigma_{\bar{x}}\)為樣本標準差,也稱為標準誤(standarderror) \(\sigma\)為母體標準差 \(n\)為樣本大小 \(N\)為母體大小 FinitePopulation有限母體公式 \(\sigma_x=\sqrt{\frac{N-n}{N-1}}(\frac{\sigma}{\sqrt{n}})\) 其中前項為校正因子(\(\sqrt{\frac{N-n}{N-1}}\))用來修正數值,但當N的數量趨近無限大時,校正因子幾乎會被視為零。

當\(n/N\leq0.05\)時,就可以使用無限母體公式會更好計算,校正因子也幾乎變為零 當\(\frac{n}{N}>0.05\)時,\(\bar{x}\)為常態分配 InfinitePopulation無限母體公式\(\sigma_x=\frac{\sigma}{\sqrt{n}}\)且\(\bar{x}\)為常態分配 \(\bar{x}\)服從常態分配有以下情況 樣本資料大於等於30筆資料時 如果有高度偏態(skew)或是outliers(離群值)太多時,只要樣本資料大於50筆也會是常態分配 透過機率來說明\(\bar{x}\)有多靠近母體平均值 CentralLimitTheorem(中央極限定理)中央極限定理提出越是大量的樣本抽取數量其圖形會逐漸變成常態分佈的形狀 透過圖形來證明 Population2的圖形通常稱為兔耳型圖圖 我們透過上面的圖可以推出無論是什麼樣的圖都可以推出常態分布的樣本分配,只要樣本資料夠多 舉例-我們想找出離母體平均數加減10分有多少數量,也就是我們想要找1687~1707間的母體數量我們在先前的舉例中算出\(\sigma_x=\frac{\sigma}{\sqrt{n}}=\frac{87.4}{\sqrt{30}}=15.96\) 現在我們先計算z值來轉換成標準常態機率分配,\(z=(1707-1697)/15.96=0.63\),查表可以看到z=0.63時機率為0.7357,再來\(z=(1687-1697)/15.96=-0.63\),查表可以得出0.2643,兩個相減就等於0.4714 舉例-根據上面的例子,我們現在抽樣100樣本,我們想要找1687~1707間的母體數量這時候\(E(x)\)不變,母體平均值還是1697。

但因為我們的抽取樣本數量改變,因此標準差改變,透過標準差公式也就變成,\(\sigma_x=\sqrt{\frac{N-n}{N-1}}(\frac{\sigma}{\sqrt{n}})=\frac{900-100}{900-1}(\frac{87.4}{\sqrt{100}})=0.9433(8.74)=8.2\) 跟上一個舉例進行比較,可以得證當樣本數量變大時,會符合中央極限定理 因為圖形不同,因此區間面積也不同需要再重新計算,當n=100時,\(P(1687\leq\bar{x}\leq1707)=0.7776\) SamplingDistributionof\(\bar{p}\)透過抽取n個元素的隨機樣本,計算\(\bar{p}\)之後再推論\(p\)。

ExpectedValueof\(\bar{p}\)公式為\(E(\bar{p})=p\) StandardDeviationof\(\bar{p}\) \(\sigma_{\bar{p}}\)為樣本標準差,也稱為標準誤(standarderror) \(\sigma\)為母體標準差 \(n\)為樣本大小 \(N\)為母體大小 當\(np>5\)時,\(n(1-p)\geq5\)為常態分配 FinitePopulation有限母體公式 \(\sigma_p=\sqrt{\frac{N-n}{N-1}}(\sqrt{\frac{p(1-p)}{n}})\) 其中前項為校正因子(\(\sqrt{\frac{N-n}{N-1}}\))用來修正數值,但當N的數量趨近無限大時,校正因子幾乎會被視為零。

當\(n/N\leq0.05\)時,就可以使用無限母體公式會更好計算,校正因子也幾乎變為零 InfinitePopulation無限母體公式公式為\(\sigma_p=(\sqrt{\frac{p(1-p)}{n}})\) 舉例-有72%的學生申請宿舍,我們抽樣30學生,想請問在此樣本中學生申請宿舍的在72%加減0.05的機率是多少我們先檢查是否有常態分配,n=30,p=0.72,因此\(np=30(0.72)=21.6\geq5\)and\(n(1-p)=30(0.28)=8.4\geq5\),都有大於5,因此符合使用常態分配條件。

由於這裡我們並不確定母體有多少學生,因此是InfinitePopulation,計算就是\(\sigma_{\bar{p}}=\sqrt{\frac{0.72(1-0.72)}{30}}=0.082\) 一樣先轉換成z值成為標準常態機率分配,\(z=(0.77-0.72)/0.082=0.61\),查表發現\(0.61z=0.7291\),再來查另外一個值\(z=(0.67-0.72)/0.082=-0.61\),查表發現\(-0.61z=0.2709\),兩個相減就得出常態分配面積區間,答案為0.4582。

因此在這樣本中有\((0.67*30)\)~\((0.77*30)\)機率的學生要申請宿舍的機率為0.4582。

舉例-主管的抽樣分配,題目如下,想詢問抽樣值為平均值\(\pm500\)的機率為多少 也就是我們要找出\(P(51300\leq\bar{x}\leq52300)\),的機率是多少,如果用手算的話則需要用到Z,\(z=\frac{51300-51800}{730.30}=-0.68\)、\(z=\frac{52300-51800}{730.30}=0.68\) \(P(51300\leq\bar{x}\leq52300)\\=P(-0.68\leqz\leq0.68)\\=P(z\leq0.68)-P(z\leq-0.68)\\=0.7517-0.2484=0.5034\) comparebetweenn=30andn=100 作法與先前相同,就不贅述 舉例-承上題,當抽樣數為100(n=100),抽樣主管有成功完成教育訓練的標準誤旁邊的公式為答案。

60%的人會完成員工訓練,因此期望值為0.6,再來透過公式計算。

\(\sigma_{p}=\sqrt{\frac{p(1-p)}{n}}=\sqrt{\frac{0.6(1-0.6)}{30}}=0.894\) 舉例-承上題,抽樣主管有成功完成教育訓練的值在期望至\(\pm0.05\)先透過Z轉換,之後即可,題目大同小異,透過圖片附上答案。

PropertiresofPointEstimators點估計量的特性 點估計量的符號為\(\hat{\theta}\) Unbiased不偏性 期望值等於要估計的母體參數 圖舉例,右邊是Biased有偏誤 Efficiency有效性 在有兩個抽樣分配的\(\hat{\theta}\),且兩個的\(\hat{\theta}\)位置一樣時,則先取標準差(x軸)比較少的值 圖舉例 Consistency一致性 當樣本數(n)變大時,標準差則會越來越小,當樣本數越大時則優先使用此點估計量 OtherSamplingMethods其他抽樣方法 機率抽樣每一個母體元素都有一個特定的機率被選為抽樣樣本 非機率抽樣由於我們沒辦法預估每一個母體元素機率為多少,因此稱為非機率抽樣。

找出最適合的抽樣方法最重要。

機率抽樣-StratifiedRandomSampling分層隨機抽樣 strata將母體分成好幾組 母體的每一個元素都必須被使用分組,且只能使用一次 每一組的元素同質性越高越好可以根據年齡、工作部門、產業來區分 有符合上述條件時,精準度會集高且抽樣資料不須太多 圖表 機率抽樣-ClusterSampling叢式/集群抽樣 clusters將母體分組,每組同質性極低,小生態圈 接下來抽出幾群,那些就是我們的抽樣資料 Sampling透過市區、學校來抽樣 Advantage節省成本 Disadvantage抽樣資料比分成抽樣的資料需要更大些,才符合真實性 圖表 機率抽樣-SystematicSampling系統抽樣 先將母體資料打亂後再進行編號 從母體(N)抽出樣本(n),那我們就是\(y=N/n\)為我們要抽出的元素量(y) 再透過母體資料編號,for(i=0;i<=y;i++),找出我們的抽樣元素 Advantage簡單 非機率抽樣-ConvenienceSampling便利抽樣 透過非機率抽樣 Sampling如發傳單,因為沒辦法得知收到傳單與沒收到傳單的機率。

Advantage抽樣很方便 Disadvantage沒辦法很精準的代表母體 非機率抽樣-JudgmentSampling判斷抽樣 透過個人的知識去推斷出母體那些值可以被參考 例如記者想詢問立委對環保的意見記者可以找出對比較熟悉環保的立委進行尋問 Advantage可以造謠,比較簡單。

Disadvantage很看記者素質 版權聲明: 本部落格所有文章除有特別聲明外,均採用ApacheLicense2.0許可協議。

轉載請註明出處! 上一篇 投資學筆記-股票資產組合管理基礎篇(報酬與風險) 下一篇 投資學筆記-股票交易制度 主頁 歸檔 分類 標籤 關於我



請為這篇文章評分?