第57 章重要概念複習| 醫學統計學

文章推薦指數: 80 %
投票人數:10人

下面我們一起用二項分佈的概念(n n 個對象中K K 個“事件”),來複習概率論學派的統計推斷要點。

模型,the Model。

一個統計模型,描述的不僅僅是我們研究的人羣的一些 ... 在LSHTM的統計學筆記 前言 我是誰 I概率論Probability 1概率論入門:定義與公理 1.1三個概率公理: 1.2條件概率Conditionalprobability 1.3獨立(independence)的定義 1.4賭博問題 1.5賭博問題的答案 2Bayes貝葉斯理論的概念 3期望Expectation(或均值ormean)和方差Variance 3.1方差的性質: 4伯努利分佈Bernoullidistribution 5二項分佈的概念Binomialdistribution 5.1二項分佈的期望和方差 5.2超幾何分佈hypergeometricdistribution 5.3樂透中獎概率問題: 5.3.1如果我只想中其中的\(3\)個號碼,概率有多大? 6泊松分佈PoissonDistribution 7正(常)態分佈NormalDistribution 7.1概率密度曲線probabilitydensityfunction,PDF 7.2正(常)態分佈 7.3標準正(常)態分佈 8中心極限定理theCentralLimitTheorem 8.1協方差Covariance 8.2相關Correlation 8.3中心極限定理theCentralLimitTheorem 8.4二項分佈的正(常)態分佈近似 8.5泊松分佈的正(常)態分佈近似 8.6正(常)態分佈模擬的校正:continuitycorrections 8.6.1例題 8.7兩個連續隨機變量 8.8兩個連續隨機變量例子: 8.9條件分佈和邊緣分佈的概念 8.10條件分佈和邊緣分佈的例子 8.10.1例題 II統計推斷Inference 9統計推斷的概念 9.1人羣與樣本(populationandsample) 9.2樣本和統計量(sampleandstatistic) 9.3估計Estimation 9.4信賴區間confidenceintervals 10估計和精確度EstimationandPrecision 10.1估計量和他們的樣本分佈 10.2估計量的特質 10.2.1偏倚 10.2.2估計量的效能Efficiency 10.2.3均值和中位數的相對效能 10.2.4均方差meansquareerror(MSE) 10.3總體方差的估計,自由度 10.4樣本方差的樣本分佈 11卡方分佈Chi-squaredistribution 11.1卡方分佈的期望和方差的證明 11.2卡方分佈的期望 11.3卡方分佈的方差 11.3.1下面來求\(E(X_1^4)\) 11.4把上面的推導擴展 12似然Likelihood 12.1概率vs. 推斷Probabilityvs. Inference 12.2似然和極大似然估計Likelihoodandmaximumlikelihoodestimators 12.3似然方程的一般化定義 12.4對數似然方程log-likelihood 12.5極大似然估計(maximumlikelihoodestimator,MLE)的性質: 12.6率的似然估計Likelihoodforarate 12.7有\(n\)個獨立觀察時的似然方程和對數似然方程 13對數似然比Log-likelihoodratio 13.1正態分佈數據的極大似然和對數似然比 13.2\(n\)個獨立正態分佈樣本的對數似然比 13.3\(n\)個獨立正態分佈樣本的對數似然比的分佈 13.4似然比信賴區間 13.4.1以二項分佈數據爲例 13.4.2以正態分佈數據爲例 13.5InferencePractical05 13.5.1Q1 13.5.2Q2 13.5.3Q3 14二次方程近似法求對數似然比approximatelog-likelihoodratios 14.1正態近似法求對數似然Normalapproximationtothelog-likelihood 14.1.1近似法估算對數似然比的信賴區間 14.1.2以泊松分佈爲例 14.1.3以二項分佈爲例 14.2參數转换parametertransformations 14.2.1以泊松分佈爲例 14.2.2以二項分佈爲例 14.3InferencePractical06 14.3.1Q1 14.3.2Q2 15假設檢驗的構建Constructionofahypothesistest 15.1什麼是假設檢驗Hypothesistesting 15.2錯誤概率和效能方程errorprobabilitiesandthepowerfunction 15.2.1以二項分佈爲例 15.3如何選擇要檢驗的統計量 15.3.1以已知方差的正態分佈爲例 15.4複合假設compositehypotheses 15.4.1單側替代假設 15.4.2雙側替代假設 15.5爲反對零假設\(H_0\)的證據定量 15.5.1回到正態分佈的均值比較問題上來(單側替代假設) 15.6雙側替代假設情況下,雙側\(p\)值的定量方法 15.7假設檢驗構建之總結 15.8InferencePractical07 15.8.1Q1 16假設檢驗的近似方法 16.1近似和精確檢驗approximateandexacttests 16.2精確檢驗法之–似然比檢驗法Likelihoodratiotest 16.3練習題 16.4近似檢驗法之–Wald檢驗 16.4.1再以二項分佈爲例 16.5近似檢驗法之–Score检验 16.5.1再再以二項分佈爲例 16.6LRT,Wald,Score檢驗三者的比較 16.7InferencePractical08 16.7.1Q1 16.7.2Q2 16.7.3Q3 17正態誤差模型Normalerrormodels 17.1服從正態分佈的隨機變量 17.2\(F\)分佈和\(t\)分佈的概念 17.3兩個參數的模型 17.3.1一組數據兩個參數 17.3.2兩組數據各一個參數 17.4正態分佈概率密度方程中總體均值和方差都未知(單樣本\(t\)檢驗onesample\(t\)test的統計學推導) 17.5比較兩組獨立數據的均值twosample\(t\)testwithequalunknown\(\sigma^2\) 17.6各個統計分佈之間的關係 17.7InferencePractical09 18多個參數時的統計推斷InferencewithmultipleparametersI 18.1多參數multipleparameters-LRT 18.1.1似然likelihood 18.1.2對數似然比檢驗 18.2多參數Wald檢驗-Waldtest 18.3多參數Score檢驗-Scoretest 18.4條件似然conditionallikelihood 18.5InferencePractical10 19多個參數時的統計推斷–子集似然函數profilelog-likelihoods 19.1子集似然法推導的過程總結 19.1.1子集對數似然方程的分佈 19.1.2假設檢驗過程舉例 19.2子集對數似然比的近似 19.2.1子集對數似然比近似的一般化 19.2.2事件發生率之比的Wald檢驗統計量 19.3InferencePractical11 20統計推斷總結 20.0.1快速複習 20.0.2試爲下面的醫學研究問題提出合適的統計學模型 20.0.3醫生來找統計學家問問題 III統計分析方法AnalyticalTechniques 21探索數據和簡單描述 21.1數據分析的流程 21.1.1研究設計和實施 21.1.2數據分析 21.2數據類型 21.3如何總結並展示數據 21.3.1離散型分類型數據的描述-頻數分佈表frequencytable 21.3.2連續型變量 21.4數據總結方案:位置,分散,偏度,和峰度 21.4.1位置 21.4.2分散 21.4.3偏度skewness 21.4.4峯度kurtosis 22信賴區間confidenceintervals 22.1定義 22.2利用總體參數的樣本分佈求信賴區間 22.3情況1:已知方差的正態分佈數據均值的信賴區間 22.4信賴區間的意義 22.5情況2:未知方差,但是已知服從正態分佈數據均值的信賴區間 22.6情況3:服從正態分佈的隨機變量方差的信賴區間 22.7當樣本量足夠大時 22.8情況4:求人羣百分比的信賴區間 22.8.1一般原則 22.8.2二項分佈的“精確法”計算信賴區間 22.8.3二項分佈的近似法計算信賴區間 22.9率的信賴區間 22.9.1利用泊松分佈精確計算 22.9.2利用正態近似法計算 23假設檢驗 23.1拋硬幣的例子 23.1.1單側和雙側檢驗 23.1.2\(p\)值的意義 23.1.3\(p\)值和信賴區間的關係 23.2二項分佈的精確假設檢驗 23.3當樣本量較大 23.4二項分佈的正態近似法假設檢驗 23.4.1連續性校正continuitycorrection 23.5情況1:對均值進行假設檢驗(方差已知) 23.6情況2:對均值進行假設檢驗(方差未知)theone-samplet-test 23.7情況3:對配對實驗數據的均值差進行假設檢驗thepairedt-test 24相關association 24.1背景介紹 24.2兩個連續型變量的相關分析 24.2.1相關係數的定義 24.2.2相關係數的性質 24.2.3對相關係數是否爲零進行假設檢驗 24.2.4相關係數的\(95\%\)信賴區間 24.2.5比較兩個相關係數是否相等 24.2.6相關係數那些事兒 24.2.7在R裏面計算相關係數 24.3二元變量之間的相關性associationbetweenpairsofbinaryvariables 24.3.1OR的信賴區間 24.3.2比值比的假設檢驗 24.3.3兩個百分比的卡方檢驗 24.3.4確切檢驗法Fisher’s“exact”test 24.4多分類(無排序)的情況\(M\timesN\)表格 25比較Comparisons 25.1比較兩個均值comparingtwopopulationmeans 25.1.1當方差已知,且數據服從正態分佈Z-test 25.1.2當方差未知,但是方差可以被認爲相等,且數據服從正態分佈twosample\(t\)test 25.1.3練習 25.1.4當方差未知,但是方差不可以被認爲相等,且數據服從正態分佈 25.2兩個人羣的方差比較 25.2.1方差比值檢驗varianceratiotest 25.2.2信賴區間 25.3比較兩個百分比 25.3.1兩個百分比差是否爲零的推斷Riskdifference 25.3.2兩個百分比商是否爲1的推斷relativerisk/riskratio 26前提和數據轉換Assumptionsandtransformations 26.1穩健性 26.2正態性 26.2.1正態分佈圖normalplot 26.3總結連續型變量不服從正態分佈時的處理方案 26.4數學冪轉換powertransformations 26.4.1對數轉換logarithmicTransformation 26.4.2逆轉換信賴區間back-transformationofCIs 26.4.3對數正態分佈log-normaldistribution 26.4.4百分比的轉換 IV線性迴歸LinearRegression 27簡單線性迴歸SimpleLinearRegression 27.1一些背景和術語 27.2簡單線性迴歸模型simplelinearregressionmodel 27.2.1數據A 27.2.2數據B 27.3區分因變量和預測變量 27.3.1均值(期待值)公式 27.3.2條件分佈和方差theconditionaldistributionandthevariancefunction 27.3.3定義簡單線性迴歸模型 27.3.4殘差residuals 27.4參數的估計estimationofparameters 27.4.1普通最小二乘法估計\(\alpha,\beta\) 27.5殘差方差的估計Estimationoftheresidualvariance\((\sigma^2)\) 27.6R演示例1:圖@ref(fig:age-wt)數據 27.7R演示例2:表@ref(tab:walk)數據 27.8LMpractical01 27.8.1兩次測量的膽固醇水平分別用\(C_1,C_2\)來標記的話,考慮這樣的簡單線性迴歸模型:\(C_2=\alpha+\betaC_2+\varepsilon\)。

我們進行這樣迴歸的前提假設有哪些? 27.8.2計算普通最小二乘法(OLS)下,截距和斜率的估計值\(\hat\alpha,\hat\beta\) 27.8.3和迴歸模型計算的結果作比較,解釋這些估計值的含義 27.8.4加上計算的估計值直線(即迴歸直線) 27.8.5下面的代碼用於模型的假設診斷 28最小二乘估計的性質和推斷OrdinaryLeastSquaresEstimatorsandInference 28.1OLS估計量的性質 28.2\(\hat\beta\)的性質 28.2.1\(Y\)對\(X\)迴歸,和\(X\)對\(Y\)迴歸 28.2.2例1:還是圖@ref(fig:age-wt)數據 28.3截距和迴歸係數的方差,協方差 28.3.1中心化centring 28.4\(\alpha,\beta\)的推斷 28.4.1對迴歸係數進行假設檢驗 28.4.2迴歸係數,截距的信賴區間 28.4.3預測值的信賴區間(置信帶)-測量迴歸曲線本身的不確定性 28.4.4預測帶Referencerange-包含了95%觀察值的區間 28.5線性迴歸模型和Pearson相關係數 28.5.1\(r^2\)可以理解爲因變量平方和被模型解釋的比例 28.6Pearson相關係數和模型迴歸係數的檢驗統計量\(t\)之間的關係 28.7LMpractical02 29方差分析IntroductiontoAnalysisofVariance 29.1背景 29.2簡單線性迴歸模型的方差分析 29.2.1兩個模型的參數估計 29.2.2分割零假設模型的殘差平方和 29.2.3\(R^2\)–我的名字叫決定係數coefficientofdetermination 29.2.4方差分析表格theANOVAtable 29.2.5用ANOVA進行假設檢驗 29.2.6簡單線性迴歸時的\(F\)檢驗 29.2.7簡單線性迴歸時\(F\)檢驗和\(t\)檢驗的一致性 29.3分類變量用作預測變量時的ANOVA 29.3.1一個二分類預測變量 29.3.2一個模型,兩種表述 29.3.3分組變量的平方和 29.3.4簡單模型的分組變量大於兩組的情況 29.4LMpractical03 30多元模型分析MultivariableModels 30.1兩個預測變量的線性迴歸模型 30.1.1數學標記法和解釋 30.1.2最小平方和估計LeastSquaresEstimation 30.2線性回歸模型中使用分組變量 30.3協方差分析模型theAnalysisofCovariance(ANCOVA)Model 30.4偏回歸係數的變化 30.4.1情況1:\(\beta_1>\beta_1^*\) 30.4.2情況2:\(\beta_1\chi^2_{1,1-\alpha} \] Wald檢驗(Section16.4)是一種利用二次方程近似法對似然比檢驗進行近似的手段。

其檢驗統計量是 \[ \begin{aligned} (\frac{M-\theta_0}{S})^2&\sim\chi^2_1\\ \text{Where}M&=\hat\theta\\ S^2&=\frac{1}{-\ell^{\prime\prime}(\hat\theta)} \end{aligned} \] Score檢驗(Section16.5)是另一種利用二次方程近似法對似然比檢驗進行近似的手段。

其檢驗統計量是 \[ \begin{aligned} \frac{U^2}{V}&\sim\chi^2_1\\ \text{Where}U&=\ell^\prime(\theta_0)\\ V&=-\ell^{\prime\prime}(\theta_0) \end{aligned} \] 如果對數似然方程本身就是一個二次方程(數據服從完美正態分佈狀態,且總體方差已知時),這三大類的檢驗法其實計算獲得完全一樣的\(p\)值,提供完全一致的證據。

多數情況下,三大類檢驗法的結果是近似的。

關於三種檢驗法的比較可以參考過去總結的章節(Section16.6) 57.4.1子集似然函數 當統計模型中的部分參數是噪音參數(nuisanceparameters)時,我們需要用到子集似然函數法(Section19)來去除噪音參數的影響,,只檢驗我們感興趣的那部分參數。

57.5線性迴歸複習 57.5.1簡單線性迴歸 假設對於\(n\)名研究對象,我們測量個兩個觀測值\((y_i,x_i)\),那麼用線性迴歸模型來表示這兩個測量值估計的參數之間的關係就是: \[ \begin{aligned} y_i&=\alpha+\betax_i+\varepsilon_i\\ \text{Where}&\varepsilon_i\sim\text{NID}(0,1) \end{aligned} \] 或者用另一個標記法: \[ Y_i|x_i\simN(\alpha+\betax_i,\sigma^2) \] 57.5.2多元線性迴歸 如果預測變量有兩個或者兩個以上\((x_i,\;\&\;z_i)\),那麼描述這兩個預測變量和因變量之間的多元線性迴歸模型可以寫作: \[ y_i=\alpha+\betax_i+\gammaz_i+\varepsilon_i \] 此時,\(\beta\)的含義是,當保持\(z\)不變時,\(x\)每增加一個單位,\(y\)的變化量。

用這個模型,我們默認\(z\)保持不變的同時無論取值爲多少,\(x,y\)之間的關係是不會變化的,我們用這個模型來調整(adjust)\(z\)的混雜效應(confoundingeffect)(Section30.5)。

當然我們也可以考慮當\(z\)取值不同時,\(x,y\)之間的關係發生改變,只要在上面的多元線性迴歸方程中加入一個交互作用項即可(Section33)。

\[ y_i=\alpha+\betax_i+\gammaz_i+\deltax_iz_i+\varepsilon_i \] 增加了交互作用項最大的變化是,\(x_i\)的迴歸係數\(\beta\)的含義發生了改變:當且僅當\(z=0\)且保持不變時,\(x\)每增加一個單位,\(y\)的變化量。

如果\(z=k\neq0\)且保持不變,那麼\(x\)每增加一個單位,\(y\)的變化量則是\(\beta+k\delta\)。

57.5.3簡單線性迴歸的統計推斷 一個給定的樣本\((y_i,x_i),i=1,\cdots,n\),其對數似然方程是 \[ \ell(\alpha,\beta,\sigma^2|\mathbf{y,x})=-\frac{1}{2\sigma^2}\sum^n_{i=1}(y_i-\alpha-\betax_i)^2 \] 分別對\(\alpha,\beta\)求微分之後可以獲得他們各自的\(\text{MLE}\): \[ \begin{aligned} U(\alpha)&=\ell^\prime(\alpha)=\frac{1}{\sigma^2}\sum_{i=1}^n(y_i-\alpha-\betax_i)\\ U(\beta)&=\ell^{\prime}(\beta)=\frac{1}{\sigma^2}\sum_{i=1}^nx_i(y_i-\alpha-\betax_i)\\ U(\hat\alpha)&=0\Rightarrow\hat\alpha=\bar{y}-\hat\beta\bar{x}\\ U(\hat\beta)&=0\Rightarrow\hat\beta=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{x})^2}=\frac{\sumx_iy_i-n\bar{x}\bar{y}}{\sumx_i^2-n\bar{x}^2} \end{aligned} \] 注意到和線性迴歸章節中推導的過程不同(Section27.4.1),當時我們用的是最小二乘法,這裏我們用的是光明正大的極大似然法,同時也證明了最小二乘法獲得的\(\hat\alpha,\hat\beta\)是他們各自的\(\text{MLE}\)。

另外,殘差方差的\(\text{MLE}\)也可以用上面的方法推導出來,同樣和之前的方法(Section27.5)做個對比吧: \[ \begin{aligned} U(\sigma^2)&=\ell^\prime(\sigma^2)=-\frac{n}{2\sigma^2}+\frac{1}{2\sigma^4}\sum_{i=1}^n(y_i-\alpha-\betax_i)^2\\ U(\hat\sigma^2)=0&\Rightarrow\hat\sigma^2=\frac{\sum_{i=1}^n(y_i-\hat\alpha-\hat\betax_i)^2}{n} \end{aligned} \] 這個殘差方差的\(\text{MLE}\)其實不是一個無偏估計,它只是一個漸進無偏的估計(需要除以\(\frac{n-2}{n}\)),所以,當一個線性迴歸模型中有\(p\)個參數時: \[ \hat\sigma^2=\frac{\sum_{i=1}^n(y_i-\hat\alpha-\hat\beta_1x_{i1}-\hat\beta_2x_{i2}\cdots)^2}{n-p} \] 線性迴歸時殘差方差的檢驗統計量服從\(F\)分佈(Section29.2.6)。

57.6GLM-Practical01 57.6.1建立似然方程 對下列不同的情形,寫下其 統計學模型 指明模型中的參數 推導該參數的對數似然方程 57.6.1.1在\(n\)名對象中觀察到\(k\)個事件。

統計學模型:\(K\)是隨機變量,指代事件的數量,\(K\sim\text{Bin}(n,\pi)\)。

每個觀察個體中發生事件的概率相互獨立且相同。

模型參數:\(\pi\)是模型參數,指代事件發生的概率。

對數似然的推導 概率方程(probabilityfunction): \[ \text{Pr}(K=k)=\binom{n}{k}\pi^k(1-\pi)^{n-k},k=0,1,\cdots,n \] 似然方程(likelihoodfunction): \[ L(\pi|k)=\binom{n}{k}\pi^k(1-\pi)^{n-k},0



請為這篇文章評分?