-
- 素材大小:
- 479.00 KB
- 素材授权:
- 免费下载
- 素材格式:
- .ppt
- 素材上传:
- ppt
- 上传时间:
- 2018-05-22
- 素材编号:
- 118486
- 素材类别:
- 学校PPT
-
素材预览
这是一个关于logistic回归案例PPT课件,主要介绍Logistic回归是描述一些自变量X和一个分类变量之间关系的数学模型。Logistic回归分析北京大学公共卫生学院 王海俊 副教授 什么是适宜的统计方法?当研究目的为建立某病发生概率与自变量关系的统计模型时,是否可用线性回归模型?为什么?P 某事件发生的概率 X 可能与该事件发生有关的因素 P= 一、Logistic回归模型 Logistic回归是描述一些自变量X和一个分类变量之间关系的数学模型。 应变量:二分类变量,若令应变量为y,则常用y=1表示“发病”,y=0表示“不发病”(在病例对照研究中,分别表示病例组和对照组)。 自变量:可以为分类变量,也可以为连续变量。与线性回归分析的主要区别:应变量为连续计量资料 Logistic回归的分类 二分类 多分类 条件Logistic回归 非条件Logistic回归 Logistic回归模型 Logistic function Logit变换(也称对数单位转换) logit P= = 二、参数估计最大似然估计法(Maximum likehood estimate)似然函数:L= P(y=1|x) P(y=0|x) 对数似然函数:lnL=∑(ln P)=ln P1+ln P2+…+ln Pn 非线性迭代方法——Newton-Raphson法 通过迭代法估计一组参数(0, 1 ,2 …..m)使L达到最大。三、回归系数的意义 单纯从数学上讲,与多元线性回归分析中回归系数的解释并无不同,亦即βi表示xi改变一个单位时, logit P的平均变化量,欢迎点击下载logistic回归案例PPT课件哦。
logistic回归案例PPT课件是由红软PPT免费下载网推荐的一款学校PPT类型的PowerPoint.
Logistic回归分析北京大学公共卫生学院 王海俊 副教授 什么是适宜的统计方法?当研究目的为建立某病发生概率与自变量关系的统计模型时,是否可用线性回归模型?为什么?P 某事件发生的概率 X 可能与该事件发生有关的因素 P= 一、 Logistic回归模型 Logistic回归是描述一些自变量X和一个分类变量之间关系的数学模型。 应变量:二分类变量,若令应变量为y,则常用y=1表示“发病”,y=0表示“不发病”(在病例对照研究中,分别表示病例组和对照组)。 自变量:可以为分类变量,也可以为连续变量。与线性回归分析的主要区别:应变量为连续计量资料 Logistic回归的分类 二分类 多分类 条件Logistic回归 非条件Logistic回归 Logistic回归模型 Logistic function Logit变换(也称对数单位转换) logit P= = 二、参数估计最大似然估计法(Maximum likehood estimate) 似然函数:L= P(y=1|x) P(y=0|x) 对数似然函数: lnL=∑(ln P)=ln P1+ln P2+…+ln Pn 非线性迭代方法——Newton-Raphson法 通过迭代法估计一组参数(0, 1 , 2 ….. m)使L达到最大。三、回归系数的意义 单纯从数学上讲,与多元线性回归分析中回归系数的解释并无不同,亦即βi表示xi改变一个单位时, logit P的平均变化量。 流行病学一些概念: 设P表示暴露因素X时个体发病的概率,则发病的概率P与未发病的概率1-P 之比为优势或比值(odds), logit P就是odds的对数值。比值比 Odds Ratio Odds=P/(1-P) 暴露组: P1=a/(a+b), 1-P1= b/(a+b) Odds=a/b 非暴露组: P0=c/(c+d), 1-P0= d/(c+d) Odds=c/d Odds Ratio (OR) 相对危险度(relative risk): RR=P1/P0 当一种病的死亡率(或发病率)较小,近似于零时,1-P≈1,则有: OR≈RR=P1/P0 Logistic回归中的常数项(β0)表示,在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。 Logistic回归中的回归系数(βi )表示,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR的对数值。 Logistic回归系数的意义分析因素xi为二分类变量时, 暴露xi =1,非暴露xi =0, 则Logistic回归中xi的系数βi就是暴露与非暴露优势比的对数值. 即,OR=exp(βi)=e βi βi = 0时,OR=1,Xi对疾病不起作用; βi > 0时,OR>1,Xi是疾病的危险因素; βi < 0时,OR<1,Xi是疾病的保护因素。 分析因素xi为多分类无序变量时,为方便起见,常用1,2,…,k分别表示k个不同的类别。进行Logistic回归分析前需将该变量转换成k-1个指示变量或哑变量(design/dummy variable),这样指示变量都是一个二分变量,每一个指示变量均有一个估计系数,即回归系数,其解释同前。 分析因素xi为多分类有序(等级)变量时: 如果每个等级的作用相同,可按计量资料处理:如以最小或最大等级作参考组,并按等级顺序依次取为0,1,2,…。此时, eβi 表示xi增加一个等级时的优势比, e(k*βi)表示xi增加k个等级时的优势比。 如果每个等级的作用不相同,则按多分类无序资料处理。分析因素xi为连续性变量时, eβi表示xi增加一个计量单位时的优势比。 多因素Logistic回归分析时,对回归系数的解释都是指在其它所有自变量固定的情况下的优势比。 存在因素间交互作用时, Logistic 回归模型中各自变量与疾病关系的联合作用为乘法模型,回归系数的解释变得更为复杂,应特别慎重。 OR的可信区间 样本量较大时,Logistic回归系数bi服从u分布。因此其可信区间为 进而,优势比OR(ebi )的可信区间为 四、模型检验和评价似然比检验(likehood ratio test) 通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数的变化来进行,其统计量为G (又称Deviance)。 G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度为待检验因素个数的2分布。 Wald检验( wald test) 即广义的t检验,统计量为u u服从正态分布,Sbi即为标准误。 同理,Logistic回归系数的区间估计 五、 变量筛选基本思想同线性回归分析。 从所用的方法看,有强迫法、前进法、后退法和逐步法。在这些方法中,筛选变量的过程与线性回归过程的完全一样。但其中所用的统计量不再是线性回归分析中的F统计量,而是以上介绍的参数检验方法中的统计量之一。六、条件Logistic回归对配对调查资料,应该用条件Logistic回归分析。 配对设计的Logistic回归模型 其中不含常数项。 七、其他Logistic 回归模型八、 Logistic回归的应用危险/保护因素的筛选,并确定其作用大小。预测:预测某种情况下或者某个病例,某特定事件发生的概率。九、注意事项应用条件 1. 各观察对象间相互独立; 2. logit P与自变量呈线性关系。 变量的取值形式:变量采取不同的取值形式,参数的含义、量值及符号都可能发生变化。 二分类变量:0、1(连续性变量或哑变量) 多分类无序变量:哑变量 多分类有序(等级)变量:连续性变量或哑变量 连续性变量:转换为分类变量较易解释OR值的意义。 样本量:一般不小于200例,配对资料对子数n大于等于变量的20倍,否则回归系数的估计是有偏性的。 不应单纯依赖程序筛选变量,要注意变量的医学意义。 多元线性回归分析与Logistic回归分析都是实际工作中常用的方法,用于影响因素分析时,多元线性回归的因变量是连续变量,而Logistic回归的因变量是分类变量;两种方法的自变量均可为连续变量或分类变量,当为多分类变量时,均需设相应的哑变量。 谢谢!