您的位置:首页 > 聚焦 > 正文
只需3分钟!输出一篇logistic回归报告,准确度比肩R语言
来源:哔哩哔哩 发布时间2023-09-08 18:43:54    

在医学科研、特别是观察性研究领域,无论是现况调查、病例对照研究、还是队列研究,经常遇到分类的健康结局,包括二分类(如:生存与死亡、阳性与阴性、发病与未发病)或者一些可进行分类的生理生化指标等(如:血压值、血镁值、血脂和胆固醇等)时,线性回归分析往往无法进行,此时可以考虑Logistic回归模型。

logistic回归分析报告的统计模块主要包括3部分内容:统计描述差异性分析logistic回归。完成这三步,基本就可以形成一份统计报告了!


(资料图片)

实际中,许多人习惯性使用SPSS进行回归分析,但是SPSS无法进行批量单因素分析,还需要手动绘制三线表,费时又费力。而R语言虽然可以解决以上难点但具有一定的门槛,因此,这里结合一篇文献与实操案例为大家介绍一个智能在线免费统计分析平台——风暴统计

本文主要内容包括:

一、案例文献解读

二、实操案例介绍

三、风暴统计智能在线免费平台复现

一、文献解读

这里通过徐州市妇幼保健院学者的一篇文章,为大家简要介绍一下logistic回归分析文章的统计分析框架。

1.变量说明

这是一篇病例对照研究,探讨1-3 岁儿童营养状况的影响因素,共收集27例1-3岁营养不良儿童作为病例组,收集同期医院274例1-3岁营养正常儿童作为对照组,研究的暴露因素包括儿童的性别、家庭经济收入、母亲文化程度、饮食习惯、 常患疾病、进食速度、每天奶量、定期营养监测、经常吃零食及每天睡眠时间。

2.统计方法

作者采用 统计学软件进行统计分析。计数资料以率 (%) 表示 , 采用卡方 检验 ;影响因素分析采用多因素Logistic 回归分析。P<表示差异具有统计学意义。

3.统计结果

这篇文章的统计分析框架十分的清晰,首先表1进行了变量的描述统计与差异性分析。结果显示家庭经济收入、母亲文化程度、饮食习惯、常患疾病、进食速度、每天奶量、定期营养监测、经常吃零食、每天睡眠时间共9个变量对结局1-3岁儿童是否营养不良有影响,因此进一步纳入多因素logistic回归。

注:统计报告中当P=时,规范表达应为<)

经过单因素分析后,共9个变量被纳入多因素回归,结果显示9个变量对结局的影响均具有统计学意义。

规范描述:纳入家庭经济收入、母亲文化程度等构建多因素Logistic回归方程。结果发现:家庭经济收入对1-3岁儿童是否营养不良的影响具有统计学意义(OR=, 95%CI , P=);母亲文化程度对1-3岁儿童是否营养不良的影响具有统计学意义(OR=, 95%CI , P=)等。

二、案例介绍

接着我们将结合实操数据集对上述传统logistic回归分析文章的统计框架进行复现。

数据集来源于R自带MASS数据集birthwt,这是一份于1986年在在马萨诸塞州收集的与婴儿出生体重低相关的危险因素的数据。根据婴儿出生体重是否小于,分为低出生组(59例)与正常组(130例)。研究的暴露因素见下表。

下面将结合本数据分别通过风暴统计智能在线免费平台与R语言软件来进行统计框架复现,方便大家对两种方法的特点有更加直观的认识!

三、风暴统计智能在线免费平台复现

1.统计描述+差异性分析

(1)首先进入风暴统计网站的“风暴智能统计”模块,点击“一键生成规范三线表”,这里更推荐大家使用“简单粗暴版”,因为进行卡方检验时,可以自动检验变量适用于卡方检验还是fisher法,无需像SPSS一样,自行挑选结果。

比如:本例中的ht变量,应采用fisher法。

(2)导入数据集(目前支持10 M 以内的csv或excel格式)。

(3)数据整理转换

这个模块主要进行数据的预处理,比如“定量变量转分类”、“分类变量值标签设置”、“产生新变量”、“变量重命名”。

①定量变量转分类

例:例:将变量ptl以1为界,分为两组:一组“≥1”,一组“<1”。在【定量变量转分类】中选择要转换的定量变量ptl,再选择分组的方法,我们选择“自定义分组”,分组临界值输入“1”。

点击“开始分组”会生成新变量“ptl_group”。同样,选择“按照四分位数分组”和“按照中位数分组”也会生成新的分组变量。

注意:按照临界值分组,分组区间为左闭右合,如ptl变量以1为临界值,分为[0,1)和[1,+∞)。若分组临界值有多个,中间以英文符号“,”隔开即可。

②分类变量值标签设置

例:将变量race变量值打标签,“1=white”,“2=black”,“3=other”。可以在原变量基础上修改,也可生成新的变量,切记一定要点“保存”!

③产生新变量

例:将变量bwt单位有g转换为斤,即运用公式“Bwt==bwt**2”

点击确认,产生新变量“BWT”

④变量重命名

选择原变量,并在下方输入重命名名称即可。

(4)分类变量参照组设置

设置对照组,对变量race中“1=white”设置为对照组。

拖动“1”,“2”,“3”的小方块可以调换位置。排序第一位的为对照组。

(5)点击左侧“分组差异性比较”,指定不同的变量类型。风暴统计可以自动检验分类变量使用卡方法或fisher法!并在“statistic”注明检验统计量。

此外,可以导出word版结果,结果直接呈现三线表形式,包括表名与表头一步到位。如需细节打磨,word形式方便进行编辑!

word版结果如下:

回归分析

①指定因变量与自变量的变量类型

②指定logistic回归方式

当不指定先单后多P值限制时,所有变量都可进入多因素回归模型。可点击下方菜单栏,分别查看单因素回归结果、多因素回归结果、单因素+多因素在同一表格结果。表格中的P值出现时,会自动调整会规范表达:<,省时又省心!

同理,可以选择先单后多的回归方式,这个方法比较传统也是大家习惯性用的比较多的。那么什么时候推荐用逐步回归呢?有以下2种情况,可以考虑使用:①探索性研究、探讨多个影响因素时,候选的影响因素实在太多(单因素分析后P值<者,仍然超过10个),或者样本量不大。②构建预测模型时候,就放心大胆的用。其他场景,一般不建议用逐步回归法。可以先单因素后多因素,控制自变量个数。

这里由于自变量个数不多,我们采用先单后多的方式进行筛选。

③导出word版结果

风暴统计结果结果展示如下,直接生成word版三线表,高效快速!

有需求的各位,不妨花3分钟事件时间试一试,风暴统计平台是以R代码为基础搭建的智能在线医学统计分析平台,准确度方面十分有保障!

关键词:

推荐内容