tidyverse实战——利用疫情数据
利用tidyverse进行疫情数据实战分析 数据来源:约翰霍普金斯大学持续更新的开源项目(CSSEGISandData/COVID-19),包含确诊数、死亡数和治愈数三个数据集。分析工具:主要使用tidyverse套件中的readr 、dplyr、tidyr等包进行数据读取、清洗和转换 ,并利用barRacer包制作动态条形图 。
tidyverse是一个由一系列R包组成的生态系统,旨在让数据传输 、清理和转换变得简单、有扩展性、可读性和一致性。tidyverse包括常用的包dplyr和tidyr,分别用于数据处理和转换 ,以及总结数据中的缺失值和非方便型的列、行。在学习ggplot2和tidyverse之前,需要掌握R语言基本知识和一些绘图基础知识 。
省级数据可视化 准备省级地图数据数据来源:使用整合好的ProvinceMapDatas.Rda文件,包含中国省级边界数据和南海部分数据。
建议关注Tidyverse数据分析范式最近几年是R社区比较“动荡”的几年,主要来自Tidyverse门派的异军突起。谢益辉作为R老用户 ,看到书中的代码非常亲切和熟悉,但觉得从今往后,尝试往Tidyverse数据分析范式转型会让很多业余数据分析者受益。
新闻可视化有几种形式
〖壹〗 、新闻可视化主要通过数据可视化图表展现 ,包括各种形式的图表,如柱状图、条形图、折线图和饼图 。这些图表直观地展示了数据之间的关系,帮助读者更快速地理解信息。
〖贰〗 、可视化新闻的类型多种多样 ,有信息表、时间线、数据漫画 、数据地图、文字云、泡泡图等。可视化新闻的产生原因(一)传播环境驱使在大众传播中,自媒体推送的无限庞杂海量的信息和受众希望快速准确获取关键重点信息之间的矛盾日益凸显 。这种传播环境催生了可视化新闻的产生和发展。
〖叁〗 、可视化新闻 可视化新闻是以数据为核心,以信息为支撑 ,以可视化为基本载体的跨媒体新闻报道形式。可视化新闻包括三个要素:数据分析、视觉呈现、新闻报道 。可视化新闻在近十几年逐渐兴起,其中最早的是英国《卫报》,其比较典型的作品有《阿拉伯之春》。
〖肆〗 、综上所述 ,主流媒体新闻产品的数字化转型离不开融媒体专题、3D技术、二维动画、VR效果 、H5产品和AIGC新闻这六种关键的融媒作品形式。这些形式各有特色且相互补充,共同推动了主流媒体新闻产品的数字化进程 。
流行病学流行曲线绘制要点
流行病学流行曲线绘制要点包括选取合适图表类型、做好数据收集总结、合理设定时间轴 、进行数据标准化处理、标注关键信息、清晰呈现与解释以及检查验证;注意事项涵盖数据可靠性 、时间间隔合理性、标注准确性等方面。
流行病学流行曲线绘制要点及注意事项如下:选取合适的图表类型制作流行曲线应优先选取直方图,避免使用条图和线图。
流行病学流行曲线绘制要点包括数据收集与总结、选取合适的图表类型 、时间轴设定、数据标准化处理、标注关键信息 、清晰呈现与解释以及检查与验证 。数据收集与总结:数据需来自可靠的监测和报告系统,如公共卫生部门或医疗机构 ,涵盖病例的发病时间(或诊断时间)、地点、年龄、性别等信息。
流行病学流行曲线的特征主要包括其典型形态和各个阶段的特征。典型形态:单峰型:曲线呈陡峭上升后快速下降的钟形分布,常见于点源暴露事件,如集体食物中毒。病例在短时间内(如24-48小时内)集中出现 ,形成明显的尖峰 。
K-M曲线绘制:使用sts graph命令生成分组生存曲线,通过by()选项指定分组变量(如治疗组 vs 对照组),并添加标题 、坐标轴标签等美化图形。
无需预设阈值:ROC曲线涵盖所有可能的决策阈值 ,避免了因阈值选取不当导致的偏差。与患病率无关:只要病例收集具有代表性,ROC曲线的形状不受人群患病率影响,适用于不同流行病学场景 。信息整合:将灵敏度、特异度及其权衡关系整合到单一图形中 ,便于直观比较。
流行病学流行曲线绘制要点及注意事项
〖壹〗、流行病学流行曲线绘制要点及注意事项如下:选取合适的图表类型制作流行曲线应优先选取直方图,避免使用条图和线图。时间序列图是常用形式,横轴为时间(日 、周、月等) ,纵轴为病例数或发病率;若需比较不同时间段或地区数据,可选用条形图;若需展示多类别(如不同年龄组)的累计情况,堆积面积图更合适 。
〖贰〗、流行病学流行曲线绘制要点包括选取合适图表类型 、做好数据收集总结、合理设定时间轴、进行数据标准化处理 、标注关键信息、清晰呈现与解释以及检查验证;注意事项涵盖数据可靠性、时间间隔合理性 、标注准确性等方面。
〖叁〗、流行病学流行曲线绘制要点包括数据收集与总结、选取合适的图表类型、时间轴设定 、数据标准化处理、标注关键信息、清晰呈现与解释以及检查与验证。数据收集与总结:数据需来自可靠的监测和报告系统,如公共卫生部门或医疗机构 ,涵盖病例的发病时间(或诊断时间) 、地点、年龄、性别等信息 。
〖肆〗 、流行病学流行曲线的特征主要包括其典型形态和各个阶段的特征。典型形态:单峰型:曲线呈陡峭上升后快速下降的钟形分布,常见于点源暴露事件,如集体食物中毒。病例在短时间内(如24-48小时内)集中出现 ,形成明显的尖峰 。
〖伍〗、无需预设阈值:ROC曲线涵盖所有可能的决策阈值,避免了因阈值选取不当导致的偏差。与患病率无关:只要病例收集具有代表性,ROC曲线的形状不受人群患病率影响 ,适用于不同流行病学场景。信息整合:将灵敏度、特异度及其权衡关系整合到单一图形中,便于直观比较。

数据分析入门教程|300分钟用Matplotlib打造疫情展示地图
〖壹〗 、课程核心内容与结构课程分为五个阶段,逐步深入Matplotlib的核心功能 ,最终实现疫情数据地图可视化:阶段一:Matplotlib介绍与安装 Matplotlib介绍:Python中最基础的数据可视化库,支持2D/3D图表绘制,广泛应用于学术、商业和工程领域 。
〖贰〗、案例借鉴财务分析:用尺寸可视化展示各地区收入占比 ,颜色区分增长/下降区域,空间可视化结合地图显示区域分布。用户行为:用桑基图展示用户从浏览到购买的路径转化,概念可视化用流程图解释推荐算法逻辑。通过以上步骤,可系统化地将大数据转化为直观 、有说服力的可视化作品 ,帮助用户快速洞察数据价值 。
〖叁〗、Basemap是Matplotlib的子包,用于在Python中绘制2D数据至地图。提供25种不同地图投影功能,支持坐标转换。包含GSSH(GSHHG)海岸线数据集及GMT格式的河流、州和国家边界数据集 。内部使用GEOS库剪切海岸线和边界特征至所需地图投影区域。主要绘制方法 海岸线与边界 drawcoastlines():绘制海岸线。
〖肆〗、开发流程:数据清洗:处理缺失值 、异常值(如用中位数替代极端值) 。维度选取:根据分析目标筛选关键指标(如用户留存分析中仅保留活跃天数、登录频率)。图表映射:将数据字段映射至视觉元素(如用条形长度表示数值大小)。交互设计:添加筛选器、联动功能(如点击地图区域后自动更新下方统计图表) 。
〖伍〗 、可视化设计方向 地图热力图:用颜色深浅表示各省初婚人数多少 ,直观对比区域差异。时间序列折线图:展示2013-2022年各省初婚人数变化趋势,分析疫情前后波动。柱状图对比:对比2019年(疫情前)与2022年各省数据,量化疫情影响。
〖陆〗、例如:趋势分析:折线图(展示时间序列变化) 。占比关系:饼图或堆叠柱状图(突出部分与整体比例)。分布规律:直方图或箱线图(观察数据离散程度)。地理数据:热力图或地图(如郑州暴雨案例) 。拟物化设计增强理解:通过具象化表达降低认知难度。
我们每天关注的疫情分布图是怎么做出来的?
〖壹〗、随便找个网站 ,拔下来一份最新的疫情数据 点击开始制作图表--- 创建图表 --- 选取地图---标准中国地图 数据编辑--- 导入excel。即可将我们准备的疫情数据导入 4,调整颜色 通过参数调整 。在值域中通过修改值域范围和控制器颜色。可以简单的做出一个还不错的图表。另外,图说里面还有其他很多常用的图例 。
〖贰〗 、使用小O地图的【地图可视化】功能 ,制作疫情风险热力图。在小O地图中,选取【地图可视化】-【热力图】。导入包含风险等级(或相关权重)的Excel表格数据 。根据数据生成热力图,通过颜色深浅表示风险等级的高低。
〖叁〗、在小O地图中 ,选取高德地图作为底图。配置地图:根据需要调整地图的样式、颜色 、标签等。确保行政区名称和病例数能够正确显示在地图上 。加载数据并显示:点击“加载 ”按钮,将Excel表格中的数据加载到地图上。地图将按照行政区显示不同的病例数,形成疫情分布图。
〖肆〗、生成地图:打开高德地图,选取“新建行政区地图” ,配置数据,点击“加载”导入数据,显示疫情累计病例分布 。 地图输出:保存地图效果 ,可以使用“地图快照 ”功能,自定义范围、比例尺,添加水印 ,截取不同尺寸的PNG 、TIF或HTML格式图片,分享疫情地图。
〖伍〗、进入专题页面:在搜索结果中,点击“上海疫情”专题入口 ,进入详情页面。查看疫情地图:在专题页面中,向下滚动内容,找到右侧的倒三角按钮(通常用于展开更多内容或切换视图) 。点击倒三角按钮后 ,页面会展示上海疫情的分布地图,地图上会以不同颜色或标记标示出疫情区域。







