探讨数据可视化的话题时,首要的是理解何为数据可视化。借助图形化手段清晰有效地传递和沟通信息,这正是数据可视化的核心理念。在工作中,数据分析师常借助图表来展示他们的分析结果,选择合适的图表类型显得尤为重要。
根据数据的不同功能特点,我们通常将图表分为四种主要类型:分布图表、构成图表、比较图表和联系图表。这四种图表类型几乎涵盖了整个数据可视化的需求,无论是在Excel、Python还是PowerBI中,都遵循着相似的选择原则。
一、分布图表
分布图表用于直观展示数据的分布形态。在探索性数据分析中,直方图和正态分布图常被用于展示单个变量的分布状态。而当变量数量较多时,散点图或曲面图则更为适合展现数据分布情况。
二、构成图表
构成图表主要用于体现数据的组合与占比关系。例如,对于基于时间周期的占比情况,我们可以选择堆积百分比柱形图或堆积百分比面积图。而我们所熟知的饼图则常用于展示数据占总体比例的大小。
三、比较图表
比较图表主要用于数据间的比较。基于分类的比较常使用柱形图和条形图,而基于时间周期变化的比较则适合使用曲线图来展现数据随时间变化的趋势。
四、联系图表
联系图表用于展示数据间的内在联系。当涉及两个变量时,散点图是合适的选择;而当有三个变量时,可以使用气泡图来展现其中两个变量间的关系以及第三个变量的大小。
上述内容详细介绍了图表的选择及部分图表的展示方式。仅仅选择合适的图表还不够,还需要对图表进行优化,以确保有效传递数据信息。图表的优化意味着要打破常规的作图思路,避免使用Excel图表的默认设置。
以商业数据分析报告中的图表为学习标杆,《经济学人》、《商业》和《》等都提供了优秀的图表素材。以下是一个标准的图表模板的介绍:
图表创建与优化
选择数据区域,在插入选项卡下选择推荐的“百分比堆积柱形图”作为图表类型。
标题区
图例区
将图例位置设置为靠上并确保其可见,同时避免与图表重叠以保持清晰度。
数据标注区
强调关键数据点,移除多余的数据标签,并将标签位置设置为数据标签内。自定义数据标签类型以突出重点数据。
绘图区
调整柱形间的间隙宽度以增强视觉效果。
调整默认颜色以增加区分度,并使用着色来突出重点数据和非重点数据。
纵坐标轴设置
将纵坐标轴主刻度线类型设置为外部,添加纵坐标轴标题并去除网格线以保持清晰。