TABLEAU教程2

it2024-11-22  0

数据分层

导入数据后,上方的+和-都是进行分层的工具(上卷,下钻)

创建分层

法一(比较推荐) 按照从上到下的顺序,在最高级的那一层右击,创建分层结构 按照层级的由高到低,一个个放入层级之中 法二 把一个类拖动到另一个类上,然后回自动问是否需要构成一个层级 重命名 对于新的要加入的,直接右键,添加,会自动加入到最下层

分层柱形图

导入的数据就可以像之前那样,将数组展开 然后一步步细化,看看有没有异常数据(比如‘未知’)然后将这些数据排除后,再恢复

分层折线图

导入数据后,同样可以按层级将数据展开 注意:如果弄了两个层级,两个层级不能嵌套

数据分组

两个数据应该被放到一组,应该被合并 右击数据,选择分组 然后最左侧,右击,编辑组

把一组的拖动到一起,分完组之后要改组名 如果看到一起的:点击ctrl选中之后,选择下方的group,也能分组 如果比较多,要利用下方的搜索 注意匹配的方式,用find all找到全部的以后,点击group,会自动把他们放到一起 最后将”包括其他“给去除

地图分组

选用画线工具来将区域手动划分 选择分为一组 然后再左侧栏里edit名字

分度值 要先把我们需要表现的数拖动到detail中,然后再画辅助线的时候才能调用 然后才可以调用 最终结果

数据集

集是满足某些条件的数据子集,它是维度的一部分 其中又分为常量集和计算集,前者不会随着数据变化而更新,后者则会更新 将一堆数据选中后,会出现创建集的选项 创建完之后,我们会在左边的栏里看到创建的集 当我们加了更多分类条件后,再创立集 会发现我们筛选的数据也多了几个维度 当我们查看最后数据时,可以看到被筛选出来的国家的总利润与被排除在外国家的总利润 这里的筛选条件:国家+地区+细分市场 如果我们将地区删掉,会发现对于结果没有影响,因为:地区对于国家而言是冗余数据,删除这个筛选条件,并没有造成集内的数据有所改变 但如果我们将”国家“删除,就会对数据集造成影响,变成了选定目标地区(地区+细分市场)和选定目标之外地区的对比了

动态数据集

条件筛选 选中产品,右击 - 创建集 利用条件筛选来筛选集,并且取名为负利润产品集 然后拖动进表以后,查看具体单个member利润 具体数值 筛选top10 还是右击 - 创建集 一样,筛选完拖动到表内后,show members 合并集 有的时候一个数据集不能得到想要的结果,会需要两个集合合并(同一维度) 然后这里只能负利润和TOP100合并,因为这两个都是关于产品维度创建的,而负利润国家则是基于国家维度创建,两者不能合并 这里的合并即:inner/outer/left join,不同的方式也代表了不同的集合意味,决定了最终的效果以及集合名字

上面这些集,利用Filter也能做到(集本身达到了一个筛选效果) 先Filter要的元素 然后右击,创建数据集,并且重命名 然后左下角就可以看到数据集了

分层级数据集

把分好的集拖动到市场这个维度,重命名 然后就变成了

计算字段

计算字段也能像dimension里的字段一样导入

公式 右击空白区域,创建计算字段重命名字段,把参与计算的字段拖入,即可得到 然后就会得到一个新的字段:成本 成本要换成均值,而不是求和 判别条件 计算字段也允许逻辑判别式的存在 这个时候切换到数据源,可以发现数据源里多了一列 最后结果

粒度、聚合和比率

粒度需要配合散点图,用来形容离散点的个数(原来只有一个,取消聚合之后会变成十几个) 点击取消”聚合度量“,可以将每一个点都显示出来

度量聚合 利润默认都是求总和,可以选择平均值、最大值、最小值

维度聚合 可以选择最大值、最小值、平均值(一般不怎么用)

比率 先创建计算公式 然后创立层级类别,之后过滤出自己想要的类 但最后拖动进来的是度量值,而不是维度 最后选择一下显示的度量,就可以看到具体的数值,不然就全都是0 这时候会发现 ∑ ( 利 润 ) ∑ ( 销 售 额 ) \frac{\sum(利润)}{\sum(销售额)} ()() 利 润 销 售 额 \frac{利润}{销售额} 的结果差异巨大

利 润 销 售 额 \frac{利润}{销售额} =30000%

∑ ( 利 润 ) ∑ ( 销 售 额 ) \frac{\sum(利润)}{\sum(销售额)} ()()=20.38% 明显后者是正确的,把前者展开到最细的”行ID“级别,可以发现两者又一致了 原因:前者按照公式,计算的是每个商品的利润率,最后加和;后者则是先把利润、销售额求和,最后相除

查看详细数据

右击,选择查看数据 查看详细数据

详细级别表达式

一笔订单买了一支笔1美元,一个手机199美元,那么这个订单是200美元,但是如果平均则是一个商品赚了100美元 我们想要按订单来计算平均值,就需要把同一订单的交易合集 利用详细表达式:把一个订单里的利润进行求和 得到最后的结果这样

关于详细表达式的用法 INCLUDE的位置还有FIXED/EXCLUD,后面跟的都是维度 FIXED是使用指定维度进行计算INCLUDE是在其他指定的维度之上,进行计算,类似groupbyEXCLUDE是忽略指定维度 举例:有一个订单号,里面有比利时和法国两个国家购买。 INCLUDE是把两个国家的分别计算,分别给各自国家值 FIXED则是把两个国家的值求和之后,同时赋给两个国家

表计算

快速表计算

点击tab右边的下拉菜单,套用公式即可

Running Total(汇总) 就是在做累加,第一个加第二个,再加第三个Difference(差异) 当前值减上一个值,可以进行调整,比如都去和第一个比差异,或者和下一个比差异 百分比差异 当 前 值 − 上 一 值 上 一 个 值 \frac{当前值-上一值}{上一个值} 移动平均值(Moving Avg) 前N个值的平均值,随着数据增加,平均值也在变化;一般是适合有时间顺序的数据

自定义表计算

创建计算字段

创建一个利润按月的移动平均值 以当前为界限,向前推 假设我们希望创建一个参数,可以调整往前推的月份个数 右击,选择创建参数 指定创建参数的名称,数值变化范围以及当前值 创建完之后会多出一个参数值,把这个参数值带入原先的表达式中,即可进行修改 点击”显示参数空间“,就可手动进行调整 随着拖动,后面的值也会变化

人口金字塔

一种特殊的旋风图,本质上就是成对的条形图 同一行上,同一个维度(数量)去衡量两个数据;在竖向上,通过另一个维度(年龄)去区分不同数据 直接把age作为int导入,会发现有一个Null无法识别,转换为string之后发现,那个是85+的字段,所以我们需要创建一个计算字段,来将其划分出来 如果是特殊字段,就要转化,否则就是直接转化为整数 先把年龄从度量值变成维度,再拖动进去 再创立数据桶,以10为一个段 如果直接这么作图,只会生成两张条形图,即使我们选择将图翻转,也不会变成人数从0开始向两边扩展 所以我们需要再创建两个计算字段:男性人数、女性人数 然后把总人数换成两个不同的人数 并且选择改变方向 要改变颜色,记得把gender放到“全部”的颜色里面,不然分开放到颜色里,需要操作两次

漏斗图

用于业务流程的比较,比如业务的转化率,还有业务环节衔接 画完图后,直接拖动图例,可以调节条形图在图中的位置 复制第一张图,把第二张图变成折线图后,选择双轴 在把第一张图的automatic改为bar,就可以将两张图重合 最后同步轴 同理,把这两张图复制以后,同样操作再来一次 再选择轴的方向,进行翻转,得到最终结果 最后将标题勾选掉,隐藏一部分标题 再选择格式,选择线(boarder),然后分别把行、列的分隔符隐去 选中线,把阶段拖动到text上(如果我们选择条形图,拖动到上面会将条形图压缩,左右 不对称,不美观) 点击总数,添加表计算 选择百分比,基于第一个数的百分比,这样就可以看到每一步相对于第一步还有多少留存 右边也添加一个表计算,不过是基于上一步的表计算,从而计算每一步的转化率 最终结果

箱线图

又叫盒须图,显示数据的位置,离散程度还有异常值 先将条形图转变为点图 然后解除聚合(变成一个个的点) 然后再show more里,选择盒须图 会发现有的地区因为数据过少,并不适合做盒须图,所以这里只考虑酒店比较多的前五个 利用filter筛选出前5个(要选sum,要选记录数) 在排除掉“其他区域”,最终结果 右击,选择Edit,可以编辑上下限;当我们选择最大值时,盒须图变为如下效果

范围-线图

先将日期分割到以天作为单位,然后随便看一个员工的接听量 但是不能显示这个员工每天的接听量在整体员工中所处的位置:比如大家今天平均接了15通电话,但他直接了10通 利用计算字段的FIXED来计算这几个值 计算每天的均值,需要FIXED日期 同理算出最大值和最小值 将几个数据放入detail中,后面才能添加时调用这些数据 右击左侧竖轴,才可以添加参考线 因为是针对每一天加线,所以要选每个cell,而不是整个区 然后最大最小值要选择区间(band) 最终结果如下

倾斜图

用以比较数据在同一段时间内的变化情况,以及排名变化 比如A的效率提升了,但是它的总生产量下降,排名落后了

先创建一个字段:排名 然后把数据导入,选择线(Line)模式,把单位(即地区)放入详细信息 这个时候要对排名做表计算 然后选择指定排序方式 有一个重启期间(restarting every)选项,这里针对的是横轴(因为我们是在横轴上建立表计算的) 如果选无,那么是对于整体进行排序。不按照横轴的划分来排序 如果选了期间(横轴的分界单位),那么则是针对每个时间段单独进行排序 同理。标签进来以后,也要进行表计算,操作和之前一致 最后编辑显示字段,让它格式正确,且在线首线尾都显示 当然,如果需要改变排序序号,那需要在最开始添加排序字段的时候,指定公式为 总 个 数 − I N D E X ( ) 总个数-INDEX() INDEX() 不然我们再怎么选升序降序都没有用

但此时还是没有办法展示变化趋势,所以这里需要添加一个新的计算字段(变化量) 返回当前行与指定行的关于指定计算公式的偏差值,这里因为只有两个值(前期当期),所以用First,last就够了,不然还需要-2.-1之类的来形容客观的差值 以北京为例,这last是26,first是44

关于变化量,有的时候需要用绝对值来衡量,毕竟有的时候-20的变化程度和19都是巨大,但是他们一个大一个小,所以这里要把线的粗细改变为由变化量绝对值来衡量 颜色可以直接把变化量拖动进去,也可以设计一个计算字段,大于0是增长,小于等于零是衰退,然后最后只有两种颜色

一般是把同期值放在前面,当期值放在后面,所以这里需要手动排序 然后手动把field下调 最终结果

网络图

简单网络图

先观察数据,发现数据是成对存在,最后一栏表示两点间的关联强度 先把数据导入,最后总是一个点,取消聚合度量,把automatic改成线 如果直接把点的标签拖动到label上,会发现线消失了,所以要建立双轴图,然后把两张图合并(通过复制Y轴即可完成) 然后第二张图选择形状,空心实心都可以 这个时候在第二张图添加标签,并且“允许覆盖其他标签” 最后双轴就能显示结果了 最后把C移出来,会有重复的C显示,右击原来的,选择隐藏就可以将其隐去(不是很灵,要多点几次)

省份间的网络图

数据一样是两两一组 数据导入后:取消聚合,改为线图,把relation拖动到Path里 同样,第二项张图改为shape,然后双轴合并,然后给每个省一个颜色,并显示标签(允许覆盖)

站点图

数据有所不同,第一列表示连个站点之间有线路 鉴于数据的不同,创建的方式也有所不同 老样子,双轴,第二张图改为点图 第一张图按照使用率,来给线路变色(使用率越高,越红)

弧线图

通过弧度长度,来表示不同量的大小

先编辑数据 选中要呈现的数据,选择只保存(keep only),这样就只有这些数据了

然后需要构建excel表格

角度= 自 己 个 数 总 体 个 数 ∗ 100 % \frac{自己个数}{总体个数}*100\% 100%,需要表计算来完成,保留整数位就行 根据百分比,创建对应各数的条目:比如东区站16%,那就创建16条(0到15)分类表示这些条目都属于这一类,同一类用一个数字表示最后一列统一放上这一组的个数

把新创的表重新导入,作为新的作图数据

创建计算字段 画图的时候,要用极坐标来转化 x 1 = x 0 + r ( π 180 ∗ a n g l e ) x_1=x_0+r(\frac{\pi}{180}*angle) x1=x0+r(180πangle) 这里的R是半径,就是分类,即从内到外,排在第几个,对应的R就为多少 同理,y的极坐标换位sin即可 最后结果如下

但这个时候弧度太小,希望最好能超过半圆,所以我们调小除以的数字,来讲圆弧变长

x变化,y也要对应变化

但这个时候圆弧还是很奇怪,因为圆心不对

右击下方和左侧坐标轴(Edit Axis),将坐标调整为-7到7 最终结果变为如下 但还是不够,于是我们再将除数缩小为45,会发现多出一块弧线区域 解决办法 把“角度”拖动到path里面,即可 如果想要调整其实位置,需要在X极坐标和Y极坐标内同时加 π 2 \frac{\pi}{2} 2π 最终结果如下 同理,如果想要换延展的顺时针/逆时针方向,加符号即可 最后显示文字,选择在“线首末端显示”,并且只选线首

雷达图

玩家各方面属性的表示,下面几个默认数据是用来构筑表的 先把所有数据选中(第一列除外),右击上方列名,创建数据透视表(pivot) 对于这种数据相同的,可以创建数据透视表。这边创建完之后要记得改名

首先要创建路径(把每一环都连起来),也就是从“进攻能力”出发,连接下一个能力,最后又重新连接到“进攻能力”,这里会看到有一个“进攻能力1” 利用CASE语句,最后一个写成WHEN ‘进攻能力1’ THEN 9,或者直接ELSE 9也行(重点在于区分头尾) 这样就确定好了雷达图的旋转顺序接着创建__角度__,用以确定每个点的坐标 即这个点乘以 cos ⁡ θ \cos{\theta} cosθ就能得到x轴坐标,乘以 sin ⁡ θ \sin{\theta} sinθ就能得到y轴坐标,半径则等于能力值 我们利用第一个计算字段里的序号,来分别给他们安排角度(从1到9) 最终就可以生成最终的x,y坐标值 然后这个时候就能生成图片 但是这个时候如果直接把能力名称拖入label,会发现在每层都生成名称,但我们只想在最外面一层有名字,所以要生成一个计算字段,专门控制显示字段。这个字段要生成在维度里 然后一样要使用双轴图,在第二个图里加,不然就会把最外面一层圆给挤掉 注意允许字段重叠,然后要把“进攻能力1”从和它重叠的那个字段上隐去 顺便要把坐标轴调大一些,不然字段会覆盖住线 可能是2019TABLEAU傻逼,如果选全部的时候调整Y轴值,它会只调整当前这张图的Y轴坐标,所以不得不每张图都要调整Y轴坐标 同理,这边如果要先试玩家数值,也需要用计算字段来过滤,不然每一圈都会显示1.2.3这种固定值 这里在数值里设置显示标签 然后把这个设置到的值,放到第一张图的label里,不然会把第二张图的能力名称label给挤掉 这个时候再设置允许覆盖,就会把所有值都显示出来,但是太复杂,需要做一个过滤 右击调出过滤选项后,可以只看某个玩家的数据 也可以选择下拉模式(多个下拉值),这样筛选器不会太累赘 然后我们不希望背景色太丰富,希望全是灰色,所以需要调节一下颜色 最终结果如下

改进

有的时候,我们希望把最主要的能力放在最上方,这就需要将雷达图旋转角度 给角度这个参数添加 π 2 \frac{\pi}{2} 2π即可 记得要把“进攻能力1”和“进攻能力”中重复的隐去,然后需要重新把标签拖出来 数值显示选择discrete(离散),不然小数点后面数值会过多

凹凸图(Bump Chart)

通常用在不同排名中,链接相同的事务,用以显示同一事物在各方面的优劣 然后把子类别导入后,发现计算的依据不对,需要重新调整为“子类别” 然后双轴图,同步轴,把第二张图改为shape图 然后显示所有标签,并且利用对齐,将图标显示到中心 根据需求做个倒序,两张图同时倒序的关键在于选择的是否要同步

分析

回归分析

线性回归分析

拖动数据,直接添加趋势线,就可以实现估计,但是默认添加的是线性的。 你要选择“编辑”,这样才可以选择指数或者幂的趋势线 点中线的情况下,还可以看到线的具体参数

另外一种,选择分析,把趋势线拖过去,还有多种可以选 这边设置异常值的阈值为一个参数 然后将这个参数导入计算字段,再拖入颜色 我们就可以一边调节,一边看到具体变化

多项式的话可以选2-8阶的不同多项式

时间序列分析

先把数据按时间(天)来分割 然后点击“预测”选项 默认是一条直线,这里需要选择预测选项,来进行编辑选择

第一个是选择要预测多久的 第二部分是数据源,一般不用动 主要有一个用0填充空缺值,不然会影响最终生成的模型 但建议最好自己去填充一个数据,因为填0造成的误差过大 第三部分是选择模型,主要是自定义要自己调整 前者意味着是总体是上升还是下降,不存在先上升后下降这种(不够智能) 后一个是周期最后是置信区间

当我们选择累加,就可以看到最后的结果如图 选择description,可以看到具体的变化 -5139是指预测值的起始值和预测值最终值的差值变化 9821则是在当前99%的置信度情况下,与测试会与基准线变化的最大范围

模型的调试,组合自己多调试,具体会体现在contribution上;最后有一个对于模型的描述,会有好坏之分。

最新回复(0)