导入数据后,上方的+和-都是进行分层的工具(上卷,下钻)
导入的数据就可以像之前那样,将数组展开 然后一步步细化,看看有没有异常数据(比如‘未知’)然后将这些数据排除后,再恢复
导入数据后,同样可以按层级将数据展开 注意:如果弄了两个层级,两个层级不能嵌套
两个数据应该被放到一组,应该被合并 右击数据,选择分组 然后最左侧,右击,编辑组
把一组的拖动到一起,分完组之后要改组名 如果看到一起的:点击ctrl选中之后,选择下方的group,也能分组 如果比较多,要利用下方的搜索 注意匹配的方式,用find all找到全部的以后,点击group,会自动把他们放到一起 最后将”包括其他“给去除选用画线工具来将区域手动划分 选择分为一组 然后再左侧栏里edit名字
分度值 要先把我们需要表现的数拖动到detail中,然后再画辅助线的时候才能调用 然后才可以调用 最终结果集是满足某些条件的数据子集,它是维度的一部分 其中又分为常量集和计算集,前者不会随着数据变化而更新,后者则会更新 将一堆数据选中后,会出现创建集的选项 创建完之后,我们会在左边的栏里看到创建的集 当我们加了更多分类条件后,再创立集 会发现我们筛选的数据也多了几个维度 当我们查看最后数据时,可以看到被筛选出来的国家的总利润与被排除在外国家的总利润 这里的筛选条件:国家+地区+细分市场 如果我们将地区删掉,会发现对于结果没有影响,因为:地区对于国家而言是冗余数据,删除这个筛选条件,并没有造成集内的数据有所改变 但如果我们将”国家“删除,就会对数据集造成影响,变成了选定目标地区(地区+细分市场)和选定目标之外地区的对比了
上面这些集,利用Filter也能做到(集本身达到了一个筛选效果) 先Filter要的元素 然后右击,创建数据集,并且重命名 然后左下角就可以看到数据集了
把分好的集拖动到市场这个维度,重命名 然后就变成了
计算字段也能像dimension里的字段一样导入
公式 右击空白区域,创建计算字段重命名字段,把参与计算的字段拖入,即可得到 然后就会得到一个新的字段:成本 成本要换成均值,而不是求和 判别条件 计算字段也允许逻辑判别式的存在 这个时候切换到数据源,可以发现数据源里多了一列 最后结果粒度需要配合散点图,用来形容离散点的个数(原来只有一个,取消聚合之后会变成十几个) 点击取消”聚合度量“,可以将每一个点都显示出来
度量聚合 利润默认都是求总和,可以选择平均值、最大值、最小值
维度聚合 可以选择最大值、最小值、平均值(一般不怎么用)
比率 先创建计算公式 然后创立层级类别,之后过滤出自己想要的类 但最后拖动进来的是度量值,而不是维度 最后选择一下显示的度量,就可以看到具体的数值,不然就全都是0 这时候会发现 ∑ ( 利 润 ) ∑ ( 销 售 额 ) \frac{\sum(利润)}{\sum(销售额)} ∑(销售额)∑(利润)和 利 润 销 售 额 \frac{利润}{销售额} 销售额利润的结果差异巨大
利 润 销 售 额 \frac{利润}{销售额} 销售额利润=30000%
∑ ( 利 润 ) ∑ ( 销 售 额 ) \frac{\sum(利润)}{\sum(销售额)} ∑(销售额)∑(利润)=20.38% 明显后者是正确的,把前者展开到最细的”行ID“级别,可以发现两者又一致了 原因:前者按照公式,计算的是每个商品的利润率,最后加和;后者则是先把利润、销售额求和,最后相除
查看详细数据
右击,选择查看数据 查看详细数据一笔订单买了一支笔1美元,一个手机199美元,那么这个订单是200美元,但是如果平均则是一个商品赚了100美元 我们想要按订单来计算平均值,就需要把同一订单的交易合集 利用详细表达式:把一个订单里的利润进行求和 得到最后的结果这样
关于详细表达式的用法 INCLUDE的位置还有FIXED/EXCLUD,后面跟的都是维度 FIXED是使用指定维度进行计算INCLUDE是在其他指定的维度之上,进行计算,类似groupbyEXCLUDE是忽略指定维度 举例:有一个订单号,里面有比利时和法国两个国家购买。 INCLUDE是把两个国家的分别计算,分别给各自国家值 FIXED则是把两个国家的值求和之后,同时赋给两个国家点击tab右边的下拉菜单,套用公式即可
Running Total(汇总) 就是在做累加,第一个加第二个,再加第三个Difference(差异) 当前值减上一个值,可以进行调整,比如都去和第一个比差异,或者和下一个比差异 百分比差异 当 前 值 − 上 一 值 上 一 个 值 \frac{当前值-上一值}{上一个值} 上一个值当前值−上一值移动平均值(Moving Avg) 前N个值的平均值,随着数据增加,平均值也在变化;一般是适合有时间顺序的数据创建计算字段
创建一个利润按月的移动平均值 以当前为界限,向前推 假设我们希望创建一个参数,可以调整往前推的月份个数 右击,选择创建参数 指定创建参数的名称,数值变化范围以及当前值 创建完之后会多出一个参数值,把这个参数值带入原先的表达式中,即可进行修改 点击”显示参数空间“,就可手动进行调整 随着拖动,后面的值也会变化一种特殊的旋风图,本质上就是成对的条形图 同一行上,同一个维度(数量)去衡量两个数据;在竖向上,通过另一个维度(年龄)去区分不同数据 直接把age作为int导入,会发现有一个Null无法识别,转换为string之后发现,那个是85+的字段,所以我们需要创建一个计算字段,来将其划分出来 如果是特殊字段,就要转化,否则就是直接转化为整数 先把年龄从度量值变成维度,再拖动进去 再创立数据桶,以10为一个段 如果直接这么作图,只会生成两张条形图,即使我们选择将图翻转,也不会变成人数从0开始向两边扩展 所以我们需要再创建两个计算字段:男性人数、女性人数 然后把总人数换成两个不同的人数 并且选择改变方向 要改变颜色,记得把gender放到“全部”的颜色里面,不然分开放到颜色里,需要操作两次
用于业务流程的比较,比如业务的转化率,还有业务环节衔接 画完图后,直接拖动图例,可以调节条形图在图中的位置 复制第一张图,把第二张图变成折线图后,选择双轴 在把第一张图的automatic改为bar,就可以将两张图重合 最后同步轴 同理,把这两张图复制以后,同样操作再来一次 再选择轴的方向,进行翻转,得到最终结果 最后将标题勾选掉,隐藏一部分标题 再选择格式,选择线(boarder),然后分别把行、列的分隔符隐去 选中线,把阶段拖动到text上(如果我们选择条形图,拖动到上面会将条形图压缩,左右 不对称,不美观) 点击总数,添加表计算 选择百分比,基于第一个数的百分比,这样就可以看到每一步相对于第一步还有多少留存 右边也添加一个表计算,不过是基于上一步的表计算,从而计算每一步的转化率 最终结果
又叫盒须图,显示数据的位置,离散程度还有异常值 先将条形图转变为点图 然后解除聚合(变成一个个的点) 然后再show more里,选择盒须图 会发现有的地区因为数据过少,并不适合做盒须图,所以这里只考虑酒店比较多的前五个 利用filter筛选出前5个(要选sum,要选记录数) 在排除掉“其他区域”,最终结果 右击,选择Edit,可以编辑上下限;当我们选择最大值时,盒须图变为如下效果
先将日期分割到以天作为单位,然后随便看一个员工的接听量 但是不能显示这个员工每天的接听量在整体员工中所处的位置:比如大家今天平均接了15通电话,但他直接了10通 利用计算字段的FIXED来计算这几个值 计算每天的均值,需要FIXED日期 同理算出最大值和最小值 将几个数据放入detail中,后面才能添加时调用这些数据 右击左侧竖轴,才可以添加参考线 因为是针对每一天加线,所以要选每个cell,而不是整个区 然后最大最小值要选择区间(band) 最终结果如下
用以比较数据在同一段时间内的变化情况,以及排名变化 比如A的效率提升了,但是它的总生产量下降,排名落后了
先创建一个字段:排名 然后把数据导入,选择线(Line)模式,把单位(即地区)放入详细信息 这个时候要对排名做表计算 然后选择指定排序方式 有一个重启期间(restarting every)选项,这里针对的是横轴(因为我们是在横轴上建立表计算的) 如果选无,那么是对于整体进行排序。不按照横轴的划分来排序 如果选了期间(横轴的分界单位),那么则是针对每个时间段单独进行排序 同理。标签进来以后,也要进行表计算,操作和之前一致 最后编辑显示字段,让它格式正确,且在线首线尾都显示 当然,如果需要改变排序序号,那需要在最开始添加排序字段的时候,指定公式为 总 个 数 − I N D E X ( ) 总个数-INDEX() 总个数−INDEX() 不然我们再怎么选升序降序都没有用
但此时还是没有办法展示变化趋势,所以这里需要添加一个新的计算字段(变化量) 返回当前行与指定行的关于指定计算公式的偏差值,这里因为只有两个值(前期当期),所以用First,last就够了,不然还需要-2.-1之类的来形容客观的差值 以北京为例,这last是26,first是44关于变化量,有的时候需要用绝对值来衡量,毕竟有的时候-20的变化程度和19都是巨大,但是他们一个大一个小,所以这里要把线的粗细改变为由变化量绝对值来衡量 颜色可以直接把变化量拖动进去,也可以设计一个计算字段,大于0是增长,小于等于零是衰退,然后最后只有两种颜色
一般是把同期值放在前面,当期值放在后面,所以这里需要手动排序 然后手动把field下调 最终结果
先观察数据,发现数据是成对存在,最后一栏表示两点间的关联强度 先把数据导入,最后总是一个点,取消聚合度量,把automatic改成线 如果直接把点的标签拖动到label上,会发现线消失了,所以要建立双轴图,然后把两张图合并(通过复制Y轴即可完成) 然后第二张图选择形状,空心实心都可以 这个时候在第二张图添加标签,并且“允许覆盖其他标签” 最后双轴就能显示结果了 最后把C移出来,会有重复的C显示,右击原来的,选择隐藏就可以将其隐去(不是很灵,要多点几次)
数据一样是两两一组 数据导入后:取消聚合,改为线图,把relation拖动到Path里 同样,第二项张图改为shape,然后双轴合并,然后给每个省一个颜色,并显示标签(允许覆盖)
数据有所不同,第一列表示连个站点之间有线路 鉴于数据的不同,创建的方式也有所不同 老样子,双轴,第二张图改为点图 第一张图按照使用率,来给线路变色(使用率越高,越红)
通过弧度长度,来表示不同量的大小
先编辑数据 选中要呈现的数据,选择只保存(keep only),这样就只有这些数据了
然后需要构建excel表格
角度= 自 己 个 数 总 体 个 数 ∗ 100 % \frac{自己个数}{总体个数}*100\% 总体个数自己个数∗100%,需要表计算来完成,保留整数位就行 根据百分比,创建对应各数的条目:比如东区站16%,那就创建16条(0到15)分类表示这些条目都属于这一类,同一类用一个数字表示最后一列统一放上这一组的个数把新创的表重新导入,作为新的作图数据
创建计算字段 画图的时候,要用极坐标来转化 x 1 = x 0 + r ( π 180 ∗ a n g l e ) x_1=x_0+r(\frac{\pi}{180}*angle) x1=x0+r(180π∗angle) 这里的R是半径,就是分类,即从内到外,排在第几个,对应的R就为多少 同理,y的极坐标换位sin即可 最后结果如下但这个时候弧度太小,希望最好能超过半圆,所以我们调小除以的数字,来讲圆弧变长
x变化,y也要对应变化但这个时候圆弧还是很奇怪,因为圆心不对
右击下方和左侧坐标轴(Edit Axis),将坐标调整为-7到7 最终结果变为如下 但还是不够,于是我们再将除数缩小为45,会发现多出一块弧线区域 解决办法 把“角度”拖动到path里面,即可 如果想要调整其实位置,需要在X极坐标和Y极坐标内同时加 π 2 \frac{\pi}{2} 2π 最终结果如下 同理,如果想要换延展的顺时针/逆时针方向,加符号即可 最后显示文字,选择在“线首末端显示”,并且只选线首
玩家各方面属性的表示,下面几个默认数据是用来构筑表的 先把所有数据选中(第一列除外),右击上方列名,创建数据透视表(pivot) 对于这种数据相同的,可以创建数据透视表。这边创建完之后要记得改名
首先要创建路径(把每一环都连起来),也就是从“进攻能力”出发,连接下一个能力,最后又重新连接到“进攻能力”,这里会看到有一个“进攻能力1” 利用CASE语句,最后一个写成WHEN ‘进攻能力1’ THEN 9,或者直接ELSE 9也行(重点在于区分头尾) 这样就确定好了雷达图的旋转顺序接着创建__角度__,用以确定每个点的坐标 即这个点乘以 cos θ \cos{\theta} cosθ就能得到x轴坐标,乘以 sin θ \sin{\theta} sinθ就能得到y轴坐标,半径则等于能力值 我们利用第一个计算字段里的序号,来分别给他们安排角度(从1到9) 最终就可以生成最终的x,y坐标值 然后这个时候就能生成图片 但是这个时候如果直接把能力名称拖入label,会发现在每层都生成名称,但我们只想在最外面一层有名字,所以要生成一个计算字段,专门控制显示字段。这个字段要生成在维度里 然后一样要使用双轴图,在第二个图里加,不然就会把最外面一层圆给挤掉 注意允许字段重叠,然后要把“进攻能力1”从和它重叠的那个字段上隐去 顺便要把坐标轴调大一些,不然字段会覆盖住线 可能是2019TABLEAU傻逼,如果选全部的时候调整Y轴值,它会只调整当前这张图的Y轴坐标,所以不得不每张图都要调整Y轴坐标 同理,这边如果要先试玩家数值,也需要用计算字段来过滤,不然每一圈都会显示1.2.3这种固定值 这里在数值里设置显示标签 然后把这个设置到的值,放到第一张图的label里,不然会把第二张图的能力名称label给挤掉 这个时候再设置允许覆盖,就会把所有值都显示出来,但是太复杂,需要做一个过滤 右击调出过滤选项后,可以只看某个玩家的数据 也可以选择下拉模式(多个下拉值),这样筛选器不会太累赘 然后我们不希望背景色太丰富,希望全是灰色,所以需要调节一下颜色 最终结果如下有的时候,我们希望把最主要的能力放在最上方,这就需要将雷达图旋转角度 给角度这个参数添加 π 2 \frac{\pi}{2} 2π即可 记得要把“进攻能力1”和“进攻能力”中重复的隐去,然后需要重新把标签拖出来 数值显示选择discrete(离散),不然小数点后面数值会过多
通常用在不同排名中,链接相同的事务,用以显示同一事物在各方面的优劣 然后把子类别导入后,发现计算的依据不对,需要重新调整为“子类别” 然后双轴图,同步轴,把第二张图改为shape图 然后显示所有标签,并且利用对齐,将图标显示到中心 根据需求做个倒序,两张图同时倒序的关键在于选择的是否要同步
拖动数据,直接添加趋势线,就可以实现估计,但是默认添加的是线性的。 你要选择“编辑”,这样才可以选择指数或者幂的趋势线 点中线的情况下,还可以看到线的具体参数
另外一种,选择分析,把趋势线拖过去,还有多种可以选 这边设置异常值的阈值为一个参数 然后将这个参数导入计算字段,再拖入颜色 我们就可以一边调节,一边看到具体变化
多项式的话可以选2-8阶的不同多项式先把数据按时间(天)来分割 然后点击“预测”选项 默认是一条直线,这里需要选择预测选项,来进行编辑选择
第一个是选择要预测多久的 第二部分是数据源,一般不用动 主要有一个用0填充空缺值,不然会影响最终生成的模型 但建议最好自己去填充一个数据,因为填0造成的误差过大 第三部分是选择模型,主要是自定义要自己调整 前者意味着是总体是上升还是下降,不存在先上升后下降这种(不够智能) 后一个是周期最后是置信区间当我们选择累加,就可以看到最后的结果如图 选择description,可以看到具体的变化 -5139是指预测值的起始值和预测值最终值的差值变化 9821则是在当前99%的置信度情况下,与测试会与基准线变化的最大范围
模型的调试,组合自己多调试,具体会体现在contribution上;最后有一个对于模型的描述,会有好坏之分。