在线教程

第三节 相关分析法:验证问题的切入点,迅速判断工作优先级

相关分析法:验证问题的切入点,迅速判断工作优先级

你好,欢迎来到圈外同学《7天数据分析入门实战营》,我是圈外同学创始人孙圈圈。和你一起提升数据思维,掌握职场核心竞争力。

 

 

你已经知道了,在工作中,我们可以用对比分析来发现并定位问题;用拆解分析,将复杂问题简单化,帮我们找到小的切入点。

 

但你可能发现了,针对同一个问题,我们有时候能找到多个小的切入点。

 

所以,这节课我们就要来学习相关分析,用数据去判断这些影响因素是否与最终的结果相关,以及相关密切程度高低,据此判断工作的优先级。

 

在我们讲“相关分析”之前,你先想一下:什么是“相关”呢?

 

 

相关,其实就是指两个变量,当一个变量发生变化时,另一个变量也跟着变化的关系。比如,工资随工作年限变化而变化,销售量随价格变化而变化,体重随身高变化而变化,等等。

 

“相关”比较好理解,那相关分析是什么呢?

 

 

相关分析,就是去找到两种变量中间,到底有什么相关关系。也就是说,A因素变了之后,B因素是怎么跟着变的。

 

好,那这样一个数据分析方法,我们在哪些工作场景下可以用呢?我们在课程设计之初做用户调研的时候,问到一些职场人士,基本上70%以上都听过“相关分析”,但是问到说:“你觉得相关分析在你的工作中能用上吗?”绝大部分人都说:“我觉得用不上。”

 

 

我们来看看是不是这样,到底是我们不知道怎么用,还是真的用不到。相关分析的用途通常有三个场景:

 

1、快速锁定大问题相关的一个个小因素

 

给你分享一个有意思的案例,一位TED演讲嘉宾,她想知道在线上交友网站上,怎么调整档案才能最好地呈现自己,让自己在社交网站上“受欢迎”。于是,她收集了大量女性账户的行为数据,包含幽默感、语调、声音、沟通方式、个人档案的平均长度、与男性发私信之间隔多久等等。

 

然后她将这些数据,与这些女性的受欢迎程度进行了相关分析,发现:最受欢迎女性都在用诸如 "有趣" 、“女孩” 、 “爱” 这样的关键词,自我介绍一般是97个单词,以及,她们一般会等23小时再进行下一次沟通。

 

 

掌握了这些信息之后,她建立了一个超级档案。档案里还是她本人,信息都是真实的,但是按照上面相关分析的结果,换了一种表述方式,结果她成为了这个网站上最受欢迎的人。而且在众多对她感兴趣的男性里,她发现了一个可能的“白马王子”。三年之后他们结婚了。

 

所以你看,像“如何让我成为受欢迎的女性”这样的大难题,也可以用相关分析。

 

2、用数据说服他人、终结撕逼

 

除了给自己的工作进行问题分析与定位之外,相关分析可以用在沟通方面。比如,当你跟老板或其他部门做汇报的时候,你常常就一件事情进行原因阐述和分析,那这时候往往有每个人都有自己的经验跟主观意见,大家很难达成一致,这时候你用相关分析进行验证,就很容易有说服力了。

 

比如在一些公司,市场部负责投放市场预算在一些渠道,以拉来目标用户,而销售负责把产品卖给这些用户。这时候,销售常常和市场掐,销售说因为市场的渠道质量不行,所以销售业绩下降,而市场认为,是你销售能力不行,我的渠道好好的,那么这时候,就可以用相关分析,对渠道的参数和销售业绩做一个相关分析,把数据甩出去,就很有说服力。

 

3、帮我们判断事情优先级

 

比如,影响销量的可能有很多相关因素,那我们如果要提升公司销量,到底先做哪个呢?我们就看最相关的是什么。因为相关分析是可以出来一个相关系数的,根据分值高低可以判断每个因素的相关程度。我们就可以挑选跟销量最最相关的因素,来优先进行改进提升。

 

 

讲完应用场景,这里也稍微展开一下关于学习理念。我看到身边有很多人,学了很多工具概念,说起来头头是道,相关、漏斗、拆解、各种系数……知识点都理解的,但是到了具体问题面前,就抓瞎了,知识在大脑中根本调用不起来,没法把知识内化成自己解决问题的能力,这就是因为,欠缺知识点和应用场景之间的关联。

 

所以,圈外的课程在讲解的时候,我们都要求老师,讲明白怎么用,如果讲不明白,哪怕老师再专业,我们也不合作,因为纯知识只会增加学员的大脑负担。咱们工作以后,学习的目的不是写论文、不是做学术,是助力职业发展的。这是我花时间跟你讲上面三个应用场景的原因,不讲的时候,很多人虽然知道相关分析这个概念,但根本不知道可以这么用。

 

好了,知道了相关是什么、怎么用,那么相关都有哪些类型呢? 相关在大类上可以分成两种类型:线性相关、非线性相关。

 

 

线性相关是最简单的,比如一段时间内,在同一个人身上,头发的长度和时间,就呈现线性关系,即每个月长出来的头发长度都差不多。

 

非线性相关里面,有指数、平方等其他相关类型,比如一个人的工资与职级之间就是指数相关,每晋升一个层级,我们的薪资是按照比例往上涨的,而不是涨绝对值的。比如原来工资是1万,按照20%的比例涨薪,就涨到了12000。下一次升职,再按20%涨薪,就涨到了14400。你会发现,第一年涨薪绝对值是2000,第二年则提升到了2400,出现了指数型的增长。

 

每类相关,都有与此对应的公式,和判定相关程度的相关系数,比如皮尔森(Pearson),斯皮尔曼(Spearman),肯德尔(Kendall)……

 

我知道你可能有点头大,不过好消息,你不需要知道这些。我们不是搞统计学研究,你不需要知道公式是怎么推导的,只需要知道什么时候用就好,一些工具,比如Excel、Python、SPSS,等等,都可以帮你直接跑出结果,我们后面会教你。

 

好了,相关这么多类型,在本次课程中,我们先来学习最简单的,即线性相关。

 

 

如果你感兴趣其他类型,未来在圈外数据学院的其他课程中,我们还可以再交流。

 

那么,怎么做线性相关分析呢?我现在先让你肉眼看一下,这两组数据是否有相关?

 

 

很难吧?肉眼是看不出来的。怎么办?我们可以画成图。来看这个图,我们叫做散点图,Excel就能实现横轴是年龄,纵轴是工资,把每个人的参数放进去变成一个个散点。

 

 

这样的话,你是不是能够看得比较直观,大致能判断它们到底是否相关呢?当然,光感觉还不够,所以我们可以用相关系数:R。

 

 

相关系数R的大小可以表示两个变量的相关程度。R数值的正负可以表示是正相关还是负相关。R的数值范围是-1~1。-1表示反方向变化的,1表示正方向变化的,0表示非线性相关,但也有可能是其他形式的相关,因为R只是线性相关的相关系数。

 

刚才我们提到正线性相关和负线性相关,我稍微举点例子帮你理解。

 

1.  正线性相关

 

 

也就是,当y轴的数值,整体上随着x轴数值的增高而增高,且呈接近直线的分布时,两组变量为正线性相关。比如上面的数据,随着年龄的上升,从整体上看,工资收入水平和年龄成正线性相关。

 

2. 负线性相关

 

 

也就是,当y轴的数值,整体上随着x轴数值的增高而降低,且呈接近直线的分布时,两组变量为负线性相关。

 

比如,上世纪20年代,美国经济学家George Taylor提出了“裙摆指数”,也就是经济越好的时候,女生的裙子长度越短,也就是女生的裙子长度和经济形势也是有关联的。

 

R相关系数的绝对数值越大,相关性越大。但数值到底是多少才算相关,并没有统一规定,一般的经验值是这样:

1)绝对值大于等于0.6是高度相关

2)绝对值在0.3和0.6之间是中等相关

3)绝对值小于0.3是弱相关

 

好,知道了什么是相关,也知道哪些场景可以用,还知道了相关分析的大致原理,那么现在,我就来给你一个例子,简单演示一下,线性的相关分析是怎么做的。相关分析用Excel、Python、 SPSS都可以做,我之前说的做薪酬数据的相关分析,当时就是用SPSS。不过用哪个工具不重要,都能给你结论。我在接下来的介绍里面,会把怎么操作Excel简单带过,因为操作步骤不复杂,但如果你之前没怎么用过Excel,不知道怎么操作,不用担心,我们班班也提前给你准备了一个教学视频,你可以问到他。

 

 

例子很简单,我们做一家公司内部,某个工程师岗位的月工资跟该岗位工作年限之间的相关分析。

 

首先,我们可以列出该公司目前所有该岗位工程师人员的收入情况,以及他们在该岗位上的工作年限。假设有10名工程师(当然,实际做相关分析的时候,数据越多,得到的结果越客观,我这里为了简化,只列出10个数据),他们的工资和工作年限数据是表格中这样的:

 

 

我们把这些数据放在Excel表格里面,选中它们,然后选择插入散点图,就可以得到:

 

 

这个散点图的横轴是工作年限,纵轴是月薪,每一个点都代表了一位工程师。然后在散点图上面选择“添加趋势线”,就得到:

 

 

在Excel里面,你可以选择“显示相关系数”,就可以看到相关系数。

 

 

除了验证相关,你会发现,我们还能直接通过Excel找到这条直线趋势线的公式:y = 3934.4x + 8463.9,x是横轴,代表工作年限,y是纵轴,代表月工资收入。

 

也就是说,我们不仅仅可以做相关分析,还能够做出这两个变量之间的相关关系公式,而如果有了公式,我们是能够根据一个变量估测另一个变量的。

 

 

比如,原数据的工作年限是没有1.5年的,那如果有一个1.5年的人进入这家公司,我们就能够预测,他的工资大概是什么水平,也就是x=1.5,代入公式很快就可以得到对应的y,也就是14365.5元。

 

你还记得我们在第1小节讲过的数据分析四层次吗?相关分析属于诊断分析工具,但实际上,就像上面这样,如果我们对相关做进一步的分析,找到具体如何相关的公式,我们就可以进行预测。

 

早在十几年前,谷歌公司就利用数据分析,成功预测了2009冬季流感的传播趋势,甚至可以精准到预测流感发生的地区。

 

 

那专业的医疗和健康组织,多年来都无法做到的事情,谷歌是如何做到的呢?

 

首先,谷歌收集了美国从2003年到2008年期间,流感传播的时间和地点,匹配当地、当时人们在谷歌搜索的词语,寻找其中的相关关系。

 

因为我们搜索的关键词,往往反应了我们的状态和需求,如果一段时间內,某个城市或者地区搜索“肌肉酸痛”和“全身发冷”的人急剧增加,又刚好符合美国疾病防治中心的流感传播记录,那就说明这些搜索关键词和流感传播之间具有更大的相关。

 

通过关联搜索词语和流感传播的关系,谷歌建立了一个数据模型,能够提前2周预测大规模流感传播,让人们提前防治疾病,捍卫人们的健康。

 

当然,这是一个小的拓展,是希望帮你建立知识之间的关联,未来你学习数据预测的时候,可以再想到今天的知识点,就能够融会贯通、举一反三。

 

好了,还是回到我们今天的相关分析。

 

我上面举的都是我们工作中的例子,其实除了在我们的日常工作,相关分析在商业方面也应用很广泛。还记得昨天的预告吗?我跟你提到了facebook的例子。

 

下面我们来看全球最大的社交媒体之一,脸书facebook如何通过相关分析、找到关键成功因素的。

 

 

脸书facebook首创了一个产品功能,影响了全世界几乎所有的社交类软件,包括我们熟悉的微博、微信、抖音,等等。这个功能叫people you may know,翻译过来就是“你可能认识的人”、“好友推荐”。

 

今天的你,可能对这个功能习以为常,但这个功能的推出,却不像我们想象中那么简单。

 

当时的facebook想解决一个问题:提升新用户留存率。通俗地说,就是怎么做,才能让更多新注册的用户留下来,成为一个活跃用户。

 

 

你可以思考一下,如果是你,你打算怎么做?它把用户群体中,高活跃的和不活跃的抓取出来,再一个个分析与活跃度可能相关的指标,比如说好友数量、停留时长、个人信息填写的完备程度、发文数量等。

 

在经过一系列分析之后,facebook发现了:用户是否活跃,与用户的好友数量高度相关。于是就推出了“好友推荐”的功能,让你进来之后,就加更多好友,而你就更可能留存下来,成为一个活跃用户。

 

当然,facebook的用户量大,参数复杂,要做这样的分析,就不是Excel能够轻易解决的了,但是底层逻辑是相通的。

 

所以,相关分析的作用真的非常广泛,并不是我们认为的好像没什么用。

 

不过我想说的是,虽然相关分析的应用广泛,但我们也需要注意不能滥用。这里还想跟你强调一个,关于相关分析很容易出现的误区:两个变量存在相关关系,并不一定代表这两个变量存在因果关系。也就是说,相关,并不代表因果。

 

比如,如果我们记录小朋友的身高变化,以及窗外一颗小树的高度变化,从数据上你会发现两者之间是相关的。

 

但事实上,小朋友长高不会带来小树的长高,小树的长高也不会导致小朋友长高,真正影响两者的是时间这个统计量。

 

 

所以,相关分析只是一种数据分析方法,最终的结论,还需要我们结合对业务的理解来判断。

 

好了,我们相关分析的主要知识点就到这里,我们来总结一下。

 

 

1)分析问题的本质就是将大问题进行拆解。

 

2)相关分析,就是去找到两种变量中间,到底有什么相关关系。

 

3)相关分析的用途通常有三个场景:快速锁定大问题相关的一个个小因素;用数据说服他人、终结撕逼;帮我们判断事情优先级。

 

4)了解应用场景很重要,因为欠缺知识点和应用场景之间的关联,就没法把知识内化成自己解决问题的能力。

 

5)相关在大类上可以分成两种类型:线性相关、非线性相关。相关系数R的大小可以表示两个变量的相关程度,R相关系数的绝对数值越大,相关性越大。

 

6)如果我们对相关做进一步的分析,找到具体如何相关的公式,我们就可以进行预测。

 

7)两个变量存在相关关系,并不一定代表这两个变量存在因果关系。也就是说,相关,并不代表因果。

 

好了,过去的3天,我们一共学习了三种分析方法,对比分析、漏斗分析、相关分析。这几种分析方法,都能够帮我们发现问题和拆解问题,并且提供给我们更多关于问题本质的洞察。在实际工作中,这些分析可以同时使用,用于分析解决同一个问题,从不同维度给你更多思路。做越多维度的分析,你就越能够看清事物的真相。

 

当然,我们还有其他分析方法,未来在圈外的数据学院课程中,你可以有机会继续学习。

 

好,前面3天都是用数据分析去分析解决问题,那当我们有能力分析解决更多问题之后,怎么去展现自己的能力呢?毕竟在职场上,“你行”很重要,“别人觉得你行”也很重要。所以下一节课,我来教你怎么用数据展示自己的能力以及工作成果,让你不仅行,还能有更多人说你行!

 

我是圈外同学创始人孙圈圈。和你一起提升数据思维,掌握职场核心竞争力。我们明天见!