如何在业余时间如何学数据分析?
我是一个web前端开发者和rails程序员,计算机专业出身,掌握Python、Ruby、C、Java编程语言,具有较为扎实的计算机理论基础。
现在工作之外的时间里想学习一下数据分析或者数据挖掘。现在大数据这个词搞得蛮火的,不少公司也有在招聘数据分析员。
抱着「技多不压身」的想法我也想稍微学习一下。说不定以后的工作也会需要。
我稍微了解了一下,数据分析最基础就是用excel来工作。不过我计算机专业出身的人,还是想通过用编程语言的方法来学习。听说R语言不错,我也稍微了解了一下。
不过现在要学数据分析的话,我可以从哪里着手?
从哪里弄到有分析价值的数据?
在开源社区有没有开源项目适合用来学习数据分析?
可以自己动手做个什么项目来实践?
现在轮到你了,如果有需要讨论的,可以联系我。
人们一谈到数据分析,总觉得很复杂,可望而不可即。
是的,其中有一些确实很复杂。比如第一方cookies、第三方cookies,以及跟踪用户、设备、网站浏览器以及其他信息。
但是有些要比你想象的简单很多很多。
几天前,我主持了一场关于网站分析领域的讨论会,这里聚集了很多网站分析领域的大咖以及一些新人。在此期间,我找了个时机画了一张关于数据分析的生态图,从图上看,数据分析真的没那么难。接下来我会慢慢阐述每一块拼图并且解释这些拼图之间是如何串联起来的。
拼完所有的图片,你会得到一张很实用有趣的图,这张图是一条通往优秀分析师的捷径。我想在这篇博文里和大家分享这些。
不管你在数据分析领域有多少经验,我相信你都能从中找到价值,哪怕你是某个领域里的大咖,这将有助于你去向你的上级表达你的想法并且让他理解你正在做的事情。
那我们按照以下步骤来理解数据分析,我敢说你一定会对数据分析有重新的认识。
Step1 数据分析生态:数据分析的核心因素
Step2 数据分析生态:数据分析的数据投入
Step3 数据分析生态:数据分析的价值输出
Step4 数据分析生态:分析师三个必经阶段
Step5 数据分析生态:各阶段的时间成本
看到这几个阶段是不是很兴奋?这个过程你会发现很多有用的技巧,去深入的研究,一定会获得一些新的洞察的。
那现在开始吧
Step1 数据分析生态:数据分析的核心因素
在数据分析中最核心的工作是理解度量的概念。你或许是这样定义度量的:它只是个简单的数字。
你的数据分析工具里充满了度量,一个平均数、一个总和或者某个百分比……
<img src=”https://pic3.zhimg.com/41cd8c0ecfd17e14c28b0226faaba426_b.jpg” data-rawwidth=”625″ data-rawheight=”224″ class=”origin_image zh-lightbox-thumb” width=”625″ data-original=”https://pic3.zhimg.com/41cd8c0ecfd17e14c28b0226faaba426_r.jpg”>
有一类度量很特别,因为他们要直接和KPI(Key Performance Indicator)挂钩。KPI是一个能够帮助你明白你的目标完成情况的度量。
这意味着如果你不知道你的商业目标,你是无法设定KPI的。例如X电商网站,转化率可能就是一个KPI,因为他们当前的目标是和业务趋势紧密结合的。而Y网站的KPI可能是订单平均价值。这完全取决于你对业务目标的理解。
请记住:如果你不知道你要去哪里,那你哪里也去不了,并且你会迷失自己。
同时,也没有哪个万能的KPI让每个人觉得都适用,因为每家公司都有自己的战略目标。当然,有些度量是无论如何都不会成为KPI的,一个很好的例子就是跳出率,因为哪怕你的跳出率从100%降到10%,这对你的业务不会产生任何大影响,跳出率降低只能告诉你用户在跳出前多看了一个页面,这固然很好,但是很难有什么决定性的作用。
在你制定KPI的时候请记住这个很重要的警告——了解你的业务目标。
现在你已经有你了数据分析的基础——度量和KPIs。接下来一层是维度。什么是维度?维度就是你网站访问者的属性。
<img src=”https://pic4.zhimg.com/0e90fe7d68d0f25ff26b9cd38823dedf_b.jpg” data-rawwidth=”625″ data-rawheight=”288″ class=”origin_image zh-lightbox-thumb” width=”625″ data-original=”https://pic4.zhimg.com/0e90fe7d68d0f25ff26b9cd38823dedf_r.jpg”>
流量来源、关键词、引荐网站、广告活动和国家,这些都是维度的例子。再比如,网页或视频名称、设备等也可以是维度。这看起来有点奇怪,但是这些确实都是可以作为维度的,那么如果你对这些数据进行跟踪,这会产生很大的价值。
通常情况下,在我们的表格中,维度出现在行里,而度量和KPIs出现在列里。
现在我们拥有了创造美妙音乐的主要材料(译者注:打比方,比喻可以做优秀的数据分析),同时我们要通过自定义报告(我最喜欢数据分析工具)来实现这一步。
请注意,我说的不是标准报告,我说的是自定义报告。因为在这里我要强调网站报告和网站分析的区别。当你开始使用自定义报告,你将不得不盯着一张白纸,然后找出到底发生了什么。如果想让你的分析工作更加出色,你将不得不和你的领导、同事、客户交谈,并且明白你要回答他们哪些问题。接下来为了更出色地完成工作,你肯定不希望自己随便做点事就交差了,你必须找到这些问题的最终答案。
<img src=”https://pic2.zhimg.com/2e35d27d90d0519a644b4b55cd756aa5_b.jpg” data-rawwidth=”625″ data-rawheight=”360″ class=”origin_image zh-lightbox-thumb” width=”625″ data-original=”https://pic2.zhimg.com/2e35d27d90d0519a644b4b55cd756aa5_r.jpg”>
所以,如果可以,你就制作自己的自定义报告吧。如果你喜欢,可以先从我的网站上下载我最喜欢的三个自定义报告或者三个SEM广告分析的自定义报告。
在这个阶段,你的直接领导会非常开心的,好像你真的发现了很重要的问题(但任何事情都不是一蹴而就的 ),这将持续四到六个月,我真心希望你能喜欢这样的感觉。
在这个阶段即将结束的时候,你将会注意到一件事,就是将小孩和成年人分开了。高级细分(译者注:将整体数据按照不同的类型进行分类,以便深入分析)是很重要的功能,原因很简单,因为把所有的数据完全堆砌在一起,这对分析是毫无益处的。
为了让你真正理解你的业务、客户和收入,你需要把数据细分,需要把数据按照不同类别去细分分析,无细分,毋宁死 :p
<img src=”https://pic2.zhimg.com/0e0d5151ae991feac82e9b7992d48289_b.jpg” data-rawwidth=”625″ data-rawheight=”424″ class=”origin_image zh-lightbox-thumb” width=”625″ data-original=”https://pic2.zhimg.com/0e0d5151ae991feac82e9b7992d48289_r.jpg”>
为了让自己分析出可行的洞察,你需要从看宏观的数据到聚焦细分的微观数据。
现在核心的元素都介绍完了,包括度量、KPIs、维度、自定义报告和高级细分。这部分已经没有其他要添加的内容了,在数据分析生态里其他的元素都是围绕着这五个核心元素的。
Step2 数据分析生态:数据分析的数据输入
数据输入分三个阶段,让我们从下图的左侧开始吧。
正如上文提到的,要将度量设定为KPIs(当然还要关注度量和高级细分),你需要很清楚你的业务优先级,这部分很好理解。
<img src=”https://pic3.zhimg.com/2d0bd79409aab24f76378c85561bff86_b.jpg” data-rawwidth=”625″ data-rawheight=”412″ class=”origin_image zh-lightbox-thumb” width=”625″ data-original=”https://pic3.zhimg.com/2d0bd79409aab24f76378c85561bff86_r.jpg”>
要知道业务的优先级,你需要从你能接触到的公司的最高领导那获取相应的信息。你可以联系你的CMO或者CEO,这是值得去做的。很多的数据分析结果都会石沉大海,因为很多分析师都会痴迷于他们所感兴趣的分析结果,而不是老板们所关心的内容。不要犯这样的错误。
接下来让大家看一些真正有意思的内容,不管你的业务有多大。
接下来的数据投入是你的竞争现状相关的数据。关注那些你知道或者不知道的竞争对手,刚开始的时候可以通过问你的CMO或者CEO:我们的竞争对手是谁,是谁让你们彻夜难眠?然后去Google(或者Yandex、Baidu和Seznam)输入和你业务相关的关键词,看看自然搜索和付费搜索结果,不管你喜不喜欢,这些就是你的竞争对手。
<img src=”https://pic4.zhimg.com/6382f56cfc78ee1f880d082dbe5e2b4b_b.jpg” data-rawwidth=”625″ data-rawheight=”425″ class=”origin_image zh-lightbox-thumb” width=”625″ data-original=”https://pic4.zhimg.com/6382f56cfc78ee1f880d082dbe5e2b4b_r.jpg”>
研究一下他们的优势在哪里?他们在哪些地方和你做的不一样(不管是比你好的还是比你差的)?他们的流量从哪里获取?他们的访客的趋势是什么样的?这些竞争情报分析都是绝对重要的数据投入,因为这样可以确保你的业务优先级是更加合理的。你设定正确的KPIs和高级细分,这直接决定了你要如何设置你的自定义报告。
竞争情报分析不需要每天都做,但是下图左侧最底下部分的投入将会是新机会分析方面的内容。
<img src=”https://pic3.zhimg.com/4f118e9b326374bef71b32259d7547be_b.jpg” data-rawwidth=”625″ data-rawheight=”415″ class=”origin_image zh-lightbox-thumb” width=”625″ data-original=”https://pic3.zhimg.com/4f118e9b326374bef71b32259d7547be_r.jpg”>
新的机会将会让你的业务有完全不同的发展方向。最起码这将会在战术和战略上很大程度地影响你的分析。做好准备,主动地挖掘并找出答案,让自己成为一个更优秀的数据分析师。
以上就是左侧三个部分的内容。
接下来,在顶部和底部将放上你想看到的核心内容。
分析师/大脑(Analysts/Big Brains)放在顶部。
工具放在底部。把工具放在底部不是因为工具不重要,仅仅是放在底部而已。
<img src=”https://pic1.zhimg.com/19d54d314fb2370886e95c934347aa2c_b.jpg” data-rawwidth=”625″ data-rawheight=”491″ class=”origin_image zh-lightbox-thumb” width=”625″ data-original=”https://pic1.zhimg.com/19d54d314fb2370886e95c934347aa2c_r.jpg”>
回到2006年5月,当时我创立了10/90法则,工具做作用就是要比分析师的作用小一些。大家不要对这个结论觉得惊讶。
这里补充一下10/90法则:如果你有100美元将要投入到数据里,聪明的做法是将10美元投入到工具和部署咨询上,另外的90美元要投入到分析师(或者大脑)上。
不管你的数据有多少,不管你的工具有多强大,如果你离10/90法则太遥远,那一切关于大数据的承诺都是不会实现的。
人很重要,聪明的人更重要。工具只是用来辅助他们的,千万不要本末倒置。
以上是这个图片完整的三个部分。你可能会担心到目前为止你只看到投入,是的,一点都没错,但是这会给我们之后的工作带来大量优质的原材料。
Step3 数据分析生态:数据分析的价值输出
不管我们想输出多少,第一批要输出的就是清洗后的数据(译者注:很多数据会受污染,需要清洗数据才能排除脏数据的干扰)。
<img src=”https://pic2.zhimg.com/42a0970c6b0e79f9a855e1b6a472d5fd_b.jpg” data-rawwidth=”625″ data-rawheight=”491″ class=”origin_image zh-lightbox-thumb” width=”625″ data-original=”https://pic2.zhimg.com/42a0970c6b0e79f9a855e1b6a472d5fd_r.jpg”>
输出清洗后的数据是自然进化的一部分,当你拥有数据的时候你会非常兴奋,你迫不及待的想要一吐为快。很多人可能没有见过数据,所以当他们见到跳出率或者目标路径报告(Reverse Goal Path )的时候会非常兴奋。
你要迅速克制这种兴奋的心情,并且你的公司要迅速跟上你的节奏,如果公司只是让你制作更多的报告,并不过问你更多的洞察,这很有可能是你进入一家不好的公司或者职业生涯出现问题。
通常只要一两个月,人们就能意识到这些没有处理过的数据是没有用的,然后转向去问你要他们需要的其他有用的数据,这是一个很好的信号,接下来让我们进入自定义可用数据(CDPs)阶段。
<img src=”https://pic1.zhimg.com/68c32bcce892a809858f4f83772ddffc_b.jpg” data-rawwidth=”625″ data-rawheight=”503″ class=”origin_image zh-lightbox-thumb” width=”625″ data-original=”https://pic1.zhimg.com/68c32bcce892a809858f4f83772ddffc_r.jpg”>
这是一个很棒的阶段。付费搜索广告(SEM)团队会找你要数据,内容制作团队会找你要页面价值方面的数据,着陆页优化团队会找你要关于网站或者APP的周期性报告,等等。
他们会向你要些没用的指标数据,即使这样,他们还会一直要数据。好了,那么你怎么才能给他们一些真正有用的数据?
你想让他们知道他们并不是分析师,他们不懂得如何为数据做细分分析,他们不懂得去深入分析找本质原因,他们更不懂得如何创建自定义分析需求去解决一些很难的问题。但是他们会很快的解决这些问题,给他们几个月时间就够了。
在这个输出阶段,最后一部分是:洞察、行动和业务影响。
如果公司开始要你输出这些东西时,你的目的就达到了。
<img src=”https://pic3.zhimg.com/6bf1880e1c92d2935408bbfefce3fdca_b.jpg” data-rawwidth=”625″ data-rawheight=”496″ class=”origin_image zh-lightbox-thumb” width=”625″ data-original=”https://pic3.zhimg.com/6bf1880e1c92d2935408bbfefce3fdca_r.jpg”>
洞察(Insights)是数据的产物。最常见的就是“数据显示X现象,当我们深入分析之后,找到了Y和Z两个原因。”大多数分析师到这就没有继续深挖了,因为这是他们在所有图标中能够看到的东西,但是要想进一步提升,你必须再次深挖造成Y和Z的原因是什么。
行动(Action)是商业很重要的一个环节。最常见的业务情形是“这个列表上的关键词在搜索引擎广告上要有3倍的投入”“要关注佛罗里达的A、B、C三个产品和阿姆斯特丹的Z产品”“因为X原因,我们要对视频广告进行投入”等等。行动是商业中很特别的事情,你作为分析师必须要确保有这样的见解并提出来,而不仅仅做一个撰写报告的人。
最后是业务影响(Business Impact)的评估,这主要在于你的公司采取了行动后将会给公司带来哪些影响。最常见的场景是“对这列表上的关键词在搜索引擎上投入三倍以后会给我们每周增加89.3万美元的收益”“关注特定地区的特定商品将会增加657%的利润”
以上就是整个图片的所有内容了。
看起来没那么复杂吧。五个核心元素和周围相应的输入和输出。
如果你是一个领导角色或者想成为领导角色,接下去两个部分会非常有价值。接下去将会看到如果你要执行制定好的战略,你要走哪些阶段,并且要清楚,为了获得成功哪些团队应该放在这个生态系统中的哪个部分。
Step4 数据分析生态:分析师的三个成长阶段
很多人进入数据分析领域总想做些变革,但是失败了。在网站分析方面,只要做改革就够了。一个改革性质的战略是无法让公司一夜间突然变强大,但是它能使每个人都能更好地在一起共事。
我喜欢这样的做事方式,做一件自己认可的事,做到极致,然后带动你身边的人一起把事情做到极致,接着一直传递下去。
如果你只是一个数据分析领域的菜鸟,你会发现你最好的做法就是将战略执行下去。如果你的公司没有做的很好,你需要指出为什么事情会这么混乱或者你为什么没有取得更多的进展。
这个阶段,你做任何执行对于公司、个人能力等都是微不足道的,但是我将会从我多年的工作经验中告诉你一些在刚接触这个行业时该怎么做会获得最大的收获。
我相信大部分人经历以下三个阶段就能够做的很出色了。
阶段一:全部都是关于获取数据。首先部署工具并确定第一批要监测的度量,这样有助于让你去理解公司业务的优先级。
这样可以让我们及时完成KPIs和维度的设定。好了,第一步到第五步就是你上面所介绍的。
<img src=”https://pic1.zhimg.com/a3f9f8753e67be92b6e30724caf807a8_b.jpg” data-rawwidth=”625″ data-rawheight=”495″ class=”origin_image zh-lightbox-thumb” width=”625″ data-original=”https://pic1.zhimg.com/a3f9f8753e67be92b6e30724caf807a8_r.jpg”>
阶段二:全部关于数据报告。此阶段从输出没有经过任何处理的数据开始,这将帮助公司意识到很多事是工具做不到的,从而让公司赶紧给分析师更多的投资。请记住要给分析师更多的回报,因为如果你扔出去的是花生,你只能招来猴子。
<img src=”https://pic3.zhimg.com/eb7479c4383c8cc11573535fbe7278ea_b.jpg” data-rawwidth=”625″ data-rawheight=”495″ class=”origin_image zh-lightbox-thumb” width=”625″ data-original=”https://pic3.zhimg.com/eb7479c4383c8cc11573535fbe7278ea_r.jpg”>
接下来我们很顺理成章的进入到自定义报告和CDPs(没有经过任何处理的数据),这个阶段的最后一步是高级细分。
接下去的这个阶段是很少人能够到达的。
阶段三:全是有关于对数据分析领域有颠覆性的事情。
这个阶段从识别洞察开始。然后作为行动,试着发一封邮件并用英语描述重要的部分,包括数据要表达的意思以及这样做的原因。接下来转移到竞争情报部分,这部分内容将会对我们造成很大的影响,甚至会影响到我们的公司战略和数据分析。
<img src=”https://pic3.zhimg.com/81a99e77528223c443193e1ef917712e_b.jpg” data-rawwidth=”625″ data-rawheight=”497″ class=”origin_image zh-lightbox-thumb” width=”625″ data-original=”https://pic3.zhimg.com/81a99e77528223c443193e1ef917712e_r.jpg”>
估算每个行动对业务产生的影响是非常艰巨的。你必须要很擅长预测性的分析,并且要能够和其他团队沟通,包括财务部门,了解业务趋势。最后你只需要弄清楚整个实施的过程,然后评估新的商业机会并将其转化为价值。
好了,总结一下,第一个阶段是培养自己熟练掌握获取数据的能力;第二个阶段就是锻炼自己做数据报告的能力;第三个阶段是数据分析能力的培养。
Step5 数据分析生态:各阶段的时间成本
做这些事需要多长时间虽然取决于你自身的很多因素,那请允许我分享一些我这些年工作中积累的经验。
如果你现在才开始接触数据分析,那你需要花费6个月的时间才能完成阶段一。这包括分析工具的部署等问题(你不需要掌握所有工具的部署)。
第二个阶段将要花费6-12个月。此时你的领导团队也在评估你的工作,他们会给你更多的钱去购买工具,然后制定更合理的战略。
第三个阶段是无止境的,但是这也至少需要花费9-12个月让你掌握这个阶段的技能,这样你就可以达到一个能够为公司创造独特价值的高度了。
第三个阶段是你不断进步的过程,你只会越来越优秀。
我希望这篇博文能帮你认识到整个数据分析的生态系统,让你知道每个阶段要做的事情以及所要花费的时间。
还有很多的事情要做,比如努力工作并坚持下去。
文章主要内容介绍到这了。
转载请注明:数据分析 » 如何在业余时间如何学数据分析_数据分析师