数据分析系列篇(10):Twitter数据分析师的工作交流
今天暴走了杭州西湖,把老和山、灵峰山、北高峰、灵隐寺、杨公堤、浙大都走了一圈,很畅爽,一点都不累,感觉还没走够。期间和Twitter之前的数据分析师leslie 谈了很多,Leslie之前在Twitter工作了几年、也在百度实习过,谈了不少最近几年在Twitter目睹的变化和感受。总结了下交流的内容:1.Twitter的数据分析工作内容;
2.机器学习扮演越来越重要的作用;
3.数据分析师的转型升级。
应该来说,对于做数据分析师几年的国内情况来看,涵盖的工作内容和报表、业务分析、数据产品、建模工作都有些多多少少的联系,而像在海外的公司如facebook、Twitter这样的企业,他们的数据分析工作主要有哪些呢?今天很好奇,就交流了不少。Leslie和大多数一样,刚入这行的时候,觉得数据分析师应该是个非常全面的人才,不管是数学方面还是技术方面,还是在业务的理解上面,都要做出很多顶尖的水平才能算是数据分析师,特别是在和技术、业务的交流口头表达上面也要有一技之长。
在Leslie进了Twitter之后发现,很多数据分析师也不是什么都做,他们各自也都有不同的部门划分和分工,聊过之后发现和国内的很多数据分析师转型有不同相同之处。就是一大部分人,在做业务的数据分析工作,他们是统计方面的专家,对数据背后的意义很感兴趣,去推敲业务的流程和问题,给对应的业务问题提供自己从数据上的反馈理解,然后他们也会做大量的数据处理工作,数据可视化和汇报报告等等;还有一类人编程特牛,他们更像是我们理解的建模师,java、C、python、R写的非常666,他们会去思考通过和用户建立一些模型,通过一些营销触达机制来做推荐的工作。像我们常见的你可能认识的人、你感兴趣的电影、你看过什么之类。应该来说,这也是目前国内的数据分析师的一部分工作。
而我问道Leslie对哪块更感兴趣的时候,Leslie回答当初在选择这一行的时候也比较茫然,根本不知道具体的工作内容会是什么样子,而如果当初有人告诉他是什么情况的时候,他多半会选择去建模。他觉得通过建模的方式来提升业务应该会更有趣,而他本身也比较喜欢编程。而像前者的话,很多和平台和具体的业务发展有关。特别是像初创公司早期、快速发展阶段都会对前者的要求可能更多,本身的内容感觉更基础一些。
像刚毕业的同学可能很多会面临选择,到底是去创业公司还是去大公司,而在数据分析上,其实讨论的不多,本身的工作内容变化不是特别大。但是使用的平台和工具会有些诧异,特别是刚创业的公司,像hadoop、hive、storm、spark可能都不需要,本身也没有太多数据可供你去分析,但是像在Twitter、FB这样规模的公司,不用hadoop、mapreduce根本不太现实。所以Leslie自己也有非常强烈的感受,数据分析这个和公司业务的成熟度、平台规模都有密不可分的关系。
在初创公司的话,很多工作围绕的是数据处理的ETL、数据框架设计、数据追踪等,这个对你去理解整个数据框架有很好的帮助,但是这本身并不是分析的工作。最多做的就是给老板汇报KPI报表的时候,做下数据统计的事情。但是你如果在一个大的平台,已经有非常成熟的底层结构和数据库内容时,你更多的就不是关心每天的数据从哪里来,而是在数据平台、产品分析、用户测试这些工作上。
而为什么会聊到机器学习呢?主要就是像Leslie参与的一个项目对他印象非常深刻。当初这个项目应该国内不少公司也在做,就是要提升用户看到Twitter发来的邮件阅读率,因为目前大量的邮件都被邮箱的过滤机制给处理为垃圾信息,而Leslie的目标就是要降低这个识别率。而当时他的项目,就是结合场景做触达事件,当用户在浏览Twitter上的某些内容时,给用户发送相对应的邮件。而Leslie本身之前在百度实习的经验帮助了他,通过机器学习的方式来提升CTR,他将用户的一堆行为标签数据都推入hbase、pig中,做了一套用户预测点击模型,对于历史用户点击率低的就不要再推送邮件了。
而当时他用R写的这套东西被同事看到后,觉得很有价值,但是都是在本地计算的,并没有应用到整个公司的框架中去,后来公司成立了这块团队让Leslie去开发用户流失率预测模型,后来这个已经应用到他们的商店预测产品中去了。机器学习在Twitter的多个核心产品中都扮演越来越重要的角色,比如当你在Twitter上浏览的相关信息都会触发一些对应的推荐内容。
最后聊到怎么看数据分析师的转型问题上,有一些观点我觉得还是值得参考。比如你是做分析的工作,你真的需要好好做一做产品的分析工作,像那些浏览log日志、交易记录数据,这些都是非常有价值的信息。数据分析师可以帮助这块的开发工程师一起去定位数据bug的问题位置,保障这块的数据质量,同时利用好这块有价值的信息,做不同的尝试,比如push消息的分析、不同文案内容的效果分析,而且这些内容要和运营的同学好好聊聊,可以想一想具体的方案来提升运营的指标。
那像做建模这块的数据分析师而言,更多的需要去尝试把自己的模型融入到具体的产品中去,去做A/B test尝试,作为一个称职的数据分析师,必须利用可控制的实验在其中进行随机测试得到某些确定的因果关系。A/B test是Twitter的DNA和产品开发模式的基础。这点对我来说还是挺有触动的。可能老外对产品研发上还是比较严肃仔细的态度,不像在国内做个产品PRD、开发完就立马上了。
跑了一下午,聊了不少干货,觉得还是挺有不少收获。所以赶紧码下来分享给大家。
明天准备和中国统计网、数据分析网创始人聊聊,这特么名字怎么和我之前我爱数据分析网叫的这么像,KAO!主要看看能有什么收获。
著作权归作者所有。
商业转载请联系作者获得授权,非商业转载请注明出处。
作者:宿痕
来源:知乎
转载请注明:数据分析 » 数据分析系列篇(10):Twitter数据分析师的工作交流