毫无疑问,美国(事实上,世界上大多数国家)将是良好的服务与更多的定量能力的人在企业和政府的工作。然而,目前的歇斯底里的数据科学家的短缺是夸大了。为了说明为什么,我会用一个例子来自航空旅行。
在最近的一个从圣达菲到亚利桑那州凤凰城之旅,我跟踪了不同的时间:
持续时间(分钟) | 累积(分钟) | |
从圣达菲ABQ机场开车 | 65 | 65 |
公园 | 15 | 80 |
安全 | 25 | 105 |
迫不及待地登上 | 20 | 125 |
登机流程 | 三十 | 155 |
滑行 | 15 | 170 |
在飞行 | 60 | 230 |
滑行 | 12 | 242 |
下飞机 | 9 | 251 |
等待代客袋 | 7 | 258 |
旅行租车 | 21 | 279种 |
到达坦佩目的地 | 32 | 311 |
正如你所看到的,60分钟实际飞行时间只占19%的旅行时间。由于一切,但实际飞行时间是多还是少常数国内任何行程(不考虑共同延误,连接和取消这将扭曲这种分析甚至更远),时间在空中的比率偏低是一个现实。例如,如果飞行耗时2小时十五分钟,它仍然会制定出三百八十六分之一百三十五= 35%。最新的数据我有,从2005年,显示平均不停距离出发每飞行是607英里,因此我们可以添加约25分钟到第一个计算并得出三百三十六分之八十五= 25%。
请记住,同样,这些计算不考虑延迟退房/进港航班,取消和重新预订航班,连接,空姐和飞行员有神经衰弱等,可以肯定地说,你的旅行时间最多为25%在空中度过的。只是为了好玩,让我们来看看这是如何工作,如果我们可以采取的(不幸的是退休)协和。我们将通过在2.5马赫飞行了40分钟,5小时11分钟四个小时31分钟,大约有13%的提高修剪出的旅程缩短了旅行时间。
什么是这一切的地步?它都与所谓的数据科学家短缺?
根据我们的研究星座的研究,我们发现,与Hadoop的或其他大数据技术分析工作花费的时间量显著不需要先进的定量方法的任何知识 – 配置和维护集群,编写程序来收集,移动,清洗和否则组织进行分析和数据分析等许多常见任务的数据。事实上,即使是那些谁使用先进的定量技术,从他们收集的时间为50-80%花费,清洁和准备数据。这个比例还没有不为所动几十年。请记住,先进的分析是不是一个新现象;什么是新的卷(在一定程度上)和各种与新技术的源数据的处理它,特别是,但不限于,Hadoop的。
在分析利率急剧上升,在过去两三年,这是没有争议的。但通过企业规模分析大数据并不能完全保证在专长之外的一些偏远地区的大多数组织。大部分的活性是可预测的(商业)产业 – 基于网络的企业,金融服务,以及电信,例如,但这些业务都采用非常大规模的分析,在技术数十年来最前沿。对于大多数组织,分析将被嵌入算法不是内部开发和第三方供应商的工具和服务,以及顾问应用程序提供。
好消息是,很容易买到80%的则需要大数据的专业知识。余额可以采购和发展。“乳酪 – 德拉奶油数据科学家将填补学术界的角色,技术供应商,华尔街,科研和政府。
有相关和不相关的学科所下的长期分析都联系起来了 有先进的分析,描述性分析,预测分析和业务分析,都在一个非常黑暗的方式定义。它大声呼喊一些精度。这里是我所使用的定量方法和谁使用这些技术的从业者技能水平表征许多分析类型。
|
描述性标题 |
定量精致/算术 |
样本角色 |
I型 |
定量研究(真实数据科学家) |
博士学位或同等学历 |
创造理论,算法开发。学术/科研。通常受雇于企业或政府非常专业角色 |
II型 |
(目前的定义)的数据科学家或定量分析 |
高等数学/统计,不一定博士 |
内部专家的统计和数学建模和开发,拥有雄厚的业务领域的知识 |
III型 |
运营分析 |
良好的业务领域,在后台统计可选 |
运行和管理分析模型。在和/或项目的分析系统实施管理能力强 |
IV型 |
商业智能/发现 |
数据和数字为主,但没有特别先进的统计技能 |
报告,仪表盘,OLAP和可视化应用,不可能设计,执行结果分析后驱动定量方法 |
“数据科学家”是定量善于与人伴随业务技能相对较新的头衔。制定和应用工具的分类,预测和优化甚至,再加上企业本身相当深刻的理解能力,显然是在II型努力的境界。但是,它似乎很可能大部分所谓的数据科学家更倾向于不是业务规划和战略的定量和面向数据的对象。这样做的原因是,术语数据科学家从这些业务,如谷歌或Facebook其中数据是业务出现; 因此,了解数据等同于理解业务。这显然不是大多数企业的情况。我们很少看到第二类数据科学家的深入了解整个业务,比方说,在保险业,其广泛的培训应该是一款型号为新指定的数据科学家精算师
转载请注明:数据分析 » 数据科学家短缺的谬误成大数据时代绊脚石