数据挖掘基本面:条款,你必须知道
如果有人告诉你没有为长期坚定的定义,“数据挖掘”,这个人要么是误导或平出说谎。虽然我很高兴向大家报告,我还没有遇到过不少骗子意识在这个领域,是误传很常见的,甚至在谁应该知道更好的人才。正如常见的是使用过于复杂的语言,给我很难理解我的许多同事的地步,所以上天帮助新手。难怪这么多的商务人士还是认为作为分析花哨的东西,他们并不需要的!
分析不一定是难以理解的是良好的。事实上,如果你不能理解它,它可能做你一点好处都没有。最佳分析师纯商业语言沟通!
要更好地理解数据挖掘基础知识和能力,更好地看穿分析魔神?首先得到了一些最常见的术语有深刻的理解。
分析
任何方法,正规的数据汇总成一个(相对)简单地说,信息形式的或非正式的,。(至少,它是在信息分析师的观点。)
分析
另外一个很普通的名词,但不像“分析”,“分析”总是意味着有数学参与这一进程。有些人用这个词来指代简单的报表(通常是数据汇总汇总和历史数据的平均值),而有些则是严格参照更为复杂的分析,如统计推断。
数据挖掘
这个词进入了20世纪90年代广泛使用来形容面向使企业用户(知识渊博的人他们的业务,但在统计分析没有经过培训)独立识别有意义的模式数据和发展预测模型的技术和工具,只用适量培训中使用数据挖掘工具集。一些与数据挖掘相关的独特要素包括:授权的企业用户,强调可视化(图),速度和发现和发展模式的简单。
赋予企业用户的眼光还没有成为普遍的现实。如今,数据挖掘工具的用户通常在传统的统计分析显著培训或经验,以及工具已经扩展到提供各种采样和传统的统计建模技术。
由于上升的数据挖掘普及,许多厂商和分析师已经采取措施来描述他们提供的是“数据挖掘。”更重要的是,许多分析师已经采取措施来建议客户数据矿工必须有专业知识的SQL,编程和/或其它各种技能,没有必要获得从数据有用的商业洞察力。如果它不面向有意义的模式和预测模型,从业务数据快速发现,或者如果使用的工具需要统计,编程或其他任何冗长的正式训练,这不是数据挖掘。
开发和利用数学模型,做出特定的事件,比如一个人是否会购买产品或偿还贷款的预测。这些预测通常是在概率的形式。传统统计和数据挖掘,可用于预测分析。
统计
在最基本的层面上,“统计”可以指简单的汇总,如总数和平均数。更复杂的(和显示)的统计分析是基于假设检验有关数据。这种分析被称为“推断统计”或“假设检验。”许多正规程序已经开发了统计推断,以适应广泛的用途。
图书馆可以充满许多不同的书上写的统计程序。使用推论统计也就是说,大多数企业使用的只是一小部分的广泛应用程序,这些程序解释好可用于大学入门课程的统计数据几乎所有目前的案文被发现。
文本挖掘(或文本分析)
这是数据挖掘,当数据是文本,如响应开式调查的问题,社交媒体帖子或评论的保修索赔。在这种情况下,文本通常被描述为“非结构化数据。”文本挖掘是一个发展的领域,还没有使用的许多业务。文本挖掘是数据分析当今最具挑战性的领域。
基于描述互联网,或者其他一些类似的网络上发生的事件的数据分析。在实践中,大多数网站分析是简单的总结,如页面下载,从特定的网站等转介的事件计数。然而,更复杂的分析,也可应用到的网络数据。推论统计应用于网页性能(在销售或某些其它期望的行为)是“A / B”或“多元”测试。采用数据挖掘技术,通过研究用户的移动网站是“序列分析。”
不花哨或难以理解的,是吗?而且也没有理由应该是。
转载请注明:数据分析 » 数据挖掘基本面:条款,你必须知道