数据挖掘的基本要素_数据挖掘具体要做什么
数据挖掘的基本要素:根据维基百科,“在经营理念上,本质是,对于任何特定种类的实体,有一组特征或属性的所有这一切都那样的任何实体必须具备的看法。“我不求数据的柏拉图形式矿业,但我求清晰的地方往往缺乏。有周围的数据挖掘是如何从相关的领域,如统计数据和商业智能截然不同很大的混乱。我的主要目标是阐明一个项目必须是一个数据挖掘项目的特点。这意味着,统计分析(假设检验),商业智能报告,探索性数据分析等,不具备所有这些定义的属性。他们是非常有价值的,但有自己独特的特点。我想出了十位。这是很适当的强调,第一和最后一个。他们是列表的书挡,他们抓住了问题的心脏。
1)问题
2)历史
3)平面文件
4)计算机
5)知识域的
6)很多时间
7)什么证明
8)证明你是对的
9)惊喜
10)一些利益
1)一个问题:数据挖掘是不是一个聚焦搜索任何内容有趣。它是用于回答特定问题,满足特定的需要的方法。获得新客户是不一样的让你已经拥有的客户。当然,它们是相似的,但在这两个大的和微妙的方式不同。底线是,每一个你做出的选择和装配从业务流问题的数据决定。
2)历史:数据挖掘主要不是对目前的紧张,这从商业智能报告对比了。它是关于使用过去预测未来。多远的过去?好吧,如果你的客户签订12个月的合同比它大概超过12个月。它必须足够大了,已经开始和结束一个过程,是正在进行的客户的队列。他们有没有更新?他们有没有流失?您需要一组用于该过程的结果是已知的历史记录。这一结果状态通常是在目标或因变量的形式。这是该数据的基石设置必须创建和的关键在于几乎所有的数据挖掘项目。
3)平面文件:数据挖掘是不是在黑暗时代。它们与每天关系数据库的工作,但所使用的算法被设计为在平面文件运行。软件供应商自豪地吹嘘“数据库建模”,这是令人兴奋的它的速度,但你还是要建立一个具有所有记录和特点的一个表中的平面文件。在数据挖掘和作家戈登Linoff称这是一个“客户签字。”我宁可一个客户的“足迹”的主意,因为它总是涉及事实的一段时间的积累。所得平面文件将是唯一的项目,特别是建立以允许数据挖掘项目的特殊问题需要回答。
4)计算机:数据挖掘数据集并不总是巨大的。有时他们是在低几千,有时数据的百分之几精心挑选的样品是大量寻找模式。所以,尽管大数据的所有谈话,数据文件的大小是不是真的在今天的机器是一个限制因素。统计软件包都能够在更大的数据运行一个普通的回归设置几十年前。分隔数据挖掘从RA费舍尔和他的大麦数据集真实的东西是数据挖掘算法是高度重复。相当多的计算能力是需要找到最好的预测,并尝试他们使用不同的策略无数的所有可能的组合。数据挖掘是不是简单地统计上的大数据。数据挖掘算法是在后计算环境创建解决后计算问题。它们是从根本上和重要的方法的传统统计技术质的不同,并且即使当使用传统的技术,它们都在实质上不同的目的的服务中使用。
域的5)知识:销售代表曾告诉我一个故事,可能是杜撰,关于我使用数据挖掘软件的初期。一位银行业客户希望他们经受考验,所以客户说:“这里有一些未标记的变量。我们将让他们的意思秘密。请告诉我们这是变量X的最好的预测。如果你回答’正确’,我们会买。“多么可怕的想法!数据挖掘算法在指导模型建立过程中发挥了重要的作用,但只是在这个过程中人类的伙伴可以是什么最能满足业务问题需要的最后仲裁者。必须有商业背景下,如果数据的性质要 求它,这方面可能涉及医生,工程师,呼叫中心经理,保险审计或其他专家。
6)时间一标段:数据挖掘项目需要时间,大量的时间。他们采取几个星期,也许好几个月。如果有人问一个数据挖掘,如果他们可以在一个星期初步的东西,他们都在思考比数据挖掘其他的东西。也许他们真的是生成报告,但他们并不意味着数据挖掘。问题的定义,需要一定的时间,因为它涉及到很多人,组装在一起,磕磕碰碰的重点,搞清楚谁是负责什么。通过此次合作,该项目负责人不能迅速地挑灯弥补失去的时间。数据准备花费的时间。也许你认为你会被挖掘数据仓库的内容不变。它的建立是为了支持BI报表,不支持数据挖掘,所以这是不会发生的。最后,当你有一些有趣的事情,你必须再次重新召集了很多人,而你没有这样做,直到你已经部署了一些东西,使之成为企业的决策管理引擎的一部分。(见10元)
7)什么证明:如果您要验证的结果,可以肯定,你是正确的,有提前精心挑选的预测,只是好奇,以及它如何适应,你是不是做数据挖掘。也许你只是在探索前进中的数据,伺机您的时间,等到你最后期限的临近,然后用假设检验祝贺自己如何成功的模式非常适合您探索数据。这是当然,统计和数据挖掘想象的最坏的可能组合,并违反了假设检验的基本假设。这些都不方法是数据挖掘。
8)证明你是对的:数据挖掘,其本质并没有一个先验假设,但它确实需要证明。矛盾吗?数据挖掘的最基本要求是,这是用来揭示模式相同的数据绝不能用来证明该模式适用于未来的数据。这样做的标准方法是随机划分那些数据分成两个部分,建筑上的列车数据集的模型,而验证对所述测试数据集的模型。在此发现的数据挖掘的本质,因为它给人一种自由探索训练数据集,揭示其奥秘,等待测试数据集的最终判决。
9)惊喜:在数据挖掘中的一个常见错误是过于节俭与预测,留下了这样或那样的变量,因为“每个人都知道”,这是不是一个关键驱动因素。并非明智之举。即使这是真的,这折扣的洞察力,一个意想不到的互动可能会提供。即使如此,这是一个不必要的预防措施,因为数据挖掘算法的设计是有弹性的,以大量的相关预测。这并不是说,特征选择并不重要-这是一个关键的技能-而是去除变量时,数据挖掘人员一定要谨慎。每个这些变量成本的企业的钱记录,他们可能提供的见解具有货币价值。在数据挖掘做的变量以及减少在与可变做得很好减少统计鲜明的对比。
10)一些利益:这可能是有些争议,但我认为并不过分的话,建立一个对等:数据挖掘等于部署。如果没有部署,你可能已经做了一些有价值的东西,甚至伴有证明的投资回报,但你都没有达到。您可能已经达到了一个里程碑。你甚至可能已经达到你的任务的具体要求,但它不是真正的数据挖掘,直到它被部署。数据挖掘的整体思路走的是一条精心设计的快照,历史的一大块,建立一套最佳实践,并在业务决策的流程将它们插入。
澄清什么数据挖掘是(什么称呼它)的问题出现在谈话中往往数据挖掘,所以我希望数据分析的社会将发现这是一个有价值的企业。
转载请注明:数据分析 » 数据挖掘的基本要素_数据挖掘具体要做什么