本站分享:AI、大数据、数据分析师培训认证考试,包括:Python培训Excel培训Matlab培训SPSS培训SAS培训R语言培训Hadoop培训Amos培训Stata培训Eviews培训

大数据架构平台和更多的分析日志

数据分析 cdadata 3019℃

大数据架构平台和更多的分析日志

大数据日志文件

Splunk的公司提供了工具,系统管理员深入到以前无法进入的日志文件的巨大成功开辟了市场上的日志文件中的数据更深入的分析。

数量和品种的日志文件

是通常被称为“日志文件”是一组计算机或用户登录文本数据,包含有关应用程序或设备的行为的信息。这些日志文件有多种格式,有关于如何在产品或软件正在使用的事实。日志文件挖掘传统用途一直围绕博客和系统日志,但在像Zynga和迪士尼(我在那里负责分析基础架构)已经完善日志定期使用数据和挖掘数据,了解艺术在过去几年游戏公司用户的使用模式,性能问题以及对哪些功能的工作或不工作的产品使用更长期的趋势。

基础设施和工具现在可以捕获来自任何设备或软件的日志 – 想存储阵列或数据中心,医疗设备和传感器服务器 – 它们都产生数据。越来越多的谁生产和支持这些产品的人要处理的数据不仅体积散发出来,这些设备和软件组件,而且是需要了解客户使用情况,问题诊断的各种信息,安装基础的分析等。

传统的日志文件的供应商Splunk的一样专注于解决问题而在Splunk的的情况下,是通过一个非常直观的用户界面提供一个平台,指数的所有日志数据,并显示模式。这种搜索和索引溶液可能不适合复杂的日志束和其他非时间序列的半结构化数据,以及需要较长期趋势分析和报告的用例。

一个新的参考架构为主流的日志文件分析

另一种方法是更相关的产品或应用程序的业主,是使用堆栈组成的不只是工具来收集和索引的日志文件,但也走了一步,获得结构从非结构化日志和日志执行企业商务智能束。参考架构用于完成这是如下

  1. 施加上下文数据:一种语言,用于定义数据的语义是在制备分析数据集在日志文件中的第一个步骤。使用这种语言的人可以在日志文件或多个文件划定不同部分以及它们是如何相互关联的。该语言还可以定义和标记日志文件的各种元素在重复的可扩展性和灵活的方式,以适应不断变化的日志文件格式,新的章节和属性引入了新的版本等的DSL(领域特定语言)是一条路可走了解这样做(斯卡拉DSL为例)。
  2. 收集和路由数据:数据来自不同的来源和传输,这需要路由和集中处理。见的Apache骆驼  作为工具来处理这种的一个例子。无论你建立自己或建立在骆驼之上,这是今天被安葬作为预处理步骤,包括难以维持自定义脚本无数的关键一步。
  3. 可扩展后端:数据需要收集并存储在一个的NoSQL列族为基础的数据存储:Apache的HBase的或卡桑德拉从原始数据创建结构。与卡桑德拉的好处是,你可以利用它来 ​​存储的原木作为一个blob和使用Lucene / Solr的集成以及搜索上的文件。Datastax例如提供的Solr /卡桑德拉组合为Solandra。一个像卡桑德拉NoSQL数据存储提供了灵活性,以动态创建模式和容纳在一个地方聚集结构化和非结构化数据的需求。
  4. 规则和通知-一种在出现问题时,这样的自动报警可以在问题类似的模式被认为是与不同的客户触发定义的规则确定共同的模式。其中的一些规则可以在对数内的结构化数据-诸如,例如,“计数在一个部分,在那里所述行具有字符串”中的错误的设备格式“错误数”。然而,很多时候,这些规则都比较复杂,允许查找跨多个数据段在文件中,甚至在多个文件,结合简约的外观与UPS正则表达式搜索。提供了定义这些规则的工具集中允许你管理和扩展知识库随着时间的推移。
  5. 报告和分析:中间件和一套应用程序和报告基础设施的预定义的查询,满足普通的商业案例-example安装基础分析,性能分析,产品使用情况分析,容量管理等,您可以使用类似的框架开发的中间件/应用程序播放。揭露常见的业务查询为Web服务,所以你可以在普通的BI工具,如到的Tableau数据堵塞。

结论

解析和处理日志文件的战术仍然是一个的grep / awk的/ SED或一个孤独的游侠超强的IT部门或其他地方做了一些脚本演习。但在日志文件中的数据不断增长的战略价值,主要产品和软件供应商正在寻求把一个强大的技术堆栈,以充分利用整个企业的信息。如果使用得当,这将成为一个非常强大和独特的“大数据”应用程序在整个企业提供有意义的洞察,从工程和市场营销提供无论从机器的操作日志和商业智能产品的支持。

转载请注明:数据分析 » 大数据架构平台和更多的分析日志

喜欢 (1)or分享 (0)