关于大数据基本概念及数据挖掘的算法
一、 大数据基本概念
大数据Big Data是指大小超出了常用的软件工具在运行时间内可以承受的收集,管理和处理数据能力的数据集;大数据是目前存储模式与能力、计算模式与能力不能满足存储与处理现有数据集规模产生的相对概念。
大数据的预...
cdadata
9年前 (2016-03-03) 3790℃
2喜欢
数据分析和数据挖掘技术的有效应用
数据分析和数据挖掘技术的有效应用是数据化运营的基础和技术保障,没有这个基础保障,数据化运营就是空话,就是无本之水,无缘之木。
这里的有效应用包括以下两层含义。
一是企业必须拥有一支能够胜任数据分析和数据挖掘工作的团队和一群出色的数据分析师。一名出...
cdadata
9年前 (2016-02-23) 3154℃
1喜欢
数据挖掘系列篇(11):网易云音乐的个性化推荐漫谈
用过虾米、酷狗、QQ音乐、网易云音乐,个人感受网易云音乐在音乐推荐这块做的真心不错,特别是以“人”为角度的推荐,没有像虾米、酷狗推的那么乱。虾米还可以,但更多的是以歌搜歌的形式。刚注册了一个新的账号,避免有历史数据的干扰,听了...
cdadata
9年前 (2016-02-05) 3821℃
4喜欢
数据挖掘系列篇(10):大众点评的实时计算
实时计算是目前在推荐、搜索广告等场景中经常需要应用的地方,它不像离线计算那样可以有长时间来准备数据,做数据处理。在实际的应用场景,要考虑到用户的感受。比如我在城西银泰搜索附近的商家,这个就需要实时计算距离来支持。还有像双十一这样的推荐...
cdadata
9年前 (2016-02-03) 4072℃
0喜欢
数据挖掘系列篇(9):今日头条的个性化推荐
今日头条作为一种新型的新闻阅读方式,已经将传统的新浪、腾讯、网易、搜狐这些新闻媒体以一种大数据+新闻内容的方式呈现给用户。上线没几年,用户量已经发展到3亿累计用户,日活奔着3000万去。看到这样的数据,小编还是比较震撼。这几乎是目前A...
cdadata
9年前 (2016-02-02) 4562℃
2喜欢
数据挖掘系列篇(8):在线机器学习FTRL(Follow-the-regularized-Leader)算法介绍
最近几个同事在做推荐平台的项目,都问到怎么实现FTRL算法,要求协助帮忙实现FTRL的算法模块。今天也是有空,赶紧来做个整理。明天还要去上海参加天善智能组织的FL...
cdadata
9年前 (2016-02-01) 6272℃
2喜欢
简单抽样和复杂抽样
简单抽样。从下列选项中选择抽样方法:
a)从第一条记录开始连续抽取。选择此选项将使用连续数据抽样。例如,如果最大样本大小设置为 10000,则前 10000 条记录会被选中。
b) n 中取 1。选择此选项会按照这样的方式抽样数据:每隔 n 个记录传递或丢弃一...
cdadata
9年前 (2016-01-31) 5584℃
0喜欢
常见统计量
最小值. 数值变量的最小值。
最大值. 数值变量的最大值。
总数. 所有具有缺失值的测量值的总和或合计。
范围. 数值变量的最大值与最小值的差值就是用最大值减最小值后得出的值。
平均值. 集中趋势的测量。 算术平均值,等于总和除以观测值数。
均值标准误. 取自...
cdadata
9年前 (2016-01-29) 7823℃
5喜欢
数据标准化
关键词:数据标准化处理、数据标准化方法、数据标准化的意义
数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较...
cdadata
9年前 (2016-01-29) 5387℃
2喜欢
统计分析方法分类
关键词:统计学分类数据分析、统计方法分类、统计分析方法
统计分析方法:
1)数据的统计推断:参数估计与假设检验
方差分析: (proc anova/glm(多因子非均衡时使用))
(要求所研究的指标具有独立性,正态性和方差齐性)
研究若干个因素及因素间的交互作用...
cdadata
9年前 (2016-01-28) 4987℃
2喜欢