哇!在谷歌大数据
大数据在手,大企业齐头并进 – 这是首次在一个系列赛里我将探讨不同的使用了世界领先的公司都使得数字信息的世界每天生产的无尽的金额。
谷歌不仅显著的影响,我们现在可以分析大数据(MapReduce的思考,BigQuery中,等等)的方式 – 但他们可能比其他任何人做了我们日常生活的一部分,更负责任。我相信很多的创新的东西谷歌今天做,大多数公司将尽在今后几年里。
很多人,尤其是那些没有上网,直到本世纪已经开始,将不得不通过谷歌操纵大数据的首次直接经验。虽然这几天谷歌的大数据创新远远超出了基本的搜索,它仍然是其核心业务。他们每处理每天350十亿请求,而且每个请求查询20个十亿网页的数据库。
这是每天更新,谷歌的机器人抓取网页,复制下他们看到并把它回到储存在谷歌的索引数据库。什么推谷歌在其他搜索引擎的前面一直是其分析更广泛的数据集的搜索能力。
最初,它是PageRank的,其中包括有关的网站,链接到索引中的特定网站,以帮助参加事物的宏伟计划,该网站的一个重要衡量信息。先前领先的搜索引擎上搜索查询中包含这些单词的站点匹配相关的关键字的原理几乎完全奏效。PageRank的通过将沿着关键字分析等元素革命性的搜索。
他们的目标一直是使尽可能多的世界信息提供给尽可能多的人可能(和致富尝试,当然…)和谷歌这样的搜索工作一直在不断修订和更新,以跟上这一使命。
进一步远离基于关键字的搜索和对语义搜索是当前的目标。这涉及到分析不只是“对象”(字)中的查询,但它们之间的连接,以确定它的意思是精确地是不可能的。
为此谷歌抛出的其他信息混进去整个堆。从2007年开始它推出通用搜索,从数以百计的来源,包括语言数据库,天气预报和历史数据,财务数据,旅游信息,货币汇率,体育统计和数学函数的数据库拉数据。
它继续在2012年演变成知识图,它在搜索从广泛的资源直接进入搜索结果的主题显示的信息。
然后,它混合了什么从以前的搜索记录都知道你(如果你登入),其中可以包括有关您的位置和信息,以及从您的Google+个人资料数据的Gmail邮件,要拿出在其最好的猜测是什么您正在寻找。
最终的目的无疑是要建立一种机器,我们已经习惯看到在科幻几十年 – 计算机,你可以有一个谈话用自己的母语,并会回答你与精确你想要的信息。
搜索绝不是所有的谷歌是什么呢,虽然。毕竟,它是免费的,对不对?而谷歌是这个星球上最赚钱的业务之一。这利润来自于它所得到的回报的搜索 – 关于你的信息。
谷歌建立了大量有关使用它的人的数据。本质上,它则匹配了企业与潜在客户,通过其AdSense的算法。该公司对于这些介绍,这表现为在客户的浏览器广告支付可观。
2010年,它推出BigQuery中,其商业服务允许企业存储和分析其云平台的大数据集。公司支付运行查询所采取的存储空间和计算时间。
另一个大项目数据谷歌正在为自驾车。使用和产生的传感器,摄像头的大量数据,跟踪设备和机载和实时数据分析,从谷歌地图,街景和其他来源的耦合这使得谷歌的汽车安全驾驶的道路没有从任何输入人类的驱动程序。
也许最令人震惊的使用谷歌已经找到了自己的庞大的数据,虽然是预测未来。
2008年该公司发表了一篇论文在科学杂志自然声称,他们的技术已经检测到爆发流感,比目前的医学技术检测流行病的传播更准确的能力。
结果是争议 – 争论仍在继续超过预测的准确性。但这一事件揭开了“围观预测”,这在我看来很可能在未来成为现实的分析变得更加复杂的可能性。
谷歌可能不太尚未准备好预测未来 – 但它作为一个主要的球员和创新的大数据空间中的位置似乎是一个安全的赌注。