保存大数据永不丢失的重要性
如果有人知道如何保存数据和信息的长期价值,它的程序员在互联网档案,总部设在加利福尼亚州旧金山事实上,互联网档案馆正试图捕捉每一个网页,视频,电视节目,MP3文件,或DVD在世界任何地方出版。如果互联网档案馆正在寻求保持和保存数百年的数据,我们能从这个非营利有关架构的解决方案,以保持我们了解自己的数据维护和访问长期的?
有一个迷人的13分钟的纪录片数据策展人在互联网档案馆的工作。互联网档案馆的使命是“普遍可及的所有数据”。在他们的努力抓取每个网页,扫描每一本书,并提供给世界的任何一个公民信息,互联网档案馆的团队设计了一个系统,它是有弹性的,冗余的,高度可用的。
保存知识世代是不容易的任务。这个艰巨的任务的关键组成部分包括决策技术,体系结构,数据存储和数据访问。
首先,几乎所有的技术使用互联网档案,无论是开源软件或商品硬件。对于网页抓取和添加内容到他们的数字档案Heritrix的是由互联网档案馆开发。要启用互联网档案馆的网站上,全文搜索Nutch的对Hadoop的文件系统中运行时使用的 “让谷歌风格的全文检索的网页内容,包括相同的内容,因为它随时间变化。”还有的网站是提HBase的也可以是在混合作为数据库技术。
其次,冗余性和灾难规划的概念出炉到整个互联网档案架构。非营利拥有位于旧金山的服务器,但保持一个多世纪及以后的愿景,互联网档案馆的数据反映在阿姆斯特丹和埃及天气历史事件的波动。
第三,许多企业很难确定他们应该使用,归档,或者扔掉哪些数据。然而,随着硬盘存储成本直线下降,而开源的Hadoop,捕获和存储所有的数据永远比以往任何时候都更加可行。对于互联网档案馆所有的数据被捕获并没有被扔掉。
最后,这是一件事来捕获和存储数据,而另一个使其访问。互联网档案的目标是让世界的知识基础,提供给大家。在互联网档案网站,用户可以搜索和浏览古文书,从查看过去几年录制的视频和艺术家们再也走不动了地球听音乐。布鲁斯特卡勒,互联网档案的创始人说,与一个简单的网络连接; “一个可怜的孩子在Keyna或堪萨斯可以访问…伟大的作品,无论他们在哪里,或者当他们(组成)。”
捕捉多结构化数据山(目前PB级10和成长)是一个令人钦佩的壮举,但是真正的神奇之处在于确保世界上最好,最有用的知识是保存的互联网档案的多世纪的愿景。政治制度来来去去,但随着互联网档案馆的大数据的保存方法,世界上数字内容的珍品有望数百年来存在。
转载请注明:数据分析 » 保存大数据永不丢失的重要性