保存大数据永不丢失的重要性

如果有人知道如何保存数据和信息的长期价值，它的程序员在互联网档案，总部设在加利福尼亚州旧金山事实上，互联网档案馆正试图捕捉每一个网页，视频，电视节目，MP3文件，或DVD在世界任何地方出版。如果互联网档案馆正在寻求保持和保存数百年的数据，我们能从这个非营利有关架构的解决方案，以保持我们了解自己的数据维护和访问长期的？

有一个迷人的13分钟的纪录片数据策展人在互联网档案馆的工作。互联网档案馆的使命是“普遍可及的所有数据”。在他们的努力抓取每个网页，扫描每一本书，并提供给世界的任何一个公民信息，互联网档案馆的团队设计了一个系统，它是有弹性的，冗余的，高度可用的。

保存知识世代是不容易的任务。这个艰巨的任务的关键组成部分包括决策技术，体系结构，数据存储和数据访问。

首先，几乎所有的技术使用互联网档案，无论是开源软件或商品硬件。对于网页抓取和添加内容到他们的数字档案Heritrix的是由互联网档案馆开发。要启用互联网档案馆的网站上，全文搜索Nutch的对Hadoop的文件系统中运行时使用的 “让谷歌风格的全文检索的网页内容，包括相同的内容，因为它随时间变化。”还有的网站是提HBase的也可以是在混合作为数据库技术。

其次，冗余性和灾难规划的概念出炉到整个互联网档案架构。非营利拥有位于旧金山的服务器，但保持一个多世纪及以后的愿景，互联网档案馆的数据反映在阿姆斯特丹和埃及天气历史事件的波动。

第三，许多企业很难确定他们应该使用，归档，或者扔掉哪些数据。然而，随着硬盘存储成本直线下降，而开源的Hadoop，捕获和存储所有的数据永远比以往任何时候都更加可行。对于互联网档案馆所有的数据被捕获并没有被扔掉。

最后，这是一件事来捕获和存储数据，而另一个使其访问。互联网档案的目标是让世界的知识基础，提供给大家。在互联网档案网站，用户可以搜索和浏览古文书，从查看过去几年录制的视频和艺术家们再也走不动了地球听音乐。布鲁斯特卡勒，互联网档案的创始人说，与一个简单的网络连接; “一个可怜的孩子在Keyna或堪萨斯可以访问…伟大的作品，无论他们在哪里，或者当他们（组成）。”

捕捉多结构化数据山（目前PB级10和成长）是一个令人钦佩的壮举，但是真正的神奇之处在于确保世界上最好，最有用的知识是保存的互联网档案的多世纪的愿景。政治制度来来去去，但随着互联网档案馆的大数据的保存方法，世界上数字内容的珍品有望数百年来存在。

转载请注明：数据分析 » 保存大数据永不丢失的重要性