本篇文章1467字,读完约4分钟
随着facebook的上市,人们越来越关注它的大数据模式。俄勒冈州普林维尔新建的facebook数据中心也被认为是世界上能效最高的数据中心。facebook数据业务的具体特征是什么?让我们做一个小清单。数据采集时间表2011年12月发布的时间表主要针对“简介”进行了调整。脸书个人资料相当于个人文件和信息,通常被称为个人主页。新的个人资料比以前的版本有更多的视觉冲击。facebook推出了一个新的时间线界面,用来组织发布在Facebook上的个人信息,如状态、图片、视频等。,以更有条理的方式展示,就像facebook上的自传一样。 喜欢按钮 该功能允许用户标记他们喜欢的页面,并将这些页面包含在facebook搜索结果中。这个功能类似于谷歌使用页面之间的链接来决定搜索排名。Facebook表示:“只要用户点击‘喜欢’按钮,所有支持开放图形协议的网站都会显示在搜索引擎中。”Facebook将借助开放图协议进一步扩大搜索引擎的索引范围,这将对谷歌构成威胁。 data store memcached 是一个分布式内存缓存系统,facebook将其用作web服务器和mysql服务器之间的缓存层(因为数据库访问相对较慢)。多年来,facebook对memcached及其外围软件进行了许多优化,比如优化网络堆栈。Facebook一直在数千个memcached服务器上缓存着数十万亿字节的10tb数据。它可能是世界上最大的memcached服务器集群。 haystack[h/]haystack是facebook的高性能图像访问系统,但严格来说,它不仅限于存储照片。它管理着200多亿张上传的照片,每张照片都以四种不同的分辨率保存,所以有800多亿张照片。它不仅应该能够处理数亿张照片,它的性能也至关重要。Facebook每秒处理大约120万张照片,不包括cdn上的照片,这是一个惊人的数字。 cassandra cassandra是一个分布式存储系统,可以避免单点故障。这是nosql运动的一个模型,并且是开源的。它甚至成为了一个阿帕奇项目。facebook在收件箱搜索中使用它,除了Facebook,其他网站也使用它。 数据分析 hadoop架构 hadoop是当今分布式/并行计算中最流行的开源工具。它不仅可以用于分布式文件系统的存储,还可以用于构建大量的集群计算机,实现大规模分布式存储和数据集归档。Facebook是hadoop的忠实用户,也是源代码的贡献者。facebook还贡献了两个重要的hadoop组件,hive和节俭,这两个组件已经包含在apache的hadoop子项目中。 hive[h/]hive起源于facebook,它使得针对hadoop查询sql成为可能,因此非程序员可以方便地使用它。Hive是一个基于hadoop的数据仓库工具,可以将结构化数据文件映射到数据库表中,提供完整的sql查询功能,并将sql语句转换成mapreduce任务运行。Hadoop中的动物园管理员和节俭子项目还包括动物园管理员分布式锁,它提供了类似于谷歌查比的功能。节俭是hadoop的一个跨语言接口,它可以支持多种语言,比如php和ruby。bigpipe是一个由facebook开发的动态网页处理系统。为了获得最佳性能,facebook用它来分块处理每个网页(称为“小页面”)。例如,聊天窗口、新闻源等。按块分别传输。这些页面可以并行工作,这不仅提高了性能,而且不会影响用户的正常访问,即使其中一些页面出现故障或被中断。