信息化 频道

互联网行业SSD应用之百度数据索引实践

  【IT168资讯】互联网应用发展日新月异,各种新兴的互联网技术也日新月异,专注于互联网运作背后的开发和运维技术,为了满足互联网行业的发展,也在不断的进化和演变中。但是后端运维和前端开发关注的热点却有所不同,更多的大规模互联网应用使得我们的运维和开发更多地关注问题的本质:虚拟化、云计算、高并发,高效能,绿色计算等等。

互联网行业SSD应用之百度数据索引实践

  为了让大家更多地了解这些运维技术的根本和这些基础技术的发展动态,ChinaUnix联合Intel举办了2013互联网运维技术新热点沙龙,希望通过几期线下和线上的活动结合,让更多地的互联网运维和开发人员能够更好地接触这个行业的前沿和趋势,明确自己的技术发展路线。

  在本期活动中,来自百度项目管理工程师张佺给解密百度数据索引在SSD上的实战。据了解,张佺早期在传统软件行业工作,09年开始创业,完成两款线上游戏,11年加入百度项目管理部,专注与百度业务数据相关的分析及挖掘工作。

互联网行业SSD应用之百度数据索引实践
▲百度项目管理工程师张佺

  传统的数据索引方法:基于DB服务的索引,基于memcached的索引,基于文件系统的索引。无论哪个方法都有自身的问题,而基于memcached的索引的问题则会更为突出,如内存成本、维护成本、IO速度、存储空间浪费、RD开发成本、索引与数据同步问题等都

  而令张佺颇感荣幸的是2012年初得到8台具有SSD的服务器,传统的数据索引问题已经开始改变,用SSD的硬盘索引代替了内存的索引。因为传统方式,大量内存和磁盘之间的通信效率难以保证,而SSD能够改善这样的问题。而正因为这样的SSD的优势,给我们带来了巨大的改变:非关系型数据库、碎文件打包、分布式存储的META数据等应用能够被高效的实现。

  当然张佺也坦言采用分布存储的META数据存在一种不可避免的风险,当META数据出现丢失、服务器出现异常时真实的文件势必会无法找到。但是目前的方式可以通过建立多个META副本的方式或通过原始文件重建的方式。而Intel中国服务器平台产品经理张振宇也表示目前采用双机热备的方式可以解决,而另外有一些产品可以在存储分布式的META数据存储方式,满足随着分布节点的增加而META的可靠性。

0
相关文章