信息化 频道

网格数据 如何存取

    IT168 资讯】网格技术已广泛应用于高吞吐量计算的实际应用中,伴随而来的是日益庞大的应用数据。由于这些数据的表示、存储形式不尽相同,因此,要想让使用不同存储环境的用户可以有效访问这些数据,网格数据存取方法的采用就变得至关重要。
 
    对于网格数据存取方式而言,本地和远程数据存取可以使用户自行选择数据的非常好的复制、存储位置;基本传输单元的确定可以使各种异构数据传输服务实现标准化;元数据的使用,可以使网格资源更好的定位以方便用户查找;相应数据存取标准的完善,可以使数据存取方法更加规范化。
 
   合理分配本地、远程资源
 
    在网格环境中,数据资源各种各样,表示、存储的形式也各不相同。一些数据可能以文件形式存储;一些数据存储在数据库或数据仓库中;另一些存储在高性能存储系统HPSS的Archive档案系统中;还有一些数据是由多个分布存储系统中的数据组成的。这些数据可以容纳在一个本地的存储资源上,或者远程存储在网络上可用的磁盘/磁带上。每种数据资源可能都有不同的性能和特点,如果为每一种数据存储形式提供一种访问方法,用户是不可能接受的。因此,网格必须抽象各种数据存储系统,形成一个抽象模型,为不同的数据存储系统提供统一的数据访问接口。
 
    因此,数据存取方法应该考虑使利用本地资源和利用远程资源的开销相同;为存取的数据提供不同的存储设备;同时应该允许用户自行选择数据的存放位置;使用户可以手动的管理数据集;并要考虑数据在网络中传输的代价和数据集的哪部分必须被复制和数据集在网络中的非常好的放置位置。
 
    当网格中的数据需要复制时,复制技术就显得十分重要了。复制本质上是对数据的缓存。复制技术为用户提供一个能够快速访问和处理远程数据的局部缓冲数据拷贝,避免大量数据远程传输到应用端。
 
   明确基本传输单元
 
    网格环境主要应用于科学领域。而科学计算应用的数据存取模式又明显和商业或商务计算不同。在商业或商务计算中,数据存取通常是存取一个单独的数据单元,又通常以随机的顺序完成存取。在科学计算中,存取通常是更有规律的,像在一个数学计算中的循环。然而,在某些领域,像高能物理等高吞吐率应用中,数据存取模式通常是很难决定的。
 
    在科学的高性能应用中的数据结构通常包括基于数组的大量数据传输。数据的存取通常是有规律的,通常是以块、循环或块循环的形式来存取。但因为有时数据是在数据范围内无规律跳动的,因此数据存取也可以是无规律的。数据的存取模式将随着存取数据项或文件组的不同而不同。
 
    数据传输的最小单元通常是由存储设备来决定的,为了定义标准化的服务,我们确定了下面两种基本的数据传输和存取单元类型:一个基本类型是浮点型、整型和字符型,他们可以被存储在各种资源上,存储单元依赖于利用存储资源的编程语言或应用和使用的存储介质,这些类型的组仍可被认为是基本类型,他们依赖于存储资源,并包括数据、图像和二进制对象。另一种存储单元是文件,它不依赖于处理的类型或者任何相关的语义,是一个不间断字节的队列。它可以存储在一个数据库或者一个普通的文件系统中。
 
   有效管理元数据
 
    在网格环境中,良好的表示、存储、访问和使用大量资源信息是一个基本前提。在网格环境中,资源是分布的,资源及其提供者也是分布的,这些资源包括数据、计算机、设备、网络、外设、软件、服务、代码、人员等。元数据管理服务命名、描述、收集、组织和管理网络中资源信息,这些信息就是用于描述资源、方法、数据集和用户的元数据。信息服务是元数据管理对外提供的基本服务。它实现新资源实体的注册和发布,支持资源相关性的发布,可以注册与已注册实体间的相互约束和相互联系信息。
 
    元数据是用来描述数据的数据。元数据和为了寻找存储资源的等级模式、外部可见资源的属性、许可和存取权限,以及存储内容的信息有关。元数据可以分为系统元数据、复制元数据和应用元数据。系统元数据记录网格自身的结构信息,诸如网络互连情况、存储系统的容量、计算机空闲情况、使用策略等。复制元数据记录与数据副本有关的信息,如文件与具体存储系统之间的映射信息。应用元数据是与具体应用相关的文件逻辑结构或语义信息,如数据的内容和结构、获取数据的必要条件等。为了实现命名、定位和访问的透明性,网格需要有效的管理数量繁多的名字和属性,以及它们之间的关系,需要一种统一的全局命名方式,需要管理数据集的定位信息,需要有效管理数据资源存储形式等相关信息。同时,也需要管理系统资源的安全、授权、访问控制等信息。而这些管理的实现要依赖于元数据的管理。
 
    网格中的所有元数据构成元数据目录,它采用统一的结构来描述元数据。无论使用何种结构,元数据目录都应当满足两点:其一,它应该是一种层次和分布式目录结构系统;其二,它应当不破坏现有系统的元数据描述方法,并能与他们很好的交互、融合。
 
   标准有待进一步完善
 
    目前,有两个与网格数据存取相关的标准:一个是开放存储系统互联的IEEE参考模型;另一个是为了开放档案信息系统的参考模型ISO标准。IEEE标准主要关注结构、接口、规范和标准的术语,而ISO标准更多的关注必要的操作问题和一个数据档案中不同部分间的互相影响。但,这两个标准目前都有待进一步完善。
 
    IEEE开放存储互联(OSSI)标准是以20世纪80年代的IEEE大容量存储参考模型为开始的,它更多的关注大容量存储系统的技术细节,并且包含存储介质的规范、驱动技术和数据管理软件。最近,该标准增加了组织功能,并且强调了和其他存储系统间连接和相互影响的描述。
 
    ISO开发存档信息系统(OAIS)标准是以为一个长期的存档操作提供一个框架为目的,这个长期的存档是为了一个具体的团体服务的。因此,其中讨论了像数据提交、数据存储和数据传播等问题。任何功能都以一个完整的状态来看待,不仅描述了技术细节,而且还包括人的干涉和角色。因为这个标准的目的,就决定了它所维护的信息需要长时间的保存,即使在整个时间段内OAIS已经不存在了。
 
    OAIS标准涉及提取、有属性的数据对象的压缩和存储的问题。然而,OAIS并没有涉及过时的技术。过时的技术可以通过在系统间提供可操作性支持来处理,系统要支持将长期的存档转移到新技术上的功能。
 
来源:《信息系统工程》
0
相关文章