自动分层让混合存储发挥最大效益

蜗牛 vps教程 2022-08-03 105 0

　　这是一个不平衡的世界，极少数富人占有绝大多数的财富、少数几家领导品牌厂商占有整个业界绝大多数的利润……，类似的，这种由80/20法则所描述的不平衡现象，在IT储存应用领域也是普遍的情况——储存设备的大部份效能，其实是由一小部份应用所消耗。这也是说：绝大多数的应用其实都不会耗去太多I/O效能，所以我们只需为那少数极耗I/O效能的关键应用，準备少量高效能储存装置即可，至于其他应用的储存需求，则可用便宜的低价储存设备来满足。

　　混合储存的效益——把高效能装置用在刀口上

　　从储存装置本身的特性来看，SSD效能高，但单位容量成本也高;传统硬盘单位容量成本低，效能也相对较差。

　　以80/20法则来看储存系统的配置，採用全SSD的配置是不合理的——由于实际上只有一小部份应用会需要SSD的高效能，不分应用紧要与否、一律给予SSD资源，显然不合成本效益;但传统的全硬盘配置也已逐渐不敷使用，传统硬盘虽然足以应付I/O需求不高的一般应用，但受先天架构所限，必须透过组成大规模阵列的笨拙方式，才能拼凑出关键应用所需的高I/O效能，为了一小部份关键应用的高I/O需求，往往必须耗费数十台甚至上百台硬盘组成阵列，即便满足了I/O效能，但也耗费了大量空间与电力，显然也不合乎效益。

　　因此为了兼顾效能与成本，同时使用SSD与传统硬盘的混合储存架构，才是当前IT环境最合理的做法，在储存设备中混用小比例的SSD(一般来说占总储存容量10～15%即可)，即足以因应一小部份关键应用的高I/O需求，其余应用则透过传统硬盘来提供储存服务。

　　自动分层技术让混合架构真正实用化

　　就塬则来看，同时使用SSD与传统硬盘的分层架构，是最合理与最具效益的储存配置。但在实务上，这种混合架构将面对如何将各式各样的资料放置到合适储存层的困难。

　　理论上，我们可使用人工来进行分层储存配置工作，由MIS预判各主机应用程式的I/O需求，然后分别配置不同层级的储存资源，并视I/O运行状态的变化来调整储存资源配置。

　　然而这种人工调整储存资源配置的方式，对于个人端或极小规模的应用环境或许适用，但对于企业IT环境实际上是不可行的。

　　首先，企业环境规模庞大，储存系统必须服务数量众多的主机与应用程式;其次，各主机与应用程式的I/O需求会随时间而变化。面对数量众多、且会随时间变化的前端主机应用程式，为了让储存资源维持在最佳配置，将必须持续追踪各主机应用程式的I/O负载变化，并针对I/O负载变化，频繁地调整储存配置，这将带来非常庞大的管理作业负担，远超过人工作业所能负担的程度。

　　因此唯有透过自动化的分层储存与资料迁移技术，才能让分层储存架构真正步入实用化，由软体来执行I/O存取负载的追踪与统计工作，并依照预设政策或演算法，自动在各储存层间迁移资料，从而自动让整个储存资源的配置达到最佳化。这也就是说，如何「自动化」，才是分层储存的关键。

　　自动分层储存技术的4大面向

　　自动分层储存技术的塬理十分单纯，首先必须建立一个跨多个储存层的磁盘区，然后由一个I/O监控单元，追踪与统计磁盘区各区块的I/O负载，接下来再由一个资料搬移单元，依照各区块的I/O负载程度，定期执行资料迁移作业，将各区块放置到合适的储存层。

　　尽管塬理并不复杂，不过由于设计理念与储存基础架构互有差异，各厂商的自动分层储存技术在架构与运作方式上，也存在许多不同，我们可以透过储存分层的型式、分层作业的粒度、分层迁移作业的周期，以及管理政策权限这4个面向，来检视与比较各厂商的自动分层储存技术特性。

　　储存分层的型式

　　最基本的分层型式，是将储存装置简单地分为SSD与硬盘两层，如较早版本的IBM Easy Tier，以及普安ESDS 3000的Automated Storage Tiering，都是採取两层式架构。

　　只分为SSD与硬盘两层的主要出发点，是认为无论哪种转速的机械式硬盘，速度都远低于SSD，因此无需对硬盘类型再作细分，而且只分两层的话，分层判断与管理也会单纯的多。

　　不过就实际环境来说，尽管I/O效能均远不如硬盘，但1万转与1.5万转的高转速硬盘，与7200转的低成本硬盘之间，在单位成本上仍存在相当大的差距，因此绝大多数厂商的分层架构都是採用SSD、高转速硬盘与低转速硬盘的3层式区分，将硬盘再分成高速与低成本两种类型。比起2层式架构，3层式能提供更细緻的分层，来因应主流磁盘装置的典型效能——成本区分，但分层运作也会更复杂。

　　少数厂商的自动分层功能，如EMC VMAX的FAST VP与普安ESVA的Automated Storage Tiering，还能支援最多4个分层，分层上又更细緻，但架构与运作相对会变得十分复杂。

　　分层最细緻的是Dell Compellent Storage Center的Data Progression自动分层技术，Data Progression也是3层式的架构，但区分方式与众不同。自Storage Center OS 6.4版以后，Data Progression採取由SLC SSD、MLC SSD与传统硬盘构成的3层架构，前2层分别是两种型式的SSD，所有传统硬盘则归到第3层。藉由这种独特的同时採用2种SSD架构，Data Progression设定由写入效能优越的SLC SSD来承担所有写入I/O，而由可兼顾高读取效能与成本的MLC SSD来承担高读取I/O，搭配低成本传统硬盘来存放低I/O负载的资料。

　　除了依照磁盘装置类型分为基本的3层外，Data Progression在每一储存层内还可依照RAID型式与组成RAID群组的磁盘数量等，进一步画分更细的分层，Data Progression这种在大分层内又夹有小分层的架构，在当前的分层储存技术中也是独有的，其他厂商大多只允许在每个储存层中使用1种RAID群组。

　　分层作业的粒度

　　自动分层储存功能执行存取行为分析与资料搬移时，所採用的「粒度(granularity)」，也就是容量单位，一般来说是越小越有利，以几百KB为单位的区块来执行搬移作业，显然比以数GB为单位的整个Volume或LUN更为理想，不仅消耗的资源较少，也能达到更高的储存资源配置效率，也能更精确地迁移那些真正需要迁移的资料区块。

　　在一个数十或数百GB的Volume或LUN中，经常被存取的通常只是其中一小部分的区块，因此在执行资料分层迁移作业时，若自动分层储存系统能以更小的区块作为单位，便能更精确地将真正经常存取的那些区块、保留在高效能储存区域上，其余部分则迁移到低价的储存区域保存，从而更有效率的使用储存空间。如果粒度较大，则在迁移资料时，很容易会连带搬动到不需要迁移到资料区块，以至造成储存资源的浪费。

　　但另一方面，若运作的精细度越小，则系统相对应须追踪的区块数目与相对应的metadata也越多，相对也更会增加控制器的负荷。

　　目前的自动分层储存技术都是属于「Sub-LUN」或「Sub-Volume」等级，也就是可以比LUN或Volume更小的单位，来执行资料迁移作业，不过彼此间差异甚大，粒度最精细的可以到数百KB或数MB等级，如Dell Compellent的Data Progression(512KB～4MB)、普安的Automated Storage Tiering(256KB～2MB)，以及EMC VMAX的FAST VP(7.5MB)等。

免责声明：本站发布的内容（图片、视频和文字）以原创、转载和分享为主，文章观点不代表本网站立场，如果涉及侵权请联系站长邮箱：niceseo99@gmail.com进行举报，并提供相关证据，一经查实，将立刻删除涉嫌侵权内容。