技术博客 > 正文

什么是非结构化数据存储?

2022-07-14

随着图片和视频应用的大规模兴起,非结构化数据(Unstructured Data)的概念随处可见。到底什么是非结构化数据,非结构化数据存储和结构化数据存储又有什么区别?

入选首个《云原生产品目录》 爱捷云容器云实力获权威认可

1.什么是非结构化数据?

可以简单理解为,传统的关系数据库里存放的内容就是结构化数据,而图片、音频、视频、文档等以普通文件形式存放的数据,就是非结构化数据。

数据库里的内容,一般是以字段的形式,按照一定的二维表格逻辑结构保存,内容遵循固定的格式,比较容易查询,归结为结构化数据。而图片和视频等内容,巨大的数据总量和大小的不一致性导致存放在数据库中比较勉强,优化困难,一般就直接以文件的形式存放在硬盘中,被人们认为是非结构化数据。

2.非结构化数据存储有什么不同?

大数据时代,非结构化数据的增速非常惊人,其增速远大于结构化数据。这么庞大的数据量,如何有效存储成为关注重点。

首先看结构化数据存储设备的市场情况。对于普通的应用场景来说,即使数据库的记录再多,一般一台配置高容量大的网络存储设备即可满足需求,许多时候一台通用的服务器插几块硬盘足以应付所有工作。在这种背景下,购买一台品牌好的存储设备用作数据库存储,对于IT管理人员来说是一个最佳选择。虽然价格比较昂贵,但毕竟只有一台设备,最多再拿一台作为备份,其总价对于不差钱的企业来说也完全可以承担,最关键是省事。

非结构化数据存储的市场却不太一样。因为其容量巨大,用传统的单机存储,显然无法承载企业庞大的数据总量,采用扩展性更好的分布式存储几乎是某些场景下唯一的选择。

非结构化数据存储,一般是比较大的文件为主(对于几MB的文件就可以理解为相对意义上的大文件),读写块大小会设置得比较大(64KB以上,甚至512KB或者1MB),而且单个文件内部可以认为是连续读写的。所以其聚合的读写速度会比较高,对于这类数据的读写,我们往往更关注总带宽。

另外,非结构化数据总量巨大,动辄数PB,超大规模集群的管理也面临巨大的挑战,不再是以前两台设备组成HA双机集群那么简单。存储巨大的数据量,需要用通用的服务器来控制费用,因此对硬件可靠性的关注焦点,会全面转移到对软件可靠性的关注上。考虑到任何硬件都随时可能损坏,软件对这方面的管控就要复杂不少。如何把多台松耦合的设备,组成一个紧密的集群,是分布式存储解决的难题。

联系我们

联系我们

  • 售前: 400-010-0617
  • 售后: 400-696-3666
线上咨询
合作申请
微信
官方微信