跟着AIGC的爆火,数据量呈指数级增加,数据湖存储成为刚需。数据湖存储以目标存储为中心,优势是高弹性、低成本,能够存储恣意规划的异构数据。但在许多文件读写场景下,目标存储也会面对一些应战,比方:时延高、存储资源运用率低或许元数据拜访慢等,所以腾讯云GooseFS分布式缓存产品应运而生,旨在处理目标存储数据拜访加载速度问题。

  精确来说,GooseFS是腾讯云推出的多协议、高功能、大吞吐的数据缓存加快服务,在数据湖生态中扮演着“上承核算,下启存储”的要害作用。经过一年多时刻的打磨,GooseFS在技能才能上已得到业界高度认可。前不久,NAS2024大会发布了本年论文录入的情况,腾讯云目标存储就加快目标存储拜访提出的技能计划成功当选,论文标题是《GooseFS:分布式缓存服务以提高云目标存储功能》。

  单从缓存加快开展现在的情况来看,业界有两大维度的企业在发力。一个是以腾讯云为代表的云核算大厂;另一类是开源或许草创企业。大体来看,每家厂商都在做自己的缓存加高功能文件体系计划,把缓存和容量两个产品形状组合起来。

  至于,腾讯云GooseFS为什么重要?背面有哪些比较前沿的规划原理?腾讯云存储产品总经理陈峥、腾讯云存储资深专家程力,接受了干流媒体的采访!

  在大数据场景下,海量数据一向存在,但曩昔的大数据只管存,很少被真实运用。现在,在AIGC浪潮的推进下,大模型和智驾运用场景增多,使得高频率、高速度、大带宽的实时读写需求陡增。此种布景下,存储体系也要满意快速读写需求。但在数据湖存储中,通常会遇到三个问题:一、原生目标存储I/O比较慢,写入、读取时延比较高;二、数据写入和读取吞吐相对来说仍是比较低;三、元数据操作比较慢,比方:一个目录下有多少文件,每一个文件的写入时刻、读取时刻是什么,在获取数据的概括性描绘时,存储功能体现一般。

  为了处理以上问题,腾讯云GooseFS在之前目标存储基础上,对核算端、存储端和元数据引擎上,引进3个要害规划:

  2、存储端:用软件的办法有用运用高功能磁盘,以分布式缓存池的办法提高跨节点拜访的吞吐才能,弥补了因为核算端缓存容量缺乏带来的射中率下降的问题。

  3、元数据引擎:经过自研高功能元数据引擎提高元数据读写功能,在元数据分级办理、强一致性缓存和平行扩展等技能办法支持下,许多重复途径查找操作会优化成一次性的查询,大幅度的提高了元数据处理功率。

  成果显现,比较原生目标存储,腾讯云GooseFS功能吞吐提高8-10倍,存储带宽耗费下降90%,缓存射中率现已挨近95%。现在,蔚来、博世、百川、高途、燃数、酷狗等抢先企业都在运用腾讯云GooseFS。

  总结来看,腾讯云GooseFS能取得业界的高度认可,得益于一系列自研的数据工程化才能立异。比方:整个架构及网络结构都是腾讯云自研,一起还引进了先进的缓存筛选算法,让缓存办理更高效。值得一提的是,腾讯云GooseFS的中心才能是能以更强壮的才能辨认热数据,为了承认和确保热数据到达高缓存射中作用,腾讯云还自研了许多与大数据表分区有关的一些感知技能,能够对接大数据要害组件,把最热的数据留在了缓存。