作业帮刘晋:建设创新技术体系 充分发挥数据价值

来源: 光明网

近日,2021腾讯数字生态大会在武汉举行,大会以“数实融合·绽放新机”为主题,邀请了300多位产业领袖和专家,展示前沿技术成果、创新服务场景、细分行业数字化转型的实践案例。

作为腾讯云最佳生态合作伙伴,作业帮受邀出席,作业帮大数据平台技术部负责人刘晋在“大数据”专场与参会者分享作业帮大数据平台架构的演进之路,系统地介绍了作业帮大数据平台概况、面临的问题和解决方法,以及在弹性、数据湖、数据安全的实践经历和取得的效果。

刘晋表示,作业帮从2015年开始就使用存算分离的架构来构建离线的数据体系,该系统架构让计算、存储资源具备极好的扩展性,降低运维成本、优化TCO。为了提升在线集群资源利用率、满足突发的资源使用需求,团队正在将计算层从自建CDH到EMR的迁移。

为了实现平滑的迁移,团队采用了渐进式的方案,首先对任务进行标准化测试,对一些不适合高版本Hive环境的任务进行了改造,之后进行数据准确性的检验,通过对任务在不同集群的结果对比来验证数据,这个过程中对发现的开源版本缺陷进行修复,最后进行分队列的迁移。

从迁移后的效果来看,基于EMR-EKS能快速的弹性扩容,今年上半年团队基于弹性在短时间内扩容了上万核,很好的满足了计算需求。同时正在实施在线离线混布的方案,通过弹性网卡做了硬件层面的网络隔离,并且对Yarn的原生调度模式进行优化,缩短了节点回收的时间,避免慢节点影响任务执行效率。

在传统基于Hadoop的数仓应用里,存在着数据查询慢,数据模型更新成本过高、以及数据冗余等诸多的缺点,作业帮通过Iceberg的数据湖技术,结合实际的使用场景,在数仓和即席查询领域进行了积极的探索和实践。

首先通过Flink构建实时Pipeline,生成ODS层分钟级的IceBerg数仓表,再通过事件驱动来周期性的做流转批生成具有时间边界的分区,对分区内数据通过Zorder、DataSkipping技术来做查询加速,在流量域的用户行为查询中,使用Iceberg的查询相比传统模式有近10倍以上的提升。

刘晋表示,作业帮在批计算、实时、OLAP等领域有丰富的应用场景,未来作业帮技术团队将持续建设创新技术体系,在数据治理、数据湖、自动调度、离在线混布、OLAP、实时计算等领域不断的实践和突破,充分发挥数据价值,赋能教育创新。(永文)

标签: 作业帮 创新 数据

精彩放送

热文