大数据调优心得

Featured image

终极办法

利用map-reduce思想,将大数据拆成小数据,分别进行处理,然后汇总;

调优

遇见执行时间太长,资源消耗大,OOM等问题需要进行优化时,一方面依赖于经验,另一方面依赖于调参 → 验证效果整个流程的效率;

经验

join过程遇见数据倾斜
首先统计key的数量,看看数据倾斜情况

效率

流程优化

关于拆分和监控往往会牺牲一定的性能(比如:增加耗时、数据存储等),换来可维护性