区块链技术博客
www.b2bchain.cn

离线资源治理求职学习资料

本文介绍了离线资源治理求职学习资料,有助于帮助完成毕业设计以及求职,是一篇很好的资料。

对技术面试,学习经验等有一些体会,在此分享。

最近做的事情,快过年了总结下吧。本来不想总结,今天周会组长说很有成效。我:???专栏里面有些是一直以来积累下来的内容,全量上传的,可能觉得我更新很快,其实都是写好很久了。。

1、存储治理:降低存储成本
配合大数据平台(我在推荐组)

  • RAID编码:一句话介绍就是将3副本降低到1.5副本。回跑数据需要先恢复三副本,其他没什么坑了。

    通过纠错码就是通过编码的方式来保证文件的可用性(HDFS采用三副本的方式,存数效率只有1/3)。HDFS RAID的方案就是采用了 Reed Solomon 纠错码对原始文件进行编码以达到保证文件可用的前提下,尽可能的提高存储效能。HDFS RAID采用 RS-6-3编码,即对于6个文件块,采用额外3个文件块作为纠错码;在完成编码之后,再从三副本降低为一副本,因此等价于使用1.5副本来满足文件可用性,存储效率达到了 66%。因此使用HDFS RAID编码理想情况下可以节约50%的物理存储空间。【适用场景】HDFS RAID将三副本降低为1.5副本,支持热读取,不过对于并发的极大量访问的效率较之三副本会有所下降,因此不适用于刚生成的热数据,或者频繁使用的数据;HDFS RAID适用于冷数据(极少访问),或者温数据(偶尔访问)
    更详细的编码原理自己谷歌吧,我不是很懂

  • 设置合理的保留分区数:比如全量表无特殊要求的情况下考虑3-7天,个人觉得根据最近30、60、90天查询该表的最小分区数来推保留分区数,这个数据参考意义很大。

2、计算资源治理:降低内存消耗
配合大数据平台(我在推荐组)

  • 内存参数合理设置:对设置了内存参数的任务就行把控,尽量将利用率提高达到90%,通过统计近30天任务的map、reduce峰值的内存消耗,来设置合理的内存大小。MR、Tez任务参数不要混,有些算法的人对这些不熟悉就会把参数全部抄过去。关注以下参数:
--计算引擎为MR参数 --配置mr引擎mapper内存大小单位mb,对应需设置java虚拟机内存大小为mapper的0.75~0.8倍 SET mapreduce.map.memory.mb=8192; SET mapreduce.map.java.opts=-Xmx6144m; --配置mr引擎reducer内存大小单位mb,对应需设置java虚拟机内存大小为mapper的0.75~0.8倍 SET mapreduce.reduce.memory.mb=8192; SET mapreduce.reduce.java.opts=-Xmx6144m;  --计算引擎为tez参数 --配置tez引擎mapper内存大小单位mb SET hive.tez.map.memory.mb=3072; --配置tez引擎reducer内存大小单位mb SET hive.tez.reduce.memory.mb=3072;
  • 从业务角度出发减少重复计算:涉及到建模
  • 无效计算:无查询无下游
  • 数据倾斜:(后面更新这个的总结,其实已经总结过了。年后整理搬运过来)
  • 重复扫描:多次使用的某一段代码建议建张tmp_xx表

最近做的事情,快过年了总结下吧。本来不想总结,今天周会组长说很有成效。我:???专栏里面有些是一直以来积累下来的内容,全量上传的,可能觉得我更新很快,其实都是写好很久了。。

1、存储治理:降低存储成本
配合大数据平台(我在推荐组)

  • RAID编码:一句话介绍就是将3副本降低到1.5副本。回跑数据需要先恢复三副本,其他没什么坑了。

    通过纠错码就是通过编码的方式来保证文件的可用性(HDFS采用三副本的方式,存数效率只有1/3)。HDFS RAID的方案就是采用了 Reed Solomon 纠错码对原始文件进行编码以达到保证文件可用的前提下,尽可能的提高存储效能。HDFS RAID采用 RS-6-3编码,即对于6个文件块,采用额外3个文件块作为纠错码;在完成编码之后,再从三副本降低为一副本,因此等价于使用1.5副本来满足文件可用性,存储效率达到了 66%。因此使用HDFS RAID编码理想情况下可以节约50%的物理存储空间。【适用场景】HDFS RAID将三副本降低为1.5副本,支持热读取,不过对于并发的极大量访问的效率较之三副本会有所下降,因此不适用于刚生成的热数据,或者频繁使用的数据;HDFS RAID适用于冷数据(极少访问),或者温数据(偶尔访问)
    更详细的编码原理自己谷歌吧,我不是很懂

  • 设置合理的保留分区数:比如全量表无特殊要求的情况下考虑3-7天,个人觉得根据最近30、60、90天查询该表的最小分区数来推保留分区数,这个数据参考意义很大。

2、计算资源治理:降低内存消耗
配合大数据平台(我在推荐组)

  • 内存参数合理设置:对设置了内存参数的任务就行把控,尽量将利用率提高达到90%,通过统计近30天任务的map、reduce峰值的内存消耗,来设置合理的内存大小。MR、Tez任务参数不要混,有些算法的人对这些不熟悉就会把参数全部抄过去。关注以下参数:
--计算引擎为MR参数 --配置mr引擎mapper内存大小单位mb,对应需设置java虚拟机内存大小为mapper的0.75~0.8倍 SET mapreduce.map.memory.mb=8192; SET mapreduce.map.java.opts=-Xmx6144m; --配置mr引擎reducer内存大小单位mb,对应需设置java虚拟机内存大小为mapper的0.75~0.8倍 SET mapreduce.reduce.memory.mb=8192; SET mapreduce.reduce.java.opts=-Xmx6144m;  --计算引擎为tez参数 --配置tez引擎mapper内存大小单位mb SET hive.tez.map.memory.mb=3072; --配置tez引擎reducer内存大小单位mb SET hive.tez.reduce.memory.mb=3072;
  • 从业务角度出发减少重复计算:涉及到建模
  • 无效计算:无查询无下游
  • 数据倾斜:(后面更新这个的总结,其实已经总结过了。年后整理搬运过来)
  • 重复扫描:多次使用的某一段代码建议建张tmp_xx表

最近做的事情,快过年了总结下吧。本来不想总结,今天周会组长说很有成效。我:???专栏里面有些是一直以来积累下来的内容,全量上传的,可能觉得我更新很快,其实都是写好很久了。。

1、存储治理:降低存储成本
配合大数据平台(我在推荐组)

  • RAID编码:一句话介绍就是将3副本降低到1.5副本。回跑数据需要先恢复三副本,其他没什么坑了。

    通过纠错码就是通过编码的方式来保证文件的可用性(HDFS采用三副本的方式,存数效率只有1/3)。HDFS RAID的方案就是采用了 Reed Solomon 纠错码对原始文件进行编码以达到保证文件可用的前提下,尽可能的提高存储效能。HDFS RAID采用 RS-6-3编码,即对于6个文件块,采用额外3个文件块作为纠错码;在完成编码之后,再从三副本降低为一副本,因此等价于使用1.5副本来满足文件可用性,存储效率达到了 66%。因此使用HDFS RAID编码理想情况下可以节约50%的物理存储空间。【适用场景】HDFS RAID将三副本降低为1.5副本,支持热读取,不过对于并发的极大量访问的效率较之三副本会有所下降,因此不适用于刚生成的热数据,或者频繁使用的数据;HDFS RAID适用于冷数据(极少访问),或者温数据(偶尔访问)
    更详细的编码原理自己谷歌吧,我不是很懂

  • 设置合理的保留分区数:比如全量表无特殊要求的情况下考虑3-7天,个人觉得根据最近30、60、90天查询该表的最小分区数来推保留分区数,这个数据参考意义很大。

2、计算资源治理:降低内存消耗
配合大数据平台(我在推荐组)

  • 内存参数合理设置:对设置了内存参数的任务就行把控,尽量将利用率提高达到90%,通过统计近30天任务的map、reduce峰值的内存消耗,来设置合理的内存大小。MR、Tez任务参数不要混,有些算法的人对这些不熟悉就会把参数全部抄过去。关注以下参数:
--计算引擎为MR参数 --配置mr引擎mapper内存大小单位mb,对应需设置java虚拟机内存大小为mapper的0.75~0.8倍 SET mapreduce.map.memory.mb=8192; SET mapreduce.map.java.opts=-Xmx6144m; --配置mr引擎reducer内存大小单位mb,对应需设置java虚拟机内存大小为mapper的0.75~0.8倍 SET mapreduce.reduce.memory.mb=8192; SET mapreduce.reduce.java.opts=-Xmx6144m;  --计算引擎为tez参数 --配置tez引擎mapper内存大小单位mb SET hive.tez.map.memory.mb=3072; --配置tez引擎reducer内存大小单位mb SET hive.tez.reduce.memory.mb=3072;
  • 从业务角度出发减少重复计算:涉及到建模
  • 无效计算:无查询无下游
  • 数据倾斜:(后面更新这个的总结,其实已经总结过了。年后整理搬运过来)
  • 重复扫描:多次使用的某一段代码建议建张tmp_xx表

部分转自互联网,侵权删除联系

赞(0) 打赏
部分文章转自网络,侵权联系删除b2bchain区块链学习技术社区 » 离线资源治理求职学习资料
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

b2b链

联系我们联系我们