大数据优化方案---Mysql中47G大表通过SQOOP导入数据仓库

目录

一、现状和需求

二、思路

三、注意事项

四、解决方案


一、现状和需求

现状
1、由于公司的Mysql表中有很多表的存储数量达几亿,单表达到40多个G,无法通过sqoop同步到数据仓库中。
2、mysql的引擎为【MyISAM】,表的索引只有 ID和Entid字段。
3、公司的Mysql表存储如下所示:
在这里插入图片描述
需求
1、需要对Mysql表进行特殊处理,达到通过sqoop同步到数据仓库的一张表【company】中。

二、思路

1、停止当前表的所有功能
2、全量快速方案:
       1)建立相同字段的表【table_000】到【table_XXX】;
       2)将大表按照索引均匀查出数据,分批插入到【table_000】到【table_XXX】中;
       3)通过SQOOP分别将对于表分批导入数据仓库中同一张表的不同分区中【hive_

已标记关键词 清除标记
©️2020 CSDN 皮肤主题: 编程工作室 设计师:CSDN官方博客 返回首页
实付 19.90元
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值