博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
TDH大数据平台数据入库方案
阅读量:5166 次
发布时间:2019-06-13

本文共 1127 字,大约阅读时间需要 3 分钟。

一、数据入库方式

目前批量数据入库TDH大数据平台主要有如下几种方式

1、手工入录

一些静态表手工维护的数据,可以直接采用insert导入,或者使用waterdrop客户端工具导入,只适用少数据量的导入和更新

2、dblink

TDH inceptor支持建立dblink直接连接db2,oracle,mysql等关系数据库,对于一些数据量不大的静态表,手工维护的表,可以通过建立dblink的方式获取数据

优点:简单方便

缺点:1)对大数据量的表,效率较差

       2)初次使用相应数据库的dblink时,需要导入对应数据库的驱动jar包到 inceptor 的lib目录,重启才能生效

3、sqoop直接抽取

可以使用sqoop的方式从RDBMS关系型数据库抽取数据到TDH大数据平台

优点:1)支持各种类型的关系型数据库;

       2)数据可以直接导入到HDFS;

缺点:1)sqoop单map导入数据不快,多map导入速度快,但是同时导出的表多时,关系型数据库需要抗压

       2)当生产系统的数据导出要给多个系统使用或者数据重采,每个系统都需要再次从源系统抽取数据,源系统压力较大

       3)对ORACLE的colb,blob等字段,导出速度慢

4)RDBMS-文件服务器-TDH平台

先使用相应的数据库导数工具导出成文本文件,然后把文本文件上传到TDH大数据平台

优点:1)使用数据库相对应的导数工具,数据导出速度快,put到hdfs数据也快 特别适合数据量大,导出表多的情况

        2)当有多个系统需要使用源系统导出的数据时,可以直接共享导出的文件

        3)可以制定统一的数据入库规范

缺点:1)需要文件采集服务器,增加服务器和存储成本

 

二、数据入库流程

3,4 两种是目前主要采用的数据入库方案,详细流程见下图

 

 

流程1

1)关系型数据库通过导数工具导出文件到采集服务器

2)采集服务把本地文件put到HDFS上

3)对PUT到hdfs上的文件建立inceptor text映射表

4) 此时可以通过sql的方式根据不同的需要把数据导入 TDH的不同类型的表里了

注:

inceptor是一个强大的分布式数据库引擎,各个不同类型表的数据可以通过inceptor使用SQL的方式互相导,简单方便快捷

 

流程2

1)直接通过sqoop 把RDBMS中的数据导出成hdfs文件

2)对PUT到hdfs上的文件建立inceptor text映射表

3) 此时可以通过sql的方式根据不同的需要把数据导入 TDH的不同类型的表里了

 

流程3

如果是文本文件

参照流程1从第二步开始导入即可

 

转载于:https://www.cnblogs.com/felix-xwz/p/6804868.html

你可能感兴趣的文章
面试时被问到的问题
查看>>
注解小结
查看>>
201421410014蒋佳奇
查看>>
Xcode5和ObjC新特性
查看>>
CSS属性值currentColor
查看>>
Real-Time Rendering 笔记
查看>>
多路复用
查看>>
利用SignalR来同步更新Winfrom
查看>>
反射机制
查看>>
CocoaPod
查看>>
BZOJ 1251: 序列终结者 [splay]
查看>>
【UVA】434-Matty's Blocks
查看>>
hadoop2.2.0+hive-0.10.0完全分布式安装方法
查看>>
使用Reporting Services时遇到的小问题
查看>>
约瑟夫问题
查看>>
Arduino 报错总结
查看>>
树莓派Android Things物联网开发:树莓派GPIO引脚图
查看>>
矩阵快速幂---BestCoder Round#8 1002
查看>>
Hadoop HBase概念学习系列之HBase里的宽表设计概念(表设计)(二十七)
查看>>
Day03:Selenium,BeautifulSoup4
查看>>