国内最全IT社区平台 联系我们 | 收藏本站
华晨云阿里云优惠2
您当前位置:首页 > 数据库 > 数据库应用 > 数据清洗小记(11):Kettle_利用设置变量实现数据增量(小例)

数据清洗小记(11):Kettle_利用设置变量实现数据增量(小例)

来源:程序员人生   发布时间:2016-04-12 10:25:00 阅读次数:6582次

【背景】
利用kettle工具,完成某表的增量工作。
【解决】
利用模块完成便可,以下简图:
这里写图片描述
【实验】
先手工准备1个实验环境:
准备基本完成以下效果:
select t.*, t.rowid from EMP_ETL t
这里写图片描述
select max(hiredate) maxsj from EMP_ETL
这里写图片描述
我们验证将2015年10月22日的数据插入目标表中。
创建目标表:
create table EMP_ETL_1 as select * from EMP_ETL t where 1=2;
此时EMP_ETL_1数据为空,我们只插入hiredate 为2015/10/22的数据。
可以看到有两条数据符合这个条件,以下图所示:
这里写图片描述
编写时间戳ktr转换进程,把原表中最大的hiredate作为变量,以下图:
这里写图片描述
下面在“表输入”环节中,使用传递过来的${MAXSJ}作为条件,完成向目标表插入数据,扼要流程以下:
这里写图片描述
履行转换,完成数据插入,简图以下:
这里写图片描述
补充:这只是1个简单的举例,对使用时间戳的方式来完成增量时,这个实验中的方法如果每次都是全表max,当数据量特别大时,效力将大打折扣。而此时,我们就需要添加1个时间戳记录表,另添加1个时间戳字段,每次抽取结束后,将每次抽取后最晚1条记录的时间戳时间记录到时间戳表中,然后每次查询出发点时间时只需要从时间戳表中提取便可。

小知识,简而记之。

蓝的成长记系列_20151022

原创作品,出自 “深蓝的blog” 博客,欢迎转载,转载时请务必注明出处(http://blog.csdn.net/huangyanlong)。

蓝的成长记――追逐DBA(1):奔走于路上,挺进山东

蓝的成长记――追逐DBA(2):安装!安装!久背的记忆,引发我对DBA的重新认知

蓝的成长记――追逐DBA(3):古董上操作,数据导入导出成了问题

蓝的成长记――追逐DBA(4):追思少年情愁,再探oracle安装

蓝的成长记――追逐DBA(5):不谈技术谈业务,恼人的利用系统

蓝的成长记――追逐DBA(6):做事与做人:小技术,大为人

蓝的成长记――追逐DBA(7):基础命令,地基之石

蓝的成长记――追逐DBA(8):重拾SP报告,回想oracle的STATSPACK实验

蓝的成长记――追逐DBA(9):国庆渐去,追逐DBA,新计划,新出发

蓝的成长记――追逐DBA(10):飞刀防身,熟络而非专长:玩弄中间件Websphere

蓝的成长记――追逐DBA(11):回家后的安逸,晕晕乎乎醒了过来

蓝的成长记――追逐DBA(12):7天7收获的SQL

蓝的成长记――追逐DBA(13):调和硬件厂商,6个故事:所见所感的“服务器、存储、交换机……”

蓝的成长记――追逐DBA(14):难忘的“云”端,起步的hadoop部署

蓝的成长记――追逐DBA(15):以为FTP很“简单”,谁成想1波3折

蓝的成长记――追逐DBA(16):DBA也饮酒,被捭阖了

蓝的成长记――追逐DBA(17):是分享,还是消费,在后IOE时期学会成长

蓝的成长记――追逐DBA(18):小机上WAS集群故障,由1次更换IP引发

蓝的成长记――追逐DBA(19):路上的插曲:触碰“框架”与“软件系统”

蓝的成长记――追逐DBA(20):何故缘起,建库护航

版权声明:本文为博主原创文章,未经博主允许不得转载。

生活不易,码农辛苦
如果您觉得本网站对您的学习有所帮助,可以手机扫描二维码进行捐赠
程序员人生
------分隔线----------------------------
分享到:
------分隔线----------------------------
关闭
程序员人生