本文共 1426 字,大约阅读时间需要 4 分钟。
kettle版本5.4
(由于虚拟机内存有限,尽量使用低版本的)设计mapper的转换
设计reducer转换
设计Job作业
配置mapper转换
上图所示中的 "Input"指的是左边菜单栏中Big Data菜单下的MapReduce Input 组件,双击进行编辑:
上图所示中的"拆分字段" 指的是左边菜单栏中“转换”菜单下的“拆分字段”组件,双击进行编辑:注意: 其中的"字段名称":可以任意取名的,按照如图进行配置
上图所示中的"利用Janino计算Java表达式" 指的是左边菜单栏中"脚本"菜单下的“利用Janino计算Java表达式” 组件,双击进行编辑:
配置“利用Janino计算Java表达式",如下所示:
上图所示中的
配置reducer转换
根据设计图,图中的 "Input"指的是左边菜单栏中Big Data菜单下的MapReduce Input 组件,双击进行编辑:
上图所示中的"在内存进行分组" 指的是左边菜单栏中"统计"菜单下的“在内存进行分组” 组件,双击进行编辑:
上图所示中的"ouput" 指的是左边菜单栏中Big Data菜单下的MapReduce Output 组件,双击进行编辑:
配置Job作业
【A】配置Hadoop Cluster:
特别注意: 如下配置,如果在Windows上(C:\Windows\System32\drivers\etc\hosts)配置了虚拟机主机名称和虚拟机的IP映射关系,则如下配置写IP地址或者主机名称都可以【B】配置Mapper,把之前新建的mapper的转换放进来
【C】配置reducer,把之前新建的reducer的转换放进来
【D】配置Job Setup
【E】配置Cluster,选择自己新建的Hadoop Cluster即可
在kettle控制台查看结果:
在Hadoop上查看结果,即查看Yarn容器上是否接收到该任务:
等待执行结束!成功后的查看结果: 如成功,则可以查看下HDFS上的结果:
执行: hdfs dfs -cat /user/root/mr/emp/part-00000 如不成功,请查看报错日志,解决错误后,请在继续上述步骤 我的成功了,可以喝杯咖啡去咯祝大家好运!!!!!转载地址:http://rkpti.baihongyu.com/