Kettle之批量读取excel文件内容实现批量下载功能
先上整个的流程图。
大致的思想是这样的
步骤一
start开启一个job。
步骤二
excel内容如下: 读取excel中的url链接中的业务如下: 其实就是读取Excel文件中的链接,然后将记录复制到结果中,供下一个步骤流程使用。
步骤三
其中的代码:
// //获取前一个步骤的所有结果集数据 var prevRow=previous_result.getRows(); //如果结果集数据为null或者没有数据,直接返回false if(prevRow == null &&(preRow.size()==0)){ false; }else{ //将所有结果集数据存进sourceUrl变量 parent_job.setVariable("sourceUrls",prevRow); //将元素个数设置给size变量 parent_job.setVariable("size",prevRow.size()); //设置一个循环起始变量 parent_job.setVariable("i",0); //获取第一个元素 parent_job.setVariable("path",prevRow.get(0)); true; }
将获取到的内容设置成变量保存起来,i和size用于后面做循环的判断条件,path表示当前使用的元素,sourceUrs表示所有的元素集合。
步骤四
这一步实现了循环以及下载。 使用JavaScript脚本验证i的值,这个控件内容如下:
var size=new Number(parent_job.getVariable("size")); var i=new Number(parent_job.getVariable("i")); if(i>=size){ false; }else{ //因为上一步添加进去的时候,是作为一个像数组元素一样的对象添加进去,变量都会转成字符串,所以直接移除掉就可以了 var path=parent_job.getVariable("path").replace("[","").replace("]",""); parent_job.setVariable("path",path); true; }
这个控件主要是判断i和size值,判断是否要继续循环下去。
名称为作业的这个job,里面业务如下: 在HTTP控件中读取变量path,然后保存成文件,这里主要是演示就直接将将响应数据保存成了html文件。 如下: 名称为js递增i的值,并且获取下一行的值设置成变量控件的内容如下:
//变量i自加 var i = new Number(parent_job.getVariable("i"))+1; //在把i设置回去 parent_job.setVariable("i",i); //更新path的值 var arr=parent_job.getVariable("sourceUrls").replace("[","").replace("]","").split(","); //更新path的值 parent_job.setVariable("path",arr[i]); true;
这个控件的内容主要是更新变量i和path,达到循环的效果。
步骤五
所有流程走完,执行结束。
执行完之后就可以看到在先前指定的文件夹中有以下文件了。 如图:
上一篇:
JS实现多线程数据分片下载
下一篇:
【Pytorch】神经网络的基本骨架