Informatica组件应用详解

发布时间:2018-09-17 11:01:30   来源:文档文库   
字号:

Informatica组件介绍

update的功能

Update 主要是与lookup相组合的搭档。根据lookup来与源表数据相对比,来跟新数据数据抽取。它起到一个插入和拒绝的作用。

1. Powercenter的更新策略包括两个方面:

A. Mapping中:用Update Strategy Transformation标识行为InsertUpdateDelete或者Reject

B. Session中:配置Treat source row as 属性(InsertUpdateDelete或者Data driven),配置Target的属性(InsertUpdate [as Update](只是更新) | [as Insert](把更新视为新增) | [else Insert](先更新,更新不到则新增) DeleteTruncate target table option);

2. Update Strategy Expression中可以输入常量(DD_INSERT DD_UPDATE DD_DELETE DD_REJECT)或者数字值 0123),其它数字值被解析为0,可以用IIF或者DECODE函数构建逻辑表达式来区别每一行的更新策略;

3. Forward Rejected Rows:勾选时被Rejected的行会存入对应Target配置的Reject文件中去,不选时,可能会写入Session Log中去,根椐当前TransformationTracing Level的属性来决定;如果在会话属性中配置了出错行日志属性,则不会生成Reject文件;

Expression 的功能

表达式编辑器可以使用不同的颜色来标记表达式的语法,以便很好的阅读。如果你有最新的Rich Editriched20.dll,安装到了系统,表达式显示表达式函数为兰色,注释式灰色,引用的字符串式绿色。

你可以调整编辑器的大小。用拖拽边的方法来扩大对话框。Designer保存这个新的大小像客户机设置一样。

1. 用来执行单行计算,在计算表达式中,可以使用输入端口,输入/输出端口,可以使用函数以及非连接的Lookup,也可以使用变量端口;

2. 数据来源只能一个

Filter 的功能

功能:根据条件过滤到不符合条件的行。

你可以使用SALARY > 30000来过滤掉SALARY小于等于3000的行。

过滤条件:过滤条件就是可以返回真或假的表达式。可以是一表达式,也可以是几个表达式,但表达式之间是与关系。如果你在条件中输入的是SALARY > 30000 SALARY < 100000,他们就等于SALARY > 30000 AND SALARY < 100000

1. Filter用来过滤数据,被过滤掉的数据不会写入Session Log,也不会写入Reject File

2. Filter尽可能地靠近Source可以提升性能;

3. Filter只能接受来自单个Transformation的数据流;

4. Filter只有一种输入/输出端口,默认值无效;

5. 只有Filter Condition评估为真(或者非零数值)的记录才能通过;

6. 如果有可能,用Source Qualifier代替Filter可以取得更好的性能。

Aggregator 的功能

聚合转换可用于聚合统计,如求和、取平均值、返回特定行等等。可以使用聚合转换对多组执行计算,而表达式转换只允许逐行进行转换。

聚合转换组件:聚合表达式、分组依据端口、排序输入、聚合高速缓存

1. Aggregator可用于聚合统计,和SQL语句不同的是,可以针对不同的计算指定不同的条件,并可输出非Group By的栏位;

2. 用于Group By的端口可以是输入的, 输入输出的,输出的或者变量端口,用到的输出及变量端口中不能含有统计函数;

3. 统计端口可以包含统计函数(共有15个),可以进行两层嵌套,但要求所有的统计端口都进行嵌套;

4. 对于那些即非Group By又非统计的端口,返回最后一次收到的那一行;

5. Sorted Input属性表示输入的数据已经按Group By端口的要求排好了顺,这样能提高性能,输入部分数据就能有部分结果,源和目标的组件能同时工作,在没有选这个属性的情况下,需要等到所有数据输入完成才能开始有统计结果;注意:当选择Sorted Input属性,但是输入数据未排序时。Sessionfailed。当aggregate expression包含嵌套aggregate functions或者采用incremental aggregation或者Treat source rows asdata driven时,不能用Sorted Input属性。

6. 在上面属性未选的情况下,需要用到索引CACHE和数据CACHE

lookup 的功能

获得一个关联的值。例如:源里包含employee ID,但你还需要employee name

用于计算的植。例如:只是汇率或者个人所得税之类的固定数值,不是计算得出来的数据。

Update slowly changing dimension tables。主要是根据条件查出原表,若查出了,就把自己添加的标志位设为真,否则就设置为假。

1. Lookup根椐输入值从数据库或者平面文件中查找数据;

2. Lookup分为连接型和非连接型的:

A. 连接型的可以传送多个返回值给其它的Transformation,非连接型的只能有一个返回端口,在表达式中用Lookup函数(:LKP())来调用;

B. 连接型的可以利用到默认值,当没有匹配记录时,非连接型的总是返回空;

3. Lookup可以配置成使用CACHE,对平面文件这项必选,Informatica Server在条件栏位上建立索引CACHE,在其它栏位上建立数据CACHE,如果分配的CACHE空间不够就存放在CACHE文件中;

4. CACHE文件可以是临时的,也可以是固定化的;

5. Lookup配置成动态时,对应的表是Target,如果输入行连接栏位在CACHE中没有找到匹配记录,就在CACHE中插入一行,如果找到了就更新CACHE或者不更新CACHE,取决于比较栏位是否匹配,给标志栏位NewLookupRow赋值0Unchange),1Insert),2Update);

6. Lookup的端口除了IO之外,还有LR

7. 多匹配行处理策略:返回第一行,返回最一行,报错;

8. 在数据库Lookup使用CACHE的前提下可以使用Override SQL,下面情形下适于使用Override SQL

A. 增加一个Where子句;

B. 指定不同于默认SQLOrder By子句,在带有Order By子句的Override SQL后加上--,目的是屏蔽掉系统自动产生的Order By子句;

(PowerCenter 服务器是默认是按lookup的栏位来Order By,如果你在Override里面想要覆盖它的Order By方式,一定必须在结尾输入’--‘注释符来覆盖,否则lookup会失败,而且在新的Order by 里面要有LookUp Condition包含的栏位,而且顺序需要一致)

C. Lookup表名或者栏位中包含保留字或者栏位名中含/时,用引号将保留字引起来;

(如果look up栏位里面包含了db的保留字,那么需要在pm目录下建立一个含有那些保留字的reswords.txt的文件,pm会在保留字周围放置一些引用,来解决和服务器冲突的问题.)

D. 需要在Lookup查询中使用参数或者变量时;

E. 其它情况,比如从一个连接中返回结果或者要对返回作函数处理后的结果作为CACHE

9. 关于Lookup的条件匹配:

A. 条件两边的端口必须匹配;

B. 输入端口允许在条件中出现多次;

C. 多个条件间的关系是AND

D. 相等条件可以匹配空值(NULL=NULL)

E. 如果条件中有等于和不等于,将所有等于放在前面;

10. 如果允许,可以在Lookup表的连接条件栏位上建立索引,以改进性能;

11. LookUp一定要有输入port,SQL Overrid不能覆盖condition的作用

12. Dynamic LookUp一般用于查找目标表是否已经有Source传过来的记录,然后根据更新标志(flag)做处理.也就是把目标表的所有数据先用文件作为缓存存放起来,然后Source传过来的记录与缓存文件的数据比较并且由属性(insert else update,update else insert)决定是否更新缓存文件.

13. 理解Associated Port的意义;

关联端口,Dynamic Look Up Cache,PM如何把in port的资料和cache里面的资料来对比和关联,然后产生新的cacheNewLookUpRow

就是需要用Associated Port来关联in port端口的资料或者Sequrence了。Condition 相关的Fields端口会被自动关联.只有有连线出去的port的比较才有意义.也就是说如果没有连线出去,两个值尽管不相等,NewLookUpRow还是为0.而且Null=Null

14. Ignore in Comparison

可以不去比较的栏位(但是至少要有一个,要不Look Up会失败),如果适当使用可以提高性能。

忽略比较,当这个值之外所有比较值都相同则不更新Cache,,NewLookUpRow=0

当其它比较值还有不相同时则更新Cache. NewLookUpRow=,1 or 2

15. Output Old Value On Update:当更新的时候不会更新新值到Cache,全部以Cache里面的值输出,

16. 更多LKP属性可见

Sequence的功能

1. Sequence用来产生序列号用以作为主键栏位,可以重用;

2. 只有两个输出端口:NextvalCurrval

3. 通过配置Start ValueEnd ValueCurrent Value Cycle属性,可以让产生的Nextval在一个指定的范围内循环;

4. 可以将Nextval端口连到多个Target上,这时是阻塞式的产生序列号的,可以保证多个Target得到不同的序列号,如果想要得到相同的序列号,可以将Nextval端口连到Target之前的一个共有的Transformation上;

5. 如果只连出Currval,得到的是一个常量,并且一次阻塞只能获得一个值,所以为性能考量,一般都不连出这个端口,如果Nextval同时有连出,这时Currval = Nextval + Increment By

6. 在没有配置Cycle属性时,如果序列号达到了End Value,会话会失败;

7. 不重用的SequenceReset属性,启用以后,在每个会话结束时会将Current Value置为会话开始时的值,这个值是它产生的第一个值;

8. Sequence配置成重用时,应该给Number of Cached Values 一个大于零的缓存值,这个值是主要为保证不出现重复数据而设置的.比如当设置为100,那么一个线程在从1开始在跑,则另外一个线程会从101开始.每次跑完都要补足100整数.

Joiner 的功能

你可以使用本组件连接两个不同源的关系表或者file系统。当然你也可以连接来自同一个源的数据(一般使用Source Qualifier Transformation,在下面会介绍使用本组件连接来自同一个源的数据的情况)。本组件一次只能连接两个源,如果有多个源就使用多个该种组件,直到你把所有你想连接的源都连接了为止。影响连接结果的有,连接的条件,连接的类型和输入的源。

1. Joiner可以用来连接两个相关的不同来源的数据集;

2. 至少需要指定一个匹配端口;

3. 对两个来源有如下限制:

A. 两个数据源要求是来自两个Pipeline或者一个Pipeline的两个分支;

B. 任何一个Pipeline中都不能含有Update Stragegy

C. Sequence不能直接连到Joiner

4. Joiner的主要属性如下:

A. 比较时大小写敏感;

B. 缓存目录,数据缓存的大小,索引缓存的大小;

C. 连接类型(NormalMaster OuterDetail OuterFull Outer);

D. 输入已排序:输入数据已按连接端口的顺序排好序,这可以减少磁盘输入及输出,提高了Joiner的性能;

5. 指定非重复值少的表作为Master表可以提升性能,默认情况下,第一个加入的数据源是Detail

6. 只支持相等连接,当使用多个连接端口时,连接的顺序对性能有影响;

7. 连接端口如果含有NULL值,连接不会成功;

8. Joiner一次只能连接两个数据源,如果有多个数据源要进行连接,使用多个Joiner

9. Joiner可以连接来自同一个Source的数据流(自连),有两个方法:如果Joiner选择了Sorted Input属性,可以用一个Source Instance来实现,否则就需要Source的两个Instance

10. JoinerIndex Cache(连接端口) 以及Data Cache(其它端口)是针对Master表建立的;

11. 在不同的配置条件下,Joiner有不同的阻塞策略,这样可以用更少的Cache,对性能有不同的影响;

12. 在有可能的情况下,尽可能在数据库完成连接处理;

Rank 的功能

1. Rank可以用来返回根椐某个端口排序的最大或者最小的N条记录,并且可以指定分组;可以用于得到去除的重复资料(比如5条相同数据,只取了一条,那么另外四条可以由这个加上Sqerence组合得到其它四条.).

2. Rank中可以使用分组,但并不能使用分组函数,可以指定多个分组端口,但用于排序的Rank端口不可用于分组;

3. Rank端口有五种属性:I(输入),O(输出),V(变量),R(排序),G(分组),至少需要有一个输入端口和一个输出端口,排序端口有且只有一个,而且必须输出,排序端口和变量端口不能用于分组;

4. 输入端口的数据只能来自一个Transformation

5. 有一个默认的Rankindex端口,表示输出行在排序中的位置;

6. 如果是字符排序,可以选择大小敏感或者大小写不敏感;

7. Top X 中的X数量表示前几条数据(Rankindex的值就是顺序),当Rankindex一样时,取其中部分,比如Top1,有两条记录的Rankindex1,则取其中一条.其受cache限制,可按需调整cache.

Sorter 的功能

你可以使用该组件对数据进行排序。

1. Sorter用来排序数据,可以指定多个排序端口,每个端口可以指定升降序,字符串比较时可以忽略大小写,还可以用Distinct选项来消除重复(所有端口,包括没有指定排序的端口)

2. 排序时会用到输入数据两倍大小或者更大的空间,默认的排序Cache8M,可选的排序Cache范围是1M4G,排序Cache不够时,服务器会将数据临时存储在排序目录,如果指定的排序Cache无法满足,会话会失败,可以用文档中提到公式计算Cache

3. 当配置使用 Distinct属性时,所有的端口都会用于排序;

4. 默认情况下,NULL大于任何值,可以配置NULL值小于任何值;

Union 的功能

功能:把不同种类或者同种类的源合并到一起。相当于SQL语句的UNION ALL语句。不会去除重复的行

1. Union可以将多个数据流合并成一个数据流,功能类似于SQL中的UNION ALL

2. Union可以有多个输入组,只有一个输出组,输入组和输出组有一一对应的端口;

3. Ports 页不可编辑,只能编辑Groups Group Tabs页;

十一Look update 的应用

十二本期同期值 的应用

十三、Union 的应用

Aggregator 的应用

Joiner 的应用

本文来源:https://www.2haoxitong.net/k/doc/16865258492fb4daa58da0116c175f0e7dd11909.html

《Informatica组件应用详解.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式