文档文库

手机版

投诉建议

首页 > Informatica组件应用详解

Informatica组件应用详解

发布时间：2018-09-17 11:01:30 来源：文档文库

小中大

字号：

手机查看

Informatica组件介绍

一、update的功能

Update 主要是与lookup相组合的搭档。根据lookup来与源表数据相对比，来跟新数据数据抽取。它起到一个插入和拒绝的作用。

1. Powercenter的更新策略包括两个方面：

A. 在Mapping中：用Update Strategy Transformation标识行为Insert，Update，Delete或者Reject；

B. 在Session中：配置Treat source row as 属性（Insert，Update，Delete或者Data driven），配置Target的属性（Insert，Update [as Update](只是更新) | [as Insert](把更新视为新增) | [else Insert](先更新,更新不到则新增) ，Delete，Truncate target table option）；

2. 在Update Strategy Expression中可以输入常量（DD_INSERT， DD_UPDATE， DD_DELETE， DD_REJECT）或者数字值（0，1，2，3），其它数字值被解析为0，可以用IIF或者DECODE函数构建逻辑表达式来区别每一行的更新策略；

3. Forward Rejected Rows：勾选时被Rejected的行会存入对应Target配置的Reject文件中去，不选时，可能会写入Session Log中去，根椐当前Transformation的Tracing Level的属性来决定；如果在会话属性中配置了出错行日志属性，则不会生成Reject文件；

二、Expression 的功能

表达式编辑器可以使用不同的颜色来标记表达式的语法，以便很好的阅读。如果你有最新的Rich Edit，riched20.dll，安装到了系统，表达式显示表达式函数为兰色，注释式灰色，引用的字符串式绿色。

你可以调整编辑器的大小。用拖拽边的方法来扩大对话框。Designer保存这个新的大小像客户机设置一样。

1. 用来执行单行计算，在计算表达式中，可以使用输入端口，输入/输出端口，可以使用函数以及非连接的Lookup，也可以使用变量端口；

2. 数据来源只能一个

三、Filter 的功能

功能：根据条件过滤到不符合条件的行。

你可以使用SALARY > 30000来过滤掉SALARY小于等于3000的行。

过滤条件：过滤条件就是可以返回真或假的表达式。可以是一表达式，也可以是几个表达式，但表达式之间是与关系。如果你在条件中输入的是SALARY > 30000 和 SALARY < 100000，他们就等于SALARY > 30000 AND SALARY < 100000。

1. Filter用来过滤数据，被过滤掉的数据不会写入Session Log，也不会写入Reject File；

2. 将Filter尽可能地靠近Source可以提升性能；

3. Filter只能接受来自单个Transformation的数据流；

4. Filter只有一种输入/输出端口，默认值无效；

5. 只有Filter Condition评估为真（或者非零数值）的记录才能通过；

6. 如果有可能，用Source Qualifier代替Filter可以取得更好的性能。

四、Aggregator 的功能

聚合转换：可用于聚合统计，如求和、取平均值、返回特定行等等。可以使用聚合转换对多组执行计算，而表达式转换只允许逐行进行转换。

聚合转换组件：聚合表达式、分组依据端口、排序输入、聚合高速缓存

1. Aggregator可用于聚合统计，和SQL语句不同的是，可以针对不同的计算指定不同的条件，并可输出非Group By的栏位；

2. 用于Group By的端口可以是输入的，输入输出的，输出的或者变量端口，用到的输出及变量端口中不能含有统计函数；

3. 统计端口可以包含统计函数（共有15个），可以进行两层嵌套，但要求所有的统计端口都进行嵌套；

4. 对于那些即非Group By又非统计的端口，返回最后一次收到的那一行；

5. Sorted Input属性表示输入的数据已经按Group By端口的要求排好了顺，这样能提高性能，输入部分数据就能有部分结果，源和目标的组件能同时工作，在没有选这个属性的情况下，需要等到所有数据输入完成才能开始有统计结果；注意：当选择Sorted Input属性，但是输入数据未排序时。Session将failed。当aggregate expression包含嵌套aggregate functions或者采用incremental aggregation或者Treat source rows as是data driven时，不能用Sorted Input属性。

6. 在上面属性未选的情况下，需要用到索引CACHE和数据CACHE

五、lookup 的功能

获得一个关联的值。例如：源里包含employee ID，但你还需要employee name。

用于计算的植。例如：只是汇率或者个人所得税之类的固定数值，不是计算得出来的数据。

Update slowly changing dimension tables。主要是根据条件查出原表，若查出了，就把自己添加的标志位设为真，否则就设置为假。

1. Lookup根椐输入值从数据库或者平面文件中查找数据；

2. Lookup分为连接型和非连接型的：

A. 连接型的可以传送多个返回值给其它的Transformation，非连接型的只能有一个返回端口，在表达式中用Lookup函数（:LKP()）来调用；

B. 连接型的可以利用到默认值，当没有匹配记录时，非连接型的总是返回空；

3. Lookup可以配置成使用CACHE，对平面文件这项必选，Informatica Server在条件栏位上建立索引CACHE，在其它栏位上建立数据CACHE，如果分配的CACHE空间不够就存放在CACHE文件中；

4. CACHE文件可以是临时的，也可以是固定化的；

5. 当Lookup配置成动态时，对应的表是Target，如果输入行连接栏位在CACHE中没有找到匹配记录，就在CACHE中插入一行，如果找到了就更新CACHE或者不更新CACHE，取决于比较栏位是否匹配，给标志栏位NewLookupRow赋值0（Unchange），1（Insert），2（Update）；

6. Lookup的端口除了I，O之外，还有L和R；

7. 多匹配行处理策略：返回第一行，返回最一行，报错；

8. 在数据库Lookup使用CACHE的前提下可以使用Override SQL，下面情形下适于使用Override SQL：

A. 增加一个Where子句；

B. 指定不同于默认SQL的Order By子句，在带有Order By子句的Override SQL后加上--,目的是屏蔽掉系统自动产生的Order By子句；

(PowerCenter 服务器是默认是按lookup的栏位来Order By的,如果你在Override里面想要覆盖它的Order By方式，一定必须在结尾输入’--‘注释符来覆盖,否则lookup会失败,而且在新的Order by 里面要有LookUp Condition包含的栏位，而且顺序需要一致)

C. Lookup表名或者栏位中包含保留字或者栏位名中含/时，用引号将保留字引起来；

(如果look up栏位里面包含了db的保留字，那么需要在pm目录下建立一个含有那些保留字的reswords.txt的文件，pm会在保留字周围放置一些引用，来解决和服务器冲突的问题.)

D. 需要在Lookup查询中使用参数或者变量时；

E. 其它情况，比如从一个连接中返回结果或者要对返回作函数处理后的结果作为CACHE；

9. 关于Lookup的条件匹配：

A. 条件两边的端口必须匹配；

B. 输入端口允许在条件中出现多次；

C. 多个条件间的关系是AND；

D. 相等条件可以匹配空值(NULL=NULL)；

E. 如果条件中有等于和不等于，将所有等于放在前面；

10. 如果允许，可以在Lookup表的连接条件栏位上建立索引，以改进性能；

11. LookUp一定要有输入port,SQL Overrid不能覆盖condition的作用

12. Dynamic LookUp一般用于查找目标表是否已经有Source传过来的记录,然后根据更新标志(flag)做处理.也就是把目标表的所有数据先用文件作为缓存存放起来,然后Source传过来的记录与缓存文件的数据比较并且由属性(insert else update,update else insert)决定是否更新缓存文件.

13. 理解Associated Port的意义；

关联端口,当Dynamic Look Up Cache时,PM如何把in port的资料和cache里面的资料来对比和关联，然后产生新的cache和NewLookUpRow

就是需要用Associated Port来关联in port端口的资料或者Sequrence了。Condition 相关的Fields端口会被自动关联.只有有连线出去的port的比较才有意义.也就是说如果没有连线出去，两个值尽管不相等，NewLookUpRow还是为0.而且Null=Null

14. Ignore in Comparison

可以不去比较的栏位(但是至少要有一个,要不Look Up会失败),如果适当使用可以提高性能。

忽略比较,当这个值之外所有比较值都相同则不更新Cache,,NewLookUpRow=0

当其它比较值还有不相同时则更新Cache. NewLookUpRow=,1 or 2

15. Output Old Value On Update:当更新的时候不会更新新值到Cache,全部以Cache里面的值输出,

16. 更多LKP属性可见

六、Sequence的功能

1. Sequence用来产生序列号用以作为主键栏位，可以重用；

2. 只有两个输出端口：Nextval和Currval；

3. 通过配置Start Value，End Value，Current Value 和 Cycle属性，可以让产生的Nextval在一个指定的范围内循环；

4. 可以将Nextval端口连到多个Target上，这时是阻塞式的产生序列号的，可以保证多个Target得到不同的序列号，如果想要得到相同的序列号，可以将Nextval端口连到Target之前的一个共有的Transformation上；

5. 如果只连出Currval，得到的是一个常量，并且一次阻塞只能获得一个值，所以为性能考量，一般都不连出这个端口，如果Nextval同时有连出，这时Currval = Nextval + Increment By；

6. 在没有配置Cycle属性时，如果序列号达到了End Value，会话会失败；

7. 不重用的Sequence有Reset属性，启用以后，在每个会话结束时会将Current Value置为会话开始时的值，这个值是它产生的第一个值；

8. 当Sequence配置成重用时，应该给Number of Cached Values 一个大于零的缓存值，这个值是主要为保证不出现重复数据而设置的.比如当设置为100,那么一个线程在从1开始在跑,则另外一个线程会从101开始.每次跑完都要补足100整数.

七、Joiner 的功能

你可以使用本组件连接两个不同源的关系表或者file系统。当然你也可以连接来自同一个源的数据（一般使用Source Qualifier Transformation，在下面会介绍使用本组件连接来自同一个源的数据的情况）。本组件一次只能连接两个源，如果有多个源就使用多个该种组件，直到你把所有你想连接的源都连接了为止。影响连接结果的有，连接的条件，连接的类型和输入的源。

1. Joiner可以用来连接两个相关的不同来源的数据集；

2. 至少需要指定一个匹配端口；

3. 对两个来源有如下限制：

A. 两个数据源要求是来自两个Pipeline或者一个Pipeline的两个分支；

B. 任何一个Pipeline中都不能含有Update Stragegy；

C. Sequence不能直接连到Joiner；

4. Joiner的主要属性如下：

A. 比较时大小写敏感；

B. 缓存目录，数据缓存的大小，索引缓存的大小；

C. 连接类型（Normal，Master Outer，Detail Outer，Full Outer）；

D. 输入已排序：输入数据已按连接端口的顺序排好序，这可以减少磁盘输入及输出，提高了Joiner的性能；

5. 指定非重复值少的表作为Master表可以提升性能，默认情况下，第一个加入的数据源是Detail；

6. 只支持相等连接，当使用多个连接端口时，连接的顺序对性能有影响；

7. 连接端口如果含有NULL值，连接不会成功；

8. Joiner一次只能连接两个数据源，如果有多个数据源要进行连接，使用多个Joiner；

9. Joiner可以连接来自同一个Source的数据流（自连），有两个方法：如果Joiner选择了Sorted Input属性，可以用一个Source Instance来实现，否则就需要Source的两个Instance；

10. Joiner的Index Cache（连接端口）以及Data Cache（其它端口）是针对Master表建立的；

11. 在不同的配置条件下，Joiner有不同的阻塞策略，这样可以用更少的Cache，对性能有不同的影响；

12. 在有可能的情况下，尽可能在数据库完成连接处理；

八、Rank 的功能

1. Rank可以用来返回根椐某个端口排序的最大或者最小的N条记录，并且可以指定分组；可以用于得到去除的重复资料(比如5条相同数据，只取了一条，那么另外四条可以由这个加上Sqerence组合得到其它四条.).

2. Rank中可以使用分组，但并不能使用分组函数，可以指定多个分组端口，但用于排序的Rank端口不可用于分组；

3. Rank端口有五种属性：I（输入），O（输出），V（变量），R（排序），G（分组），至少需要有一个输入端口和一个输出端口，排序端口有且只有一个，而且必须输出，排序端口和变量端口不能用于分组；

4. 输入端口的数据只能来自一个Transformation；

5. 有一个默认的Rankindex端口，表示输出行在排序中的位置；

6. 如果是字符排序，可以选择大小敏感或者大小写不敏感；

7. Top X 中的X数量表示前几条数据(Rankindex的值就是顺序)，当Rankindex一样时,取其中部分,比如Top1,有两条记录的Rankindex为1，则取其中一条.其受cache限制，可按需调整cache.

九、Sorter 的功能

你可以使用该组件对数据进行排序。

1. Sorter用来排序数据，可以指定多个排序端口，每个端口可以指定升降序，字符串比较时可以忽略大小写，还可以用Distinct选项来消除重复(所有端口,包括没有指定排序的端口)；

2. 排序时会用到输入数据两倍大小或者更大的空间，默认的排序Cache是8M，可选的排序Cache范围是1M到4G，排序Cache不够时，服务器会将数据临时存储在排序目录，如果指定的排序Cache无法满足，会话会失败，可以用文档中提到公式计算Cache；

3. 当配置使用 Distinct属性时，所有的端口都会用于排序；

4. 默认情况下，NULL大于任何值，可以配置NULL值小于任何值；

十、Union 的功能

功能：把不同种类或者同种类的源合并到一起。相当于SQL语句的UNION ALL语句。不会去除重复的行

1. Union可以将多个数据流合并成一个数据流，功能类似于SQL中的UNION ALL；

2. Union可以有多个输入组，只有一个输出组，输入组和输出组有一一对应的端口；

3. Ports 页不可编辑，只能编辑Groups 和 Group Tabs页；

十一、Look update 的应用

十二、本期同期值的应用

十三、Union 的应用

十四、Aggregator 的应用

十五、Joiner 的应用

本文来源：https://www.2haoxitong.net/k/doc/16865258492fb4daa58da0116c175f0e7dd11909.html

《Informatica组件应用详解.doc》

将本文的Word文档下载到电脑，方便收藏和打印

推荐度：

点击下载文档

文档为doc格式

相

关

案

例

Informatica组件应用详解

一、update的功能

二、Expression 的功能

三、Filter 的功能

四、Aggregator 的功能

五、lookup 的功能

六、Sequence的功能

七、Joiner 的功能

八、Rank 的功能

九、Sorter 的功能

十、Union 的功能

十一、Look update 的应用

十二、本期同期值的应用

十三、Union 的应用

十四、Aggregator 的应用

十五、Joiner 的应用

相关推荐

推荐内容

Informatica组件应用详解

一、update的功能

二、Expression 的功能

三、Filter 的功能

四、Aggregator 的功能

五、lookup 的功能

六、Sequence的功能

七、Joiner 的功能

八、Rank 的功能

九、Sorter 的功能

十、Union 的功能

十一、Look update 的应用

十二、本期同期值 的应用

十三、Union 的应用

十四、Aggregator 的应用

十五、Joiner 的应用

相关推荐

推荐内容

十二、本期同期值的应用