论文首页哲学论文经济论文法学论文教育论文文学论文历史论文理学论文工学论文医学论文管理论文艺术论文 |
将数据抽取到ODS中,开发人员就可以对ODS中的数据进行多次清洗和转换,即是在清洗和转化过程中发生错误,开发人员也不需要直接从数据源再次抽取,而只要使用ODS中的数据即可,为审计系统提供一定的容错能力。清洗和转换完毕后,将数据装载到审计系统数据集市中。
4. ETL 的功能设计
4.1 控制台
控制台中又包括了任务管理、元数据管理、异常处理和系统日志。任务管理实现了任务的初始化、任务调度、任务执行等功能。元数据管理则为开发人员提供了源数据(ODS 中)和数据集市映射关系的管理。
4.1.1 元数据管理目前,元数据存在多种不同的描述,Luo Agostas 说元数据是一种比喻,因为它抽象了看起来完全不同的事物。在数据仓库领域元数据被定义为:描述数据及其环境的数据。在本文里,笔者采用常用的一种描述,将本系统的元数据分为技术元数据和业务元数据。
所谓技术元数据主要是用来描述数据实体和数据处理过程中的技术细节和处理规则。比如数据源接口(数据库名、端口、数据库类型、用户名、密码等)、ETL 任务表(任务编号、任务名称、任务粒度、任务号、后序任务、状态等)、业务元数据则主要是对IT 系统的数据实体和数据处理的业务化描述,包括业务规则、业务术语、统计口径、信息分类等。如某商业商业银行审计系统中的企业基本信息(企业名称、客户类型、企业隶属、企业类型、行业类型、主营业务、经济类型等)、财务报表数据(报表月份、客户名称、报表种类、币种等)、小额担保贷款贴息统计(借据号、合同号、小额担保贷款类型、客户姓名、贷款金额、期限年、期限月、贷款发放日等)等。
考虑到保证系统的执行效率。元数据管理主要为数据集市的形成提供基础数据映射分析,并且在以后的维护中提供支持。
4.1.2 任务管理
在此基础上又引入了优先级、执行时间和任务号的概念。优先级是在任务创建的同时就会确定的,优先级有三等:重要,一般,不重要。执行时间就是执行任务的时间先后。任务号是若干任务执行先后顺序的依据。
在描述功能前,我们有必要先描述任务的生命周期。在本审计系统中,任务有五种状态:
新建,就绪,执行,成功,失败。状态之间的转换。
新建状态:创建一个任务即添加一个新的 ETL 任务,任务的信息包括目标子任务信息和任务的创建信息(包括创建者和创建时间等等)。
就绪状态:任务在被调度后,初始化其状态为就绪,等待执行。
执行状态:任务占用系统资源,同一时刻,处于“执行”状态的只有一个任务,另外的任务处于“就绪”状态。
成功状态:任务执行完毕,并且执行过程中没有发生异常,或者发生异常后又重新执行完毕。
失败状态:任务执行过程中发生异常,非正常结束。
任务状态之间的转换主要包括以下几种:
创建新任务:创建一个新的任务,即确定一个检测计划,初始化任务的数据源和元数据等信息。