审计数据转换系统的设计与研究(2)
2017-01-31 01:02
导读:3.1 数据的正当性检查 审计中间表中的数据来自于被审计单位的多种数据源,这些数据源可能是在不同的硬件平台上,使用不同的操纵系统,因而数据往往
3.1 数据的正当性检查 审计中间表中的数据来自于被审计单位的多种数据源,这些数据源可能是在不同的硬件平台上,使用不同的操纵系统,因而数据往往以不同的格式存在不同的数据库中。所以,在审计数据转换的过程中,有时需要对被审计单位的数据进行正当性检查,将那些语义相同但格式不同的数据转换成同一的格式,以便更加适用于审计中间表的设计,这也就是数据的格式化的过程(如对不一致的摘要进行处理的题目)。
3.2 数据清理 数据清理主要涉及到数据的匹配与合并。通过匹配,发现重复的对象;通过合并,保存或天生一个完整的对象。数据清理活动的核心是近似重复对象的识别。所谓近似重复对象是指表现形式不同但语义上相同的对象。从狭义的角度来看,假如两条记录在某些字段上的值相等或足够相似,则以为这两条记录互为近似重复 数据清理包括以下几个步骤: 记录排序:选择一个或几个字段作为关键字进行排序; 识别重复记录; 合并重复记录:从相似记录集中获得记录的完整信息,并作为该记录的表示。
3.3 数据变换 常见的数据变换操纵包括:简单变换,日期、时间格式的转换,由代码到名称的转换以及字段(值)拆分和字段(值)合并等。 简单变换:是指变换源数据库表中某些字段的类型、长度以及NU约束; 日期、时间格式的转换:是指将来自各个数据源的不同格式的日期和时间数据变换为目标数据库的规范格式; 字段值合并:是指将源数据库中的多个字段的值合并成一个字段的值; 字段值拆分:是指将源数据库中的一个字段值拆分成多个字段值。
3.4 丢失的数据处理 数据丢失是指某个或某些数据元没有值。解决数据丢失题目的方法有: 忽略该元组; 用一个全局常量填充空缺值; 用属性均匀值或其他推导值来填充空缺值; 用相关的外部数据填充空缺值。
3.5 数据集成 数据集成是将被审计单位数据从一个或多个来源中取出,并逐字段地将数据映射到审计中间表的数据结构上。这种转换最大的困难在于将被审计单位数据集成为一个紧密结合的审计中间表数据模型。这是由于数据可能来源于多个数据源,这些数据来源往往遵守不同的业务规则,在天生审计中间表数据时,要建立它们之间的关系,消除它们之间的不一致性。数据的集成分为两个层面:字段层面的集成和关系表层面的集成。
4、审计数据转换系统组织结构 我们把从被审计单位数据到审计中间表数据之间所需要的各种操纵均刻画为转换操纵,因此在审计数据转换系统的设计过程中,可以把对被审计单位数据的转换操纵定义为一系列的审计数据转换活动。 在审计数据的转换过程中,一个转换将源对象利用一种转换规则转换成一组目标对象。源对象和目标对象都是数据对象集合的元素。数据对象集中的元素能够是任何类型的数据元素,但是典型的是表、列或表示在内存中暂存对象的模型元素。数据对象集可以是不同转换活动的源和目标。具体来说,在同一个逻辑单元中,一个给定的数据对象集可以是一个转换的目标和一个或多个转换的源。通常,转换也可以产生一系列的临时数据。那些必须一起执行的转换被回类到相应的转换任务中。在执行时,转换步骤是用来协调转换任务之间执行情况的控制流。每个转换步骤执行单一的转换任务,这种转换任务既可以是从源对象利用一种转换规则转换成一组目标对象,又可以是源对象经过多种转换规则转换成一组目标对象。转换步骤可以进一步被回类成转换活动。在每个转换活动中,它的转换步骤的执行序列可以通过审计元数据定义。
5、审计数据转换日志 根据以往审计经验,在审计数据转换系统的设计和开发时需要考虑:对被审计单位数据库系统及相关业务的了解是否充分;审计中间表的设计是否公道,关注的焦点应该是被审计数据的业务内涵;被审计单位数据是否存在质量,质量题目是特殊性的,还是普遍性的;审计数据转换与审计元数据之间的关系;由于审计的特点,往往也需要看到被审计单位数据的原貌,因此审计数据转换日志题目也需特别关注。 审计数据转换日志有两种类型,一种是记载审计数据转换过程中产生的转换错误的日志,称之为转换错误日志;另一种是能反映审计数据在转换过程中变化情况的日志,称之为转换变化日志。