信息化 频道

数据挖掘技术在舞弊审计中的应用

2 数据挖掘概述

    数据挖掘又称数据开采、数据发掘等,指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、事先不知道的、但又是潜在有用的信息和知识的过程。该技术特别适合处理海量数据,能够建立预测模型,分析历史及当前数据,自动地、智能地对各种数据资料进行反复的、全面充分的调用分析,转化为有用的信息和知识,从中发现隐藏的关系和模式,并帮助预测未来可能发生的事件。该技术高度程序化的特征决定其分析、判断的客观性,能够排除人为干扰,提高审计数据分析结论的准确性。数据挖掘技术可以通过对舞弊案例进行机器学习(machine learning),总结有关舞弊渠道、环节等的特征与规律,与待处理数据进行对照和比较,提高数据处理、分析的广度及深度,不断获得新知识对模型进行动态更新,为审计人员提供更多线索。数据挖掘技术也可以从大量的复杂关联数据,将会计人员眼中不显著的虚假财务报告与自然形成财务报告之间的内在差异放大到存在某种数据结构和统计显著性差异,在一定程度上提高了舞弊性财务报告的识别效率和效果。

    数据挖掘技术分析方法很多,在此列举目前最可能运用于舞弊审计工作中的几种常用方法,主要有: 1. 数据概化。数据库中通常存放着大量的细节数据,通过数据概化可将大量与任务相关的数据集从较低的概念层抽象到较高的概念层。一般有两类方法:数据立方体方法和面向属性的归纳方法。2.分类与预测。它是基于模型的方法,包括回归分析、因子分析和判别分析等,用此方法可对数据进行分类和预测。3. 聚类分析。聚类分析是把一组个体按照相似性归成若干类别,目的是使得同一类别的个体之间的距离尽可能地小,而不同类别的个体间的距离尽可能地大,该方法可为不同的信息用户提供不同类别的信息集。聚类已经被广泛地应用在许多领域中,如模式识别、数据分析、图像处理,以及市场研究 。4.关联分析。它通过利用关联规则可以从操作数据库的所有细节或事务中抽取频繁出现的模式,其目的是挖掘隐藏在数据间的相互关系。它通过量化的数字描述对象甲的出现对对象乙的出现有多大的影响。特别是在会计领域,会计数据之间存在严密的勾稽关系,这种方法非常适用。

0
相关文章