3 数据挖掘技术在舞弊审计中的应用前景
3.1 采用数据挖掘技术的必要性
随着数据库技术的迅速发展及数据管理系统的广泛应用,大部分企业已经引入信息系统对企业的交易活动、经营状况及整个市场的相关行业状况等进行记录,因此企业积累的数据越来越多,形成了包含大量财务数据乃至各方面经营管理信息的数据库。激增的数据背后隐藏的许多重要信息为人们识别财务报告舞弊提供了更大范围的数据支持,但同时也带来了一些问题:一是数据过量,难以及时发现有用信息;二是数据形式不一致,难以统一处理;三是数据是不断发展的,识别舞弊的经验相对于数据往往是滞后的,这种不同步性给舞弊识别带来了巨大的潜在风险,KPMG(1998)调查发现超过三分之一的舞弊事件是在偶然的情况下被发现的,只有4%的舞弊事件是由独立审计人员发现的;四是传统的数据分析方法无法处理庞大的数据库系统,技术工具的落后性势必影响舞弊识别的广度和深度;五是新的数据处理技术为舞弊提供了越发隐蔽的新手段,电子化和网络化的数据环境也使得舞弊隐藏的更深,使识别难以下手。
目前的计算机审计软件多是利用审计人员的经验和计算机查询技术相结合的方法对被审计单位电子数据进行审计“发现其中的异常情况”,但这存在多处不足: 一是审计人员的经验和知识是“有限的”被审计对象行业跨度大,各单位情况千差万别,当审计经验无法运用时,面对海量数据真有如“瞎子摸象”;二是数据是不断发展的,审计经验相对于数据的发展往往是滞后的,这种不同步性给审计带来巨大的潜在风险;三是对同一数据审计不同的审计人员可能会得出完全不同的审计结论,知识的“不对称性”无法保障审计质量。
数据挖掘技术就是针对日益庞大的电子数据应运而生的一种新型信息处理技术。它一般采取排除人为因素而通过自动的方式来发现数据中新的、隐藏的或不可预见的模式的活动。这些模式指隐藏在大型数据库、数据仓库或其他大量信息存储中的知识。它是在对数据集全面而深刻认识的基础上,对数据内在和本质的高度抽象与概括,也是对数据从理性认识到感性认识的升华。所以把数据挖掘技术应用于舞弊财务报告的识别很有必要也非常紧迫。
3.2 数据挖掘技术在舞弊审计中的应用
(1)数据概化。审计人员往往需要查询不同综合程度的被审计数据信息,以便了解被审计单位的有关各级别的财务经营信息,以便寻找审计线索。在数据库的原始概念层,数据和对象往往包含很详细的信息。人们希望能将集中的数据进行总结概括,并将其在更高的概念层次上呈现出来。概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述, 前者描述某类对象的共同特征,后者描述不同类对象之间的区别。概念描述可以提供数据的一般特征。
数据概化可应用于描述式挖掘,审计人员可从不同的粒度和不同的角度描述数据集,从而了解某类数据的概貌。大量研究证实,舞弊行为通常会使得“企业的财务结构出现异常的状态”(Joseph T. Well 2001)。[8]因此,审计人员可以采用概念描述技术对存储在被审计数据库中的数据实施数据挖掘,通过使用属性概化、属性相关分析等技术将详细的财务数据在较高层次上表达出来,以得到正常财务报告和虚假财务报告的一般属性特征描述, 如流动比率、速动比率、资产周转率、主营业务利润率、资产负债率、投资报酬率、每股收益率等值从而为审计人员判断虚假财务报告提供依据。
(2)分类与预测。分类和预测是数据挖掘中发展最充分的领域。分类的结果典型地表现为一个具有行为可预测性的组。欺诈侦测和欺诈风险运用最适合于这种类型的分析。通过分类挖掘对被审计数据库中的各类数据挖掘出其数据的描述或模型,或者审计人员建立统计模型对被审计单位的大量财务或业务历史数据进行预测分析,根据分析的预测值和审计值进行比较,都能帮助审计人员从中发现审计疑点,从而将其列为审计重点。比如在财务审计中,虚假财务报告从财务指标上看,就是某些财务指标显著地异于同类企业,这些能够显著显示财务舞弊征兆的财务指标包括应收款项比率、应收款项周转率、资产负债率、速动比率、主营业务税金及附加比率、资产质量、管理费用和销售费用率等[8]。对此,审计中可采用数据挖掘的统计分析技术对这些指标数据进行分类和预测,当预测值与审计值差距较大时,可列为审计关注的重点。
(3)聚类分析。聚类分析是将数据中比较接近的划归为一类,合理的聚类后,每一类内就可以找出有关的特征,有利于发现真正有用的信息。不同类型的问题可以有不同的聚类原则,这样就可以找到不同的特征。聚类分析技术特别适用于从大量的交易数据中产生及时、准确的线索。由于舞弊方式多种多样,数据表现出来的特点也就各式各样,并不是所有的可疑账户都可以聚成一类。因此,在舞弊行为识别中,簇的数量是未知的,因舞弊方式的不同而不同。聚类分析中“簇的数量未知”这个特点刚好满足舞弊行为识别的这个要求。而且,由于其聚类分析的自动处理、非监督学习等特性使得其可以动态地适应舞弊手段的变化,也可以在一定程度上规避舞弊犯罪活动的自适应问题。
聚类分析和孤立点挖掘方法相结合是非常好的审计线索发现方法。孤立点是指数据集中与一般数据模型不相符的那些数据。实践表明,真实的财务报表中主要项目的数据变动具有一定的规律性,如果其变动表现异常,就说明数据中可能存在虚假成分。孤立点分析对虚假财务报告中数据的异常变动识别有着非常重要的应用价值。审计人员可以使用孤立点分析技术来检查一些舞弊、违背规律和规定的行为,因为这些行为产生的数据一般是隐藏在大量正常数据下的少量数据,而且很可能以不同于一般数据的形式表现出来,通过孤立点分析方法可以有效地发现这样的异常数据。在实际操作中,我们通常选择能够显著显示财务舞弊征兆的一些关键财务指标,如应收款项比率、应收款项周转率、资产负债率、速动比率、主营业务税金及附加比率、资产质量、管理费用和销售费用率等,并为其设定一个阀值,一旦财务报告中的相关财务指标数值超过这个阀值,说明报告有可能存在舞弊。
(4)关联分析。关联分析就是给定一组或一个记录集合,通过分析记录集合,推导出相关性,目的是为了挖掘出隐含在数据间的相互关系。数据关联是数据库中存在的一类重要的可被发现的知识。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据中隐藏的关联网。 在会计领域,会计数据之间存在严密的勾稽关系,通过基于关联规则的数据挖掘分析,可挖掘出隐藏在数据间的相互关系。如财务做假有时表现在科目做假上,通过各个科目之间的运作、协调和配合,表现为“假科目,真做账”现象。但这种做假手段难免会出现个别科目的背离以及报表间钩稽关系的异常。为此,可运用数据挖掘中的关联分析技术方法,在对财务数据或经济数据的审计中,针对同类或不同类会计科目及数据项之间可能存在某种对应关系,以及资产负债表、利润表、现金流量表三大财务报表之间的勾稽关系,按照非财务逻辑关系的规律来查找、挖掘,从而发现一些隐藏的经济活动,为审计人员的进一步工作提供参考。如利用数据挖掘中的关联分析,可以发现一个单位的车辆数和养路费、汽车保险费等日常维护支出存在一定的关系,能够据此发现是否存在用账外资产买车的行为,进而查出小金库问题。