数据挖掘技术在舞弊审计中的应用-信息化专区

数据挖掘技术在舞弊审计中的应用

作者：中国IT治理研究中心专家孟秀转编辑：赵建凯 2008-09-01 10:15 来源：IT168�

【IT168 信息化】

1引言

    Anron（美国）、Ahold（荷兰）、Parmalat（意大利）和Addeco（瑞士）财务丑闻的发生，揭示了财务报告舞弊是一个世界性的问题，王泽霞(2004)也认为：美国法律案件中管理层舞弊占绝大多数、中国会计信息失真主要是单位负责人造成的、我国财务报表审计中存在的重大错报主要为管理舞弊。舞弊已成为财务报告团体的流行病。舞弊是一个很重要的问题，据估计舞弊使美国企业每一美元的收入损失近6%。[1]欺诈性的财务报告不仅损害了商业团体和会计职业的信誉，也损害了利益相关者。尽管各国监管机构等相关部门多次出台各种政策、不断完善会计及审计准则，财务报告舞弊仍屡禁不止。财务报告使用者期望审计人员提高舞弊审计的能力，以发现和报告更多的舞弊。识别管理舞弊迹象因此成为风险导向审计中审计人员从总体上考察会计报表的公允表达，寻找潜在错报高风险领域的主要任务。

    与此同时各行各业信息系统的流行与普及使得各种组织实体使用的信息系统，生产着大量的电子数据，造成被审计的电子数据也是海量的，增加了舞弊审计的难度。如:某省某银行某年仅2月份会计传票流水多达562783条；某海关半年内的进口报关单的数目多达61458 条。不仅如此，计算机技术应用，计算机舞弊手段也不断发展。电子化和网络化环境使得作弊手法越发隐蔽，数据难以追踪，审计无从下手。

    因此，舞弊审计不仅需要从大量的公司年报、中报等财务数据中提取财务信息，还要从企业本身的组织结构特征、行业特征、经营决策特征等相关非财务信息中寻找线索，面对浩如烟海的财务与非财务数据，仅仅根据审计人员的经验和手工劳动，其识别效果和效率都不理想。数据挖掘技术作为一种决策支持技术，能够从海量的、不完全的、模糊的、随机的实际数据中，帮助人们发现那些重要且较为隐蔽的线索，从而来辅助审计人员进行审计数据分析，提高识别舞弊的质量和效率。2007年开始实施的《中国注册会计师审计准则第1141号财务报表审计中对舞弊的考虑》要求加强财务报表审计中的舞弊审计，但相对于舞弊方式的隐蔽性、专业性和创新性，目前的状况很难适应反舞弊形势的需要，迫切需要设计我国的舞弊审计数据挖掘系统，提高我国舞弊发现效率，有效打击舞弊违法活动。

2 数据挖掘概述

数据挖掘又称数据开采、数据发掘等，指从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、事先不知道的、但又是潜在有用的信息和知识的过程。该技术特别适合处理海量数据，能够建立预测模型，分析历史及当前数据，自动地、智能地对各种数据资料进行反复的、全面充分的调用分析，转化为有用的信息和知识，从中发现隐藏的关系和模式，并帮助预测未来可能发生的事件。该技术高度程序化的特征决定其分析、判断的客观性，能够排除人为干扰，提高审计数据分析结论的准确性。数据挖掘技术可以通过对舞弊案例进行机器学习(machine learning)，总结有关舞弊渠道、环节等的特征与规律，与待处理数据进行对照和比较，提高数据处理、分析的广度及深度，不断获得新知识对模型进行动态更新，为审计人员提供更多线索。数据挖掘技术也可以从大量的复杂关联数据，将会计人员眼中不显著的虚假财务报告与自然形成财务报告之间的内在差异放大到存在某种数据结构和统计显著性差异，在一定程度上提高了舞弊性财务报告的识别效率和效果。

数据挖掘技术分析方法很多，在此列举目前最可能运用于舞弊审计工作中的几种常用方法，主要有: 1. 数据概化。数据库中通常存放着大量的细节数据，通过数据概化可将大量与任务相关的数据集从较低的概念层抽象到较高的概念层。一般有两类方法:数据立方体方法和面向属性的归纳方法。2.分类与预测。它是基于模型的方法，包括回归分析、因子分析和判别分析等，用此方法可对数据进行分类和预测。3. 聚类分析。聚类分析是把一组个体按照相似性归成若干类别，目的是使得同一类别的个体之间的距离尽可能地小，而不同类别的个体间的距离尽可能地大，该方法可为不同的信息用户提供不同类别的信息集。聚类已经被广泛地应用在许多领域中，如模式识别、数据分析、图像处理，以及市场研究。4.关联分析。它通过利用关联规则可以从操作数据库的所有细节或事务中抽取频繁出现的模式，其目的是挖掘隐藏在数据间的相互关系。它通过量化的数字描述对象甲的出现对对象乙的出现有多大的影响。特别是在会计领域，会计数据之间存在严密的勾稽关系，这种方法非常适用。

3 数据挖掘技术在舞弊审计中的应用前景

3.1 采用数据挖掘技术的必要性

随着数据库技术的迅速发展及数据管理系统的广泛应用，大部分企业已经引入信息系统对企业的交易活动、经营状况及整个市场的相关行业状况等进行记录，因此企业积累的数据越来越多，形成了包含大量财务数据乃至各方面经营管理信息的数据库。激增的数据背后隐藏的许多重要信息为人们识别财务报告舞弊提供了更大范围的数据支持，但同时也带来了一些问题：一是数据过量，难以及时发现有用信息；二是数据形式不一致，难以统一处理；三是数据是不断发展的，识别舞弊的经验相对于数据往往是滞后的，这种不同步性给舞弊识别带来了巨大的潜在风险，KPMG（1998）调查发现超过三分之一的舞弊事件是在偶然的情况下被发现的，只有4%的舞弊事件是由独立审计人员发现的；四是传统的数据分析方法无法处理庞大的数据库系统，技术工具的落后性势必影响舞弊识别的广度和深度；五是新的数据处理技术为舞弊提供了越发隐蔽的新手段，电子化和网络化的数据环境也使得舞弊隐藏的更深，使识别难以下手。

目前的计算机审计软件多是利用审计人员的经验和计算机查询技术相结合的方法对被审计单位电子数据进行审计“发现其中的异常情况”，但这存在多处不足: 一是审计人员的经验和知识是“有限的”被审计对象行业跨度大，各单位情况千差万别，当审计经验无法运用时，面对海量数据真有如“瞎子摸象”；二是数据是不断发展的，审计经验相对于数据的发展往往是滞后的，这种不同步性给审计带来巨大的潜在风险；三是对同一数据审计不同的审计人员可能会得出完全不同的审计结论，知识的“不对称性”无法保障审计质量。

数据挖掘技术就是针对日益庞大的电子数据应运而生的一种新型信息处理技术。它一般采取排除人为因素而通过自动的方式来发现数据中新的、隐藏的或不可预见的模式的活动。这些模式指隐藏在大型数据库、数据仓库或其他大量信息存储中的知识。它是在对数据集全面而深刻认识的基础上，对数据内在和本质的高度抽象与概括，也是对数据从理性认识到感性认识的升华。所以把数据挖掘技术应用于舞弊财务报告的识别很有必要也非常紧迫。

3.2 数据挖掘技术在舞弊审计中的应用

（1）数据概化。审计人员往往需要查询不同综合程度的被审计数据信息，以便了解被审计单位的有关各级别的财务经营信息，以便寻找审计线索。在数据库的原始概念层，数据和对象往往包含很详细的信息。人们希望能将集中的数据进行总结概括，并将其在更高的概念层次上呈现出来。概念描述就是对某类对象的内涵进行描述，并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述，前者描述某类对象的共同特征，后者描述不同类对象之间的区别。概念描述可以提供数据的一般特征。

数据概化可应用于描述式挖掘，审计人员可从不同的粒度和不同的角度描述数据集，从而了解某类数据的概貌。大量研究证实，舞弊行为通常会使得“企业的财务结构出现异常的状态”（Joseph T. Well 2001）。[8]因此，审计人员可以采用概念描述技术对存储在被审计数据库中的数据实施数据挖掘，通过使用属性概化、属性相关分析等技术将详细的财务数据在较高层次上表达出来，以得到正常财务报告和虚假财务报告的一般属性特征描述，如流动比率、速动比率、资产周转率、主营业务利润率、资产负债率、投资报酬率、每股收益率等值从而为审计人员判断虚假财务报告提供依据。

（2）分类与预测。分类和预测是数据挖掘中发展最充分的领域。分类的结果典型地表现为一个具有行为可预测性的组。欺诈侦测和欺诈风险运用最适合于这种类型的分析。通过分类挖掘对被审计数据库中的各类数据挖掘出其数据的描述或模型，或者审计人员建立统计模型对被审计单位的大量财务或业务历史数据进行预测分析，根据分析的预测值和审计值进行比较，都能帮助审计人员从中发现审计疑点，从而将其列为审计重点。比如在财务审计中，虚假财务报告从财务指标上看，就是某些财务指标显著地异于同类企业，这些能够显著显示财务舞弊征兆的财务指标包括应收款项比率、应收款项周转率、资产负债率、速动比率、主营业务税金及附加比率、资产质量、管理费用和销售费用率等[8]。对此，审计中可采用数据挖掘的统计分析技术对这些指标数据进行分类和预测，当预测值与审计值差距较大时，可列为审计关注的重点。

（3）聚类分析。聚类分析是将数据中比较接近的划归为一类，合理的聚类后，每一类内就可以找出有关的特征，有利于发现真正有用的信息。不同类型的问题可以有不同的聚类原则，这样就可以找到不同的特征。聚类分析技术特别适用于从大量的交易数据中产生及时、准确的线索。由于舞弊方式多种多样，数据表现出来的特点也就各式各样，并不是所有的可疑账户都可以聚成一类。因此，在舞弊行为识别中，簇的数量是未知的，因舞弊方式的不同而不同。聚类分析中“簇的数量未知”这个特点刚好满足舞弊行为识别的这个要求。而且，由于其聚类分析的自动处理、非监督学习等特性使得其可以动态地适应舞弊手段的变化，也可以在一定程度上规避舞弊犯罪活动的自适应问题。

聚类分析和孤立点挖掘方法相结合是非常好的审计线索发现方法。孤立点是指数据集中与一般数据模型不相符的那些数据。实践表明，真实的财务报表中主要项目的数据变动具有一定的规律性，如果其变动表现异常，就说明数据中可能存在虚假成分。孤立点分析对虚假财务报告中数据的异常变动识别有着非常重要的应用价值。审计人员可以使用孤立点分析技术来检查一些舞弊、违背规律和规定的行为，因为这些行为产生的数据一般是隐藏在大量正常数据下的少量数据，而且很可能以不同于一般数据的形式表现出来，通过孤立点分析方法可以有效地发现这样的异常数据。在实际操作中，我们通常选择能够显著显示财务舞弊征兆的一些关键财务指标，如应收款项比率、应收款项周转率、资产负债率、速动比率、主营业务税金及附加比率、资产质量、管理费用和销售费用率等，并为其设定一个阀值，一旦财务报告中的相关财务指标数值超过这个阀值，说明报告有可能存在舞弊。

（4）关联分析。关联分析就是给定一组或一个记录集合，通过分析记录集合，推导出相关性，目的是为了挖掘出隐含在数据间的相互关系。数据关联是数据库中存在的一类重要的可被发现的知识。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据中隐藏的关联网。在会计领域，会计数据之间存在严密的勾稽关系，通过基于关联规则的数据挖掘分析，可挖掘出隐藏在数据间的相互关系。如财务做假有时表现在科目做假上，通过各个科目之间的运作、协调和配合，表现为“假科目，真做账”现象。但这种做假手段难免会出现个别科目的背离以及报表间钩稽关系的异常。为此，可运用数据挖掘中的关联分析技术方法，在对财务数据或经济数据的审计中，针对同类或不同类会计科目及数据项之间可能存在某种对应关系，以及资产负债表、利润表、现金流量表三大财务报表之间的勾稽关系，按照非财务逻辑关系的规律来查找、挖掘，从而发现一些隐藏的经济活动，为审计人员的进一步工作提供参考。如利用数据挖掘中的关联分析，可以发现一个单位的车辆数和养路费、汽车保险费等日常维护支出存在一定的关系，能够据此发现是否存在用账外资产买车的行为，进而查出小金库问题。

4 基于数据挖掘的舞弊发现过程模型

为发现舞弊行为，数据挖掘需要面对的是关系复杂的企业全局视角的知识发现，因此进行数据采掘一般要花大部分力量在数据准备阶段。但是，不同历史阶段企业内部许多部门建立了各自的信息处理系统，这些系统之间相互隔离，结构各异，因此很难得到企业全局的信息。审计人员需要使用(历史的、现在的)数据和多个系统数据进行各种复杂分析，以发现审计线索。这不仅要求系统保存大量的历史数据，而且还要进行复杂的分析处理(每次处理涉及大量数据)，这对于业务处理频繁的业务数据库系统而言，将成为沉重的负担。数据仓库面向复杂的数据分析，集成企业范围内的数据。它把数据事先收集、归纳、处理，使企业的业务操作环境和信息分析环境分离，从而有效地为决策提供实时的信息服务。从这一点上讲，基于数据仓库的数据采掘能更好地满足审计的要求。而且，数据仓库机制大大降低了数据采掘的障碍，而在数据仓库中数据已经被充分收集起来，进行了整理、合并，并且有些还进行了初步的分析处理。这样，注意力更集中于数据采掘的核心处理阶段。另外，数据仓库中对数据不同粒度的集成和综合，更有效地支持了多层次、多种知识的采掘。基于此，舞弊审计中的数据挖掘技术应该基于审计数据仓库基础之上。

本文根据美国研究所总结的数据挖掘方法（SEMMA）和斯坦福大学的约翰1997 年在其博士论文中给出的数据挖掘处理模型，强调由审计专家和数据挖掘人员共同参与数据挖掘的全过程、及时沟通，基于审计数据仓库，从舞弊审计需求出发，给出了基数据挖掘的审计线索发现过程的模型框架。如图1所示。

（1）提出审计需求。根据审计的目标和内容要求，描述和表达审计问题，并据此确定数据挖掘的目的。数据挖掘的目的是数据挖掘的重要一步，挖掘的最后结果是不可预测的，但要探索的问题应该是有预见的，盲目的数据挖掘是不会成功的。

（2）理解和分析。数据挖掘人员与审计人员在共同的基础上明确数据挖掘目的，针对挖掘目标，进行数据分析和建模准备。

（3）建模。根据挖掘目标，确定将要进行的挖掘操作类型，如分类与预测、聚类、关联分析等，设计或选择有效的数据挖掘算法，产生数学分析模型并与审计人员沟通，审计人员理解确认。

（4）数据挖掘。数据挖掘人员利用经确认的数据挖掘模型和数据仓库进行数据挖掘。

（5）结果分析与评估。分析并评估挖掘结果，其使用的分析方法一般应视数据挖掘操作而定，通常会用到可视化技术。

（6）发布审计发现。以一种审计人员能够使用的方式呈现审计发现，在舞弊审计中应用审计发现的知识，最终完成审计工作。

5 结论

识别财务报告中的舞弊，需要从大量企业内外相关信息中寻找线索，数据挖掘技术帮助审计人员对被审计单位海量电子数据进行分析，获得审计线索，发现审计疑点。建立一个基于数据挖掘技术的舞弊审计模型，充分利用经验丰富的专家智囊及数据挖掘的技术优势，将会增强审计人员的审计数据分析能力，提高舞弊审计的效率和效果，尽量降低其带给利益相关者的损失

关注我们