信息化 频道

你如何来实现如此复杂的数理统计?

     本文通过税务总局重点税源预警分析项目中的多指标权重计算解决方案,介绍了BI中的自定义统计算子功能。

一.复杂的评价统计需求
 

        1. 多指标权重统计分析背景

        用户希望通过一组指标及各指标的权重计算出各基层单位的风险指数,从而找出风险较大的企业或单位。如在税务行业中,用来进行风险预警的指标有税负类指标、能耗类指标、收益类指标和弹性类指标;在统计分析前,需要根据纳税人适用的预警指标的影响程度分别设置权重,各指标的权重会直接决定统计标识出的风险企业结果。因此如何确定这些指标的权重就显得非常重要了。

        2. 税务行业的多指标评价赋权方法——熵值法

        熵值法是根据指标的取值变异程度来赋权的,指标变异程度越大,信息熵越小,该指标提供的信息量越大,权重也应越大;反之,某项指标的指标值变异程度越小,信息熵越大,该指标提供的信息量越小,该指标的权重也越小。将多指标分析简化为各指标的信息量大小的权值分配,从而为进行综合评价提供了一种科学、有效的方法。因此,税务行业用户比较倾向于使用熵值法进行企业涉税风险分析。

        3. 期望的权重计算表样

        权重的计算会根据选择的报表时期、企业范围,统计各指标在企业群体中和历史时期中的变异程度;因此,权重计算时,我们需要让用户能灵活的指定报表时期和企业范围。
下表列出了含部分指标的权重统计结果表样:

 

图1:权重计算表样

        4. 具体的统计算法描述

        以上图中指标B3【总体税负与行业比较】的信息量和权重计算为例:
        首先需要计算出B3指标的原始值,即企业的总体税负与企业所在行业总体税负预警下限值间的比较差异;假设这个【企业与行业比较差异】指标值确定后记作zb,根据统计算法需要对zb进行某种同度量化(非负标准化)运算,在此案例中选择的同度量化方法是将每个企业的zb和所有企业zb的平均、所有企业zb的方差进行比对运算后加常量的算法,具体如下:
        (单个企业【zb】-【zb】总体平均)/【zb】总体方差+5
        假设该结果为D,在这个结果上再进行统计分析,才能得到一个信息熵因子:
        D/SUM(D) * LN(D/SUM(D))
        假设这个结果是F,通过如下处理,得到信息量:
        1+1/(LN(_n()))*SUM(F)
        假设求和统计函数记作_s,求平均记作_a,求计数记作_n,求方差记作stdev,综合以上统计过程,图1中B4表元【总体税负与行业比较指标信息量】的“超复杂”统计表达式如下:
        1+1/LN(_n())*_s(((zb-_a(zb))/stdev(zb)+5)/_s(((zb-_a(zb))/stdev(zb)+5))*ln(((zb-_a(zb))/stdev(zb)+5)/_s(((zb-_a(zb))/stdev(zb)+5))))
        此信息量占各大税种指标的信息量总和的比,就是我们要计算的图1中的B5表元【总体税负与行业比较指标权重】。
        可以看出,权重的计算相当复杂,企业个体zb值与总体zb统计值间频繁进行比对,每个个体比对后的结果再次做总体统计,然后是再次的复杂比对运算…
        BI@Report能实行如此复杂的统计计算吗?答案是肯定的!BI@Report不但可以实现,而且因为支持自定义算子还可以实现得很简单。这里,我们还是先来看看用一般的报表制作方法该如何实现。

二.一般的报表实现方法


2:一般权重计算表样

        1.说明:

        图2是用一般报表实现方法设计的【多指标权重计算报表】部分列截图,其中第6行是浮动行,计算后,可以浮动罗列出所有企业的明细数据。
        可以看出,为了计算出【总体税负】的权重(I7表元),需要罗列所有企业的与行业比较值(G6),在G6基础上,需要计算很多中间的辅助统计结果,如:总体平均(G4),总体标准差(G5),并根据熵值法评价算法,多次计算个体和总体间的运算比对结果(如:H6,I6),最终才能计算出信息量(I4),此因子占所有指标信息量总和的比重即是总体税负的权重(I7)。
        图2的报表上增加了很多中间行列,在展现时,需要特别将辅助中间计算的行列设置隐藏。

        2.不足之处

  1. a).表样复杂,维护不便;如图2,一个指标【总体税负与行业比较】的权重计算,在报表上就使用了许多行列来辅助运算和统计,在维护此报表的设计过程中,用户需要清楚所有的业务细节,否则会无从下手。
  2. b).由于报表设计需要在罗列所有企业的指标值基础上,做表内的多行统计;由于统计的样本户数一般情况下都会比较多(>6w户),在不分页的情况下,此表计算很慢;
  3. c).若出于报表显示和效率考虑给报表设置分页,由于权重中间结果都依赖于表内计算,此时,得到的统计结果只对当前页的企业样本有效,不满足用户统计评价的要求。
0
相关文章