2025年7月22日 
首页>>监测评价>>中国经济监测

如何在综合数据库中反映统计指标间的内在关系
2008-03-27  

   统计指标间的内在关系是人们进行经济分析的基础,也是数据关联使用的依据。为了使数据库使用起来更加方便,并开发出一些智能化的分析功能,数据库的设计应尽可能地把这些关系反映出来。
   一、统计指标间的常见关系
为了把统计指标间的内在关系在数据库中反映出来,首先应把这些关系搞清楚。统计指标间的内在关系众多,在2005年设计《智能型中国经济数据库》时,我们对这些关系进行了一次系统的归纳,结果如下:
   1.指标间的运算关系。即一个指标可通过其他指标计算出来。这是一种非常普遍的关系,如出口增长率可由出口总额计算,进出口差额等于出口减进口,名义收入除价格指数可得实际收入,总产出除劳动人数等于劳动生产率等。
   2.分组汇总关系。即分组指标和汇总指标之间的关系。虽然分组汇总关系也是指标间的运算关系,但这种运算关系非常规范,并在分析中应用广泛,因此有单独出来的必要。分组汇总关系可以是简单的相加,也可以是加权相加。前者如投资总额,可以按行业、地区、经济类型等多种方式进行分组,每一种分组的所有分组指标之和正好就是投资总额;后者如工业品出厂价格指数,可以按地区分为31个省(市、区)的指数,但每个省重要程度不一样,只能取加权平均。
   3.月度数、季度数和年度数间的转换关系。月度数、季度数和年度数是三种常见的数据类型,相互之间可以转换,由月度数可以生成季度数和年度数,由季度数可生成年度数。如财政收入,只要有各月的收入总额,就可以算出各季和全年的收入总额。这种关系还可用全年数据倒推出个别月份或季度的数据。能反映这种关系的数据库将可以实现三种数据的混合使用。
   4.指标间的数量依存关系。几个指标之间,虽然相互之间不能互相推算,但却需要保持一定的数量关系。这种数量关系是由经济关系决定的,甚至可用于衡量经济运行是否正常、数据是否异常。如货币供应量与经济总规模之间的关系、投资和消费的关系、收入增长和产出增长的关系、当月增长率和上月增长率的关系等等。
   5.关联关系和集聚关系。关联关系是指在分析某一指标时经常需要了解一下其他指标的情况,并且这些“其他指标”是相对固定的,每一次都差不多。集聚关系是指统计指标的使用不是孤立的,经常是一些指标一起使用,这些一起使用的指标形成了一个一个的指标集合。如全国的指标主要是与全国指标一起使用,地区的指标主要与本地区的指标一起使用。在作比较时,比较对象往往比较固定,如山东的主要比较对象是广东和江苏。
   二、指标类型与数据间的运算关系
   在使用数据时,有些数据总是一起使用,并且相互之间联系紧密,如出口总额通常有当月绝对额、累计绝对额、当月增长率和累计增长率四项数据,这四项数据往往一起使用。在有些情况下,这些数据必须一起使用才有意义,如为了分析各地区出口增长速度,必不可少的权重数据正好可以从出口额计算出来。为了使用的方便,这些总是在一起使用或必须一起使用的数据就最好是集中存放,并且要把数据之间的关系也反映出来,而不能和以往的数据库那样作为相互独立的指标。这一做法将导致数据管理模式的根本改变,数据库将由单纯地管理数据改变为管理数据和数据关系,一个指标将由对应一项数据转变为对应多项数据。在数据库中反映数据关系是一项全新的要求,没有现成技术可用,只能依靠科技创新。最简单的方法是对每个指标分别地定义各项数据的含义和数据项之间的关系,但这样的数据库难以维护、更无法扩展,因此是不可行的。指标类型的概念就是在实践过程中逐步形成的,其基本做法就是把数据间运算关系完全相同的指标归为一类,并针对每一种指标类型来定义数据间的关系。建立了指标类型以后,数据间运算关系的定义过程就高度简化了,只要指定某一指标所属的指标类型就完成了全部定义。

绝对额类原始数据的可能情况

序号

月度数

季度数

年度数

1

当月绝对额

当季绝对额

/

2

累计绝对额

累计绝对额

累计绝对额

3

当月绝对额和当月增长率

当季绝对额和当季增长率

/

4

累计绝对额和累计增长率

累计绝对额和累计增长率

累计绝对额

累计增长率

5

当月绝对额和当月发展速度

当月绝对额和当季发展速度

/

6

累计绝对额和累计发展速度

累计绝对额和累计发展速度

累计绝对额

累计发展速度

7

当月绝对额和当月同比增加额

当季绝对额和当季同比增加额

/

8

累计绝对额和累计同比增加额

累计绝对额和累计同比增加额

累计绝对额

累计同比增加额

9

当月绝对额、累计绝对额和累计增长率

当季绝对额、累计绝对额和累计增长率

/

10

当月绝对额、累计绝对额、当月增长率和累计增长率

当季绝对额、累计绝对额、当季增长率和累计增长率

/


   1.常见的指标类型
   指标类型是为了规范数据项间的运算关系而提出的,但指标类型的设定并不仅仅考虑这一因素,而是融入了更多的内容。设定指标类型应考虑的因素是:(1)数据中的信息含量;(2)数据项之间的内在关系;(3)分组汇总的性质;(4)数据的数量特征。这四个方面都相同的指标可看作是同一类型,当某一方面或几个方面不同时,则应看作是不同类型。以绝对额类指标为例,其基本特征是:(1)各月绝对额始终大于0;(2)当月增长率、累计绝对额、累计增长率均可从当月绝对额计算,因此当月绝对额含有该类指标的全部信息;(3)绝对额有明显的长期趋势,增长率则基本上没有长期趋势;(4)分组指标之间绝对额可加。
通过对大量统计指标的观察和分析,我们归纳出很多种指标类型,常见的类型是:绝对额类、准绝对额类、平均额类、准平均额类、时点类(余额类)、准时点类(准余额类)、时期平均类、价格指数类、定基价格指数类、比率类、差额类、差额增长率类、单指数类等等。针对每一种标准类型,均需进行深入细致的研究,主要内容有:(1)类型的概念和主要特征;(2)原始数据的各种情况和数据标准化公式;(3)数据项之间的关系和可派生的数据项;(4)数据汇总函数和指标间的运算函数;⑸月度数、季度数和年度数的转换关系;⑹各数据项在分析中的作用;⑺标准文本的生成方法。
   2.原始数据的多种情况
   当月进口总额和累计进口总额是两个不同的指标,但相互之间可以转换,即从当月进口总额可以计算出累计进口总额,或反之,因此从使用角度看,这两个指标是完全一样的。由于指标类型包含这种转换关系,因此为解决这一问题提供了可能。当月进口总额和累计进口总额均为绝对额类指标,是原始数据的两种不同情况。绝对额类指标的原始数据情况还有很多,如表1所示,并且所有这些情况均可通过数据项之间的运算生成相同的数据项,可生成数据项有当月绝对额、累计绝对额、当季绝对额、当月增长率、累计增长率、当季增长率、当月同比增加额、累计同比增加额和当季同比增加额等等。在表1中,原始数据的情况多种多样,有些看上去完全不同,但在数据没有缺损和差错的情况下,所包含的信息完全相同,均可生成同样的数据。
   3.逻辑检查
  在原始数据中,有时包含一些重复信息,如表1中的第3种情况,月度数为当月绝对额和当月增长率,由于当月增长率可从当月绝对额计算,因此是重复信息,但这一重复信息不是没有用,可用于检测原始数据是否正确。当从绝对额计算出来的增长率与原始数据中的增长率不一致时,那么就说明原始数据有问题。
   4.弥补缺损值
   月度进口总额为绝对额类指标,假如有当月绝对额(x)、累计绝对额(cx)、当月增长率(rx)和累计增长率(rcx)四个原始数据项。第一种情况是缺某一个月的当月绝对额,依据当月绝对额等于累计绝对额减去上月累计绝对额可以把缺损值补上。第二种情况是累计绝对额也缺损,这时可根据上年绝对额和当年增长率进行推算,公式为:
 
   根据上式计算出累计绝对额后已还原成第一种情况。第三情况是当年增长率也缺损,这时可根据下年绝对额和增长率进行推算,公式为:
 
 
   5.月度数、季度数和年度数的转换
月度数包含了季度数和年度数的信息,季度数包含了年度数的信息,因此月度数可以转化为季度数和年度数据,季度数可以转化年度数,但不能反过来。以绝对额类指标为例,月度数的标准数据项是当月绝对额、累计绝对额、当月增长率和累计增长率,季度数的标准数据项是当季绝对额、累计绝对额、当季增长率和累计增长率,年度数的标准数据项是累计绝对额和累计增长率,但月度数也可以生成当季绝对额和当季增长率,月度数转换为季度数的方法是:选定数据项当季绝对额、累计绝对额、当季增长率和累计增长率,然后指定输出月份为3、6、9和12;月度数和季度数转换成年度数的方法是:选取累计绝对额和累计增长率,并指定输出月份为12。
   6.统计口径变动的处理
统计口径经常变化,因此同一口径的数据往往只有较短的时间序列,特别是口径发生变动的年份,老口径的数据没有了,而新口径数据则不到一年。时间序列过短,会造成很多分析无法进行。为了解决这一问题,就需要把不同口径的数据联接起来,形成较长的时间序列。这一问题也是依靠指标类型解决的,否则很难找到出路。主要有两种方法可用:
第一种方法是联接指标法。这种方法仅需在定义指标时选取一个延伸历史数据的联接指标就可实现。用这一方法来联接历史数据,分为绝对额可联、增长率可联和增长率比例可联三种情况。这种联接方法可以处理统计口径多次变动的情况,这相当于联接指标还有联接指标。增长率可联只要求两个指标的增长率可比,而不要求绝对额可比。以固定资产投资完成额为例,2004年的统计口径发生了变化,变化前后的增长率是可比的,但绝对额不可比。
  第二种方法是口径变动仍作为同一指标处理,并在指标说明中加以解释。这种方法要求原始数据有多项数据,并且两个指标的原始数据项完全相同。
   三、分组汇总关系
   分组汇总关系是统计指标间的重要关系,可用于结构分析、平衡关系分析等多种分析。制定适当的指标代码编码规则,就可以把分组汇总关系反映出来。
   1.反映分组汇总关系的指标代码编码规则
为了叙述的指标代码编码规则,必须先引入基本指标的概念。基本指标是相对于分组指标而言的。以工业增加值来说,本身有多种分组指标,如按行业分、按经济类型分、按地区分、按轻重工业分,每一种分组都有多个指标;然而其本身又可以看作是国内生产总值按行业分的分组指标。如果一个指标不是其他任何指标的分组指标,那么就是基本指标。
基本指标的编码基本上没有限制,不要使用符号“_”和“!”即可,因为这两个符号是分组码和附加码的联接符。为了指标编码管理的方便,基本指标编码按指标类别编制较好,每个类别用一个英文字母开头,然后是顺序号。
   分组指标的编码由基本指标代码加分组码构成,两者之间用符号“_”联接。分组码由两部分构成,前两位是分组方式代码,后面的是分组项代码。当一个指标包括多种分组方式时,分组码之间用符号“_”联接,并按ASCII码的大小顺序排列,以便确保编码的唯一性。如山西省城镇居民食品支出的代码为H001_0214_081,其中的H001为基本指标代码,表示城镇居民消费支出,0214表示按地区分组的山西省,081表示按消费支出用途分组的食品支出。
  对于多级分组,分组项的级别差异可用分组项代码长度来区分,规则是:同级分组项的代码长度必须相同,下级分组项的代码是在上级分组项代码的后面加上本级编码,代码长度自然就比上级分组项长。
当指标代码按上述规则编制时,将可以方便地找出任一指标的分组指标、同级指标、下级指标、上级指标、同分组指标。这些关系对于数据查询、对比分析等功能的设计非常有用。
   2.数据汇总公式
   由分组指标加工出汇总指标,不一定是简单的相加,而是与指标类型有关。对于不同的指标类型,数据汇总的公式是不一样的。以准绝对额类指标为例,两个指标相加时,当月绝对额和累计绝对额可以直接相加,即:
 
 
   式中x(t)表示当月绝对额,cx(t) 表示累计绝对额,下标“1”和“2”分别表示两个分组指标。当月发展速度和累计发展速度为加权相加,权重应取上年绝对额,但计算时并不是直接用上年绝对额,而是用当年绝对额除以同比发展速度生成,记
                       
  
   则发展速度的计算公式为:
 
 
   式中 gx(t)为当月发展速度, gcx(t)为累计发展速度。
   上述汇总公式可以推广到多个指标的情况,方法是两个指标加总后再与另一指标相加,并不断地重复这一步。对于季度数,把当月绝对额和当月发展速度替换成当季绝对额和当季发展速度即可。对于年度数,去掉当月绝对额和当月发展速度的计算公式即可。
分组汇总公式还与分组方式的类型有关。以城镇居民人均消费支出为例,按地区分时,各地区的人均消费支出是不可加的,应以相应的人口数为相对权重进行加权相加,然而,按消费支出用途分时,各项支出是直接可加的。为了体现这种差异,我们把前一种分组称为标准分组,后一种称为构成指标。
   3.生成组合分组项的数据
  在实际工作中,经常需要把若干个分组指标的数据合在一起使用,如研究东北地区经济运行情况时,就需要把东北三省的数据合在一起。组合分组项就是为这一目的设计的,指由若干个标准分组项组成的分组项。利用分组指标的数据汇总公式,组合分组项的数据可以自动合成,如东北地区,只要东北三省都有数据的指标,该地区也就有该指标。在《智能型中国经济数据库》中,组合分组项可以根据需要添加或修改,是进行数据重组的重要工具。
   4.结构分析
   当某一指标有分组指标时,就可以对该指标的构成情况和构成变动情况进行分析。以工业销售收入的分地区数据为例,可分析内容有:销售收入规模较大的地区有哪些、哪些地区发展速度快、哪些地区发展缓慢、哪些地区对增长的贡献最大、哪些地区对增长速度变化的影响最大、发展速度的均衡性如何、发展水平的均衡性如何、增长格局是否发生了变化等等。
   四、集聚关系
   为了反映统计指标的集聚关系,可用指标类别和条件对象的方法。
   1.指标类别
指标类别是在对统计指标分类的基础上形成的,就是把功能、作用相近或经常在一起使用的指标归为一类。在中国统计年鉴中,统计指标分为行政区划、自然资源、综合、国民经济核算、人口、就业、投资、能源、财政、价格、人民生活、农业、工业、建筑业、运输和邮电业、国内贸易、对外经济和金融等类别。但统计年鉴中的指标分类难以满足某些统计分析的需要,以研究制造业问题来说,需要把制造业的生产、价格、投资、进出口等数据集中起来使用,但这些数据分散在统计年鉴的多个部分,因此使用起来不太方便。在数据库中,统计指标可按多种不同方式进行分类,只要用户有需要的类别都可以添加到数据库中,可以解决统计年鉴存在的问题,使得各种集聚关系都能得到反映。
   2.条件对象
   某一行业的数据主要是与本行业的数据一起使用,即同分组的数据一起使用,这是一种很重要的集聚关系。这种集聚关系可用条件对象的方法来反映,即把带有某一种分组项的指标全部筛选出来,组成一个分析对象。例如,采矿业的统计指标均带有采矿业的行业编码,只要把查询条件设为采矿业,就可以把这些指标都找出来。
   对于条件对象,指标类别同样是适用的。假如我们已给定全国的主要经济指标,那么要查询某一省的主要经济指标,只要把全国主要经济指标加上该省的分组码就可以了。
   五、反映指标间关系的其他途径
   以指标类型、指标代码和指标类别为工具,统计指标间的大部分关系已可以反映出来,但仍有一些重要关系不能体现。为了把更多的关系反映出来,可用途径还有:
   1.派生指标
指标间的运算可以生成大量的新指标,如出口减进口生成进出口差额、进出口总额除以GDP生成贸易依存度,这种通过指标间运算产生的指标称为派生指标。派生指标可以根据需要定义,没有原始数据,可以和普通指标一样使用。
  指标间的运算必须以指标类型为基础,同样是除法运算,但计算公式却多种多样。两个指标相除,可以生成比率类指标,也可以生成绝对额指标,但两者计算过程完全不同。如果没有指标类型,定义指标间运算就会很麻烦,甚至无法实现。现价居民可支配收入除以相应的价格指数可以生成不变价居民可支配收入,这一看似很简单的过程,但在数据库实现起来并不是很容易。价格指数有可能是当月指数、累计指数、当月涨幅、累计涨幅,可支配收入同样也有多种情况,只有借助指标类型的概念,才能使除法运算公式与这些具体情况相独立。
   2.相近指标
   含义相近但又略有不同的指标很多,如按人民币计价的进出口和按美元计价的进出口、由两个不同部门统计的同一指标、调整前后的GDP等等。相近指标可在指标代码中予以反映,方法是在指标代码的最后面添加附加码,附加码与其他编码之间用“!”分开。这样,相近指标就是附加码不同的指标。
   3.关联指标
   每个统计指标的关联指标都是不一样的,因此只能一个指标、一个指标地定义。这种定义可以在数据库指标体系设计阶段进行,也可以根据使用情况自动生成,即把经常一起使用的指标设为关联指标。
   4.指标的常用程度
   指标的常用程度可根据各指标的使用次数自动生成。在查询时,越是常用的指标就排在越前面。

作者简介
余根钱,1989年毕业于中国社会科学院研究生院数量经济与技术经济研究所,国家统计局统计科学研究所统计监测室主任、高级统计师,国民经济研究所特约研究员

  统计指标间的内在关系是人们进行经济分析的基础,也是数据关联使用的依据。为了使数据库使用起来更加方便,并开发出一些智能化的分析功能,数据库的设计应尽可能地把这些关系反映出来。
   一、统计指标间的常见关系
为了把统计指标间的内在关系在数据库中反映出来,首先应把这些关系搞清楚。统计指标间的内在关系众多,在2005年设计《智能型中国经济数据库》时,我们对这些关系进行了一次系统的归纳,结果如下:
   1.指标间的运算关系。即一个指标可通过其他指标计算出来。这是一种非常普遍的关系,如出口增长率可由出口总额计算,进出口差额等于出口减进口,名义收入除价格指数可得实际收入,总产出除劳动人数等于劳动生产率等。
   2.分组汇总关系。即分组指标和汇总指标之间的关系。虽然分组汇总关系也是指标间的运算关系,但这种运算关系非常规范,并在分析中应用广泛,因此有单独出来的必要。分组汇总关系可以是简单的相加,也可以是加权相加。前者如投资总额,可以按行业、地区、经济类型等多种方式进行分组,每一种分组的所有分组指标之和正好就是投资总额;后者如工业品出厂价格指数,可以按地区分为31个省(市、区)的指数,但每个省重要程度不一样,只能取加权平均。
   3.月度数、季度数和年度数间的转换关系。月度数、季度数和年度数是三种常见的数据类型,相互之间可以转换,由月度数可以生成季度数和年度数,由季度数可生成年度数。如财政收入,只要有各月的收入总额,就可以算出各季和全年的收入总额。这种关系还可用全年数据倒推出个别月份或季度的数据。能反映这种关系的数据库将可以实现三种数据的混合使用。
   4.指标间的数量依存关系。几个指标之间,虽然相互之间不能互相推算,但却需要保持一定的数量关系。这种数量关系是由经济关系决定的,甚至可用于衡量经济运行是否正常、数据是否异常。如货币供应量与经济总规模之间的关系、投资和消费的关系、收入增长和产出增长的关系、当月增长率和上月增长率的关系等等。
   5.关联关系和集聚关系。关联关系是指在分析某一指标时经常需要了解一下其他指标的情况,并且这些“其他指标”是相对固定的,每一次都差不多。集聚关系是指统计指标的使用不是孤立的,经常是一些指标一起使用,这些一起使用的指标形成了一个一个的指标集合。如全国的指标主要是与全国指标一起使用,地区的指标主要与本地区的指标一起使用。在作比较时,比较对象往往比较固定,如山东的主要比较对象是广东和江苏。
   二、指标类型与数据间的运算关系
   在使用数据时,有些数据总是一起使用,并且相互之间联系紧密,如出口总额通常有当月绝对额、累计绝对额、当月增长率和累计增长率四项数据,这四项数据往往一起使用。在有些情况下,这些数据必须一起使用才有意义,如为了分析各地区出口增长速度,必不可少的权重数据正好可以从出口额计算出来。为了使用的方便,这些总是在一起使用或必须一起使用的数据就最好是集中存放,并且要把数据之间的关系也反映出来,而不能和以往的数据库那样作为相互独立的指标。这一做法将导致数据管理模式的根本改变,数据库将由单纯地管理数据改变为管理数据和数据关系,一个指标将由对应一项数据转变为对应多项数据。在数据库中反映数据关系是一项全新的要求,没有现成技术可用,只能依靠科技创新。最简单的方法是对每个指标分别地定义各项数据的含义和数据项之间的关系,但这样的数据库难以维护、更无法扩展,因此是不可行的。指标类型的概念就是在实践过程中逐步形成的,其基本做法就是把数据间运算关系完全相同的指标归为一类,并针对每一种指标类型来定义数据间的关系。建立了指标类型以后,数据间运算关系的定义过程就高度简化了,只要指定某一指标所属的指标类型就完成了全部定义。

绝对额类原始数据的可能情况

序号

月度数

季度数

年度数

1

当月绝对额

当季绝对额

/

2

累计绝对额

累计绝对额

累计绝对额

3

当月绝对额和当月增长率

当季绝对额和当季增长率

/

4

累计绝对额和累计增长率

累计绝对额和累计增长率

累计绝对额

累计增长率

5

当月绝对额和当月发展速度

当月绝对额和当季发展速度

/

6

累计绝对额和累计发展速度

累计绝对额和累计发展速度

累计绝对额

累计发展速度

7

当月绝对额和当月同比增加额

当季绝对额和当季同比增加额

/

8

累计绝对额和累计同比增加额

累计绝对额和累计同比增加额

累计绝对额

累计同比增加额

9

当月绝对额、累计绝对额和累计增长率

当季绝对额、累计绝对额和累计增长率

/

10

当月绝对额、累计绝对额、当月增长率和累计增长率

当季绝对额、累计绝对额、当季增长率和累计增长率

/


   1.常见的指标类型
   指标类型是为了规范数据项间的运算关系而提出的,但指标类型的设定并不仅仅考虑这一因素,而是融入了更多的内容。设定指标类型应考虑的因素是:(1)数据中的信息含量;(2)数据项之间的内在关系;(3)分组汇总的性质;(4)数据的数量特征。这四个方面都相同的指标可看作是同一类型,当某一方面或几个方面不同时,则应看作是不同类型。以绝对额类指标为例,其基本特征是:(1)各月绝对额始终大于0;(2)当月增长率、累计绝对额、累计增长率均可从当月绝对额计算,因此当月绝对额含有该类指标的全部信息;(3)绝对额有明显的长期趋势,增长率则基本上没有长期趋势;(4)分组指标之间绝对额可加。
通过对大量统计指标的观察和分析,我们归纳出很多种指标类型,常见的类型是:绝对额类、准绝对额类、平均额类、准平均额类、时点类(余额类)、准时点类(准余额类)、时期平均类、价格指数类、定基价格指数类、比率类、差额类、差额增长率类、单指数类等等。针对每一种标准类型,均需进行深入细致的研究,主要内容有:(1)类型的概念和主要特征;(2)原始数据的各种情况和数据标准化公式;(3)数据项之间的关系和可派生的数据项;(4)数据汇总函数和指标间的运算函数;⑸月度数、季度数和年度数的转换关系;⑹各数据项在分析中的作用;⑺标准文本的生成方法。
   2.原始数据的多种情况
   当月进口总额和累计进口总额是两个不同的指标,但相互之间可以转换,即从当月进口总额可以计算出累计进口总额,或反之,因此从使用角度看,这两个指标是完全一样的。由于指标类型包含这种转换关系,因此为解决这一问题提供了可能。当月进口总额和累计进口总额均为绝对额类指标,是原始数据的两种不同情况。绝对额类指标的原始数据情况还有很多,如表1所示,并且所有这些情况均可通过数据项之间的运算生成相同的数据项,可生成数据项有当月绝对额、累计绝对额、当季绝对额、当月增长率、累计增长率、当季增长率、当月同比增加额、累计同比增加额和当季同比增加额等等。在表1中,原始数据的情况多种多样,有些看上去完全不同,但在数据没有缺损和差错的情况下,所包含的信息完全相同,均可生成同样的数据。
   3.逻辑检查
  在原始数据中,有时包含一些重复信息,如表1中的第3种情况,月度数为当月绝对额和当月增长率,由于当月增长率可从当月绝对额计算,因此是重复信息,但这一重复信息不是没有用,可用于检测原始数据是否正确。当从绝对额计算出来的增长率与原始数据中的增长率不一致时,那么就说明原始数据有问题。
   4.弥补缺损值
   月度进口总额为绝对额类指标,假如有当月绝对额(x)、累计绝对额(cx)、当月增长率(rx)和累计增长率(rcx)四个原始数据项。第一种情况是缺某一个月的当月绝对额,依据当月绝对额等于累计绝对额减去上月累计绝对额可以把缺损值补上。第二种情况是累计绝对额也缺损,这时可根据上年绝对额和当年增长率进行推算,公式为:
 
   根据上式计算出累计绝对额后已还原成第一种情况。第三情况是当年增长率也缺损,这时可根据下年绝对额和增长率进行推算,公式为:
 
 
   5.月度数、季度数和年度数的转换
月度数包含了季度数和年度数的信息,季度数包含了年度数的信息,因此月度数可以转化为季度数和年度数据,季度数可以转化年度数,但不能反过来。以绝对额类指标为例,月度数的标准数据项是当月绝对额、累计绝对额、当月增长率和累计增长率,季度数的标准数据项是当季绝对额、累计绝对额、当季增长率和累计增长率,年度数的标准数据项是累计绝对额和累计增长率,但月度数也可以生成当季绝对额和当季增长率,月度数转换为季度数的方法是:选定数据项当季绝对额、累计绝对额、当季增长率和累计增长率,然后指定输出月份为3、6、9和12;月度数和季度数转换成年度数的方法是:选取累计绝对额和累计增长率,并指定输出月份为12。
   6.统计口径变动的处理
统计口径经常变化,因此同一口径的数据往往只有较短的时间序列,特别是口径发生变动的年份,老口径的数据没有了,而新口径数据则不到一年。时间序列过短,会造成很多分析无法进行。为了解决这一问题,就需要把不同口径的数据联接起来,形成较长的时间序列。这一问题也是依靠指标类型解决的,否则很难找到出路。主要有两种方法可用:
第一种方法是联接指标法。这种方法仅需在定义指标时选取一个延伸历史数据的联接指标就可实现。用这一方法来联接历史数据,分为绝对额可联、增长率可联和增长率比例可联三种情况。这种联接方法可以处理统计口径多次变动的情况,这相当于联接指标还有联接指标。增长率可联只要求两个指标的增长率可比,而不要求绝对额可比。以固定资产投资完成额为例,2004年的统计口径发生了变化,变化前后的增长率是可比的,但绝对额不可比。
  第二种方法是口径变动仍作为同一指标处理,并在指标说明中加以解释。这种方法要求原始数据有多项数据,并且两个指标的原始数据项完全相同。
   三、分组汇总关系
   分组汇总关系是统计指标间的重要关系,可用于结构分析、平衡关系分析等多种分析。制定适当的指标代码编码规则,就可以把分组汇总关系反映出来。
   1.反映分组汇总关系的指标代码编码规则
为了叙述的指标代码编码规则,必须先引入基本指标的概念。基本指标是相对于分组指标而言的。以工业增加值来说,本身有多种分组指标,如按行业分、按经济类型分、按地区分、按轻重工业分,每一种分组都有多个指标;然而其本身又可以看作是国内生产总值按行业分的分组指标。如果一个指标不是其他任何指标的分组指标,那么就是基本指标。
基本指标的编码基本上没有限制,不要使用符号“_”和“!”即可,因为这两个符号是分组码和附加码的联接符。为了指标编码管理的方便,基本指标编码按指标类别编制较好,每个类别用一个英文字母开头,然后是顺序号。
   分组指标的编码由基本指标代码加分组码构成,两者之间用符号“_”联接。分组码由两部分构成,前两位是分组方式代码,后面的是分组项代码。当一个指标包括多种分组方式时,分组码之间用符号“_”联接,并按ASCII码的大小顺序排列,以便确保编码的唯一性。如山西省城镇居民食品支出的代码为H001_0214_081,其中的H001为基本指标代码,表示城镇居民消费支出,0214表示按地区分组的山西省,081表示按消费支出用途分组的食品支出。
  对于多级分组,分组项的级别差异可用分组项代码长度来区分,规则是:同级分组项的代码长度必须相同,下级分组项的代码是在上级分组项代码的后面加上本级编码,代码长度自然就比上级分组项长。
当指标代码按上述规则编制时,将可以方便地找出任一指标的分组指标、同级指标、下级指标、上级指标、同分组指标。这些关系对于数据查询、对比分析等功能的设计非常有用。
   2.数据汇总公式
   由分组指标加工出汇总指标,不一定是简单的相加,而是与指标类型有关。对于不同的指标类型,数据汇总的公式是不一样的。以准绝对额类指标为例,两个指标相加时,当月绝对额和累计绝对额可以直接相加,即:
 
 
   式中x(t)表示当月绝对额,cx(t) 表示累计绝对额,下标“1”和“2”分别表示两个分组指标。当月发展速度和累计发展速度为加权相加,权重应取上年绝对额,但计算时并不是直接用上年绝对额,而是用当年绝对额除以同比发展速度生成,记
                       
  
   则发展速度的计算公式为:
 
 
   式中 gx(t)为当月发展速度, gcx(t)为累计发展速度。
   上述汇总公式可以推广到多个指标的情况,方法是两个指标加总后再与另一指标相加,并不断地重复这一步。对于季度数,把当月绝对额和当月发展速度替换成当季绝对额和当季发展速度即可。对于年度数,去掉当月绝对额和当月发展速度的计算公式即可。
分组汇总公式还与分组方式的类型有关。以城镇居民人均消费支出为例,按地区分时,各地区的人均消费支出是不可加的,应以相应的人口数为相对权重进行加权相加,然而,按消费支出用途分时,各项支出是直接可加的。为了体现这种差异,我们把前一种分组称为标准分组,后一种称为构成指标。
   3.生成组合分组项的数据
  在实际工作中,经常需要把若干个分组指标的数据合在一起使用,如研究东北地区经济运行情况时,就需要把东北三省的数据合在一起。组合分组项就是为这一目的设计的,指由若干个标准分组项组成的分组项。利用分组指标的数据汇总公式,组合分组项的数据可以自动合成,如东北地区,只要东北三省都有数据的指标,该地区也就有该指标。在《智能型中国经济数据库》中,组合分组项可以根据需要添加或修改,是进行数据重组的重要工具。
   4.结构分析
   当某一指标有分组指标时,就可以对该指标的构成情况和构成变动情况进行分析。以工业销售收入的分地区数据为例,可分析内容有:销售收入规模较大的地区有哪些、哪些地区发展速度快、哪些地区发展缓慢、哪些地区对增长的贡献最大、哪些地区对增长速度变化的影响最大、发展速度的均衡性如何、发展水平的均衡性如何、增长格局是否发生了变化等等。
   四、集聚关系
   为了反映统计指标的集聚关系,可用指标类别和条件对象的方法。
   1.指标类别
指标类别是在对统计指标分类的基础上形成的,就是把功能、作用相近或经常在一起使用的指标归为一类。在中国统计年鉴中,统计指标分为行政区划、自然资源、综合、国民经济核算、人口、就业、投资、能源、财政、价格、人民生活、农业、工业、建筑业、运输和邮电业、国内贸易、对外经济和金融等类别。但统计年鉴中的指标分类难以满足某些统计分析的需要,以研究制造业问题来说,需要把制造业的生产、价格、投资、进出口等数据集中起来使用,但这些数据分散在统计年鉴的多个部分,因此使用起来不太方便。在数据库中,统计指标可按多种不同方式进行分类,只要用户有需要的类别都可以添加到数据库中,可以解决统计年鉴存在的问题,使得各种集聚关系都能得到反映。
   2.条件对象
   某一行业的数据主要是与本行业的数据一起使用,即同分组的数据一起使用,这是一种很重要的集聚关系。这种集聚关系可用条件对象的方法来反映,即把带有某一种分组项的指标全部筛选出来,组成一个分析对象。例如,采矿业的统计指标均带有采矿业的行业编码,只要把查询条件设为采矿业,就可以把这些指标都找出来。
   对于条件对象,指标类别同样是适用的。假如我们已给定全国的主要经济指标,那么要查询某一省的主要经济指标,只要把全国主要经济指标加上该省的分组码就可以了。
   五、反映指标间关系的其他途径
   以指标类型、指标代码和指标类别为工具,统计指标间的大部分关系已可以反映出来,但仍有一些重要关系不能体现。为了把更多的关系反映出来,可用途径还有:
   1.派生指标
指标间的运算可以生成大量的新指标,如出口减进口生成进出口差额、进出口总额除以GDP生成贸易依存度,这种通过指标间运算产生的指标称为派生指标。派生指标可以根据需要定义,没有原始数据,可以和普通指标一样使用。
  指标间的运算必须以指标类型为基础,同样是除法运算,但计算公式却多种多样。两个指标相除,可以生成比率类指标,也可以生成绝对额指标,但两者计算过程完全不同。如果没有指标类型,定义指标间运算就会很麻烦,甚至无法实现。现价居民可支配收入除以相应的价格指数可以生成不变价居民可支配收入,这一看似很简单的过程,但在数据库实现起来并不是很容易。价格指数有可能是当月指数、累计指数、当月涨幅、累计涨幅,可支配收入同样也有多种情况,只有借助指标类型的概念,才能使除法运算公式与这些具体情况相独立。
   2.相近指标
   含义相近但又略有不同的指标很多,如按人民币计价的进出口和按美元计价的进出口、由两个不同部门统计的同一指标、调整前后的GDP等等。相近指标可在指标代码中予以反映,方法是在指标代码的最后面添加附加码,附加码与其他编码之间用“!”分开。这样,相近指标就是附加码不同的指标。
   3.关联指标
   每个统计指标的关联指标都是不一样的,因此只能一个指标、一个指标地定义。这种定义可以在数据库指标体系设计阶段进行,也可以根据使用情况自动生成,即把经常一起使用的指标设为关联指标。
   4.指标的常用程度
   指标的常用程度可根据各指标的使用次数自动生成。在查询时,越是常用的指标就排在越前面。

作者简介
余根钱,1989年毕业于中国社会科学院研究生院数量经济与技术经济研究所,国家统计局统计科学研究所统计监测室主任、高级统计师,国民经济研究所特约研究员



欢迎来到中国统计学会 中国统计科学研究网!
版权所有:中国统计学会 国家统计局统计科学研究所 不得转载
通信地址:北京市西城区月坛南街75号 邮政编码:100826 电子邮箱:yjsinfo@stats.gov.cn