版次:07 来源:中国信息报 2022年06月30日
■ 王江明
“同质可比”是目前我国PPI、CPI、HPI等价格专业统计调查过程中遵循的重要原则,是报告期价格与基期价格具有可比性的基础。随着经济社会的发展,群众需求更加丰富多元,“同质可比”原则在实践中也面临更多挑战。在信息技术不断更新、统计现代化改革持续推进的时代背景下,如何充分利用大数据,拓展价格统计数据来源渠道,改进价格统计制度方法,与时俱进提高同质可比原则的实际操作性和价格对比的准确性,考验着各方智慧。
一、价格统计同质可比面临实践之“困”
目前我国较受关注的价格指数主要有工业生产者价格指数(PPI)、居民消费价格指数(CPI)、住宅销售价格指数(HPI)等。以上各类价格指数均为“纯价格指数”,即价格指数只反映由市场供求变化和货币购买力引起的市场价格变化,是体现不同时期价格水平变化趋势和程度的相对数量指标。这就要求统计过程中剔除质量、外观、生产、供应等非价格变动因素,做到“同质可比”。根据价格统计调查一线工作反馈,单纯采用传统的价格统计调查方式,“同质可比”的实际操作性将越来越弱,难以与日新月异的社会发展相匹配,若不加以优化,势必影响统计调查的公信力。
(一)部分价格缺失影响“同质可比”。
1. HPI调查中上期价格无法取得。目前,我国70个大中城市新建住宅销售价格调查均为全面调查,基础数据直接采用当地房地产主管部门的网签备案数据,内容包括住宅所在项目名称、项目地址、幢号、总层数、所在层数、住宅结构、成交总价、建筑面积、签约时间、行政区划等,较充分利用了大数据中的政府部门数据,基础数据的真实可靠得以保障。但网签备案数据中的新开项目和间断性销售项目的上期价格是自然缺失的,在进行价格指数计算时需对上期价格进行增补,增补方法要求较高,在未充分利用大数据信息的情况下,存在一定主观因素和估算误差。
2. PPI调查中部分条件发生变化。根据现有制度,工业生产者价格调查实行月报,由“代表企业”定期报送“代表产品”的价格情况。企业上报的报表包括报告期单价和上月平均单价,产品报告期单价为报告月5日、20日两次所采单价的简单算术平均值。在PPI调查一线工作中,各地都尽可能选择对国计民生影响大、生产较为稳定、有发展前景、有地方特色的产品,即“代表产品”,但PPI调查品类众多,以工业生产者出厂价格调查为例,共调查41个工业行业大类,207个工业行业中类,666个工业行业小类的工业产品,并将其划分为1310个基本分类。实践中难以保证同一企业同一款产品在报告月与上月均有完全同质的销售记录。即便是同一企业同一款产品,面向不同客户时,价格也有所差别。如当客户资信较佳、合作时间较长或订单量较大时,价格往往较低。以上情况可视同“代表产品”某个采价时点价格的缺失,需剔除非价格变动因素后进行价格填补,在现行未利用大数据的传统方式下,该工作主要由企业统计员人工完成,而企业统计员由于专业知识、工作经验、市场判断等多方面条件限制,对“同质可比”的认识不一,可能影响价格调查的准确性。
(二)产品特殊属性影响“同质可比”。
1. 住宅产品异质性突出。在HPI调查中,无论是新建商品住宅还是二手住宅价格统计,同质可比原则的遵循都存在一定难度。众所周知,住宅作为特殊商品,难以像其他商品一样做到规格、型号、尺寸等方面的绝对一致。不同的两套住宅,在地理区位、配套设施、小区环境等方面均存在差异。相比而言,二手住宅的异质性更为突出,即便是位于同一小区房源,在楼栋位置、具体楼层、单元朝向、房屋折旧、内部装修等品质上也有较大区别。
2. 部分品类更新换代频繁。CPI中的服装产品、PPI调查中的电子产品等均存在更新较快的现象。当前CPI调查主要通过手持数据采集器,以定人、定点、定时的方法直接调查。服装类产品较注重流行时尚,同一品牌的服装在款式设计、面料选择、色彩配搭等方面都呈现多变特点,此外服装类商品具有季节性,生命周期普遍较短,在定人、定点、定时的条件下,往往难以采集持续、稳定的价格。PPI调查也规定在选择代表产品时应选择生产较为稳定的产品,“一旦被选为代表产品,就要连续调查一个时期”,当产品被纳入统计时往往已处于价格较平稳阶段,易造成价格指数的低估。这也是导致CPI中的服装类产品和PPI中的通信设备、计算机及其他电子设备制造业出厂价格指数多年“阴跌”、与百姓实际感受有一定差距的重要原因之一。
(三)大数据冲击间接影响“同质可比”。
大数据时代产生海量信息,百姓获取资讯的方式更多元、途径更广阔、渠道更丰富,也对传统的政府统计体系构成巨大挑战。目前,社会上公布各类价格指数的机构或企业众多,数据来源多样,计算方法也各不相同,各期指数与国家统计局官方公布的数据也存在一定差距。多数群众对于政府价格统计“同质可比”的原则并不知晓或理解,单纯以主观感受做判断,对政府统计数据产生质疑。在此情况下,如不能迅速做好网络舆情监测和解释工作,势必造成政府统计权威性和公信力的减弱。以CPI为例,前几年有企业发布网购价格指数,部分研究者以此来评估国家统计局月度发布的CPI,认为CPI数据存在测算错误。事实上,该企业的价格指数仅仅通过旗下电商平台的交易数据计算,离全样本要求差距较大。再如房价指数,国家统计局官方发布的是70个大中城市商品住宅销售价格指数,同时在互联网平台上还能看到不同机构发布的有关价格指数等,除国家统计局外,其他机构的房价指数多以各城市的成交样本平均价格计算,未区分不同户型结构,也未充分考虑“同质可比”,因此与官方统计数据必然存在差异。
二、政府统计共享大数据发展之“机”
对政府统计工作而言,大数据是采用现代信息技术和架构高速处理和挖掘、具有高度应用价值和决策支持功能的数据、方法及其技术集成,一般情况下具有“多V”特征,即:数据体量巨大(Volume)、数据类型众多(Variety)、处理速度快(Velocity)、应用价值大(Value)、真实准确性(Veracity)、获取与发送方式自由灵活(Vender)等。不可否认,大数据为政府统计源头数据信息化改革、宏观经济测度等提供了前所未有的条件和机遇。价格统计由于样本采集范围广、统计频率高等原因,成为受大数据直接影响最为显著的领域之一,利用大数据改进CPI、PPI、HPI等价格统计调查的探索已在路上,“同质可比”在实践中的困境有望不断缓解乃至得到有效解决。
(一)大数据应用于价格统计是推进统计现代化改革的重要内容之一。
2020年,党的十九届五中全会作出推进统计现代化改革的重大部署。2021年,国家统计局为构建与国家治理体系和治理能力现代化相适应的现代化统计调查体系,制定《“十四五”时期统计现代化改革规划》,指出“新一轮科技革命深入发展,为提高统计生产力、变革统计生产方式、重塑统计生产关系提供了强劲动力”,同时也看到“统计工作数字化转型迟滞”,提出“改进完善价格统计”“推进部门统计数据应用和共享”“加快推进大数据在统计工作中应用”等要求。同年,《国家统计局大数据应用工作方案(2021)》印发,明确要“发挥大数据在拓展数据来源渠道、提升统计调查效能、提高统计数据质量等方面的功能作用,实现大数据统计应用新突破。”由此可见,政府层面已充分认识大数据给政府统计带来的历史机遇和重要挑战。
(二)大数据应用于价格统计已有前沿研究。
针对价格统计领域的大数据应用,国外学者研究较早。1993年,Diewr就提出可在价格指数编制中使用扫描数据,从而减少价格指数编制中出现的替代性偏差和新产品偏差。近几年,国内部分专家学者及统计工作者也从各角度提出中肯意见。何强(2015)表示大数据在中国政府统计的未来应用,要基于大数据,尤其是云计算的广泛应用,建立大数据的数据质量评估机制,打造更加科学翔实的政府统计数据来源“第二轨”。谢作正、王克林(2016)建议利用电子商务数据、扫描数据等数据源实现对工业品结构和出厂价格的整体把握。董倩(2017)结合特征价格法与重复交易法特点,通过重复特征“R-H”交易法编制二手房价格指数,选取不同的匹配空间,在现有数据条件下最大程度做到同质可比。余芳东(2018)认为基于网络抓取数据编制 CPI,在产品匹配性、可比性以及指数编制方法等方面,不同于传统抽样统计理论方法,需要创造新理论和新方法。
(三)大数据应用于价格统计已在实践探索。
在国外,澳大利亚统计局、美国劳工统计局、新西兰统计局等均已正式利用扫描数据来编制本国的CPI。近年来,我国统计部门勇当政府机构大数据开发利用的“排头兵”,按照“总体设计、牵头攻关、先易后难、专业突破”的核心应用思路,稳步推进大数据在政府统计中的研究与应用。早在2014年,国家统计局就与腾讯等6家企业签署大数据战略合作框架协议,并就舆情监测、房价统计等领域开展实质性合作。近几年,价格统计制度方法也不断完善更新。CPI调查方面,2020年12月,为适应大数据和信息化对价格调查工作的要求,国家统计局城市司制定下发《扫描数据应用与管理办法》,对全国CPI调查专业规范开展扫描数据应用于采价工作提出明确要求,鼓励各省市在条件成熟的市县积极开展试点工作。以福建省为例,国家统计局福建调查总队已在全省8个市县17个调查网点开展试点工作,并以“新旧并存”的形式作为传统采价方式外的重要补充。
三、利用大数据完善价格统计同质可比之“路”
如上所述,国内外就大数据运用于价格统计已有不少研究和实践探索,但具体研究价格统计同质可比问题的成果并不多,笔者尝试结合国内外部分研究成果和价格统计一线实践经验,提出利用大数据解决价格统计同质可比实践难题的若干路径设想,以供参考。
(一)遵循原则。
1. 大胆探索、长期渐进原则。一直以来,“同质可比”都是价格统计实践中的重点和难点问题,单纯依靠传统调查方式显然无法寻得最优解,而大数据以其高频率、细粒度、多样化等优势,为价格统计开辟了新的数据源。在新时代浪潮下,只有大胆探索,按照“优势互补、互利双赢、数据导向、逐步递进”的路径促进统计部门与社会机构、大数据企业开展深入合作,才能推动大数据成为价格统计的重要补充来源。但同时,现阶段我国利用大数据缓解价格统计“同质可比”在实践中的困境,既有数据获取和质量保障上的困难,也有技术和方法中的瓶颈,暂时无法完全替代传统调查方式,仅能作为现行方式的有益补充。利用大数据优化价格统计同质可比应是长期渐进的过程,需要反复试验研究,要防止“大数据傲慢”,避免因冒进损害政府价格统计工作的科学和严谨。
2. 安全保密、连续稳定原则。《中华人民共和国统计法》明确规定统计调查对象须“真实、准确、完整、及时地提供统计调查所需的资料”,同时也要求“统计机构和统计人员对在统计工作中知悉的国家秘密、商业秘密和个人信息,应当予以保密。”利用大数据有益于缓解价格统计中“同质可比”的难题,但大数据来源广泛,往往需要借助政府部门以外的私营企业、机构等实施应用,企业注重商业利益,与政府部门服务公众的目的存在一定差异,因此在数据合作过程中,如何防范潜在的泄密风险和安全隐患成为关键,需建立完整法律体系加以规范。此外,CPI、PPI、HPI等价格统计的特点,要求样本尽可能在一定时期内保持稳定,若从事数据合作的互联网公司、数据资产公司未能较长时间存续,必然影响价格统计工作的延续性,因此保障数据获取途径的连续稳定是不可或缺的重要原则。
(二)扩充数据采集方式。
1. 充分利用电子扫描数据。电子扫描数据是通过扫描设备对销售网点中商品的EAN码进行扫描,获取商品名称、商品编号、产品型号等产品特征信息,在交易时,零售商电子处理系统还可记录相关的零售点及类型、价格、交易数量、交易时间等信息。
该采集方式的优点主要体现在:一是以高频的连续扫描数据代替的“定人、定点、定时”的离散采价数据,消除离散数据的偏差;二是以信息化数据代替人工数据,避免人工采价测量误差和采价网点回答负担;三是产品更新换代信息更精确,纳入统计更及时。较全面的扫描数据可为CPI调查准确实现“同质可比”提供更多支持。
该采集方式的缺点主要体现在:一是应用领域相对局限,主要运用于CPI调查,无法更多用于PPI、HPI等价格调查;二是对网点要求较高,调查网点需有完备的数据库系统,大型商场、超市、医院等可便利采集扫描数据,但较接地气的农贸市场、小型商铺等由于设备限制难以获取;三是数据维护难度较大,与国际上已采用电子扫描数据的其他国家相比,我国国土辽阔,地域色彩浓厚,地区发展、物价水平差异较明显,消费市场中连锁企业众多,统计部门要进行扫描数据采集需要更多企业有效配合,大大增加了数据采集和数据安全保障难度。
目前该方式已在我国部分有条件的地区试点,但仅以“新旧并存”的形式作为价格指数编制的参考。后期条件成熟时可考虑逐步对电子扫描数据和传统“三定一直”采价获取数据进行不同赋权计算CPI。
2. 适当采用网络抓取数据。网络抓取数据是指利用互联网搜索引擎技术实现部分针对性、行业性、精准性的数据抓取,并按照一定规则和筛选标准进行归类的数据合集,也称为网络爬取数据。
该采集方式的优点主要体现在:一是数据来源丰富,能大大增加商品和服务篮子的样本量,与特定的指数编制方法结合,能有效解决HPI、PPI等价格统计中报告月或上月价格缺失、无法实现“同质可比”的问题;二是获取频率高,价格指数的编制频率可从月度提高到半月度、每周甚至每天,提高价格数据发布的及时性,更好服务公众和决策;三是减轻调查的人工成本,利用互联网技术实现价格数据抓取,跨越地域、时间限制,大大降低基层单位统计员、调查企业和辅助调查员的采价负担。
该采集方式的缺点主要体现在:一是技术影响大,如受网站变化、拦截技术因素影响,网络抓取数据可能出现中断或重复、不完整等,需不断改进抓取技术,提高稳定性;二是样本不够稳定,网络抓取的产品更新换代比传统采集方式下更快,如仍以现行的指数计算方法,难以有效匹配;三是成交价格甄别难,无论是网购平台或是房价交易平台抓取的网络数据,多是卖家报价或挂牌价,与实际成交价格还存在差距,如不能有效甄别,可能影响数据真实准确性。
目前挪威、英国、荷兰等国家已在CPI编制过程中部分采用网络抓取数据并取得突破性进展。我国对于网络抓取数据在价格统计中的运用仍然处于探索阶段,建议可在部分信息技术发展较成熟的地区先行试点,如在江苏、浙江等网络购物发达地区实施赋予网络抓取数据一定权重编制CPI;也可在上海、深圳等商品住宅交易发达地区,尝试通过利用房屋经纪平台抓取数据和地理信息系统衍生的POI数据,结合重复交易法、特征价格法等编制HPI。
(三)改进指数编制方法。
1. 尝试比较固定类群价格。在新的时代背景下,随着数据采集方式的扩充,面对价格统计中数量规模更大、更新换代更快的全量数据,适当突破传统统计理论和方法的约束。借鉴比利时、英国等国家,针对网络抓取数据和电子扫描数据,比较固定类群相对同质可比的产品价格,观测反映消费者购买同质同类产品群的价格变化。比较时期内产品类群是固定的,但具体产品是可变的。在该方法下,我们将计算基本分类以下不同时期相同产品类群的价格之比,而非具体产品价格之比。采用该方法的前提是需对巨量采价产品进行聚类,最大限度增加群内产品的高度同质性和相似性,以保证群内产品没有显著差异,降低价格指数偏差。同时,由于突破了传统框架,由“一对一”的比较转变为“群对群”的比较,需要研究和探索更适用于新数据源的指数方法。
2. 推进特征价格法实践应用。特征价格法,又称Hedonic模型法,是利用特征价格模型对样本进行同质化处理的一种方法。目前法国、德国、荷兰等欧洲国家普遍采用特征价格法计算房价指数。该方法同样适用于CPI、PPI等品类众多的价格指数计算。特征价格法认为价格由带给人们的效用决定,每一个效用对应一定的特征价格值,利用大量实际交易数据进行回归分析后,从总的价格变动中逐项剔除特征变化影响,即得到纯粹的由供求关系和货币购买力引起的价格变动,即“同质可比”的价格变动。Hedonic函数主要有线性形式、半对数形式、指数形式和双对数形式等,可根据具体需求进行选择。目前该方法在国内外已有较多较成熟的理论研究,但运用该方法的前提是具备大量的产品价格和特征信息,且计算趋于复杂,对后台数据处理能力和操作人员素质要求较高,在我国的具体实践尚浅。电子扫描数据和网络抓取数据使大规模商品信息获取成为可能,必然为特征价格法的实施提供更优越条件,使其成为当前优化价格统计同质可比的重要方法,建议在部分区域试行并逐步推进。
(作者单位:国家统计局福建调查总队)