随着人工智能、区块链、云计算、物联网等数字技术的迅速发展及其与经济社会各领域的深层次地融合,数据呈现爆发式增长和多元化应用价值,正在推动企业的生产经营方式、政府的治理方式和居民的生活方式发生深刻变化,促进经济社会持续健康发展和增进人民福祉,也将对世界经济发展格局产生深远影响。
党的十九届四中全会提出,“健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制”,首次将数据纳入生产要素并强调形成其收入分配机制。2020年,中央、国务院发布《关于构建更完善的要素市场化配置体制机制的意见》,进一步明白准确地提出了加快培育数据要素市场。2022年,《中央 国务院关于构建数据基础制度更好地发挥数据要素作用的意见》正式对外发布“数据二十条”,从数据产权、流通交易、收益分配、安全治理四个方面初步搭建我国数字基础制度体系。从顶层制度设计层面,确立了数据生产要素的主体地位,并把充分的发挥数据要素价值提升至战略高度。2024年,党的二十届三中全会强调,要充分挖掘数据潜能,深度释放数据红利。可见,党中央、国务院格外的重视数据在经济社会持续健康发展中的重要作用。
政府统计作为反映经济社会持续健康发展情况的重要工具,制定经济社会持续健康发展政策的重要依据,检验经济社会持续健康发展政策科学性和有效性的重要手段,在经济社会管理中发挥着基础性作用。数字化的经济时代,数据爆发式增长并在经济社会持续健康发展中发挥日益重要的作用,就数据统计与核算问题提出重要研究课题十分必要。
近年来,我和我的研究团队对数据统计与核算问题进行了系列研究。本文在上述系列研究基础上从数据的概念、数据价值链、数据的分类、数据的特征、数据对统计生产范围的影响以及数据产出的估价等方面阐述数据统计与核算基本问题。
“数据”是对客观事实或现象等观察的记录,例如,信用卡业务管理者对持卡人消费、还款等行为特征进行数字化记录与分析,以降低违约风险;电子商务平台记录并分析用户的近期消费、浏览数据,进而有明确的目的性地推送定向广告,促进交易的达成。随着人工智能、区块链、云计算、物联网等数字技术的广泛应用,数据能以数字化形式被记录、存储、处理和分析而呈指数型增长。
到目前为止,国内外尚未就数据形成一致的概念。本文从统计和核算的角度阐述加拿大统计局和负责国民经济核算国际标准修订工作的国民账户工作组关于数据的定义。国民账户工作组即国民账户秘书处间工作组的简称,是联合国统计委员会为加强国民账户工作国际组织之间的合作而最早设立的机构间机构,由以下五个成员组成: 联合国、欧洲委员会、国际货币基金组织、经济合作与发展组织、世界银行。
加拿大统计局关于数据的定义:已被转换为数字形式的观察,可以存储、传输或处理,并从中获得知识。这个定义强调了数据的数字化形式,数据与观察的区别,数据的存储、传输、处理和可以从数据中获取知识的特征。
国民账户工作组(2023)关于数据的定义:通过获取和观察现象而产生的内容信息,并以数字格式记录、组织和存储来自这些现象的信息元素,从而在生产活动中使用时提供经济效益。这个概念强调了数据的三个基本属性:来源于生产,用来生产,数字化形式。
全面理解数据的概念,离不开对数据价值链的构建和剖析。借鉴经济合作与发展组织(OECD) 和美国经济分析局的研究思路,并结合实地调研案例分析,我们构建了包含“数据收集、数据存储、数据分析和数据应用”四个阶段的数据价值链,从而描述数据的生产的全部过程,即如何从非结构化的低价值数据形态转变为结构化的可被应用于特定使用场景的高价值数据形态。
数据收集是指以数字化形式对观察到的客观事实或现象进行采集、获取、传输等记录活动。这种将观察以数字化形式记录的数据称为原始数据。
作为数据价值链的起点,数据收集涉及到两个概念,一是“观察”,二是“原始数据”。观察是指事物、事件、活动和交易的客观存在,比如个人的姓名、性别、喜好,天气情况,房屋的位置、面积等属性,机器的运转情况,网上购买商品等行为。不论是否发生数据收集活动,观察是客观存在的,也不一定被人们感知和记录。显然,观察不是生产活动的结果,不在国民经济核算的范畴之内。
原始数据是指出于保存历史记录和辅助后续决策等经济目的和社会持续健康发展目标而有意识地对观察进行的基本记录,往往需要投入相应的人力、物力资源进行记录,比如卡奥斯使用传感器、电脑、移动电子设备记录的机器运行数据,贝壳找房通过业务员采集并数字化的楼盘字典数据。可见,原始数据的形成过程符合2008年SNA对生产活动的定义,即在机构单位控制和负责下,利用劳动、资本、货物和服务投入生产货物或服务产出的活动,原始数据是生产活动的结果。
数据存储是对所收集的数字化数据来进行数据清洗、整理和编码,并以自有服务器或云端运维的方式将数据来进行存储,形成标准化、结构化的数据,以供高效访问和使用。由于数字化采集技术和数据存储能力的大幅度的提高,数据收集和存储两个阶段可能瞬时合并完成,但数据的存储阶段仍然需投入劳动和资本等资源进行生产,经过存储的数据是生产活动的结果。
数据分析是指数据科学家或开发应用人员利用数据科学、数据挖掘、机器学习等分析手段对已标准化、结构化的数据进一步加工分析,提炼输出有用的知识,建立知识图谱,使数据进一步增值。如卡奥斯、贝壳找房和浦东政务云平台等为了发挥数据的价值都经历了这一阶段。
数据应用是指基于数据分析形成的知识做出决策,并进一步将决策应用于特定使用场景,最终实现数据的多元化应用价值。比如卡奥斯实现大规模定制化生产并提供智能产品服务,贝壳找房实现购房者与房源的高效匹配以及提供VR看房服务,上海浦东的海关部门利用政务云平台的企业法人库中信用档案数据,极大提升了跨境交易的物流效率。
由上述数据价值链可见,数据之所以成为数字化的经济时代的新型生产要素,主要缘于人工智能、区块链、云计算、物联网为代表的数字技术的迅速发展,计算机、传感器和其他电子采集设备取代了纸和笔等传统记录工具,使得数据能以数字化形式记录和存储,并以前所未有的规模和速度做多元化的分析应用,从中获得真知灼见和决策,最终广泛地与经济社会各领域深层次地融合,创造巨大经济价值。
数据的统计与核算范围包含数据价值链全流程上各阶段形成的数据形态,但不包括数据收集阶段未经数字化记录转化之前的观察。
依据数据格式,可以将数据划分为结构化数据、半结构化数据和非结构化数据三类。结构化数据是以明确定义的模式和格式组织的数据,通常存储在数据库表格中。这种类型的数据易于管理和分析,因为它们具有清晰的结构,包括行和列。常见的例子包括姓名、地址、邮编、手机号码等。非结构化数据是最不规则的数据类型,它们没有预定义的数据模式或格式。这类数据可能是自然语言文本、图像、音频或视频等形式。半结构化数据介于结构化和非结构化数据之间,具有部分结构,但并没有严格的模式或格式。半结构化数据可能以各种方式组织,这中间还包括标记、标签或元数据。常见的例子包括XML文档、制表符分隔的文件等。
依据数据来源主体,可以将数据划分为企业数据、政府数据和个人数据。企业数据是指以数字化形式获取,经过存储、分析并用于开发决策,从而通过持有或使用为其带来经济效益的数据;政府数据是指政府部门在履职过程中获取、创建、传播和积累的政府内部和外部的有关数据;个人数据是指与已识别或可识别个人(数据主体)有关的任何信息。企业数据、政府数据和个人数据并不是完全独立的,企业持有的数据,有可能包含个人的数据信息;政府持有的数据,也有一定的可能包含企业和个人的数据信息。企业数据、政府数据和个人数据都可以作进一步的细分类。
依据数据获取方式,可以将数据划分为自给型数据和交易型数据。自给型数据是组织或个人自主收集和生成的数据,通常是为满足内部需求或个人目的而采集的。这类数据能够最终靠各种方式获取,包括内部系统、传感器、日志记录等。交易型数据是通过交易或交换而获得的数据,通常涉及到经济交易或合作伙伴关系。这类数据来自于外部来源,如数据提供商、合作伙伴或公共机构。
依据数据所属行业进行分类,例如依据《国民经济行业分类》 (GB/T 4754-2017)中的20个门类、97个大类、473个中类、1380个小类,将数据划分为为农林牧渔业数据、制造业数据、批发和零售业数据、金融业数据、卫生和社会工作数据、公共管理社会保障和社会组织数据等20个门类数据和相应的细分类数据。
数据与货物和服务既有相同特征,又有不同特征。数据与货物都能够确定所有权且所有权可以转移,可以存储,但货物是有形的,而数据是无形的。数据与服务都是无形的,但数据能够确定所有权且所有权可以转移,可以存储,而服务不能够独立确定所有权且所有权不可以转移,不可以存储。我们将数据的特征归纳为7个方面。
数据具有非竞争性。非竞争性是指某产品对一个使用者的供给并不减少对其他使用者的供给,公共产品就是典型的例子。传统的非公共产品具有竞争性,即一产品被一个人完全拥有,其他人就无法再拥有该产品;如果多人共同拥有同一产品,每个人只能拥有该产品总价值的一部分,而不是全部。与传统的非公共产品不同,数据具有非竞争性,数据被一个人获得后,其他人还能够继续获得该数据,无论有多少人获得数据,他们都拥有数据的全部。而且数据被共享使用的次数越多,价值越大。同时,非竞争性使得复制数据的成本低(边际生产所带来的成本为零或接近零),同一数据几乎能被无限复制。
数据具有非消耗性。有别于传统的投资品(例如机器或建筑物)会在使用中自然地衰减或损耗,数字化形式的数据可以永久存储,且在使用的过程中往往不会衰减或损耗,反而会产生新数据,使用的次数越多,数据体量越大。这一特征给数据资产的折旧核算带来挑战。
数据具有时效性。数据的价值可能跟着时间的推移因过时而贬值,但贬值的速度主要根据数据的类型和用途。比如,交通出行数据对于出行者的有效性在某一时点之后就不重要了,但对于交通部门运营决策目的来说,这一些数据的价值可能在一段时间后会增加。
数据能轻松实现融合增值。单一数据的价值往往有限,但是通过与其他数据融合,能够挖掘的有效信息更多,数据价值也会增加。例如,企业销售数据和消费的人行为数据的融合使用,能够在一定程度上帮助企业更有明确的目的性地研发设计新产品和创新服务模式,带来更多利润。
数据的价值与应用场景有关。同一数据在不同的应用场景会产生不同的价值。例如交通出行数据,网约车企业能利用它匹配司机和乘客,提高出行服务效率,增加收入;政府部门则可通过这些数据优化道路建设,提高交通服务质量。交通出行数据的价值对于网约车公司和政府部门是不同的。
数据的价值创造存在非货币交易模式。数据价值的最终体现并非只有市场交易带来的货币化价值增值,更多情形下,数据价值体现在企业或单位内部创建并使用数据的“非货币交易”中,利用基于数据的信息和知识,通过降本增效、提升货物和服务的质量,最终带来利润或社会效益。比如,个人获取免费媒体服务的同时,无偿提供媒体服务的平台企业则对应获取了个人数据,进而利用数据优化服务内容和质量,个人获得了福利,企业获取了利润。
数据的价值受其准确性、真实性和完整性影响。准确性是指数据的来源以及收集过程的可靠程度,基于准确性较高的数据能够做出正确决策,从而提升数据的价值。但准确性对数据价值的影响特别大程度上取决于数据类型和使用方式。真实性主要是指数据所反映的信息的真实程度,若其反映的信息真实程度下降到某一水平以下,变成“错误信息”,数据将失去价值。完整性主要是指数据所包含有效信息的完备程度,数据所包含的信息越完整,基于数据做出的相应决策的准确性和有效性越高,数据价值越大。
统计生产范围在国民经济核算中处于基础地位,它决定了国民经济核算的核心指标国内生产总值(GDP)的口径范围、规模、结构和增长率。
根据现行国民经济核算国际标准《国民账户体系(2008))》(简称2008年SNA),统计生产范围是用货物和服务来界定的。所有货物的生产,不论是对外提供的货物的生产,还是自产自用货物(例如农民自产自用的粮食、蔬菜、瓜果)的生产,都属于统计生产范围。但对服务的生产有所限定,住户的自给性服务,除了自有住房服务和雇佣付酬家政人员提供的家庭和个人服务生产外,不属于统计生产范围。
在数字经济时代,数据成为一种新的产品,它既具有与货物、服务相同的特征,也具有与货物、服务不同的特征。统计生产范围如何界定?是像货物一样,把所有数据的生产都纳入统计生产范围,还是像服务一样,对数据的生产有所限定?
2008年SNA 就将住户部门自给性货物的生产纳入统计生产范围的理由作过说明:住户在生产货物的时候无法确定多少用于消费,多少存储起来供未来消费或生产,多少在市场上出售或交换别的产品(例如农户生产的粮食)。如果将这一理由用于数据产品,那么住户部门自给性数据产品的生产似乎应纳入统计的生产范围。
2008年SNA就将住户部门大部分自给性服务排除在统计生产范围之外的理由也做过说明:住户的大部分自给性服务的生产是一种自给自足的活动,对经济中其他部门的影响非常有限;通常没有合适的市场行情报价用于估价这些服务;这些服务的生产既不受经济政策的影响,也不影响经济政策的制定。2008年SNA还指出,国际劳工组织的相关准则规定,经济活动人口是指在SNA生产范围内从事生产活动的人口,如果将住户的所有自给性服务生产都纳入统计生产范围,则几乎所有成年人口都是经济活动人口,失业也就不存在了,这显然是不合理的。如果把住户部门的所有数据产品的自给性生产都纳入统计生产范围,可能会产生类似的问题。
综上所述,如果依据2008年SNA将住户部门的自给性货物的生产纳入统计生产范围的理由,应当把住户部门的自给性数据产品的生产纳入统计生产范围。但是,如果依据2008年SNA将住户部门的大部分自给性服务排除在统计生产范围之外的理由,则应当把住户部门的自给性数据产品的生产排除在统计生产范围之外,两者是相互矛盾的。因此,是把住户部门的数据产品的自给性生产纳入统计生产范围,还是将其排除在外,是国民经济核算要解决的问题。
数据是一种产品,是一种生产活动的成果,那么,如何估价其产出价值?这对数据生产活动增加值具有决定性的影响,从而决定了数据生产活动对GDP的贡献。
由于数据具有一系列不同于传统产品的特征,数据产出的估价方法存在争议,要进一步深入研究。这里借鉴传统产品和知识产权产品产出的估价方法,并结合数据产品的特征讨论数据产出的估价方法。
市场法。市场法是指参照市场上同类或类似数据的近期交易价格估计目标数据的产出价值。理论上讲,当市场上有足够多的数据交易类型和模式,可以收集到完整、可靠的类比目标数据的可比指标、技术参数等信息时,应该采用市场法估价数据产出价值。然而,由于数据的价值具有与应用场景相关这一特征,数据应用场景的多样性使得价值变动十分敏感,导致较难在市场上匹配到同类或类似的数据估价数据产出价值。
同时,数据具有非竞争性特征,使得市场交易的往往是数据的复制许可或使用许可,此时的市场交易价格多数反映数据复制许可或使用许可的价值,而不是数据本身的价值。从实践层面来讲,目前中国乃至全世界范围内数据市场存在交易标准、规则及法律不完善等问题,交易型数据仍属少数,绝大多数数据仍是自产自用型。因此,市场法仅适用于极少数数据的市场交易情形,并不适用于绝大多数自产自用型数据产出价值的估价。
收益法。收益法是基于数据产品的未来预期应用场景,对数据产品预期产生的经济收益折现得出数据产出的合理价值。理论上讲,收益法能恰当地反映数据产品为其生产者带来的收益,也能较直观地反映数据产品的经济价值。然而,因数据的用途多样,其有效期也充满未知,为其生产者带来的潜在未来收益流更是具有极大不确定性,收益法在实践中难以实现。
成本法。成本法主要是指通过加总数据生产的全部过程中的各项成本来测度数据产出价值,包括数据价值链增值过程中的劳动成本、中间投入成本、固定资本消耗成本和资本回报。从国民经济核算国际标准看,2008 年 SNA 建议采用生产所带来的成本总和对为自身最终使用的产出进行估值,且该方法慢慢的变成了经典的非货币性资产价值测度方法。从实际操作规范看, OECD制定的《知识产权产品资本测度手册》作为知识产权产品测度的实践指导,建议在实际核算中采用成本法对自给型软件、数据库和研发等知识产权产品做估值。相对于其他方法,成本法更具客观性、可靠性和较强可行性。
数据生产活动和数据使用活动都会对GDP产生一定的影响。数据生产活动形成数据产出,扣除相应的中间投入得到增加值,从而会增加GDP。数据使用活动形成数据中间投入和数据资本形成总额。其中,数据资本形成总额一方面作为资本形成总额的构成部分增加支出法GDP;另一方面通过减少数据中间投入,增加相关行业增加值,从而从生产角度增加GDP。
因此,数据统计与核算问题对GDP总量、结构和增长率都产生一定的影响,从而也会对国民经济核算中的一系列指标产生一定的影响。处理好数据统计与核算问题具备极其重大意义。