知事 

中国高学历劳动者的教育匹配与收入回报

文|量化研究方法

【摘 要】近十多年来,鉴于中国高等教育扩张对劳动力市场的影响,一些学者开始用经验数据研究劳动者与工作之间的教育匹配(尤其是过度教育)对收入回报的影响。但是,已有文献较少考虑过度教育的选择性问题,也很少对高学历劳动者进行专门研究。本文使用倾向值匹配的方法分析高学历劳动者的教育匹配与收入回报。研究发现,即使是在考虑了选择性之后,过度教育者的收入仍然显著低于适度教育者。同时,对家庭背景、学校出身、人力资本和劳动力市场四大影响因素的考察还发现,过度教育确实具有负向选择的特点,那些拥有较低人力资本和较差出身背景的人更容易发生过度教育。

【关键词】教育匹配  过度教育  选择性  倾向值匹配 

一 、文献综述

在第二次世界大战后的工业化国家,随着国民平均教育程度的提高和高等教育的大众化,劳动力市场中的教育不匹配——尤其是过度教育现象——逐渐成为一个重要的研究课题。自从1976年弗瑞曼(Freman)出版了他的先驱性著作 The Overeducated American 以来,研 究者们开始广泛接受教育匹配这一概念,进而研究其现状、成因与后果。简要来说,教育匹配指的是劳动者的教育水平与其所从事的工作所要求的教育水平之间的相称或不相称状况,根据两者的相对高低可以区分为适度教育(adequate education)、过度教育 (over -education)、教育不足 (under-education)三种状况。如果劳动者的教育水平与工 作 所要求的教育水平持平,则称为适度教育;如果劳动者的教育水平高于工作所要求的教育水平,则称为过度教育;如果劳动者的教育水平低于工作所要求的教育水平,则称为教育不足。

对教育匹配的研究成果大致体现在两个方面:一是描述它的发生情况和变化趋势,二是考察它在劳动力市场上的影响,例如对流动率的影响、对工作满意度和生产力的影响等。其中,实证研究最多、理论上也最富有争议的是教育匹配——尤其是过度教育——与收入回报的关系。

对这一问题的研究又在具体的模型设定上分化出两个研究路径。一是邓肯和霍夫曼所开创的ORU模型(Over-,Required and Under-education Model),通过将明瑟方程(Mincer Equation)中的实际受教育年数分解为工作所需教育的年数、过度教育的年数、教育不足的年数这三项,来估算不匹配教育的收益率和匹配教育的收益率。哈托格曾经详细总结了此类研究在各个国家和各个历史时期的发现。瓦多戈等提出的另一个研究路径是在控制了实际受教育年数的基础上加入过度教育和教育不足这两个虚拟变量,直接得出教育匹配状况对收入回报的影响。然而,不管采用哪种研究路径,比较一致的发现是,过度教育者与适度教育者相比在收入回报上会处于劣势。例如,麦吉尼斯回顾已有研究发现,过度教育对收入水平有显著的负面影响,过度教育者的收入比适度教育者低约15%。

如何理解过度教育者相对于适度教育者的这种收入劣势?不少学者都指出,至少存在两种相互竞争的理论解释:职位分配论和人力资本论。职位分配论认为,这一现象意味着劳动者的收入主要是由工作职位的特征而非劳动者个人的特征所决定,即使个人的教育水平高于工作所要求的教育水平,个人生产力水平的发挥仍然是受到限制的。这种观点通常会被追溯到瑟罗有关职位竞争的论述。人力资本论则认为,过度教育者的收入回报之所以低于适度教育者,要么是由于他们主动选择以较低的收入水平来换取或积累工作经验———即过度教育其实是一种刻意的投资,要么归根到底还是因为他们的生产力水平或能力水平更低———只不过研究者无法观测到而已。

这两种观点的对立,不仅会将我们导向两种不同的工资理论,还会影响到我们对教育不匹配的性质的理解。如果过度教育真的是一种刻意的投资,或者只是求职信息不充分或者劳动力市场不完善的一个结果,那么它应该只是一个短暂的现象,会随着劳动者的职业流动而自然地得到解决。但是,如果雇主总是使用学历或文凭来挑选雇员,或者由于经济不景气而导致高学历劳动者和低学历劳动者一起竞争数量有限的职位时,或者劳动力市场上的供给或需求力量始终处于动态变化时——例如劳动力整体受教育程度的迅速提高或技术升级,教育不匹配就并非短暂的现象而是一个常态。

上述理论争议不可避免地会涉及方法论问题:研究者所观察到的教育匹配与收入回报之间的关系在多大程度上是一种真正的因果关系?由于OLS回归模型的局限性,近年来,研究者们开始尝试用其他各种高级统计方法来重新研究教育匹配与收入回报的关系,包括使用个人未观测能力/技能的代理变量、工具变量方法、分位数回归、追踪数据分析、匹配方法等,但结论有时大相径庭。例如,麦吉尼斯使用倾向值匹配方法得到的结果与OLS结果相差不大,这使他明确得出这样的结论:过度教育现象确实对个人和整个经济体的生产力和工资水平有真实的负面影响,因此不能被认为只是由遗漏变量的问题所造成。相反,鲍尔使用随机效应和固定效应模型对追踪数据的分析却发现,当控制了未观测的个人异质性后,适度教育者与非适度教育者之间的收入差距基本上消失了。由于这些研究都是在不同的社会背景下完成的,因此,本文意在探讨中国的教育匹配及其与收入回报之间的关系。

二、中国劳动力市场上的教育匹配

大约2000年以后,以教育经济学领域为主的国内学者开始发表有关教育匹配的研究成果。这些研究大致包括三个方面:一是对教育匹配(主要是过度教育)的概念、测量和理论进行介绍;二是对我国教育不匹配的发生率及其变化趋势进行研究,或与其他国家进行横向比较;三是着重研究过度教育与收入回报之间的关系。

与海外的研究状况类似,国内学者在第三个方面的实证研究成果较多,而且得出的结论也较为一致,即过度教育会使劳动者的收入受到损失。例如,武向荣对三家不同类型企业的调查表明,这些企业的员工存在不同程度的过度教育,并且过度教育工人的收入受到了损失。他进一步对大规模数据使用ORU模型估算发现,我国过度教育的收益率小于工作所需教育的收益率;张晓蓓、亓朋也有同样的发现。另外,黄志岭等的研究结果显示,相同学历的群体中过度教育的个体要比适度教育者的收入低4.8%。

但是,这个领域的研究目前仍然处于起步阶段,存在以下几个局限。首先,虽然已有研究大多将过度教育现象与中国高等教育的扩张联系在一起,但却很少专门研究高学历劳动者的教育匹配与收入回报问题。绝大多数研究使用的是包含各个教育层次的劳动者数据,少数研究抽出高学历劳动者与全部劳动者作比较,但由于这种数据的局限性,得出了一些与总体结论相抵触的发现。例如,罗润东、彭明明的研究就发现,具体到拥有大学学历的员工,教育过度者的工资收入不仅比教育匹配者高,而且还高出近30%!可是,国外对大学毕业生的专门研究发现,即使是在这个特殊的劳动力市场上,过度教育仍然是与收入回报呈负相关的。这就值得我们追问:对中国的高学历劳动者来说,教育匹配与收入回报的关系究竟如何?

对中国教育匹配和过度教育问题的研究和讨论很大程度上是由1999年以来的高校扩招所引发的,也正是从2003年首批扩招后的大学生进入劳动力市场以来,对过度教育与收入回报问题的研究逐渐增多。笔者认为,高等教育的扩张与过度教育的发生之间至少存在以下几种联系:(1)扩招导致高学历劳动者的总量骤然增多,而劳动力市场能够吸纳的数量有限,这种劳动力的供需失衡直接导致了过去十多年来一直十分突出的大学生就业难问题(见图1)。在这种情况下,部分大学毕业生不得不从事那些其实并不需要大学教育程度就能完成的工作,甚至要与教育程度较低的求职者一起竞争普通的就业岗位,这样过度教育就产生了。(2)高学历劳动者的增多使雇主更多地用学历层次来筛选求职者,即便有些职业或岗位并不需要大学毕业生,他们也还是会倾向于雇用大学毕业生。也就是说,过度教育还可能是雇主偏好的结果。(3)伴随高校扩张的是高校分化,即名牌大学、重点大学与一般大学、二三流大学、地方院校之间的差异。因此,在竞争激烈的大学毕业生劳动力市场上,高校“出身”就成为雇主和雇员双方都十分看重的一个因素,“出身”不好的毕业生会最先沦为过度教育的牺牲品。(4)近年来,政府有关部门为鼓励、引导大学生在中西部欠发达地区或农村地区就业,出台了许多相关的就业政策,例如“大学生村官”“三支一扶”“选调生”等,这也会“意外地”造成过度教育的问题,因为这些地区的经济结构和职业结构还处于较低的层次,可能无法向大学生提供合适的工作岗位。

综上,高等教育的快速扩张所引发的一系列连锁反应会使过度教育的问题在高学历劳动者身上表现得更为突出。再加上这部分劳动者在整个劳动力市场上的绝对数量和相对比重都在不断上升(见图2),他们本身已经形成了一个重要和特殊的劳动力市场,因而有必要对高学历劳动者的教育匹配与收入回报进行专门研究。

已有研究的第二个局限是缺乏对(高学历)劳动者教育匹配或过度教育状况的影响因素的研究。一些研究虽然考察了过度教育的发生率在不同地区、部门、行业或职业中的差异,但几乎都是从劳动力市场本身的结构性因素来理解过度教育的发生情况,很少考虑到家庭背景、学校出身等社会系统因素的影响。国外一些研究发现,大学质量对过度教育的发生率以及对过度教育者早日结束过度教育状态都有正面的影响,但对家庭背景作用的研究并不多见。国内少数研究证实了高校出身、家庭背景等对过度教育的发生率均有显著影响,但并没有对高学历劳动者进行专门的深入研究。因此,本文首先对高学历劳动者的教育匹配决定因素进行全面和系统的分析,再进一步考察教育匹配对收入回报的影响。

如果高学历劳动者发生过度教育的情况并不是随机的,而是具有一些系统性的内部差异,那就意味着过度教育具有选择性(selective)。这就涉及已有研究的第三个局限,即在估计过度教育对收入的影响时完全没有考虑这种选择性问题,因而很难说OLS估计结果是无偏的。要解决这一问题,需要引入更为恰当的高级统计方法。

研究问题与统计模型

本文要研究的两个核心问题是,对中国的高学历劳动者而言,他们所接受的教育水平与工作所需的教育水平之间的匹配状况是由哪些重要因素决定的?在从理论上和统计方法上考虑了教育匹配的这种选择性后,过度教育者与适度教育者相比是否仍然存在收入回报上的差异?

本文的关键是估计过度教育者与适度教育者之间的收入差异。笔者先用OLS回归模型得到一个基准估计,再通过倾向值匹配(propensity score matching,PSM)方法克服过度教育的选择性问题,用匹配后的样本重新得到一个估计。本文将比较两种方法的估计结果并得出结论。

近年来,倾向值匹配在社会科学研究领域应用得越来越广泛,并且已经发展出多种具体的使用方法。其核心思想在于,根据样本在接受“干预”的倾向性上的分值进行匹配,通过这种匹配使两组具有相似性和可比性,而匹配后的两组差异就是真正的“干预效应”(treatment effect)。

在本文中,作者依次使用了三种倾向值匹配方法。第一,贪婪匹配(greedy matching),即为每一个“干预组”成员找到一个在倾向值上与其最接近的“控制组”成员,实行成对匹配或一对一匹配,但在实现倾向值差异总体最小化这一目标上,该方法只是局部最优,不一定全局最优。第二,最佳成对匹配(optimal pair matching),即按全局最优的方法来实现倾向值差异最小化的目标,实行的也是成对匹配。第三,最佳整体匹配(optimal full matching),也是按全局最优的方法来实现倾向值差异最小化的目标,但实行的不是成对匹配而是整体匹配,即每一个“干预组”成员可以匹配一个或多个“控制组”成员。

具体到本研究,“干预组”就是过度教育者(相当于教育不匹配者),“控制组”就是适度教育者,倾向值匹配方法的实质就是为过度教育者找到与他们在倾向值上相近的适度教育者,以实现两个群组的相似性和可比性。在使用倾向值匹配方法时,倾向值的预测方程是关键,这就要求本研究正确地设定教育匹配或过度教育的预测方程。因此,正如前文所讲,要先对高学历劳动者的教育匹配决定因素进行全面的分析,综合考虑劳动力市场的结构性因素以及个人的人力资本、家庭背景、学校出身等各方面的影响。

四 、数据、变量与测量

本文所用的数据来自中国人民大学中国调查与数据中心(NSRC)组织实施的“首都大学生成长追踪调查”(Beijing College Students Panel Survey,BCSPS)。该调查以2009年为起点,随机抽取北京市15所高校的5100名2008级(时为大学一年级下学期)和2006级(时为大学三年级下学期)的学生进行追踪调查。尽管该调查的抽样范围仅限于北京,但鉴于北京高校类型的多样性,这个样本仍然具有良好的代表性(李路路,2013)。由于2008级学生毕业较晚,因此本文实际使用的是2006级学生的前3期数据(2009—2011年)。更准确地讲,本文是对2006级学生在2011年的就业情况进行横截面分析,但适当地加入了他们在前两期调查中所报告的一些其他信息。本研究的原始有效样本约900人,但由于所需变量存在不同程度的缺失,最终分析样本为742人。

本研究的关键变量是教育匹配或过度教育。如果受访者在2011年调查时处于工作状态,则他/她会被问到:“您认为这份工作需要由哪种教育程度的人来做才适合?”由于受访者都是本科毕业生,所以,回答非本科毕业就可以做的被视为“过度教育”,回答本科毕业才能做的被视为“适度教育”,回答研究生毕业才能做的被视为“教育不足”。这种主观认定方法是测量教育匹配的三种方法之一,在以往的研究中曾经被广泛应用。

在本文所用的数据中,虽然教育匹配的三种状况都可以区分出来,但实际上“教育不足”这个类别的人数非常少,只有20人不到。有鉴于此,且许多既有研究都关注的是过度教育者与适度教育者之间的比较,因此,本文将教育不足者排除在分析之外,只保留过度教育者与适度教育者,将前者编码为1,后者编码为0。

本研究的因变量是每月的工作收入(取对数)。在收入决定方程中,过度教育是关键自变量,此外还包括性别、年龄、工作时间(小时/周)、部门、行业、职业、组织规模(取对数)、工作地点的城乡类型、工作地点是否在北京等。

在以过度教育为因变量预测倾向值时,本文提出了一个综合决定模型,包括家庭背景、学校出身、人力资本、劳动力市场四大方面的因素。家庭背景因素包括出生时的户籍、父母的最高学历、上大学前的家庭收入(取对数)、上大学前家庭所在地的城乡类型等变量;学校出身因素包括大学层次、所学专业等变量;人力资本因素包括性别、年龄、政治面貌等变量;劳动力市场因素包括部门、行业、职业、地区等变量。3最后,本文还使用了标准化后的高考分数变量,它与上述四大因素都有关联,可以视为智力或能力的一个代理变量(proxy variable)。标准化的计算公式是(原始高考分数—省一本分数线)/(省一本分数线—省二本分数线),其中原始高考分数由受访者报告,受访者高考时所在省的一本和二本分数线(分文理科)来自教育部的“阳光高考”信息平台。标准化后的高考分数反映了考生在所属省份的相对位置,具有跨省份比较的意义。

五、分析结果

在本研究的分析样本中,过度教育的发生率为28.84%(见表1),表1还给出了其他变量的描述性统计量。OLS回归结果见表2。在不控制任何其他变量的情况下(模型1),过度教育者比适度教育者的月收入低20.86%(1-e-0.234=0.2086)。当控制了性别和年龄后(模型2),该估计值没有太大变化。在控制了工作时间、部门、行业、职业、组织规模、地区等劳动力市场因素后(模型3),过度教育者比适度教育者的收入仍然低14.87%(1-e-0.161=0.1487) 。

但是,过度教育是具有选择性的。如表1所示,过度教育变量与许多其他变量都有统计意义上的显著相关性。以二分变量政治面貌为例,非党员发生过度教育的比例为31.01%,而党员仅为22.84%,降低了8.17个百分点,并且这种差异的t检验在0.05的水平上统计显著(p = 0.030)。再以父母最高学历这一分类变量为例,父母最高学历为初中及以下的大学毕业生发生过度教育的比例为33.49%,父母最高学历为高中的大学毕业生为34.91%,父母最高学历为大专及以上的大学毕业生为18.25%,并且三者的差异在0.001的显著性水平上通过了χ2检验(p=0.000)。最后以连续变量(标准化)高考分数为例,过度教育者的平均分数显著低于适度教育者(-0.04vs.0.56,p=0.000) 。 除上述三个变量之外,年龄、行业、职业、地区、出生时户籍、上大学前家庭所在地、大学层次等也都与过度教育存在显著相关。

即使是将这些变量同时纳入二项logit模型来对过度教育作预测,许多变量仍然是统计显著的(见表3)。由于倾向值预测方程的设定可能会影响到匹配分析的结果,故本文分别使用了三个预测模型或者说三种预测方法。模型1在设定上比较激进,包括家庭背景、学校出身、

人力资本、劳动力市场四大方面的因素。方法2在设定上较为保守,只包括被访者进入劳动力市场之前的家庭背景、学校出身、人力资本三大方面的因素。方法3则是在模型2的基础上再加入(标准化)高考分数这个能力代理变量。

模型1的结果显示,劳动力市场的一些结构性因素———例如部门、职业和地区———会影响到高学历劳动者发生过度教育的概率。具体来说,国有企业和私有企业发生过度教育的概率有低于机关事业单位的倾向(回归系数为负,但不显著);专业技术人员比一般工作人员发生过度教育的概率显著更低(系数为-1.444);城市地区和北京地区发生过度教育的概率也有较低的倾向(回归系数为负,但不显著)。如果将教育匹配视为人力资源配置状况的一个缩影,则上述发现意味着我国高素质劳动力市场的资源配置并不均匀,市场化、专业化程度高的部门以及大城市的人力资源配置效率较高,这在一定程度上解释了为何成就动机较强的大学毕业生更愿意进入这些就业领域。

模型2与模型3的结果十分相似。在人力资本因素中,党员比非党员发生过度教育的概率显著更低(系数-0.467和-0.503)。在家庭背景因素中,只有父母最高学历对过度教育的发生概率具有显著影响,而出生户籍、家庭年收入和家庭所在地均没有显著影响。与父母最高学历为初中的人相比,父母一方至少为大专毕业的人发生过度教育的几率(odds)会低约50%(1-e-0.739=0.5224,1-e-0.776=0.5398)。就学校出身而言,大学层次越低的毕业生发生过度教育的概率越高。与非“211”大学毕业生相比,“211”大学毕业生发生过度教育的几率低45.45%(1-e-0.606=0.4545),而北京大学、清华大学与中国人民大学这三所精英大学的毕业生更低66.38%(1-e-1.090=0.6638)。但是,当引入高考分数变量之后,学校层次的影响不再显著,而高考分数越高的大学毕业生发生过度教育的概率显著越低(系数-0.292),因此,学校的影响可能来自于学生自身的分流或筛选过程。这些发现共同意味着,人力资本较低、家庭背景和学校出身较差、个人能力较弱的大学毕业生更有可能发生过度教育,正如人力资本论的拥趸所说,过度教育确实具有负向选择性。

因此,要正确估计过度教育对收入回报的影响效应,必须考虑这种选择性问题。如所前述,本研究依次使用贪婪匹配、最佳成对匹配和最佳整体匹配这三种具体方法进行倾向值匹配分析。

贪婪匹配要求控制组和实验组在倾向值的分布上具有较大的重叠性。从图3来看,不管使用哪种倾向值预测方法,本研究中适度教育组和过度教育组之间的“共同支持区间”(common support region)比较大,意味着数据应用条件较好。表4说明,不管使用哪种倾向值预测方法,贪婪匹配都在各个变量上实现了适度教育组与过度教育组之间的平衡,没有一个双变量相关检验在统计上是显著的,换言之,实现了两个群组的相似性和可比性。对三种倾向值预测方法所对应的三个匹配后的样本重新进行回归分析,结果见表5,得到新的估计值分别为-0.112、-0.089和-0.090,均统计显著。这说明,运用贪婪匹配克服了过度教育的选择性后,过度教育对收入回报仍然具有负面影响,但新的估计值与从原始分析样本得到的估计值(-0.161)相比,有不同程度的减小。

由于贪婪匹配只是局部最优而非全局最优,所以本研究使用最佳成对匹配和最佳整体匹配来进一步检验倾向值匹配分析结果的稳健

性,结果见表6。同样,表中仍然依次给出了与三种倾向值预测方法相对应的结果。从dx与dxm的比较来看,虽然在若干变量(行业和专业)上匹配的效果并不好,但在绝大多数变量上仍然实现了较好的平衡。最重要的是,不论这些倾向值预测方法和匹配方法之间的相对优劣如何,结果一致表明过度教育对高学历劳动者的月收入仍然具有显著的负效应,只是具体估计值从11.75%(1-e-0.125=0.1175)到18.13%(1-e-0.200=0.1813)不等。因此,OLS和PSM的分析结果均表明,过度教育对高学历劳动者的收入回报具有显著的负面影响。

六、结论与讨论

本文使用倾向值匹配方法研究了高学历劳动者的教育匹配与收入回报问题。结果表明,与国内外的多数发现相一致,过度教育者的收入确实要显著低于适度教育者;即使是在考虑了过度教育的选择性之后,过度教育对收入的负向影响效应也仍然存在。对本研究中的高学历劳动者来说,原始分析样本中过度教育的收入损失约为21%,在控制了人力资本和劳动力市场的结构性因素后降至约15%,在考虑了选择性问题后最多可降至约9%。因此,本文的结论是,在中国的高学历劳动者中,过度教育确实对收入回报有负面影响,这并不完全是由过度教育的选择性所造成的伪相关。

本研究表明,即使个人的教育水平高于工作所要求的教育水平,高学历劳动者的收入回报却并不高于适度教育者,相反,甚至还要显著地更低。该研究结果倾向于职位分配论的观点,即个人生产力水平的发挥是受到工作特征限制的,因此,劳动者的收入主要是由工作职位的特征而非劳动者的个人特征所决定的。但是,以下两点考虑可能会使职位分配论的适用性有待进一步检验。首先,在中国当前的劳动力市场环境下,工作的“好坏”并不仅仅局限于显性的收入水平,还体现为隐性的福利、保障和稳定性等,这可能会使部分高学历劳动者主动选择那些对教育程度要求不高、收入水平也不高,但却在其他方面较有吸引力的工作。例如近年来媒体广泛报道的大学生争当城管或环卫工人的新闻。换言之,即使过度教育的确使劳动者的收入发生了损失,但可能在工作回报的其他方面又给予了补偿。其次,本文所使用的数据虽然弥补了已有研究的不足,但也只能研究高学历劳动者的初职情况,鉴于年轻人在从学校到职场的转换阶段发生过度教育的可能性通常较高,所以仍需使用更长时段的追踪数据来考察其变化情况。

另外,本文还从家庭背景、学校出身、人力资本和劳动力市场四个方面系统地考察了高学历劳动者发生过度教育的影响因素,详细探讨了过度教育的选择性过程。研究发现,大学毕业生如果拥有较强的个人能力、较高的人力资本、较好的家庭背景和学校出身(这些往往是连带的),则他们发生过度教育的可能性会显著降低。反过来说,正如人力资本论的拥趸所言,过度教育确实具有负向选择的特点。这意味着,对我国高等教育与代际不平等关系的研究,需要从对高等教育入学机会的考察延伸到对高等教育完成之后的考察,目前来看这两方面的研究是相当不对称的。具体到本研究,一个重要的发现是,当所有的家庭背景变量同时进入模型时,只有父母是否接受过大学教育这一变量对大学毕业生发生过度教育的可能性具有显著影响,而城乡出身、家庭收入等都不显著。这就凸显了社会转型进入新时期后大学教育的重要意义,它不仅构成了个人的一项重要人力资本,而且是家庭的一项重要文化资本,在不平等结构的代际延续中发挥着至关重要的作用。

本文原文《中国高学历劳动者的教育匹配与收入回报》,发表于《社会》,注释及参考文献从略。

本文由知事 转码显示查看原文

加载中...