在人工智能进行模型训练前,须先对数据来进行人工识别与标注,因此处于“后台”的数据标注成为引致人工智能“前台”幻觉与偏见风险的重要环节。近年来,隐蔽于人工智能后台的数据标注劳动者随着政策文件、新闻媒体报道和调查报告的公布而逐渐浮现,逐步推动学界警惕与反思技术革新的神秘化倾向。然而,从风险治理的角度来看,参与数据标注实践的多元主体仍然处于权责模糊的灰色地带,阻碍了可信人工智能目标的实现。全球主要经济体的数据标注治理路线显示,当前针对数据标注的治理对象以“人工智能服务提供者”为主,且倾向于将数据置于私人个体秩序中。通往可信人工智能的风险治理亟需将治理范围从“提供者”拓展至“数据供应链”,建设一种多元主体共同参与的集体性治理制度,进而更为细致地关照人工智能生产中的相关群体利益,为不稳定的数据劳动者提供具体的社会保障。
近年来,为防范人工智能的潜在风险,发展“可信人工智能”(trustworthy artificial intelligence)慢慢的变成了全球共识。如今,从学界、业界到政界都将可信人工智能确立为AI创新的价值原则,“从技术和工程实践的角度,落实伦理治理要求,实现创新发展和风险治理的有效平衡”。具体而言,人工智能可能引发的风险包括对社会歧视的强化,对民主进程的阻碍,对生态环境的破坏和对欠发达地区的劳动剥削与资源掠夺。
随着风险的显现,人工智能的“技术神话”开始走向破灭,隐蔽于人工智能后台的“幽灵工作”(ghost work)浮出水面。在国家政府、媒体场域与学术社区的讲述中,数据标注员群体构成的人力基础设施(people as infrastructure)日益为社会所见:全球数百万廉价的数据标注劳工正在通过提供重复劳动来保障AI机器的运转。这些标注员使用专门的软件工具,人工为图片、语音、文本、视频等数据内容打上特征标签,这一过程包括设计(训练数据集结构设计)、采集(获取原料数据)、加工(数据标注)和质检(各环节数据质量检验)环节。其后,经过人工标注的数据被“投喂”给大模型,训练后者的自主识别与学习能力。也就是说,人工智能的表现在相当程度上取决于模型的训练数据质量。作为人工智能生产的“元劳动”,数据标注工作也成为实现可信人工智能的关键治理环节。由此,人工智能的数据治理(data governance)被提上议程,与数据伴生的行业失范现象成为重点治理对象。
现有讨论表明,平台劳动的“可见性”(visibility)意义不仅在于视觉和文本意义上的“被看见”,更重要的是多元行动者之间围绕平台劳动展开的真实互动过程如何获得社会层面的关注、承认与维系,进而推动社会资源和利益的合理分配。因此,为通往可信人工智能,我们不仅须知晓数据标注行业的基础设施型角色,更要洞察其背后的风险与矛盾所在,进而寻求风险治理策略与问题解决之道。那么,人工智能的风险来自什么地方?与数据标注环节有何关系?相应的风险治理路径又应当转向何方?对这样一些问题的追问和探索有助于引导我们思考人工智能治理中“数据”与“人工”的关系,以期在收获新技术的益处与尊重人的基本权利之间达成平衡。
尽管大语言模型为AI提供了强大的能力,但其仍然面临着生成错误信息或输出偏见内容的风险。导致风险的原因何在?借鉴欧文·戈夫曼(Erving Goffman)的拟剧理论对“前台”和“后台”的定义,引发风险的因素不仅显现在前台,更隐藏于后台。若将AI与用户互动的过程视为前台,与之对应的后台则是人工智能的生产实践,包括清理、整理和注释数据集的劳动密集型活动。下文将从前台进入后台,探察后台数据劳动与的前台内容风险的关系。
随着生成式人工智能的广泛应用,人工智能前台的风险已经显而易见。一方面,人们发现人工智能经常做出并不符合其训练数据的自信反应,生成或推断出训练数据中根本不存在的错误信息,这类“捏造”行为被称为“人工智能幻觉”(AI hallucination)。ChatGPT、Bing和Bard等生成式AI工具都曾为用户更好的提供看似真实的虚假数据。另一方面,除了“凭空捏造”,AI系统还可能输出不公平或者歧视性的内容,此现状被称为“人工智能偏见”(AI Bias)。例如,彭博社曾利用文生图模型Stable Diffusion v1.5生成了5100张人物图像,经分析发现该模型放大了关于种族和性别的刻板印象。如果这些图像进一步利用互联网传播,甚至被用于大模型的后续训练,那么不仅可能固化社会偏见,限制少数边缘群体对自我成长路径的想象与探索,还可能会在滚雪球效应作用下加剧未来人工智能模型的偏见问题。
究其根源,人工智能偏见可能源自机器学习流程的不同阶段,包括数据收集、算法设计和用户交互等。数据标注的真实性、准确性和多样性都可能会影响人工智能的实际表现。仍以上文的文生图实验为例,生成式人工智能模型Stable Diffusion所属的初创公司Stability AI表示,该模型的原始数据来自世界上最大的可公开访问的图像文本数据集LAION-5B,图片链接由程序从无数网站收集,未经过人工筛选,包含大量涉及暴力、仇恨、色情等问题的内容。因此,人工智能输出的偏见内容可能来自模型训练数据包含的不当信息。
如果说这一案例的风险根源在于“人工筛选”环节的缺失,那么能否通过补足人工环节来规避前台风险?答案是否定的,人工因素的不恰当介入还可能加剧上述风险,或者说当前人工智能的“不智能”表现本就肇始于人工数据处理过程存在的漏洞。如上文所述,机器的幻觉与偏见,除了受到程序设计漏洞的影响,还在相当程度上取决于数据训练的不足,而人工标注恰恰是数据训练过程中的关键环节,其对数据训练效果的影响不容小觑。
首先,“数据为王”的科研范式和“机器学习+人工标注”的技术路线放大了人类意志在机器学习中的作用,若标注员将个人偏见施加于数据,便可能削弱大模型生成内容的客观性和准确性。其次,由于数据质量受到人工标注的影响,标注员不仅要在技能上过关,还要具有稳定性,以免浪费培训成本。即便数据标注是一项门槛较低的工作——大多数招聘网站上的招聘信息对应聘者的学历要求为“大专”,或无学历要求,劳动者也仍然要经过持续且繁琐的培训后才能完成认知转变、保证标注质量。据吴桐雨和夏冰青(2023)观察,流动性较强的众包与外包团队消耗了大量的培训成本,却难以提升标注效率和标注质量,所以部分投入大模型训练的科技公司从外包标注业务转向自建数据工厂。另外,对于专业性更强的领域或行业(如医学、地质学)而言,数据标注任务的“招工”和“培训”更为困难,要求标注员不仅要掌握计算机操作技能和常识性知识,还得具备细致划分领域的专业相关知识。此外,人工智能的训练数据往往包含敏感信息,流经数据标注行业的不同主体,若不加以规制与防范,轻易造成数据资源被代理商滥用,个人隐私数据暴露于不可控的数据标注劳工末端。总之,数据的标准化与人工的主观性之间有着难以被平衡的张力,导致了难以攻克的数据治理难题。
如果说人类认知层面的主观性是导致人工智能幻觉与偏见的先天性因素,那么社会现实层面的劳动条件则是导致人工智能风险的后天性因素。2022年8月,一家名为AI Insights的人工智能公司在亚马逊旗下的众包平台MTurk上发布了一项超过7000个小项目的“人类智能任务”(Human Intelligence Task),这给“Turkers”(众包劳动者)带来了大量工作机会,来自全球各地的个体数据标注工作者可以在平台上承包这一些数据标注任务并获取相应的报酬。然而,当众包劳动者们完成数百个小任务后,却遭到这家科技公司的无理由拒绝。根据现有的平台合作协议,科技企业能免费留存众包劳动成果,被拒绝的众包劳动者却不仅没有办法获得报酬,还将面临被平台“拉黑”的风险。当众包劳工们要求平台方亚马逊介入劳动纠纷时,这家科技巨头却置之不理,称其作为众包平台,无法介入劳动者和发单者之间的纠纷。也就是说,通过众包形式承担数据标注工作的劳动者处于权力关系的弱势地位,在利益受损时往往维权无门。
锋芒毕露的OpenAI亦被曝出利用肯尼亚的廉价劳动力来标注大量涉及暴力、仇恨的信息。据《时代周刊》报道,OpenAI在2021年底将一项庞杂的标注任务交给一家总部在旧金山的外包公司Sama,后者再将工作任务转移至全球南方国家的低廉劳动力。OpenAI交给Sama数万个包含大量有关谋杀、自残、虐待以及其他不堪内容的文本片段,来自肯尼亚的数据标注员在阅读、筛选与标注过程中遭受了巨大的精神创伤,每小时却只能挣得1.32至2美元的工资。值得深思的是,AI企业之所以要利用人工来标注带有暴力、仇恨、虐待等攻击性标签的文本,是为了训练人工智能模型过滤有害信息的能力。也就是说,当前通往可信人工智能的主流技术路线,竟以人的牺牲为前提,无疑偏离了“以人为本”的初衷。
国内科技巨头对AI领域的布局及人工智能初创企业的萌芽也带动了国内数据标注行业的兴起,在市场主导与政府介入下呈现向下沉市场扩散的趋势。作为新兴产业的数据标注行业市场需求量较大、准入门槛偏低,尚处于野蛮生长阶段;同时,作为劳动密集型产业,其还受到人力成本提高、市场竞争加剧等因素的影响。因此,即便数据标注员等新兴劳动群体已受到官方的职业承认,国内媒体将数据标注行业的发展故事讲述为一段科技赋能经济、提供就业岗位、促进经济增长的佳话,该行业仍然未能向从业者提供稳定的就业环境,数据标注劳工处于劳动保障缺位和身心健康受损的困境。
总之,数据标注行业的确创造了新的就业机会,尤其在带动三、四线城市乃至县域乡镇的数字经济发展方面作出突出贡献;与此同时,这些新就业机会也难逃困境,若不调整劳动关系认定和完善社会保障体系,这一行业势必难以实现可持续性发展。
人工智能在大规模应用过程中遭遇的“信任危机”倒逼政界、工业界、学术界共同探讨人工智能风险治理的技术标准、伦理准则与行动方案,正在形成中的治理体系与规制措施已经将人工智能后台的数据标注行业视为重点领域之一,但是仍然存在规制对象过于单一的问题,下文将针对此提出建议,探索如何完善多元主体协同参与的治理体系。
出台于2021年4月21日的欧洲《人工智能法案》(AI Act)一方面延续了通用数据保护条例(General Data Protection Regulation,简称GDPR)的数据保护原则,要求人工智能系统的开发和应用符合现有的隐私和数据保护规则,另一方面则对数据的质量、完整性和透明度提出更高要求。次年,ChatGPT的横空出世对法案造成冲击,促使欧洲议会在修订法案时考虑生成式人工智能工具和通用人工智能系统的特殊性。最终,该法于2024年3月13日获得27国集团批准,并于2024年5月21日正式成为法律,8月1日正式生效。《人工智能法案》基本上代表了欧洲人工智能治理的总体方向,并为其他国家治理体系的建设提供了参照。
《人工智能法案》的核心监管思路是针对服务提供者进行风险分级,其将人工智能系统划分为不可接受的风险、高风险、有限风险和低风险四个级别,并将包括数据标注在内的数据训练过程纳入监管范围。具体而言,第三章“高风险人工智能系统的部分内容”、第二节“高风险人工智能系统的要求”的第十条“数据和数据治理”针对高风险人工智能系统的数据标注实践作出规定:应对人工智能前台的幻觉与偏见风险,“训练、验证和测试数据集应具有相关性、充分代表性,并尽可能无错误,且在预期用途方面完整”;应对数据主体的隐私泄露风险,要求“特殊类别的个人数据在重复使用方面受到技术限制,并受到最先进的安全和隐私保护措施如匿名处理的约束”;针对数据分发与标注中存在的数据泄露风险,则要求“特殊类别的个人数据不得被其他主体传输、转移或者以其他方式访问”。
相较于欧洲出台专门化的风险治理法律,美国更倾向通过发布政策文件、行动指南等软性手段来应对人工智能潜在的风险,倡导行业自治、呼吁社会参与。《保持美国在AI领域的领导地位》(2019年)《关于在联邦政府中推广使用可信赖的人工智能的第13960号行政命令》(2020年)《人工智能权力法案蓝图》(2022年)《人工智能风险管理框架》(2023年)等政策文件、行政命令或行动指南,除了鼓励企业承担治理责任,还将社会公众、数据主体等其他利益相关者、非政府组织作为生成式人工智能数据治理的重要主体。
中国于2023年和2024年分别发布了《生成式人工智能服务管理暂行办法》(以下简称《暂行办法》)和《生成式人工智能服务安全基本要求》(以下简称《基本要求》),针对数据标注环节提出要求。如《暂行办法》要求“提供者应当制定符合本办法要求的清晰、具体、可操作的标注规则;开展数据标注质量评估,抽样核验标注内容的准确性;对标注人员进行必要培训,提升尊法守法意识,监督指导标注人员规范开展标注工作”。《基本要求》则制定了更为详细的规范,要求人工智能服务提供者(下文简称“提供者”)负责标注人员的培训与考核,并制定覆盖标注和审核环节的标注规则。可见,除了遵循国际范围内公认的风险分级原则,中国在数据标注治理中还强调提供者是主要的规制对象。
总之,无论是欧洲自上而下的“硬”式治理、美国市场主导的“软”式治理,还是“以人为本、智能向善”的中国方案,现有的人工智能风险治理实践一同给未来的数据标注治理树立了风向标:针对提供者建立风险分级监管体系。
然而,人工智能的产业化本质上是以数据为核心的基础设施实践,多元主体之间的关系复杂多变,在政府规制中仅凸显提供者的责任义务显然不足以应对所有风险。从基础设施的关系属性(relational)与嵌入(embeddeness)属性来看,任何一家人工智能的初创企业或科技巨头都无法脱离市场网络而存在,任何一项人工智能产品或服务都不可能无中生有,而是“与其他技术、社会、政治和经济参与者、网络和流程有着千丝万缕的联系”,建立在另一种基础设施之上。以往的平台研究已经批判了平台化(platformization)的后果,指出平台基础设施化的结果是一个“赢家通吃”、无孔不入的巨型商业系统对人类社会的全方位覆盖。人工智能的平台化趋势亦已受到关注,正在生成中的人工智能生产生态系统,以正式或非正式的纽带将服务供应商、客户、开发人员和数据工作者连接起来,科技企业、算力平台、众包平台、外包团队及数据劳工等主体的技术实践构成了一套流动的基础设施。针对人工智能行业复杂的关系网络,斯坦福大学的两位研究员珍妮佛·金(Jennifer King)和卡罗琳·迈哈特(Caroline Meinhardt)提出了数据治理的“供应链”视角,主张围绕人工智能的数据供应链建立监管体系。该视角不是对制造业供应链进行数据治理,而是将构建人工智能训练数据集的过程视为一条供应链,并针对数据流经的不同环节进行治理。两人在白皮书中提问:“数据集供应链中的数据标注是否应当受到更多审查?”
诸多讨论不约而同地指出,人工智能生产的基础设施本质上是一条以数据为中心的供应链:模型的开发与训练依赖稳定的算力网络,所需的数据养料又离不开人类劳动力的加工。虽然针对数据训练环节的规制手段已经出现于现有政策法规中,但是仅突出强调了提供者这一单一主体,尚未覆盖数据流动所经的各个环节、参与数据训练工作的各类主体。在人工智能对高质量、差异化数据的需求刺激下,数据标注行业快速发展,其组织形式多样,涉及企业自建部门、数据标注工厂和劳动众包平台等多种类型。从北京、上海、广州等一线城市,到陕西榆林市清涧县、“大数据之城”贵阳市的惠水县百鸟河数字小镇等县域乡镇,大型数据标注公司、小型“个体户”等规模不一的市场主体不断涌现。因此,在制定监管政策和行业规范时,须充分考虑不同主体所处的数据链条环节,根据其与数据互动的方式及深度评测风险等级、确认权责归属,构建人工智能研发者、数据标注工厂、众包平台、数据标注员等主体的问责机制并细化问责程序。
目前,从数据流动方向与用工方式来看,数据标注行业主要包括转包、众包和自建三种模式。未来的风险治理实践,应当从服务提供者拓展至数据供应链,针对不同组织模式涉及的多元主体确定责任归属,综合组织治理与技术治理手段,建成责任可追溯的数据治理制度。第一,在转包模式中,客户项目被中间商承包后转包给外部标注团队执行,因此应强化对中间商行为的监管,防止其在转包环节牟取不合理利润,同时还要避免因中间商与客户及标注团队之间的责任不明确而导致权益纠纷。第二,在众包模式中,发单者(需求方)直接在众包平台(国外如MTurk,国内如百度众测、京东众智)上发布标注任务,由个人或标注团队下单执行,所以众包平台应承担“撮合者”责任,通过建立审核机制、完善评价体系和推出激励措施等途径间接控制数据质量,为数据标注员提供必要的劳动保障。第三,在自建模式中,数据供应商自行在企业内部建立数据标注团队,或者搭建数据标注基地,因此须建立严格的内部管理机制,提高数据标注流程的透明度和规范性,通过定期培训员工来提升数据质量和保障数据安全。
当前人工智能风险治理所回应的问题,主要是人工智能训练与应用过程对公民权利与自由的侵犯,重点关注对象为拥有数据权的公民和作为使用者的用户,因此内含着以个人权利和道德为中心的自由主义倾向;即便是关于人工智能之于工作影响的讨论,也多来自行业与公民对人工智能“歧视”的忧虑,而非底层数据劳工的现实处境与利益关怀。隐蔽于人工智能模型底座的人力基础设施,晚近才进入公共讨论视野,劳工意见尚未受到人工智能风险治理实践的充分重视。
值得指出的是,数据标注的劳工问题不是孤立于其他劳动问题的“罕见病”,反而是现代经济的“基础病”,本质上未脱离非标准劳动保护的整体性实践。在数字技术的推波助澜下,现代经济的工作日益呈现临时化、外包化和碎片化趋势,劳动者不再像“螺丝钉”一样被固定地镶嵌到组织结构中。各类不同于标准雇佣形式的新型用工方式不断被创造出来,挑战着关于劳动的传统认知和社会规范。然而,对每种新职业群体抽丝剥茧后,我们将发现,在崭新的、以双方合意为前提的用工形态之下,不变的是隐蔽性雇佣的本质。过分强调某种职业群体的特殊性无益于解决根本问题,无论是“幽灵工作”“数字劳动”还是“第三类劳动者”的提法,都不该被抽象化、简单化地定义和理解。须明确的是,数字化的经济、平台经济、零工经济,甚至未来可能出现的人工智能经济类型,都不应该被看作是经济体的一叶扁舟,其面临的治理困境与历史上出现过的其他非标准雇佣形式及制度具有高度的相似性和相关性。
因此,与其聚焦抽象的概念类型,不如采取更为切实可行的治理措施。第一,人工智能行业的监管者应当严格约束科技企业、众包平台和外包团队等市场主体的数据分发与用工过程,建立针对发单者的信用评级系统,避免“资方”对“劳方”的剥削。第二,相关部门及行业自治组织可以针对数据标注劳动的工作技能和劳动强度设立合理薪酬范围,建立和推广数据标注行业的用工标准和规范,确保数据标注员的工作受到合理评价,避免数据标注劳工在不透明的层层转包和不规范的平台众包环节遭受收入压榨。第三,无论是众包平台、外包团队还是自建工厂,都应在工作流程监控系统中为数据标注员留出自由安排工作日程的空间,避免过度和无效劳动。第四,数据标注劳工从根本上属于“非典型雇佣”劳动者,这类劳动者的雇佣形式具有非正式性、临时性或非全日制等特点,要求国家政府从根本上完善社会保险、失业补助和最低工资保障制度,才能为数据标注劳工提供基本的劳动保障。
人工智能“技术神话”的神秘面纱早已被摘下,数据标注的治理议题提示我们,除了对显而易见的机器前台风险投以目光,还应关注机器后台的人工困境。当人工智能被人类设计为可操作的技术产品之后,人类劳动的确被部分地替代,使得社会面临失业潮风险;然而,悖论在于,AI产品的生产、训练和执行却高度依赖不可见的人类劳动,并因此吸纳了大量的劳动力,催生了新职业群体。因此,与其简单地判断人工智能将引致“无用阶级”的蔓延,忧惧AI对人工的取代,不如跳出人/机器、人类智能/人工智能的二元认知框架,重新审视与反思人工智能时代人类的价值与意义。既然人类劳动填补、构成、哺育着庞大的人工智能技术系统,便不得不重新认识AI对劳动力市场的结构性改变。的确,数据标注行业的扩张为社会提供了更多就业岗位,由政府支持的数据标注基地在帮助就业、拉动地区经济发展等方面具备极其重大意义。与此同时,无论是在外包(转包)、众包还是自建的用工模式中,从事数据标注工作的劳动者都承担着程度不一的收入不稳定、高流动性、精神压抑和缺乏社会保障等风险。新型职业群体的出现也催促社会在劳动关系认定、社会保障体系、法律监管、责任主体界定等方面加快制度供应与调整。
对世界范围内人工智能风险治理实践的追溯表明,目前涉及数据标注环节的规制手段主要依循关于数据收集和使用的基本法律制度——合同法和隐私法,本质上遵循“数据作为个体媒介”(data as individual medium)的理念,即倾向于将数据置于私人个体秩序中,权衡的是无界限的数据收集之于数据主体个人权利的损害程度,应对的是个人化的利益诉求,而难以回应数据被收集对象以外的群体利益。另一方面,治理对象以提供者为主,诸多参与数据标注行业的主体如外包企业、众包平台等,并未受到足够重视。而上文的论述已经证明,迈向可信人工智能的前提在于治理前台的幻觉、偏见与安全风险,而除了人工智能服务提供者,这些处于数据供应链的关键环节却在治理中被视为“旁枝末节”的主体亦可能是导致风险的根源。换言之,关乎前台风险控制的多元主体仍然处于权责模糊的灰色地带,这不利于解决人工数据标注的公平与素养问题,也就很难实现数据质量提升与数据风险可控。
为了突破“数据作为个体媒介”治理模式的困境,莎乐美·维尔容(Salome Viljoen)(2021)基于关系理论(relational theory)提出“数据作为民主媒介”(data as a democratic medium)的替代性数据治理方案,将数据设想为受制于民主秩序的集体资源,认为要实现可信任、负责任的数据治理,需要充分应对数据生产的经济需求和社会影响,承认数据生产所涉及的众多相关利益。在实践路径上,面对劳工意见缺失的人工智能治理困境,莉娜·丹席克(Lina Dencik)(2021)则主张一种“数据正义工会主义”(data justice unionism),强调工会等组织要热情参加数据治理。这些讨论为未来的治理实践提供了借鉴,即从强调个人主义的数据治理转向以民主和集体为基础的数据治理,带动多元主体协同参与治理过程。
苇草智酷(全称:北京苇草智酷科技文化有限公司)是一家思想者社群组织。通过种种形式的沙龙、对话、培训、丛书编撰、论坛合作、专题咨询、音视频内容生产、国内外学术交流活动,以及每年一度的苇草思想者大会(原名互联网思想者大会),苇草智酷致力于广泛联系和连接科技前沿、应用实践、艺术人文等领域的学术团体和个人,促成更多有意愿、有能力、有造诣的同道成为智酷社区的成员,共同交流思想,启迪智慧,重塑认知。