非洲数据注释员时薪不到2美元，却要筛选大量负面内容以降低ChatGPT毒性

最近，我一直在思考人工智能模型背后的人力资源消耗。

让人工智能聊天机器人用起来很智能，并生成更少有毒的废话的秘诀是使用了一种名为基于人类反馈的强化学习的技术，该技术利用人们的输入来改进模型的回答。

它依赖于一小群人工数据标注者，他们负责评估一串文本是否有意义，听起来是否流畅自然。他们将决定是把回答保存在人工智能模型的数据库中，还是将其删除。

即使是最令人印象深刻的人工智能聊天机器人，也需要数千个人类工时才能按照创作者希望的方式行事，即使这样，他们也无法可靠地做到这一点。这项工作可能是残酷和令人不安的，正如我们将在本周 ACM 公平、问责和透明度会议（FAccT，Fairness-Accountability- and Transparency）开始时听到的那样。这个大会，汇集了我喜欢的话题和研究，比如如何使人工智能系统更负责任和更合乎道德。

（来源：ANNA SOROKINA）

我期待的一个小组是由人工智能伦理先驱蒂姆尼特·格布鲁（Timnit Gebru）领导的，她在被解雇前曾共同领导谷歌的人工智能伦理部门。格布鲁讲述了埃塞俄比亚、厄立特里亚和肯尼亚的数据工作者，如何被利用去清除网上的仇恨信息和错误信息。例如，肯尼亚的数据注释员每小时的报酬不到 2 美元，他们要筛选大量关于暴力和性虐待的令人不安的内容，以降低 ChatGPT 的毒性。这些人现在正在加入工会，以获得更好的工作条件。

在 2022 年的《麻省理工科技评论》系列中，我们探讨了人工智能是如何创建一个新的殖民世界秩序的，而数据工作者首当其冲。随着 ChatGPT、Bing 和 Bard 等流行的人工智能聊天机器人以及 DALL-E 2 和 Stable Diffusion 等图像生成人工智能的兴起，揭露人工智能的剥削行为变得更加紧迫和重要。

数据注释员参与了人工智能开发的每个阶段，从训练模型到验证其输出，再到提供反馈，使模型在推出后能够进行微调。英国伦敦城市大学研究数据工作劳动实践的博士研究员斯拉维亚·昌迪拉莫乌里（Srravya Chandhiramowuli）说，他们经常被迫以惊人的速度工作，以满足更高的目标和紧迫的时限。

昌迪拉莫乌里说：“如果有人认为，你可以在没有人为干预的情况下建立这些大规模系统，那他是绝对错误的。”

人工智能模型需要大规模地做出决策，并且这些决策必须尽可能地成熟，而数据注释员为它们提供了重要的背景信息。

昌迪拉莫夫里告诉我一个案例，印度的一位数据注释员必须区分汽水瓶的图像和挑选出看起来像 Dr.Pepper（一种饮料）的图像。但后者并不在印度销售，数据注释者有责任弄清楚这一点。

昌迪拉莫乌里说，人们的期望是注释者找出对公司重要的价值观。她说：“他们不仅在学习这些对他们来说毫无意义的遥远的东西，他们还要弄清楚其它背景信息是什么，以及他们正在构建的系统的优先事项是什么。”

美国加州大学伯克利分校、加州大学戴维斯分校、明尼苏达大学和西北大学的研究人员在 FAccT 发表的一篇新论文中认为，事实上，无论我们是否意识到，我们都是大型科技公司的数据劳工。

文本和图像人工智能模型是使用从互联网上收集的巨大数据集进行训练的。这包括我们的个人数据和艺术家的版权作品，而我们创建的数据现已永远成为人工智能模型的一部分，而这些模型是为了让公司盈利而建立的。我们无意中通过将照片上传到公共网站、在 Reddit 上投票、在 reCAPTCHA 上标记图像或进行在线搜索来免费贡献我们的劳动。

目前，权力失衡严重偏向于世界上一些最大的科技公司。

要改变这一现状，我们只需要一场数据革命和监管。研究人员认为，人们重新控制自己在线生活的一种方法是倡导数据使用方式的透明度，并想出方法让人们有权提供反馈并分享数据使用的收入。

尽管这种数据劳动构成了现代人工智能的支柱，但数据工作在世界各地仍然长期被低估和忽视，注释者的工资仍然很低。

正如昌迪拉莫夫里所说：“人们绝对没有认识到数据工作的贡献。”

支持：Ren