众包中的个性化和多样化的任务组合

  • 日期:07-28
  • 点击:(1738)


a17a0360653a42458deb6d25870ba2e4

引用:Alsayasneh M,Amer-Yahia S,Gaussier E,et al。众包中的个性化多样化任务组合[J]。 IEEE知识与数据工程学报,2018年,第128-141页。

我们研究众包中的任务组合以及个性化和多样性对绩效的影响。众包中的一个核心流程是任务分配,即工人找到任务的机制。在亚马逊机械土耳其等流行平台上,通过按创建日期或奖励金额等维度对任务进行排序,可以促进任务分配。任务组合通过为每个工作人员生成任务的个性化摘要(称为复合任务(CT))来改进任务分配。我们提出了不同的CT生成方法,并制定了一个优化问题,为工人找到最相关和最多样化的CT。我们实证分析证明,工人的经验通过个性化得到极大改善,从而强化了具有工人技能和偏好的CT。我们研究并正式确定了每种CT中各种任务分散的所有方法。任务多样性的基础是组织研究,这些研究表明它对工人动机的影响。我们的实验表明,不同的CT有助于提高结果质量。更具体地说,我们表明当任务吞吐量和工作人员保留率在排名列表中最佳时,群集质量因请求者在CT中的多样化达到最佳状态,从而确认工作人员希望将他们的好工作公开给许多请求者。

关键词:众包;任务分配;任务组合;任务多样性

XX众包的核心流程之一是任务分配,即工作人员发现任务的机制。在本文中,我们将研究为每个工作人员生成个性化任务摘要并研究其对性能的影响。任务摘要是一组K个复合任务(CT),每个任务都是通过将微任务分组在一起形成的。我们研究了生成不同CT的不同方法以及多样性对不同性能标准的影响,例如任务吞吐量,工作人员保留率和群集质量。

任务和工作程序由许多属性描述,这些属性定义了任务对之间或任务与工作过程之间的相似性和多样性功能。我们考虑以下三个方面:

128e1a1f63914a8e8c73b9b991b96d26

通过在Amazon Mechanical Turk上进行研究和部署来评估Composite Tasks的构建。我们的评估分为基于问卷调查的个性化用户研究,基于问卷调查的不同用户研究以及在线任务多样性研究。

1),用户个性化研究

ee99bbc5969a46e98e48b81633748ad7

表1:任务显示选项

表1总结了不同的任务显示选项。 CRL按创建日期对任务进行排序,以查找最近提交的任务。 RRL按奖励分类以访问收入最高的任务。 SCT和PCT都为工人构建了K个复合任务。与PCT相比,SCT具有以工人为主的偏好,并且是个性化的。

表2列出了每种方案的中位数任务接受率和中位接受率。

ef386c05f40e4d9f83ee527da9e8af90

表2:任务接受率

结果表明,PCT平均值比SCT高12%,这表明考虑到工人在复合任务构建中的主体偏好可以改善向工人提供的结果。与创建日期(CRL)或奖励排名(RRL)的任务排名相比,提供员工个性化CT可以改善他们的体验。

2)用户多样性研究

CT是通过聚集主题或奖励任务生成的,使用主题,请求者或奖励来执行其多样性。

13db90b110234120a306389f593460db

表3:CT多样性和相似性配置

表3总结了评估中考虑的多样性选择。 TW由包含具有相似主题和不同奖励的任务的CT组成,TN和WN是不考虑实现多样性的情况。

对于每种多样性选择,我们报告了工人对CT的看法,例如他们是否对CT和CT评分感兴趣(满分5分)。结果如表4所示。

6a1e50c349754c35ab73f332956e9b4b

表4:多样性选择的评估

结果显示,所有CT中工人对TR的兴趣最高(93.33%),WT和WR的平均得分较高,兴趣水平仅次于TR。可以看出,工人更喜欢受试者和请求者(TR,WR和WT)不同的CT。

3),在线任务多样性研究

我们提出了两种排序列表配置:关联和多样化。这两种策略与任务建议类似。在关联的情况下,“最佳”被解释为最适合工人偏好的任务。在多元化战略中,涉及的20个最多样化的任务被分配给工人。

110c914d4bad4f67a5b3cdd09634a750

图1:相关和多样化的已完成任务和吞吐量

结果表明,图1a显示了已完成任务的总数,并且相关性明显优于多样性。图1b详细列出了每个工作会话的已完成任务的数量,并且该关联完成的任务数量明显多于多样性。图1c显示了任务吞吐量(每分钟完成的任务数),并且员工在分配相关任务方面更有效率。

研究了具有多样性选择的CT的任务吞吐量和工作者保留率,结果如图2所示。

ef119d990fd44cb9b870d13bfd69bbe0

图2:具有多样性选项的CT的任务吞吐量和工作者保留的左图和右图

结果表明,TR实现了最高的任务吞吐量和工作人员保留率,因此TR提供了相似性和多样性的最佳组合。

我们手工建立了863个非主观任务的基本事实,将工人对这些任务的答案与他们评估集群质量的基本事实进行比较。结果如表5所示。

2723b0b56acf4227958150c7c563de7b

表5:群集质量评估

结果表明,TR在群集质量评估中表现最佳,表明当排序列表中的任务吞吐量和人员保留最优时,由于CT中请求者的多样性,群集质量是最佳的。

我们研究了众包中个性化和多样化的任务组合。虽然现有工作的重点是激励工人在完成任务期间完成长期任务或招待工人,但我们希望在工作完成期间了解工人的偏好并调整每个工人的CT。这种方法将解释众包平台上工作人员文件的多样性以及他们在任务期间所期望的演变。

该复述工作由国家重点研发计划“信息产品与技术服务集成公共测量服务平台研究与应用(2018YFB1403400)”资助