解决方案加速器:游戏中的毒性检测

2021年6月16日在工程的博客

分享这篇文章

请查看解决方案加速器下载本博客中提到的笔记。

在大型多人在线视频游戏(mmo)、多人在线竞技游戏(moba)和其他形式的在线游戏中，玩家不断进行实时互动，协调或竞争，因为他们朝着一个共同的目标前进——获胜。这种互动性是游戏玩法动态的组成部分，但与此同时，它也是有害行为的主要开端——这是在线视频游戏领域普遍存在的问题。

有毒行为以多种形式表现出来，例如不同程度的悲伤、网络欺凌和性骚扰，如下面的矩阵所示行为互动，其中列出了多人游戏中的互动类型，死于白昼．

除了个人付出的代价这种有害行为会对玩家和社区产生负面影响(游戏邦注:这是一个不容忽视的问题)，同时也会损害许多游戏工作室的底线。例如，一项研究密歇根州立大学据透露，80%的玩家最近经历了毒性，其中20%的人表示因为这些互动而离开了游戏。同样，一项来自蒂尔堡大学在游戏的第一个回合中遭遇破坏性或有害的遭遇会导致玩家离开游戏而不回来的可能性增加三倍以上。考虑到玩家留存是许多工作室的首要任务，特别是当游戏从实体媒体发行过渡到长期服务时，显然必须遏制这种毒性。

一些公司在开发早期，甚至在发布之前就面临着与毒性相关的挑战。例如,亚马逊的坩埚发布测试时没有文字或语音聊天，部分原因是没有适当的系统来监控或管理有毒的玩家和互动。这表明，游戏领域的规模已经远远超过了大多数团队通过报告或干预破坏性交互来管理此类行为的能力。鉴于此，工作室有必要在开发生命周期的早期将分析整合到游戏中，然后为持续管理有害互动进行设计。

游戏中的毒性显然是一个多方面的问题，它已经成为电子游戏文化的一部分，无法以一种单一的方式普遍解决。也就是说，考虑到有毒行为的频率和使用自然语言处理(NLP)自动检测的能力，解决游戏聊天中的毒性问题可能会产生巨大的影响。

我从Databricks介绍了游戏解决方案加速器中的毒性检测

使用有毒评论数据从竖锯和Dota 2比赛数据，这个解决方案加速器通过使用NLP和现有的实时检测有毒评论所需的步骤lakehouse．对于NLP，这个解决方案加速器使用火花NLP来自John Snow Labs，这是一个基于Apache Spark™的开源企业级解决方案。

在这个解决方案加速器中，您将采取的步骤是:

使用Delta Lake将Jigsaw和Dota 2数据加载到表中
使用多标签分类对有毒评论进行分类(火花NLP）
使用MLflow跟踪实验并注册模型
对批处理和流数据应用推理
检查毒性对比赛数据的影响

在制作过程中检测游戏内聊天的毒性

有了这个解决方案加速器，你现在可以更容易地将毒性检测集成到你自己的游戏中。例如，下面的参考架构展示了如何从各种来源(如流、文件、语音或运营数据库)获取聊天和游戏数据，并利用Databricks将数据摄取、存储和管理到机器学习(ML)管道的特征表中，用于分析的游戏内ML, BI表，甚至与用于社区审核的工具直接交互。

拥有一个实时的、可伸缩的体系结构来检测社区中的毒性，可以简化社区关系经理的工作流程，并能够将数百万个交互过滤为可管理的工作负载。类似地，实时警告严重有毒事件的可能性，甚至是自动响应(游戏邦注:如让玩家静音或迅速向CRM发出事件警报)都可以直接影响玩家留存率。同样，拥有一个能够处理来自不同来源的大bob体育客户端下载型数据集的平台，可以用来通过报告和仪表板监控品牌认知。

开始

这个解决方案加速器的目标是通过实时检测游戏聊天中的有毒评论来帮助支持在线游戏中有毒互动的持续管理。从今天开始，直接将这个解决方案加速器导入到Databricks工作空间。

一旦导入，您将有两个管道准备转移到生产的笔记本。

ML管道使用多标签分类，并在谷歌Jigsaw的真实世界英语数据集上进行训练。该模型将对文本中的毒性形式进行分类和标记。
利用毒性模型的实时流推断管道。可以很容易地修改管道源，以从所有公共数据源中摄取聊天数据。

使用这两个管道，您可以以最小的努力开始理解和分析毒性。这个解决方案加速器还为构建、定制和改进使用游戏机制和社区相关数据的模型提供了基础。

请查看解决方案加速器下载本博客中提到的笔记。

免费试用Databricks

开始

看到所有工程的博客的帖子