毒性语言的定义
毒性语言指一个人对另一个人或者一群人发表的伤害性的、贬损性的或污秽的话语,可能导致对方精神痛苦的语言。
参考《微博社区公约》《网络信息内容生态治理规定》等,包括但不限于如下情况:
- 宣扬仇恨: 用特定的生理、心理、地域、文化等属性区分出特定的人群加以标签化对立,并对此进行扩散传播,试图将对这一群体的排挤、贬低、歧视、攻击及伤害正当化、常规化的行为
- 不当评述自然灾害、重大事故等灾难;
- 展现血腥、惊悚、残忍等致人身心不适;
- 带有性暗示、性挑逗等易使人产生性联想;
- 可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好等的;
- 宣扬低俗、庸俗、媚俗内容。
- 其他
隐式毒性语言定义
隐式毒性语言定义为通过编码或者间接的语言贬低一个人或者一群人的内在特征,例如种族、性别、文化个性等特征,使用模棱两可的术语、反讽、隐喻等方式传达,难以被基于毒性语言语料库关键词的检测系统发现。
显式毒性语言定义
显式毒性语言定义为通过明确的词语和表达语言贬低一个人或者一群人的内在特征,例如种族、性别、文化个性等特征。
数据收集与标注内容
我们需要您收集原创微博的文本内容,以及基于这些内容进行一定的标注,具体内容如下:

注意事项:
- 需要收集的原创微博指的是 包含表情符、定位等在内的文本信息,不包括转发、抽奖、广告、投票类。
- 标签:指的是您对微博的内容分类