第一次数据统计:(147条标注,10月2号以前)

  1. 用百度API检查关键词基本辨别不出隐式毒性,说明数据质量还可以

Untitled

  1. 在用户三个月历史UGC中找与热搜(hashtag)相关的post,这样满足条件的用户有95

Untitled

  1. 用户之间都是弱联系:
    1. 没有 @关系 的情况出现
    2. 对毒性语言(隐式加显式), 用户→关注建图,5746个节点,6352条边,没有强联通分量,454组有共同关注

数据解耦

第一阶段数据标注

一致性检验

统一标准

选出有争议的100条数据(tt 10, xyf:20, cbw:15, yhl: 17,wd:11,dst:10,zq:17)投票划定标准

正式标注流程:

Perspective API检测