本次学习共阅读讨论3篇论文,简单笔记见:
Building User-oriented Personalized Machine Translator based on User-Generated Textual Content
Building a Personalized Model for Social Media Textual Content Censorship
三篇论文使用的方法模型都比较清晰简单,主要学习论文的研究思路和论文写作。
从篇章结构来看,这三篇论文主要的部分还是集中于模型前的分析,和最后的评估讨论中,使用的方法或者模型所占篇幅很小。Effectiveness of Conflict Management Strategies in Peer Review Process of Online Collaboration Projects,从现象出发,主要使用回归分析一类的方法验证假设,对于管理开源社区的冲突问题的方法,做出了详细的分析(包括这些方法产生的效果以及这些方法为什么产生这些效果),进一步指导更新形式的冲突解决办法。
Building User-oriented Personalized Machine Translator based on User-Generated Textual Content和Building a Personalized Model for Social Media Textual Content Censorship是从人的需求出发,对于需求进行详尽地分析,并设计技术解决需求,最终再开发出原型得到使用者地反馈。
Effectiveness of Conflict Management Strategies in Peer Review Process of Online Collaboration Projects
Building User-oriented Personalized Machine Translator based on User-Generated Textual Content
Building a Personalized Model for Social Media Textual Content Censorship
CSCW的文章一般记录的都是一整个研究,不仅对于方法或者模型的效果有要求,更需要满足研究前期的分析,仅使用现有的数据集难以满足需求,因此数据构建是一个很重要的部分。
进行的研究分析 | 收集信息 | 收集结果 | 标注内容 | |
---|---|---|---|---|
Effectiveness of Conflict Management Strategies in Peer Review Process of Online Collaboration Projects | 回归分析: | |||
训练SVM分类 冲突管理策略(1k个pr用于训练) | ||||
Propensity score matching(PSM) | ||||
Survival Analysis(Cox proportional-hazard regression) | repo, pr,pr的回复,pr的其他回复,回复者是否是admin,pr是否接受 | 随机选取了170个project(每个repo有1000+的fork, 和100+的PR,98.2%的repo仍然开放PR)的root repo, PR, review comment, 一共有196037的PR, 61.6%是通过的 | 1000条回复标注了冲突管理分类 | |
Building User-oriented Personalized Machine Translator based on User-Generated Textual Content | 训练个性化的风格转换模型 |
| 只有post 原型中由用户授权后获取用户的历史发布post | 3个月,只考虑用户公开发表的帖子,删除字数少于10的, 转发的,剩余1135427个post, 3446个用户 过滤活动度较低的用户(发帖数少于50的)→ 1128327个post, 3256个用户 | 无 | | Building a Personalized Model for Social Media Textual Content Censorship | 训练并测试两个任务:公开性分类,敏感信息标注 | post和metadata | 招募62个志愿者,6350个帖子 | 敏感词 |
由于研究任务的特殊性,通常的自动化评估方法也不足以满足研究的需求,因此论文中的一部分评估工作是使用开放式问卷或访谈进行,主要目的是探索工作的价值与缺陷。Effectiveness of Conflict Management Strategies in Peer Review Process of Online Collaboration Projects中通过问卷分析为什么一些管理策略没有效果,以及大家期望的管理方式,从而给出了新型管理策略的构想。Building User-oriented Personalized Machine Translator based on User-Generated Textual Content和Building a Personalized Model for Social Media Textual Content Censorship都对原型工具进行了问卷的调查。Building User-oriented Personalized Machine Translator based on User-Generated Textual Content发现个性化翻译的流畅度低的具体领域和原因,Building a Personalized Model for Social Media Textual Content Censorship进一步发现在一些情况下,人们不愿意使用原型工具的原因。
通过本次论文学习任务,初步了解了HCC工作的特点,对之后的毒性语言研究工作也有一定的帮助。