【个人随笔】垃圾评论过滤算法(简单搭建)

“没事”找点简单的项目练练手,简单训练部署了下,能够识别一些垃圾广告言论,但是在文本比较长或者一些复杂的场景下,模型判别的还是不是很准确。

主要原因还是训练的数据集的问题,都是一些游戏聊天的数据。后期根据情况可能会找一些论坛的数据,重新训练一下模型。

demo演示:http://www.bhshare.cn/AI/spam/demo.html



功能介绍

根据输入内容判断是否是垃圾评论。

示例:

  • 正常评论 | 谁能告诉我xx怎么用吗?谢谢
  • 正常评论 | 打开浏览器,直接在浏览器的搜索栏搜索软件的名称就可以通过搜索引擎找到软件的下载链接
  • 垃圾评论 | 点开有惊喜:http://www.bhshare.cn/
  • 垃圾评论 | 老夫掐指一算,你五行缺德,命里犯贱。

垃圾的定义

  • 广告
  • 脏话(含敏感词)
  • 与主题无关的评论

补充

由于训练模型时使用的是一些游戏内的聊天数据,所以在文本比较长的时候,分类不是很准确...

正文到此结束