陈猛(中共河南省委党校信息管理部 河南郑州 450000)摘 要本文提出一种基于K最近邻算法的网络文本分类方法,对网络中新的文章和帖子进行分类,判断与事先给定的哪个主题相同,实现舆情主题跟踪。该方法对使用爬虫程序获得的网页,先使用预处理的相关技术获取到网页的纯文本内容,主要包括降噪处理和内容抽取,接下来对文本样本进行分词和去停用词处理,然后通过特征选择实现降维。为简化计算快速分类,假定样本文档集中的正例和反例样本数均为N,对于待分类文档d,基于K最近邻的思想计算余弦函数值,得到待分类文档d与正反例样本的相似度,设定相似度阈值r,统计相似度大于r的正反例数目,将待分类文本归为数目较大的类别。1
【关键词】
全文来源于知网
运用短视频开展消防宣传工作的探讨 梁海欧 2019 645 ¥:0
收藏
顺酐生产工艺与过程控制分析 李人杰 2019 846 ¥:0
收藏
机械加工工艺技术的误差分析及改进策略 刘雷社 王党卫 2019 891 ¥:0
收藏
试析机械加工中的振动消除与利用 樊强博 范信江 2019 455 ¥:0
收藏
超超临界汽轮机技术研究的新进展 袁晶晶 2019 807 ¥:0
收藏