赵蹲宇,张兆心.基于URL文本特征及链接关系的钓鱼网站识别算法[J].高技术通讯(中文),2017,27(8):708~717 |
基于URL文本特征及链接关系的钓鱼网站识别算法 |
|
|
DOI: |
中文关键词: 钓鱼网站, 融合算法, 统一资源定位符(URL), 文本特征, 链接关系 |
英文关键词: |
基金项目: |
|
摘要点击次数: 3031 |
全文下载次数: 2146 |
中文摘要: |
为了提高对钓鱼网站的识别准确率,通过对钓鱼网站统一资源定位符(URL)文本数据的分析,结合钓鱼网站内部链接关系组成的网络拓扑结构特征,提出了基于URL文本特征及链接关系的钓鱼网站识别算法FAUFL。该算法的原理是:以URL文本特征作为输入,采用随机森林算法生成基于URL文本特征的钓鱼网站判别算法;以链接关系作为输入构建相关网页群,采用基于最大流切割的相关网页群算法生成基于链接关系的钓鱼网站判别算法;将上述两种判别算法结果作为输入,采用Bagging算法进行进一步评估。测试结果表明钓鱼网站识别算法FAUFL算法的识别准确率为99.2%,比基于URL文本特征的算法的准确率提高3.9%,比基于链接关系的算法提高5.0%。 |
英文摘要: |
|
查看全文
查看/发表评论 下载PDF阅读器 |
关闭 |
|
|
|