机器学习实验七--SVM垃圾邮件分类器

article/2025/8/4 21:30:30

SVM垃圾邮件分类器

  • 一、什么是SVM
  • 二、实例:垃圾邮件分类器
    • 1.实验要求
    • 2.原理解释
      • 2.1 数据预处理流程
      • 2.2 特征提取方法
      • 2.3 SVM分类器
    • 3.代码实现
    • 4.实验结果
    • 5.实验总结

一、什么是SVM

支持向量机(Support Vector Machine, SVM)是一种监督学习算法,主要用于分类和回归分析。它的核心思想是找到一个最优的超平面,将不同类别的数据分隔开来,同时最大化两类数据之间的间隔(margin)。
SVM的主要特点:

  1. 可以处理高维数据
  2. 通过核技巧(kernel trick)可以解决非线性分类问题
  3. 在小样本数据集上表现优异
  4. 对噪声数据有较强的鲁棒性

二、实例:垃圾邮件分类器

1.实验要求

使用SVMs建立自己的垃圾邮件过滤器。首先需要将每个邮件x变成一个n维的特征向量,并训练一个分类器来分类给定的电子邮件x是否属于垃圾邮件(y=1)或者非垃圾邮件(y=0)。

2.原理解释

2.1 数据预处理流程

  1. 文本清洗:去除HTML标签、URL、邮箱地址等
  2. 标准化处理:将所有数字替换为"number",货币符号替换为"dollar"
  3. 分词处理:将邮件内容分割为单词列表
  4. 词干提取:使用Porter Stemmer算法提取单词词干

2.2 特征提取方法

• 使用词袋模型(Bag of Words)
• 基于预定义的词汇表(1899个单词)
• 每个单词对应特征向量的一个维度
• 如果单词在邮件中出现,对应位置设为1,否则为0

2.3 SVM分类器

• 使用线性核函数
• 正则化参数C=0.1
• 最大迭代次数1000次

3.代码实现

import numpy as np
import re
from nltk.stem import PorterStemmer
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score
from sklearn.pipeline import Pipeline
from scipy.io import loadmat# ===== 1. 加载词汇表并构造映射 =====
def load_vocab_dict(vocab_path='vocab.txt'):with open(vocab_path, 'r', encoding='utf-8') as f:lines = f.readlines()vocab_dict = {line.split('\t')[1].strip(): int(line.split('\t')[0]) for line in lines}return vocab_dict# ===== 2. 邮件预处理函数 =====
def preprocess_email(email):email = email.lower()email = re.sub('<[^<>]+>', ' ', email)email = re.sub(r'[0-9]+', 'number', email)email = re.sub(r'(http|https)://[^\s]*', 'httpaddr', email)email = re.sub(r'[^\s]+@[^\s]+', 'emailaddr', email)email = re.sub(r'[$]+', 'dollar', email)email = re.sub(r'[^a-zA-Z0-9]', ' ', email)tokens = email.split()ps = PorterStemmer()words = [ps.stem(token) for token in tokens if len(token) > 1]return words# ===== 3. 将邮件单词转换为特征向量 =====
def email_to_feature_vector(email, vocab_dict, vocab_size=1899):words = preprocess_email(email)features = np.zeros(vocab_size)indices = [vocab_dict[word] - 1 for word in words if word in vocab_dict]np.put(features, indices, 1)return features# ===== 4. 分类器训练函数 =====
def train_svm(X_train, y_train):model = Pipeline([('clf', LinearSVC(C=0.1, max_iter=1000))])model.fit(X_train, y_train)return model# ===== 5. 测试单封邮件 =====
def predict_email(model, email_text, vocab_dict):features = email_to_feature_vector(email_text, vocab_dict)pred = model.predict([features])return pred[0]# ===== 6. 主函数入口 =====
if __name__ == '__main__':# 词汇表vocab_dict = load_vocab_dict('vocab.txt')# 加载训练数据train_data = loadmat('spamTrain.mat')X_train = train_data['X']y_train = train_data['y'].ravel()# 加载测试数据test_data = loadmat('spamTest.mat')X_test = test_data['Xtest']y_test = test_data['ytest'].ravel()# 模型训练model = train_svm(X_train, y_train)# 准确率评估print(f"训练准确率: {accuracy_score(y_train, model.predict(X_train)) * 100:.2f}%")print(f"测试准确率: {accuracy_score(y_test, model.predict(X_test)) * 100:.2f}%")# 测试一封邮件(如spamSample2.txt)with open('spamSample2.txt', 'r', encoding='utf-8') as f:content = f.read()result = predict_email(model, content, vocab_dict)print("预测结果:", "垃圾邮件 (Spam)" if result == 1 else "正常邮件 (Not Spam)")

4.实验结果

在这里插入图片描述

5.实验总结

本实验成功实现了一个基于SVM的垃圾邮件分类器,通过精心设计的预处理流程和特征提取方法,在测试集上达到了98.9%的准确率。实验结果表明,SVM在文本分类任务中表现优异,特别是对于像垃圾邮件检测这样的二分类问题。


http://www.hkcw.cn/article/THwskNSgMb.shtml

相关文章

lidar和imu的标定(一)Robust Real-time LiDAR-inertial Initialization

一、Robust Real-time LiDAR-inertial Initialization 看了这篇文章。在方法中,A和B都不细看了。主要看后边的几个部分。 C. LiDAR-inertial Initialization 在这一部分中, 1) Data Preprocess:主要是准备数据。 1.雷达里程计之后,可以得…

【手写系列】手写线程池

PS&#xff1a;本文的线程池为演示 Demo&#xff0c;皆在理解线程池的工作原理&#xff0c;并没有解决线程安全问题。 最简单一版的线程池 public class MyThreadPool {// 存放线程&#xff0c;复用已创建的线程List<Thread> threadList new ArrayList<>();publ…

Git企业级项目管理实战

目录 1. 准备工作 2. 添加成员 2.1 添加企业成员 2.2 添加项目成员 2.3 添加仓库开发人员 3. 开发场景 - 基于git flow模型的实践 3.1 新需求加入 3.2 修复测试环境 Bug 3.3 修改预发布环境Bug 3.4 修改正式环境 Bug 3.5 紧急修复正式环境 Bug 4. 拓展阅读 4.1 其…

go环境配置

下载对应版本的 go 版本 https://go.dev/dl/ 配置 vim ~/.zshrc export GOROOT/usr/local/go export PATH$PATH:$GOROOT/binsource ~/.zshrc >>>>>> go versiongoland 配置&#xff1a; &#x1f50d; 一、什么是GOPATH&#xff1f; GOPATH 是旧的项目结…

MySql(十二)

目录 MySql约束 1.添加主键约束 语法格式 1&#xff09;创建一个带主键的表 查看表结构 2&#xff09;创建表的时候指定主键名称 查看表结构 3&#xff09;创建一个表然后&#xff0c;然后再使用alter为列添加主键 查看表结构 4&#xff09;为表添加数据 1---正常数据 2---主键…

chrome.runtime.sendMessage 和 new FormData()

chrome.runtime.sendMessage 是Chrome扩展程序API中的一个方法&#xff0c;可用于背景脚本和内容脚本之间的消息传递。 new FormData() 提供了一种方便的方式来构建表单数据集。 在Chrome插件中&#xff0c;在 background.js 和 content.js 进行通信时使用了使用new FormData()…

数据结构-排序-排序的七种算法(2)

一&#xff0c;七种算法的介绍和比较 二&#xff0c;冒泡排序 原理&#xff1a;重复遍历列表&#xff0c;比较相邻元素&#xff0c;如果顺序错误就交换它们 时间复杂度&#xff1a; 最好&#xff1a;O(n)&#xff08;已有序时&#xff09; 平均&#xff1a;O(n) 最坏&#x…

【目标检测】backbone究竟有何关键作用?

backbone的核心在于能为检测提供若干种感受野大小和中心步长的组合&#xff0c;以满足对不同尺度和类别的目标检测。

JAVA实战开源项目:精简博客系统 (Vue+SpringBoot) 附源码

本文项目编号 T 215 &#xff0c;文末自助获取源码 \color{red}{T215&#xff0c;文末自助获取源码} T215&#xff0c;文末自助获取源码 目录 一、系统介绍二、数据库设计三、配套教程3.1 启动教程3.2 讲解视频3.3 二次开发教程 四、功能截图五、文案资料5.1 选题背景5.2 国内…

IO流1——体系介绍和字节输出流

什么是io流 io流分类 纯文本文件&#xff1a; windows自带的记事本打开能读懂的 经验证&#xff1a; word&#xff0c;excel不是&#xff0c; txt, md的是纯文本文件 &#xff01;&#xff01;&#xff01;&#xff01; 字节输出流 io流体系 抽象类不能直接创建他们的对象…

告别复杂操作!电脑极简风格计时使用

无论是工作、学习还是日常生活&#xff0c;这款小巧实用的计时工具都能成为你掌控时间的好帮手。特别适合需要频繁切换正计时、倒计时和查看当前时间的场景。界面简洁&#xff0c;操作便捷&#xff0c;助你高效管理每一刻。 这是一款免安装的工具&#xff0c;下载后可直接打开…

湖北理元理律师事务所:个人债务管理的温度与精度

湖北理元理律师事务所&#xff1a;个人债务管理的温度与精度 面对信用卡、网贷、医疗债等多重债务压力&#xff0c;普通人常陷入“拆东墙补西墙”的恶性循环。湖北理元理律师事务所通过计划集团公司服务平台&#xff0c;推出“有温度的债务优化计划”&#xff0c;其人性化设计…

启动你的RocketMQ之旅(七)-Store存储原理

前言&#xff1a; &#x1f44f;作者简介&#xff1a;我是笑霸final。 &#x1f4dd;个人主页&#xff1a; 笑霸final的主页2 &#x1f4d5;系列专栏&#xff1a;java专栏 &#x1f4e7;如果文章知识点有错误的地方&#xff0c;请指正&#xff01;和大家一起学习&#xff0c;一…

无标注数据如何提升LLM推理能力?熵最小化 提升LLM自信度

熵最小化 提升LLM自信度 ——熵最小化(Entropy Minimization,EM),如何在不使用任何标注数据的情况下,提升大语言模型(LLMs)在数学、物理和编程等复杂推理任务上的表现。 1. 什么是熵最小化? 熵在机器学习中衡量模型输出的不确定性。熵越小,模型对输出越“自信”(概率…

[yolov11改进系列]基于yolov11引入多尺度空洞注意力MSDA的python源码+训练源码

【MSDA介绍】 本文提出了一种新颖的多尺度空洞 Transformer&#xff0c;简称DilateFormer&#xff0c;以用于视觉识别任务。原有的 ViT 模型在计算复杂性和感受野大小之间的权衡上存在矛盾。众所周知&#xff0c;ViT 模型使用全局注意力机制&#xff0c;能够在任意图像块之间建…

LCA(最近公共祖先)与树上差分

LCA&#xff1a; 我们先看一道例题洛谷p3379 这道题就是LCA的模板题 LCA大抵有三种方法处理&#xff0c;我们这里只讲两种 分别是Tarjan和倍增法&#xff0c;也分别是离线和在线算法 我们这里先讲Tarjan Tarjan&#xff1a; 一提到Tarjan这个名字&#xff0c;相信大家都…

PCIe—TS1/TS2 之Polling下的应用(一)

前文 训练序列有序集用于比特对齐、符号对齐以及交换物理层参数。2.5GT/s和5GT/s速率时,训练序列有序集不会加扰,只用8b/10b 编码。但到8GT/s及以上速率时,采用128b/130b编码,符号有可能加扰有可能不加扰,具体参阅SPEC物理层章节,后续可能会写。 训练序列(TS1或…

Spring AI调用Ollama+DeepSeek

文章目录 Spring AI集成DeepSeek申请api_keySpringBoot工程 Spring AI聊天模型概述ChatClient接口角色预设流式响应 ChatModel接口实现简单的对话提示词 函数调用函数调用实现 AI调用Ollama下载并安装 Ollama拉取 DeepSeek 模型代码测试 Spring AI Spring AI是一个AI工程领域的…

maven中的maven-antrun-plugin插件详解

1. 核心功能2. 典型使用场景3. 配置示例4. 关键配置项5. 优缺点分析6. 最佳实践7. 常见问题8. 使用案例1. 基本配置2. 常用 Ant 任务示例文件操作执行系统命令条件判断 3. 绑定到不同生命周期阶段4. 传递参数到 Ant 脚本5. 跳过任务执行6. 调试与日志7. 完整示例 总结 maven-an…

1Remote远程会话管理以及一键启动虚拟机

1Remote远程会话管理以及一键启动虚拟机 前言 vmware中安装的虚拟机命令行没有右键粘贴功能&#xff0c;想用ssh但又得启动虚拟机又得连接SSH&#xff0c;本文使用开源的1Remote以及windows脚本来实现一键启动虚拟机并连接SSH。 实现过程 下载1Remote 下载地址&#xff1a…