Aller au contenu principal

🔬 Analyse des datasets ML


Vue d'ensemble

BlocMail utilise quatre sources de données pour construire ses patterns de détection spam :

SourcePatterns générésExemplesLicence
Manuels13Phishing FR, arnaques SNCF...Propriétaire
Kaggle6SMS spam, Enron corporateCC BY 4.0 / Public
UCI Spambase4Word/char frequency analysisCC BY 4.0
HuggingFace6Emotional manipulation, SpamAssassinApache-2.0 / CC BY 4.0
Total29+

Dataset 1 — SMS Spam Collection (UCI / Kaggle)

URL : kaggle.com/datasets/uciml/sms-spam-collection-dataset
Licence : CC BY 4.0
Taille : 5 574 messages SMS labellisés (ham/spam)

Statistiques

ClasseNombre%
Ham (légitime)4 82786.6%
Spam74713.4%

Caractéristiques des spams SMS

Top mots spam (fréquence > 50 occurrences) :

  • free, call, txt, mobile, claim, prize, win, text, urgent, stop

Top patterns identifiés :

  • Numéros surtaxés (07XXX, 0844...)
  • Mots-clés de gain immédiat ("You've won", "claim your prize")
  • Appels à l'action urgents ("URGENT", "STOP to opt out")

Patterns générés

IDNomScore
KGL-SMS-001SMS Prize Scam90
KGL-SMS-002SMS Urgent Action85

Dataset 2 — Enron Spam Dataset (Kaggle)

URL : kaggle.com/datasets/wanderfj/enron-spam
Licence : Domaine public / recherche
Taille : 33 716 emails (spam + ham)

Statistiques

ClasseNombre
Ham (emails Enron légitimes)~16 500
Spam~17 200

Caractéristiques

Corpus issu des emails de la société Enron (scandales financiers 2001). Représentatif du spam d'entreprise des années 2000-2010.

Domaines spam fréquents : @yahoo.com, @hotmail.com usurpés, domaines jetables
Sujets fréquents : investissements, pharmacie en ligne, offres d'emploi frauduleuses

Patterns générés

IDNomScore
KGL-ENRON-001Corporate Phishing60
KGL-ENRON-002Investment Scam80

Dataset 3 — UCI Spambase

URL : archive.ics.uci.edu/ml/datasets/spambase
Licence : CC BY 4.0
Taille : 4 601 emails · 57 attributs · Précision baseline 92.8%

Attributs

Le dataset UCI Spambase est unique : au lieu du texte brut, il fournit des attributs numériques calculés sur chaque email :

Fréquences de mots (48 attributs) : % d'occurrence de chaque mot dans l'email

word_freq_make, word_freq_address, word_freq_all, word_freq_3d,
word_freq_our, word_freq_over, word_freq_remove, word_freq_internet,
word_freq_order, word_freq_mail, word_freq_receive, word_freq_will,
word_freq_people, word_freq_report, word_freq_addresses, word_freq_free,
word_freq_business, word_freq_email, word_freq_you, word_freq_credit,
word_freq_your, word_freq_font, word_freq_000, word_freq_money,
word_freq_hp, word_freq_hpl, word_freq_george, word_freq_650,
word_freq_lab, word_freq_labs, word_freq_telnet, word_freq_857,
word_freq_data, word_freq_415, word_freq_85, word_freq_technology,
word_freq_1999, word_freq_parts, word_freq_pm, word_freq_direct,
word_freq_cs, word_freq_meeting, word_freq_original, word_freq_project,
word_freq_re, word_freq_edu, word_freq_table, word_freq_conference

Fréquences de caractères (6 attributs) :

char_freq_semicolon, char_freq_parenthesis, char_freq_bracket,
char_freq_exclamation, char_freq_dollar, char_freq_hash

Statistiques de majuscules (3 attributs) :

capital_run_length_average, capital_run_length_longest, capital_run_length_total

Feature weights pour les patterns UCI

FeaturePoids spamInterprétation
word_freq_free0.52"free" très corrélé au spam
word_freq_remove0.28Lien de désabonnement forcé
word_freq_your0.27Personnalisation excessive
char_freq_!0.30Exclamations abusives
char_freq_$0.20Symbole monétaire
capital_run_avg0.15MAJUSCULES ABUSIVES

Patterns générés

IDNomTypeScore
UCI-WORD-001High-frequency spam wordsword_frequency55
UCI-CHAR-001Special character patternschar_frequency45
UCI-CAP-001Capital letter ratiocapital_frequency35
UCI-COMBO-001Multi-signal combinationcombination78

Dataset 4 — HuggingFace (4 sources)

SetFit/enron_spam

URL : huggingface.co/datasets/SetFit/enron_spam
Licence : Apache-2.0
Version fine-tunée du corpus Enron pour SetFit (few-shot learning).

talby/spamassassin

URL : huggingface.co/datasets/talby/spamassassin
Licence : Apache-2.0
Dataset issu du corpus SpamAssassin Apache — référence pour les règles anti-spam.

Patterns caractéristiques : arnaque nigériane, HTML spam, headers manipulés.

dair-ai/emotion

URL : huggingface.co/datasets/dair-ai/emotion
Licence : MIT
Utilisé pour identifier les patterns de manipulation émotionnelle dans les spams (peur, urgence, excitation, joie).

sms_spam (HuggingFace)

URL : huggingface.co/datasets/sms_spam
Licence : CC BY 4.0
Corpus SMS spam complémentaire au dataset UCI.

Patterns HuggingFace générés

IDNomSourceScore
HF-ENRON-001Enron corporate spamSetFit/enron_spam55
HF-SA-001Nigerian scam (SpamAssassin)talby/spamassassin95
HF-SA-002HTML spamtalby/spamassassin72
HF-EMOTION-001Fear/Urgency patternsdair-ai/emotion68
HF-EMOTION-002Joy/Excitement manipulationdair-ai/emotion75
HF-SMS-001SMS premium rate scamsms_spam82

Performances comparées

DatasetPrécision (baseline)RecallF1
UCI Spambase92.8%91.5%0.92
SMS Spam Collection98.5%97.2%0.98
Enron Spam95.1%94.3%0.95
Combiné BlocMail~96% (estimé)~94%~0.95

Qualité des données

Biais identifiés

DatasetBiaisMitigation
UCI SpambaseDonnées 2000-2002 (obsolètes)Pondération réduite, patterns de fréquence uniquement
Enron SpamContexte US corporatePatterns généralisés pour marché FR
SMS Spam CollectionPrincipalement anglaisPatterns transposés en FR

Enrichissement continu

Les patterns sont enrichis par :

  • Signalements communautaires (opt-in utilisateurs)
  • Corpus de phishing FR (manuel)
  • Partenariats API 33700 et SignalSpam (Q3 2026)