Identification des auteurs de courriels "anonymes"

Merci à Nico pour la trouvaille, décidément on arrête pas le progrès, les petits malins et les autres n’ont qu’à bien ce tenir…….

Une équipe de chercheurs de l’Université Concordia a mis au point une nouvelle technique permettant d’identifier efficacement les auteurs de courriels anonymes. Des essais ont montré que cette méthode atteint un degré (Le mot degré a plusieurs significations, il est notamment employé dans les domaines suivants  :) de précision élevé et, à la différence de nombreuses autres, peut fournir des preuves recevables en cour. Cette découverte fait l’objet d’une étude parue dans la revue Digital Investigation.

« Depuis quelques années, nous observons une augmentation alarmante des crimes cybernétiques commis à l’aide de courriels anonymes », affirme Benjamin Fung, coauteur de l’étude, professeur en ingénierie des systèmes d’information à l’Université Concordia et expert en exploration (L’exploration est le fait de chercher avec l’intention de découvrir quelque chose d’inconnu.) de données (Dans les technologies de l’information (TI), une donnée est une description élémentaire, souvent codée, d’une chose, d’une transaction d’affaire, d’un événement, etc.), soit l’extraction d’informations utiles jusque-là inconnues à partir d’une grande quantité (La quantité est un terme générique de la métrologie (compte, montant) ; un scalaire, vecteur, nombre d’objets ou d’une autre manière de dénommer la valeur d’une collection ou un groupe de choses.) de données (Dans les technologies de l’information (TI), une donnée est une description élémentaire, souvent codée, d’une chose, d’une transaction d’affaire, d’un événement, etc.) brutes. « Ces courriels peuvent contenir des menaces ou de la pornographie infantile, faciliter les communications entre criminels ou encore transmettre des virus. »


Si la police utilise souvent l’adresse IP pour repérer la maison ou l’appartement d’où provient un courriel, elle peut trouver plusieurs personnes à cette adresse (Les adresses forment une notion importante en communication, elles permettent à une entité de s’adresser à une autre parmi un ensemble d’entités. Pour qu’il n’y ait pas d’ambiguïté, chaque adresse doit correspondre à une unique entité, une adresse peut donc être un moyen d’identification. En revanche il n’est pas impossible que deux adresses fassent…). Il lui faut donc un moyen fiable et efficace de déterminer lequel des suspects a rédigé les courriels examinés.

Afin de répondre à ce besoin, M. Fung et ses collègues ont conçu une nouvelle méthode inspirée de techniques utilisées pour la reconnaissance de la parole (La parole, c’est du langage incarné. Autrement dit c’est l’acte d’un sujet. Si le langage renvoie à la notion de code, la parole renvoie à celle de corps. La parole est singulière et opère un acte de langage qui s’adresse à un interlocuteur.) et l’exploration de données. Leur approche repose sur l’identification des caractéristiques fréquentes, c’est à-dire des combinaisons uniques de particularités récurrentes dans les courriels d’un suspect.

Pour déterminer si un suspect est l’auteur d’un courriel, on distingue d’abord les caractéristiques trouvées dans des courriels rédigés par ce dernier. On élimine ensuite toutes les caractéristiques figurant également dans les courriels d’autres suspects.

Les récurrences restantes deviennent des caractéristiques propres à l’auteur des courriels analysés. Elles constituent en quelque sorte l' »empreinte écrite » du suspect, soit un identificateur aussi précis qu’une empreinte digitale. « Supposons, par exemple, qu’un courriel anonyme contienne des coquilles ou des erreurs grammaticales, ou qu’il soit entièrement rédigé en lettres minuscules, explique le professeur Fung. Nous utilisons ces caractéristiques pour créer une empreinte écrite. Grâce à cette méthode, nous pouvons déterminer avec une grande exactitude l’auteur d’un courriel et déduire son sexe, sa nationalité et son niveau d’instruction. »

Afin de tester la précision de leur technique, le professeur Fung et ses collègues ont examiné le Enron Email Dataset, un ensemble de données de plus de 200 000 courriels réellement rédigés par 158 employés d’Enron Corporation. En analysant un échantillon (De manière générale, un échantillon est une petite quantité d’une matière, d’information, ou d’une solution. Le mot est utilisé dans différents domaines  :) de 10 courriels par sujet – avec 10 sujets au total ( Total est la qualité de ce qui est complet, sans exception. D’un point de vue comptable, un total est le résultat d’une addition, c’est-à-dire une somme. Exemple : « Le total des dettes ». En physique le total n’est pas forcément obtenu avec l’addition : exemple de la capacité totale d’une série de condensateurs en série,…), soit 100 courriels en tout –, ils ont ainsi pu identifier leurs auteurs avec une précision allant de 80 % à 90 %.

« Notre technique est conçue pour fournir une preuve crédible qui peut être présentée en cour, précise M. Fung. Pour qu’une preuve soit recevable, les enquêteurs doivent pouvoir expliquer comment ils sont arrivés à leurs conclusions. C’est ce que notre méthode permet de faire. »

Cette nouvelle technique d’identification a été développée en collaboration avec Mourad Debbabi et Farkhund Iqbal de Concordia. « Nos formations diversifiées nous ont permis d’appliquer des techniques d’exploration de données à de réels problèmes de cybercriminalité, déclare le professeur Fung. Voilà qui illustre parfaitement à quel point la recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue de produire et de développer les connaissances scientifiques. Par extension métonymique, la recherche scientifique désigne également le cadre social, économique, institutionnel et juridique de ces actions.) interdisciplinaire (Un travail interdisciplinaire intègre des concepts provenant de différentes disciplines.) porte fruit. »

source techno-science.net