Plataforma de detección de anomalías en la red por medio de Machine Learning

BENEFICIARIO

Pequeña y mediana empresa, La comunidad de seguridad aplicada

INTEGRANTES

Elga Ximena Cardozo M.

Fredy Alonso Cardona R.

AÑO

2020

PALABRAS CLAVE

anomalías machine learning malware

CONTEXTO

La identificación temprana de actividad extraña en una red de datos corporativa es una capacidad en creciente desarrollo porque puede apoyar el esfuerzo de identificación de eventos que afectan de forma negativa la confidencialidad, integridad o disponibilidad de la información de una organización. Por otro lado, la comunidad que trabaja en seguridad está interesada en entender el alcance de la tecnología de machine learning para apoyar la identificación de actividades maliciosas o fuera de lo normal.

PROPUESTA

Este trabajo aborda el estudio de las técnicas de Machine Learning (ML) con dos enfoques:

Por un lado evalúa y analiza los resultados generados por tres algoritmos diferentes de clasificación, J48, Random Tree y Naive Bayes para detectar programas de malware de tipo troyano como Emotet y sus variantes.
Por otro lado, el trabajo analiza el diseño e implementación de un prototipo de bajo costo, para detección de anomalías, que puede ser usado por empresas medianas y pequeñas en Colombia.

El diseño propuesto para la detección de anomalías en el tráfico de red consta de las siguientes capas:

Capa de recolección de datos
Capa de transporte de datos
Capa de procesamiento de datos
Capa de almacenamiento de datos
Capa de presentación de resultados

RESULTADOS

Una vez analizados los tres modelos probados se identificó como más apropiado para nuestro objetivo el algoritmo de NaiveBayes, ya que a pesar de contar con un elevado número de falsos positivos en el caso el tráfico anómalo, no generaba falsos negativos para el tráfico normal, lo que desde el punto de vista de seguridad da una mejor postura frente a las amenazas que puedan existir en la red. Del resultado queda como posible continuación de este trabajo la evaluación de nuevas variables que permitan mejorar la asertividad del(os) modelo(s) y la utilización de algoritmos más avanzados del tipo deep learning.

Otro resultado importante de resaltar es que a pesar de que se buscó que las solución fuera de costos bajos para que fuese asequible por pymes, la realidad es que los valores obtenido distan de este posibilidad, concluyendo que este tipo de soluciones siguen siendo costosas para este tipo de empresas y que realmente el mercado objetivo debería estar en empresas grandes.