El uso de las nuevas tecnologías y las RRSS ha aumentado la cantidad de información disponible. La exposición a Internet está creciendo, llegando en ocasiones al extremo en el que el estatus y popularidad se miden en likes. En esta charla se emplearán diversas técnicas de búsqueda de información personalmente identificable, permitiendo al usuario saber dónde están expuestos sus datos y la sensibilidad de los mismos. Para ello usaremos técnicas OSINT combinadas con tratamiento de imagen, crawling y APIS no declaradas, permitiendo además detectar casos de suplantación de identidad.
Cuando publicas tu información en Internet delegas los permisos en aplicaciones de terceros perdiendo el control de la misma según los términos de uso, esos que nadie o casi nadie lee.
Las nuevas tecnologías y la automatización facilitan la recopilación de datos en fuentes públicas. Si nos centramos en imágenes podemos incorporar técnicas de reconocimiento facial, si nos centramos en texto podríamos hablar de procesado de lenguaje natural.
SpyScrap es una herramienta sencilla desarrollada en Python y dockerizada que permite la recopilación de datos de un target específico en diferentes fuentes. Su objetivo principal es calcular la exposición de una persona en Internet. Cuenta con una CLI encargada de la recopilación de datos, una API que llama a las funciones de la CLI y un interfaz web que facilita las búsquedas.
Casa modulo puede utilizarse de forma independiente y las instrucciones de despliegue viene en el README.md del repositorio.
SpyScrap permite recopilar datos de las siguientes fuentes:
- Tinder
- BOE
- Yandex
La herramienta está disponible en el repositorio de Github.
Dejo públicas también las slides de la charla.