Big data e inteligencia artificial para la gestión de contenidos generados por usuarios

5.0 (11 Votos)

En este artículo hablamos de Anuncios fake en Internet y del uso de big data, inteligencia artificial y machine learning para la gestión de contenidos en portales de anuncios

Infografía informe anuncios fraudulentos en Internet

Estado de la publicación de contenido fake en portales de anuncios en Internet

El Observatorio Español de Delitos Informáticos anunció que en 2017 en España se produjeron 60.511 fraudes o engaños informáticos, y con una tendencia que parece ir aumentando con el paso de los años. Este tipo de ciberdelitos suponen más del 70% de los delitos informáticos que se producen en España cada año.

Los portales de anuncios generan cada día un extraordinario volumen de contenido generado por los propios usuarios. En España estimamos que se publican mensualmente alrededor de 600.000 anuncios (ofertas de empleo, anuncios de compra-venta, alquileres, etc). Garantizar la fiabilidad del contenido de las publicaciones supone una ardua tarea de detección, clasificación y eliminación del contenido inapropiado.

Según el estudio realizado por tablondeanuncios.com en el que se han analizado cerca de 2,5 millones de anuncios, aproximadamente el 1% del contenido que se intentó publicar no llego a ver la luz por contener algún tipo de irregularidad (Teniendo en cuenta solo un anuncio por usuario dudoso. Si se tiene en cuenta el volumen total de anuncios, el mismo usuario puede llegar a intentar publicar varios anuncios, el porcentaje sería muy superior al 1%). Así, de los 2.326.530 de anuncios analizados, 22.800 anuncios fueron rechazados y no llegaron a publicarse en Internet; apenas 1861 anuncios dudosos (el 0,08%) de los 2,5 millones analizados vieron la luz en Internet. Es decir, de cada 10.000 anuncios que se pretenden publicar, 100 son falsos y solo 1 consigue pasar todos los filtros y llega a publicarse en Internet. Bien es cierto que en la mayoría de los casos estos anuncios son finalmente detectados por los propios usuarios, denunciados y retirados en un tiempo mínimo. En este informe, mostramos la naturaleza de los 22.800 anuncios rechazados, que nunca llegaron a publicarse en Internet.

Big data e inteligencia artificial para mantener el contenido “limpio”

La gestión del contenido en webs de alto volumen en las que el propio usuario es quien genera la mayor parte de dicho contenido, presenta grandes problemas de clasificación y depuración de las publicaciones.

Si de lo que se trata es de que el contenido publicado cumpla con los necesarios criterios de interés, relevancia y que esté alineado con los propósitos de la página web, la inversión en tiempo y talento ha de ser importante, de lo contrario el engagement por parte del usuario consumidor del contenido publicado con el portal web será mínimo.

Así se plantean cinco retos:

Clasificación de los contenidos: Se trata de que cada pieza de contenido generado se incluya en la sección adecuada del portal para que el usuario consumidor de contenidos encuentre lo que busca de la forma más sencilla posible. Así por ejemplo, en un foro sobre ocio no tendría sentido que en el área de fotografía apareciese un hilo o comentario sobre el cultivo de la planta del tomate. Igualmente en un portal de anuncios no sería adecuado encontrarse un anuncio de demanda de empleo en ofertas o la venta de una lavadora de segunda mano en el área de motor. En muchos casos se trata simplemente de un descuido del usuario al no elegir adecuadamente el área en la que debería incluir su anuncio o hacer su comentario. No obstante, son los usuarios con “otros” intereses: Trolls, usuarios que buscan aprovechar la audiencia del portal para la venta de productos, etc. los que más nos tienen que preocupar a la hora de gestionar este tipo de error; Es muy común ver empresas de formación que de manera velada intentan publicar anuncios de ofertas de empleo con el propósito de vender cursos de formación.
Mantenimiento de la calidad de los contenidos publicados: La inclusión de contenidos que por su redacción, el uso de palabras malsonantes, la aparición de faltas de ortografía, el uso de imágenes que no se corresponden con el texto y que se incluyen solamente con el propósito de llamar la atención, etc. es otro aspecto importante a tener en cuenta. Especialmente complicado se presenta la detección de imágenes inadecuadas.
Filtrado y eliminación de contenidos engañosos o falsos: Sin duda, este es el aspecto que más nos tiene que preocupar y que ha de contar con la prioridad a la hora de gestionar los contenidos publicados más allá de la inclusión como advertencia en las condiciones de uso de la prohibición de incluir contenido ilegal, engañoso, sexista, etc. La gestión efectiva de estos contenidos es primordial.
Detección de contenido generado por robots: El uso de robots para la generación de contenido y su publicación en portales de Internet está a la orden del día. La totalidad del contenido que intenta publicarse en los portales de anuncios a través de robots es contenido en el mejor de los casos de baja calidad, en el peor es contenido engañoso. Evitar su publicación es fundamental.
Impedir el Spam a través de los formularios de contacto: Otra de las batallas a las que nos enfrentamos cada día es al uso ilegítimo que se intenta hacer de los portales de anuncios por parte de agentes comerciales a fin de aprovechar los contactos del contenido publicado para enviar spam a los usuarios generadores de contenido con el consiguiente trastorno para el usuario y la pérdida de credibilidad del portal de anuncios. En otros casos dichas acciones se intentan realizar de manera masiva con el uso de robots o spiders lo que eleva el problema de forma exponencial.

Solo con una adecuada gestión del contenido mediante el uso de big data e Inteligencia artificial y, en última instancia, la revisión manual realizada por editores con un alto nivel de formación se consigue que apenas un muy pequeño porcentaje de los anuncios que finalmente llega a publicarse sea inapropiado. Obviamente, solo aquellos portales que destinan los suficientes medios humanos y materiales a realizar una gestión seria y rigurosa del contenido que se publica consiguen mantener altos niveles de calidad en los contenidos publicados.

Cómo usamos el big data para la gestión del contenido

Las soluciones genéricas de moderación de la IA no permiten saber por qué se tomó una determinada decisión o en qué marco se crearon los modelos. En tablondeanuncios.com usamos big data e inteligencia artificial con nuestros propios datos para la gestión de todo el contenido que se genera en los cinco puntos detallados anteriormente de la siguiente forma:

Clasificación del contenido: Creamos reglas y filtros para que los contenidos publicados se incorporen de manera correcta al área correspondiente aun en caso de error por parte del usuario en la elección del lugar del portal en el que decide publicar su contenido. Para crear estas reglas tenemos en cuenta tanto los patrones que siguen los contenidos mal clasificados como el contenido ya publicado correctamente. Los patrones y reglas en los dos casos se constituyen teniendo en cuenta todos los campos que el usuario tiene que rellenar para la aceptación de un contenido: Títulos, texto del cuerpo del mensaje y resto de campos seleccionados. De esta forma se consigue que los errores más comunes en la clasificación de los anuncios: Elección incorrecta de la sección, ofertas señaladas como demandas, etc. se auto-clasifiquen correctamente.
Así por ejemplo, una demanda de empleo publicada por un usuario y que él clasifica como oferta de empleo, sería detectada por el sistema en el proceso de inclusión del anuncio y automáticamente dirigida y publicada correctamente como demanda de empleo.
Mantenimiento de la calidad: Descripciones incorrectas o escasas; faltas de ortografía; palabras malsonantes; títulos que no se corresponden con el texto publicado en el anuncio; fotografías que no tienen relación con el contenido; etc. son algunos de los problemas a los que nos enfrentamos en este apartado. De todos ellos, el que supone un mayor reto son las fotografías. Principalmente en tres aspectos. El primero y más grave es la incorporación al contenido de fotografías con derechos de autor que el usuario no tiene; el segundo, también de cierta gravedad, es la inclusón de fotografías que no se corresponde con el texto del anuncio con el propósito de engañar al usuario consumidor del contenido; y en tercer lugar, es la incorporación de fotografias inapropiadas incluidas con el propósito de llamar la atención.

Los aspectos de estilo mencionados al principio son fácilmente detectables y se corrigen de forma sencilla. Sin embargo, el tratamiento de las imágenes requiere de un esfuerzo de programacón realmente importante. Así, creamos sistemas que detectan cuando una fotografía ha sido tomada desde un banco de imágenes; cuando la imagen no pertenece al producto que se anuncia o cuando la imagen puede ser clasificada como contenido para adultos.
Cómo evitar la publicación de anuncios fake: Es importante en primer lugar detectar el contenido que no es apto para su publicación antes de que este vea la luz en Internet y bloquear al usuario que intenta publicarlo. Eso sí, solo el que no es apto, tratando de evitar a toda costa eliminar y bloquear contenido y usuarios “buenos”. De nuevo, el uso del contenido que tenemos, tanto del “Bueno” como del que se ha descartado es fundamental a la hora de crear filtros y fórmulas para la detección automática del contenido no deseado.

En este apartado es importantísimo que ni un solo contenido apto no llegue a publicarse en Internet y tampoco que el usuario igualmente “bueno” sea bloqueado. Para conseguir esto creamos junto a los filtros y fórmulas que detectan el contenido fake condiciones positivas que determinan que aunque un contenido sea clasificado como no apto, si cumple al menos una de las condiciones positivas no sea eliminado ni el usuario bloqueado y este contenido pase en una última instancia a ser revisado de forma manual por el editor.

Digamos por último que los intentos de inclusión de contenidos falsos en el portal es el mejor alimento que podemos obtener a la hora de mejorar las fómulaciones para su detección. Mientras más contenido falso intentan “colarnos” mayor precisión se obtiene en el diseño de las formulas y mejor funcionan nuestros filtros.
Evitar la acción de robots en la publicación de contenidos: El mayor problema en este punto es el uso de robots para la inclusión masiva de anuncios sin ningún interes o correlación con la temática de cualquiera de las áreas del portal y cuyo único fin es la venta o promoción de productos, apps o paginas webs generalmente de adultos, etc. en el portal. El uso de IA y métodos automatizados para mantener la calidad de las publicaciones es importante, sobre todo, cuando desde la otra parte se intentan usar métodos automáticos para publicar contenido poco relevante. Nuestro sistema detecta cuando un mismo anuncio se publica en distintas secciones, provincias o localidades; en ocasiones se trata de “contenido bueno”, por ejemplo, una misma oferta de empleo que busca cubrir el mismo puesto en varias provincias, pero, por desgracia, en la mayoría de los casos se trata de contenido duplicado, de intentar promocionar un producto y copar los listados con ese producto. Una vez más, la revisión por parte de personas combinada con el uso de big data, consigue que el contenido del portal sea relevante y no existan anuncios repetidos sin justificación.
Parar el spam: La combinación de alertas sobre el uso del servidor, direcciones IP de procedencia de los mensajes, contenido de los mensajes, etc. nos ayudan de forma extraordinariamente efectiva a detectar y parar la amenaza del spam y scam en tiempo real. Este tipo de spam/scam, realizado tanto de manera manual como por robots, tiene como fin de aprovechar los anuncios publicados para contactar con los usuarios con fines comerciales es real y permanente. Los usuarios creadores de contenido que incluyen sus anuncios en el portal esperando que otros usuarios, interesados en sus anuncios, contacten con ellos tienen que estar libres de esta amenaza. Es muy importante a la hora de eliminar contenidos y bloquear usuarios indeseables, que ni un solo usuario o contenido “bueno” sea clasificado como dañino. Para evitar esta posibilidad se crean condiciones positivas que determinan que aunque un contenido sea clasificado como no apto, si cumple al menos una de las condiciones positivas no sea eliminado y pase a ser revisado manualmente. Un ejemplo de spam/scam realizado por robots son los intentos de inclusión masiva de anuncios de prestamos en varias secciones y en todas las provincias. Otro ejemplo recurrente, aunque menos dañino que los anteriores, es el intento de publicación de contenido “inadecuado” es la inserción de anuncios sobre cursos de formación entre las ofertas de empleo

En todos los casos anteriores los patrones, filtros y fórmulas se diseñan con una fuerte componente de automejora con el conocimiento que cada día aporta el nuevo contenido publicado. Se trata no solo de la correcta gestión del contenido, sino de predecir nuevos comportamientos que puedan dañar la calidad del funcionamiento del portal. Sin embargo, todo esto no sería posible sin la aportación diaria en la detección de nuevos modelos que realizan los editores cuyo aporte es imprescindible para que las formulaciones automáticas estén vivas y permitan que nuestros algoritmos de calidad se alimenten y mejoren continuamente. Creemos que la combinación en el uso de filtros automatizados, el “machine learning” y la revisión manual por parte de editores es el equipo ganador en la gestión y control para ofrecer un contenido de calidad.

Por último, en tablondeanuncios.com creemos que la información y el conocimiento de nuestros usuarios es el mejor antídoto, por lo que diariamente publicamos para conocimiento del público en general los modelos y tipos de anuncios fake más comunes.

A continuación mostramos de manera exhaustiva la naturaleza de los anuncios fake que se intentaron publicar y que nunca vieron la luz en Internet.

Principales dominios de email utilizados en anuncios fraudulentos

Figura 1. Distribución de anuncios falsos por dominios de email de usuario. Fuente: elaboración propia

Como puede observarse, en el dominio de los emails fraudulentos destaca "gmail", utilizado para los usuarios de 7.763 anuncios, muy por encima del resto, seguido de "hotmail", "yahoo" y "outlook". Estos cuatro proveedores de mensajería recogen casi el 67% de los anuncios de estafas analizados.

La distribución temporal de estos anuncios en el periodo de la muestra que abarca desde mediados de 2013 hasta finales de 2018, se expone en el siguiente gráfico:

Gráfica de anuncios fraudulentos desde mediados de 2013 hasta finales de 2018

Figura 2. Evolución temporal de los anuncios falsos de la muestra. Fuente: elaboración propia.

No parece apreciarse a primera vista ninguna tendencia o estacionalidad, pero los grandes picos de subida se suelen corresponder con los meses de noviembre, enero y mayo, cercanos a los periodos vacacionales.

Si analizamos la procedencia de estos anuncios por provincias, las diez provincias que reúnen más anuncios de estafas.

Las 10 provincias con más anuncios de estafas

Figura 3. Distribución de anuncios falsos en las diez provincias más recurrentes. Fuente: elaboración propia.

Entre estas provincias encontramos en los primeros puestos Madrid, Barcelona, Valencia, Alicante, Sevilla y Málaga, que a su vez se corresponden con las provincias que más anuncios (no fraudulentos) tienen publicados en el portal. Sin embargo, estas provincias están seguidas por A Coruña, Baleares, Almería y Cádiz, que no son las más productivas en cuanto anuncios en general se refiere, por lo que esta posición es destacable. Estas diez provincias recogen más del 50% del total de los anuncios fraudulentos analizados.

Las 10 provincias con más del 50% del total de los anuncios fraudulentos

Figura 4. Mapa de la distribución geográfica por localidades de los anuncios falsos. Fuente: elaboración propia.

En cuanto a la distribución geográfica en general de los anuncios, en el mapa de arriba se puede apreciar como destacan principalmente las ciudades metropolitanas y las grandes capitales de provincia, aunque destacan también pequeños núcleos que se concentran en torno a Madrid y en la costa Mediterránea.

Otro aspecto relevante a analizar es la tipología del anuncio, para ello nos hemos centrado en primer lugar en las principales categorías de anuncios que se publican en Tablondeanuncios.com y su distribución dentro de los anuncios de estafas de cada una de estas diez provincias.

Figura 5. Distribución de anuncios falsos por categorías en las diez provincias principales. Fuente: elaboración propia.

En el gráfico anterior se puede apreciar que la distribución del porcentaje de anuncios fraudulentos en cada provincia por categoría es más o menos similar, aunque con ligeras variaciones, como por ejemplo, que en Madrid y en Sevilla la categoría más frecuente de este tipo de anuncios sea Empleo mientras que Barcelona y A Coruña predominan los anuncios de Ocio y en Valencia, Alicante, Málaga y Almería los de Motor. También es interesante destacar el gran peso que tiene la categoría de Inmobiliaria en Baleares, mientras en las otras provincias se mantiene más discreta, pero se puede afirmar que tiene más peso en provincias que suelen ser importantes destinos vacacionales en el país.

Porcentaje de anuncios fraudulentos por categoría

Figura 6. Peso de cada una de las categorías en los anuncios de estafas analizados. Fuente: elaboración propia.

En cuanto al total de la muestra, las categorías con más anuncios de estafas son Motor, Empleo, Ocio y Negocios, que juntas reúnen más del 70% de los anuncios fraudulentos analizados.

Distribución de las principales categorías con anuncios fraudulentos por localidades

Figura 7. Mapa de las categorías con más peso en anuncios falsos por localidad. Fuente: elaboración propia.

En este segundo mapa de la distribución de las principales categorías por localidades, se puede apreciar mejor el protagonismo que tiene la costa mediterránea, en especial en lo referente al sector inmobiliario. Además, se muestra claramente como los anuncios de estafas de las zonas centrales de la península (exceptuando Madrid, donde predominan los anuncios fraudulentos de Empleo) son principalmente de Motor.

Estas categorías generales incluyen tipos muy diferentes de anuncios en cada una de ellas, para detallar más el modelo de anuncio más susceptible de ser objeto de posibles estafas ofrecemos en la tabla siguiente los datos según tipo de anuncio en función de su predominio dentro de su categoría.

Tipo de anuncios	Categoría	Total	Peso en la categoría
Animales y Mascotas	Ocio	2508	77%
Compra venta Coches	Motor	1698	47%
Móviles	Informática	721	63%
Varios	Negocios	711	35%
Servicio doméstico	Empleo	633	18%
Furgonetas	Motor	519	14%
Alquiler apartamentos	Inmobiliaria	432	35%
Hostelería y turismo	Empleo	350	10%
Todoterrenos	Motor	342	9%
Caravanas	Motor	284	8%
Traspasos venta de negocios	Negocios	278	14%

Figura 8. Tabla de los diez tipos de anuncios fraudulentos más frecuentes con su peso dentro de su categoría. Fuente: elaboración propia.

Si se concreta más aún el tipo de anuncio y analizamos las subcategorías, en cifras totales los anuncios de estafas que más se publican son de Animales y Mascotas, que a su vez representan casi el 80% de los anuncios fraudulentos de la categoría de Ocio. Le siguen los anuncios de Compra venta de Coches, que suponen casi el 50% de los anuncios fraudulentos de Motor y los anuncios de Móviles, que suponen el 63% de los anuncios fraudulentos de la categoría de Informática, que dentro de las categorías generales analizadas anteriormente no era una de las más recurrentes.

De cada uno de estos tres tipos de anuncios, se ha considerado interesante analizar su distribución en el tiempo, para ver si son susceptibles de sufrir alguna estacionalidad:

Distribución en el tiempo de fraudes en Animales y Mascotas, Compra venta Coches y Móviles

Figura 9. Evolución temporal de los tres tipos de anuncios de estafas más recurrentes. Fuente: elaboración propia.

Lo primero que se puede observar en el gráfico es que los picos más altos en los que se intentan publicar anuncios sobre compra-venta de Coches no coinciden con los de Animales y Mascotas. Mientras que los de coches están sobre todo en los meses de octubre y noviembre y algo en enero y febrero coincidiendo con las fechas de matriculación y las campañas de final de año de los concesionarios, los anuncios de estafas de mascotas se suelen intentar publicar con más frecuencia en los meses de marzo y junio coincidiendo con las épocas de camadas, sobre todo de gatos. En el caso de los Móviles no se ha apreciado ninguna estacionalidad significativa.

Desde hace años, en Tablondeanuncios.com se hacen públicos los teléfonos y email de usuarios origen de los anuncios que han resultado ser estafas para que el resto de usuarios puedan estar alerta.

De esta página, hemos escogido algunos ejemplos de anuncios ilustrativos de las categorías más recurrentes mencionadas anteriormente.

En el caso de anuncios de mascotas la mayoría hacen referencia a cachorros de raza (sobre todo de perros y gatos) que se regalan:

Anuncios de mascotas que hacen referencia a cachorros de perros de raza

Anuncios de mascotas que hacen referencia a cachorros de gatos de raza

Entre los ejemplos de compraventa de coches solemos encontrar vehiculos de alta gama a precios económicos, todos en perfecto estado y que justifican su venta por diversos motivos como mudanzas al extranjero. Sin embargo, también encontramos modelos más comunes que son objeto de estafas:

Anuncio fraudulento de vehículo de alta gama

En el caso de los móviles, no hay duda, la mayoría de los anuncios fraudulentos de este tipo se aprovechan de los nuevos modelos de alta gama para tentar al posible comprador con precios muy por debajo de los del mercado:

Anuncio fraudulento de Samsung Galaxy S9

Todos estos ejemplos, y la mayoría de anuncios de estafas, tienen en común que suelen estar mal redactados, con faltas de ortografía y que ofrecen vender muy baratos o incluso regalar artículos de lujo aprovechándose de que de otra forma no estarían al alcance del bolsillo de muchas personas.

Eso nos lleva a analizar en el siguiente punto el precio al que se ofrecen los productos. Seguro que ya te habrás dado cuenta, pero no debes fiarte de las gangas. En nuestro análisis hemos obtenido que 5.973 anuncios fraudulentos (más de un 25%) no tienen precio fijado o el precio es 0 (gratis).

En cuanto al número de fotos en el anuncio, para evitar ser detectados los anuncios carecen de fotos o proporcionan muy pocas. Más del 56% de los anuncios fraudulentos tienen una sola foto y el 41% no tienen, siendo apenas el 2% los anuncios que tienen entre 2 y 4 fotos.

Porcentajes de fotos en anuncios fraudulentos

Figura 10. Porcentaje de anuncios falsos analizados por número de fotografías. Fuente: elaboración propia.

Para evitar ser estafados, lo mejor es estar informados, por lo que recomendamos que además de le eches un vistazo a los artículos sobre comprar y vender de forma segura en internet y saber reconocer las ofertas de empleo falsas para que encontrar empleo, comprar o vender por Internet sea completamente seguro para ti.