¿Hay alguna manera de evitar que su sitio web (datos) se raspe?

Fundamentalmente no.

Estás publicando Por el solo hecho de poner datos en un servidor web con una dirección IP pública, cualquiera y todos pueden copiar (y así procesar) sus bits.

Puede forzar el “raspado” en un problema de Reconocimiento óptico de caracteres (OCR), haciendo que todo su sitio web sea una serie de imágenes (GIF, JPEG (formato de archivo de imagen), PNG (Portable Network Graphics), lo que sea) con enlaces de mapa de imagen para navegación. Sin embargo, es probable que incurra en costos de ancho de banda de servicio web bastante mayores con este enfoque (aparte de lo molesto que sería). Además, su sitio web sería efectivamente invisible para los motores de búsqueda web (por ejemplo, Google (compañía), Bing, Baidu (compañía)).

Fundamentalmente, si tiene derechos de propiedad intelectual (IP) sobre sus datos, esto se convierte en un problema de aplicación de patentes o derechos de autor, al igual que en la publicación de libros: cualquiera puede fotocopiar un libro, vincularlo y venderlo. Eso es una violación de los derechos de autor del editor, pero depende del editor hacer cumplir sus derechos. Para los titulares de derechos de propiedad intelectual, el problema con Internet y los medios digitales en general es que es mucho más fácil y económico copiar bits que papel, por lo tanto, el problema de las violaciones de derechos de autor es peor.

Primero, piense por qué quiere evitar que alguien raspe.

Si cree que sus datos son tan valiosos, especiales o delicados que solo se pueden ver dentro del diseño de su sitio web, debe protegerlos con contraseña y solo dar acceso a las personas que firmaron un NDA con usted (pero incluso así no lo es garantizado que alguien lo tome desde allí).

En cualquier caso, debe seguir mejor su contenido a medida que se extiende por la Web. Use el sistema legal para hacer valer sus derechos, si cree que tiene que hacerlo.

Respuesta corta: , puede evitar que su sitio web sea raspado.

Respuesta larga: Sí, definitivamente puede proteger su contenido de ser raspado, permítame darle una breve explicación sobre cómo evitar que su sitio se raspe.

Hay muy pocas formas de evitar el raspado. Los firewalls basados ​​en hardware pueden ser uno y otro deben estar en el nivel de la aplicación.

Los cortafuegos [sistema de detección de intrusiones y sistema de prevención de intrusiones] podrían detener los ataques DDoS pero es demasiado difícil de atrapar raspadores.

Pasando al nivel de aplicación, déjame decirte algunas técnicas de identificación de bot.

  • Comportamiento del usuario [Puede analizar al usuario en su sitio web si el usuario está haciendo un patrón de amplitud primero o un patrón de profundidad primero. ¿Cuántos minutos pasa el usuario en el sitio web, cuántas páginas ha visitado]
  • Reputación de IP [Al mirar el historial de IP, Número de visitas de IP o tiene patrones y también se puede hacer análisis forense de red en la solicitud recibida e identificar si la solicitud proviene de Tor / Proxy IPs].
  • Agente de usuario [Al verificar si la solicitud web está llegando a un navegador genuino]
  • Análisis de registro [Puede analizar su registro en el nivel de su servidor y verificar si está recibiendo muchas solicitudes de una sola IP]

Sé que la pregunta no era sobre la identificación del raspado, pero una vez que sabes cómo identificar los bots / raspadores, es fácil bloquearlos.

Para todo este conjunto de tareas, debe tener un equipo dedicado. Si está buscando una solución de prevención de raspado confiable, puede probar la detección de bots y los bots de bloque de raspado web | Servicio en la nube ShieldSquare. ShieldSquare protege su sitio web de manera proactiva al detectar raspadores en tiempo real y bloquearlos.

Ps: es muy recomendable no bloquear usuarios basados ​​en IP. Bloquear una IP en realidad no significa que bloquees un bot, porque los raspadores pueden falsificar las IP usando proxies.

[Divulgación completa: trabajo con ShieldSquare]