¿Es posible descargar todos los artículos publicados en cualquier sitio web de noticias tecnológicas en forma de texto y luego crear un corpus de ellos?

Es posible, por supuesto, siempre y cuando el sitio web de origen le permita obtener todos los datos a esa profundidad. Hay muchas maneras de hacerlo, probablemente para su caso, parece que solo hay que raspar una vez, lo que probablemente tendrá que recuperar algunos cientos de miles de artículos, la mejor manera será construir un raspador de alguna manera antigua usando cualquier lenguaje de programación ya sabes. Probablemente no esté listo para gastar dinero en este trabajo como investigación sin fines de lucro, por lo que sería problemático utilizar cualquier servicio de raspado para ello. Por ejemplo, permitimos hasta 5K solicitudes de página por mes en una cuenta gratuita cuando ejecuta scraper en nuestra nube.

Pero si está listo para ejecutar scraper en su propia computadora o servidor, puede usar nuestro servicio Diggernaut: convierta el contenido del sitio web en conjuntos de datos para construir su scraper, luego puede compilarlo para Windows, Macos o Linux, y luego ejecutarlo en su propio servidor o computadora. Como no utiliza ninguno de nuestros recursos en la nube, puede hacer tantas solicitudes como desee sin pagar un centavo.

Sí, es posible. Sin embargo, dependiendo del sitio de origen, es muy probable que la araña pase mucho tiempo arrastrándose. Y aún más, ya que es un “sitio web de noticias”, tendrá que rastrear elementos recién creados cada día / semana / lo que sea.

En la mayoría de los casos, técnicamente esta tarea es bastante fácil, porque generalmente los sitios web de tecnología tienen una buena estructura de representación. Ya sabes, todas esas categorías, calendarios y etiquetas.

Pero personalmente, no veo mucha utilidad para que ese sitio se rastree a su disco duro. Excepto, tal vez, casos en los que va a algún lugar, donde no podrá conectarse a Internet. O cuando intentas robar el contenido de otra persona y publicarlo como tuyo … pero eso no funcionará.

Esto es muy posible: los datos se pueden extraer de nuevos sitios para crear corpus de texto. De hecho, PromptCloud ha subido un conjunto de datos gratuito que tiene títulos de los artículos publicados en dos sitios de noticias de tecnología en 2017.

Puede acceder aquí – títulos de artículos de TechCrunch y VentureBeat.

Gracias por tu respuesta, Leonid. Ciertamente no, si quisiera robar el contenido de otra persona, no tendría que molestarme en raspar, ¿verdad? Los artículos están disponibles en sitios web públicos y, por lo tanto, están destinados al consumo público. Ni siquiera pensaría en ganar dinero con el contenido raspado de ninguna manera.

Aquí está la cosa: estoy pensando en reunir una gran cantidad de artículos sobre varios temas (por ejemplo, las últimas noticias sobre la guerra cibernética) y luego construir un corpus de ellos con el objetivo de hacer mi propia investigación de texto sin fines de lucro. Hacer una búsqueda en Google o en un sitio web seleccionado cada vez que busco algo, como un patrón, es extremadamente impracticable. Esto debería ser perfectamente legal. Si no es así, tendré que reconsiderarlo.