¿Es posible descargar todos los artículos publicados en cualquier sitio web de noticias tecnológicas en forma de texto y luego crear un corpus de ellos?

Es posible, por supuesto, siempre y cuando el sitio web de origen le permita obtener todos los datos a esa profundidad. Hay muchas maneras de hacerlo, probablemente para su caso, parece que solo hay que raspar una vez, lo que probablemente tendrá que recuperar algunos cientos de miles de artículos, la mejor manera será construir un raspador de alguna manera antigua usando cualquier lenguaje de programación ya sabes. Probablemente no esté listo para gastar dinero en este trabajo como investigación sin fines de lucro, por lo que sería problemático utilizar cualquier servicio de raspado para ello. Por ejemplo, permitimos hasta 5K solicitudes de página por mes en una cuenta gratuita cuando ejecuta scraper en nuestra nube.

Pero si está listo para ejecutar scraper en su propia computadora o servidor, puede usar nuestro servicio Diggernaut: convierta el contenido del sitio web en conjuntos de datos para construir su scraper, luego puede compilarlo para Windows, Macos o Linux, y luego ejecutarlo en su propio servidor o computadora. Como no utiliza ninguno de nuestros recursos en la nube, puede hacer tantas solicitudes como desee sin pagar un centavo.

periodismoSitios webSitios web de noticiassoftware y aplicacionesweb

Related Content

Cómo conseguir escritores de contenido para un sitio web de noticias

¿Qué sitios solo contienen noticias de Bollywood?

¿Dónde se pueden encontrar noticias verdaderamente objetivas en línea?

¿Dónde puedo leer sobre operaciones / tecnología detrás de grandes publicaciones en línea como NYT, Buzzfeed, sitios de Vox Media y otros?

¿Cuál es la mejor aplicación para leer noticias en línea?

Cómo hacer SEO de un sitio web de agregador de noticias

¿Puedo reescribir artículos del sitio web de noticias y publicarlos en el sitio web de mi propio blog?

Sí, es posible. Sin embargo, dependiendo del sitio de origen, es muy probable que la araña pase mucho tiempo arrastrándose. Y aún más, ya que es un “sitio web de noticias”, tendrá que rastrear elementos recién creados cada día / semana / lo que sea.

En la mayoría de los casos, técnicamente esta tarea es bastante fácil, porque generalmente los sitios web de tecnología tienen una buena estructura de representación. Ya sabes, todas esas categorías, calendarios y etiquetas.

Pero personalmente, no veo mucha utilidad para que ese sitio se rastree a su disco duro. Excepto, tal vez, casos en los que va a algún lugar, donde no podrá conectarse a Internet. O cuando intentas robar el contenido de otra persona y publicarlo como tuyo … pero eso no funcionará.

Tom

Esto es muy posible: los datos se pueden extraer de nuevos sitios para crear corpus de texto. De hecho, PromptCloud ha subido un conjunto de datos gratuito que tiene títulos de los artículos publicados en dos sitios de noticias de tecnología en 2017.

Puede acceder aquí – títulos de artículos de TechCrunch y VentureBeat.

Tom

Gracias por tu respuesta, Leonid. Ciertamente no, si quisiera robar el contenido de otra persona, no tendría que molestarme en raspar, ¿verdad? Los artículos están disponibles en sitios web públicos y, por lo tanto, están destinados al consumo público. Ni siquiera pensaría en ganar dinero con el contenido raspado de ninguna manera.

Aquí está la cosa: estoy pensando en reunir una gran cantidad de artículos sobre varios temas (por ejemplo, las últimas noticias sobre la guerra cibernética) y luego construir un corpus de ellos con el objetivo de hacer mi propia investigación de texto sin fines de lucro. Hacer una búsqueda en Google o en un sitio web seleccionado cada vez que busco algo, como un patrón, es extremadamente impracticable. Esto debería ser perfectamente legal. Si no es así, tendré que reconsiderarlo.

Tom

More Interesting

¿Existe una base de datos para sitios web de noticias globales / canales RSS?

Quiero publicar noticias de otras fuentes de noticias, traducidas al bengalí, en mi portal. ¿Se me permite hacer esto?

¿Qué es más confiable e interesante de leer, le gusta Google News y Yahoo News o los sitios de Me gusta como NYTimes, BBC, CNN, The Guardian?

Cómo obtener un portal de noticias hindi en línea para las noticias de Chhattisgarh

¿Cómo evitan los sitios web la publicidad inapropiada antes de determinados tipos de transmisiones de noticias?

¿Cuál es la mejor plataforma de publicidad y publicación para sitios web de noticias para adultos?

¿Cómo se actualizan los sitios web de noticias todos los días?

¿Dónde está el mejor lugar para alojar televisores y videos para mi sitio web de noticias, Subdominio o Subdirectorio?

¿Qué piensa la gente de la BBC? ¿Es la mejor fuente de noticias e información?

¿Qué sitios web agregan noticias?

¿Cuáles son los sitios web de noticias más populares en Chhattisgarh?

¿Hay alguna plataforma en línea para disfrutar de las noticias de Bollywood?

Cómo ganar dinero del sitio web de noticias en línea que no sean anuncios

¿Cuáles son los usos de un agregador de noticias?

¿Son PBS y NPR financiadas con fondos públicos fuentes confiables de noticias veraces?

Web Analytics