Periódicos: ¿Cómo puedo recuperar el texto de las noticias de los principales editores de noticias?

Muchos periódicos de hoy están en línea, y sus ediciones en línea también incluyen el acceso a sus archivos (números anteriores). Varía la antigüedad de estos archivos: algunos de los periódicos más pequeños y locales solo ofrecen archivos de los últimos cinco años, mientras que algunos de los documentos más grandes y conocidos ofrecen archivos desde el primer día: Nueva York Times tiene archivos digitales desde 1851, por ejemplo. También hay servicios como Newspapers.com – Periódicos históricos de los años 1700 a 2000 y GenealogyBank.com – El archivo de periódicos más grande para la investigación de la historia familiar que proporciona números anteriores de periódicos más antiguos, búsquedas completas y texto completo de todo el periódico. Esa es la buena noticia. La mala noticia es que estos servicios no son gratuitos. Pero para un investigador como yo, pagar por el acceso vale la pena debido a toda la información que ahora tengo a mi alcance.

Si tiene un presupuesto limitado, es posible que su biblioteca local tenga acceso a algunas de estas bases de datos de periódicos más antiguas. (Si no lo hacen, su bibliotecario puede obtener un artículo que necesita a través de un servicio llamado préstamo interbibliotecario o ILL. Consulte a su bibliotecario de referencia). Si es suscriptor de entrega a domicilio de algunos periódicos, -la versión digital de texto está incluida en su suscripción. Y si usted es un estudiante universitario o un instructor, su biblioteca universitaria puede tener varias bases de datos de periódicos y revistas a través de compañías como Proquest o Ebsco.

¿Qué quieres decir con recuperar texto?
> ¿Desea buscar un artículo de noticias en particular basado en los nombres de las entidades involucradas?
> ¿O simplemente desea recopilar las noticias para su uso posterior?

Para la primera tarea, puede usar API públicas de motores de búsqueda o recopilar un corpus (consulte el siguiente párrafo) y crear un índice sobre él. Puede mejorar la búsqueda creando índices separados de solo entidades con nombre o sustantivos / verbos, etc.

Para la segunda tarea, lo que necesita es un rastreador. Recopile las URL de algunos artículos de noticias que le interesan de diferentes fuentes de noticias. Puedes escribir rastreadores para ello. Asegúrese de realizar comprobaciones basadas tanto en la URL como en el texto para ver si las páginas incluidas son sobre noticias o no. Puede usar Apache Nutch ™ para rastrear o Apache Solr, para crear un motor de búsqueda completo para usted.

Pero bueno, Google ya proporciona todo esto si no eres un programador de computadoras y no quieres un sistema extra personalizado.