Esto es para los propósitos de Machine Learning / Data Science.
Si no codifica y desea obtener una amplia exposición a las noticias de una variedad de fuentes y verificar su precisión, sugiero los sitios web AllSides y Politifact.
He estado buscando bastante, así que mis dos mejores opciones hasta ahora son Kaggle y George McIntire.
- ¿Cuán bien resistió Quora las noticias falsas rusas en 2016?
- ¿Por qué las noticias falsas viajan rápido en Facebook?
- ¿Deben los medios de comunicación ser comercializados, para terminar con la necesidad de producir noticias (falsas) a cualquier costo?
- ¿Qué piensa Mark Zuckerberg de los muchos usuarios de Facebook que no pueden distinguir los hechos de las noticias falsas?
- Cómo combatir la desinformación coordinada y las noticias falsas en general
- Kaggle : El conjunto de datos de noticias falsas en el sitio ocupa un espacio en disco de aproximadamente 57 MB, tiene 13,000 filas (entradas) y 20 columnas.
Pros : bastante ordenado, muchas columnas (información estructurada)
Contras : no hay noticias reales (por lo que necesitaría encontrar las suyas), solo durante un período de un mes, parece incluir solo sitios de extrema derecha
Fuente : Getting Real sobre Fake News
- George McIntire : Su conjunto de datos incluye noticias falsas y noticias reales en una proporción de 1: 1. El conjunto de datos ocupa un espacio en disco de 31 MB, 10.558 filas (entradas) y 4 columnas.
Pros : bastante ordenado, más simple, contiene noticias reales, datos de sitios de izquierda y derecha
Contras : Menos información para cada entrada, el etiquetado podría no ser 100% correcto (¿cuándo es 100%?), Solo dos opciones ‘falso’ o ‘real’ (no intermedio)
Fuente : GeorgeMcIntire / fake_real_news_dataset
Finalmente, me gustaría mencionar a William Yang Wang de UCSB . Su conjunto de datos no contiene noticias, pero contiene declaraciones hechas por los principales políticos y grupos políticos en los Estados Unidos. Las declaraciones se clasifican desde ‘verdadero’, ‘medio verdadero’, ‘apenas verdadero’, ‘falso’, hasta ‘pantalones de fuego’, lo que lo hace bastante más interesante. Y tanto los grupos de derecha como los de izquierda tienen su cuota de falsedades, por lo que el sesgo político podría ser un factor menos importante. Sin embargo, en realidad no tiene contenido de noticias; solo tiene declaraciones cortas que suelen ser sensacionales.
Creo que iré con el conjunto de datos de George McIntire, y posiblemente también intentaré crear mi propio conjunto de datos si tengo tiempo. Pero las otras dos opciones también son bastante buenas.
¡Por favor, avíseme si ha encontrado algún otro buen conjunto de datos en los comentarios!