¿Cuáles son algunos conjuntos de datos sobre noticias falsas?

Esto es para los propósitos de Machine Learning / Data Science.

Si no codifica y desea obtener una amplia exposición a las noticias de una variedad de fuentes y verificar su precisión, sugiero los sitios web AllSides y Politifact.

He estado buscando bastante, así que mis dos mejores opciones hasta ahora son Kaggle y George McIntire.

  • Kaggle : El conjunto de datos de noticias falsas en el sitio ocupa un espacio en disco de aproximadamente 57 MB, tiene 13,000 filas (entradas) y 20 columnas.

Pros : bastante ordenado, muchas columnas (información estructurada)

Contras : no hay noticias reales (por lo que necesitaría encontrar las suyas), solo durante un período de un mes, parece incluir solo sitios de extrema derecha

Fuente : Getting Real sobre Fake News

  • George McIntire : Su conjunto de datos incluye noticias falsas y noticias reales en una proporción de 1: 1. El conjunto de datos ocupa un espacio en disco de 31 MB, 10.558 filas (entradas) y 4 columnas.

Pros : bastante ordenado, más simple, contiene noticias reales, datos de sitios de izquierda y derecha

Contras : Menos información para cada entrada, el etiquetado podría no ser 100% correcto (¿cuándo es 100%?), Solo dos opciones ‘falso’ o ‘real’ (no intermedio)

Fuente : GeorgeMcIntire / fake_real_news_dataset

Finalmente, me gustaría mencionar a William Yang Wang de UCSB . Su conjunto de datos no contiene noticias, pero contiene declaraciones hechas por los principales políticos y grupos políticos en los Estados Unidos. Las declaraciones se clasifican desde ‘verdadero’, ‘medio verdadero’, ‘apenas verdadero’, ‘falso’, hasta ‘pantalones de fuego’, lo que lo hace bastante más interesante. Y tanto los grupos de derecha como los de izquierda tienen su cuota de falsedades, por lo que el sesgo político podría ser un factor menos importante. Sin embargo, en realidad no tiene contenido de noticias; solo tiene declaraciones cortas que suelen ser sensacionales.

Creo que iré con el conjunto de datos de George McIntire, y posiblemente también intentaré crear mi propio conjunto de datos si tengo tiempo. Pero las otras dos opciones también son bastante buenas.

¡Por favor, avíseme si ha encontrado algún otro buen conjunto de datos en los comentarios!

Este conjunto de datos en Kaggle podría ser el que está buscando: Conociendo las noticias falsas. Descárgalo y juega 🙂

Otro está aquí, el conjunto de datos de Fake News en Kaggle. Sin embargo, no sé si ambos son iguales.

More Interesting

El creador de www (internet) dice que es mal utilizado por blogs, noticias, anuncios y trolls falsos. ¿Debería la ONU intentar controlar mejor el contenido en línea?

¿Son noticias falsas o malas interpretaciones inocentes las que están detrás del reciente escándalo sobre la ley de "prostitución infantil" de California?

Hubo un informe de noticias (falso) en mayo de 2017 de que Trump envió una factura a Michelle Obama por 11 mil millones de dólares. ¿Que piensas de eso?

¿Crees que la violencia policial mostrada durante el referéndum del 1 de octubre en Cataluña fue falsa (falsa según el canciller español Dastis)?

¿'Fake News' realmente cambió el voto de alguien que conoces? ¿O acaban de reforzar los prejuicios que ya tenían?

¿Existe una célula BJP IT? ¿Difunden noticias falsas? ¿Como funciona?

El Parlamento del Reino Unido aprobó una resolución declarando que Gilgit-Baltistán es una parte integral de la India. ¿Qué tan significativo es este desarrollo geopolítico?

¿De dónde se originan las noticias falsas en las diversas plataformas de redes sociales?

¿Qué noticias falsas específicas sobre Hillary fueron promulgadas por Rusia y qué estados compraron, como se muestra al votar en 2016?

¿Qué eventos provocaron esta era de desinformación, noticias falsas y 'hechos alternativos'?

¿Qué son las noticias falsas? ¿Tienes noticias falsas para hoy? ¿Qué es?

¿Apoyaría las consecuencias legales para aquellos que informan noticias falsas o sin fundamento en Estados Unidos?

¿La campaña para etiquetar a Pizzagate como 'noticias falsas' es parte de una conspiración para ocultar evidencia de comportamiento criminal entre las élites de Washington?

¿Qué son las noticias falsas? Dar un ejemplo.

Justo después de los ataques terroristas de Londres, el equipo de CNN fue atrapado creando una protesta falsa. ¿Cómo afectará esto su reputación de noticias falsas?