¿Cuál es la mejor manera de filtrar noticias / blogs / ensayos en línea?

Gran pregunta (en realidad bien compuesta). Me he encontrado en el mismo
zapatos muchas veces y quería implementar una solución para mí / descanso
de nosotros, pero no tenemos mucho tiempo para trabajar. No estoy seguro si ha resuelto el
problema, pero así es como voy a ver el problema (Advertencia: es solo
mi opinión )

Para la primera parte, quieres saber, “Dado un montón de
artículo leído por el usuario en pasado / enlaces compartidos, sentimientos, autor,
calificación, etc. (puede estar disponible / puede no) cómo modela cada usuario
perfil o búsqueda de “temas ocultos” que interesan al usuario “y para el
segundo, “Dada alguna idea sobre lo que el usuario quiere leer y compartir, qué
es probable que lea el artículo recomendado “.

Este tipo de problema podría modelarse y estudiarse bien utilizando
Modelos gráficos probabilísticos esp. Modelado de temas. La primera parte de su problema aparece comúnmente en
charlas de investigación como “modelo de autor-tema”. Hay muchos modelos que son
basado en el tema central del modelado de temas, por ejemplo, Bolsa de modelo (más simple), Análisis semántico latente probabilístico (pLSA), Latente
Asignación de Dirichlet (LDA). Cada perfil de usuario se puede representar usando
tupla que contiene {“distribución de temas de artículos leídos / compartidos por el usuario
en el pasado “,” lista de sustantivos (autores / periodistas / perfiles que le gustan al usuario “,
“entidades extraídas del historial de lectura del usuario”}. Su resultado final
de la primera parte sería poblar este tipo de tupla. Segundo
parte se relaciona con un problema de decisión de red gráfica (Predicción del
decisiones para todos los usuarios con nuevos artículos y representación de usuarios). He leído personas que usan el filtrado colaborativo para recomendar. También puede usar un modelo basado en CRF para calcular la probabilidad posterior. Dependiendo de cómo modeles el problema,
también puede optar por Support Vector Machine (libsvm podría ayudar si desea hacer algo en tiempo real y prototipo).

Hay una pieza que “podría” necesitar hacer antes
realizando más de dos pasos. Necesitarías escribir una agrupación
algoritmo que tomará todas las noticias y las agrupará en
grupos pequeños. Ideas de la bolsa de modelo, Locality Sensitive Hashing (LSH),
Kernel LSH (para reducir los grupos de b / w coincidentes) se puede utilizar para crear
noticias / artículos y K / EM / GMM / agrupación jerárquica en la parte superior para
agrupe estos contenedores juntos.

Avíseme si hay preguntas y corríjame si me equivoco en alguna parte.

Bolsa de modelo: http://en.wikipedia.org/wiki/Bag…
Análisis semántico latente probabilístico: http://en.wikipedia.org/wiki/Pro…
Asignación de Dirichlet latente: http://en.wikipedia.org/wiki/Lat…
Campo aleatorio condicional: http://en.wikipedia.org/wiki/Con…
Filtrado colaborativo: http://en.wikipedia.org/wiki/Col…
Máquina de soporte de vectores: http://en.wikipedia.org/wiki/Sup…
Hashing sensible a la localidad: http://en.wikipedia.org/wiki/Loc…
Hashing sensible a la localidad Kernelised: http://www.cse.ohio-state.edu/~k…
K Significa Agrupación: http://en.wikipedia.org/wiki/Km…
Agrupamiento EM: http://en.wikipedia.org/wiki/Exp…
GMM: Modelos de mezcla gaussiana: http://www.autonlab.org/tutorial…
Agrupación jerárquica: http://en.wikipedia.org/wiki/Hie…

Cuando llegué al mismo momento que describiste anteriormente (demasiado tiempo perdido en la búsqueda de noticias valiosas), encontré que http://www.techmeme.com tenía buenos algoritmos para darme un buscapersonas lleno de lo que es importante por día. Desde ese descubrimiento, eliminé RSS y otros recursos y simplemente confío en su selección de opciones. Por lo general, atrapan el zumbido correcto de Internet. http://www.quickish.com/ ofrece un agregado similar para deportes.

¿Cómo filtrar contenido de noticias?

Utilice las Alertas de Google para limitar temas de interés, escritores y blogs, y series múltiples.
https://www.google.com/alerts

More Interesting

¿Qué opinas sobre este supuesto video de operación de picadura de caballos lanzado por AAP?

¿Por qué la gente todavía paga por el Wall Street Journal o el New York Times?

¿Cómo viajan los reporteros rápidamente a los escenarios de las últimas noticias internacionales?

Cómo obtener las noticias de ganancias de acciones lo antes posible

¿Debería aplicarse la pena de muerte al reciente caso de violación en grupo en Delhi? ¿Por qué o por qué no?

¿Qué tan probable es que el esfuerzo de Tomnod de crowdsourcing encuentre MH370?

¿Las noticias pueden ser objetivas?

¿Qué impacto han tenido las herramientas de redes sociales, como Twitter, en los medios de transmisión tradicionales, como la radio? ¿Cuál es el efecto neto de una mayor inmediatez en la entrega de noticias?

Rusia acaba de anunciar la formación de fuerzas de mantenimiento de la paz en el aire con más de 5000 efectivos: ¿dónde podrían servir?

¿Cuáles son las mejores fotos de las explosiones del maratón de Boston 2013?

¿Cuáles son algunos artículos de noticias que te hacen preguntarte "cómo es esta noticia"?

¿Hay progreso limpiando Fukushima?

Aurora, Colorado Shooting (julio de 2012): ¿Cómo se siente ser neurocientífico y luego descubrir que James Holmes estaba estudiando neurociencia?

¿El apocalipsis realmente viene o simplemente se ve así cuando mira las noticias?

¿Necesita una organización de noticias una exención de autorización para mostrar la imagen de un ciudadano privado en la televisión nacional?