¿Cómo ha logrado YouTube mostrar subtítulos mientras se reproduce un video y qué lógica se usa detrás de él y cómo se implementa?

Aquí hay algo que obtuve de un blog de Google:

Sin embargo, como todo lo que hace YouTube, los subtítulos se enfrentan a un tremendo desafío de escala. Cada minuto, se cargan 20 horas de video. ¿Cómo podemos esperar que cada propietario de video pase el tiempo y el esfuerzo necesarios para agregar subtítulos a sus videos? Incluso con todo el soporte de subtítulos ya disponible en YouTube, la mayoría del contenido de video generado por los usuarios en línea todavía es inaccesible para personas como yo.

Para ayudar a abordar este desafío, hemos combinado la tecnología de reconocimiento automático de voz (ASR) de Google con el sistema de subtítulos de YouTube para ofrecer subtítulos automáticos, o abreviaturas automáticas para abreviar. Las mayúsculas automáticas utilizan los mismos algoritmos de reconocimiento de voz en Google Voice para generar automáticamente subtítulos para video. Los subtítulos no siempre serán perfectos (mira el video a continuación para ver un ejemplo divertido), pero incluso cuando están apagados, aún pueden ser útiles, y la tecnología continuará mejorando con el tiempo.

Además de los subtítulos automáticos, también estamos lanzando la sincronización automática de los subtítulos, o temporización automática, para que sea mucho más fácil crear subtítulos manualmente. Con la sincronización automática, ya no necesita tener experiencia especial para crear sus propios subtítulos en YouTube. Todo lo que necesita hacer es crear un archivo de texto simple con todas las palabras en el video y utilizaremos la tecnología ASR de Google para determinar cuándo se pronuncian las palabras y crear subtítulos para su video. Esto debería reducir significativamente las barreras para los propietarios de videos que desean agregar subtítulos, pero que no tienen el tiempo o los recursos para crear pistas de subtítulos profesionales.

Subtítulos automáticos en YouTube

Nota : Esta publicación es de noviembre de 2009. Creo que habría habido mejoras.

Gracias a Sunil Singh por A2A