Las aplicaciones de transcripción pueden ayudar a ahorrar tiempo y esfuerzo al convertir rápidamente archivos de audio en texto. Esto puede resultar útil en muchos contextos: Desde el día a día para audios en aplicaciones de mensajería, en el entorno laboral facilitando la toma de notas durante reuniones y entrevistas, y hasta como herramienta para personas con discapacidad auditiva.
Recientemente se popularizó un bot para WhatsApp que realiza esta misma tarea con audios enviados en cuestión de minutos. Más allá de este bot en particular y el hecho de que sus creadores aseguran que protege la privacidad de las personas y que no tienen un registro de la información que contienen esos audios, lo cierto es que el uso de aplicaciones de transcripción de audio a texto en general puede plantear riesgos para la seguridad y privacidad de los usuarios que deben ser considerados. En este contexto, ESET, compañía líder en detección proactiva de amenazas, analiza las principales consideraciones de seguridad asociadas con el uso de estas aplicaciones y proporciona algunas recomendaciones clave para mitigarlas.
Algunos de los riesgos asociados a aplicaciones para transcripción de audio según ESET, son:
Funcionamiento de la transcripción y privacidad: Si bien WhatsApp anunció que está trabajando en una funcionalidad para transcribir audio a texto, existen diferentes apps desarrolladas por terceros que utilizan distintos métodos para transcribir un archivo de audio a texto, tanto de manera manual como automatizada.
En el caso de la transcripción automatizada, algunas aplicaciones utilizan algoritmos de reconocimiento de voz y aprendizaje automático para convertir el audio en texto sin intervención humana. Estos programas pueden ser desarrollados por la compañía detrás de la aplicación o ser un servicio tercerizado. Si bien esta última opción es generalmente más rápida y eficiente, también plantea algunas interrogantes con respecto a la privacidad, ya que en muchos casos se desconoce el alcance que podría tener el audio enviado: ¿Se utilizará para mejorar el algoritmo? ¿Se almacenará en servidores, propios o de terceros, durante el análisis del contenido? ¿Cómo se asegura el envío de esa información, si es que el procesamiento del audio se terceriza?
Por otro lado, la transcripción manual implica que la misma es realizada por una persona, lo cual puede plantear riesgos de privacidad si quienes realizan esta transcripción tienen acceso a información confidencial o si se comparte con contratistas terceros sin el consentimiento del usuario. De hecho, Meta (en ese entonces, Facebook) se vio envuelta en una polémica por tercerizar la transcripción de audios enviados por sus usuarios para poder mejorar su sistema de reconocimiento de voz.