Las herramientas de inteligencia artificial para convertir voz a texto también "tergiversan"

(CLO) La herramienta de conversión de voz a texto Whisper de OpenAI se promociona como "robótica y precisa a nivel casi humano", pero tiene un inconveniente importante: ¡es propensa a fabricar fragmentos de texto o incluso oraciones completas!

Algunos de los textos que produce, conocidos en la industria como alucinógenos, pueden incluir comentarios raciales, violencia e incluso tratamientos médicos imaginarios, dicen los expertos.

Los expertos dicen que estas invenciones son graves porque Whisper se utiliza en una amplia gama de industrias en todo el mundo para traducir y transcribir entrevistas, generar textos y subtitular vídeos.

Lo que es más preocupante es que los centros médicos están utilizando herramientas basadas en Whisper para registrar las consultas entre pacientes y médicos, a pesar de la advertencia de OpenAI de que la herramienta no debe utilizarse en "zonas de alto riesgo".

Herramienta de conversión de voz a texto que cualquier persona puede manipular imagen 1 — Las oraciones que comienzan con "#Ground truth" son lo que realmente se dijo, las oraciones que comienzan con "#text" son lo que Whisper transcribió. Foto: AP

Los investigadores e ingenieros dicen que Whisper con frecuencia produce alucinaciones durante su uso. Por ejemplo, un investigador de la Universidad de Michigan dijo que encontró alucinaciones en ocho de cada diez grabaciones que examinó.

Un ingeniero de aprendizaje automático encontró inicialmente la distorsión en aproximadamente la mitad de las más de 100 horas de transcripciones de Whisper que analizó. Un tercer desarrollador dijo que detectó alucinaciones en casi cada una de las 26.000 notas creadas con Whisper.

La ilusión persiste incluso en muestras de audio cortas bien grabadas. Un estudio reciente realizado por científicos informáticos encontró 187 distorsiones en más de 13.000 clips de audio claros que examinaron.

Esa tendencia resultaría en decenas de miles de errores en millones de grabaciones, dijeron los investigadores.

Estos errores pueden tener “consecuencias realmente graves”, especialmente en el ámbito hospitalario, afirmó Alondra Nelson, profesora de la Facultad de Ciencias Sociales del Instituto de Estudios Avanzados.

“Nadie quiere que le diagnostiquen mal. Es necesario que haya una mayor barrera”, dijo Nelson.

Las profesoras Allison Koenecke de la Universidad Cornell y Mona Sloane de la Universidad de Virginia examinaron miles de extractos cortos que recuperaron de TalkBank, un archivo de investigación alojado en la Universidad Carnegie Mellon. Determinaron que casi el 40% de las alucinaciones eran dañinas o perturbadoras porque el hablante podía ser malinterpretado o tergiversado.

En una de las grabaciones, un orador describió a "otras dos niñas y una mujer", pero Whisper inventó comentarios raciales adicionales y agregó: "otras dos niñas y una mujer, eh, negra".

En otra transcripción, Whisper inventó un fármaco inexistente llamado "antibióticos con actividad aumentada".

Aunque la mayoría de los desarrolladores asumen que las herramientas de transcripción pueden cometer errores ortográficos u otros errores, los ingenieros e investigadores dicen que nunca han visto una herramienta de transcripción impulsada por IA que sea tan alucinógena como Whisper.

La herramienta está integrada en varias versiones del chatbot insignia de OpenAI, ChatGPT, y es un servicio integrado en las plataformas de computación en la nube de Oracle y Microsoft, que presta servicio a miles de empresas en todo el mundo. También se utiliza para transcribir y traducir textos a muchos idiomas.

(CLO) La herramienta de conversión de voz a texto Whisper de OpenAI se promociona como "robótica y precisa a nivel casi humano", pero tiene un inconveniente importante: ¡es propensa a fabricar fragmentos de texto o incluso oraciones completas!

Kommentar (0)