Meta acaba de presentar una IA que nos acerca al 'traductor universal': su funcionamiento interno es lo que marca la diferencia

La tecnología de inteligencia artificial (IA) sigue avanzando a pasos agigantados, y Meta, la empresa matriz de Facebook, ha dado un paso importante hacia la creación de un dispositivo de traducción universal que hace poco tiempo habríamos calificado de 'ciencia ficción'. Un artículo reciente publicado en Nature por su equipo FAIR (Foundational AI Research) aborda este problema al presentar un modelo de traducción automática que combina modalidades de texto y habla 101 idiomas. Para algunos, este avance (bautizado como SEAMLESSM4T, un sucesor del NLLB-200) abre la puerta a un futuro donde las barreras lingüísticas sean cosa del pasado. Según los investigadores, la herramienta es un 23% más precisa que otros modelos de última generación en tareas de habla a habla Un salto más allá de los sistemas convencionales Hasta ahora, los sistemas de traducción de habla a habla (S2ST, por sus siglas en inglés) habían funcionado a través de un enfoque en cascada: primero, reconocimiento automático del habla (ASR); luego, traducción de texto a texto (T2TT); y, finalmente, conversión de texto a habla (TTS). Aunque efectivos, estos sistemas tienen limitaciones: Enfoque en idiomas de altos recursos: Los modelos tienden a ser precisos solo en idiomas con abundantes datos disponibles, dejando atrás a muchas lenguas menos comunes. Limitación direccional: Frecuentemente, se especializan en traducir al inglés... pero no desde inglés hacia otros idiomas. Complejidad del sistema: La naturaleza modular de los sistemas en cascada incrementa las posibilidades de errores acumulativos. SEAMLESSM4T aborda estas limitaciones con un enfoque unificado, que permite la traducción directa de habla a habla (S2ST), de habla a texto (S2TT), de texto a texto (T2TT) y de texto a habla (T2ST) en 96 de los idiomas compatibles con el modelo, lo que lo convierte en uno de los sistemas más versátiles hasta la fecha. En Xataka Traductores en tiempo real y "mundos" construidos por voz: Meta sigue presentando ideas para el metaverso La clave del éxito de SeamlessM4T radica en su entrenamiento. Meta utilizó 4 millones de horas de audio multilingüe y decenas de miles de millones de frases obtenidas de repositorios públicos online. Asimismo, hizo uso de 443.000 horas de audio con textos coincidentes, como subtítulos de vídeos en internet, para mejorar aún más su capacidad de traducción. Más allá de la traducción: precisión en entornos ruidosos y reducción de toxicidad Además de su precisión, SeamlessM4T destaca por su resiliencia. Es aproximadamente un 50% más robusto ante ruido de fondo y variaciones en el habla, lo que lo hace especialmente útil en contextos de conversaciones del día a día. También puede manejar expresiones que mezclan varios idiomas, una habilidad valiosa en contextos multilingües. Por otro lado, Meta también ha trabajado para reducir los riesgos de 'toxicidad' en las traducciones. Durante el entrenamiento, se implementaron estrategias para evitar añadir lenguaje ofensivo no presente en la muestra original, lo que disminuyó hasta un 20% la presencia de contenido problemático en comparación con otros modelos. Usos actuales y futuros Meta ya está utilizando SeamlessM4T en varios proyectos prácticos. Por ejemplo, permite el doblaje automático de vídeos en Instagram y Facebook, y facilita la traducción en tiempo real a través de altavoces integrados en gafas inteligentes Ray-Ban. Asimismo, el sistema se ha puesto a disposición de investigadores y desarrolladores en formato de código abierto, lo que podría acelerar los avances en el campo. En Genbeta Ni Google Translate ni DeepL: este nuevo traductor gratis es el mejor que he probado No obstante, el camino hacia un traductor verdaderamente universal todavía es largo: aunque SeamlessM4T soporta 101 idiomas, existen más de 6.500 lenguas en el mundo. Ampliar esta capacidad requerirá avances adicionales y mayores volúmenes de datos de entrenamiento, especialmente para idiomas menos hablados. Toda IA lo suficientemente avanzada es indistinguible ¿de un pez alien? En la famosa novela de ciencia ficción humorística "La Guía del Autoestopista Galáctico", de Douglas Adams, aparecía una criatura ficticia conocida como el 'pez de Babel', un pequeño animal amarillo que se introduce en el oído de una persona y permite la comprensión instantánea de cualquier idioma, ya sea hablado o escrito, al convertirlo en un lenguaje que el portador pueda entender. Aunque SeamlessM4T aún no es instantáneo, por desgracia, representa un avance significativo hacia el ideal de traducción en tiempo real descrito en la obra de Douglas Adams. Futuras mejoras del modelo podrían llevarlo a convertirse en nuestro equivalente del 'pez de Babel'. Imagen | Marcos Merino mediante IA En Genbeta | La IA Zero-Shot de Google traduce idiomas sin haber visto un e

Ene 16, 2025 - 13:18
 0
Meta acaba de presentar una IA que nos acerca al 'traductor universal': su funcionamiento interno es lo que marca la diferencia

Meta acaba de presentar una IA que nos acerca al 'traductor universal': su funcionamiento interno es lo que marca la diferencia

La tecnología de inteligencia artificial (IA) sigue avanzando a pasos agigantados, y Meta, la empresa matriz de Facebook, ha dado un paso importante hacia la creación de un dispositivo de traducción universal que hace poco tiempo habríamos calificado de 'ciencia ficción'.

Un artículo reciente publicado en Nature por su equipo FAIR (Foundational AI Research) aborda este problema al presentar un modelo de traducción automática que combina modalidades de texto y habla 101 idiomas. Para algunos, este avance (bautizado como SEAMLESSM4T, un sucesor del NLLB-200) abre la puerta a un futuro donde las barreras lingüísticas sean cosa del pasado.

Según los investigadores, la herramienta es un 23% más precisa que otros modelos de última generación en tareas de habla a habla

Un salto más allá de los sistemas convencionales

Hasta ahora, los sistemas de traducción de habla a habla (S2ST, por sus siglas en inglés) habían funcionado a través de un enfoque en cascada: primero, reconocimiento automático del habla (ASR); luego, traducción de texto a texto (T2TT); y, finalmente, conversión de texto a habla (TTS). Aunque efectivos, estos sistemas tienen limitaciones:

  1. Enfoque en idiomas de altos recursos: Los modelos tienden a ser precisos solo en idiomas con abundantes datos disponibles, dejando atrás a muchas lenguas menos comunes.
  2. Limitación direccional: Frecuentemente, se especializan en traducir al inglés... pero no desde inglés hacia otros idiomas.
  3. Complejidad del sistema: La naturaleza modular de los sistemas en cascada incrementa las posibilidades de errores acumulativos.

SEAMLESSM4T aborda estas limitaciones con un enfoque unificado, que permite la traducción directa de habla a habla (S2ST), de habla a texto (S2TT), de texto a texto (T2TT) y de texto a habla (T2ST) en 96 de los idiomas compatibles con el modelo, lo que lo convierte en uno de los sistemas más versátiles hasta la fecha.

La clave del éxito de SeamlessM4T radica en su entrenamiento. Meta utilizó 4 millones de horas de audio multilingüe y decenas de miles de millones de frases obtenidas de repositorios públicos online. Asimismo, hizo uso de 443.000 horas de audio con textos coincidentes, como subtítulos de vídeos en internet, para mejorar aún más su capacidad de traducción.

Más allá de la traducción: precisión en entornos ruidosos y reducción de toxicidad

Además de su precisión, SeamlessM4T destaca por su resiliencia. Es aproximadamente un 50% más robusto ante ruido de fondo y variaciones en el habla, lo que lo hace especialmente útil en contextos de conversaciones del día a día. También puede manejar expresiones que mezclan varios idiomas, una habilidad valiosa en contextos multilingües.

Por otro lado, Meta también ha trabajado para reducir los riesgos de 'toxicidad' en las traducciones. Durante el entrenamiento, se implementaron estrategias para evitar añadir lenguaje ofensivo no presente en la muestra original, lo que disminuyó hasta un 20% la presencia de contenido problemático en comparación con otros modelos.

Usos actuales y futuros

Meta ya está utilizando SeamlessM4T en varios proyectos prácticos. Por ejemplo, permite el doblaje automático de vídeos en Instagram y Facebook, y facilita la traducción en tiempo real a través de altavoces integrados en gafas inteligentes Ray-Ban. Asimismo, el sistema se ha puesto a disposición de investigadores y desarrolladores en formato de código abierto, lo que podría acelerar los avances en el campo.

No obstante, el camino hacia un traductor verdaderamente universal todavía es largo: aunque SeamlessM4T soporta 101 idiomas, existen más de 6.500 lenguas en el mundo. Ampliar esta capacidad requerirá avances adicionales y mayores volúmenes de datos de entrenamiento, especialmente para idiomas menos hablados.

Toda IA lo suficientemente avanzada es indistinguible ¿de un pez alien?

En la famosa novela de ciencia ficción humorística "La Guía del Autoestopista Galáctico", de Douglas Adams, aparecía una criatura ficticia conocida como el 'pez de Babel', un pequeño animal amarillo que se introduce en el oído de una persona y permite la comprensión instantánea de cualquier idioma, ya sea hablado o escrito, al convertirlo en un lenguaje que el portador pueda entender.

Aunque SeamlessM4T aún no es instantáneo, por desgracia, representa un avance significativo hacia el ideal de traducción en tiempo real descrito en la obra de Douglas Adams. Futuras mejoras del modelo podrían llevarlo a convertirse en nuestro equivalente del 'pez de Babel'.

Imagen | Marcos Merino mediante IA

En Genbeta | La IA Zero-Shot de Google traduce idiomas sin haber visto un ejemplo antes. Gracias a ello ya hay 24 lenguas nuevas en Translate

-
La noticia Meta acaba de presentar una IA que nos acerca al 'traductor universal': su funcionamiento interno es lo que marca la diferencia fue publicada originalmente en Genbeta por Marcos Merino .

¿Cuál es tu Reacción?

like

dislike

love

funny

angry

sad

wow