General

VASA-1, la nueva IA de Microsoft capaz de moverse, hablar y ¡cantar!

Roberto Solé Publicado el 18 de abril, 2024 • 17:30

Actualmente, en la industria tecnológica hay una gran carrera por ver quién tiene la inteligencia artificial más puntera. Hace unas semanas OpenAI (creadores de ChatGPT) sorprendió con Sora, una IA para crear videos realmente espectacular. Pues bien, Microsoft les ha contestado con VASA-1, una inteligencia artificial que permite que una imagen hable e incluso, pueda cantar.

El gran riesgo de estas inteligencias artificiales que permiten animar imágenes está en los Deep Fakes. Estos Deep Fakes no son más que videos manipulados que hacen que celebridades digan cosas que jamás hayan dicho. Sirven para transmitir desinformación y darles una pátina de credibilidad usando a famosos e, incluso, promocionar todo tipo de estafas.

Características de VASA-1

Microsoft ha creado una nueva herramienta basada en la inteligencia artificial que permite animar cualquier imagen. Podemos coger una fotografía de una persona y hacer que se mueva de manera expresiva, hable e incluso cante. Lo interesante de esta solución es el elevado nivel de realismo que llega a ofrecer.

La solución VASA-1 se enfoca en mejorar la accesibilidad para las personas con dificultades de comunicación. Busca ofrecer compañía o apoyo terapéutico a quienes lo necesiten.

Permite la generación de caras que hablen de una manera realista en tiempo real. Solamente se requiere de una imagen de la cara de una persona a la que queremos agregar voz. Adicionalmente, permite agregar otros elementos para hacerlo todo más realista. También se puede hacer la edición de la posición de los ojos o movimientos de la boca, haciendo que la cara esté sonriendo o gritando.

Microsoft destaca lo realista y vivaz que quedan estos videos generados a partir de una fotografía de una persona. Pero no solo es la capacidad de agregar voz y sincronizar los labios, la IA va más allá. Tiene la capacidad de agregar emociones, expresiones faciales y la capacidad de agregar movimiento a la cabeza.

Además de poder usarse fotografías de personas, se pueden usar otro tipo de imágenes. Es capaz de agregar voz y movimientos fáciles, realistas a dibujos o fotografías artísticas. No solo permite que estas imágenes hablen, también puede hacer que canten.

Min Choi

@minchoi

2. Realism and liveliness – example 1 https://t.co/Kz0Bm2NRNy

18 de abril, 2024 • 04:57

179

20

No lanzarán una versión abierta

Debemos decir que Microsoft ya ha avisado que esta herramienta no será accesible. Han dejado claro que no publicarán ninguna demostración, API, producto o servicio relacionado con VASA-1.

Es posible que esta solo sea la primera versión de esta nueva tecnología y este en fase de desarrollo. Cabe la posibilidad que, debido al elevado riesgo de Deep Fake, se utilice solo en acuerdos con centros especializados que trabajen con personas con diferentes problemas de comunicación.

Quizá en un futuro se termine desplegando, pero de una manera extremadamente controlada para evitar problemas. Es posible que se termine destinando para que organismos públicos puedan crear asistentes virtuales más amigables para el . También podría terminar siendo una característica adicional de Copilot, generando un asistente virtual con IA dentro de Windows.

Lanzar esta herramienta y el libre puede ser un gran problema de seguridad. Podrían aumentar notablemente los casos de estafa en la red, haciendo que famosos promocionen plataformas fraudulentas o inciten a la inversión en estafas.