marzo 29, 2024
Little fish, de Baidu, que incluye DuerOS como procesador de voz

Los retos tecnológicos del reconocimiento de voz en chino

Little fish, de Baidu, que incluye DuerOS como procesador de voz
Little fish, de Baidu, que incluye DuerOS como procesador de voz
Advertisements

El reto de la escritura de caracteres chinos hace del reconocimiento de voz un paso tecnológico evidente en China. Sin embargo, diseñar computadoras que puedan tener una conversación en Chino está todavía en ciernes.

Muchos investigadores consideran el 2017 como el de la primera computadora que puede conversar en chino. Basados en avances recientes que se han hecho en reconocimiento de voz y procesamiento del lenguaje humano, el gigante en comercio Alibaba y su motor de búsqueda Baidu han desarrollado tecnologías para descifrar la comunicación por voz. Esta tecnología se encontrará en el mercado en un futuro cercano.

Advertisements

Por ejemplo, Tmall Genie cuenta con AliGenie, un asistente de voz similar a Amazon Echo. Puede poner órdenes en línea, revisar el clima, tocar tu música favorita y controlar otros dispositivos inteligentes a través de comandos de voz.

 

Advertisements

La plataforma DuerOS desarrolalda por Baidu tiene dicha función en productos como un robot para el hogar, periféricos para el televisor, y teléfonos HTC. Tiene funciones similares a AliGenie y otros asistentes de voz, así como habilidades rudimentarias para chatear. Kun Jing, gerente general de Baidu Duer espera que más compañías entren a este campo este año. Muchos inversionistas han visto el éxito de Echo en Estados Unidos y esperan replicarlo en China.

La firma de investigación IDC predice que para el 2020 el 51% de la industria de manejo inteligente y el 68% de la industria de telefonía celular y dispositivos tendrá un sistema de Inteligencia Artificial basado en conversación. Antes, la pantalla táctil hizo la interacción con el celular más fácil, una interfaz conversacional la hará más natural.

Reconocimiento de voz hoy en día

Advertisements

La tecnología de reconocimiento de voz es una buena opción para China. Hoy en día se necesita utilizar un teclado QWERTY para teclear el pinyin, pero ya que el idioma cuenta con cuatro tonos y cada uno tiene un significado distinto (incluyendo palabras con tonos idénticos), el usuario debe buscar caracter por caracter. Una sílaba tan común como yi tiene 60 o más caracteres. Algunos métodos de ingreso de texto dan prioridad a los caracteres más usados, pero no siempre son exactos. Es por eso que desde su comienzo redes sociales como Wechat incluyeron mensajes de voz.

Hoy en día, la tecnología de reconocimiento de voz  funciona convirtiendo las órdenes del usuario a texto y generando una respuesta. Esto funciona con comandos sencillos como revisar el clima o buscar la traducción de una palabra. Sin embargo, no se puede mantener una conversación sobre distintos temas.

Los obstáculos del idioma chino

Advertisements

Para resolver el problema del procesamiento de voz se requerirá superar algunas de las complejidades del idioma chino. Por ejemplo, dos caracteres ordenados de manera distinta significan algo distinto. Incluso en ocasiones el mismo orden puede significar cosas distintas y su significado depende lo que viene antes o después. Además, la forma escrita no tiene espacios entre palabras como los idiomas occidentales. Por otro lado, la ausencia de tiempos (presente, pasado, futuro) hace mayor el reto para descifrar secuencias de tiempo.

Investigadores chinos de procesamiento del lenguaje natural también están preocupados por otros retos. Existen diversos dialectos que entre sí son incomprensibles, y la misma expresión puede significar cosas distintas.

Zhiyong Wu, un profesor asociado de la Universidad de Tsinghua subraya que para que las computadoras de verdad puedan entender al humano y comunicarse con él deben de entender matices sutiles como entonación y énfasis. Además deben entender emociones, ya que la toma de decisiones de los humanos no se basa solamente en la lógica.

Para hacer más inteligente al sistema, Baidu introduce un modo de entrenamiento en su plataforma este año para permitir a desarrolladores de software contribuir a la base de datos en tiempo real por medio de un bot. Dicho bot recibe retroalimentación del desarrollador (como la explicación de preguntas que no comprendió), aprende de ello y corrige el sistema.

Baidu y Alibaba cuentan con bases de usuarios enormes

Una de las ventajas con las que cuentan los investigadores es la cantidad de material. Mientras más datos tiene una compañía, más inteligente es la red neuronal de las computadoras. Compañías como Baidu y Alibaba tienen bases enormes de usuarios. Para finales de 2016, Baidu afirmó tener 665 millones de usuarios activos al mes. Alibaba afirma contar con 507 millones.

Sin embargo, de acuerdo a Gang Wang, quien es investigador en los laboratorios de Inteligencia Artificial de Alibaba, los investigadores deben diseñar redes neuronales más eficientes para aprender idiomas. En el mundo real, la gente expresa el mismo significado de diferentes formas,  y es imposible enseñar cada expresión posible. En su puesto anterior como académico investigador, Wang y sus colegas diseñaron un método para enseñar a las computadoras  temas con poco material disponible.

Por ejemplo, para entrenar a una red neuronal para comprender textos de deportes y medicina, no hay mejor material que información orgánica. Sin embargo, para Wang, aún y cuando falte esta información es posible entrenar a las redes en estos temas.

De acuerdo al fundador de Ainemo Chenfeng Song, el éxito de los asistentes de voz depende de sus servicios. Ainemo es un startup que hace robots asistentes en el hogar con reconocimiento de voz. Su primer producto, little fish salió al mercado en Junio. Song planea gradualmente construir programas educativos y de salud.

Little fish utiliza DuerOS como plataforma de conversación. Esto permite llevar contenidos de internet a personas sin acceso a nuevas tecnologías como ancianos y niños.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

0