martes, 4 de mayo de 2010

Reconocimiento de Voz - innovación en algoritmos de reconocimiento

Los medios de transmisión, los mecanismos de persepción, el medio ambiente e incluso la pronunciación misma pueden ocasíonar que los patrones de voz de un usuario se vean alterados, contaminados y distorcionados antes de que puedan ser procesados por los dispositivos/sistemas que ofrecen interfaces basadas en voz. Es por esto que día con día y a pesar de que el campo está por cumplir los 60 años, investigadores y compañías alrededor del mundo realizan esfuerzos por desarrollar nuevos y mejores algoritmos para el área.

Muchos sistemas de reconocimiento de voz utilizan redes neuronales para intentar interpretar patrones de entrada e identificar los fonemas del usuario sin embargo, para condiciones de señal sucia, Nair y Sreenivas argumentan en [1] que un enfoque menos iterativo y más probabilístico puede resultar más eficiente, por lo que proponen un modelo basado en HMM (Hidden Markov Model, un tipo de red estdística Bayesiana) y el modelo de DTW (Dynamic Time Warping, una estrategia para determinar la similitud de patrones con variación de tiempo entre ellos).

De acuerdo a los resultados de [1] este enfoque híbrido ofrece una mejora en rendimiento a las tecnologías propuestas previamente, sin embargo, queda pendiente el analisis de viabilidad de implementación en distintos tipos de dispostivos con capacidad limitada de procesamiento.

Referencias

[1] Nair, Nishanth Ulhas, and T.V. Sreenivas. "Joint evaluation of multiple speech patterns for speech recognition and training." Computer Speech & Language 24.2 (2010): 307-340. Computers & Applied Sciences Complete. EBSCO. Web. 4 May 2010

2 comentarios:

  1. Siempre es útil saber que tipos de algoritmos son usados para el reconocimiento de voz. Éste enfoque de redes neuronales se me hace muy interesante.

    ResponderEliminar
  2. Otra técnica que me llamó la atención es la que utilizó Google para implementar reconocimiento de voz en YouYube o en el teléfono NexusOne. La idea consiste en indexar las palabras (audio) de la misma manera que lo hace con las páginas Web. Algunas variantes inclusive pueden considerar entonación o intención.

    Posteriormente, cuando un usuario habla para realizar una búsqueda, se utilizan técnicas algebraicas de proximidad (como uso de vectores) para reconocer de qué palabra se trata. Lo interesante es que parte del algoritmo se encuentra en los servidores de Google, que como sabemos, cuentan con mucho procesamiento de cómputo. De esta manera es como resuelven el problema de implementación en dispositivos con capacidad limitada.

    Saludos!

    ResponderEliminar