martes, 4 de mayo de 2010

Reconocimiento de Voz - usos del reconocimiento de voz

Dentro del amplio campo de acción de las interfaces basadas en voz se encuentra esta novedosa aplicación propuesta por Barras [1] en la que el reconocimiento de voz ayuda a mantener o recuperar el hilo de una junta o conversación a partir de un relativamente simple método en el que las palabras son clasificadas por su recurrencia en la conversación y los segmentos conteniendo las más comunes son elegidos para conformar un sumario de contenido total de la glosa.

De acuerdo con los comentarios de Barras, el reconocimiento de voz sumado al método propuesto de categorización genera resúmenes de menos de la mitad de la longitud inicial de la conversación que son un 80% efectivos en proporcionar a un escucha recién llegado un entendimiento consistente de la sección de la plática que se perdió.

El método completo descrito en [1] es el siguiente: procesar la conversación e interpretarla por medio de reconocimiento de voz, categorizar la relevancia de las palabras usadas por su frecuencia, eliminar palabras comunes del lenguaje, como preposiciones y muletillas, seleccionar las sentencias en las que estan presentes las palabras más relevantes, sintetizar esas sentencias en un resumen y proporcionarlo a los usuarios que no participaron en la sesión desde el principio, en modo de voz nuevamente para, además del resumen, ofrecer también el contexto de entonación y volúmen de cada sentencia.

Referencias

[1] Barras, Colin. "Could speech recognition improve your meetings?." New Scientist 205.2747 (2010): 18-19. Computers & Applied Sciences Complete. EBSCO. Web. 5 May 2010.

Reconocimiento de voz - evaluación de desempeño de reconocedores en ambientes adversos

Las aplicaciones que ofrecen interfaces de usuario basadas en voz comprenden un extenso abanico de ambientes y situaciones de uso, algunas de las cuales pueden implicar condiciones poco estables o declaradamente adversas para el procesamiento de las señales sonoras.

Uno ejemplo natural, notorio y atractivo es el de aquellas aplicaciones desarrolladas para uso durante la conducción de motocicletas; es evidente que las condiciones de ruido ambiental, de alteración del habla por estrés o desconcentración, interferencia en la emisión y percepción de las señales y otros muchos factores de degradación de las señales sonoras se extreman en el contexto del movimiento en motocicleta, es por esto que MPORAS, IOSIF, et al. realizan en [1] una comparación entre los esquemas disponibles actualmente para el mejoramiento de la señal de voz en condiciones adversas.

Además de proveer un comparativo relevante, en el que método MSSM (Multi-band Spectral Subtraction Method) es señalado como el más eficiente, [1] proporciona un vistazo a los esfuerzos actuales (2010) en el contexto del mejoramiento en la interpretación de voz en ambientes poco amigables.

Referencias
[1] MPORAS, IOSIF, et al. "SPEECH ENHANCEMENT FOR ROBUST SPEECH RECOGNITION IN MOTORCYCLE ENVIRONMENT." International Journal on Artificial Intelligence Tools 19.2 (2010): 159-173. Computers & Applied Sciences Complete. EBSCO. Web. 4 May 2010.

Reconocimiento de Voz - innovación en algoritmos de reconocimiento

Los medios de transmisión, los mecanismos de persepción, el medio ambiente e incluso la pronunciación misma pueden ocasíonar que los patrones de voz de un usuario se vean alterados, contaminados y distorcionados antes de que puedan ser procesados por los dispositivos/sistemas que ofrecen interfaces basadas en voz. Es por esto que día con día y a pesar de que el campo está por cumplir los 60 años, investigadores y compañías alrededor del mundo realizan esfuerzos por desarrollar nuevos y mejores algoritmos para el área.

Muchos sistemas de reconocimiento de voz utilizan redes neuronales para intentar interpretar patrones de entrada e identificar los fonemas del usuario sin embargo, para condiciones de señal sucia, Nair y Sreenivas argumentan en [1] que un enfoque menos iterativo y más probabilístico puede resultar más eficiente, por lo que proponen un modelo basado en HMM (Hidden Markov Model, un tipo de red estdística Bayesiana) y el modelo de DTW (Dynamic Time Warping, una estrategia para determinar la similitud de patrones con variación de tiempo entre ellos).

De acuerdo a los resultados de [1] este enfoque híbrido ofrece una mejora en rendimiento a las tecnologías propuestas previamente, sin embargo, queda pendiente el analisis de viabilidad de implementación en distintos tipos de dispostivos con capacidad limitada de procesamiento.

Referencias

[1] Nair, Nishanth Ulhas, and T.V. Sreenivas. "Joint evaluation of multiple speech patterns for speech recognition and training." Computer Speech & Language 24.2 (2010): 307-340. Computers & Applied Sciences Complete. EBSCO. Web. 4 May 2010

Reconocimiento de Voz - estudios en pronunciación de lenguajes y dialectos

Uno de los retos más evidentes en el campo de las interfaces de usuario basadas en voz y en sí del reconocimiento de voz mismo es la gran cantidad de idiomas, regionalismos y dialectos que los usuarios de un producto o servicio pueden emplear.

Algunas técnicas y productos ofrecen una eficiencia de hasta el 99% en el reconocimiento del habla, pero estos normalmente se limitan al idioma inglés, Alotaibi y Muhamad concluyen en su estudio sobre reconocimiento de voz en dialectos y regionalismos árabes [1] que para algunos fonemas del árabe, aun el desempeño de los más adecuados métodos de reconocimiento baja hasta el 35%, siendo el árabe el idioma nativo de alrededor de 300 millones de personas, la baja eficiencia demostrada en [1] sugiere que las estrategias actuales pueden no estar a la altura para satisfacer las necesidades de un importante segmento del mercado en cuanto a reconocimiento de voz.

Referencia

[1] Alotaibi, Yousef Ajami, and Ghulam Muhammad. "Study on pharyngeal and uvular consonants in foreign accented Arabic for ASR." Computer Speech & Language 24.2 (2010): 219-231. Computers & Applied Sciences Complete. EBSCO. Web. 4 May 2010.