martes, 4 de mayo de 2010

Reconocimiento de Voz - usos del reconocimiento de voz

Dentro del amplio campo de acción de las interfaces basadas en voz se encuentra esta novedosa aplicación propuesta por Barras [1] en la que el reconocimiento de voz ayuda a mantener o recuperar el hilo de una junta o conversación a partir de un relativamente simple método en el que las palabras son clasificadas por su recurrencia en la conversación y los segmentos conteniendo las más comunes son elegidos para conformar un sumario de contenido total de la glosa.

De acuerdo con los comentarios de Barras, el reconocimiento de voz sumado al método propuesto de categorización genera resúmenes de menos de la mitad de la longitud inicial de la conversación que son un 80% efectivos en proporcionar a un escucha recién llegado un entendimiento consistente de la sección de la plática que se perdió.

El método completo descrito en [1] es el siguiente: procesar la conversación e interpretarla por medio de reconocimiento de voz, categorizar la relevancia de las palabras usadas por su frecuencia, eliminar palabras comunes del lenguaje, como preposiciones y muletillas, seleccionar las sentencias en las que estan presentes las palabras más relevantes, sintetizar esas sentencias en un resumen y proporcionarlo a los usuarios que no participaron en la sesión desde el principio, en modo de voz nuevamente para, además del resumen, ofrecer también el contexto de entonación y volúmen de cada sentencia.

Referencias

[1] Barras, Colin. "Could speech recognition improve your meetings?." New Scientist 205.2747 (2010): 18-19. Computers & Applied Sciences Complete. EBSCO. Web. 5 May 2010.

Reconocimiento de voz - evaluación de desempeño de reconocedores en ambientes adversos

Las aplicaciones que ofrecen interfaces de usuario basadas en voz comprenden un extenso abanico de ambientes y situaciones de uso, algunas de las cuales pueden implicar condiciones poco estables o declaradamente adversas para el procesamiento de las señales sonoras.

Uno ejemplo natural, notorio y atractivo es el de aquellas aplicaciones desarrolladas para uso durante la conducción de motocicletas; es evidente que las condiciones de ruido ambiental, de alteración del habla por estrés o desconcentración, interferencia en la emisión y percepción de las señales y otros muchos factores de degradación de las señales sonoras se extreman en el contexto del movimiento en motocicleta, es por esto que MPORAS, IOSIF, et al. realizan en [1] una comparación entre los esquemas disponibles actualmente para el mejoramiento de la señal de voz en condiciones adversas.

Además de proveer un comparativo relevante, en el que método MSSM (Multi-band Spectral Subtraction Method) es señalado como el más eficiente, [1] proporciona un vistazo a los esfuerzos actuales (2010) en el contexto del mejoramiento en la interpretación de voz en ambientes poco amigables.

Referencias
[1] MPORAS, IOSIF, et al. "SPEECH ENHANCEMENT FOR ROBUST SPEECH RECOGNITION IN MOTORCYCLE ENVIRONMENT." International Journal on Artificial Intelligence Tools 19.2 (2010): 159-173. Computers & Applied Sciences Complete. EBSCO. Web. 4 May 2010.

Reconocimiento de Voz - innovación en algoritmos de reconocimiento

Los medios de transmisión, los mecanismos de persepción, el medio ambiente e incluso la pronunciación misma pueden ocasíonar que los patrones de voz de un usuario se vean alterados, contaminados y distorcionados antes de que puedan ser procesados por los dispositivos/sistemas que ofrecen interfaces basadas en voz. Es por esto que día con día y a pesar de que el campo está por cumplir los 60 años, investigadores y compañías alrededor del mundo realizan esfuerzos por desarrollar nuevos y mejores algoritmos para el área.

Muchos sistemas de reconocimiento de voz utilizan redes neuronales para intentar interpretar patrones de entrada e identificar los fonemas del usuario sin embargo, para condiciones de señal sucia, Nair y Sreenivas argumentan en [1] que un enfoque menos iterativo y más probabilístico puede resultar más eficiente, por lo que proponen un modelo basado en HMM (Hidden Markov Model, un tipo de red estdística Bayesiana) y el modelo de DTW (Dynamic Time Warping, una estrategia para determinar la similitud de patrones con variación de tiempo entre ellos).

De acuerdo a los resultados de [1] este enfoque híbrido ofrece una mejora en rendimiento a las tecnologías propuestas previamente, sin embargo, queda pendiente el analisis de viabilidad de implementación en distintos tipos de dispostivos con capacidad limitada de procesamiento.

Referencias

[1] Nair, Nishanth Ulhas, and T.V. Sreenivas. "Joint evaluation of multiple speech patterns for speech recognition and training." Computer Speech & Language 24.2 (2010): 307-340. Computers & Applied Sciences Complete. EBSCO. Web. 4 May 2010

Reconocimiento de Voz - estudios en pronunciación de lenguajes y dialectos

Uno de los retos más evidentes en el campo de las interfaces de usuario basadas en voz y en sí del reconocimiento de voz mismo es la gran cantidad de idiomas, regionalismos y dialectos que los usuarios de un producto o servicio pueden emplear.

Algunas técnicas y productos ofrecen una eficiencia de hasta el 99% en el reconocimiento del habla, pero estos normalmente se limitan al idioma inglés, Alotaibi y Muhamad concluyen en su estudio sobre reconocimiento de voz en dialectos y regionalismos árabes [1] que para algunos fonemas del árabe, aun el desempeño de los más adecuados métodos de reconocimiento baja hasta el 35%, siendo el árabe el idioma nativo de alrededor de 300 millones de personas, la baja eficiencia demostrada en [1] sugiere que las estrategias actuales pueden no estar a la altura para satisfacer las necesidades de un importante segmento del mercado en cuanto a reconocimiento de voz.

Referencia

[1] Alotaibi, Yousef Ajami, and Ghulam Muhammad. "Study on pharyngeal and uvular consonants in foreign accented Arabic for ASR." Computer Speech & Language 24.2 (2010): 219-231. Computers & Applied Sciences Complete. EBSCO. Web. 4 May 2010.

miércoles, 14 de abril de 2010

Innovaciones en manipulación de objetos distantes sobre superficies multitáctiles table-top: I-Grabber

Innovaciones en manipulación de objetos distantes sobre superficies multitáctiles table-top: I-Grabber
Alejandro Miranda Vélez – pedroa.mirandavz@udlap.mx


Abstract
Las superficies multitáctiles tipo table-top han ganado popularidad recientemente y facilitan la colaboración entre grupos de personas sobre un conjunto relacionado de objetos digitales. Al ser un campo relativamente nuevo, existen áreas de oportunidad que deben atenderse, una de ellas es la manipulación de objetos distantes en la superficie y su relación con el concepto de territorio propio de cada usuario en la sesión. El I-Grabber es una herramienta que pretende facilitar las tareas de manipulación de objetos distantes y promover la colaboración armoniosa entre usuarios.

1. Descripción del contexto de I-Grabber
Las superficies computacionales tipo table-top se han popularizado en los últimos tiempos por las innovadoras posibilidades de colaboración que ofrecen; el hecho de que varios usuarios puedan colaborar sobre la superficie, manipulando objetos digitales mientras comparten el rango de visión sobre ellos y al mismo tiempo se encuentran físicamente cerca para interactuar unos con otros se ha visto potenciada por los avances recientes en el campo de superficies multitáctiles, las que permiten una interacción cada vez más intuitiva y natural de los elementos digitales.

Al tratarse de dispositivos físicos de gran tamaño y permitir la interacción directa por contacto con su superficie, los table-tops multitáctiles generan fenómenos de localización, interacción y territorialidad muy interesantes entre usuarios y elementos digitales. Estudios recientes hacen notar que los usuarios tienden a dividir las superficies en territorios [2], localizando los objetos digitales que les interesan en espacios limitados por su alcance físico sobre el dispositivo. Esta situación genera un área de oportunidad respecto a la interacción de los usuarios con objetos que no necesariamente están dentro de su alcance en determinado momento.

Es fácil imaginar la manipulación de elementos digitales mediante una superficie table-top multitáctil cuando ésta los representa cerca de la posición física real del usuario, los brazos y manos tienen cierto alcance y típicamente los usuarios se distribuyen la superficie de modo que las actividades de uno afecten a los demás en lo menos posible. Sin embargo, los objetos digitales que se encuentran fuera del alcance natural del usuario pueden causar que el usuario intente extender su alcance más allá de lo cómodo y natural o que decida desplazarse de su posición original para tener acceso a los recursos que necesita [1]. Cualquiera de los cursos de acción puede resultar en una disminuida armonía en la interacción con otros usuarios (territorios invadidos o estorbados) y/o esfuerzo extra en la interacción con los objetos.

2.Trabajos relacionados al contexto
Diversas propuestas intentan explotar las posibilidades dentro del contexto de interacción con objetos distantes en superficies table-top. La mayoría intentan adaptar conceptos familiares de la vida diaria a la problemática en cuestión y ofrecen soluciones interesantes:
· Bezerianos y Balakrishnan proponen una herramienta en [3] que semeja una aspiradora, que acerca al usuario los objetos digitales que se encuentra en un cierto haz direccionable.
· Parker, Mandryk e Inkpen proponen una alternativa basada en lápices apuntadores que seleccionan y atraen objetos semejando un rayo de atracción.
· Similarmente, otras alternativas incluyen emulaciones de resorteras y pantógrafos para alejar objetos y colocarlos donde no estorben a la actividad actual del usuario.

3.I-Grabber: la propuesta
Abednego, Lee, Moon y Park describen en [1] su propuesta de herramienta para facilitar la interacción con objetos remotos en una superficie multitáctil tipo table-top: el I-Grabber.

La idea base detrás del I-Grabber es la de un brazo mecánico extensible equipado con pinzas capaces de asegurar y manipular objetos a la distancia. El modelo contempla una herramienta digital de 3 partes, una base, un brazo extensible y unas pinzas en el extremo del brazo. El modelo de uso requiere dos puntos de contacto, uno funcionando a manera de montura o ancla y el otro sirviendo como director del movimiento y extensión del brazo.

Siendo el ‘brazo’ suficientemente flexible para extenderse en cualquier dirección y a cualquier distancia, la intensión es que se utilice para manipular, atraer o alejar cualquier objeto dentro de la superficie table-top que el usuario requiera, sin tener que desplazarse ni invadir físicamente el territorio de otros usuarios presentes en la superficie.

4.I-Grabber: El funcionamiento
I-Grabber se ha pensado para asistir al usuario únicamente cuando éste requiere manipular objetos distantes, de modo que no es una herramienta que se encuentre visible todo el tiempo. El mecanismo para activarla está muy relacionado con el funcionamiento posterior del mismo: el usuario debe seleccionar dos puntos de contacto y alejarlos desplazando uno de ellos a una distancia predefinida de 20 cm, en ese momento el sistema despliega al representación grafica del brazo mecánico, usando el punto de contacto estático como base o ancla y ubicando la mitad del brazo en el otro punto de contacto.

Cada vez que el punto móvil se aleje o acerque a la base, el brazo cambiará su longitud en una proporción de 1:5; de igual modo, el movimiento angular del punto de contacto móvil causará un cambio en la inclinación del brazo.

Cuando el extremo móvil del brazo o ‘pinzas’ alcancen un objeto, el I-Grabber automáticamente lo seleccionará y comenzara a manipularlo. Si el brazo se mueve mientras ‘sujeta’ un objeto, el objeto será desplazado con él, si el punto ‘base’ se mueve, pero el ‘móvil’ no, entonces el objeto permanecerá en el mismo lugar pero será rotado proporcionalmente al movimiento de la ‘base’.

Por otro lado, mientras un objeto se encuentra seleccionado, el sistema desplegará un menú contextual cerca del punto base de modo que el usuario podrá utilizar para elegir entre varias opciones de manipulación más refinadas: copiar, borrar, liberar, etc.

Finalmente, el I-Grabber puede ser utilizado para manipular objetos en un dispositivo único o en arreglos de dispositivos con varias superficies, siempre siguiendo el comportamiento del brazo mecánico extensible.




5.Conclusiones
En este documento se ha descrito el contexto de manipulación de objetos distantes en superficies multitáctiles table-top, las limitaciones y conflictos generados por la federalización del espacio entre distintos usuarios y algunas opciones disponibles para manipular objetos distantes sin causar conflictos de invasión de territorio ajeno. Posteriormente se revisó la alternativa propuesta por Abednego, Lee, Moon y Park, el I-Grabber, y se describió su concepto general así como la representación y funcionamiento del modelo.

Tras analizar lo mencionado anteriormente, se puede concluir que existen diversas y creativas formas para manipular objetos distantes en una superficie multitáctil y que el I-Grabber resalta por su flexibilidad y fácil asociación con conceptos comunes del mundo real.


6.Referencias
[1] Abednego, M., Lee, J., Moon, W., and Park, J. 2009. I-Grabber: expanding physical reach in a large-display tabletop environment through the use of a virtual grabber. In Proceedings of the ACM international Conference on interactive Tabletops and Surfaces (Banff, Alberta, Canada, November 23 - 25, 2009). ITS '09. ACM, New York, NY, 61-64. DOI= http://doi.acm.org/10.1145/1731903.1731917

[2] Scott, S. D. 2005 Territoriality in Collaborative Tabletop Workspaces. Doctoral Thesis. UMI Order Number: AAINR04617., University of Calgary.

[3] Bezerianos, A. and Balakrishnan, R. The vacuum: facilitating the manipulation of distant objects, Proc. CHI 2005, 361--370


[4] Parker, J. K., Mandryk, R. L., and Inkpen, K. M. 2006. Integrating Point and Touch for Interaction with Digital Tabletop Displays. IEEE Comput. Graph. Appl. 26, 5, 28--35.

sábado, 6 de febrero de 2010

Agentes

Los argumentos a favor del uso de agentes de software resultan muy similares a los que se pueden ofrecer acerca de casi cualquier otra tecnología, herramienta, enfoque o metodología de la historia. Al final de cuentas, el ser humano busca siempre modos y medios para realizar el menor trabajo y obtener el mayor beneficio posibles.

En el caso de los agentes, el principal atractivo es que la autonomía que se les atribuye puede descargar al humano de la necesidad de emplear tiempo en tareas rutinarias, repetitivas, aburridas y hasta peligrosas, dejándolo libre para únicamente cosechar el fruto del trabajo de los agentes y dedicar el resto del tiempo a otras prioridades.

Las características que definen a los agentes varían de acuerdo al contexto en que se pretendan usar, a los objetivos que perseguirán y por muchos otros factores, sin embargo, la autonomía, la capacidad de comunicación de resultados, el autoaprendizaje y la toma de decisiones con base en ese aprendizaje son las luminarias que sin duda más resaltan, atraen y, también, mas rechazo generan [2].

Tras analizar cualquier invento, tecnología o herramienta de la historia, se puede concluir que ninguna es universal ni omnipotente, los agentes comparten esta situación, la libertad de acción, la autonomía, la relevancia de las decisiones que se les permitirá tomar, y en general la extensión de todas sus características y capacidades debe de ser controlada y supervisada ya sea en tiempo de diseño, de implementación, de uso o de supervisión por el humano; es por esto que Schneiderman y Maes[1] discuten y hasta cierto punto coinciden en que a los agentes, así como a otras herramientas de software se les debe concebir en conjunto con una fuerte interfaz de manipulación directa que permita supervisarlos, cosechar sus resultados, corregir sus desviaciones y monitorear sus progreso.

Es evidente que el éxito en el uso de agentes va ligado con la calidad de la interfaz de manipulación directa que se les asocie tanto o más que a la calidad y capacidades que se les deleguen en la tarea específica; entre mejor sea el diseño del agente en sí y de la interfaz de manipulación directa asociada, menor será el esfuerzo que deba emplear el humano para cosechar los frutos del trabajo de los agentes y más libertad tendrá para enfocarse en otras tareas de mayor interés.





Referencias

[1] Shneiderman, B., Maes, P. 1997. Debate: Direct manipulation vs. interface agents. Interactions 4(6):42-61, November/December.

[2] Lanier, J. 1995. Agents of alienation. Interactions 2(3), 66-72.

lunes, 11 de enero de 2010

Por que? y por que no?

Tal vez sea una aplicación egocéntrica del gran precepto del Mahatma, pero también se puede argumentar que la paz entre individuos nace de la paz interior de cada uno, y la paz interior es una expresión de felicidad, de modo que así como "la paz no es la meta, la paz es el camino"... así también la "felicidad no es la meta, la felicidad es el camino" y la felicidad plena se expresa mediante los proyectos que nos planteamos, desde imaginarlos, planearlos, trabajarlos y sufrirlos hasta lograrlos, porque el punto no es vivir mucho tiempo, sino lo que hacemos con cada segundo del tiempo, poco o mucho, que vivimos.

Así pues, a iniciar un proyecto más y a dejar el alma en hacerlo realidad.