Acerca de...
El equipo
Encuestas
Política de privacidad
WinTablets

Encuesta

¿Cual crees que triunfará?

Ver Resultados

Cargando ... Cargando ...

últimas entradas importantes

Categorías

Archivos

30
Nov 2012
Podcast

El dictado de voz de toda la vida en Windows

bueno, de toda la vida… digamos que de 20 años en sus primeras versiones prácticas, y de 10 en sus versiones completamente funcionales. Desde el marketiniano lanzamiento de Siri por parte de Apple, parece que todas las plataformas móviles tienen que tener un asistente por dictado de voz. Pero lo cierto es que el dictado de voz lleva mucho más tiempo con nosotros y sus utilidades son mucho más extensas y poderosas. Vamos a repasar su historia y sus posibilidades con un post dictado íntegramente.
Yo llevo usando dictado de voz de forma profesional y continuada desde el año 99. Soy antropólogo, y aunque mi trabajo es realmente variado tiene siempre una cosa en común al acabar una sesión: tengo que consignar lo que he visto, escuchado y hablado en un registro de mi diario de campo. Eso supone escribir al menos dos mil palabras por registro, y con frecuencia más. Por otra parte, al igual que mis primos los cualitativistas, tengo que llevar a cabo sesiones formales, ya sean entrevistas en profundidad, grupos de discusión, historias de vida u otras técnicas más específicas. Esto ya es una preferencia personal pero, a menos que el tiempo realmente no me dé más de si, prefiero no externalizar la transcripción de estas sesiones y encargarme yo mismo. Esto se debe a que durante la transcripción se me van ocurriendo ideas, interpretaciones y otras formas de poner en valor lo que he hecho unas horas antes.

Puedo permitir esta forma de trabajar porque empleo el dictado de voz. Si tuviera que transcribir las entrevistas mecanografiándolas, como de hecho me ocurría al inicio de mi carrera profesional, tendría que invertir al menos 4 horas por cada hora de entrevista. Igualmente, cuando acabo una sesión de observación participante suelo estar bastante agotado, y si tuviera que mecanografiar lo que he vivido terminaría con registros mucho más breves y menos ricos de los que obtengo dictándolos.

El primer software de dictado de voz que me sirvió para algo fue el IBM ViaVoice. No recuerdo exactamente el porcentaje de errores, pero recuerdo que la experiencia no era perfecta pero si lo suficientemente funcional como para que me compensara cuando transcribía entrevistas. El problema es que IBM, por motivos que desconozco, perdió el interés por el producto y dejó de desarrollarlo. Mientras tanto, ScanSoft lanzó dragon naturally speaking (lo había comprado poco antes a sus creadores originales). No recuerdo si la primera versión que utilicé de Dragon NaturallySpeaking fue la 6.0 ó la 7.0.

El salto respecto a ViaVoice acabó siendo tremendo. Además de mejorar el producto, la gran ventaja es que los ordenadores de a partir de 2004 tienen la potencia suficiente como para calcular con toda la precisión que permite el software qué es lo que realmente les estás diciendo. Tampoco sé exactamente el margen de error que ofrece una versión moderna o razonablemente moderna, pero lo cierto es que mis viejos tiempos de cuatro a cinco horas de transcripción por cada hora de entrevista los reduje hace ya algunos años a menos de la mitad, a poco más de dos horas en el peor de los casos. Actualmente, Dragon NaturallySpeaking es un producto esencial para mi set de trabajo específico junto a mis piezas de software de análisis cualitativo.

No empleo el dictado de voz todo el tiempo. De hecho, a poco creativo que es el texto salto rápidamente al teclado, porque la principal dificultad que tiene hoy la escritura por medio de la voz no es la exactitud del reconocimiento de lo que le estás diciendo sino «pensar los textos de cabeza». La forma más eficaz que he encontrado de trabajar con el dictado de voz es ir pensando el texto en mi cabeza y dictarlo sin mirar a la pantalla, en lugar de ir siguiendo cómo se forman las líneas del texto. El problema de seguir el texto es que la traducción de voz a texto no es inmediata sino que se demora unos segundos, y resulta dificilísimo mantener la concentración. Sabiendo que el producto se equivoca realmente poco, la mejor manera que he encontrado de trabajar es confiar en él y pensar el texto de cabeza, y luego voy repasando párrafo a párrafo. Esta forma de trabajar no es sencilla, aunque sí muy eficaz, y exige de mi un grado constante de concentración en el texto que estoy pensando.

Tampoco lo empleo de manera «pura». De hecho, lo empleó con las manos encima del teclado, porque en algunas ocasiones corrijo mediante la voz para ayudar al entrenamiento del dictado de voz y en otras muchas uso el teclado junto a la voz, tanto para pequeñas correcciones como para escribir una palabra que estoy seguro que no va a estar en el diccionario del producto (por que es ultraespecífica) y no me compensa agregarla al diccionario por los segundos que pierdo.

La gran barrera que tiene el dictado de voz es utilizarlo en un espacio donde hay muchas más personas. Para escribir textos mínimamente complejos (como el que estáis leyendo ahora mismo), hace falta un grado razonable de concentración, y eso es muy difícil de obtener si no dispones de tu propio espacio. De la misma manera, si estás dictando constantemente acabas tarando a tus compañeros. La gran barrera que hay para el futuro en este sentido es lograr dictar subvocalizando, con la voz realmente baja para no incordiar a tus compañeros.

Otros usos que he conocido de primera mano del dictado de voz son:

  • personas con discapacidad física, con dificultades en la motórica fina, para quienes el dictado de voz significa utilizar el ordenador en igualdad real de condiciones a las personas sin discapacidad
  • personas que por su trabajo por su trayectoria vital no han tenido que utilizar un teclado de ordenador. Damos por supuesto al teclado de tanto tiempo que llevamos usándolo, pero es una barrera brutal para la participación en Internet para aquellas personas que no lo han integrado en su vida. En algunos casos, el dictado de voz acaba siendo un fenomenal atajo

Tampoco es cosa de despreciar los avances que está teniendo el dictado de voz en dispositivos móviles. Yo lo empleo constantemente cuando voy por la calle para tomar pequeñas notas o responder de forma muy breve a algún correo electrónico. De hecho, es una feature obligatoria para mí, más incluso que los mapas y al mismo nivel que el correo electrónico o el navegador en mi móvil. Pero es una pena que debido a la magia del marketing el público generalista entre en contacto con una versión tan limitada y específica del dictado de voz como son los asistentes.

Con todo, no hay que tirar la toalla. Uno de los frentes de vanguardia de Microsoft es el dictado de voz debido a su integración con Kinect. Contando con que profundicen en esa vía, es razonable esperar que en unos años el dictado de voz se integre como elemento fundamental de la interfaz de Windows junto con los textos no táctiles. De hecho, desde Windows Vista el dictado de voz se integra dentro del sistema operativo, aunque no tiene la misma precisión que ofrece el software dedicado como el que acabo de comentar. Espero que en el futuro inmediato esto cambie de manera decisiva y que la voz, por fin, ocupe el puesto que le corresponde en la interacción con el ordenador.

La voz es nuestro medio principal de interacción con otras personas. Por más que el tacto también tenga su papel (a veces muy divertido), es la voz el medio por el cual conducimos buena parte de nuestra vida. Por ello, es de suponer que si la voz se acaba integrando completamente en la interacción hombre máquina los resultados serán revolucionarios, al nivel de las grandes revoluciones que ya nos ha aportado el ordenador personal.

Por jlchulilla | 4 Comentarios | Enlaza esta entrada
contacto@wintablet.info tema WinTablet.info por Ángel García (Hal9000)