O que aconteceu com o reconhecimento de voz?

Lembra daquela cena em Star Trek IV em que Scotty tentou usar um Mac Plus?

Star-trek-4-apple-mac-plus

Usar um mouse ou teclado para controlar um computador? Não seja tolo. No futuro, é claro que só haverá uma maneira de controlar os computadores: pelo falando com eles.

Há apenas um pequeno problema com esse futuro mundo mágico de computadores que controlamos com nossas vozes.

Taxa de precisão do reconhecimento de voz ao longo do tempo

Não funciona.

Apesar de ridículo, aumentos de ordem de magnitude no poder de computação na última década, não conseguimos descobrir como obter uma precisão de reconhecimento de fala acima de 80% – quando a linha de base humano a taxa de precisão da transcrição de voz é de 96% a 98%!

Em 2001, a precisão do reconhecimento chegou a 80%, muito aquém dos níveis de compreensão semelhantes aos do HAL. O acréscimo de dados ou de capacidade de computação não fez diferença. Pesquisadores da Universidade Carnegie Mellon verificaram novamente em 2006 e descobriram a situação inalterada. Com a discriminação humana chegando a 98%, a lacuna não fechada deixou pouca base para a conversa. Mas o fato de o senhor se ater a alguns tópicos, como números, ajudou. Dizer “um” no telefone funciona tão bem quanto pressionar um botão, chegando a 100% de precisão. Mas se o senhor afrouxar a restrição de vocabulário, o reconhecimento começa a se desviar, transformando-se em vertigem na vastidão aberta do espaço linguístico.

Como Robert Fortner explicou em Rest in Peas: The Unrecognized Death of Speech Recognition (A morte não reconhecida do reconhecimento de fala)Depois de todos esses anos, ainda estamos muito longe de qualquer tipo de reconhecimento de fala universal que seja útil ou prático.

Agora, temos que esclarecer que estamos falando de reconhecimento universal: dizer que o qualquer coisa para um computador e fazer com que ele converta isso de forma confiável em uma representação de texto válida e precisa. Quando o senhor restringe a entrada de voz a um vocabulário mais limitado – por exemplo, apenas números ou apenas os nomes que constam da agenda de endereços do seu telefone -, não é descabido esperar um alto nível de precisão. Costumo pensar nisso como “controle de voz” em vez de “reconhecimento de voz”.

Ainda assim, acho que estamos evitando a verdadeira questão: o controle por voz, mesmo que hipoteticamente, é perfeito controle de voz, mais eficaz do que as alternativas de baixa tecnologia? Em minha experiência, a fala é uma das formas menos eficazes e ineficientes de comunicação com outros seres humanos. Com isso, quero dizer …

  • a comunicação falada típica tende a ser improvisada e ad-hoc. A menos que seja extremamente disciplinado, em média o senhor não será claro, divagará e será excessivamente prolixo.
  • As pessoas tendem a ouvir cerca de metade do que o senhor diz em um determinado momento. Se o senhor tiver sorte.
  • a comunicação falada coloca uma carga altamente desproporcional sobre o ouvinte. Compare o tempo que o senhor leva para processar uma mensagem de voz com o tempo que leva para ler um e-mail.

Não estou de forma alguma contra o conversar com meus semelhantes. Tenho um profundo respeito por aqueles raros que são ótimos comunicadores no desafiador meio da fala conversacional. Embora todos nós tenhamos sido treinados, literalmente desde o nascimento, a usar nossas vozes para nos comunicar, a comunicação por voz continua repleta de armadilhas e mal-entendidos. Mesmo nas melhores condições.

Então, por que diabos, fora uma deficiência, eu iria querer estender a velha ponte de comunicação por voz para controlar meu computador? Não existe uma maneira melhor?

Robert’s post contém alguns exemplos nos comentários de entusiastas do controle de voz:

Além do ditado de voz extremamente preciso, há comandos muito legais, como poder dizer algo como “search Google for Balloon Boy” ou algo assim e fazer com que o navegador seja aberto automaticamente e o senhor digite o termo de pesquisa – algo assim é feito muitas vezes mais rápido do que um ser humano poderia fazer. Ou poder totalizar uma coluna de números no Microsoft Excel dizendo simplesmente “totalize esta coluna” e ver os resultados em um piscar de olhos, literalmente.

Isso é engraçado, porque o senhor Acabei de abrir o aplicativo do Google no meu iPhone, digitei “balloon boy” e obtive… uma busca por “blue boy”. Não estou inventando isso. Quanto ao exemplo do Excel, o total de que coluna? Vamos supor que o senhor tenha lidado com o complicado problema de selecionar a coluna de que está falando apenas com a sua voz. (Desculpe, era D5? B5?) Não seria muito mais rápido clicar no ícone da barra de ferramentas com o mouse ou pressionar o comando equivalente no teclado para somar a coluna, em vez de dizer metódica e tediosamente as palavras “sum this column” em voz alta?

Também estou tentando imaginar uma sala cheia de pessoas controlando seus computadores ou telefones usando suas vozes. Já é bastante difícil trabalhar nos ambientes de trabalho tagarelas de hoje em dia, sem o ônus adicional de um andar cheio de pessoas dizendo “zoom … enhance”. em seus computadores o dia todo. Será que não acabaríamos todos roucos? e surdos?

Vamos dar uma olhada em outro exemplo prático: o YouTube recurso de reconhecimento automático de fala. Cliquei para acessar o o primeiro vídeo da UC Berkeley com esse recurso, cliquei no ícone CC (closed caption) e imediatamente obtive … isso.

Uc-berkeley-physics-lecture

“A luz exerce força sobre a matéria”. Mas, de acordo com o reconhecimento automático de fala do Google, é “como a busca por alguma matéria”. Como era de se esperar, a situação não melhora a partir daí. O senhor ficaria muito mais confuso do que instruído se tivesse que aprender essa palestra com a transcrição automática.

Na época em que Joel Spolsky e eu tínhamos um podcast juntos, um ouvinte prestativo sugeriu o uso de reconhecimento de voz para obter uma transcrição básica do podcast. Tudo o que eu sabia sobre reconhecimento de voz me dizia que isso não ajudaria, mas prejudicaria. O que é pior: transcrever tudo à mão, do zero, ou corrigir cada terceira ou quarta palavra em uma transcrição automática gerada por máquina? Talvez seja só eu, mas o atrito da enorme taxa de erros inerente à transcrição automática parece muito mais intimidador do que uma transcrição humana em branco. Os humanos podem não ser particularmente eficientes, mas todos eles adicionar o julgamento humano coletivo pode aprimorar editorialmente a transcrição, removendo todas as duplicações, repetições e “ums” de uma transcrição literal, de acordo com o livro.

Em 2004, Mike Bliss compôs um poema sobre reconhecimento de voz. Em seguida, ele o leu para o software de reconhecimento de voz em seu PC e o reescreveu como reconhecido.

um poema de Mike Bliss

Como um bebê, ele ouve
ele não pode discriminar
ele tenta entender
ele reflete o que acha que o senhor diz
ele erra… às vezes
às vezes ele acerta.
Um dia ele crescerá,
como um bebê, ele tem potencial
ele vai funcionar?
o senhor vai se voltar para o crime?
O senhor olha para ela com indulgência.
o senhor não pode deixar de amá-lo, não é mesmo?

um poema de like myth

como um bebê, é um incômodo
ele não pode discriminar
ele tenta forrar
ele reflete muito o que o senhor diz
Às vezes, o senhor consegue fazer com que ele funcione
às vezes ele acerta
won’t day it will grow bop
Nono bebê, ele é provinciano
será que os dois vão olhar?
serão os dois crimes?
o senhor se move nele inevitavelmente
o senhor não pode deixar de amá-la, não é mesmo?

A verdadeira piada aqui é que Mike repetiu o experimento em 2008 e, depois de 5 minutos de treinamento de voz, o senhor conseguiu ver o que estava acontecendo, o reconhecimento de voz acertou todas as palavras do poema original, com exceção de duas!

Suspeito que isso ainda não seja bom o suficiente diante das alternativas mais simples existentes. O senhor se lembra do reconhecimento de escrita à mão? Ele estava na moda na era do Apple Newton.

Doonesbury-newton

Não foi tão ruim quanto Doonesbury fez parecer. Eu aprendi Grafite de Palm e ficou bastante proficiente com ela. Mais de dez anos depois, o senhor esperaria ver maciçamente melhorou o reconhecimento de escrita manual de algum tipo nos iPads, iPhones e iOthers de hoje, certo? Bem, talvez, se o senhor quisesse dizer “inexistente” com “muito melhorado”.

Embora ainda tenha seus nichos de uso, eu pessoalmente não sinto falta do reconhecimento de escrita manual. Nem mesmo um pouco. E não posso deixar de me perguntar se o reconhecimento de voz seguirá o mesmo caminho.