A Língua Portuguesa precisa desenvolver ferramentas e aplicativos aos níveis linguísticos do texto e da fala, para seu uso nas Tecnologias da Linguagem.
O português está mal preparado para a era digital, de acordo com os resultados de um estudo internacional sobre o estado de desenvolvimento da Tecnologia da Linguagem feito a 30 línguas europeias.
O apoio da Tecnologia da Linguagem ao português é classificado como “pouco ou nenhum” na tradução automática, “fragmentário” na análise de texto e nos recursos linguísticos e orais, e “médio” no processamento da fala.
Os recursos linguísticos e orais são os recursos de base – conjuntos de dados, bases de conhecimento linguístico, etc. – necessários para a criação de ferramentas e aplicações em Tecnologias da Linguagem.
Para António Branco, o investimento em Tecnologias da Linguagem “é um fator crucial para a afirmação da nossa Língua na era digital”.
O estudo foi apresentado dia 16 de novembro numa conferência internacional na Fundação Gulbenkian, em Lisboa, onde foi lançado o Livro Branco sobre A Língua Portuguesa na Era Digital, um projeto que envolve as Faculdades de Ciências e de Letras da Universidade de Lisboa, e o Instituto Superior Técnico [da Universidade Técnica de Lisboa].
A fraca classificação da Língua Portuguesa parece um paradoxo, porque há mais de 220 milhões de falantes do português espalhados pelo mundo. A nossa língua é a terceira mais usada no Twitter e a quinta mais usada na Internet, e o Brasil é o quinto país que mais utiliza a Rede.
“Não se trata de um paradoxo, mas de realidades diferentes, porque uma coisa é falarmos de suportes, canais e meios de difusão da Língua Portuguesa a nível mundial, onde não estamos mal; outra coisa é a Tecnologia da Linguagem, que não está à vista das pessoas como a presença na Internet, mas que é um fator crucial para a afirmação da nossa Língua na era digital”, esclarece António Branco, investigador do Departamento de Informática da Faculdade de Ciências da Universidade de Lisboa.
António Branco é coordenador do projeto europeu METANET4U, que pretende contribuir para o estabelecimento de uma plataforma digital pan-europeia que disponibilize recursos e serviços relacionados com a linguagem, envolvendo bases de dados e ferramentas de software [logicial] para o processamento da fala e da linguagem.
A Tecnologia da Linguagem funciona nos bastidores, de forma invisível para o público em geral dentro de sistemas de software [logicial] sofisticados, mas é uma ajuda preciosa em tarefas diárias, como encontrar informação na Internet com um motor de busca, verificar a ortografia e a gramática com um processador de texto, ver as recomendações para um produto numa loja online [em linha], seguir as indicações verbais de um sistema de navegação, traduzir páginas da Internet com um serviço online [em linha].
Desenvolver esta tecnologia exige a recolha de muitos dados sobre a Língua Portuguesa e é um processo trabalhoso, demorado e caro. No mundo digital, dos computadores e das redes, há duas vias para a aquisição da linguagem: a abordagem estatística e a construção de sistemas baseados em regras.
Colecionar milhões de frases
No primeiro caso, os conhecimentos linguísticos são obtidos a partir de grandes coleções de exemplos concretos de textos, de milhões de frases que permitem, por exemplo, a correção ortográfica em processadores de texto ou serviços como o Google Search [Google Pesquisa] ou o Google Translate [Google Tradutor]. A vantagem da abordagem estatística é que a aprendizagem dos computadores é rápida.
No caso da construção de sistemas baseados em regras, particularmente importante na tradução automática, especialistas em linguística computacional e engenharia informática têm de codificar as regras gramaticais e compilar listas de vocabulário, o que exige muito tempo e trabalho, mas tem a vantagem de permitir controlar de forma mais detalhada o processamento da linguagem, corrigindo permanentemente os erros no software [logicial], e dar uma resposta detalhada ao utilizador.
“O sistema flexional do português é muito mais rico do que o de línguas como o inglês, em particular nos verbos, o que torna o desenvolvimento da Tecnologia da Linguagem mais difícil”, salienta António Branco.
O investigador dá um exemplo revelador: “Um verbo pode ter diferentes marcas para aspeto, tempo, modo, pessoa, número, género ou polaridade, atingindo mais de 160 formas flexionadas diferentes”.
Entretanto, no Instituto de Engenharia de Sistemas e Computadores – Investigação e Desenvolvimento (INESC-ID), em Lisboa, está a ser desenvolvido um sistema inovador para recuperar doentes que sofreram um AVC [acidente vascular cerebral] e que têm afasia, isto é, dificuldade em lembrar-se dos nomes dos objetos.
Para Isabel Trancoso, “há um mercado potencial importante” no processamento da fala para usos em várias áreas, como a da reabilitação médica.
O projeto, liderado pela investigadora Isabel Trancoso, é uma parceria entre o Laboratório de Sistemas de Língua Falada (L2F), do INESC-ID, e o Laboratório de Estudos de Linguagem, da Faculdade de Medicina da Universidade de Lisboa.
A investigadora mostra ao Expresso como vai funcionar o sistema. No monitor de um computador aparecem uma a uma as imagens, fotos e vídeos de objetos familiares, de pessoas, de músicas conhecidas.
O doente que sofreu um AVC deve falar na direção do microfone e tentar acertar no nome de cada um desses objetos, pessoas ou músicas, nome muitas vezes escondido no meio de uma frase e entre hesitações, mas o sistema de reconhecimento da fala não tem problemas e capta esses nomes, surgindo no monitor a classificação “certo” ou “errado”.
Este é um dos muitos exemplos do que é necessário desenvolver nas Tecnologias da Linguagem para que a sobrevivência da Língua Portuguesa não esteja em risco na era digital.
Isabel Trancoso, que representa o Instituto Superior Técnico no projeto europeu METANET4U, afirma que “há poucas empresas nacionais interessadas nas tecnologias desenvolvidas por centros de investigação portugueses”.
Em todo o caso, nos últimos anos tem havido mais interesse de editoras e livreiras no processamento da Língua escrita, e no processamento da fala “há um mercado potencial importante nas televisões, rádios, na área da reabilitação, nos hospitais [ditado automático dos relatórios médicos, preenchimento de formulários] e nos tribunais [transcrição das sessões e dos relatos das testemunhas]“.
Amália Mendes, investigadora do Centro de Linguística da Universidade de Lisboa (CLUL), que também participa no projeto METANET4U, reconhece por sua vez que “há pouco suporte tecnológico para a Língua Portuguesa, embora seja exagerado dizer que é uma língua em risco, porque não houve uma passagem maciça para o inglês na Internet e nas redes sociais dos utilizadores que falam português, o que significa que há multilinguismo”.
A investigadora sublinha que “tentar disponibilizar o máximo de recursos para o português é o objetivo do CLUL no projeto METANET4U”, e explica o que falta ao português em termos de desenvolvimento da Tecnologia da Linguagem para chegar ao nível do espanhol ou do francês.
“Ao nível da palavra [nível morfosintático], que é o mais básico, já há recursos e ferramentas, mas, ao nível da análise sintática da língua [estrutura das frases], o trabalho desenvolvido é ainda insuficiente.”
E quanto mais nos afastamos do nível básico, “mais afastados estamos do desejável no apoio tecnológico da Língua Portuguesa”, explica Amália Mendes.
É o que acontece aos níveis semântico (significado das palavras) e do discurso (relações discursivas das frases de um texto), que são muito mais complexos. Saindo do texto e entrando na tecnologia da fala, “há problemas ainda acrescidos, embora seja uma área claramente em desenvolvimento, por causa das aplicações comerciais”.
* AZEVEDO, Virgílio. Língua Portuguesa mal preparada para a era digital. Extraído do diário Expresso (Lisboa, Portugal). Publicado em: 16 nov. 2012.
Livro Branco A Língua Portuguesa na Era Digital lançado na Gulbenkian
Do Camões – Instituto da Cooperação e da Língua |
O livro procura disponibilizar uma análise do estado de desenvolvimento da Tecnologia da Linguagem para a Língua Portuguesa, assim como das perspectivas que se oferecem e das ações necessárias para a consolidação do português como Língua de comunicação internacional para a era digital.
A obra relacionada à Língua Portuguesa é um volume da coleção de Livros Brancos sobre “As Línguas na União Europeia da Sociedade da Informação”.
Esta coleção apresenta um estudo circunstanciado sobre o estado atual de 30 línguas europeias em termos de Tecnologias da Linguagem e como estão a ser tecnologicamente equipadas para fazer face ao choque digital, salientando os riscos e as oportunidades mais urgentes que cada uma destas línguas enfrenta. No total, mais de 200 autores e colaboradores ajudaram a preparar esta coleção, que se encontra publicada na editora internacional Springer Verlag.
Esta coleção abrange todas as línguas oficiais da União Europeia e dos países-membros e diversas outras línguas faladas na Europa: alemão, basco, búlgaro, catalão, checo, croata, dinamarquês, eslovaco, esloveno, espanhol, estoniano, finlandês, francês, galego, grego, holandês, húngaro, inglês, irlandês, islandês, italiano, letão, lituano, maltês, norueguês, polaco, português, romeno, sérvio e sueco.
Livro Branco “A Língua Portuguesa na Era Digital” lançado na Gulbenkian. Extraído do Camões – Instituto da Cooperação e da Língua. Lisboa, Portugal.
Leia também:
• “Língua Portuguesa pode perder-se na era digital”, alerta cientista da Universidade de Lisboa – 16 de novembro de 2012
• Preparando o Português para ser a “Língua da Ciência” – 23 de setembro de 2012
Extraído do sítio Ventos da Lusofonia
Nenhum comentário:
Postar um comentário
Os comentários serão moderados. Não serão mais publicados os de anônimos.