segunda-feira, 13 de dezembro de 2010

Linguística Computacional ou PLN

A Linguística Computacional ou Processamento de língua natural (em inglês Natural Language Processing, sigla NLP) é um campo multidisciplinar que envolve a Inteligência Artificial, a Informática e a Linguística e que se utiliza de processos computacionais para manipulação da linguagem humana. Os linguistas computacionais almejam desenvolver, através de um modelamento lógico-formal de línguas naturais, sistemas com capacidade de reconhecer e produzir informação apresentada em linguagem natural.
As origens desta disciplina remontam à década de 1950 e se devem em grande parte aos esforços dos Estados Unidos em usar computadores para traduzir automaticamente documentos redigidos em outras línguas (especialmente russo) para o inglês. Apesar de os resultados obtidos pela tradução automática não serem ainda perfeitos, uma qualidade bastante razoável de tradução já é possível para vários tipos de textos. Isso evidencia a consolidação desta área de pesquisa voltada ao desenvolvimento de métodos, algoritmos e softwares que levam um computador à condição de lidar com uma língua natural de forma útil e sensata aos olhos humanos.

Aplicações populares da área:

  • Reconhecimento de fala
  • Síntese de voz
  • Máquinas de busca
  • Tradução automática
  • Correção automática em processadores de texto
  • Extração de informações de textos
  • Sumarização automática


Em São Carlos - SP, temos um núcleo chamado NILC (Núcleo Interinstitucional de Linguística Computacional) - formado por alguns professores meus da UFSCar, e pesquisadores da USP e UNESP Araraquara - que trabalha nesta área e produz muito. Como exemplo podemos citar o REGRAS, que corrige nossos errinhos no WORD, sabe? Ele foi vendido para a Microsoft em 2001, e faz maior sucesso entre nós, usuários do Word!

Psicolinguística e aquisição da linguagem

Psicolingüística é o estudo das conexões entre a linguagem e a mente que começou a se destacar como uma disciplina autônoma nos anos 1950. Ela não se confunde com a Psicologia da Linguagem por seu objeto e metodologia, apesar de muitos teóricos afirmarem que a Psicolingüística é um ramo interdisciplinar da Psicologia e da Lingüística. De alguma maneira, seu aparecimento foi promovido pela insistência com que o lingüista Noam Chomsky defendeu, naquela época, que a lingüística precisava ser encarada como parte da psicologia cognitiva, além de outros fatores como o interesse crescente da Lingüística pela questão da aquisição da linguagem.
A psicolingüística analisa qualquer processo que diz respeito à comunicação humana, mediante o uso da linguagem (seja ela de forma oral, escrita, gestual etc.). Essa ciência também estuda os fatores que afetam a decodificação, ou seja, as estruturas psicológicas que nos capacitam a entender expressões, palavras, orações, textos.
A comunicação humana pode ser considerada uma contínua percepção-compreensão-produção. A riqueza da linguagem faz com que esse contínuo se processe de várias maneiras. Assim, dependendo da modalidade, visual ou auditiva do estímulo externo, as etapas sensoriais em percepção serão diferentes. Também existe variabilidade na produção da linguagem; podemos falar, gesticular ou escrever.
Outras áreas da psicolingüística são centradas em temas como a origem da linguagem no ser humano. Algumas analisam o processo de aquisição da língua materna e também a aquisição de uma língua estrangeira. Segundo Noam Chomsky, teórico de destaque na escola inatista, os humanos têm uma Gramática Universal inata(conceito abstrato que abrange todas as línguas humanas). Já os funcionalistas, que se opõem a essa corrente de estudos, afirmam que a aquisição da linguagem somente ocorre através do contato social.
Em suma, a Psicolinguística se interessa pela produção e compreensão da linguagem humana. A ideia é saber o que se passa na cabeça de um falante quando este fala ou ouve, tarefas estas que dizem respeito à comunicação humana.

Neurolinguística


Neurolingüística é a ciência que estuda a elaboração cerebral da linguagem. Ocupa-se com o estudo dos mecanismos do cérebro humano que suportam a compreensão, produção e conhecimento abstracto da língua, seja ela falada, escrita, ou assinalada. Trata tanto da elaboração da linguagem normal, como dos distúrbios clínicos que geram suas alterações.
Parece óbvio, levando em conta o hibridismo da palavra, que Neurolingüística diga respeito às relações entre linguagem, cérebro e cognição, e que acione especialmente dois campos do conhecimento humano para explicá-las, as Neurociências e a Lingüística. Isso realmente seria um truísmo se nós não tivéssemos ainda tantos problemas para dar conta dos complexos processos (biológicos, lingüísticos, sócio-culturais, afetivos, etc.) que constituem essas relações, em boa parte ainda não devidamente elucidados.
    Tanto as definições quanto as descrições do campo de atuação da Neurolingüística que encontramos espalhadas pela literatura produzida em diferentes campos (como o da Lingüística e o das Neurociências) revelam que as fronteiras que delimitam seu objeto são algo movediças.
    Segundo Caplan (1987), por exemplo, a Neurolingüística é o estudo das relações entre cérebro e linguagem, com enfoque no campo das patologias cerebrais, cuja investigação relaciona determinadas estruturas do cérebro com distúrbios ou aspectos específicos da linguagem. Já para Menn & Obler (1990), a Neurolingüística tem por objetivo teorizar sobre o “como” a linguagem é processada no cérebro.
    Há quem atribua, como Bouton (1984) ou Lecours & Lhermitte (1979) à publicação, em 1939, do livro Le Syndrome de Désintégration Phonétique, de Alajouanine, Ombredane (neurologistas) e Durand (foneticista) o início da Neurolingüística. Mas há também os que, igualmente de forma tradicional, consideram a Neurolingüística um ramo (Luria, 1981, 1976) ou um subconjunto (Hécaen, 1972) da Neuropsicologia, o que significa defini-la como o campo de estudo das perturbações verbais decorrentes de lesões cerebrais. Essa definição, contudo, é apenas uma pálida caracterização de suas potencialidades teóricas e metodológicas.
   A Neurolingüística grosso modo caracteriza um campo de investigação que se interessa de uma maneira geral pela cognição humana (o que inclui seus aspectos sócio-culturais, neuropsicológicos, afetivos, biológicos, etc.), e de maneira mais específica pela linguagem e por processos afeitos a ela.

(Extraído de “Neurolingüística”, de Edwiges Morato, capítulo publicado no livro “Introdução à Lingüística: domínios e fronteiras”, da editora Cortez, organizado por Fernanda Mussalim & Anna Christina Bentes, 2001)  

Geolinguística


A geolingüística é um campo interdisciplinar compartilhado pela lingüística e a geografia. É também conhecida com os nomes de geografia lingüística e geografia das línguas. A geolingüística ocupa-se de estudar as línguas no seu contexto geográfico. Portanto, o seu campo de estudo é amplo e abrange tanto a dialetologia regional como a demolingüística e a dialetologia da percepção, entre outras orientações. Até finais dos anos 1960, as pesquisas geolingüísticas desenvolviam-se principalmente no seio da lingüística, tradicionalmente sob a etiqueta de dialetologia. Os anos 1970 e 80 trouxeram uma refundação interdisciplinar da geolingüística com a colaboração de especialistas procedentes da politologia, o direito, a antropologia, a sociolingüística e, sobretudo, da geografia cultural.
As principais tarefas da geolingüística são a identificação e descrição de áreas lingüísticas (domínios lingüísticos, áreas dialectais etc.), a análise das dinâmicas geográficas das suas variações internas, estimar a importância territorial das línguas e das suas variedades em diferentes escalas (local, regional, nacional, continental, mundial), analisar as dinâmicas territoriais das línguas e das suas variedades (evolução demolingüística, territórios onde são faladas, dinâmicas de expansão e retrocesso territorial), estudar situações de conflito territorial causado pelas diferenças lingüísticas, conhecer as representações que as pessoas têm dos espaços lingüísticos, das suas falas e da sua dinâmica territorial.

Políticas Linguísticas


A política lingüística (PL) nasceu como área de estudos na década de 1960 e preocupa-se com a relação entre o poder e as línguas, ou mais propriamente, com as grandes decisões políticas sobre as línguas e seus usos na sociedade (Calvet): que línguas podem ou não podem ser usadas em determinadas situações, oficiais ou não; em como línguas são promovidas ou proibidas, a partir de ações sobretudo do Estado sobre seus falantes (política de status); em como línguas são instrumentalizadas para determinados usos (política de corpus).
A política lingüística está na base da ação dos Estados a respeito das línguas, já que a presença e os usos das línguas em cada situação é uma questão política e constantemente permeada de conflitos e negociações.
A planificação lingüística é a área da PL preocupada com as intervenções sobre as línguas, sobretudo a promoção de línguas, isto é, a criação de programas de revitalização, manutenção, escrituralização, criação de escolas bilíngües e de legislação específica para a questão das línguas. Preocupa-se também com a questão dos direitos lingüísticos e do patrimônio lingüístico.
No Brasil, as línguas minoritárias podem ser classificadas em dois grupos: Línguas autóctones, ou seja, nativas ou que têm sua origem na terra (por exemplo, caingangue, guarani, língua geral, etc.; e línguas alóctones, ou idiomas que surgiram e resultaram como legados do histórico da imigração do país (por exemplo, hunsrückisch, pomerano, talian, japonês, etc.). Todos os idiomas minoritários do Brasil, da mesma forma que ocorre em outros países do mundo, são influenciados de uma maneira ou outra por sua política lingüística nacional.
É muito recente a caracterização da política lingüística no Brasil como área. Até o ano de 2006, somente um programa de pós-graduação em lingüística tinha uma linha de pesquisa em política lingüística, o da Universidade Federal de Santa Catarina. Dedica-se ao assunto desde 1999 no Brasil e no MERCOSUL o IPOL - Instituto de Investigação e Desenvolvimento em Política Lingüística — com sede em Florianópolis, Brasil. Hoje temos pesquisas iniciadas na nossa linda UNIVERSIDADE FEDERAL DE SÃO CARLOS  e em tantos outros pontos.

Sociolinguística


Sociolinguística é o ramo da linguística que estuda a relação entre a língua e a sociedade.
Há três termos importantes para a sociolinguística que podem ser facilmente confundidos entre si:

Variedade - a variedade é o termo que corresponde, grosso modo, ao termo dialeto. Assim, por exemplo, os dialetos portugueses setentrionais podem ser sub-divididos em dialectos transmontanos e alto minhotos e ainda dialetos baixo-minhotos-durienses-beirões. A variedade standard é o padrão linguístico de uma comunidade. Sociolinguisticamente, é comum encontrar a variedade standard junto dos centro de decisão e de poder de uma comunidade. Assim, em Portugal, a variedade standard é a falada na região de Lisboa a Coimbra. Contudo, na comunidade linguística do Brasil a variedade standard está associada às variedades de várias capitais estaduais. Cada variedade linguística tem uma gramática própria igualmente válida. Dentro de cada variedade há tensões e grupos sociais com traços próprios. Dentro de cada varieade linguística há variação interna em função dos vários critérios: idade, sexo, escolaridade, etc.

Variante - o termo variante é utilizado nos estudos de sociolinguística para designar o item linguístico que é alvo de mudança. Assim, no caso de uma variação fonética, a variante é o alofone. Representa, portanto, as formas possíveis de realização. No entanto, na linguística geral, o termo variante dialetal é usado como sinónimo de dialeto.

Variável - a variável é o traço, forma ou construção linguística cuja realização apresenta variantes observadas pelo investigador.

Gerativismo

Noam Chomsky
O Gerativismo ou Teoria gerativa é uma tentativa de formalização dos fatos lingüísticos, aplicando um tratamento matemático preciso, explícito e finito às propriedades das línguas naturais.Isto é, a linguagem purista pode ser compreendida e com isso facilitar o aprendizado dos idiomas. Ele foi criado por Noam Chomsky, em oposição ao estruturalismo bloomfieldiano.
Ela foi denominada Gerativa exatamente por ser um sistema de regras e princípios formalizado ou explícito, o que significa que essas regras e princípios só podem ser operados sob condições específicas, sendo, no entanto, automaticamente aplicadas desde que satisfeitas essas condições podendo criar infinitas frases.
Nos estudos do Gerativismo, é dado ênfase no falante através de seu desempenho e competência. Competência é o conhecimento da língua que o falante tem armazenado em sua memória durante sua vida; Desempenho é a performance durante a fala, que resulta da competência do falante e de outros fatores como a ocasião social em que o falante se encontra.
O Gerativismo sucede o Estruturalismo, este com ênfase apenas na gramática apresentada nos textos e aquele tem o falante idealizado (competência e desempenho);
Atualmente, os estudos de "Linguística" tem por base um terceiro paradigma que sucede o Estruturalismo e o Gerativismo. Esse paradigma é a Pragmática onde o falante é o "sujeito" da ação e, defende a funcionalidade da língua e o que se denomina "gramática de uso". Nos estudos da Pragmática, a língua não é definida apenas como código com apenas o objetivo da comunicação, mas também como "interação" entre o falante e o interlocutor .

O estruturalismo


Ferdinand de Saussure
Ferdinand de Saussure é geralmente visto como o iniciador do estruturalismo, especificamente em seu livro de 1916 'Curso de Linguística Geral'. Ainda que Saussure fosse, assim como seus contemporâneos, interessado em linguísticas históricas, desenvolveu no Curso uma teoria mais geral de semiologia (estudo dos signos). Essa abordagem se concentrava em examinar como os elementos da linguagem se relacionavam no presente ('sincronicamente' ao invés de 'diacronicamente'). Assim ele focou não no uso da linguagem (o falar, ou a parole), mas no sistema subjacente de linguagem (idioma, ou a langue) do qual qualquer expressão particular era manifestação. Enfim, ele argumentou que sinais linguísticos eram compostos por duas partes, um 'significante' (o padrão sonoro da palavra, seja sua projeção mental - como quando silenciosamente recitamos linhas de um poema para nós mesmos - ou sua realização física como parte do ato de falar) e um 'significado' (o conceito ou o que aquela palavra quer dizer). Era totalmente diferente das abordagens anteriores à linguagem, que se focavam no relacionamento entre palavras e as coisas que elas denominavam no mundo. Concentrando-se na constituição interna dos sinais ao invés da sua relação com os objetos no mundo, Saussure fez da anatomia, estrutura da linguagem, algo que pode ser analisado e estudado.
O Curso de Saussure influenciou muitos linguistas no período entre a I e a II Grandes Guerras. Nos EUA, por exemplo, Leonard Bloomfield desenvolveu sua própria versão de linguística estrutural, assim como fez Louis Hjelmslev na Escandinávia. Na França, Antoine Meillet e Émile Benveniste continuariam o programa de Saussure. No entanto, ainda mais importante, membros da Escola de Linguística de Praga como Roman Jakobson e Nikolai Trubetzkoy conduziram pesquisas que seriam muito influentes.
O mais nítido e mais importante exemplo do estruturalismo da Escola de Praga encontra-se na fonética (estudo dos fonemas). Ao invés de simplesmente compilar uma lista dos sons que ocorrem num idioma, a Escola de Praga procurou examinar como elas se relacionavam. Determinaram que o catálogo de sons em um idioma poderia ser analisado em termos de uma série de contrastes.
Por exemplo, em inglês as palavras 'pat' e 'bat' são diferenciadas devido ao contraste de sons do /p/ e do /b/. A diferença entre eles é que as cordas vocais vibram enquanto se diz um /b/ e não vibram quando se diz um /p/. Também no inglês existe um contraste entre consoantes pronunciadas e não-pronunciadas. Analisar sons em termos de características contrastantes também abre um espaço comparativo - deixa claro, por exemplo, que a dificuldade que falantes japoneses têm em diferenciar o /r/ do /l/ no inglês deve-se ao fato de esses dois sons não serem contrastantes em japonês. Enquanto essa abordagem é agora padrão em linguística, foi revolucionária na época. A fonologia viria a tornar-se a base paradigmática para o estruturalismo num diferente número de formas.

Ling... o que?!

Linguística é o estudo científico da Linguagem. Um linguista é alguém que se dedica a esse estudo. A pesquisa linguística é feita por muitos especialistas que, geralmente, não concordam harmoniosamente sobre o seu conteúdo.

"A Linguística é a parte do conhecimento mais fortemente debatida no mundo acadêmico. Ela está encharcada com o sangue de poetas, teólogos, filósofos, filólogos, psicólogos, biólogos e neurologistas além de, não importa o quão pouco, qualquer sangue possível de ser extraído de gramáticos. "

Portanto, a função de um linguista é estudar toda e qualquer manifestação linguística como um fato merecedor de descrição e explicação dentro de um quadro científico adequado.
O linguista quer descobrir como a língua funciona, estudando várias dessas línguas, de forma empírica (através de dados baseados na experiência), dando preferência às variações populares faladas em diversas comunidades. Alternativamente, alguns chamam informalmente de linguista a uma pessoa versada ou conhecedora de muitas línguas, embora um termo mais adequado para este fim seja poliglota.
Os critérios de coleta, organização, seleção e análise dos dados linguísticos obedecem a uma teoria linguística expressamente formulada para esse fim.

Divisões da Lingüística, considerando o foco da análise:

  • Linguística Descritiva (ou sincrônica): Fala de uma língua, descrevendo-a simultaneamente no tempo, analisa as relações existentes entre os fatos linguísticos em um estado da língua, além de fornecer dados que confirmam ou não as hipóteses. Modernamente, ela cede lugar à Linguística Teórica, que constrói modelos teóricos, mais do que descreve;
  • Linguística História (ou diacrônica): Analisa as mudanças que a língua sofre através dos tempos, preocupando-se, principalmente, com as transformações ocorridas;
  • Linguística Teórica: Procura estudar questões sobre como as pessoas, usando suas linguagens, conseguem comunicar-se; quais propriedades todas as linguagens têm em comum; qual conhecimento uma pessoa deve possuir para ser capaz de usar uma linguagem e como a habilidade linguística é adquirida pelas crianças;
  • Linguística Aplicada: Utiliza conhecimentos da linguística para solucionar problemas, geralmente referentes ao ensino de línguas, à tradução ou aos distúrbios de linguagem.
  • Linguística Geral: Engloba todas as áreas, sem um detalhamento profundo. Fornece modelos e conceitos que fundamentarão a análise das línguas.
A linguística também faz conexões com outros domínios, como Psicolinguística, Sociolinguística, Neurolinguística, Geolinguística, entre outras, que explicaremos com maiores detalhes mais a frente.

Comunicação animal e linguagem humana

 Até aqui, todas as tentativas de observações sérias praticadas por animais falharam. Nem mesmo os animais que emitem algum som ou gritos variados parecem transmitir comportamentos dos quais possamos inferir que se transmitem mensagens "faladas". As condições fundamentais de uma comuniação propriamente linguística parecem faltar no mundo dos animais. Podemos dizer, no entanto, graças aos estudos que duraram por volta de trinta anos, de Karl von Frisch (Professor de Zoologia na Universidade de Munique), que as abelhas têm um modo de comunicar-se. As observações deste pesquisador nos permitem conhecer este modo de comunicação das abelhas. A primeira observação é que assim que a abelha que saiu da colméia, volta, é imediatamente rodeada por suas companheiras, e no meio daquela efervescência, elas estendem em sua direção as antenas para colher o pólen ou absorvem o néctar que vomita.É desse modo que conseguem distinguir o tipo de alimento que buscarão. Depois, executa danças. E é neste momento que dá-se a comunicação entre elas. Para cada movimento temos um significado diferente. A dança em círculos indica que o local do alimento deve estar próximo da colméia, num raio de, aproximadamente, cem metros. Já a outra dança, em oitos, indica que o alimento está em uma distância um pouco maior, além de cem metros até seis quilômetros. Quanto menos "oitos" ela fizer em relação a um tempo, maior será a distância. Também nestas danças temos, além da distância, a direção do alimento. Essa informação é dada no eixo do "oito" em direção ao sol. Inclinando para direita ou esquerda, esse eixo indica o ângulo que que o local da descoberta forma com o sol.
Todas essas informações nos fazer perceber que o fato consiste em, inicialmente, numa manifestação de aptidão para simbolizar: há uma correspondência entre seu comportamento e dado que traduz. Porém, não podemos dizer que esta é uma linguagem porque, primeiramente, ela não possui nenhum tipo de aparelho "vocal", que possa transmitir sonoramente suas informações, não sendo possível, assim, que se comuniquem a noite.  A linguagem humana não conhece essa limitação. Isso significa, também, que as abelhas não conhecem o diálogo, limitando-se apenas a transmitir uma  determinada mensagem. E são essas informações que nos permitem referir à essas mensagens como uma "comunicação" e não como linguagem.
 A linguagem humana é a capacidade de simbolização, dialogismo. Ela não é etiquetada, não reproduz sempre a mesma informação.

Somos "diferentes" :)

O "primeiro" post

Oi, pessoal! Estou aqui, pela segunda vez rs, na tentativa de manter o blog no ar! É que eu, nem sei como, exclui o anterior... Bom, mas (re)começando, este blog foi criado com a intenção de postar conteúdos das aulas ministradas pelo Prof. Dr. Roberto Baronas, além de outros conteúdos relacionados à nossa área (da linda Linguística!). Nos posts que se seguem vocês entenderão melhor do que se trata nossa profissão, suas áreas de atuação e, claro, um pouco de história..

=]