NLP e Língua Portuguesa

Posted: November 24th, 2009 | Author: sofia | Filed under: curious | Tags: , , | 1 Comment »

Desde há algum tempo que tenho alguma curiosidade sobre NLP (natural language processing) tanto a nível teórico (como funcionam os algoritmos que usam) como a nivel prático. Não existe por exemplo, um serviço semelhante ao Apture para português. Assim, derivados das minhas pesquisas aqui vão alguns links que achei interessantes:

LXSuite - um conjunto de webservices para a análise linguística de texto desenvolvido pela Universidade Lisboa. Na LxSuite estão todos juntos mas podem ser vistos em separado no LxCenter. Infelizmente, o serviço não tem api e é necessário consentimento para o seu uso.

LXService:  Web Services of Language Technology for Portuguese - artigo a descrever o desenvolvimento dos webservices acima.

Linguateca - todo um conjunto de recursos de NLP para a língua portuguesa. O HAREM - NER for portuguese e respectivo livro está aqui. Eles também disponibilizam vários corpus para português aqui, inclusivé o CETEMPúblico (disponível para download gratuitamente).

Portuguese Language Processing Service - um artigo sobre o desenvolvimento dum conjunto de webservices de NLP para língua portuguesa desenvolvido no Brasil. De acordo com os próprios:

In this paper, we describe F-EXT-WS, a Portuguese Language Processing Service that is now available at the Web. The first version of this service provides Part-of-Speech Tagging, Noun Phrase Chunking and Named Entity Recognition. All these tools were built with the Entropy Guided Transformation Learning algorithm, a state-of-the-art Machine Learning algorithm for such tasks.

Este artigo parece interessante e pode ser um ponto de partida para outras explorações (ex. ETL/Entropy Guided Transformation Learning - ver Portuguese corpus-based learning using ETL). Fui ver o F-EXT-WS mas é necessário registo e deu erro.

Alguém conhece outros recursos interessantes dentro desta àrea?