Desenvolvido na
Universidade de Lisboa, Departamento de Informática, pelo
NLX-Grupo de Fala e Linguagem Natural.
características
|
english version
Características
Índice
LX-Lem
O LX-Lem (versão beta) é um serviço online gratuito para a lematização exaustiva de verbos portugueses. Foi desenvolvido e é mantido pelo
NLX-Grupo de Fala e Linguagem Natural da
Universidade de Lisboa,
Departamento de Informática.
Talvez seja também do seu interesse experimentar o
LX-Suite, um serviço online de processamento superficial do português.
Características
O LX-Lem toma uma forma verbal e apresenta os lemas correspondentes (infinitivos) juntamente com os valores para os traços de flexão.
à data do início de funcionamento (Novembro de 2005), é o primeiro serviço online gratuito para a lematização verbal do português em todos os seus pormenores.
Inclui:
- Conjugação pronominal
O sistema de flexão verbal português apresenta um grande número de formas para cada verbo
(cerca de 70 para a conjugação não pronominal), faz uso de um grande número de regras flexionais produtivas e de formas
irregulares assim como de excepções a essas regras.
Esta complexidade aumenta quando se leva em consideração a chamada conjugação pronominal.
Em português existem clíticos verbais, que de acordo com alguns autores devem ser analisados como integrando
o sistema de flexão:
- a forma dos clíticos depende do Número (Singular vs. Plural),
da Pessoa (Primeira, Segunda, Terceira ou Segunda de cortesia), do Género (Masculino vs. Feminino), da sua função gramatical
(Sujeito, Complemento directo ou Complemento indirecto) e das suas propriedades anafóricas (Pronominal vs.
Reflexo);
- a uma mesma forma verbal, podem estar associados até três clíticos (ex.: deu-se-lho);
- os clíticos podem ocorrer em ênclise, isto é, à direita da forma verbal (ex.: deu-o), ou em mesóclise,
isto é, no meio da forma verbal (ex.: dá-lo-ia).
Em algumas variantes, quando a forma verbal ocorre em certos contextos sintácticos ou semânticos (ex.: no âmbito da negação),
os clíticos surgem em próclise, ou seja, antes do verbo (ex.: não o deu);
- a concatenação dos clíticos segue regras específicas.
A conjugação pronominal é tratada exaustivamente pelo LX-Lem. Os verbos podem ser lematizados também na forma não pronominal.
Para além disto, o LX-Lem lida exaustivamente com um conjunto de casos que tendem a não ser contemplados
na sua totalidade pelos conjugadores verbais:
- Tempos compostos
- Formas duplas de particípios passados (regular e irregular)
- Formas de particípio passado flexionadas em género e número
- Formas negativas do imperativo
- Formas de segunda pessoa de cortesia
O LX-Lem suporta tanto verbos conhecidos como desconhecidos. Assim, lematiza:
- Neologismos (com terminação ortográfica)
Vale também a pena mencionar os seguintes princípios de design, que o LX-Lem adopta para os chamados
verbos defectivos:
- Defectivos
Não foram seguidas algumas assunções infundadas da gramática tradicional segundo as quais muitas formas verbais
não existem ou não devem ser utilizadas porque soam estranhas ou porque o seu uso é semanticamente muito
restrito.
Por esta razão, e para dar um exemplo, todas as formas dos verbos meteorológicos são lematizadas, uma vez que estes podem
sempre ser usadas pelo menos não literalmente.
Para dar outro exemplo, todas as formas de verbos como falir são lematizadas.
- Casos especiais
O LX-Lem assume no entanto que algumas formas verbais são de facto impossíveis (p. ex., as do Imperativo de verbos como
querer: *quer tu) e que certas combinações com clíticos também o são
(por ex., clíticos de segunda pessoa não de cortesia com formas verbais de segunda pessoa de cortesia, ambas com o mesmo número:
*você ama-te).
Entre os restantes casos especiais, também não lematizados, encontram-se o se impessoal e o se passivo, que
não ocorrem com formas verbais de primeira ou segunda pessoa.
O LX-Lem lida com os poucos casos em que pode haver formas diferentes em diferentes variantes da língua portuguesa:
- Diferenças ortográficas e paradigmáticas
Quando um dado verbo, flexionado com um dado conjunto de traços, tem representações ortográficas diferentes, todas essas representações são lematizadas.
Para dar um exemplo, são lematizadas tanto argui (português europeu) como argüi (português do Brasil).
- Outros casos
As diferenças em formas irregulares são tratadas do mesmo modo. Um exemplo é o particípio passado de aceitar, sendo
aceite (português europeu) e aceito (português do Brasil) ambos lematizados para aceitar.
é de notar que em geral o LX-Lem atribui diferentes lemas para diferentes formas verbais que são porém semanticamente idênticas e com os mesmos traços de flexão quando tais lemas
podem ser previstas a partir da forma verbal (introduzida pelo utilizador). Por exemplo, todos os lemas começarão ou por act- ou por at- consoante o utilizador tenha introduzido actuou (português europeu) ou atuou
(português do Brasil) para lematização.
Com o objectivo de optimizar a usabilidade, o LX-Lem adopta o seguinte esquema quanto à posição dos clíticos:
- Colocação dos clíticos
As variantes do português podem divergir quanto à ordem relativa entre as formas clíticas e as formas verbais. Em algumas variantes,
por ex. na brasileira, em regra os clíticos ocorrem invariavelmente à esquerda da forma verbal (em próclise), enquanto noutras, por ex. na
europeia, os clíticos podem aparecer à esquerda ou à direita (ênclise) do verbo, ou ainda em posição medial (mesóclise), dependendo do contexto
onde a forma verbal ocorre. Para preservar a usabilidade do lematizador, as formas verbais pronominais podem ser introduzidas de acordo com qualquer variante.
Autoria
O LX-Lem está a ser desenvolvido por
António Branco e
Filipe Nunes, com a ajuda de Francisco Costa, do
NLX-Grupo de Fala e Linguagem Natural, da
Universidade de Lisboa, Departamento de Informática.
Agradecimentos
O trabalho conducente ao LX-Lem foi apoiada em parte
pela FCT-Fundação para a Ciência e Tecnologia através do contrato
POSI/PLP/47058/2002 relativo ao projecto TagShare.
Publicações
Branco, António, Filipe Nunes and João Silva, 2006, Verb Analysis in an Inflective Language: Simpler is better, Internal report, University of Lisbon,
Department of Informatics.
Branco, António, Francisco Costa and Filipe Nunes, 2006,
Processing of Verb Inflectional Ambiguity: Towards a Problem Space Delimitation, Internal report, University of Lisbon,
Department of Informatics.
Contacto
Para contacto, usar o endereço de e-mail: 'nlxgroup' concatenado com '@'
concatenado com 'di.fc.ul.pt'.
Porquê o LX-Lem?
LX porque Lx é o diminutivo que os lisboetas gostam de usar para se referir à sua cidade.