LX Dep

Desenvolvido na Universidade de Lisboa, Departamento de Informática, pelo NLX-Grupo de Fala e Linguagem Natural.


LX DepParser    |    características    |    english version

 

 

Características


Índice

LX-DepParser

O LX-DepParser (versão beta) é um serviço online gratuito para a análise sintáctica de frases do Português. Este serviço permite a análise sintáctica automática de frases do português em termos das suas funções gramaticais.

Este serviço foi desenvolvido e é mantido na Universidade de Lisboa pelo NLX-Grupo de Fala e Linguagem Natural do Departamento de Informática.

Parser

O LX-DepParser é um MSTParser treinado com frases em língua portuguesa.

Foram utilizadas 22.118 frases no treino do parser, contendo 250.056 ocorrências de palavras. As frases têm origem no CINTIL-Treebank. Este recurso está a ser desenvolvido e mantido na Universidade de Lisboa pelo NLX-Grupo de Fala e Linguagem Natural do Departamento de Informática. No que toca à avaliação do LX-DepParser, o seu UAS (unlabeled attachment score) é de 94.42 e o seu LAS (labeled attachment score) é de 91.23.

Conjunto de Etiquetas

Etiquetas categoriais de maior granularidade

Etiqueta
Descrição
A
Adjectivo
AP
Sintagma Adjectival
ADV
Advérbio
ADVP
Sintagma Adverbial
C
Complementador
CP
Sintagma Complementador
CARD
Cardinal
CONJ
Conjução
CONJP
Sintagma Conjuncional
D
Determinante
DEM
Demonstrativo
N
Nome
NP
Sintagma Nominal
P
Preposição
PP
Sintagma Preposicional
POSS
Possessivo
QNT
Quantificador
S
Frase
V
Verbo
VP
Sintagma Verbal

Etiquetas categoriais de granularidade fina

EtiquetaCategoriaExemplos
ADJAdjectivosbom, brilhante, eficaz, …
ADVAdvérbioshoje, já, sim, felizmente, …
CARDCardinaiszero, dez, cem, mil, …
CJConjunç õese, ou, tal como, …
CLClíticoso, lhe, se, …
CNNomes comunscomputador, cidade, ideia, …
DAArtigos Definidoso, os, …
DEMDemonstrativoseste, esses, aquele, …
DFRDenominadores de Fracçõesmeio, terço, décimo, %, …
DGTRNumerais RomanosVI, LX, MMIII, MCMXCIX, …
DGTNumerais árabes0, 1, 42, 12345, 67890, …
DMMarcadores Discursivosolá, …
EADREndereços Electrónicoshttp://www.di.fc.ul.pt, …
EOEFim de Enumeraçãoetc
EXCExclamaç ãoah, ei, …
GERGerúndiossendo, afirmando, vivendo, …
GERAUXGerúndio "ter"/"haver" em tempos compostostendo, havendo
IAArtigos Indefinidosuns, umas, …
INDIndefinidostudo, alguém, ninguém, …
INFInfinitivoser, afirmar, viver, …
INFAUXInfinitivo "ter"/"haver" em tempos compostoster, haver, …
INTInterrogativosquem, como, quando, …
ITJInterjecçõesbolas, caramba, …
LTRLetrasa, b, c, …
MGTUnidade de Medidaunidade, dezena, dúzia, resma, …
MTHMesesJaneiro, Dezembro, …
NPSintagmas Nominaisidem, …
ORDOrdinaisprimeiro, centésimo, penúltimo, …
PADRParte de EndereçoRua, av., rot., …
PNMParte de NomeLisboa, António, João, …
PNTPontuação., ?, (, …
POSSPossessivosmeu, teu, seu, …
PPAParticípios passados que não formam tempos compostossido, afirmados, vivida, …
PPSintagmas Preposicionaisalgures, …
PPTParticípios passados em tempos compostossido, afirmado, vivido, …
PREPPreposiçõesde, para, em redor de, …
PRSPronomes Pessoaiseu, tu, ele, …
QNTQuantificadorestodos, muitos, nenhum, …
RELRelativosque, cujo, tal que, …
STTTítulos SociaisPresidente, drª., prof., …
SYBSímbolos@, #, &, …
TERMNTerminações Opcionais(s), (as), …
UM"um" ou "uma"um, uma
UNITUnidade de Medida Abreviadakg., km., …
VAUXFormas Finitas de "ter" ou "haver" em tempos compostostemos, haveriam, …
VVerbos (sem ser PPA, PPT, INF ou GER)falou, falaria, …
WDDias da Semanasegunda, terça-feira, sábado, …
Etiquetas para locuções
LADV1…LADVnLocuções Adverbiaisde facto, em suma, um pouco, …
LCJ1…LCJnLocuções Conjuncionaisassim como, já que, …
LDEM1…LDEMnLocuções Demonstrativaso mesmo, …
LDFR1…LDFRnLocuções Denominadoras de Fracçõespor cento
LDM1…LDMnLocuções Marcadoras Discursivaspois não, até logo, …
LITJ1…LITJnLocuções Interjectivasmeu Deus
LPRS1…LPRSnLocuções Pronominais Pessoaisa gente, si mesmo, V. Exa., …
LPREP1…LPREPnLocuções Prepositivasatravés de, a partir de, …
LQD1…LQDnLocuções Quantificadorasuns quantos, …
LREL1…LRELnLocuções Pronominais Relativastal como, …
Etiquetas específicas do corpus oral
EMPEnfático
ELExtra-linguístico
PLPara-linguístico
FRGFragmento

Etiquetas de flexão

EtiquetaDescrição
Etiquetas para categorias nominais
mMasculino
fFeminino
sSingular
pPlural
dimDiminutivo
supSuperlativo
compComparativo
Etiquetas para verbos
1Primeira Pessoa
2Segunda Pessoa
3Terceira Pessoa
piPresente do Indicativo
ppiPretérito Perfeito do Indicativo
iiPretérito Imperfeito do Indicativo
mpiPretérito Mais que Perfeito do Indicativo
fiFuturo do Indicativo
cCondicional
pcPresente do Conjuntivo
icPretérito Imperfeito do Conjuntivo
fcFuturo do Conjuntivo
impImperativo
Etiquetas para verbos no infinitivo
iflCom Flexão
niflSem Flexão

Etiquetas de Funções Gramaticais

Etiqueta
Descrição
ROOT
Raiz da Frase
C
Complemento
CARD
Cardinal
CONJ
Conjução
COORD
Coordination
DO
Objecto Directo
IO
Objecto Indirecto
M
Modificador
N
Relação de palavras de nome próprio
OBL
Complemento Oblíquo
PRD
Predicador
SJ
Sujeito
SJac
Sujeito anti causativo ou inacusativo
SJcp
Sujeito de predicado complexo
SP
Especificador
PUNCT
Pontuação
DEP
Dependência

Linhas guia de anotação

As análises produzidas pelo LX-DepParser são semelhantes às representações de dependência presentes no treebank de dependências sobre o qual o LX-DepParser foi treinado. Este treebank de dependências foi anotado de acordo com os princí­pios descritos no seguinte manual:

Branco António, Sérgio Castro, João Silva, Francisco Costa, 2011, CINTIL DepBank Handbook: Design options for the representation of grammatical dependencies. Department of Informatics, University of Lisbon, Technical Reports series, nb. di-fcul-tr-11-03.

Autoria

O LX-DepParser está a ser desenvolvido por Rúben Reis, sob a coordenação de António Branco, no NLX-Grupo de Fala e Linguagem Natural.

Contactos

Pode contactar-nos para o seguinte endereço de correio electrónico: 'nlx' seguido de '@' seguido de 'di.fc.ul.pt'.

Agradecimentos

O LX-DepParser foi parcialmente financiado pela FCT-Fundação para a Ciência e a Tecnologia, no âmbito do contrato FCT/PTDC/PLP/81157/2006 para o projecto SemanticShare.