Buscador Online CINTIL-Treebank

Desenvolvido na Universidade de Lisboa, Departamento de Informática, pelo NLX-Grupo de Fala e Linguagem Natural.


buscador    |    intro    |    conteúdo    |    como usar

Conteúdo


Índice

Constituição do treebank

O CINTIL-Treebank é um corpus de árvores sintácticas de constituência e de dependência, composto maioritariamente por frases do CINTIL-Corpus Internacional do Português anotadas com a respectiva árvore sintáctica. Este treebank está a ser desenvolvido e mantido na Universidade de Lisboa pelo NLX-Grupo de Fala e Linguagem Natural do Departamento de Informática.

O CINTIL-Treebank encontra-se em construção e é composto por 35499 frases. O treebank é composto por frases do corpus CINTIL (retiradas de artigos de imprensa) e de frases pertencentes ao corpus de controle de regressão da gramática LXGram.

Gramática computacional associada

As frases do treebank foram anotadas por uma equipa de especialistas com pós-graduação em Linguística segundo a metodologia "múltipla anotação independente, seguida de adjudicação". As árvores sintácticas escolhidas para anotar as frases foram produzidas pela LXGram, uma gramática computacional para o processamento linguístico profundo do Português. Está a ser desenvolvida de acordo com os seguintes objectivos:

Linhas guia de anotação

O treebak foi concebido de acordo com os princípios descritos nos seguintes manuais:

Branco António, João Silva, Francisco Costa, Sérgio Castro, 2011, CINTIL TreeBank Handbook: Design options for the representation of syntactic constituency. Department of Informatics, University of Lisbon, Technical Reports series, nb. di-fcul-tp-11-02.

Branco António, Sérgio Castro, João Silva, Francisco Costa, 2011, CINTIL DepBank Handbook: Design options for the representation of grammatical dependencies. Department of Informatics, University of Lisbon, Technical Reports series, nb. di-fcul-tr-11-03.

Conjunto de etiquetas

Etiquetas Lexicais e Sintagmáticas

Etiqueta
Descrição
A
Adjectivo
AP
Sintagma Adjectival
ADV
Advérbio
ADVP
Sintagma Adverbial
C
Complementador
CP
Sintagma Complementador
CARD
Cardinal
CONJ
Conjução
CONJP
Sintagma Conjuncional
D
Determinante
DEM
Demonstrativo
N
Nome
NP
Sintagma Nominal
P
Preposição
PP
Sintagma Preposicional
POSS
Possessivo
QNT
Quantificador
S
Frase
V
Verbo
VP
Sintagma Verbal

Etiquetas Lexicais de granularidade fina

EtiquetaCategoriaExemplos
ADJAdjectivosbom, brilhante, eficaz, …
ADVAdvérbioshoje, já, sim, felizmente, …
CARDCardinaiszero, dez, cem, mil, …
CJConjunçõese, ou, tal como, …
CLClíticoso, lhe, se, …
CNNomes comunscomputador, cidade, ideia, …
DAArtigos Definidoso, os, …
DEMDemonstrativoseste, esses, aquele, …
DFRDenominadores de Fracçõesmeio, terço, décimo, %, …
DGTRNumerais RomanosVI, LX, MMIII, MCMXCIX, …
DGTNumerais Árabes0, 1, 42, 12345, 67890, …
DMMarcadores Discursivosolá, …
EADREndereços Electrónicoshttp://www.di.fc.ul.pt, …
EOEFim de Enumeraçãoetc
EXCExclamaçãoah, ei, …
GERGerúndiossendo, afirmando, vivendo, …
GERAUXGerúndio "ter"/"haver" em tempos compostostendo, havendo
IAArtigos Indefinidosuns, umas, …
INDIndefinidostudo, alguém, ninguém, …
INFInfinitivoser, afirmar, viver, …
INFAUXInfinitivo "ter"/"haver" em tempos compostoster, haver, …
INTInterrogativosquem, como, quando, …
ITJInterjecçõesbolas, caramba, …
LTRLetrasa, b, c, …
MGTUnidade de Medidaunidade, dezena, dúzia, resma, …
MTHMesesJaneiro, Dezembro, …
NPSintagmas Nominaisidem, …
ORDOrdinaisprimeiro, centésimo, penúltimo, …
PADRParte de EndereçoRua, av., rot., …
PNMParte de NomeLisboa, António, João, …
PNTPontuação., ?, (, …
POSSPossessivosmeu, teu, seu, …
PPAParticípios passados que não formam tempos compostossido, afirmados, vivida, …
PPSintagmas Preposicionaisalgures, …
PPTParticípios passados em tempos compostossido, afirmado, vivido, …
PREPPreposiçõesde, para, em redor de, …
PRSPronomes Pessoaiseu, tu, ele, …
QNTQuantificadorestodos, muitos, nenhum, …
RELRelativosque, cujo, tal que, …
STTTítulos SociaisPresidente, drª., prof., …
SYBSímbolos@, #, &, …
TERMNTerminações Opcionais(s), (as), …
UM"um" ou "uma"um, uma
UNITUnidade de Medida Abreviadakg., km., …
VAUXFormas Finitas de "ter" ou "haver" em tempos compostostemos, haveriam, …
VVerbos (sem ser PPA, PPT, INF ou GER)falou, falaria, …
WDDias da Semanasegunda, terça-feira, sábado, …
Etiquetas para locuções
LADV1…LADVnLocuções Adverbiaisde facto, em suma, um pouco, …
LCJ1…LCJnLocuções Conjuncionaisassim como, já que, …
LDEM1…LDEMnLocuções Demonstrativaso mesmo, …
LDFR1…LDFRnLocuções Denominadoras de Fracçõespor cento
LDM1…LDMnLocuções Marcadoras Discursivaspois não, até logo, …
LITJ1…LITJnLocuções Interjectivasmeu Deus
LPRS1…LPRSnLocuções Pronominais Pessoaisa gente, si mesmo, V. Exa., …
LPREP1…LPREPnLocuções Prepositivasatravés de, a partir de, …
LQD1…LQDnLocuções Quantificadorasuns quantos, …
LREL1…LRELnLocuções Pronominais Relativastal como, …
Etiquetas específicas do corpus oral
EMPEnfático
ELExtra-linguístico
PLPara-linguístico
FRGFragmento

Etiquetas de Flexão

EtiquetaDescrição
Etiquetas para categorias nominais
mMasculino
fFeminino
sSingular
pPlural
dimDiminutivo
supSuperlativo
compComparativo
Etiquetas para verbos
1Primeira Pessoa
2Segunda Pessoa
3Terceira Pessoa
piPresente do Indicativo
ppiPretérito Perfeito do Indicativo
iiPretérito Imperfeito do Indicativo
mpiPretérito Mais que Perfeito do Indicativo
fiFuturo do Indicativo
cCondicional
pcPresente do Conjuntivo
icPretérito Imperfeito do Conjuntivo
fcFuturo do Conjuntivo
impImperativo
Etiquetas para verbos no infinitivo
iflCom Flexão
niflSem Flexão

Etiquetas de Funções Gramaticais

Etiqueta
Descrição
C
Complemento
DO
Objecto Directo
IO
Objecto Indirecto
M
Modificador
N
Relação de palavras de nome próprio
OBL
Complemento Oblíquo
PRD
Predicador
SJ
Sujeito
SP
Especificador

Etiquetas Semânticas

Etiqueta
Descrição
ADV
Adverbial
ARG1
Primeiro Argumento
ARG2
Segundo Argumento
ARGA
Agente causativo de verbos com alternância causativa
CAU
Causa
DIR
Direcção
EXT
Extensão
LOC
Localização
MNR
Modo/Maneira
NULL
Nulo
PNC
Objectivo/Propósito
POV
Ponto de Vista
PRD
Predicação secundária
TMP
Tempo