Buscador Online CINTIL-Treebank

Desenvolvido na Universidade de Lisboa, Departamento de Informática, pelo NLX-Grupo de Fala e Linguagem Natural.


buscador    |    intro    |    conteúdo    |    como usar

Como Usar


Índice

Interface

O interface do Buscador Online do CINTIL-Treebank é de uso simples e transparente.

(1) Para ajudá-lo temos 3 exemplos distribuídos por níveis de dificuldade: simples, complexo e avançado.

(2) Há uma caixa de texto onde deverá ser digitado o padrão sintáctico que deseja pesquisar.

(3) Pode-se marcar a opção "Mostrar traços" e as árvores serão mostradas com etiquetas de Part-of-Speach antes das palavras.

(4) É possível escolher o número de resultados por resposta, podendo variar de 1 no mínimo a 20 no máximo frases.

(5) Quando a pesquisa devolve os resultados há os botões de navegação que são setas que devem ser usados para procurar os próximos resultados.

(6) Para visualizar a árvore basta posicionar o cursor sob a frase desejada e clicar.

(7) A árvore sintáctica correspondente à frase desejada irá aparecer logo abaixo.

(8) A árvore de dependêcia correspondente à frase desejada irá aparecer logo abaixo da árvore sintáctica.




Pesquisar por Etiquetas Linguísticas

Para iniciar a pesquisa por etiquetas linguísticas devemos conhecer as etiquetas e a sintaxe de consulta.
As informações sobre as etiquetas usadas na anotação do CINTIL-Treebank estão disponíveis aqui.
Na tabela abaixo apresentamos a sintaxe e os símbolos usados para pesquisa nas árvores sintácticas. Nas consultas com base nas etiquetas devem-se utilizar sempre letras maiúsculas.

Símbolo
Significado
Exemplo
    A << B    
A domina B
NP << N
A >> B
A é dominado por B
V >> VP
A < B
A domina imediatamente B
PP < P
A > B
A é imediatamente dominado por B
CONJ > NP
A $ B
A é irmão de B
NP $ CONJ
A .. B
A precede B
P .. POSS-M
A . B
A precede imediatamente B
CONJ . VP
A ,, B
A segue B
CARD ,, VP
A , B
A segue imediatamente B
D-SP , NP-C
A <<, B
B é o descendente mais à esquerda de A
VP <<, P
A <<- B
B é o descendente mais à direita de A
PP <<- N
A >>, B
A é o descendente mais à esquerda de B
ADV >>, S
A >>- B
A é o descendente mais a direita de B
S >>- VP
A <, B
B é o primeiro filho de A
PP <, P
A >, B
A é o primeiro filho de B
V >, VP
A <- B
B é o último filho de A
PP <- NP-C
A >- B
A é o ultimo filho de B
CARD >- D-SP
A <i B
B é o enésimo filho de A
NP-C <1 D-SP
A >i B
A é o enésimo filho de B
ADV >1 ADVP
A <: B
B é o único filho de A
NP-C <: N
A >: B
A é o único filho de A
N >: NP
A <<# B
B é o núcleo do sintagma A
    D-SP <<# CARD    
A <# B
B é imediatamente o núcleo do sintagma A
NP <# N
@A
Todas etiquetas que contenham a string A
@NP



Pesquisa de padrões regulares

É possível fazer pesquisas no treebank através da utilização de expressões regulares. A pesquisa no Buscador Online do CINTIL-Treebank segue os símbolos usuais estabelecidos para este tipo de pesquisa:

Alternância
Pesquisas alternativas são marcadas com uma barra vertical: |
  • NP|VP dá como resultado todas as árvores sintácticas com sintagmas verbais ou sintagmas nominais.

Iteração
Para usar a iteração deve-se usar os operadores .* (ponto e asterisco) faz com que o carácter ou expressão que o precede seja realizado zero ou mais vezes, é indispensável colocar a expressão entre barras /:
  • /NP.*/ dá como resultado todas as árvores sintácticas em que a etiqueta inicie por NP, por exemplo: NP, NP-C, NP-M e NP-SJ.

Delimitadores
Para delimitar o início e o fim de alguma etiqueta podemos usar os caracteres especiais ^ e $. Esse tipo de pesquisa é útil quando se deseja procurar árvores sintácticas com uma composição de etiquetas gramaticais e papéis semânticos. É indispensável colocar a expressão entre barras /:
  • /^NP.*.ARG1$/ dá como resultado todas as árvores sintácticas em que a etiqueta se inicia por NP e que tenha qualquer outra etiqueta no meio mas obrigatoriamente termine com a etiqueta ARG1, indicando o papel semântico de Primeiro Argumento, por exemplo: NP-DO-ARG1 e NP-SJ-ARG1.

Pesquisar Palavras

As pesquisas podem também ser realizadas nas folhas das árvores onde estão as palavras.
Para se pesquisar determinada palavra podes-se digitá-la na caixa de texto de pesquisa. Por exemplo:

Clique no botão "Pesquisar" e logo a seguir todas as frases onde existe a palavra desejada irão aparecer abaixo.
A pesquisa por palavras está associada ao padrão em que ela se encontra no treebank, podendo estar escrita usando letra minúscula, maiúscula ou usando maiúscula e minúscula.
Para se melhorar os resultados, a pesquisa deve contemplar as diferentes formas de escrita, como demonstra a imagem abaixo:


Pesquisar por identificador da frase

Todas as frases do Buscador Online do CINTIL-Treebank possuem um identificador único que é mostrado ao utilizador juntamente com as respostas.
Esse identificador serve para procura rápida e posterior quando alguma frase anteriormente selecionada na pesquisa venha a servir de exemplo.
Para realizar a pesquisa pelo identificador da frase, deve-se anotar o número correspondente devolvido na resposta. A pesquisa é então feita usando a palavra "ID:", como mostra o exemplo a seguir:

Desta forma, a frase com identificador número 9 será selecionada e apresentada como resposta. Para visualizar a árvore sintáctica basta clicar na frase.

Pesquisa Invertida

A consulta online no Buscador Online do CINTIL-Treebank disponibiliza uma opção para busca por árvores que não contenham determinado padrão.
Para realizar a pesquisa invertida é necessário acrescentar a palavra "INV" seguida de dois pontos ":" e logo em seguida serão devolvidas frases onde o padrão solicitado não foi encontrado, como mostra o exemplo abaixo:

Desta forma, todas frases que não possuem sintagmas verbais serão apresentadas no ecrã como resultado. Para visualizar a árvore sintáctica basta clicar na frase.