Buscador Online CINTIL-Treebank

Desenvolvido na Universidade de Lisboa, Departamento de Informática, pelo NLX-Grupo de Fala e Linguagem Natural.


buscador    |    intro    |    conteúdo    |    como usar

Introdução


Índice

Buscador Online do CINTIL-Treebank

O Buscador Online do CINTIL-Treebank (versão beta) é um serviço online gratuito para a busca e visualização das árvores constituência e de dependência do CINTIL-Treebank. Este serviço foi desenvolvido e é mantido na Universidade de Lisboa pelo NLX-Grupo de Fala e Linguagem Natural do Departamento de Informática.

O Buscador Online do CINTIL-Treebank permite a utilização de padrões estruturais genéricos de árvores sintácticas de forma a se encontrar no treebank aquelas árvores que se conformam a esses padrões. Este serviço é uma ferramenta de pesquisa robusta que permite encontrar estruturas linguísticas de grande complexidade.

Clique aqui para saber como usar o Buscador Online CINTIL-Treebank.

O CINTIL-Treebank

O CINTIL-Treebank é um corpus de árvores sintácticas de constituência, composto maioritariamente por frases do CINTIL-Corpus Internacional do Português anotadas com a respectiva árvore sintáctica. Este treebank está a ser desenvolvido e mantido na Universidade de Lisboa pelo NLX-Grupo de Fala e Linguagem Natural do Departamento de Informática.

A anotação do CINTIL-Treebank é realizada de acordo com a metodologia de anotação que é tida na literatura como assegurando a melhor confiabilidade no resultado obtido, e que é conhecida por "múltipla anotação independente, seguida de adjudicação". Cada frase é analisada automaticamente pela LXGram, uma gramática computacional para o processamento linguístico profundo do Português. Das análises gramaticais obtidas, dois anotadores escolhem, de modo independente um do outro, a análise que consideram ser correcta. De seguida, nos casos em que se verificar divergência de anotação, a frase receberá a análise decidida por um adjudicador. Os anotadores e os adjudicadores são especialistas com formação superior pós-graduada em Linguística.

O CINTIL-Treebank encontra-se em desenvolvimento e é composto por 35499 frases. O treebank é composto por frases do corpus CINTIL-Corpus Internacional do Português (retiradas de artigos de imprensa) e de frases pertencentes ao corpus de controle de regressão da gramática LXGram.

Adquirir o CINTIL-Treebank

O CINTIL-Treebank será em breve distribuído através da ELDA-Evaluation and Language Resources Distribution Agency. As informações sobre como adquiri-lo serão disponibilizadas aqui.

Autoria

O Buscador Online do CINTIL-Treebank está a ser desenvolvido por Patrícia Gonçalves, sob a coordenação de António Branco, no NLX-Grupo de Fala e Linguagem Natural, tendo sido parcialmente financiado pela FCT-Fundação para a Ciência e a Tecnologia.

Referência

O CINTIL-Treebank é descrito na seguinte publicação:

Branco, António, Francisco Costa, João Silva, Sara Silveira, Sérgio Castro, Mariana Avelãs, Clara Pinto and João Graça, 2010, "Developing a Deep Linguistic Databank Supporting a Collection of Treebanks: the CINTIL DeepGramBank ", In Proceedings, LREC2010 - The 7th international conference on Language Resources and Evaluation, La Valleta, Malta, May 19-21, 2010.

Ao se referrin ao CINTIL-Treebank ou ao presente serviço online CINTIL-Treeban Searcher, queira por favor usar esta referência.

Contactos

Pode contactar-nos para o seguinte endereço de correio electrónico: 'nlx' seguido de '@' seguido de 'di.fc.ul.pt'.

Agradecimentos

O Buscador Online do CINTIL-Treebank foi parcialmente financiado pela FCT-Fundação para a Ciência e a Tecnologia, no âmbito do contrato FCT/PTDC/PLP/81157/2006 para o projecto SemanticShare.
O Buscador utiliza biblioteca Tregex disponibilizada pelo grupo de pesquisa em Linguagem Natural da Universidade de Stanford.