Concordanciador CINTIL online

Desenvolvido na Universidade de Lisboa pelo NLX/FCUL e pelo CLUL


concordanciador    |    introdução    |    conteúdo    |    como usar    |    obter    |    english version

Introdução


Índice

Concordanciador CINTIL online

O concordanciador CINTIL online (versão beta) é um serviço online gratuito de extracção de concordâncias para a pesquisa linguística do Corpus CINTIL. Este concordanciador foi desenvolvido e é mantido na Universidade de Lisboa pelo Grupo NLX-Natural Language and Speech do Departamento de Informática, em cooperação com o Grupo REPORT do CLUL-Centro de Linguística da Universidade de Lisboa.

O concordanciador CINTIL permite a utilização de padrões genéricos de forma a especificar as ocorrências a pesquisar. Este serviço é uma ferramenta de pesquisa robusta que permite encontrar estruturas linguísticas de grande complexidade.

Como usar o concordanciador?

Pode também utilizar outras ferramentas associadas.

O Corpus CINTIL

O CINTIL-Corpus Internacional do Português é um corpus do português, anotado com informação linguística. O corpus contém actualmente 1 milhão de palavras anotadas, tendo a anotação sido manualmente verificada por especialistas. A anotação inclui informação sobre a classe morfo-sintáctica, sobre o lema e a flexão das classes abertas, sobre locuções pertencentes à classe dos advérbios e às classes fechadas, e sobre nomes próprios multi-palavra (para o reconhecimento de entidades nomeadas).

Este corpus está a ser desenvolvido e mantido na Universidade de Lisboa pelo Grupo REPORT do CLUL-Centro de Linguística da Universidade de Lisboa em cooperação com o Grupo NLX-Natural Language and Speech do Departamento de Informática. Este é o primeiro corpus deste tipo desenvolvido para o português no que diz respeito ao tamanho, à profundidade da anotação linguística, à variedade de géneros e de tipos de textos, e ao nível de correcção da anotação. Esta primeira versão é o mais recente resultado de um trabalho em curso que tem como objectivo alargar e melhorar o corpus, em todas as suas dimensões, de forma a providenciar um recurso de alto nível para a investigação em Linguística do português e para o desenvolvimento das tecnologias da linguagem.

Conteúdo do corpus

Adquirir o CINTIL

O Corpus CINTIL é distribuído através da ELDA-Evaluation and Language Resources Distribution Agency. As informações sobre como adquiri-lo estão disponíveis aqui.

Autoria

O Corpus CINTIL recebeu as seguintes contribuições:

Contactos

Pode contactar-nos para o seguinte endereço de correio electrónico: 'cintil' seguido de '@' seguido de 'di.fc.ul.pt'.

O CINTIL é um projecto em curso com vista ao desenvolvimento de um corpus com um nível de correcção cada vez maior e com informação linguística de maior complexidade e profundidade. Pode conferir aqui as assunções subjacentes à presente versão do corpus. Caso identifique algum aspecto que precise de ser melhorado, queira contactar-nos.

Note que este não é um serviço de apoio linguístico online pelo que apenas será dada resposta a perguntas directamente relacionadas com o corpus CINTIL .

Publicações

Barreto, Florbela, António Branco, Eduardo Ferreira, Amália Mendes, Maria Fernanda Nascimento, Filipe Nunes and João Silva, 2006, "Open Resources and Tools for the Shallow Processing of Portuguese", Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC2006), Genoa, Italy.

Branco, António and João Silva, 2006, "LX-Suite: Shallow Processing Tools for Portuguese", Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics (EACL2006), Trento, Italy, pp.179-182.

Barreto, Florbela, António Branco, Eduardo Ferreira, Amália Mendes, Fernanda Bacelar Nascimento, Filipe Nunes and João Silva, 2006, "Linguistic Resources and Software for Shallow Processing", In Actas do XXI Encontro Anual da Associação Portuguesa de Linguística, Lisbon, Portugal.

Agradecimentos

O trabalho que resultou no Corpus CINTIL foi parcialmente financiado pela FCT-Fundação para a Ciência e a Tecnologia, no âmbito do contrato POSI/PLP/47058/2002 para o projecto TagShare.

Queremos agradecer a Adam Przepiórkowski e à sua equipa, do IPIPAN - The Institute of Computer Science of the Polish Academy of Sciences, Varsóvia, o apoio prestado na adaptação do Poliqarp à língua portuguesa e às propriedades do Corpus CINTIL.




© Todos os direitos reservados