Concordanciador CINTIL online

Desenvolvido na Universidade de Lisboa pelo NLX/FCUL e pelo CLUL


concordanciador    |    intro    |    conteúdo    |    como usar    |    obter    |    english version

Como usar


Índice

Referência rápida

Resumo da sintaxe de pesquisa
Pesquisa simples
uma palavra devolve as suas ocorrências
Modificadores de pesquisa
/ipesquisa insensível às minúsculas/maiúsculas
/xpesquisa de sub-sequências
Expressões para caracteres
.qualquer carácter único
[ ]um dos caracteres de um conjunto
[^ ]nenhum dos caracteres de um conjunto
Operadores de repetição
?opcional
*zero ou mais vezes
+uma ou mais vezes
{n}exactamente n vezes
{n,}n ou mais vezes
{,n}até n vezes
{m,n}de m a n vezes
Expressões combinadas
e1e2e1 seguido de e2
|alternância
( )junção
Pesquisa pela anotação
[keyword=expressão]
[keyword!=expressão]
[key1=exp1 & key2=exp2]
[key1=exp1 | key2=exp2]
As expressões regulares devem estar entre aspas.
As contracções são codificadas como duas formas, sendo a primeira concatenada com um traço inferior (underscore).

Resumo das etiquetas
Campo Keyword Valores
Forma ortográfica orth qualquer
Etiqueta morfo-sintáctica pos quadro completo
Traços de flexão gender f, m, g
number s, p, n
degree dim, sup, comp
person 1, 2, 3
time quadro completo
inflection ifl, nifl
Lema base qualquer
Entidade nomeada iob quadro completo
Metadados source writtennews
writtenfiction
writtenother
spoken

Resultado da pesquisa

O concordanciador CINTIL online permite extrair do corpus contextos em que ocorrem as expressões pesquisadas.

A expressão pesquisada é inserida numa caixa de texto e os contextos são apresentados abaixo dessa caixa.

Quando a caixa "Mostrar traços" é seleccionada, o concordanciador mostra também a anotação linguística.

Para cada instância, esta anotação é mostrada entre parêntesis rectos, com ':' a separar cada campo de informação. Por exemplo, a anotação para o nome comum gatas será mostrada assim:

ocorrência anotada    →    gatas [ gato : cn : f : p : O ]
keywords    →    orth base pos gender number IOB

Cabe notar que esta anotação é mostrada num formato ligeiramente diferente do formato usado no corpus que é distribuído. Para uma descrição deste último, ver aqui.

Por razões técnicas, para cada ocorrência, o contexto devolvido tem um máximo de 10 formas.

Igualmente por razões técnicas, não são apresentados todos os contextos em que ocorre a expressão pesquisada no corpus. A ordem de apresentação dos contextos não corresponde à ordem de ocorrência consecutiva no corpus. Os resultados do concordanciador CINTIL online podem continuar a ser usados como referência em trabalhos de investigação, uma vez que pesquisas idênticas terão sempre resultados idênticos.

Nos casos em que seja necessário ter acesso à totalidade dos contextos, o utilizador poderá adquirir uma cópia do corpus e correr localmente, sobre essa cópia, um concordanciador da sua preferência.

Interface

O interface do concordanciador online é de uso simples e transparente.

Os botões "Alinhar" permitem ordenar alfabeticamente os contextos visíveis.

O botão da direita ordena os contextos de acordo com as palavras à direita da expressão pesquisada.

O botão da esquerda ordena os contextos de acordo com as palavras à esquerda da expressão pesquisada, da direita para a esquerda.

O exemplo seguinte ilustra a aplicação da opção de ordenação sobre os resultados da pesquisa da palavra carro (com um contexto de duas palavras à esquerda e uma palavra à direita):

sem ordenação
...guiar um carro novo...
...ir de carro para...
...levar o carro até...
ordenação à direita
...levar o carro até...
...guiar um carro novo...
...ir de carro para...
ordenação à esquerda
...ir de carro para...
...levar o carro até...
...guiar um carro novo...

Pesquisa de formas ortográficas

Maiúsculas e minúsculas
A pesquisa é sensível às maiúsculas e minúsculas. Para uma pesquisa que ignora este aspecto, acrescentar /i no final da forma ortográfica:

Inclusão de formas maiores nos resultados
A pesquisa apenas dá como resultado formas exactamente iguais à pesquisada. Por exemplo, a pesquisa de gato não dará resultados em que gato é parte de uma palavra, pelo que não são apresentados contextos de regato ou obrigatoriamente.

Para permitir que a pesquisa inclua casos em que a expressão é uma parte de palavra, é necessário acrescentar /x após a forma ortográfica pesquisada (que pode ser combinada com a opção /i mencionada acima).

Por exemplo:

Contracções
No Corpus CINTIL, as contracções (por exemplo, daquela, aos, nas) são desdobradas e codificadas como duas unidades, em que a primeira é imediatamente seguida de um símbolo de traço inferior "_" (underscore) (por exemplo, de_ aquela, a_ os, em_ as).

Pesquisa de padrões regulares

É possível fazer pesquisas no corpus através da utilização de expressões regulares, desde que colocadas entre aspas. O concordanciador CINTIL segue os símbolos usuais estabelecidos para este tipo de pesquisa:

Alternância
Pesquisas alternativas são marcadas com uma barra vertical: |

Conjuntos de caracteres
Um conjunto de caracteres entre parênteses rectos dá como resultado ocorrências de qualquer um desses caracteres:

Um conjunto pode ser negado inserindo o símbolo ^ (acento circunflexo) imediatamente a seguir ao primeiro parêntese.

Ponto
O "." (ponto final) equivale a qualquer ocorrência de um só carácter (letra,dígito ou símbolo):

Opcionalidade
O "?" (ponto de interrogação) permite assinalar a opcionalidade de qualquer carácter ou expressão que o precede:

Iteração
Há três formas diferentes de expressar a iteração. O operador * (asterisco) faz com que o carácter ou expressão que o precede seja realizado zero ou mais vezes:

O operador + (mais) é semelhante, mas requer que haja pelo menos uma ocorrência do carácter ou expressão que o precede:

Finalmente, {l,u} permite que o número de iterações esteja limitado por um valor mínimo (l) e um valor máximo (u). No entanto, qualquer um dos valores, mínimo ou máximo, pode ser omitido. Nestes casos, {l,} equivale a "pelo menos l vezes", {,u} equivale a "máximo de u vezes" e {n} equivale a "exactamente n vezes":

Agrupamento
Os parêntesis são usados para agrupar expressões. Os operadores descritos acima podem assim aplicar-se ao conjunto da expressão entre parêntesis como se fosse um único carácter:

Qualquer uma destas expressões pode também ser modificada por /i e /x, descritos acima.

Por exemplo:

Pesquisar informação linguística

Cada forma está associada a informação linguística, expressos através de etiquetas de anotação. Cada etiqueta consiste num campo (field) e seu valor (value) ([field=value]). Por exemplo, [gender=m], [time=pi], etc.

Cada campo (field) é instanciado por uma palavra-chave (keyword).

Os valores podem ser pesquisados com qualquer um dos métodos acima indicados:

Os pares Field-pattern podem ser combinados entre si através do uso de operadores lógicos: & ("e" comercial) para conjunção e | (barra vertical) para disjunção:

Além disso, o símbolo de negação ! (ponto de exclamação) permite pesquisar formas cujo valor do campo não está de acordo com o padrão estipulado:

Forma ortográfica (novamente)

A própria forma ortográfica pode ser pesquisada através da keyword orth:

Categorias morfo-sintácticas

A pesquisa de uma palavra com determinada categoria morfo-sintáctica é feita através da keyword pos (part-of-speech):

Lista de etiquetas morfo-sintácticas (POS).

Flexão nominal

As keywords género e número têm, respectivamente, os valores f (feminino) ou m (masculino), e os valores s (singular) ou p (plural). Estes valores permitem pesquisar ocorrências com valores de flexão específicos:

Alguns tokens possuem anotação de grau, acessível através da keyword degree:

Flexão verbal

Para pesquisar formas de acordo com os seus traços de flexão verbal, devem usar-se as keywords person (pessoa), time (tempo) e number (número):

Lista das etiquetas de flexão verbal.

Infinitivos podem ocorrer flexionados ou não flexionados. Para pesquisar esta informação deve usar-se a keyword inflection.

Lema

Para pesquisar palavras pelo seu lema, deve usar-se a keyword base:

Entidade nomeada

Para pesquisar formas que sejam parte de uma expressão que nomeia uma entidade, deve usar-se a keyword iob:

Lista das etiquetas para entidade nomeadas.

Metadados

É possível usar metadados para restringir a pesquisa a um tipo específico de texto através do comando meta:

Pode consultar aqui a lista dos campos e valores de metadados.

Pesquisa avançada

Através da combinação das diferentes opções de pesquisa descritas acima, é possível construir pesquisas avançadas como as que são de seguida exemplificadas:

Alinhar os resultados

É possível dividir o resultado de uma pesquisa em duas colunas para tornar os dados mais legíveis, usando o símbolo ^ (acento circunflexo):




© Todos os direitos reservados