Desenvolvido na Universidade de Lisboa, Departamento de Informática, pelo NLX-Grupo de Fala e Linguagem Natural.


 



Características

Índice



LX-TimeAnalyzer

O LX-TimeAnalyzer é um serviço online gratuito para a extração de informação temporal de textos escritos em português.  Foi desenvolvido e é mantido pelo NLX–Grupo de Fala e Linguagem Natural da Universidade de Lisboa, Departamento de Informática.

Características

O LX-TimeAnalyzer extrai e apresenta de forma gráfica a informação temporal presente em textos escritos em português.  Dado um texto, determina os seguintes elementos:

Formato de saída

O resultado do LX-TimeAnalyzer é apresentado em duas colunas.

O texto de entrada é mostrado na coluna da esquerda.  As expressões temporais que ocorrem no texto são destacadas a verde.  Ao se passar o ponteiro do rato sobre elas é mostrada informação sobre a data ou hora que referem, num formato normalizado.  Os termos que denotam eventos são apresentados a laranja.  Ao se passar o ponteiro do rato sobre qualquer um destes elementos destacados são mostradas as relações temporais em que a entidade mencionada participa.

A coluna da direita apresenta um grafo temporal para o parágrafo à sua esquerda.  Neste grafo temporal os nós representam datas ou horas (incluindo a altura da criação do documento) e eventos.  Os nós verdes representam datas e horas, e os nós laranja representam eventos.  As relaçõs temporais também são assinaladas neste grafo.

As relações de precedência temporal são apresentadas através de uma seta entre dois nós.  A direção da seta indica a passagem do tempo: uma seta que liga um nó m a um nó n significa que a entidade representada por m precede no tempo a entidade representada por n.  A maioria das setas vai da esquerda para a direita, e muitas vezes (mas nem sempre) ao se lerem os grafos nesta direção obtém-se a ordem cronológica dos eventos, datas e horas descritos no texto.

As entidades que se sobrepõem no tempo são representadas nestes grafos em nós que tendem a estar alinhados verticalmente, mas tal nem sempre é possível.  Por isso, nem todas as entidades que se sobrepõem no tempo vão estar necessariamente colocadas na mesma coluna, e nem todos os nós alinhados verticalmente representam entidades que se sobrepõem no tempo, mas em muitos casos tal acontece.

Se o texto contiver mais de um parágrafo, um grafo temporal para todo o texto é apresentado abaixo destas duas colunas.

Autoria

LX-Lemmatizer fio desenvolvido por Francisco Costa e António Branco, no NLX–Grupo de Fala e Linguagem Natural, na Universidade de Lisboa, Departamento de Informática.

Agradecimentos

O trabalho que proporcionou o desenvolvimento do LX-TimeAnalyzer recebeu apoios da FCT—Fundação para a Ciência e Tecnologia—por meio da bolsa SFRH/BD/40140/2007.

O LX-TimeAnalyzer utiliza o Joda-Time e a LX-Suite. Esta demonstração online faz uso do Graphviz, do jQuery e do Tipsy.

Publicações

Costa, Francisco e Branco, António. 2012. Extracting Temporal Information from Portuguese Texts. In Helena Caseli, Aline Villavicencio, António Teixeira e Fernando Perdigão (eds.), Computational Processing of the Portuguese Language-10th International Conference, PROPOR 2012, volume 7243 de Lecture Notes in Artificial Intelligence, pp. 99-105, Berlim (Alemanha): Springer. [ .pdf ]

Costa, Francisco e Branco, António. 2012. LX-TimeAnalyzer: A Temporal Information Processing System for Portuguese. Technical Report DI-FCUL-TR-2012-01, Universidade de Lisboa, Faculdade de Ciências, Departamento de Informática. [ .pdf ]

Costa, Francisco e Branco, António. 2012. Aspectual Type and Temporal Relation Classification. In Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics, pp. 266-275, Avinhão, (França): Association for Computational Linguistics. [ .pdf ]

Costa, Francisco e Branco, António. 2013. Temporal Relation Classification Based on Temporal Reasoning. In Proceedings of the 10th International Conference on Computational Semantics, Potsdam (Alemanha). [ .pdf ]

Costa, Francisco. 2013. Processing Temporal Information in Unstructured Documents. Tese de doutoramento, Universidade de Lisboa, Lisboa. [ .pdf ]

A referência preferencial é:

Costa, Francisco e Branco, António. 2012. Extracting Temporal Information from Portuguese Texts. In Helena Caseli, Aline Villavicencio, António Teixeira e Fernando Perdigão (eds.), Computational Processing of the Portuguese Language-10th International Conference, PROPOR 2012, volume 7243 de Lecture Notes in Artificial Intelligence, pp. 99-105, Berlim (Alemanha): Springer. [ .pdf ]

Contacto

Para contacto, usar o endereço de e-mail: 'nlxgroup' concatenado com '@' concatenado com 'di.fc.ul.pt'.

Porquê LX-TimeAnalyzer?

LX porque Lx é o diminutivo que os lisboetas gostam de usar para se referir à sua cidade.