LX-NER
LX-NER é um serviço online gratuito para o reconhecimento de expressões para entidades nomeadas em português. Foi desenvolvido e é mantido pelo NLX-Grupo de Fala e Linguagem Natural da Universidade de Lisboa, Departamento de Informática.
Talvez seja também do seu interesse experimentar o LX-Suite, um serviço online para o processamento superficial do português.
Características
O LX-NER toma um segmento de texto em português e identifica, circunscreve e classifica as expressões para entidades nomeadas nele contidas. Adicionalmente, é atribuída a cada entidade nomeada uma representação padronizada. A aplicação lida com os seguintes tipos de expressões:
- Expressões baseadas em números
- Numerais:
Expressões que denotem numerais são marcadas como NUMEX. Uma lista de subtipos é tida em conta, permitindo uma classificação mais refinada destas expressões:- Árabes:
Entidades expressas por uma sequência de dígitos, podendo opcionalmente ser utilizado um ponto final para separar um conjunto de 3 dígitos, contando da direita para a esquerda. - Decimais:
Entidades expressas por um numeral árabe seguido de uma parte decimal, com uma vírgula a separar ambas as partes. - Não regulares:
Entidades expressas por dígitos, pontos finais e vírgulas, organizados de qualquer forma possível. Todas as entidades não cobertas pelos 2 subtipos anteriores são incluídas aqui. - Romanos:
Entidades expressas pelas letras romanas [IVXLCDM], em maiúsculas e minúsculas, com a sequência de letras a obedecer às regras de boa formação dos numerais romanos. - Cardinais:
Entidades expressas por uma descrição por extenso completa ou parcial de um numeral árabe ou decimal. Um numeral cardinal completo é composto por palavras, enquanto que um numeral cardinal parcial é um híbrido composto por palavras e numerais árabes ou decimais. - Fraccionários:
Entidades expressas por numerais árabes, decimais ou cardinais, e símbolos ou expressões específicas que representam a noção de divisão. - Classes de magnitude:
Entidades expressas por numerais árabes, decimais ou cardinals, juntamente com expressões que representam magnitudes numéricas.
- Árabes:
- Medidas:
Termos que expressam valores de medida são marcados como MEASEX. Uma lista de subtipos é tida em conta, permitindo uma classificação mais refinada destas expressões:- Unidades monetárias:
Expressões compostas por um numeral árabe, decimal ou cardinal seguido de uma palavra ou expressão representativa de uma unidade monetária (e.g. libras). - Tempo:
Expressões compostas por um numeral árabe, decimal ou cardinal seguido de uma palavra ou expressão representativa de uma medida de tempo (e.g. segundos). - Unidades científicas:
Expressões compostas por um numeral árabe, decimal ou cardinal seguido de uma palavra ou expressão representativa de uma unidade científica (e.g. toneladas).
- Unidades monetárias:
- Tempo:
Termos que expressam tempo são marcados como TIMEX. Uma lista de subtipos é tida em conta, permitindo uma classificação mais refinada destas expressões:- Datas:
Expressões que representam uma data, cujos componentes podem ser um dia da semana (e.g. Segunda-Feira), um dia do mês (e.g. 27), um mês (e.g. Novembro) ou um ano (e.g. 2006). - Períodos de tempo:
Expressões compostas por numerais árabes, romanos ou cardinais e uma indicação explícita de um período de tempo relativo a um ano, década ou século específico. - Horas do dia:
Expressões com diferentes formatos que indicam uma hora do dia específica.
- Datas:
- Endereços:
Expressões correspondentes a endereços são marcadas como ADDREX. Uma lista de subpartes é tida em conta, permitindo uma classificação mais refinada destas expressões:- Secção global:
Expressões referentes ao posicionamento global de um certo local (e.g. Rua Almeida Garrett). Esta parte do endereço é obrigatória para que um endereço seja reconhecido. - Secção local:
Expressões referentes ao posicionamento específico no âmbito da posição global (e.g. Nº 17 - 7º Dto). - Código postal:
Expressões referentes ao código postal de um endereço (e.g. 3654-548 Lisboa).
- Secção global:
- Expressões baseadas em nomes
- Nomes:
Expressões que denotem nomes são marcadas como NAMEX. Uma lista de subtipos é tida em conta, permitindo uma classificação mais refinada destas expressões:- Pessoas:
Expressões que denotem nomes de pessoas, com a opção de ser considerado o cargo ou estatuto social de uma pessoa caso esteja presente (e.g. Presidente Cavaco Silva). - Organizações:
Expressões que denotem nomes de companhias (e.g. LG Electronics) e organizações políticas (e.g. ONU). - Locais:
Expressões referentes a locais geográficos específicos (e.g. Portugal). - Eventos:
Expressões referentes a competições, conferências, workshops e eventos similares (e.g. 2ª Conferência Sobre o Acesso Livre ao Conhecimento). - Obras:
Expressões referentes a filmes, livros, quadros e obras similares (e.g. O Retrato de Dorian Gray). - Miscelânea:
Expressões referentes a entidades que não podem ser classificadas de acordo com qualquer um dos subtipos anteriores (e.g. Boeing 747).
- Pessoas:
Avaliação
- Expressões baseadas em números A componente baseada em números está implementada com base em expressões regulares. Foi desenvolvida e avaliada recorrendo a uma suite de teste construída manualmente que inclui mais de 300 exemplos. Obteve 85,19% de precisão e 85,91% de abrangência.
- Expressões baseadas em nomes A componente baseada em nomes está implementada com base em métodos estocásticos. Foi treinada sobre um corpus manualmente anotado de 208.000 palavras aproximadamente, e avaliada sobre uma porção escondida com cerca de 52.000 palavras. Obteve 86,53% de precisão e 84,94% de abrangência.
Autoria
O LX-NER está a ser desenvolvido por João Balsa, António Branco, Eduardo Ferreira e Sara Silveira, com a ajuda de João Silva, do NLX-Grupo de Fala e Linguagem Natural, da Universidade de Lisboa, Departamento de Informática.
Agradecimentos
O trabalho conducente ao LX-NER foi apoiado em parte pela FCT-Fundação para a Ciência e Tecnologia através do contrato POSI/PLP/47058/2002 relativo ao projecto TagShare e o contrato POSI/PLP/61490/2004 relativo ao projecto QueXting, e pela Comissão Europeia através do contrato FP6/STREP/27391 relativo ao projecto LT4eL.
Publicações
Florbela Barreto, António Branco, Eduardo Ferreira, Amália Mendes, Maria Fernanda Bacelar do Nascimento, Filipe Nunes and João Silva, 2006. Open Resources and Tools for the Shallow Processing of Portuguese: The TagShare Project. In Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC'06).
Florbela Barreto, António Branco, Eduardo Ferreira, Amália Mendes, Maria Fernanda Bacelar do Nascimento, Filipe Nunes and João Silva, 2006. Linguistic Resources and Software for Shallow Processing. In Actas do XXI Encontro da Associação Portuguesa de Linguística (APL'05).
Contacto
Para nos contactar, use o seguinte endereço de e-mail: 'nlxgroup' concatenado com 'at' concatenado com 'di.fc.ul.pt'.
Why LX-NER?
LX porque Lx é o diminutivo que os lisboetas gostam de usar para se referir à sua cidade.