Cria¸ca˜o e Acesso a Informac¸a˜o Semˆantica Aplicada ao ... · dom´ınio. DBPedia (Bizer et...

14
Cria¸c˜ ao e Acesso a Informa¸ ao Semˆantica Aplicada ao Governo Eletr´ onico ario Rodrigues Universidade de Aveiro [email protected] Gon¸calo Paiva Dias Universidade de Aveiro [email protected] Ant´ onio Teixeira Universidade de Aveiro [email protected] Resumo Os cidad˜ aos, empresas ou servi¸cos p´ ublicos - os clientes - que procuram informa¸ oes no contexto do Governo Eletr´ onico visam obter respostas objetivas ` as suas quest˜ oes. Para isso ´ e necess´ ario que os sistemas de pesquisa consigam manipular a informa¸c˜ ao de modo a que seja disponibilizada de uma forma eficaz e adequada ` as necessidades de cada cliente. Uma vez que grande parte dos documentos do governo est˜ ao escritos em formatos n˜ ao estruturados e em linguagem natural, ´ e necess´ ario desenvolver etodos para obter e estruturar este tipo de informa¸c˜ ao. A alternativa seria indexar pelo seu texto a grande quantidade de documentos existente, uma solu¸c˜ ao desadequada no contexto do Governo Eletr´ onico, uma vez que assim seriam retornados frequentemente muitos resultados a cada pesquisa. Este artigo apresenta um primeiro prot´ otipo de uma aplica¸c˜ ao que gera informa¸ ao semˆantica a partir de textos escritos em Portuguˆ es. Ainforma¸c˜ ao semˆ antica gerada corresponde a um dom´ ınio de conhecimento definido por um operador humano atrav´ es de uma interface gr´ afica, de modo a que o sistema seja adapt´ avel ` as diferentes ´ areas de atua¸c˜ ao do Governo Eletr´ onico. O conte´ udo ´ e acess´ ıvel atrav´ es de uma interface em linguagem natural e atrav´ es de uma interface de pesquisa que aceita entradas SPARQL. Deste modo ´ e poss´ ıvel aos clientes aceder diretamente ou integrar este sistema com os seus pr´ oprios sistemas de informa¸ ao. A aplica¸c˜ ao est´ a organizada em trˆ es grandes m´ odulos: Representa¸c˜ ao do Conhecimento que permite definir dom´ ınio de conhecimento e sua semˆ antica e criar exemplos semente, nos textos, de conceitos do dom´ ınio de conhecimento; Processamento de Lin- guagem Natural que permite obter estruturas sint´ aticas associadas ` as frases em linguagem natural; e Extra¸ ao e Integra¸c˜ ao Semˆ antica que utiliza os exemplos semente para treinar classificadores es- tat´ ısticos a identificar nas estruturas sint´ aticas os conceitos do dom´ ınio de conhecimento, que utiliza os classificadores treinados para detetar esses conceitos em estruturas sint´ aticas de novas frases, e que cont´ em as interfaces para pessoas e m´ aquinas. Neste artigo apresentamos igualmente exemplos ilustrativos da utiliza¸c˜ ao do sistema e os resulta- dos de uma primeira avalia¸c˜ ao de desempenho. O sistema funciona para o Portuguˆ es e foi constru´ ıdo reutilizando software do estado da arte, maioritariamente desenvolvido visando o Inglˆ es. A sua mo- dularidade permite alterar a l´ ıngua base do sistema, de Portuguˆ es para outra, alterando o m´ odulo de Processamento de Linguagem Natural e sem ser necess´ ario alterar os restantes m´ odulos da aplica¸c˜ ao. 1 Introdu¸c˜ao O Governo Eletr´ onico (e-gov) ´ e uma express˜ ao utilizada para descrever a utiliza¸ ao das Tecnolo- gias da Informa¸ ao e da Comunica¸c˜ ao (TIC) no ˆ ambito do governo e da administra¸c˜ ao p´ ublica. Refere-se a v´ arios conceitos alternativos ou com- plementares, incluindo o uso das TIC para tornar mais f´ acil, mais r´ apido e mais barato o acesso a informa¸c˜ ao e a servi¸cos aos clientes do governo: cidad˜ aos, empresas, e outros organismos gover- namentais (Layne e Lee, 2001). Os ´ org˜ aos de governo e da administra¸ ao ublica produzem grandes quantidades de in- forma¸c˜ ao sob a forma de leis, regulamentos, edi- tais, atas, etc. Estes documentos s˜ ao normal- mente escritos em linguagem natural (Portuguˆ es, Castelhano, etc.) em texto livre, sem uma es- trutura em meta linguagem que indique qual o significado das diferentes partes do documento. Mesmo que estes documentos sejam armazena- dos em computadores, o seu formato de texto livre dificulta a manipula¸c˜ ao autom´ atica da in- forma¸c˜ ao neles contida de modo a ir de encon- tro ` as necessidades espec´ ıficas dos clientes do go- verno. Frequente s˜ ao retornados muitos resul- tados ` as pesquisas efetuadas com vista a que a informa¸c˜ ao relevante esteja no conjunto de res- posta. Por exemplo, se a procura for “processo de obra Maria”, normalmente s˜ ao devolvidos to- dos os documentos que contenham (pelo menos) uma das palavras, ordenados pela maior seme- lhan¸ca com a procura, e n˜ ao apenas aquele(s) que contenha(m) informa¸c˜ ao acerca de processos de obra aplicados por cidad˜ as chamadas Maria. This work is licensed under a Creative Commons Attribution 3.0 License Linguaatica — ISSN: 1647–0818 Vol. 3 N´ um. 2 - Dezembro 2011 - P´ ag. 55–68

Transcript of Cria¸ca˜o e Acesso a Informac¸a˜o Semˆantica Aplicada ao ... · dom´ınio. DBPedia (Bizer et...

Page 1: Cria¸ca˜o e Acesso a Informac¸a˜o Semˆantica Aplicada ao ... · dom´ınio. DBPedia (Bizer et al., 2009) ´e uma base de conhecimento criada pela extra¸cao˜ de in-forma¸c˜ao

Criacao e Acesso a Informacao Semantica Aplicada ao Governo

Eletronico

Mario RodriguesUniversidade de Aveiro

[email protected]

Goncalo Paiva DiasUniversidade de Aveiro

[email protected]

Antonio TeixeiraUniversidade de Aveiro

[email protected]

Resumo

Os cidadaos, empresas ou servicos publicos - os clientes - que procuram informacoes no contextodo Governo Eletronico visam obter respostas objetivas as suas questoes. Para isso e necessario queos sistemas de pesquisa consigam manipular a informacao de modo a que seja disponibilizada de umaforma eficaz e adequada as necessidades de cada cliente. Uma vez que grande parte dos documentos dogoverno estao escritos em formatos nao estruturados e em linguagem natural, e necessario desenvolvermetodos para obter e estruturar este tipo de informacao. A alternativa seria indexar pelo seu textoa grande quantidade de documentos existente, uma solucao desadequada no contexto do GovernoEletronico, uma vez que assim seriam retornados frequentemente muitos resultados a cada pesquisa.

Este artigo apresenta um primeiro prototipo de uma aplicacao que gera informacao semantica apartir de textos escritos em Portugues. A informacao semantica gerada corresponde a um domınio deconhecimento definido por um operador humano atraves de uma interface grafica, de modo a que osistema seja adaptavel as diferentes areas de atuacao do Governo Eletronico. O conteudo e acessıvelatraves de uma interface em linguagem natural e atraves de uma interface de pesquisa que aceitaentradas SPARQL. Deste modo e possıvel aos clientes aceder diretamente ou integrar este sistemacom os seus proprios sistemas de informacao. A aplicacao esta organizada em tres grandes modulos:Representacao do Conhecimento que permite definir domınio de conhecimento e sua semantica ecriar exemplos semente, nos textos, de conceitos do domınio de conhecimento; Processamento de Lin-guagem Natural que permite obter estruturas sintaticas associadas as frases em linguagem natural;e Extracao e Integracao Semantica que utiliza os exemplos semente para treinar classificadores es-tatısticos a identificar nas estruturas sintaticas os conceitos do domınio de conhecimento, que utilizaos classificadores treinados para detetar esses conceitos em estruturas sintaticas de novas frases, e quecontem as interfaces para pessoas e maquinas.

Neste artigo apresentamos igualmente exemplos ilustrativos da utilizacao do sistema e os resulta-dos de uma primeira avaliacao de desempenho. O sistema funciona para o Portugues e foi construıdoreutilizando software do estado da arte, maioritariamente desenvolvido visando o Ingles. A sua mo-dularidade permite alterar a lıngua base do sistema, de Portugues para outra, alterando o modulo deProcessamento de Linguagem Natural e sem ser necessario alterar os restantes modulos da aplicacao.

1 Introducao

O Governo Eletronico (e-gov) e uma expressaoutilizada para descrever a utilizacao das Tecnolo-gias da Informacao e da Comunicacao (TIC) noambito do governo e da administracao publica.Refere-se a varios conceitos alternativos ou com-plementares, incluindo o uso das TIC para tornarmais facil, mais rapido e mais barato o acesso ainformacao e a servicos aos clientes do governo:cidadaos, empresas, e outros organismos gover-namentais (Layne e Lee, 2001).

Os orgaos de governo e da administracaopublica produzem grandes quantidades de in-formacao sob a forma de leis, regulamentos, edi-tais, atas, etc. Estes documentos sao normal-mente escritos em linguagem natural (Portugues,Castelhano, etc.) em texto livre, sem uma es-

trutura em meta linguagem que indique qual osignificado das diferentes partes do documento.Mesmo que estes documentos sejam armazena-dos em computadores, o seu formato de textolivre dificulta a manipulacao automatica da in-formacao neles contida de modo a ir de encon-tro as necessidades especıficas dos clientes do go-verno. Frequente sao retornados muitos resul-tados as pesquisas efetuadas com vista a que ainformacao relevante esteja no conjunto de res-posta. Por exemplo, se a procura for “processode obra Maria”, normalmente sao devolvidos to-dos os documentos que contenham (pelo menos)uma das palavras, ordenados pela maior seme-lhanca com a procura, e nao apenas aquele(s)que contenha(m) informacao acerca de processosde obra aplicados por cidadas chamadas Maria.

This work is licensed under a

Creative Commons Attribution 3.0 License

Linguamatica — ISSN: 1647–0818

Vol. 3 Num. 2 - Dezembro 2011 - Pag. 55–68

Page 2: Cria¸ca˜o e Acesso a Informac¸a˜o Semˆantica Aplicada ao ... · dom´ınio. DBPedia (Bizer et al., 2009) ´e uma base de conhecimento criada pela extra¸cao˜ de in-forma¸c˜ao

Este comportamento e adequado em siste-mas de informacao genericos como os motoresde pesquisa da Internet. O mesmo ja nao acon-tece quando o contexto e o e-gov. Quando ci-dadaos, empresas ou servicos publicos procuraminformacoes no contexto do e-gov querem obterrespostas as suas questoes e nao uma lista de do-cumentos acerca de topicos relacionados. Por ou-tro lado, como o governo tem servir a totalidadeda populacao, incluindo cidadaos com poucos co-nhecimentos de TIC ou acerca dos processos dogoverno, as respostas devem ser curtas, claras econcisas de modo a evitar dificuldades na sua lo-calizacao ou interpretacao. Alem disso, as respos-tas devem ser textos criados com base nos docu-mentos oficiais.

E por isso importante desenvolver aplicacoese tecnologias que permitam um acesso facil ainformacao disponibilizada pelos orgaos de go-vernacao e administracao. Isso implica a uti-lizacao de tecnologias que permitam perceber emanipular o conteudo de documentos escritosem linguagem natural. O e-gov beneficiaria daexistencia de sistemas capazes de organizar e in-tegrar diversas fontes de informacao e capazes decompreender documentos escritos em linguagensnaturais tais como o Portugues (Rodrigues, PaivaDias e Teixeira, 2010a).

Em virtude disto temos vindo a desenvolverum sistema que utiliza tecnologias de Processa-mento de Linguagem Natural (PLN) para inter-pretar o conteudo dos documentos, e tecnologiasde Representacao do Conhecimento (RC) paraorganizar e manipular o conteudo obtido. O sis-tema permite definir os tipos de conteudo queserao procurados e armazenados, permite a inte-gracao de informacao relevante de outras fontes,e permite o acesso a informacao de diversas for-mas incluindo perguntas em linguagem natural,por referencia geografica ou atraves de normas daweb semantica.

Focamos a aplicacao na disponibilizacao de in-formacao municipal apesar do sistema poder serutilizado com diversos tipos de informacao. Aimportancia dos municıpios reside no fato de se-rem muitas vezes o ponto mais proximo de servicopara os cidadaos e empresas. Sao tambem inte-ressantes devido a integrarem, numa unica orga-nizacao, decisao polıtica e execucao administra-tiva (Paiva Dias, 2006).

Neste artigo apresentamos um sistema capazde gerar e disponibilizar informacao semanticaa partir de documentos nao estruturados escri-tos em linguagem natural. A proxima subseccaoapresenta trabalho relacionado. A seccao 2 des-creve detalhadamente a concepcao e desenvolvi-

mento do sistema. A seccao 3 apresenta os exem-plos de utilizacao e a avaliacao de desempenho.O artigo termina, na seccao 4, com as respetivasconclusoes.

1.1 Trabalho Relacionado

A atividade de investigacao em e-gov tem sidogeralmente centrada na resolucao de proble-mas como a integracao e interoperabilidade deservicos, que sao problemas muito importantes edevem continuar a ser estudados. Em tais pro-jetos e geralmente considerado que a informacaoesta no sistema, quer tenha sido colocada manu-almente ou utilizando bases de dados existentes,como por exemplo o OneStopGov (Chatzidimi-triou e Koumpis, 2008) e o Acess-eGov (Sroga,2008). Tanto quanto sabemos, ate hoje nenhumprojeto foi dedicado ao problema da aquisicao au-tomatica de informacoes a partir de documentosdo governo em linguagem natural, quer para Por-tugues quer para outras lınguas.

Relativamente a extracao de informacao,varios projetos foram dedicados a tarefa de ex-tracao de informacao escalavel e independente dodomınio. DBPedia (Bizer et al., 2009) e umabase de conhecimento criada pela extracao de in-formacao das caixas de informacoes da Wikipediae utilizou a estrutura da Wikipedia para inferira semantica. Uma abordagem semelhante foi se-guida para criar a base de conhecimento Yago(Suchanek, Kasneci e Weikum, 2007). Alem daWikipedia, o YAGO tambem utiliza um conjuntode regras para melhorar a precisao da extraccaode informacao e a WordNet para desambiguaros significados das palavras. Estas bases de co-nhecimento foram criados sem qualquer proces-samento de linguagem natural.

O sistema Kylin (Wu, Hoffmann e Weld, 2008)usa informacoes das caixas de informacao da Wi-kipedia para treinar classificadores estatısticosque mais tarde sao usados para extrair in-formacoes a partir de textos de linguagem na-tural. Os textos sao analisados pelas suas etique-tas morfo-sintaticas e caraterısticas de superfıcie(posicao das palavras na frase, a capitalizacao, apresenca de dıgitos ou carateres especiais, etc.)Nao usa informacao sintatica.

Outros sistemas do estado da arte nao utili-zam a Wikipedia como fonte de conhecimento.O TextRunner (Banko et al., 2007) pretende ex-trair todas as instancias de todas as relacoes sig-nificativas a partir de paginas web. Constroi asua ontologia a partir do corpus sem controlar seas relacoes ontologicas estao bem definidas e semdesambiguar as entidades. O KnowItAll (Etzioniet al., 2004) utiliza exemplos especificados manu-

56– Linguamatica Mario Rodrigues, Goncalo Paiva Dias & Antonio Teixeira

Page 3: Cria¸ca˜o e Acesso a Informac¸a˜o Semˆantica Aplicada ao ... · dom´ınio. DBPedia (Bizer et al., 2009) ´e uma base de conhecimento criada pela extra¸cao˜ de in-forma¸c˜ao

almente que expressam um conjunto de relacoes,por exemplo amigo(Jo~ao,Pedro). Esses exem-plos sao utilizados para obter padroes textuaisque podem expressar as relacoes, por exemplo “oJoao e amigo do Pedro”. Os padroes textuais saousados para treinar um conjunto de informacoespre-definidas.

O sistema Leila (Suchanek, Ifrim e Weikum,2006) aperfeicoou o metodo do KnowItAll usandotanto exemplos e contra-exemplos como semen-tes, a fim de gerar padroes mais robustos, eusando analise sintatica para gerar padroes deextracao de informacoes. A maior robustez dospadroes conjugada com uma analise sintaticaque permite capturar informacoes em frases maiscomplexas foram as pricipais razoes para que estaabordagem fosse adoptada no nosso sistema.

Relativamente a interfaces em linguagem na-tural escrita o que tem sido estudado e, essenci-almente, como mapear frases em linguagem na-tural para os esquemas de armazenamento de in-formacao. Um dos sistemas relevantes e o Na-LIX, uma interface para bases de dados XML queaceita frases arbitrarias em Ingles. Esta interfacetraduz as pesquisas em expressoes XQuery e, porexemplo, e possıvel consultar uma base de dadosacerca de filmes com frases do tipo “find the titleof publications with more that 5 authors” quetraduz para: encontra os tıtulos de obras commais de 5 autores (Li, Yang e Jagadish, 2005).

O Panto e outra interface em linguagem na-tural escrita que aceita consultas genericas emlinguagem natural, produzindo como saıda con-sultas Simple Protocol and RDF Query Lan-guage (SPARQL), que e atualmente a linguagempadrao para acesso de dados da Web semantica.Foi concebido para ser aplicavel a qualquer onto-logia nao pressupoe nada acerca do domınio doconhecimento. Os seus autores argumentam queobtem bons resultados e que ajuda a fazer a ponteentre a logica da web semantica e os utilizadores(Wang et al., 2007).

O ESTER e um sistema modular que conjugapesquisas de texto completo e pesquisas em on-tologia. Responde a consultas SPARQL basicasreduzindo-as a um pequeno numero de duasoperacoes basicas: pesquisa de prefixo e juncao.Suporta uma mistura de consultas semanticascom consultas de texto normais e sugere ao utili-zador possıveis interpretacoes semanticas da con-sulta (Bast et al., 2007).

2 Sistema Desenvolvido

O sistema desenvolvido esta organizado conformeo modelo conceptual apresentado na Figura 1.O modelo separa claramente o domınio da lin-

guagem natural do domınio da representacao doconhecimento e esta organizado em tres compo-nentes:

• Representacao do Conhecimento - compo-nente que contem ferramentas para definira semantica do sistema - atraves de umaontologia representada em Web OntologyLanguage Description Logic (OWL-DL) - epara permitir a operadores humanos adicio-nar exemplos de correspondencia entre essasemantica e elementos presentes nos textos;

• Processamento de Linguagem Natural -componente baseado em tecnologias da areade PLN que inclui tecnologias de proces-samento de informacao para obter estrutu-ras sintaticas que representam as frases en-contradas nos textos em linguagem natural.Conforme os exemplos definidos na RC, al-gumas destas estruturas serao associadas aelementos da ontologia;

• Extracao e Integracao Semantica - compo-nente que aprende as associacoes entre as es-truturas sintaticas e a ontologia e aplica-as anovos textos para obter novas informacoes.Este componente pode complementar a in-formacao contida nos textos com fontes es-truturadas de informacao, como por exem-plo coordenadas geograficas dos locais viaGoogle Maps API e organizacao polıtica doterritorio via Geo-Net-PT01 (Chaves, Silvae Martins, 2005). Inclui ainda interfaces deacesso aos dados.

�������

������������� ������������������ �����������������

�����

���������������

���������������������� �������

������������������ ���

��������� !��

"�#��� ������

����$

����%

&�&�&

Figura 1: O modelo conceptual. A informacaosemantica e extraıda das estruturas provenientesdo PLN conforme definido pela RC definida pelooperador responsavel pelo sistema. As setas uni-direcionais representam aquisicao do conteudo eas bidirecionais representam as interfaces.

O resultado e informacao semantica que podeser consultada e acedida em vez, ou em comple-mento, dos documentos originais (ver Figura 1).

Criacao e acesso a informacao semantica aplicada ao governo electronico Linguamatica – 57

Page 4: Cria¸ca˜o e Acesso a Informac¸a˜o Semˆantica Aplicada ao ... · dom´ınio. DBPedia (Bizer et al., 2009) ´e uma base de conhecimento criada pela extra¸cao˜ de in-forma¸c˜ao

O sistema foi construıdo reutilizando software decodigo aberto - algum adaptado para trabalharcom Portugues - para tirar vantagem do estadoda arte em termos de abordagens e ferramentasexistentes. Foi desenvolvido software especificopara integrar o software reutilizado num sistemacoerente. A arquitetura da instanciacao do mo-delo conceptual esta representada na Figura 2 esera descrita em mais detalhe nas subseccoes quese seguem.

����������������������������

���� ����������

�������������������������������� �

�������������������� ��

������ �� �

������ �� �

���� ����

������������������

������� ���� ������

�������������������������

���������������

�������������������

�������������� ��������

���������

������������������������ �����������������������������

�������������� �

�� ���� ������������������� �������

������� �����������������

������� ����

���������� �

Figura 2: Instanciacao do modelo conceptual. Ostres grandes modulos sao delimitados pelo som-breado. A Representacao do Conhecimento de-fine a semantica do sistema e fornece exemplossemente dos conceitos nos textos. O modulo deProcessamento de Linguagem Natural enriqueceo texto com etiquetas morfo-sintaticas, entidadesmencionadas e estruturas sintaticas. O modulode Extracao e Integracao Semantica treina mode-los de extraccao com base nos exemplos semente,aplica-os em todos os textos, integra outras fon-tes de informacao e disponibiliza a informacaoaos clientes.

2.1 Representacao do Conhecimento

O primeiro passo para construir uma repre-sentacao do conhecimento e definir uma estruturaque represente conceitos de um domınio e respeti-vas relacoes. Para isso utilizamos ontologias queformalmente sao definidas como “a formal, ex-plicit specification of a shared conceptualisation”,o que traduz para: especificacao explıcita e for-mal de uma conceptualizacao partilhada (Gru-ber, 1993). Ser “explıcita” implica que todosos conceitos usados e respetivas restricoes temde estar definidos explicitamente e ser “formal”refere-se a ter de ser legıvel para maquinas. Uma“conceptualizacao” e um modelo abstrato de querepresenta um domınio, identificando conceitos erelacoes relevantes a essa parte do mundo. Ser“partilhada” e importante porque uma ontologiadevera servir para partilhar conhecimento e porisso deve ser aceite por um grupo ao inves de ficarrestrita a um indivıduo.

As ontologias permitem representar um con-junto de conceitos pertencentes a um domınio,bem como as relacoes existentes entre esses con-ceitos. O fato de ser uma especificacao formalbem definida permitiu o desenvolvimento de fer-ramentas de software que inferem novos fatosatraves de implicacoes logicas acerca dos dados jaconhecidos. Na nossa aplicacao as ontologias saocriadas e/ou editadas usando o Protege (versao4). Para o domınio do e-gov, a ontologia criadainclui as ontologias Friend-of-a-Friend (FOAF)(Brickley e Miller, 2010), Dublin Core (Weibelet al., 2007), World Geodetic System revisao de1984 (National Imagery and Mapping Agency,2000), e GeoNames versao integral (GeoNames,2010). Inclui tambem classes especificamente cri-adas para lidar com assuntos relativos aos mu-nicıpios. Foi criada uma classe denominada As-sunto executivo que e subclasse da classe de nıvelsuperior Thing e que possui sete subclasses (verFigura 3). As subclasses de Assunto executivo erespetiva descricao encontram-se na Tabela 1.

Figura 3: A interface de criacao da ontolo-gia. No painel da esquerda esta a lista de to-das as subclasses de Thing. No painel direitaencontra-se uma representacao grafica da classeAssunto executivo e respetivas subclasses.

Cada assunto executivo pode conter seis pro-priedades para estabelecer relacoes com outrasclasses da ontologia, como por exemplo com asclasses de Person (Pessoa) das ontologias impor-tadas FOAF e Dublin Core. As propriedadesestao enumeradas e descritas na Tabela 2.

58– Linguamatica Mario Rodrigues, Goncalo Paiva Dias & Antonio Teixeira

Page 5: Cria¸ca˜o e Acesso a Informac¸a˜o Semˆantica Aplicada ao ... · dom´ınio. DBPedia (Bizer et al., 2009) ´e uma base de conhecimento criada pela extra¸cao˜ de in-forma¸c˜ao

Classe Descricao

Loteamento Pedido de permissao para lotear oualterar loteamentos de terrenos.

Empreitada Relativo a processos de construcaoem execucao.

Processo de obra Anuncios relativos a processos deconstrucao genericos: inıcio de tra-balhos, alteracoes em orcamentos,expropriacoes, etc.

Isencao Pedidos de isencoes de taxas e ou-tros pagamentos municipais.

Protocolo Protocolos assinados com outrasinstituicoes.

Concurso publico Anuncios de concursos publicos re-lativos a aquisicao de equipamento,construcoes, contratacao, etc.

Subsidio Subsıdios pedidos e/ou concedidospela autarquia.

Tabela 1: Subclasses da classe Assunto executivoe respetiva descricao.

Propriedade Descricao

deliberacao Resultado do pedido.identificador Identificador unıvoco dado pelos

servicos municipais.montante Qualquer quantia de dinheiro envolvida

no processo.motivo O motivo do processo.local O local da construcao ou do lotea-

mento, morada da entidade que assi-nou o protocolo ou que pediu isencaoou subsıdio.

submetidoPor Entidade ou entidades que estao en-volvidas no processo, excluindo o mu-nicıpio.

Tabela 2: Tipos de relacoes associadas a classeAssunto executivo.

2.1.1 Exemplos Semente

Apos a definicao do domınio do conhecimento enecessario encontrar exemplos dos conceitos nostextos que o sistema devera processar. Estesexemplos serao utilizados para treinar algoritmosde aprendizagem automatica de modo a que osistema detete esses conceitos em todos os docu-mentos a processar.

A associacao entre as amostras de texto e clas-ses da ontologia e as relacoes sao feitas usandoo anotador AKTive Media (Chakravarthy, Cira-vegna e Lanfranchi, 2006). No arranque da in-terface de anotacao e necessario escolher ou criaruma sessao de anotacao e escolher os textos aanotar e a ontologia que define o domınio do co-nhecimento. Apos este passo e possıvel iniciar oprocesso de anotacao ou entao pedir ao sistemapara pre-anotar partes do texto.

A pre-anotacao foi uma funcionalidade de-senvolvida para facilitar o processo de anotacaoquando existe uma grande quantidade de textosa anotar. Serve para pre-anotar no texto as clas-

ses da ontologia mas nao as relacoes da ontologia.O seu comportamento e definido por um ficheirode configuracao que contem, em cada linha, umaentrada com uma expressao regular a localizar se-guida da classe ou classes da ontologia a associara essa palavra (ver Figura 4).

As palavras pre-anotadas ficam destacadaspor um fundo colorido em que a cor esta asso-ciada com a classe da ontologia (ver Figura 5).No fim do processo de anotacao todas as pre-anotacoes que nao foram validadas ou comple-tadas pelo utilizador serao descartadas. Destemodo os exemplos semente sao todas e apenas asanotacoes validadas pelo utilizador.

Figura 4: Ficheiro de configuracao da pre-anotacao. Cada linha contem a expressao regu-lar a detetar no texto seguida da(s) classe(s) daontologia a associar ao texto abrangido por essaexpressao regular.

O procedimento para anotar uma frase e o se-guinte (ver Figura 5):

1. Selecionar a classe da ontologia no painel su-perior esquerdo. Ao escolher a classe da on-tologia surgem, no painel debaixo da caixade procura, as relacoes possıveis para essaclasse;

2. Selecionar a(s) palavra(s) a associar a essaclasse. As palavras ficam por cima de umfundo colorido cuja cor esta associada aclasse escolhida;

3. Escolher a relacao da ontologia a associar aotexto selecionado e marcar no texto o objetodessa relacao. A relacao surgira no painelinferior esquerdo;

4. Repetir o passo 3 ate todas as relacoes esta-rem marcadas;

5. Voltar ao passo 1 ate todo o texto relevanteestar marcado.

A Figura 5 mostra a anotacao de um subsıdiocuja motivacao e “execucao do Plano Anual e aEscola Artıstica”, foi submetido pela “ARCEL”e o montante envolvido e “8.640,00e”.

Criacao e acesso a informacao semantica aplicada ao governo electronico Linguamatica – 59

Page 6: Cria¸ca˜o e Acesso a Informac¸a˜o Semˆantica Aplicada ao ... · dom´ınio. DBPedia (Bizer et al., 2009) ´e uma base de conhecimento criada pela extra¸cao˜ de in-forma¸c˜ao

��

Figura 5: A interface de anotacao. Os numeroscorrespondem a sequencia de passos descritos noprocedimento.

O resultado desta etapa e a ontologia e o con-junto de exemplos nos textos de entidades dasclasses e relacoes da ontologia.

2.2 Processamento de Linguagem

Natural

Esta parte do sistema inclui ferramentas para ob-ter e extrair o conteudo de documentos da Webe/ou do sistema de ficheiros local. O sistema per-mite definir a fonte dos dados, sendo o conteudodos ficheiros processado automaticamente numencadeamento de operacoes sem intervencao dosutilizadores. A sequencia de operacoes e iguala encontrada num vasto conjunto de sistemasde PLN (um bom exemplo e (Ferreira et al.,2009)): etiquetagem morfo-sintatica, reconheci-mento e classificacao de entidades mencionadas eanalise sintatica.

O primeiro passo, a etiquetagem morfo-sintatica (em Ingles Part of Speech (POS) tag-ging), tem por objetivo associar os diversos ele-mentos do texto com classes morfo-sintaticas taiscomo substantivo, adjetivo, etc (Mihalcea, 2010).No sistema implementado a etiquetagem e rea-lizada pelo TreeTagger que anota o texto cometiquetas morfo-sintaticas e com lemas e temsido usado com sucesso para marcar varias lin-guagens naturais, incluindo Portugues (Schmid,1994). O TreeTagger foi treinado com o Bosquev7.3, uma versao especificamente escolhidas porser a unica no formato aceite tambem pelo anali-sador sintatico (descrito adiante). O Bosque e umsubconjunto da Floresta (Freitas, Rocha e Bick,2008) revisto por linguistas. O lexico utilizado foienriquecido com o LABEL-LEX-sw (Ranchhod,Mota e Baptista, 1999).

De seguida e efetuado o Reconhecimento de

Entidades Mencionadas (REM) e respetiva clas-sificacao que tem por objetivo detetar e classi-ficar elementos atomicos no texto em categoriaspre-definidas tais como nomes de pessoas, orga-nizacoes, locais, etc (Santos e Cardoso, 2007).Alem das classes de REM e seu significado seremdiferentes das de POS tagging, uma diferenca fun-damental e que o processo de REM implica fre-quentemente o agrupamento de palavras numaunica entidade. O REM do sistema e feito como Rembrandt (Cardoso, 2008). O Rembrandt eum sistema de REM desenvolvido para Portuguesque utiliza a estrutura e conteudo da Wikipediacomo uma fonte de conhecimento para classifi-car todos os tipos de entidades mencionadas notexto. Rembrandt tenta classificar cada entidademencionada de acordo com as diretivas do se-gundo HAREM (Mota e Santos, 2008).

O terceiro passo, a analise sintatica, e o pro-cesso de determinar a estrutura gramatical deuma sequencia de palavras segundo uma deter-minada gramatica formal. A analise sintaticatransforma um texto numa estrutura de dados.Este passo e efetuado por um analisador, emIngles parser, de dependencias chamado Malt-Parser (Hall et al., 2007). O MaltParser ja foiutilizado com sucesso para analisar varias lınguaso Ingles, Frances, Grego, Sueco e Turco. Foitreinado para Portugues com o Bosque v7.3 queexiste no formato aceite por esta ferramenta, oformato CoNLL-X.

O funcionamento geral deste modulo esta es-quematizado na Figura 6.

2.3 Extracao e Integracao de

Informacao Semantica

Esta parte do sistema tem dois modos deoperacao: modo de treino e modo de execucao.

No modo de treino, o sistema aprende a asso-ciar as estruturas sintaticas das frases as classese relacoes da ontologia. Esta aprendizagem e ba-seada em exemplos anotados manualmente.

No modo de execucao, o sistema aplica as as-sociacoes aprendidas as estruturas sintaticas detodas as frases dos documentos a processar paraextrair classes e relacoes semanticas do texto. Oprocedimento de ambos os modos e explicado se-guidamente.

2.3.1 Treino de Modelos para Extracao

Resumidamente, o processo desenrola-se da se-guinte forma:

1. Processar todos os documentos de treinocom o modulo de PLN para se obter estru-turas sintaticas de todas as frases de treino;

60– Linguamatica Mario Rodrigues, Goncalo Paiva Dias & Antonio Teixeira

Page 7: Cria¸ca˜o e Acesso a Informac¸a˜o Semˆantica Aplicada ao ... · dom´ınio. DBPedia (Bizer et al., 2009) ´e uma base de conhecimento criada pela extra¸cao˜ de in-forma¸c˜ao

�������������������������� ��������������������������������������

�������������������������� ��������������������������������������

������

�������������������������� ����������������������������������������

���

�����

������

������

����

��������

��

��������

� ��

�����

��

��������

��

��

����

�������������������������� ���������������������������������������

���

�����

������

������

����

��������

��

��������

� ��

�����

��

��������

����������

��! ��"�����������#���

����$�������������������%&���������������������

���������#���

Figura 6: Sequencia de passos do Processamentode Linguagem Natural e respetivos resultadosintermedios. A entrada do modulo sao frasessem estrutura definida e a saıda e uma estru-tura sintatica enriquecida com etiquetas morfo-sintaticas e entidades mencionadas.

2. Para todas as estruturas sintaticas do con-junto de treino e para todas as relacoes(semanticas) anotadas: se as palavras darelacao estiverem na estrutura sintatica fa-zer os passos 3 e 4;

3. Guardar o caminho da arvore sintatica en-tre as palavras envolvidas na relacao. Estecaminho e considerado um exemplo de ele-mento da relacao ontologica e e compostopor: sequencia de ligacoes necessarias e le-mas e etiquetas morfo-sintaticas das pala-vras que estao no caminho;

4. Guardar o contexto das palavras envolvidas

na relacao. O contexto e considerado umexemplo de elemento da classe ontologicae e composto por: lema, etiqueta morfo-sintatica e tipos ligacoes sintaticas que a pa-lavra possui;

No final deste processo, os caminhos encontra-dos para cada relacao da ontologia sao agrupadose utilizados para gerar um classificador estatısticopor relacao. Tambem os contextos encontradospara cada classe da ontologia sao agrupados eutilizados para gerar um classificador estatısticopor classe. Os classificadores estatısticos utiliza-dos sao baseados no algoritmo k-nearest neigh-bor (k-NN) e sao semelhantes aos utilizados noLEILA (Rodrigues, Paiva Dias e Teixeira, 2011).

O ultimo passo e melhorar a precisao dosclassificadores. Este passo assume que todas asrelacoes existentes no conjunto de treino forammarcadas. Assim, os classificadores comecampor avaliar todas as estruturas sintaticas do con-junto de treino. Todas as estruturas sintaticasque sao avaliadas como representando classes erelacoes da ontologia e que nao as representam,ou seja nao sao exemplos anotados, passam a sercontra-exemplos para o classificador que gerouessa avaliacao errada. Apos da recolha de todosos contra-exemplos, todos os classificadores saonovamente treinados agora utilizando os exem-plos e os contra-exemplos.

2.3.2 Aplicacao dos Modelos

A semelhanca do treino, a execucao da extracaode informacao inicia-se com o modulo de PLN aprocessar todos os documentos de modo a se ob-terem estruturas sintaticas para todas as frasesdos documentos. Seguidamente, os classificado-res estatısticos gerados na fase de treino avaliamse as estruturas sintaticas representam algumaclasse ou relacao da ontologia. Caso a avaliacaodo classificador seja mais elevada que o limiar deaceitacao, essa informacao e recolhida para umabase de conhecimento temporaria.

Apos a extracao de informacao segue a in-tegracao de informacao. O motor de inferenciasemantico aplica as regras ontologicas a todos osdados e verifica se nao existem implicacoes im-possıveis, ou seja verifica se a nova informacaoe coerente com a ontologia e com informacao japresente no sistema. O motor de inferencia uti-lizado e o Pellet (Sirin et al., 2007) que suportaintegralmente o formalismo OWL-DL. Toda a in-formacao coerente passa da base de conhecimentotemporaria para a base de conhecimento do sis-tema. A informacao incoerente nao e adicionadae gera um aviso no registo do sistema para se ave-riguar a causa da incoerencia. A base de conheci-

Criacao e acesso a informacao semantica aplicada ao governo electronico Linguamatica – 61

Page 8: Cria¸ca˜o e Acesso a Informac¸a˜o Semˆantica Aplicada ao ... · dom´ınio. DBPedia (Bizer et al., 2009) ´e uma base de conhecimento criada pela extra¸cao˜ de in-forma¸c˜ao

mento e armazenada e gerida pelo Virtuoso Uni-versal Server1. Este servidor tem, entre outrascaracterısticas, um motor de base de dados na-tivo para Resource Description Language (RDF),suporta pesquisas SPARQL e, como indicadordo seu desempenho, e o servidor da DBpedia2

que contem atualmente 3,64 milhoes de fatos dosquais 1,83 milhoes estao classificados numa onto-logia consistente (416.000 pessoas, 526.000 luga-res, 169.000 organizacoes, etc.).

Nesta fase tambem se procura informacao emfalta, de acordo com a ontologia, em fontes exter-nas estruturadas de informacao. E necessario quea informacao proveniente destas fontes seja estru-turada de modo a se poder definir uma semanticaapropriada para elas, uma vez que nesta fase doprocessamento a informacao entra diretamentena base de conhecimento, nao passando pelosclassificadores estatısticos responsaveis por dete-tar informacao semantica relevante.

Por agora existem dois tipos de informacaoadicionados caso estejam em falta na base deconhecimento: as coordenadas Global Positio-ning System (GPS) de entidades que deverao teruma localizacao fixa e a organizacao polıtica dosespacos.

As entidades que estao definidas na ontologiacomo tento uma localizacao fixa sao, por exem-plo, cidades, ruas, sedes de organizacoes e algunseventos. Nestes casos, caso nao existam na basede conhecimento, as coordenadas GPS destes lo-cais sao consultadas via Google Maps API.

Sendo esta aplicacao um sistema de pesquisade informacao para a area do e-gov e relevante sa-ber quais os locais polıticos relativos a informacao(rua ⊂ freguesia ⊂ cidade ⊂ concelho...). Assim,alem das coordenadas GPS tambem e adicionadaa organizacao polıtica dos espacos que e obtidautilizando uma ontologia geografica de Portugalcom cerca de 418 mil entradas chamado Geo-Net-PT01 (Chaves, Silva e Martins, 2005).

Estes dois tipos de informacao adicionadospermitem o sistema exibir informacoes espaci-almente num mapa e procurar e relacionar in-formacoes em funcao da sua localizacao (Rodri-gues, Paiva Dias e Teixeira, 2010b).

2.4 Interfaces de Acesso a Informacao

Foram implementadas duas formas de aceder ainformacao gerida pelo sistema. Uma destina-se a ser utilizada de um modo facil e intuitivopor pessoas e corresponde ao acesso via interfacede linguagem natural. A outra destina-se a serutilizada por sistemas que queiram aceder a in-

1http://virtuoso.openlinksw.com/2http://dbpedia.org/

formacao semantica contida na base de conheci-mento e corresponde ao acesso via interface paramaquinas. Ambas as interfaces sao explicadasseguidamente.

2.4.1 Interface para Utilizadores

Humanos

A interface para humanos suporta linguagem na-tural escrita e permite a interaccao usando Por-tugues. E uma interface flexıvel o suficiente parapermitir a pesquisa por palavras chave, tal comoos motores de pesquisa da Web, ou atraves daformulacao de perguntas em Portugues. Estaflexibilidade e importante uma vez que o e-govtem de servir a totalidade da populacao inde-pendentemente do seu nıvel de proficiencia nasTIC. Assim, utilizadores habituados a pesqui-sar informacao na Web podem pesquisar de ummodo que ja lhes e familiar ou entao podem for-mular as perguntas as quais querem obter respos-tas.

A interface utilizada e baseada no NLP-Reduce (Kaufmann e Bernstein, 2007), umainterface em linguagem natural para a websemantica, em Ingles e independente do domınio.A escolha do NLP-Reduce foi motivada poresta independencia de domınio, o que o tornaadaptavel aos varios assuntos do e-gov, e porser facilmente adaptavel ao Portugues uma vezque nao contem componentes especıficos paraprocessar Ingles. A sua abordagem evita deli-beradamente quaisquer tecnologias semantica oulinguıstica complexas e nao interpreta ou tentacompreender as perguntas efetuadas. Consisteem associar as palavras (e seus sinonimos) con-tidas na pergunta as expressoes utilizadas paradescrever classes, relacoes e indivıduos presen-tes na base de conhecimento. Deste modo, sea ontologia estiver descrita Portugues, uma parteconsideravel do sistema fica automaticamente emPortugues. Apenas foram necessarias pequenasadaptacoes para Portugues na formulacao dasperguntas como por exemplo palavras muito fre-quentes e com pouco significado (stopwords) e ospronomes interrogativos (qual, quem, etc.).

A interface constroi automaticamente umlexico usando as palavras contidas em todos osfatos explıcitos ou inferidos da base de conhe-cimento. Ao lexico sao igualmente adicionadosos sinonimos das palavras ja presentes nele. Aprocura de sinonimos e efetuada atraves da on-tologia lexical PAPEL (Oliveira, Santos e Go-mes, 2010), criado pela Linguateca a partir doDicionario PRO da Lıngua Portuguesa da PortoEditora. Tambem sao adicionadas ao lexico oslemas das palavras nele presentes de modo a au-mentar a abrangencia lexical.

62– Linguamatica Mario Rodrigues, Goncalo Paiva Dias & Antonio Teixeira

Page 9: Cria¸ca˜o e Acesso a Informac¸a˜o Semˆantica Aplicada ao ... · dom´ınio. DBPedia (Bizer et al., 2009) ´e uma base de conhecimento criada pela extra¸cao˜ de in-forma¸c˜ao

�������������������������� ���������������������������������������

���

�����

������

������

����

��������

��

��������

� ��

�����

��

��������

����������

�������������� �!������������� ���"��������� ������������� ��� ������

�������������� �!������������� ���"��������� ������������� �����������������

������������������

��# �������

��# �������

�������$%

&��##�����'��� &(������������

������������� ���������������������

����

�������������� �!������������� ���"

��������� ��������� ��� ������

������������� ������������������������������������������������

������

�������������� �!������������� ���"

��������� ����������� ������������������

�)*&$)+

�������������������������� ������������

���

�����

������

������

����

��������

��

��������

� ��

��������������������

,$% -�%%�������������� �!������������"

���������������������� �!........�!

�����������/���

Figura 7: Treino dos modelos e respetiva aplicacao. O treino comeca por guardar o caminho daarvore sintatica que liga as palavras envolvidas no exemplo semente. Apos a recolha de todos osexemplos (e contra-exemplos) os caminhos sao usados para treinar um classificador estatıstico baseadono algoritmo k-NN. Durante a execucao, os classificadores treinados sao aplicados avaliam todas asestruturas sintaticas de modo a verificar se estas representam uma relacao ontologica.

O processamento das entradas dos utilizadoresinicia-se com a remocao de sinais de pontuacao ede stopwords, tais como artigos, preposicoes, al-gumas conjuncoes. Seguidamente, com base noslemas das palavras sobrantes, e construıdo umapesquisa SPARQL que sera submetida a um mo-tor de pesquisas SPARQL. Considere-se o exem-plo da pergunta “Qual a deliberacao do processode obra submetido por Maria?”. A construcao dapesquisa SPARQL e efetuada do seguinte modo:

1. Sao procurados os fatos em que pelo me-nos um dos lemas da pesquisa faz parteda etiqueta de uma propriedade de ob-jeto. Considerando o exemplo, os fatoscontendo as propriedades <deliberacao> e<submetidoPor> serao retornados. As pro-priedades de objeto encontradas sao ordena-das de acordo com o ajustamento entre asua etiqueta e as palavras da pesquisa, porexemplo a etiqueta <submetidoPor> obtemmelhor classificacao com as palavras “sub-metido por” que uma etiqueta que fosse

<submetido>;

2. Sao procuradas no lexico elementos que po-dem ser conjugados com as propriedadesencontradas no passo 1, usando os res-tantes lemas da pesquisa e tomando emconsideracao os seus domınio e contra-domınio. No nosso exemplo sao procuradasos elementos que contenham “qual”, “pro-cesso”, “obra” e “maria”. Como a classe<Processo de obra> contem a palavra “pro-cesso” e “obra” e e o domınio de ambas aspropriedades obtidas no passo 1, este passaa ser o elemento de ligacao entre elas;

3. Sao procuradas no lexico as propriedadesrelativas a dados cujos valores correspon-dem aos restantes lemas da pesquisa. Estaspropriedades sao combinadas com as iden-tificadas anteriormente, tendo em conta osdomınios e contra-domınios de todas as pro-priedades envolvidas e ordenados conforme oseu ajustamento as palavras sobrantes. Daspalavras sobrantes do nosso exemplo, “qual”

Criacao e acesso a informacao semantica aplicada ao governo electronico Linguamatica – 63

Page 10: Cria¸ca˜o e Acesso a Informac¸a˜o Semˆantica Aplicada ao ... · dom´ınio. DBPedia (Bizer et al., 2009) ´e uma base de conhecimento criada pela extra¸cao˜ de in-forma¸c˜ao

e “maria”, a palavra “maria” existe comovalor da propriedade <Nome>. Como odomınio de <Nome> e a classe <Pessoa>que por sua vez e contra-domınio da relacao<submetidoPor>, a propriedade <Nome> eadicionada a pesquisa.

4. Por ultimo e gerada a pesquisa SPARQLcom a juncao de propriedades que obtive-ram a classificacao mais alta nos passos 1 e 3.Adicionalmente sao removidos os duplicadossemanticamente equivalentes e e efetuada apesquisa com o SPARQL gerado.

2.4.2 Interface para Maquinas

A interface para maquinas aceita como en-trada pesquisas em SPARQL e devolve um RDFcontendo o conjunto de resultados e respetivamarcacao semantica. Esta interface pode ser uti-lizada pela interface em linguagem natural, de-pois de gerar a pesquisa SPARQL, ou por siste-mas externos que pretendam aceder a informacaosemantica. O seu objetivo e possibilitar a intero-perabilidade entre este e outros sistemas.

A interoperabilidade e importante para o con-ceito de e-gov como uma plataforma. Este con-ceito e uma visao para o futuro em que um dospapeis principais dos sistemas de e-gov e o forne-cimento de informacao usando formatos abertose livres e interpretaveis por maquinas (Frissen etal., 2007; United Nations, 2010). A ideia e quese a informacao estiver disponıvel, existira maiortransparencia na definicao de polıticas publicase permitira que entidades extra-governamentaisutilizem essa informacao combinando-a de formasinovadoras e uteis para as populacoes.

A interoperabilidade tambem tem um papelcentral na Web semantica, um conceito introdu-zido em (Berners-Lee, Hendler e Lassila, 2001).A Web semantica e uma extensao da Web atualque visa atribuir um significado aos conteudosde modo que seja perceptıvel por pessoas e porcomputadores simultaneamente. Uma vez quea ontologia e tornada publica e o seu modo deacesso e uma norma aberta, qualquer entidadeexterna tem conhecimento do tipo de dados con-tidos na base de conhecimento, do seu significadosemantico e de qual o protocolo de acesso. Umaforma de explorar esta funcionalidade e mostradana Seccao 3.

3 Exemplos de Utilizacao

As experiencias relatadas nesta seccao foram con-cebidas para extrair informacoes sobre os assun-tos municipais publicos mais frequentes e maisprocurados por cidadaos e empresas. Para issoforam selecionados tres temas em atas munici-

pais publicas: os subsıdios concedidos, as licencasde construcao solicitadas, e protocolos assinadoscom outras instituicoes.

Um crawler web obteve todos os documen-tos disponıveis nos portais da Internet de setemunicıpios portugueses. Foram selecionados doisconjuntos aleatorios e disjuntos de 50 documen-tos cada. O documentos selecionados estavam noformato pdf. Um conjunto foi anotado manu-almente por uma pessoa e as anotacoes foramutilizadas para treinar o sistema de de classi-ficacao. O outro conjunto foi utilizado em tempode execucao para ter conhecimento extraıdo pelosistema.

Os utilizadores podem obter informacao uti-lizando a interface de linguagem natural. A Fi-gura 8 apresenta uma captura de ecra contendo aresposta a pergunta “Qual a deliberacao do pro-cesso de obra submetido por Maria?”. Na janelapor baixo da pergunta verifica-se que o SPARQLgerado e (URL’s e variaveis SPARQL abreviadospara ficar mais conciso):

select distinct * WHERE {?Proc <#SubmetidoPor> ?Pess .?Proc <#Deliberacao> ?Delib .?Pess <#Nome> ?Pess_Nome .FILTER(REGEX(?Pess_Nome,’maria’,’i’)).?Proc <#type> <#Processo_de_obra> .?Pess <#type> <#Pessoa>

}

A resposta a interrogacao SPARQL geradacontem apenas duas entradas na base de conheci-mento. A vantagem de ter uma base de conheci-mento semantica fica patente neste exemplo umavez que o sistema associa as palavras “processo deobra” a classe da ontologia “Processo de obra”,associa a palavra “Maria” a uma pessoa, e pro-cura obter o valor da propriedade “deliberacao”.Assim apenas sao verificadas as informacoes queo sistema capturou como relacionando processosde obra com pessoas chamadas Maria e nao to-das as frases que incluem (algumas das) palavras“processo”, “obra” e “Maria”. Outra vantageme ser possıvel mostrar imediatamente apenas asinformacoes consideradas relevantes, tais como oresultado da deliberacao e o nome completo dapessoa, sem mostrar todos os outros dados conhe-cidos. Contudo e possıvel obter mais dados umavez que tambem sao devolvidas as referencias dabase de conhecimento correspondentes aos pro-cessos de obra retornados.

A funcionalidade do acesso para aplicacoesexternas em SPARQL e demonstrada com umapagina web (Figura 9) onde sao mostradosnum mapa os locais que estao envolvidos nos

64– Linguamatica Mario Rodrigues, Goncalo Paiva Dias & Antonio Teixeira

Page 11: Cria¸ca˜o e Acesso a Informac¸a˜o Semˆantica Aplicada ao ... · dom´ınio. DBPedia (Bizer et al., 2009) ´e uma base de conhecimento criada pela extra¸cao˜ de in-forma¸c˜ao

Figura 8: A interface de linguagem natural es-crita. A entrada da pergunta e efectuada em 1 ea resposta dada em 2. Neste caso, solicitar signi-fica que a Camara Municipal solicitou mais do-cumentacao. Entre 1 e 2 pode-se ver a pesquisaSPARQL gerada.

subsıdios existentes na base de conhecimento dosistema. A pagina web desenvolvida faz umapergunta SPARQL onde questiona varias in-formacoes como a latitude e longitude das entida-des que concederam os subsıdios, o montante dedinheiro pedido e se foi atribuıdo e a quem. De-pois de obter a resposta em RDF, a pagina webexibe a informacao num mapa, usando para issoas coordenadas de latitude e longitude obtidas.Ao selecionar uma localizacao sao mostradas to-das as informacoes relativas a essa localizacao.

3.1 Avaliacao de Desempenho

Recentemente foi efetuada uma avaliacao de de-sempenho do sistema e os resultados obtidos fo-ram apresentados na EPIA2011 - 15th Portu-guese Conference on Artificial Intelligence (Ro-drigues, Paiva Dias e Teixeira, 2011). A ava-liacao implicou que uma pessoa verificasse quefatos relevantes estavam contidos nos documen-tos do conjunto de teste. O conjunto detetadopela pessoa passou a ser a “verdade” e serviu debase de comparacao para verificar que fatos fo-ram encontrados ou nao pelo sistema, e quais osque foram incorretamente extraıdos. Os fatos fo-ram considerados detetados se o sistema extraiuo tipo de fato (subsıdio, processo de obra, pro-tocolo) mesmo que estivessem em falta algunsdados como os pretendentes e as quantias envol-vidas. Os resultados estao sumarizados na Ta-bela 3.

Existiam um total de 32 subsıdios no con-junto de teste, dos quais o sistema detetou 14 e

Figura 9: A interface Web. No mapa estao mar-cados os locais para os quais existe informacao.Ao pressionar um local sao mostradas as in-formacoes relativas ao mesmo na parte inferiorda pagina.

nao houve nenhum falso positivo, isto e, todos ossubsıdio detetados eram realmente subsıdios. Re-lativamente a processos de obra o sistema detetou67 de um total de 68. Contudo foram tambemextraıdos como processos de obra 4 informacoesque nao o eram: 4 falsos positivos, Quanto aosprotocolos, o sistema detetou 8 dos 41 existentese houve um falso positivo. A baixa cobertura nadetecao de protocolos (0.20) esta em grande parteassociada a existencia de enumeracoes. Uma vezque estas nao existiam no conjunto de treino, osistema apenas detetou a primeira instituicao emenumeracoes do tipo “... protocolos ... com asseguintes instituicoes:” seguida da listagem deinstituicoes, uma por linha. Esta falha causou abaixa cobertura uma vez que por cada instituicaolistada, a excecao da primeira, foi considerado umprotocolo nao identificado.

O desempenho global do sistema relativa-mente a extracao de informacao semantica (pre-cisao 0.95; cobertura 0.63) esta em linha como estado da arte para Ingles: DBpedia (pre-cisao 0.86 a 0.99; cobertura 0.41 to 0.77), Kylin(precisao 0.74 a 0.97; cobertura 0.61 a 0.96), eYAGO/NAGA (precisao 0.91 a 0.99; cobertura

Criacao e acesso a informacao semantica aplicada ao governo electronico Linguamatica – 65

Page 12: Cria¸ca˜o e Acesso a Informac¸a˜o Semˆantica Aplicada ao ... · dom´ınio. DBPedia (Bizer et al., 2009) ´e uma base de conhecimento criada pela extra¸cao˜ de in-forma¸c˜ao

municıpioa b c d e f g precisao cobertura F1

subsıdio 0(2) 3(3) 4(11) 1(1) 1(1) 3(14) 0(0) 1.00 0.44 0.61processo de obra 3(4)1 13(13) 47(47) 0(0) 0(0) 4(4) 0(0) 0.94 0.99 0.97protocolo 3(4) 3(3) 0(3) 0(0) 7(24) 2(7)2 0(0) 0.89 0.20 0.32total 0.95 0.63 0.76

Tabela 3: Quantidade de fatos detetados pelo sistema. Os resultados apresentados para o conjuntode documentos de cada municıpio sao: a quantidade total de fatos corretamente detetados e, entreparentesis, o numero total de fatos encontrados pela pessoa, nesses mesmos documentos. Adicional-mente existem em (1) 4 processo de obra incorretamente extraıdos e em (2) 1 protocolo incorretamenteextraıdo.

nao reportada).

4 Conclusoes

Este artigo apresenta pela primeira vez o sistemacompleto com a nova interface em linguagem na-tural escrita. O artigo descreve ainda a criacaodo domınio de conhecimento e dos exemplos se-mente com um maior nıvel de detalhe em relacaoa publicacoes anteriores, permitindo assim ter-se uma percepcao mais aprofundada dos procedi-mentos a efetuar para utilizar o sistema em casosconcretos. A descricao efetuada contempla todosos modulos do sistema, proporcionando-se destemodo uma visao global do mesmo.

A aplicacao desenvolvida adiciona informacaosemantica ao conteudo existente em documentosescritos numa linguagem natural, o Portugues, edisponibiliza essa informacao via uma interfaceem linguagem natural ou via protocolos aber-tos de acesso a dados. As suas principais ca-raterısticas sao: aceitar diversos domınios do co-nhecimento desde que definido por uma ontolo-gia, obter informacoes acerca desse domınio emtextos escritos em linguagem natural, e dispo-nibilizar a informacao via interfaces apropriadaspara pessoas e para maquinas.

A preparacao da aplicacao a um novo domınioimplica um conjunto reduzido de tarefas que in-cluem a definicao desse domınio e o fornecimentode alguns exemplos do conteudo desse domınionos textos a processar. E igualmente possıvelalterar a lıngua base do sistema de Portuguespara outra alterando o modulo de PLN, semser necessario alterar os restantes modulos daaplicacao.

Este tipo de aplicacoes sao importantes para oe-gov porque o seu proprio sucesso depende, emgrande medida, da facilidade de obtencao de in-formacao e utilizacao dos seus servicos. Contudo,o desenvolvimento deste tipo de aplicacoes parao e-gov e para Portugues e uma tarefa que aindaapresenta desafios. Um deles e a adaptacao a estaarea especıfica, uma vez que o e-gov contem do-

cumentos que abarcam diversos assuntos e que,frequentemente, contem frases de difıcil inter-pretacao devido a sua extensao e ao estilo de es-crita. Outro desafio e o desenvolvimento de siste-mas de extracao e disponibilizacao de informacaosemantica para Portugues que, apesar da maturi-dade de varios recursos e ferramentas disponıveis,ainda nao sao comuns trabalhos acerca da sua in-tegracao e utilizacao em aplicacoes concretas.

Para concluir, o sistema funciona para o Por-tugues e foi construıdo reutilizando software doestado da arte maioritariamente desenvolvido vi-sando o Ingles. Isto mostra que e possıvel - e deveser tentado - integrar ferramentas de software dealto desempenho mesmo que inicialmente tenhamsido concebidas para outras lınguas naturais.

Agradecimentos

Os autores gostariam de agradecer ao Ciro Mar-tins pela cuidada anotacao dos exemplos sementenos documentos de treino do sistema.

Referencias

Banko, Michele, Michael J. Cafarella, StephenSoderland, Matthew Broadhead, e Oren Etzi-oni. 2007. Open information extraction fromthe Web. Em Proceedings of the Internatio-nal Joint Conference on Artificial Intelligence(IJCAI), Hyderabad, India.

Bast, Holger, Alexandru Chitea, Fabian Sucha-nek, e Ingmar Weber. 2007. ESTER: EfficientSearch on Text, Entities, and Relations. EmProc. 30th ACM SIGIR, pp. 679–686.

Berners-Lee, Tim, James Hendler, e Ora Lassila.2001. The Semantic Web. Scientific Ameri-can, 284(5):34–43.

Bizer, Christian, Jens Lehmann, Georgi Kobila-rov, Soren Auer, Christian Becker, RichardCyganiak, e Sebastian Hellmann. 2009. DB-pedia - A crystallization point for the Web ofData. Web Semantics: Science, Services andAgents on the WWW, 7(3):154–165.

66– Linguamatica Mario Rodrigues, Goncalo Paiva Dias & Antonio Teixeira

Page 13: Cria¸ca˜o e Acesso a Informac¸a˜o Semˆantica Aplicada ao ... · dom´ınio. DBPedia (Bizer et al., 2009) ´e uma base de conhecimento criada pela extra¸cao˜ de in-forma¸c˜ao

Brickley, Dan e Libby Miller. 2010. FOAFVocabulary Specification. Publicado onlineem 9 de Agosto May 24th, 2010 at http://xmlns.com/foaf/spec/.

Cardoso, Nuno. 2008. REMBRANDT - Re-conhecimento de Entidades Mencionadas Ba-seado em Relacoes e ANalise Detalhada doTexto. Em Desafios na avaliacao conjunta doreconhecimento de entidades mencionadas: OSegundo HAREM. Linguateca.

Chakravarthy, A., F. Ciravegna, e V. Lanfran-chi. 2006. Cross-media document annota-tion and enrichment. Em Proc. 1st Seman-tic Web Authoring and Annotation Workshop(SAAW2006).

Chatzidimitriou, M. e A. Koumpis. 2008.Marketing One-stop e-Government Solutions:the European OneStopGov Project. IAENGInternational Journal of Computer Science,35(1):74–79.

Chaves, M.S., M.J. Silva, e B. Martins. 2005.A Geographic Knowledge Base for SemanticWeb Applications. Em Proc. of Simposio Bra-sileiro de Banco de Dados.

Etzioni, O., M. Cafarella, D. Downey, S. Kok,A.M. Popescu, T. Shaked, S. Soderland, D.S.Weld, e A. Yates. 2004. Web-scale informa-tion extraction in KnowItAll:(preliminary re-sults). Em Proceedings of the 13th internatio-nal conference on World Wide Web, pp. 100–110. ACM.

Ferreira, Liliana, Cesar Telmo Oliveira, AntonioTeixeira, e Joao Paulo Silva Cunha. 2009. Ex-traccao de Informacao de Relatorios Medicos.Linguamatica, 1(1).

Freitas, Claudia, Paulo Rocha, e Eckhard Bick.2008. Floresta Sinta (c) tica: Bigger, Thickerand Easier. Computational Processing of thePortuguese Language.

Frissen, Valerie, Jeremy Millard, Noor Huijboom,Jonas Svava Iversen, Linda Kool, Bas Kotte-rink, Marc van Lieshout, Mildo van Staden, ePatrick van der Duin. 2007. The Future ofeGovernment: An exploration of ICT-drivenmodels of eGovernment for the EU in 2020.

GeoNames. 2010. GeoNames Geographical Da-tabase. http://www.geonames.org/export.

Gruber, Thomas R. 1993. A Translation Appro-ach to Portable Ontology Specifications. Kno-wledge Acquisition, 5:199–220.

Hall, Johan, Jens Nilsson, Joakim Nivre, GulsenEryigit, Beata Megyesi, Mattias Nilsson, e

Markus Saers. 2007. Single Malt or Blen-ded? A Study in Multilingual Parser Optimi-zation. Em Proc. of the Conference on Empi-rical Methods in Natural Language Processingand on Computational Natural Language Le-arning.

Kaufmann, Esther e Abraham Bernstein. 2007.How Useful Are Natural Language Interfa-ces to the Semantic Web for Casual End-Users? Em Karl Aberer, Key-Sun Choi, Na-tasha Fridman Noy, Dean Allemang, Kyung-Il Lee, Lyndon J. B. Nixon, Jennifer Gol-beck, Peter Mika, Diana Maynard, RiichiroMizoguchi, Guus Schreiber, e Philippe Cudre-Mauroux, editores, ISWC/ASWC, volume4825 of Lecture Notes in Computer Science,pp. 281–294. Springer.

Layne, Karen e Jungwoo Lee. 2001. Developingfully functional E-government: A four stagemodel. Government Information Quarterly,18(2):122–136.

Li, Yunyao, Huahai Yang, e H. V. Jagadish.2005. NaLIX: an interactive natural languageinterface for querying XML. Em Proc. of theACM SIGMOD international conference onManagement of data, pp. 902.

Mihalcea, R. 2010. Performance Analysis ofa Part of Speech Tagging Task. Computati-onal Linguistics and Intelligent Text Proces-sing, pp. 299–321.

Mota, Cristina e Diana Santos, editores. 2008.Desafios na avaliacao conjunta do reconheci-mento de entidades mencionadas: O SegundoHAREM. Linguateca.

National Imagery and Mapping Agency.2000. Department of Defense World Ge-odetic System 1984: its definition andrelationships with local geodetic sys-tems. http://earth-info.nga.mil/GandG/publications/tr8350.2/tr8350_2.html.

Oliveira, Hugo Goncalo, Diana Santos, e PauloGomes. 2010. Extraccao de relacoessemanticas entre palavras a partir de um di-cionario: o PAPEL e sua avaliacao. Lin-guamatica, 2(1):77–93.

Paiva Dias, Goncalo. 2006. Arquitectura desuporte a integracao de servicos no governoelectronico. Tese de doutoramento, Universi-dade de Aveiro.

Ranchhod, Elisabete, Cristina Mota, e JorgeBaptista. 1999. A Computational Lexiconof Portuguese for Automatic Text Parsing.Em Proc. of SIGLEX99: Standardizing Lexi-cal Resources - ACL.

Criacao e acesso a informacao semantica aplicada ao governo electronico Linguamatica – 67

Page 14: Cria¸ca˜o e Acesso a Informac¸a˜o Semˆantica Aplicada ao ... · dom´ınio. DBPedia (Bizer et al., 2009) ´e uma base de conhecimento criada pela extra¸cao˜ de in-forma¸c˜ao

Rodrigues, Mario, Goncalo Paiva Dias, e AntonioTeixeira. 2010a. Human Language Techno-logies for e-Gov. Em Proc. of the 6th Inter-national Conference on Web Information Sys-tems and Technologies, pp. 400–403, Valencia,Spain.

Rodrigues, Mario, Goncalo Paiva Dias, e AntonioTeixeira. 2010b. Knowledge Extraction fromMinutes of Portuguese Municipalities Mee-tings. Em Proc. of the FALA 2010 - VI Jor-nadas en Tecnologıa del Habla and II IberianSLTech Workshop.

Rodrigues, Mario, Goncalo Paiva Dias, e AntonioTeixeira. 2011. Ontology Driven KnowledgeExtraction System with Application in e-Government. Em Proc. of the 15th PortugueseConference on Artificial Intelligence, pp. 760–774, Lisboa, Portugal.

Santos, Diana e Nuno Cardoso, editores. 2007.Reconhecimento de entidades mencionadasem portugues: Documentacao e actas do HA-REM, a primeira avaliacao conjunta na area.Linguateca.

Schmid, Helmut. 1994. Probabilistic Part-of-Speech Tagging Using Decision Trees. EmProc. of International Conference on NewMethods in Language Processing, volume 12.

Sirin, E., B. Parsia, B.C. Grau, A. Kalyanpur, eY. Katz. 2007. Pellet: A Practical OWL-DLReasoner. Web Semantics: science, servicesand agents on the World Wide Web, 5(2):51–53.

Sroga, Magdalena. 2008. Access-eGov-PersonalAssistant of Public Services. Em Proc. ofthe International Multiconference on Compu-ter Science and Information Technology, pp.421–427.

Suchanek, Fabian M., Gjergji Kasneci, e GerhardWeikum. 2007. YAGO: a core of semanticknowledge. Em WWW ’07, pp. 697–706, NewYork, NY, USA. ACM.

Suchanek, F.M., G. Ifrim, e G. Weikum. 2006.LEILA: Learning to Extract Information byLinguistic Analysis. Em Proc. of the ACLWorkshop OLP.

United Nations. 2010. United Nations E-Government Survey 2010 - Leveraging e-government at a time of financial and econo-mic crisis.

Wang, C., M. Xiong, Q. Zhou, e Y. Yu. 2007.Panto: A portable natural language interfaceto ontologies. LNCS, 4519:473.

Weibel, S., J. Kunze, C. Lagoze, e M. Wolf.2007. Dublin Core Metadata for ResourceDiscovery. RFC 5013 (Informational). http://www.ietf.org/rfc/rfc5013.txt.

Wu, Fei, Raphael Hoffmann, e Daniel S. Weld.2008. Information extraction from Wikipe-dia: moving down the long tail. Em Proc.of the 14th ACM SIGKDD international con-ference on Knowledge discovery and data mi-ning, KDD ’08, pp. 731–739, New York, NY,USA. ACM.

68– Linguamatica Mario Rodrigues, Goncalo Paiva Dias & Antonio Teixeira