dados públicos

Por dados públicos entendo dados recolhidos por qualquer organismo público e que actualmente já possam ser requisitados livremente pelos cidadãos.

Na minha opinião deveria ser promovida a disponibilização dessa informação digital, em formatos abertos, através de plataformas facilmente “descobriveis” (findable) e “inquiriveis” (queriable).

Este processo deveria aplicar-se aos diferentes niveis de administração pública: central, regional, autárquico.
Deveria ser tão fácil encontrar dados sobre a população portuguesa (que mais ou menos facilmente encontramos no site do INE) como sobre o orçamento da mais pequena Junta de Freguesia.

Assim como um computador (hardware) não serve para nada sem um sistema operativo e outras aplicações (software), também o software não serve para nada sem dados para o alimentar.

Penso ainda que este é um ponto que pode contribuir decisivamente para questões cada vez mais importantes como a transparência e o escrutinio da utilzação de recursos públicos.

A seguir incluo uma apresentação daquilo que temos actualmente, porque me parece insuficiente e para onde poderíamos caminhar

—————-

O que temos actualmente
Em Portugal já temos alguns bons exemplos de disponibilização online de informação, como o site do INE e do Banco de Portugal, no entanto quem quiser construir algum tipo de trabalho em cima desses dados, seja um site para exploração de informação, seja uma análise estatística para uma dissertação de doutoramento, seja uma simples reportagem jornalística, terá sempre que passar pelo processo altamente ineficiente de aceder ao site, descobrir os indicadores a usar, exportar os resultados para um dos formatos disponíveis (excel, csv, …), copiar essa informação para o seu próprio software e só depois começar a explorar essa informação.

Este processo, para além de altamente improdutivo e ineficiente, cria também mais um nível de entropia na medida em que se perde a rastreabilidade em relação à fonte de dados… quando quiser voltar a ir buscar a mesma informação terei que efectuar todo o processo novamente… não há um mecanismo automatizável que me permita fazer tudo de uma só vez.
O ideal seria ter algo do tipo: www.ine.pt/indicadores/populacaoResidente/nutsII/2007?formato=xml
Este endereço deveria devolver os dados referentes à população residente em portugal, dividido por nuts II, em 2007, sendo esses dados devolvidos em formato XML.
Este método poderia ainda facilitar a actualização automática de informação que se perde quando copiamos informação entre sistemas na medida em que o mesmo endereço poderia fornecer os dados mais actualizados quando estes são sujeitos a correcção.

De notar que a opção que quer o INE quer o Banco de Portugal têm actualmente é uma solução que assenta no paradigma de que quem recolhe informação tem também que disponibilizar os meios para a visualizar.
Essa opção, inquestionável há uns cinco anos, já não é tão premente numa altura (da chamada web2.0) em que as ferramentas para trabalhar dados e grandes volumes de dados começam a estar disponiveis para um número cada vez mais alargado de pessoas. veja-se o ecossistema dos chamados mashups construidos em cima de apis (pt.wikipedia.org/wiki/API) públicas

Outros exemplo são os sistemas de informação geográfica que alguns sites de câmaras municipais disponibilizam como por exemplo a carta dos valores arquitectónicos que a cm-porto disponibiliza (http://sigweb.cm-porto.pt/munisigweb/mapviewer/sectionsviewer.aspx?id=29).
De facto a informação aí disponibilizada já está num formato digital mas, mais uma vez, obriga a que seja utilizada a plataforma que a própria câmara oferece. Para além disso, neste caso específico, não é sequer possível exportar a informação para um formato standard. O grande contra desta opção é que não consigo pegar na informação aqui disponibilizada, junta-la com informação que recolhi de outro serviço online (por exemplo população por freguesia ou simplesmente o tempo) e criar um novo serviço.
Na verdade a informação que é disponibilizada desta forma não difere muito da informação que só está disponivel quando temos que ir a uns serviços camarários, preencher um requerimento e depois esperar que alguém se digne a nos responder.

Outro exemplo de informação que aparentemente já está online mas que na verdade é pouco mais do que ter essa informação numa prateleira real de uma biblioteca são os documentos não sistematizados de informação facilmente sistematizável. Um exemplo concreto: os orçamentos camarários.
Provavelmente todos os sites das câmaras municipais disponibilizam um pdf com o documento que foi apresentado à assembleia municipal mas se nos perguntarmos que tipo de análise se consegue fazer facilmente a partir desse documento percebemos que não conseguimos muita coisa.
E a palavra chave aqui é o facilmente. Se temos informação em formato digital porque razão ela não há-de ser facilmente trabalhada?
Por exemplo, é fácil sistematizar a comparação entre anos das diferentes rubricas do orçamento? quanto prevejo gastar este ano em relação ao que gastei nos últimos cinco anos?
E se quiser comparar os orçamentos de câmaras municipais com populações semelhantes? por exemplo como compara o orçamento de uma câmara com 200.000 habitantes no Norte com outra de 200.000 no Sul? Ou uma outra com entre 50 e 75 mil habitantes no litoral com outra do género no interior?
Se temos os orçamentos em formato digital e temos a informação do número de pessoas por concelho também em formato digital o que falha aqui?
O que falha é o formato. Para este caso (e outros similares) deveria ser criado algo parecido com o SAFT que as empresas têm que entregar e que deveria ser acessivel através do site das próprias câmaras.
A minha proposta seria ter algo como:
www.camara-municipal.pt/orcamento/todasContas/2008
www.camara-municipal.pt/orcamento/cultura/2008

—————-

Que dados disponibilizar?
# que dados é que são / devem ser públicos
# que questões de privacidade se podem levantar

certamente que há questões de privacidade que se podem levantar quando disponibilizamos informação. não sou um especialista nesta área mas exemplos como o site http://transparencia-pt.org/ que inclui nomes de empresas e valores de contratos, ou a lista de devedores ao fisco fazem-me pensar que no essencial toda a informação contabilistica dos organismos públicos deve ser pública, desde as contas agregadoras do poc até à factura.
também informação indirecta recolhida pelos serviços da administração pública deve estar online. por exemplo o ministerio da economia tem a responsabilidade de verificar todas as bombas de gasolina do país, isso quer dizer que tem que saber onde elas estão, e se elas existem e são públicas porque não há-de essa informação estar online?
muitos outros exemplos existirá certamente. o principio de fundo aqui é: se essa informação foi obtida por um organismo público e que portanto pertence a todos nós então essa informação também deveria ser pública.

—————-

Outras questões

>>1. A quem interessa essa informação disponibilizada?
acho que isso não é assim tão importante porque na verdade quase nunca conseguimos antecipar os usos verdadeiramente inovadores e interessantes que podem aparecer quando algo de novo é disponibilizado ao mundo.
por exemplo quem é que imaginava que pelo simples facto de se ter criado uma coisa tão geeky como o protocolo http hoje teríamos esta realidade quase ubiqua que é o mundo online

>>2. Como evitar que informação relevante seja apresentada e não possa ser escondida?
toda a informação relevante tem que ser apresentada a alguém porque senão não é informação, é uma amontoado de dados que na verdade não serve para nada.
a questão que se levanta com a informação em formato digital é que ela dá visibilidade a problemas que já existiam.
problemas de privacidade ou de acesso à informação sempre existiram mas normalmente eram resolvidos pela simples razão de que essa informação estaria numa estante não identificada numa sala de um edifício que quase ninguém sabia que existia ou onde ficava… mas bastava ter essa informação indirecta (onde estavam as coisas) e conseguíamos chegar à informação.
é mais ou menos parecido com o conceito “security by obscurity”  http://en.wikipedia.org/wiki/Security_through_obscurity ou seja a segurança que implementas não é propriamente intrínseca ao processo mas antes é obtida pela dificuldade em conseguir saber sequer o que existe.

—————-

Iniciativas noutros países
http://vancouver.ca/ctyclerk/cclerk/20090519/documents/motionb2.pdf – Open Data, Open Standards and Open Source
http://ascher.ca/blog/2009/05/15/open-vancouver/ – open vancouver
As Sir Tim Berners-Lee (the creator of the web) discusses in this 15-minute TED talk, the simple act of releasing public data enables others to create value.  Of course, as the motion indicates, personal privacy rights trump, and we don’t want to release data on individual citizens — luckily that’s not needed in order to enable value creation.

http://oakland.crimespotting.org/

http://scilib.typepad.com/science_library_pad/2009/06/uk-open-data-open-government.html – uk open data, open government

por Vitor Silva



2 Comments

  1. Ida Brandão wrote:

    A propósito deste artigo, muito pertinente, estive a ver a TED TalK do Tim Burners-Lee que faz referência a uma outra TED Talk de Hans Rosling, esta absolutamente empolgante e que recomendo vivamente, pois faz uma análise estatística dinâmica temporal da evolução dos diferentes países, a nível mundial, com uma ferramente desenvolvida por ele e familiares

    http://www.ted.com/talks/hans_rosling_shows_the_best_stats_you_ve_ever_seen.html

  2. vitorsilva wrote:

    sem dúvida.
    de notar que tim berners-lee é agora consultor do governo inglês (reino unido) para estas questões
    http://news.bbc.co.uk/2/hi/technology/8096273.stm

Leave a Reply