Scrapers, Repositórios e APIs

Um boneco para me ajudar a perceber o que temos feito no Projecto Transparência

1. há um conjunto de sites onde vamos querer ir retirar informação
2. esse processo é feito criando programas que fazem o scrap dessa informação
3. essa informação é gravada em repositórios de desenvolvimento. os repositorios de desenvolvimento seriam aqueles sobre os quais as pessoas podem contribuir
3.1 eu sugeria que o couchdb tivesse tudo o que temos disponivel, mesmo que haja outra outras bds para onde é atirada inicialmente essa informação (por exemplo mysql). sugiro isto porque me parece interessante o mecanismo de revisões automáticas que o couchdb tem e que pode ser interessante para recolher conbtributos externos ou “massajar dados” e também gosto de poder ter disponivel a informação logo em json
4. para além dos repositorios de desenvolvimento seria interessante ter depois algum mecanismo que periodicamente criasse dumps de tudo o que temos, considerando 2 opções, um dump completo e um dump com as novidades desde a última exportação. estes repositorios seriam o nosso contributo para quem quisesse desenvolver aplicações com estes dados.
5. colaboração – quem quiser colaborar com dados pode pegar no que temos, acrescentar/alterar informação e reenviar-nos para nós posteriormente acrescentarmos aos nossos repositorios
6. claro que seria interessante num futuro termos uma api 🙂
7. e os “sites transparencia” baseados naquilo que fomos disponibilizando.

por Vitor Silva



Leave a Reply