Background Image
Previous Page  14 / 41 Next Page
Information
Show Menu
Previous Page 14 / 41 Next Page
Page Background

INEWS

n

º 28

JUNHO’ 2016

-14-

voltar

O INE desenvolveu internamente um modelo que permite

controlar todo o processo do ciclo

Web Scraping

. A infraestrutura

- extração, armazenamento e análise - utiliza o

Python

como

linguagem base de programação, sendo integralmente apoiada

em ferramentas “free” e “open source”.

Pretende-se, assim, fomentar uma cultura de inovação que

estimule a investigação por parte dos técnicos, incentive o

debate sobre os processos tecnológicos e metodológicos em

uso e abra caminho à exploração e utilização de técnicas de

Big

Data

, como fonte alternativa ou complementar aos inquéritos

do INE, permitindo futuramente reduzir o custo da informação

produzida.

Este projeto de I&D está em linha com práticas semelhantes

seguidas à escala internacional, sendo cofinanciado pelo

Eurostat (no âmbito da modernização das estatísticas de preços

no consumidor).

Um “ciclo”

Web Scraping

é composto por várias fases:

i) estudo da página web da qual se quer extrair informação;

ii) desenvolvimento e teste do código de extração e limpeza da informação;

iii) e, finalmente, armazenamento em base de dados.