Portal Oficial - Instituto Nacional de Estatística

Portal Oficial - Instituto Nacional de Estatística

API de Autocomplete


API desenvolvida pelo INE para uso no processo de codificação automática (via autocomplete) de expressões das variáveis Profissão, Curso Superior e Atividade Económica.

A API possibilita a qualquer utilizador que desenvolva um formulário WEB evocá-la e, através dela, obtenha uma codificação harmonizada com as nomenclaturas do INE, em vez de desenvolver e usar as suas próprias codificações e agregações.



Introdução

A API de autocomplete é um serviço de Backend que devolve uma lista das sugestões mais prováveis de completar um input inicial.

A API assenta num princípio de acesso REST (Representational State Transfer), mas como apenas se efetuam pesquisas, só está disponível o método GET. 


Acesso

URL raiz da API

Todas as chamadas à API iniciam pelo url: https://apife.ine.pt

URL de posicionamento

Do ponto de vista do consumidor do serviço, segue-se o segmento “dic” (que indica que se pretende aceder a um dicionário). Por fim o segmento identificador do dicionário que se pretende usar para autocomplete.

Nesta fase, os dicionários de teste disponíveis são:


Utilização

Existem dois casos de uso disponíveis para consumo:

Prefetch

/preftech (https://apife.ine.pt/dic/{identificador_de_dicionario}/prefetch)

Para o dicionário identificado, retorna uma lista de entradas mais frequentes. Pode ser invocado e guardado em cache no cliente do autocomplete



Pesquisa

?q=XXXX (https://apife.ine.pt/dic/{identificador_de_dicionario}/?q={texto_a_pesquisar})

https://apife.ine.pt/dic/CPP2010/?q=baila



Estrutura

O prefetch e a pesquisa devolvem arrays em JSON com objetos que têm a estrutura:

[ { c : ”AAA”, d : “BBBB”, t : “CCCCC”}, …]

Em cada elemento:

  • “c” contém o código;
  • “d” a designação a apresentar como sugestão;
  • “t” uma string de palavras separadas por espaços que denominaremos de tokens.

A ordem dos elementos no array reflete a sua ordenação por relevância (primeiro os mais relevantes).



Dicionários

A base de construção dos Dicionários, para além das listas oficiais de codificação (CAE Rev3, CPP 2010, CNAEF), reside em todo o histórico de codificação manual de mais de 30 operações estatísticas realizadas ao longo de cerca de 8 anos no âmbito dos Inquéritos às Famílias. À data, o total de entrevistas realizadas ultrapassava as 600000. Foram consideradas elegíveis para enriquecer os classificadores todas as expressões (1) com uma frequência igual ou superior a 10 e uma consistência de codificação de 90% e (2) com uma frequência igual ou superior a 5 e uma consistência de codificação de 100%. De seguida, foi calculada uma distância métrica entre as expressões já existentes no classificador e as restantes do histórico. Foi utilizada a Optical String Alingment - uma extensão da medida de Levenshtein - para o cálculo da distância a um intervalo de 1 a 3. Após validação, as expressões que se verificaram equivalentes no significado, mas distintas na grafia, foram integradas nos Dicionários.



Esquema de Criação de Dicionários

Figura 1- Esquema de Criação de Dicionários


Nomenclaturas

Como referido a API efetua a classificação de expressões com base em três nomenclaturas



Para a classificação das profissões é utilizada a Versão SMI : V02014- Classificação portuguesa das profissões, CPP 2010 que pode ser consultada em: https://smi.ine.pt/Versao/Detalhes/2014?modal=1



Para a classificação da Atividade económica é utilizada a Versão SMI: V00554 - Classificação portuguesa das atividades económicas, revisão 3 que pode ser consultada em: https://smi.ine.pt/Versao/Detalhes/554?modal=1



Para a classificação dos Cursos Superiores é utilizada a Versão SMI: V04477 - Qualificações do ensino superior, 2020 (Cursos - IINQE) que pode ser consultada em: https://smi.ine.pt/Versao/Detalhes/4477?modal=1



Este novo serviço API concretiza a Medida #111 “iDataCode” do programa iSIMPLEX2019 e o Programa SAMA2020 - POCI-05-5762-FSE-000193