🏆 Este projeto consiste em uma aplicação vencedora do Prêmio Dados Abertos para o Desenvolvimento, realizado pelo BNDES.
Gaia é um robô que identifica, através de informações sobre o CNPJ, a probabilidade da empresa ser uma poluidora do meio ambiente. O nome do modelo faz alusão à deusa da mitologia grega, que personifica a deusa da Terra, geradora de todos os deuses e criadora do planeta.
Esta aplicação foi criada com intuito de auxiliar as equipes de negócio BNDES a identificar como a carteira de clientes está exposta ao risco ambiental.
- Análise exploratória dos dados de operações diretas e indiretas automáticas do BNDES;
- Modelo de identificação do potencial poluidor de determinada empresa, a partir dos dados do CNPJ;
- Dashboard em shiny com análise dos resultados das previsões do modelo Gaia sobre os dados de operações automáticas indiretas a partir de 2016;
-
Operações indiretas automáticas do BNDES
- Sobre: Informações detalhadas sobre as operações indiretas contratadas de forma automática. Nas operações indiretas, a análise do financiamento é feita pela instituição financeira credenciada, que assume o risco de não pagamento da operação. É ela também que negocia com o cliente as condições do financiamento, como prazo de pagamento, spread de risco e garantias exigidas, respeitando algumas regras e limites definidos pelo BNDES. Não foram incluídas nesta listagem as operações do Cartão BNDES e nem as contratadas com Pessoas Físicas. Dados, em reais, a partir de 2002;
- Função: principal dataset deste projeto. Com estes dados foi possível analisar como está a carteira de clientes de operações indiretas do BNDES sob a ótica dos riscos ambientais.
-
Cadastro de empresas potencialmente poluidoras
- Sobre: Relação das pessoas jurídicas que efetuaram a inscrição no Cadastro Técnico Federal de Atividades Potencialmente Poluidoras e Utilizadoras de Recursos Naturais – CTF/APP. Neste link consta apenas uma parte de base de dados, que está dividada por Unidade Federativa;
- Função: Dados sobre CNPJ de empresas consideradas potencialmente poluidoras.
-
Coleção de CNPJs e CPFs brasileiros
- Sobre: Documentos coletados de dados públicos, a partir dos seguintes datasets: socios-brasil, gastos-diretos, gastos-deputados, eleicoes. Nota: os CPFs foram ofuscados por questões de privacidade;
- Função: Coletou-se um conjunto de CNPJs que não constam na base de Cadastro de Empresas potencialmente poluidoras, para identificar padrões de empresas que não seria, a princípio, poluidoras.
-
Emissão de Poluentes Atmosféricos
- Sobre: Relação das pessoas jurídicas inscritas no Cadastro Técnico Federal de Atividades Potencialmente Poluidoras e Utilizadoras de Recursos Naturais – CTF/APP e cadastradas em atividades para as quais é obrigatório o preenchimento do formulário “Emissões de Poluentes Atmosféricos” no Relatório Anual de Atividades Potencialmente Poluidoras e Utilizadoras de Recursos Ambientais – RAPP;
- Função: Dados que serviram para identificar concentração de poluentes atmosféricos por municípios.
-
- Sobre: Comunicações de acidentes ambientais registradas no Sistema Nacional de Emergências Ambientais (Siema);
- Função: Dados para de georeferenciamento, para serem comparados com a localização das operações do BNDES nos municípios.
-
- Sobre: Dataset de Áreas Embargadas pelo IBAMA;
- Função: Dados para de georeferenciamento, para serem comparados com a localização das operações do BNDES nos municípios.
-
- Sobre: Lista das UCs ativas no CNUC com respectivas categorias de manejo, área, esfera de governo e ano de criação;
- Função: Dados para de georeferenciamento, para serem comparados com a localização das operações do BNDES nos municípios.
- Obs.: dados coletados com pacote do GeoBR
-
Ocorrências de Incêndio Florestais
- Sobre: Registro de Ocorrências de Incêndio verificadas pelas brigadas Prevfogo;
- Função: Dados para de georeferenciamento, para serem comparados com a localização das operações do BNDES nos municípios.
-
- Sobre: Tabelas que contém dados sobre as terras indígenas, aldeias, Coordenações Regionais e Coordenações Técnicas Locais da Funai.;
- Função: Dados para de georeferenciamento, para serem comparados com a localização das operações do BNDES nos municípios
- Obs.: dados coletados com pacote do GeoBR
-
Geolocalização dos municípios brasileiros
- Sobre: é um dataset simples, mas eficaz, latitude e longitude dos municípios brasileiros;
- Função: este dataset foi útil para geolocalizar empresas
-
- Sobre: São apresentados, a preços correntes, os valores adicionados brutos dos três grandes setores de atividade econômica – Agropecuária, Indústria e Serviços – bem como os impostos, líquidos de subsídios, o PIB e o PIB per capita;
- Função: útil para AED dos dados de financiamento
O modelo preditivo Gaia foi desenvolvido com redes neurais através da biblioteca LightAutoML (LAMA). Para processar os textos de variáveis como razão social e CNAE dos clientes, utilizou-se do modelo de vetorização pré-treinado BERT multilingual base model (cased), desenvolvido pelo Google Research.
Para analisar os resultados do modelo, criou-se um dashboard com as seguintes funcionalidades:
- Análise Exploratória dos Dados sobre de dados de financiamentos diretos e indiretos;
- Análise Exploratória dos Dados sobre os resultados gerados pelo modelo Gaia;
- Painel de consulta dos riscos ambientais, por município e CNAE, sobre operações indiretas automáticas; Mapas interativos sobre:
- Distribuição espacial das operações de financiamento, sejam poluidoras ou não, em comparação com a emissão de carbono;
- Distribuição espacial das operações de financiamento, sejam poluidoras ou não, com áreas de Unidade de Conservação, Terras Indígenas e Áreas Embargadas;
- Distribuição espacial das operações de financiamento, sejam poluidoras ou não, com pontos de acidentes ambientais e incêndios florestais.
- Linguagem Python para extração e organizacao dados, além da modelagem do Gaia;
- Linguagem R para visualização;
- SQL para requisição de dados de CNPJ;
- ShinyDashboard para criação do interface de visualização;
- API de Google Maps Services para extração de geocode;
- Leaflet para visualização de dados geolocalizados;
- LightAutoML (LAMA) para construção do modelo Gaia;
- Modelo BERT para processar os textos em dados tabulares;
Agradecemos a todos projetos open-source que tornaram o desenvolvimento dessa solução possível. Tks! 🙂
- Minha Receita: API web para consulta de informações do CNPJ (Cadastro Nacional da Pessoa Jurídica) da Receita Federal.
- Brasil.io: referência para quem procura ou quer publicar dados abertos sobre o Brasil de forma organizada, legível por máquina e usando padrões abertos.
- BaseDosDados: plataforma que visa facilitar o acesso a base de dados nacionais e internacionais.
- GeoBR: pacote em R com dados georeferenciados do Brasil sobre diversos temas. Neste trabalho, utilizou-se o georeferenciamento de Reservas Indígenas (FUNAI) e Unidades de Conservação (IBAMA).
- LightAutoML (LAMA): é uma framework open source de AutoML desenvolvida pelo Sberbak AI Lab AutoML Group. É uma ferramenta para desenvolvimento de modelos que envolvam problemas de classificação binária, multiclass e regressão.
- HuggingFace: Comunidade de AI para compartilhar modelos pré-treinados, principalmente voltados a processamento de linguagem natural.