Em 18 de novembro de 2011, foi sancionada a Lei nº 12.527 que regulamenta o direito constitucional de acesso à informações públicas aos cidadãos, com o objetivo de fortalecer a democracia brasileira e as políticas de transparência pública. A chamada Lei de Acesso à Informação (LAI), em linhas gerais diz que, com exceção de informações pessoais e sigilosas legalmente estabelecidas, toda informação produzida pelo estado é pública.
Os principais aspectos da LAI são:
- Acesso é a regra, o sigilo, a exceção (divulgação máxima)
- Requerente não precisa dizer por que e para que deseja a informação (não exigência de motivação)
- Hipóteses de sigilo são limitadas e legalmente estabelecidas (limitação de exceções)
- Fornecimento gratuito de informação, salvo custo de reprodução (gratuidade da informação)
- Divulgação proativa de informações de interesse coletivo e geral (transparência ativa)
- Criação de procedimentos e prazos que facilitam o acesso à informação (transparência passiva)
Fonte: http://www.acessoainformacao.gov.br/assuntos/conheca-seu-direito/principais-aspectos
Para garantir a transparência passiva, foi criado o Sistema Eletrônico do Serviço de Informações ao Cidadão (e-SIC), que permite qualquer pessoa, física ou jurídica, fazer pedidos de acesso à informação e acompanhar o tramite.
Este trabalho tem como objetivo realizar uma mineração de texto nos pedidos de acesso à informação realizados à prefeitura de São Paulo no ano de 2018 com o intuito de identificar as principais necessidades de informações da população no que diz respeito à educação, saúde e transportes visando fornecer insumo ao planejamento de melhora dos serviços públicos para os anos subsequentes e melhora da comunicação com o público.
A base que estamos analisando possui 35.689 registros com 8 colunas. Essa base foi obtida no portal de dados abertos da prefeitura de São Paulo no link abaixo:
As colunas estão descritas na tabela abaixo:
Coluna | Definição |
---|---|
cd_atendimento_pedido | Código único para cada movimentação do pedido (a partir de 2018) |
status_nome | Nome do status do pedido (Ex: Atendido, finalizado, 2ª instância, etc.) |
cd_orgao | Código de identificação do órgão responsável pelo pedido |
orgao_nome | Nome do órgão responsável pelo pedido |
cd_pedido | Código do pedido (protocolo único de cada pedido) |
dc_pedido | Conteúdo do Pedido |
dt_resposta_atendimento | Data do pedido ou movimentação |
dc_resposta | Resposta do pedido |
Após a leitura da base, tratamos a coluna dc_pedido, transformando-as para caracteres, em seguida dt_resposta_atendimento é reformatada, trocando-se “/” por “-“ para que se possa separa-la em 4 colunas: data, ano, mês e dia. Em seguida, a partir da coluna orgao_nome, cria-se uma nova coluna apenas com a sigla do órgão para facilitar as visualizações.
A partir deste ponto inicia-se a análise exploratória com uma contagem de pedidos únicos por órgão com status de início (Em Tramitação) e fim (Finalizado). Pode-se observar na figura 1 abaixo os órgãos que mais recebem pedidos de acesso à informação, sendo áreas como educação, saúde e transportes as principais. Por conta disso e pelo fato de existirem mais de 100 órgãos no dataframe, optou-se por analisar os órgãos SME, SMS e SPTrans.
Seguindo a análise, pode-se observar na figura 2 o comportamento dos pedidos durante o ano de 2018, alcançando um pico de pedidos no mês de Maio e um declínio a partir de Setembro até Dezembro.
Na figura 3, pode-se observar a evolução dos pedidos dia a dia no mês de Maio, que foi o mês com o maior número de pedidos como visto anteriormente. Nesse mês, observa-se que o aumento aconteceu no final, particularmente nos dias 26 e 30.
Pode-se observar na figura 4 o comportamento dos pedidos nos 3 órgão selecionados durante o ano de 2018. A SME e SMS aparentemente seguem a mesma lógica da figura 2 com picos por volta do meio do ano e declínio ao final, porém a SPTrans segue um padrão um pouco diferente, com pico em janeiro seguido de um declínio até maio.
Inicialmente , o campo dc_pedido contendo os pedidos de acesso à informação foi separado em tokens e retirada as stop words da língua portuguesa, porém notou-se algumas palavras que não adicionavam significância à análise, logo foram retiradas também junto das stop words.
Após o processo de tokenização e remoção de stop words, gerou-se um ranking top 30 de palavras mais utilizadas nos pedidos. É possível notar que as palavras se relacionam com pedidos de dados sobre servidores, servidores comissionados, dados da cidade e região e citação de lei possivelmente para embasar alguma solicitação.
Na figura 7 podem-se observar as palavras de forma mais clara da sua importância.
Partindo-se para uma análise mais aprofundada dos órgãos selecionados, fez-se um top 10 de palavras mais utilizadas. Na educação, observa-se um interesse sobre números e dados de ensino nas escolas, já na saúde há um interesse em unidades básicas de saúde, enquanto que nos transportes aparentemente deseja-se saber sobre ônibus e passageiros. Com a superficialidade dessa análise, optou-se por partir para um estudo de bigramas, trigramas e TF-IDF com o intuito de aprofundar e pesquisa e retirar insights sobre o que a população está interessada em saber do estado.
Analisando a figura 9, já é possível observar alguns tópicos surgindo, principalmente no órgão SPTrans onde identificamos 3 bigramas associados diretamente com abusos sexuais e 1 sobre bilhete único. Já na SME nota-se interesse em educação infantil e fundamental, enquanto que na SMS não surgiu nenhum tópico além do comentado anteriormente.
Fazendo-se uma análise TF-IDF dos bigramas, puderam-se corroborar os assuntos citados no parágrafo anterior para o SPTrans e SME, enquanto que na SMS, já surgem alguns temas que aparentemente são de interesse da população, como NTCSSS (Núcleo Técnico de Contratação de Serviço de Saúde) e contratos.
Partindo-se para a análise de trigramas, além dos temas já citados anteriormente, na SME aparecem dúvidas sobre servidores comissionados e como proceder ou recorrer sobre algo. Na SPTrans, o tema de abusos sexuais aprece fortemente como o principal novamente, porém já se nota citações sobre servidores comissionados, zonas e tempo indicado em meses. Na SMS surgiu um tópico sobre dados abertos nos trigramas “dados abertos atenciosamente” e “abertos atenciosamente rede”, indicando a causa de citações a formatos de dados como csv, planilha e xlx.
A análise TF-IDF de trigramas reforça todas as análises feitas anteriores, adicionando o tema de fraudes à SPTrans.
A técnica de Topic Modelling é similar a uma Análise de Cluster, onde ele aplica o algoritmo LDA (Latent Dirichlet Allocation) para estimar em qual tópico uma palavra tem a maior chance de ser classificada, lembrando que a mesma palavra pode aparecer em vários tópicos. Neste estudo, optou-se por aplicar a técnica no órgão SPTrans pois foi o que demonstrou maior potencial de se obter resultados significativos, levando-se em consideração todas as análises anteriores.
Inicialmente filtrou-se apenas o órgão desejado para então aplicar o LDA para 2, 3, 4 e 5 tópicos e notou-se que, para 2 tópicos havia uma sobreposição de assuntos, enquanto que para 4 e 5 os assunto começavam a se repetir ou não se podia identificar. Por conta disso chegou-se à conclusão que existem 3 temas principais nos pedidos de acesso à informação no órgão SPTrans:
- O tópico 1 estaria relacionado à bilhetes únicos devido a palavras como bilhete, bilhetes, único, sistema;
- O tópico 2 estaria relacionado à linhas de ônibus devido a palavras como ônibus, linha, linhas, empresa, terminal;
- O tópico 3 estaria relacionado à abusos sexuais devido a palavras como quantos, abusos, cometidos, casos, sexuais, número;
Nas figuras 14, 15 e 16 pode-se observar os termos com maior diferença entre os betas de cada tópico.
Este trabalho discutiu e implementou técnicas de text mining aplicada à geração de insights na transparência passiva visando a melhora dos serviços públicos e da comunicação com a população. A partir destes resultados, a prefeitura de São Paulo pode pensar em estratégias para melhorar o site do bilhete único, elaborar novas campanhas contra o abuso sexual, passar para a transparência ativa o acesso a contratos caso ainda não esteja, por exemplo.
A análise apresentada mostrou que para a SME nota-se interesse em educação infantil e fundamental, servidores comissionados e como proceder ou recorrer sobre algo. Já na saúde, encontrou-se menções à NTCSSS (Núcleo Técnico de Contratação de Serviço de Saúde), contratos e dados abertos. Na SPTrans aplicou-se a técnica de topic modelling e se encontrou 3 temas principais: abusos sexuais, bilhetes únicos e linhas de ônibus.
Como trabalhos futuros, pretende-se investigar os principais temas nos pedidos dos demais órgãos, além de aprofundar a análise nos órgãos estudados no trabalho.