You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Descrição
Foi identificado que o parser do pdf para tsv gera uma desordem nas tabelas, e isso causa um caos que não é interpretável, é um padrão que muda a cada pdf que é transformado em tsv, insustentável manter. Uma segunda estratégia é transformar o próprio pdf em texto e tentar criar um padrão para gerar o cardápio de modo adequado ao bot.
Tarefas
Transformar o pdf em txt (library tika)
Criar um padrão para interpretar as colunas (dias)
Expor os dados via api para ser consumido pelo bot
Critérios de Aceitação
O bot consegue responder o cardápio do dia
O bot consegue responder o cardápio da semana
O bot consegue responder cada refeição separadamente
The text was updated successfully, but these errors were encountered:
A primeira tarefa era utilizar a biblioteca tika para transformar pdf em texto. Foi uma recomendação que encontramos na internet que é muito boa, porque ele gera um txt muito bem estruturado, sem nenhum erro de faltar alguma palavra e tudo mais. Foi super adequado ao nosso contexto, tendo em vista que o pdf é muito mal estruturado...
Então, utilizando a tika ele transforma tudo em texto, porém a separação de cada coluna é feita por espaço em branco, então encontramos uma gambiarra/padrão, que será necessária para dar tempo de apresentarmos na Campus Party 2019 BSB, que todo início de coluna é inicializada com uma letra maiúscula. Então começamos a separar cada início de coluna a partir da primeira letra maíuscula. Porém identificamos um problema, as vezes o "ser" que elabora o cardápio coloca no meio do nome uma letra maíuscula (no segundo nome, geralmente quando é composto). Com isso fizemos alguns filtros que não permite pegar nenhuma palavra que inicia com letra maiúscula vem após algum tipo de conector, por exemplo: de, e, ",", com, ...
Após fazer esse filtro, conseguimos fazer a separação de cada refeição corretamente. Com isso já estamos expondo todo o conteúdo na rota cardapio//<refeição>
Descrição
Foi identificado que o parser do pdf para tsv gera uma desordem nas tabelas, e isso causa um caos que não é interpretável, é um padrão que muda a cada pdf que é transformado em tsv, insustentável manter. Uma segunda estratégia é transformar o próprio pdf em texto e tentar criar um padrão para gerar o cardápio de modo adequado ao bot.
Tarefas
Critérios de Aceitação
The text was updated successfully, but these errors were encountered: