-
Notifications
You must be signed in to change notification settings - Fork 16
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Alguns filmes não estão sendo captados pelo scrapper #47
Comments
os blocos
não foram raspados corretamente quando o dia era 19 de abril |
Reparei também que o scrapper não acessa links presentes apenas nas notícias. Filmes que vão passar uma única vez às vezes só aparecem ali, então estamos perdendo de indexar várias sessões. Na imagem abaixo, o bot não acessa o link da notícia "Sala Redenção celebra seu aniversário com duas sessões especiais". |
Pode atribuir para eu dar uma olhada. |
O fluxo de scrapping pra sala da redenção é baseado na classe Quando a gente dispara o scrappers, o que é feito é a instanciação da classe e chamada do médoto
o fluxo de chamadas do (a URL da sala da redenção é https://www.ufrgs.br/difusaocultural/salaredencao/)
Exemplo de como é o HTML dos blocos com os horários: O problemaSe tu olhar a página https://www.ufrgs.br/difusaocultural/mostra-realizada-na-sala-redencao-celebra-os-200-anos-da-imigracao-alema-no-brasil/ por exemplo, a forma que as tags estão não tá sendo pego por nenhum dos meus regexes. Pra depurar, tu pode usar o script Então tu pode rodar o script assim:
E dá pra confirmar que "Não tá funcionando" pq não tá retornando nada:
Deveria ter as informações desse filme na chave Exemplo do regex e do texto que tá sendo passado nele (que era pra funcionar): https://regex101.com/r/Y6NYZc/1 . Eu acho que nas novas postagens não tá vindo esse bloco onde ficaria o gênero do filme: Possível soluçãoDeixar o bloco opcional? Ou talvez criar uma segunda função que tenta rodar o regex sem o bloco... o foda é que daí pra cada pequena alteração que rolar no HTML, vamos precisar de uma função nova |
Por exemplo na página https://www.ufrgs.br/difusaocultural/cinema-da-ufrgs-apresenta-mostra-para-descomemorar-os-60-anos-do-golpe-militar/ o bloco
não foi raspado corretamento quando o dia atual era 12/04.
O ideal é corrigir o comportamento e criar um teste para esse exemplo específico em /tests/scrapers/test_sala_redencao.py .
The text was updated successfully, but these errors were encountered: