TPC2 data e IPYNB
PA2 2029/2020 – TPC2 – trabalho em grupo
Ciência de dados com Python: nesta tarefa, irão explorar conjuntos de dados, operações para o seu processamento e visualização.
Criem uma conta no Github e criem um repositório para cada bloco de respostas, onde devem colocar todos os ficheiros (Readme, dados, Jupyter Notebook, doc, pdf, etc). Cada grupo partilha comigo o seu URL, para ir acompanhando o trabalho e efetuar a avaliação. No fim, fazem um ZIP com tudo e “colocam” no Nonio.
A – 2 valores
Escolham um conjunto de dados nos imensos repositórios disponíveis (dados abertos, públicos), sobre o tema que entenderem. O único requisito é que esse conjunto de dados possa ser “puxado” (download) como um arquivo CSV (valor separado por vírgula).
Respondam as seguintes questões num (novo) Jupyter Notebook:
1) O URL para o conjunto de dados;
2) Fundamentem a escolha deste conjunto de dados;
3) Escrevam um explicação do conjunto de dados, um Dicionário dos dados, que deve ficar no Readme do repositório.
4) Escrevam o código que carrega o conjunto de dados usando a função read_csv e mostrem as 10 primeiras linhas do conjunto de dados.
5) Qual é o tipo de dados de cada atributo?
Atenção: “tudo” tem de ser bem documentado, ie com comentários adequados (texto, imagens, etc), ao longo do Notebook.
B – 5 valores
Conjuntos de dados e IPYNB (Jupyter Notebook) em https://github.com/jgorvalho/PA2_2019-2020_TPC2
Questões e respostas (devidamente fundamentadas com comentários) no Jupyter Notebook: tpc2_tarefa2.ipynb
C – 9 valores
Visualização de Dados …
VER DOCUMENTO PA2_2019-2020_TPC2_v2
Alguns exemplos de repositórios públicos de dados
COVID-19 Data Repository by the Center for Systems Science and Engineering (CSSE) at Johns Hopkins University
https://github.com/CSSEGISandData/COVID-19