Importação Dados

Tipos de dados

A ciência de dados lida com uma ampla variedade de formatos de dados, e entre os mais comuns estão o CSV, TXT e XLSX. Esses formatos são amplamente utilizados para armazenar e compartilhar dados em projetos de ciência de dados.  Vamos dar uma breve introdução sobre cada um deles: 

  • CSV (Comma-Separated Values): O formato CSV é bastante popular na ciência de dados. Os dados são armazenados em um arquivo de texto simples, onde cada linha representa uma observação e os valores são separados por vírgulas. Essa estrutura tabular é adequada para dados estruturados, como tabelas, e é amplamente suportada por várias ferramentas e linguagens de programação. O CSV é um formato fácil de ser lido e manipulado, sendo utilizado para importar e exportar dados entre diferentes sistemas. 
  • TXT (Plain Text): O formato TXT (texto simples) é um arquivo de texto sem formatação especial. Ele é amplamente usado para armazenar dados não estruturados, como transcrições de texto, documentos, logs e outros tipos de informações em formato livre. Os dados em formato TXT são simples de serem lidos, mas podem exigir pré-processamento adicional para extrair informações úteis, especialmente quando se trata de análise de texto. 
  • XLSX (Excel Spreadsheet): O formato XLSX é uma planilha eletrônica do Microsoft Excel, que permite a organização de dados em células, colunas e linhas. O XLSX pode conter várias abas, fórmulas, formatação condicional e outros recursos avançados para análise de dados. Esse formato é frequentemente usado para dados tabulares mais complexos e é amplamente suportado por ferramentas de análise de dados. No entanto, é importante observar que o XLSX é um formato proprietário da Microsoft, o que pode limitar sua compatibilidade com algumas outras plataformas. 

 

Além dos formatos CSV, TXT e XLSX mencionados anteriormente, existem outros formatos de dados amplamente utilizados na ciência de dados, como SAS7BDAT (SAS), Stata e RData (R). Vamos dar uma breve introdução sobre cada um deles:

  • Stata: O formato Stata é usado pelo software Stata, um ambiente estatístico popular para análise de dados. Os arquivos Stata possuem extensões .dta e podem armazenar dados estruturados, bem como informações sobre variáveis, rótulos e outros metadados. Além disso, o formato Stata suporta recursos avançados, como índices, agregações e variáveis categóricas. Os arquivos Stata são amplamente utilizados em pesquisas acadêmicas e sociais. 
  • RData (R): O formato RData é usado no ambiente de programação R e permite salvar objetos R, como data frames, matrizes e modelos. É um formato binário que preserva a estrutura e os atributos dos objetos R, facilitando o compartilhamento e o carregamento desses dados. O RData é útil para salvar e reutilizar conjuntos de dados, modelos e outros resultados de análise. No entanto, é importante observar que o formato RData é específico para a linguagem de programação R e pode não ser diretamente compatível com outras ferramentas ou linguagens. Cada um desses formatos tem suas próprias características e é importante escolher o formato adequado com base nas ferramentas, linguagens e necessidades do projeto. Além disso, existem ferramentas e bibliotecas disponíveis para converter entre esses formatos, permitindo a integração e análise dos dados em diferentes ambientes.
  •  SAS7BDAT (SAS): O formato SAS7BDAT é utilizado pelo software SAS (Statistical Analysis System) para armazenar dados. É um formato binário eficiente que permite armazenar dados estruturados com metadados adicionais, como informações sobre variáveis e formatação. Os arquivos SAS7BDAT são comumente usados em pesquisas, estudos clínicos e outras aplicações estatísticas. Para acessar esses arquivos, é necessário ter um software compatível com o formato SAS ou converter os dados para outro formato mais amplamente utilizado. 

 

Esses são apenas alguns dos formatos de dados mais comuns na ciência de dados. Cada um desses formatos tem suas próprias características e é importante escolher o formato adequado com base na natureza e na estrutura dos dados, nas ferramentas que serão utilizadas e nas necessidades do projeto. Além disso, a conversão entre esses formatos também é possível para facilitar a integração e a análise dos dados. 

Avisos Importantes

Primeiramente, antes de importar dados externos,  é importante verificar alguns pontos: 

  1. Verifique se a linha de cabeçalho existe ou não
  2. Tratamento de valores especiais como valores ausentes
  3. Tipo de dados consistente em uma variável (coluna)
  4. Variável de tipo de data em formato de data consistente.
  5. Sem truncamento de linhas durante a leitura de dados externos
 

Importando dados

Alguns pacotes/bibliotecas são importantes pois auxiliam na importação de dados

Uma dessas é o “Pandas”, um poderoso pacote de análise de dados. Facilita a exploração e manipulação de dados. Tem várias funções para ler dados de várias fontes. Normalmente pandas é importado como “pd” (um apelido) então é muito comum quando pesquisar sobre esse pacote e suas funções, aparecer comum “pd”.

Obs: é muito comum atribuir um “apelido” a um pacote, facilitando a utilização desses pacotes. Ex: pandas = pd; numpy = np; seaborn = sns

Você pode acessar mais informações e a documentação: https://pandas.pydata.org/

				
					#Importando Pandas
import pandas as pd
				
			

Podemos importar dados que estão salvo numa pasta no nosso computador ou online, independente, temos que especificar o caminho pelo qual queremos que o código “vá atrás” para importar esses dados. 

 

Quando trabalhamos com Python geralmente temos que informar qual o pacote estamos usando (pd), qual a função (read_csv) e o que queremos que fazer. 

No caso de trabalhar com o Google Colab, podemos habilitar o acesso ao drive. 

Obs: ao executar o código abaixo, você receberá um link para autenticação ou irá abrir uma janela. No caso do link, clique no link, faça login na sua conta do Google e copie o código de autenticação de volta para o notebook. Caso uma janela se abra, faça o login na sua conta do Google e libere a autorização, a janela se fechará automaticamente.  

Isso montará seu Google Drive em ‘/content/drive’ no ambiente do Colab. Isso é importante para que o Google Colab tenha acesso ao seu drive e consiga acessar os arquivos que você quer. Quando você executa drive.mount(‘/content/drive’) pela primeira vez em uma sessão do Google Colab, o Google Drive é montado e você pode acessar os arquivos e diretórios do seu Google Drive.

Habilitando Acesso ao Drive

				
					# habilitando acesso ao Drive
from google.colab import drive
drive.mount('/content/drive')


## Caso não apareça uma janela, podemos usar o argumento 'force_remount=True'
from google.colab import drive
drive.mount("/content/drive/",force_remount=True)
				
			

O argumento force_remount=True ao executar drive.mount(‘/content/drive’, force_remount=True) no Google Colab é usado para forçar a remontagem do Google Drive, mesmo que ele já tenha sido montado anteriormente na sessão atual.

Se você tentar montar o Google Drive novamente na mesma sessão sem o uso de force_remount=True, o Colab não fará nada e simplesmente retornará rapidamente, presumindo que o Google Drive já está montado.

Importando dados do Drive

Depois de liberar o acesso ao Google Drive, você pode importar dados diretamente dele. Por exemplo, se você tem um arquivo CSV chamado “dados.csv” no Google Drive, você deve informar qual o diretório que queremos e vamos trabalhar ). 

Detalhe importante: ao trabalhar com diretório, podemos usar tanto barras para direita (/) quanto para esquerda (\), sendo que no caso para esquerda ´e importante colocar 2 barras (\\), caso contrário o código não vai entender que é uma pasta 

				
					# Caminho para o arquivo no Google Drive
file_path = '/content/drive/My Drive/dados.csv'

				
			

Lembrando que ‘/content/drive/My Drive/’ é o começo de todo o diretório para acesso aos arquivos do drive. Após esse início, devemos colocar o nome das pastas conforme estão no nosso drive.

Exemplo: se no meu drive eu tenho uma pasta “BioScripTistica” e dentro desta pasta eu tenho duas outras pastas “Modulo_Objetos_Classes” e “Modulo_Importacao_Dados”, e dentro de cada uma eu tenho arquivos dos quais eu quero acessar, eu faria: 

				
					# Importanto o arquivo no Google Drive
caminho_importacao = '/content/drive/My Drive/BioScripTistica/Modulo_Importacao_Dados/dados.csv'

# Carregar o arquivo CSV em um DataFrame
importacao = pd.read_csv(caminho_importacao)

# Exibir os primeiros registros do DataFrame
print(importacao.head())

				
			

Caso tenhamos mais de uma pasta da qual queremos ter acesso, podemos alterar o diretório para pastas específicas do drive:

				
					# mudando o diretório para a pasta especifica do Drive
%cd /content/drive/My Drive/BioScripTistica/Modulo_Objetos_Classes
%cd /content/drive/My Drive/BioScripTistica/Modulo_Importacao_Dados

## Assim, podemos importar dados de várias pastas
obj_classe = pd.read_csv("/content/drive/My Drive/BioScripTistica/Modulo_Objetos_Classes/dados1.csv")
importacao = pd.read_csv("/content/drive/My Drive/BioScripTistica/Modulo_Importacao_Dados/dados2.csv")


				
			

Outra forma de acessar o diretório a um arquivo é abrindo a sessão lateral clicando no ícone de pasta (4° ícone). Assim abrirá uma aba onde podemos ter acesso a todas as pastas do nosso drive.

Na lateral direita dessa aba, terá 3 pontinhos verticais, que nos dá opção de “copiar caminho”, e podemos colar no nosso código. 

Podemos usar “df”, de “dataframe” para armazenar nossos dados, que é um termo comum para importação de dados. Porém podemos armazenar nossos dados de forma mais específica, para facilitar chamar nossos dados no futuro

Podemos informar detalhes que facilitam a importação de dados, como qual separador os dados se encontram (sep = “|”, sep = “;”, sep = “,”), se não temos cabeçalho (header = none) 

Podemos usar read_csv() com sep= “\t” para ler dados do arquivo separado por tabulações.

Importando Dados do Computador Local

Para importar dados do seu computador local para o ambiente do Google Colab, você pode usar a biblioteca ‘files’.

				
					from google.colab import files
				
			

A função ‘files.upload()’ da biblioteca ‘files’ permite fazer o upload de um ou mais arquivos do nosso computador local. Quando executamos o código abaixo, o Colab exibirá um botão (‘escolher arquivos’) que nos permite selecionar e enviar arquivos do nosso computador. 

				
					# Upload de um arquivo do seu computador local
uploaded = files.upload()
				
			

Após o upload do arquivo, ele estará disponível no ambiente do Colab. Você pode processá-lo da maneira desejada. Por exemplo, se você fez o upload de um arquivo CSV, pode lê-lo em um DataFrame do Pandas:

				
					# Suponha que você tenha feito o upload de um arquivo CSV chamado "dados.csv"
df = pd.read_csv("dados.csv")
print(df)

##obs: df é abreviação de 'DataFrame', e é geralmente usado como exemplos.
				
			

Podemos fazer o upload de mais de um arquivo por vez (dependendo da quantidade e tamanho dos arquivos, pode levar um bom tempo). E podemos listar todos os arquivos que carregamos com o seguinte código:

				
					# Listar os arquivos carregados
for filename in uploaded.keys():
    print(f'Arquivo carregado: {filename}')

				
			

Importando Dados Online

Para importar dados de fontes online, você pode usar bibliotecas de Python, como:

  • ‘io’ que é usada para manipular objetos de dados, já que fornece classes e funções para lidar com dados de forma semelhante a como você lidaria com arquivos em disco, mas sem a necessidade de armazenar os dados em um arquivo físico.
  • ‘zipfile’ é usada para criar, ler e manipular arquivos ZIP, que são arquivos compactados que podem conter um ou mais arquivos e diretórios.
  • ‘requests’ para baixar dados de uma URL (url é o endereço eletrônico que permite encontrar um site na rede).

 

Abaixo vamos mostrar como importar arquivos online, usando como exemplo o site: https://archive.ics.uci.edu/, que fornece datasets abertos.

				
					import pandas as pd
import zipfile
import io
import requests

# URL do arquivo ZIP do conjunto de dados "Iris" da UCI Machine Learning Repository
url = 'https://archive.ics.uci.edu/static/public/53/iris.zip'

# Fazer uma solicitação GET para o URL
response = requests.get(url)

# Verificar se a solicitação foi bem-sucedida
if response.status_code == 200:
    # Ler o conteúdo do arquivo ZIP
    with zipfile.ZipFile(io.BytesIO(response.content)) as zip_ref:
        # Extrair o arquivo CSV
        zip_ref.extractall('/content/iris_dataset')

    # Ler o arquivo CSV em um DataFrame
    iris = pd.read_csv('/content/iris_dataset/iris.data', header=None, 
                     names=['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class'])

    # Agora você pode trabalhar com os dados no DataFrame
    print(iris.head())
else:
    print('Falha ao baixar o arquivo ZIP.')
				
			

Aqui, estamos fazendo uma solicitação GET para a URL especificada. Se a solicitação for bem-sucedida (status_code igual a 200). 

Caso na importação de problema na leitura da tabela, testar o argumento “encoding”
encoding=’latin1′
encoding=’ISO-8859-1′
encoding=’utf-8′
encoding=’cp1252′

Podemos usar algumas funções para estudar como nossos dados estão distribuídos e o que será útil ou não 

				
					#Trazer infos, como qnt de dados, NA, type da coluna etc
df.info() 

#Analisar estrutura das tabelas
display(df)

#Analisar tamanho das tabelas
df.shape
				
			

Exportando dados

Podemos exportar dados tanto para a pasta do Google Colab no qual estamos trabalhando, assim como exportar diretamente no computador local. 

				
					# Exportar na pasta atual do Colab (no drive)
df.to_csv('dados.csv', index=False)


# Exportar para o computador local
from google.colab import files

# Salvar o DataFrame em um arquivo CSV
df.to_csv('dados.csv', index=False)

# Fazer o download do arquivo para o seu computador local
files.download('dados.csv')

				
			

Exercícios

1. Procure algum site ou conjunto de dados do seu computador e importe para o Google Colab.

2. Utilizando o que foi explicado nos módulos anteriores, filtre as duas primeiras colunas e as cinco primeiras linhas dos dados importados no item 1. 

3. Com base no que aprendeu nesta seção, exporte os dados selecionados na questão 2 para um arquivo xlsx (para que possa abrir no Excel). 

Comentários

{{ reviewsTotal }}{{ options.labels.singularReviewCountLabel }}
{{ reviewsTotal }}{{ options.labels.pluralReviewCountLabel }}
{{ options.labels.newReviewButton }}
{{ userData.canReview.message }}