R: Importação de Dados
Tipos de dados
A ciência de dados lida com uma ampla variedade de formatos de dados, e entre os mais comuns estão o CSV, TXT, XLSX e TSV. Esses formatos são amplamente utilizados para armazenar e compartilhar dados em projetos de ciência de dados. Vamos dar um a breve introdução sobre cada um deles:
- CSV (Comma-Separated Values): O formato CSV é bastante popular na ciência de dados. Os dados são armazenados em um arquivo de texto simples, onde cada linha representa uma observação e os valores são separados por vírgulas. Essa estrutura tabular é adequada para dados estruturados, como tabelas, e é amplamente suportada por várias ferramentas e linguagens de programação. O CSV é um formato fácil de ser lido e manipulado, sendo utilizado para importar e exportar dados entre diferentes sistemas.
- TXT (Plain Text): O formato TXT (texto simples) é um arquivo de texto sem formatação especial. Ele é amplamente usado para armazenar dados não estruturados, como transcrições de texto, documentos, logs e outros tipos de informações em formato livre. Os dados em formato TXT são simples de serem lidos, mas podem exigir pré-processamento adicional para extrair informações úteis, especialmente quando se trata de análise de texto.
- XLSX (Excel Spreadsheet): O formato XLSX é uma planilha eletrônica do Microsoft Excel, que permite a organização de dados em células, colunas e linhas. O XLSX pode conter várias abas, fórmulas, formatação condicional e outros recursos avançados para análise de dados. Esse formato é frequentemente usado para dados tabulares mais complexos e é amplamente suportado por ferramentas de análise de dados. No entanto, é importante observar que o XLSX é um formato proprietário da Microsoft, o que pode limitar sua compatibilidade com algumas outras plataformas.
- TSV (Tab Separated Values): O formato TSV, que significa “Valores Separados por Tabulações”, é amplamente utilizado por aplicativos de planilha. Esses arquivos contêm dados organizados em linhas e colunas, com valores de texto, matemáticos, científicos ou estatísticos. A separação dos dados em colunas é realizada por meio de tabulações, o que justifica o nome. Embora similares aos arquivos CSV, nos quais os dados de coluna são separados por vírgulas e os dados de linha por quebras de linha, os arquivos TSV utilizam tabulações para a separação de colunas.
Além dos formatos CSV, TXT e XLSX mencionados anteriormente, existem outros formatos de dados amplamente utilizados na ciência de dados, como SAS7BDAT (SAS), Stata e RData (R). Vamos dar uma breve introdução sobre cada um deles:
- Stata: O formato Stata é usado pelo software Stata, um ambiente estatístico popular para análise de dados. Os arquivos Stata possuem extensões .dta e podem armazenar dados estruturados, bem como informações sobre variáveis, rótulos e outros metadados. Além disso, o formato Stata suporta recursos avançados, como índices, agregações e variáveis categóricas. Os arquivos Stata são amplamente utilizados em pesquisas acadêmicas e sociais.
- RData (R): O formato RData é usado no ambiente de programação R e permite salvar objetos R, como data frames, matrizes e modelos. É um formato binário que preserva a estrutura e os atributos dos objetos R, facilitando o compartilhamento e o carregamento desses dados. O RData é útil para salvar e reutilizar conjuntos de dados, modelos e outros resultados de análise. No entanto, é importante observar que o formato RData é específico para a linguagem de programação R e pode não ser diretamente compatível com outras ferramentas ou linguagens. Cada um desses formatos tem suas próprias características e é importante escolher o formato adequado com base nas ferramentas, linguagens e necessidades do projeto. Além disso, existem ferramentas e bibliotecas disponíveis para converter entre esses formatos, permitindo a integração e análise dos dados em diferentes ambientes.
- SAS7BDAT (SAS): O formato SAS7BDAT é utilizado pelo software SAS (Statistical Analysis System) para armazenar dados. É um formato binário eficiente que permite armazenar dados estruturados com metadados adicionais, como informações sobre variáveis e formatação. Os arquivos SAS7BDAT são comumente usados em pesquisas, estudos clínicos e outras aplicações estatísticas. Para acessar esses arquivos, é necessário ter um software compatível com o formato SAS ou converter os dados para outro formato mais amplamente utilizado.
Esses são apenas alguns dos formatos de dados mais comuns na ciência de dados. Cada um desses formatos tem suas próprias características e é importante escolher o formato adequado com base na natureza e na estrutura dos dados, nas ferramentas que serão utilizadas e nas necessidades do projeto. Além disso, a conversão entre esses formatos também é possível para facilitar a integração e a análise dos dados.
Pacotes de importação
Alguns pacotes/bibliotecas são importantes pois auxiliam na importação de dados. Use a função library e carregue o pacote de importação desejado:
library(readr) #Para txt e csv
library(readxl) #Para excel
library(haven) #Para Stata, SPSS
Pronto, agora para importar é só usar a função respectiva do tipo de documento. Abaixo alguns exemplos:
read.xlsx() #Para excel (Planilha de dados Excel)
read.csv() #Para documentos separados por virgula, comma-separated values
read.table() #Para txt ou tabela (Arquivo de texto)
readRDS() #Para lista
Importando dados disponíveis no R
Já existem alguns conjuntos de dados no RStudio. Estes podem ser carregados usando a função data(). Observe como importar:
data() #Ver todos os disponíveis no próprio R
data(iris) #Carregar
data(mtcars)
head(mtcars) #A função head permite visualizar as primeiras linhas dos dados
Estes dados são também objetos que precisam ser carregados para ficarem disponiveis para o usuário. Normalmente, estes conjuntos de dados são para uso de exemplo de funções.
Para carregar conjuntos de dados que são disponibilizados com o R, use o comando data(). Por exemplo, abaixo mostramos como carregar o conjunto mtcars que está no pacote datasets.
Exportando dados
Após trabalhar com seus dados, é possível que deseje exportar um dataframe. Para isso, pode ser utilizado a função write.table para exportar em csv e txt. Outra alternativa é através do pacote writexl, que permite a exportação na forma de planinha do excel. Após instalar e carregar o pacote, podemos exportar um dataframe. Observe os exemplos abaixo:
df <- data.frame(Nome = c("Teste", "Hoje", "Dia"),
Itens = c(1,2,3)) #Criando um dataframe de exemplo
df
write.table(df, file = "df1.txt") #Salvando em txt
write.table(df, file = "df2.csv", sep = ",") #Salvando em csv, separação por vírgula
#OBS: Você pode especificar o diretório que deseja salvar no nome do arquivo, caso contrário o arquivo será salvo no diretório de trabalho atual.
install.packages("writexl") #Instalando o Pacote
library(writexl) #Carregando o pacote
write_xlsx(df,"df3.xlsx") #Salvando em xlsx (planilha do excel)
#Verifique se or aquivos apareceram no seu computador
Os arquivos exportados vão para o diretório de trabalho preestabelecido.
Importando arquivos de seu computador
Agora, podemos praticar com os arquivos que exportamos, as suas próprias importações.
df1 <- read.table('df1.txt', header = T) #header = T, especifica que a primeira linha corresponde ao nome das colunas
df2 <- read.csv('df2.csv', sep = "," ) #Aqui, especificamos que é separado por vírgula com o argumento sep =
Lembre-se de utilizar a extensão do arquivo adequada para que a importação ocorra de maneira correta (como “csv” ou “txt”, por exemplo). Além disso, mantenha o nome do arquivo e extensão entre aspas “”. Adicionalmente, durante a importação de planilhas do Excel pode ser utilizada a função read.xlsx(), que preserva o tipo de dado. Ou seja, tenta vincular corretamente a classe do dado à variável correspondente para cada coluna. Essa função é lenta quando o conjunto de dados possui mais de 100000 células. A função read.xlsx2() pode ser útil, nesses casos, visto que é mais rápida para grandes arquivos comparado a read.xlsx().
install.packages('openxlsx')
library(openxlsx)
read.xlsx()
#Preserva o tipo de dado. Tenta vincular corretamente a classe do dado à variável correspondente para cada coluna. Essa função é lenta quando o conjunto de dados possui mais de 100000 células.
read.xlsx2() #É mais rápido paragrandes arquivos comparado a read.xlsx()
Importar dados de um site
Também é possível importar dados de um site:
site <- read.csv("https://opendata.ecdc.europa.eu/covid19/casedistribution/csv") #Observe que é um grande conjunto de dados que foi baixado diretamente da internet
Avisos Importantes
Primeiramente, antes de importar dados externos, é importante verificar alguns pontos:
- Verifique se a linha de cabeçalho existe ou não
- Tratamento de valores especiais como valores ausentes
- Tipo de dados consistente em uma variável (coluna)
- Variável de tipo de data em formato de data consistente.
- Sem truncamento de linhas durante a leitura de dados externos
Exercícios
1. Procure algum site que disponibilize dados e importe diretamente do R.
2. Utilizando o que foi explicado em Primeiros Passos, aplique a indexação com colchetes para selecionar as duas primeiras colunas e as cinco primeiras linhas dos dados importados na questão 1.
3. Com base no que aprendeu nesta seção, exporte os dados selecionados na questão 2 para um arquivo xlsx (para que possa abrir no Excel).
4. Importe um conjunto de dados do seu computador no RStudio.