Del curso: Linguagem de Programação R para Ciência de Dados: Formação Básica
Importando dados para o ambiente R
Del curso: Linguagem de Programação R para Ciência de Dados: Formação Básica
Importando dados para o ambiente R
Considerando o ciclo da ciência de dados, temos como primeira etapa a importação do dado, isto é, o processo de trazer uma base de dados para dentro do ambiente "R". E essa base de dados pode ser de diferentes formatos, desde uma planilha que pode estar em extensão, CSV ou XLS, até uma base de dados em SQL ou no Hadoop. No "R", por meio das bibliotecas, temos ferramental para trabalhar com estes e muitos outros tipos de arquivo. Vamos aos códigos. Para termos mais espaço em tela, vou dar zoom nos nossos códigos. Apesar de existirem muitos tipos de dados diferentes, nesse curso, focaremos na leitura de dados tabulares. Isto é, arquivos que possuem características retangulares, como, por exemplo, um arquivo em Excel ou CSV, em que temos linhas e colunas. Para ler esse tipo de arquivo, vamos primeiro conhecer o caminho via point and click, ou seja, oferecido pela própria ferramenta "R" Studio. Aqui, Menu > Import e você pode escolher o tipo de arquivo que irá trabalhar. Vamos considerar arquivos em Excel. Ele abre um pop-up em que, aqui, você vai fazer a busca do seu arquivo e então fazer alguns possíveis ajustes. É interessante que tudo o que for feito aqui, por exemplo, nome_arquivo, será atualizado nesse code preview. E pronto. Para além da opção point and click, temos o caminho via código que, em geral, é mais recomendado, pois mantendo a leitura do arquivo em código, você poderá reproduzir o seu resultado sem necessitar de nenhuma ação manual. Apesar das muitas bibliotecas existentes no "R" para leitura de dados, focaremos aqui no readr, que possui funções como read CSV, read arquivos delimitados normalmente em ponto TXT. Para usar essa biblioteca ou alguma de suas funções, podemos digitar o nome da biblioteca e dois pontos para ter o a todas as funções que tem lá dentro. Se eu começar "read", ele vai me mostrar todas as funções que iniciam com esse nome dentro da biblioteca. Veja quantas opções. Se estivéssemos lendo um arquivo CSV, bastaria colocar aqui o nome do arquivo e a extensão. Isso caso o arquivo se encontre no mesmo diretório, ou seja, na mesma pasta que o seu arquivo markdown. Uma função bacana dessa biblioteca é o readr_example. Desta maneira, vamos conseguir ler este arquivo mesmo sem ter nada salvo. Vamos ver o resultado. Tivemos um erro, por que será? Aqui, quando chamamos essa função, adicionamos o nome da biblioteca no início. Como essa biblioteca está instalada, o "R" não tem problema de saber onde procurar essa função. Não é o que eu estou fazendo aqui. Aqui estou colocando o nome direto da função. Desta maneira, eu preciso ou primeiro carregar a biblioteca, ou seja, falar para o "R" quais funções que ele deve considerar ativas como ambiente de busca ou adicionar o nome da biblioteca logo no início. Para não termos que nos preocupar com isso todo o tempo, todos os nossos scripts, eu vou manter essa seção bibliotecas. E carregando a biblioteca tidyverse, teremos praticamente tudo o que precisamos para a maioria dos códigos. Aqui, o que essa função retorna é o endereço no computador em que esse arquivo se encontra. Basicamente, um arquivo que a própria biblioteca deixa salvo para que possamos fazer alguns exemplos. O que estou fazendo é usar este endereço, salvo no objeto chamado path dentro da função read_csv. E assim temos ao nosso objeto. Uma tbl com 32 linhas e 11 colunas. Aqui, no visualizador do próprio "R Markdown", não conseguimos ver todas as observações, por isso, temos a paginação para ver o total de 32 observações, assim como uma paginação em termos de colunas. Ah, e antes que eu me esqueça, se você quiser sair dessa visualização, basta vir no mesmo Menu > e pedir para mostrar todos os painéis novamente. Agora, vamos ver como é que fica o output no nosso arquivo. Aqui está. A leitura do arquivo e o output. Bacana, né? Voltando ao código, temos como próximo ponto salvar o nosso objeto. Isto é, a leitura do arquivo foi feita neste chunk, mas ele não está salvo em lugar algum. Para que o arquivo seja salvo, precisamos atribuí-lo a um objeto, a um nome. Aqui, por exemplo, chamado nossa base. Desta maneira, ele a a aparecer aqui no "environment", ou seja, no nosso ambiente. Um dos recursos legais do "R Studio" é que, quando a base consta no environment, podemos ar suas colunas ou mesmo visualizá-la. E com esse mesmo processo, podemos ler dados de outras extensões. Por vezes, precisamos trabalhar com outras bibliotecas. Aqui, listei alguns exemplos de arquivos e bibliotecas interessantes de você ter em mente.
Practica mientras aprendes con los archivos de ejercicios.
Descarga los archivos que el instructor utiliza para enseñar el curso. Sigue las instrucciones y aprende viendo, escuchando y practicando.