Del curso: Análise de Dados Parte 1: Conceitos Básicos
Como trabalhar com arquivos simples
As pessoas nem sempre conseguem uma conexão direta com o back-end de um sistema de banco de dados e, às vezes, podem apenas exportar dados ou receber arquivos em formato Excel ou CSV. Eu os chamo de arquivos simples, e estão desconectados dos dados. O que quero dizer com dados simples ou desconectados? Você não está diretamente conectado ao sistema que armazena esses dados. Ou seja, quando os dados do sistema são atualizados, os dados desse arquivo simples não são. Você precisaria de outro arquivo para capturar essas alterações de dados. CSVs são arquivos simples comuns. CSV significa valores separados por vírgula. Um CSV é um arquivo delimitado, e a vírgula serve de delimitador. O que esse delimitador faz é separar cada coluna. Também existem outros tipos, como delimitado por tabulação ou largura fixa, que não é um delimitador, mas um número de espaços. Sempre tive mais arquivos CSV ou delimitados por tabulação do que de outros tipos. Por padrão, os arquivos CSV são abertos no Excel. Muitas vezes, vejo pessoas presas ao Excel como solução de dados, pois o que recebem já está no Excel, então faz todo o sentido continuar na ferramenta, mas talvez não estejam aproveitando as ferramentas do Excel, como Power Query, para apoiar seus esforços. Talvez você receba uma lista abrangente de informações. Ela tem tudo que você precisa para gerar relatórios. Da próxima vez que receber um arquivo com informações que já usou em relatórios e ainda dados novos, você pode alterar os dados e atualizar o arquivo. Pode executar uma série de macros ou realizar qualquer alteração necessária nos dados do arquivo. Quero mostrar uma forma de utilizar o Power Query para lidar com esse tipo de solução, pois acho bem mais fácil do que ficar copiando e colando. Vamos dar uma olhada na pasta 05_03 do capítulo 5. Aqui vemos dois arquivos CSV: Projeto de Pesquisa_Marco e Projeto de Pesquisa_MarcoeAbril. Vou explicar. O primeiro arquivo que recebemos foi Projeto de Pesquisa_Marco. Observe que o ícone do Excel tem um pequeno “a”. Na verdade, é um arquivo de valores separados por vírgula. Foi o primeiro arquivo que recebemos. No mês seguinte, nos enviaram um novo arquivo abrangente, com dados de março e abril. Se não conhecêssemos o Power Query, poderíamos abrir esse arquivo de abril, pegar todos os dados de abril e copiar e colar em março. Há um jeito bem melhor de trabalhar com dados desse tipo. Vamos abrir uma nova pasta de trabalho. Vamos à minha guia preferida do Excel, Dados, e à minha opção favorita, Obter Dados, e escolher De Arquivo e De Texto. Estou na pasta 05_03 do capítulo 5 e vou clicar duas vezes no arquivo de março. Agora conectei o arquivo do Excel ao CSV. Ele lê o tipo de arquivo e apresenta algumas informações padrão. Veja que interessante: Detecção de Tipo de Dados > Com base nas primeiras 200 linhas. Ótimo. No canto inferior direito, vou escolher Carregar. Vamos falar da opção Transformar mais adiante. Agora os dados vêm do Power Query e são carregados na planilha. Perceba que foram carregadas 126 linhas. Vou criar uma tabela dinâmica básica apenas para fins de demonstração. Vou clicar em Resumir com Tabela Dinâmica e clicar em OK. Agora vou arrastar o código do entrevistado até Valores e mudar de Soma para Contagem. O código do entrevistado é interpretado como número, por isso é somado. Vou arrastar a data de início até Colunas e a idade atual até Linhas. Deixe-me fechar os campos da tabela dinâmica. Se observar a tabela dinâmica, agora vai ver a idade de cada entrevistado e quando respondeu à pesquisa. Isso é ótimo. Posso configurar, criar mais recursos visuais e, quando abril chegar, vão me enviar os dados de março e abril. Como disse, a maioria das pessoas incluiria os dados de abril depois dos dados de março, mas há um jeito bem mais fácil de fazer isso. Vamos dar uma olhada. Vou clicar com o botão direito em Projeto de Pesquisa_Marco e escolher Editar. Estou no Power Query e, no lado direito, vou escolher Configurações da fonte de dados. Aqui indica que minha fonte atual é o CSV de março. Vou selecionar Alterar Fonte, no canto inferior esquerdo, e Procurar. Vou escolher os dados de março e abril. Vale ressaltar que a estrutura desses arquivos é idêntica. Seguindo adiante, escolho Importar, OK e Fechar. No canto inferior esquerdo da tela, vejo que tenho 126 linhas. Vou atualizar. Agora que foram carregados os dados de abril, tenho 480 linhas de dados. Vou continuar e escolher Fechar e Carregar, e aqui mostra que foi atualizado, com 480 linhas. Vou para a terceira planilha, que tem minha tabela dinâmica, para atualizá-la. Vou até Analisar Tabela Dinâmica e escolho Atualizar. Ótimo. Deixe-me fechar minhas conexões. Você vai observar os dados novos que chegaram e ainda os dados de abril. Vamos analisar outra situação. Para isso, vamos abrir uma nova pasta de trabalho. Pode ser que você só receba os dados novos. Na pasta 05_03, está vendo ProjetoPesquisa_Dados? Se você a abrir, vai ver conjuntos de dados com marcação de data. Este projeto de pesquisa tem diferentes conjuntos de dados recebidos em 23/3, 27/3, 30/3 e 1/4. Esses conjuntos contêm apenas os dados mais recentes até o momento. Vou instruir o Power Query a ler a pasta inteira. Assim, se eu colocar um novo arquivo na pasta, ele será automaticamente incluído no meu conjunto de dados. Vamos retornar à planilha em branco. Vou voltar a Dados, escolher Obter Dados, De Arquivo e Da Pasta. Agora vou procurar a pasta 05_03 do capítulo 5, escolher ProjetoPesquisa_Dados, clicar em OK e escolher OK novamente. Isso me permite ver todos os arquivos que estão na pasta. Vou seguir adiante, escolher Combinar e pedir para Combinar e Carregar. Será feita uma amostragem de tudo com base no primeiro arquivo. É importante observar que todos esses arquivos são estruturados com os mesmos cabeçalhos. Vou continuar e clicar em OK. Perceba que foram carregadas 246 linhas em ProjetoPesquisa_Dados. Se olhar o Nome da Origem, vai perceber que é mostrado o nome da origem com o .CSV. Ao clicar no menu suspenso, vejo que os quatro arquivos da pasta foram incluídos no conjunto de dados. Isso quer dizer que quando eu receber, por exemplo, o arquivo de 15 de abril de 2020, se o colocar naquela pasta, posso ir diretamente à planilha, escolher Atualizar e incluir todos esses dados. Não importa como você trabalhe com arquivos simples, pode aproveitar as ferramentas de dados do próprio Excel para facilitar o processo.