Del curso: Análise de Dados Parte 1: Conceitos Básicos
Campos e tipos de dados
Um ponto de dados tem três informações principais: um nome de campo, um tipo de dados e um valor. O que a maioria das pessoas entende como dados são, na verdade, valores. Valores são aquilo inserimos, exportamos e relatamos. Quando digitamos dados em um formulário que pede o nome, informamos o valor do nome. No meu caso, seria Robin, que é um texto. Os valores de cada campo são uma consideração essencial ao definir o tipo de dados. No mundo ideal, os nomes dos campos seriam criados para que fizessem sentido, os tipos de dados seriam definidos com base no que o cérebro interpreta, e os valores sempre seriam inseridos de maneira perfeita. À medida que você se aventura na vida cotidiana de um analista de dados, descobre que o mundo não é perfeito e os dados nem sempre são o que parecem. Os nomes de campos podem ser um rótulo abrangente de informações como nome, sobrenome ou cargo. Esperamos que os nomes dos campos façam sentido. Apenas saiba que nem sempre é o caso. As pessoas chamam os nomes dos campos de cabeçalhos de colunas. Eles geralmente são representados pela primeira linha e, no Excel, costumam estar pelo menos em negrito. Os tipos de dados determinam o que podemos e devemos fazer ao trabalhar com eles. Todos os dados têm um tipo. Para simplificar, entenda que, de forma geral, os dados têm poucos tipos: textos, números ou datas. Com o tempo, você vai descobrir que a questão é um pouco mais complexa, mas estamos só começando. Ao exportar dados de um sistema, é provável que sejam armazenados em um banco de dados. A pessoa que desenvolveu o banco de dados definiu tabelas de banco de dados para nós. Foram criados os nomes dos campos, com tipos de dados associados a eles. Vamos dar uma olhada na chave alternativa da identidade nacional do funcionário. Vemos o nome do campo e também que o tipo de dados é “texto curto”, mas, quando observamos os dados, claramente parece um número. Uma dica da profissão: por padrão, os números sempre ficam alinhados à direita, e os textos, sempre à esquerda. Então, quando vejo números alinhados à esquerda, já sei que são considerados textos. Quando esses dados são exportados, seguem o tipo de dados de como estão armazenados. Vamos dar uma olhada. Estes são os dados daquela tabela. Quando observamos a chave alternativa da identidade nacional do funcionário, vemos que está alinhada à esquerda, e também há sinalizadores verdes. Quando clicamos em uma dessas células, nas informações, vemos que é um número armazenado como texto, e também podemos convertê-lo em número. Observe que está alinhado à esquerda, e todos os outros números estão alinhados à direita. Nem sempre temos o ao design de back-end, mas podemos olhar as informações e chegar a uma conclusão de qual seria o tipo de dados. Por exemplo: se o nome do campo fosse “cor” e o valor fosse a palavra “vermelho” e eu perguntasse qual dos tipos gerais é, provavelmente você diria “palavras” ou “texto”. Você até pode ouvir pessoas chamando isso de strings ou cadeias de caracteres. Se eu mostrar 1, 5 ou 45.981, você diria que é um número. Ao ver dados como 20/11/2025, você, como humano, talvez logo interprete como uma data, por pensar em calendários, compromissos ou aniversários. Quando você olha para os dados e pensa no que realmente são, está pensando no tipo de dados. Os analistas de dados entenderam que aqui começa a ficar complicado: o que os olhos veem e o que o programa diz nem sempre coincidem. Quando trabalhamos com dados no Excel ou em bancos de dados e esses dados são definidos pelos sistemas, o que vemos não é exatamente como foi definido ou armazenado. E se eu te dissesse que 20/11/2025 e 45.981 para o Excel são exatamente a mesma coisa? A diferença é o formato. Vou mostrar para você. Vou clicar em B2. Ao olhar acima, perceba que é mostrado o número, o número, o número e, quando chego à data abreviada, observe que diz 20/11/2025. Você já deve ter visto isso. Às vezes, quando você digita algo no Excel e quer dizer uma coisa e ele interpreta como uma data, por exemplo, você quer dizer um quarto. Está digitando uma fração. Observe o que acontece no Excel. Vou digitar 1/4. Quero dizer um quarto. O Excel imediatamente interpreta isso como 4 de janeiro. No momento em que o Excel interpreta que você está indicando uma data, ele formata essa informação como uma data. Então, você estava indicando uma fração, e o Excel retorna uma data. Não se preocupe, isso não acontece apenas com você. Os cientistas que estudam genes humanos renomearam cerca de 27 genes humanos porque o Excel interpretava erroneamente genes como MARCH1 e SEPT1 como 1º de março e 1º de setembro. O importante é entender que, na verdade, o Excel está formatando o que considera ser um número de série para exibir uma data. Por causa do formato, vemos a versão humana da data. Por quê? Mais uma vez, é porque o Excel converte datas em números de série para poder usá-las em operações matemáticas. Para corrigir essa formatação, você precisa alterar o formato para um número ou geral. Para algumas pessoas, esse é o máximo de exposição ao tipo de dados. Vou mostrar como fazer isso. Vou clicar nesta célula, ir até o número e converter para geral ou número. Também vou diminuir as casas decimais. Os tipos de dados comuns que os analistas de dados devem conhecer são texto ou string, data, hora, números e booleano, que pode ser algo como verdadeiro ou falso, sim ou não. Se estiver trabalhando em programas como Microsoft Access, na verdade é -1 ou 0, mas em ferramentas como SQL é 1 ou 0. Diferentes tecnologias têm diferentes tipos de dados. Por exemplo: os bancos de dados do Access têm uma lista bem pequena de tipos de dados. Já um banco de dados SQL tem uma infinidade de tipos. No final das contas, eles ainda se enquadram nos tipos gerais: datas, textos, números ou booleanos. A verdade é que, muitas vezes, os nomes dos campos não fazem sentido, os tipos de dados podem não ser o esperado e os valores, quando digitados por humanos, nem sempre são inseridos da forma certa. No entanto, para o analista iniciante ou o profissional de dados, faz parte da vida e, em alguns casos, da permanência no emprego.