Dados, grandes e pequenos: onde está o valor real?

Autor: Eugene Taylor
Data De Criação: 11 Agosto 2021
Data De Atualização: 11 Poderia 2024
Anonim
Dados, grandes e pequenos: onde está o valor real? - Tecnologia
Dados, grandes e pequenos: onde está o valor real? - Tecnologia

Contente


Fonte: Marek Uliasz / Dreamstime.com

Leve embora:

Todos nós sabemos a importância dos dados hoje. O big data é amplamente usado como uma solução para lidar com grandes volumes de dados. Mas, ao mesmo tempo, pequenos dados são igualmente importantes.

Big data é uma palavra genérica usada para se referir ao manuseio de grandes volumes de dados. Todos entendemos que quanto maior o volume de dados, mais complexo ele se torna. As soluções tradicionais de banco de dados geralmente falham ao gerenciar grandes volumes de dados adequadamente devido à sua complexidade e tamanho. Portanto, gerenciar grandes volumes de dados e extrair informações reais é uma tarefa desafiadora. O mesmo conceito de "valor" também é aplicável a dados pequenos.

Como o Big Data é usado

As soluções convencionais de banco de dados baseadas no conceito RDBMS podem gerenciar dados transacionais muito bem e são amplamente usadas em diferentes aplicativos. Mas quando se trata de manipular um grande conjunto de dados (dados arquivados e em terabytes ou petabytes), essas soluções de banco de dados geralmente falham. Esses conjuntos de dados são grandes demais e, na maioria das vezes, não se encaixam na arquitetura dos bancos de dados tradicionais. Atualmente, o big data se tornou uma abordagem econômica para lidar com conjuntos maiores de dados. Do ponto de vista organizacional, o uso de big data pode ser dividido nas seguintes categorias, nas quais o valor real dos grandes dados reside:

  • Uso analítico
    Os analistas de big data revelaram muitos aspectos ocultos importantes dos dados, que são muito caros para processar. Por exemplo, se precisarmos verificar a tendência de interesse dos alunos em um determinado novo tópico, podemos fazer isso analisando os registros de frequência diária e outros fatos sociais e geográficos. Esses fatos são capturados no banco de dados. Se não podemos acessar esses dados de maneira eficiente, não podemos ver os resultados.

  • Ativar novos produtos
    No passado recente, muitas empresas novas da Web, como, começaram a usar o big data como uma solução para lançar novos produtos. Todos sabemos o quão popular é - ele preparou com sucesso uma experiência de usuário de alto desempenho usando big data.

Onde está o valor real?

Soluções diferentes de big data diferem na abordagem em que armazenam dados, mas no final, todas elas armazenam dados em uma estrutura de arquivo simples. Em geral, o Hadoop consiste no sistema de arquivos e em algumas abstrações de dados no nível do sistema operacional. Isso inclui um mecanismo MapReduce e o HDFS (Hadoop Distributed File System). Um cluster simples do Hadoop inclui um nó principal e vários nós de trabalho. O nó principal consiste no seguinte:

  • Rastreador de tarefas
  • Job Tracker
  • Nó de nome
  • Nó de dados
O nó do trabalhador consiste no seguinte:
  • Rastreador de tarefas
  • Nó de dados

Algumas implementações têm apenas o nó de dados. O nó de dados é a área real em que os dados estão. O HDFS armazena arquivos grandes (no intervalo de terabytes a petabytes) distribuídos em várias máquinas. A confiabilidade dos dados em cada nó é alcançada replicando os dados em todos os hosts. Portanto, os dados estão disponíveis mesmo quando um dos nós está inoperante. Isso ajuda a obter uma resposta mais rápida contra consultas. Este conceito é muito útil no caso de grandes aplicações como. Como usuário, obtemos uma resposta à nossa solicitação de bate-papo, por exemplo, quase que imediatamente. Considere um cenário em que um usuário precise esperar muito tempo enquanto conversa. Se a resposta subsequente não for entregue imediatamente, quantas pessoas realmente usarão essas ferramentas de bate-papo?


Voltando à implementação, se os dados não forem replicados nos clusters, não será possível ter uma implementação atraente. O Hadoop distribui os dados pelas máquinas em um cluster maior e armazena arquivos como uma sequência de blocos. Esses blocos são de tamanho idêntico, exceto o último bloco. O tamanho do bloco e o fator de replicação podem ser personalizados conforme a necessidade. Os arquivos no HDFS seguem rigorosamente a abordagem de gravação única e, portanto, só podem ser gravados ou editados por um usuário por vez. As decisões relacionadas à replicação de blocos são tomadas pelo nó de nome. O nó de nome recebe relatórios e respostas de pulso de cada um dos nós de dados. As respostas de pulso garantem a disponibilidade do nó de dados correspondente. O relatório contém os detalhes dos blocos no nó de dados.

Outra implementação de big data, Cassandra, também usa um conceito de distribuição semelhante. Cassandra distribui dados com base na localização geográfica. Portanto, em Cassandra, os dados são segregados com base na localização geográfica do uso de dados.


Às vezes, dados pequenos causam um impacto maior (e menos caro)

De acordo com Rufus Pollock, da Open Knowledge Foundation, não há sentido em criar hype em torno de big data, enquanto pequenos dados ainda são o local onde está o valor real.

Como o nome sugere, dados pequenos são um conjunto de dados direcionados a partir de um conjunto maior de dados. Os dados pequenos pretendem mudar o foco do uso de dados e também visam contrariar a tendência de avançar em direção ao big data. A abordagem de pequenos dados ajuda na coleta de dados com base em requisitos específicos, usando menos esforço. Como resultado, é a prática de negócios mais eficiente ao implementar a inteligência de negócios.

Na sua essência, o conceito de pequenos dados gira em torno de empresas que exigem resultados que exigem ações adicionais. Esses resultados precisam ser buscados rapidamente e a ação subsequente também deve ser executada prontamente. Assim, podemos eliminar os tipos de sistemas comumente usados ​​na análise de big data.

Em geral, se considerarmos alguns dos sistemas específicos necessários para a aquisição de big data, uma empresa pode investir na configuração de muito armazenamento de servidor, usar servidores sofisticados de ponta e os aplicativos de mineração de dados mais recentes para lidar com diferentes bits de dados , incluindo datas e horários das ações do usuário, informações demográficas e outras informações. Todo esse conjunto de dados se move para um data warehouse central, onde algoritmos complexos são usados ​​para classificar e processar os dados a serem exibidos na forma de relatórios detalhados.

Todos sabemos que essas soluções beneficiaram muitos negócios em termos de escalabilidade e disponibilidade; existem organizações que acham que a adoção dessas abordagens exige um esforço substancial. Também é verdade que, em alguns casos, resultados semelhantes são alcançados usando uma estratégia de mineração de dados menos robusta.

Os dados pequenos fornecem uma maneira de as organizações recuarem de uma obsessão pelas tecnologias mais recentes e mais recentes que suportam processos de negócios mais sofisticados. As empresas que estão promovendo pequenos dados argumentam que é importante, do ponto de vista comercial, usar seus recursos de maneira eficiente, para que o gasto excessivo em tecnologia possa ser evitado até certo ponto.

Discutimos muito sobre as realidades de big data e small data, mas devemos entender que selecionar a plataforma correta (big data ou small data) para o uso correto é a parte mais importante de todo o exercício. E a verdade é que, embora o big data possa oferecer muitos benefícios, nem sempre é o melhor.