Hadoop Analytics: Não é tão fácil em várias fontes de dados

Contente

Dados de diferentes fontes difíceis de conectar e mapear
Especialistas do Hadoop tentam mesclar dados juntos
Métodos independentes de origem são melhores para combinar dados

Fonte: Andreykuzmin / Dreamstime.com

Leve embora:

Combinar dados de diferentes fontes pode ser problemático, mas métodos independentes de fonte podem ser uma solução.

O Hadoop é um ótimo lugar para descarregar dados para processamento analítico ou modelar volumes maiores de uma única fonte de dados que não são possíveis com os sistemas existentes. No entanto, como as empresas trazem dados de várias fontes para o Hadoop, há uma demanda crescente pela análise de dados em diferentes fontes, o que pode ser extremamente difícil de alcançar. Esta postagem é a primeira de uma série de três partes que explica os problemas que as organizações enfrentam, enquanto tentam analisar diferentes fontes e tipos de dados no Hadoop e como resolver esses desafios. A postagem de hoje se concentra nos problemas que ocorrem ao combinar várias fontes internas. As próximas duas postagens explicam por que esses problemas aumentam em complexidade, à medida que fontes de dados externas são adicionadas e como novas abordagens ajudam a resolvê-las.

Dados de diferentes fontes difíceis de conectar e mapear

Dados de diversas fontes têm estruturas diferentes que dificultam a conexão e o mapeamento de tipos de dados, inclusive dados de fontes internas. A combinação de dados pode ser especialmente difícil se os clientes tiverem vários números de conta ou se uma organização tiver adquirido ou mesclado com outras empresas. Nos últimos anos, algumas organizações tentaram usar aplicativos de descoberta de dados ou ciência de dados para analisar dados de várias fontes armazenadas no Hadoop. Essa abordagem é problemática porque envolve muitas suposições: os usuários precisam decidir quais chaves estrangeiras usar para conectar várias fontes de dados e fazer suposições ao criar sobreposições de modelo de dados. Essas suposições são difíceis de testar e geralmente incorretas quando aplicadas em escala, o que leva à análise de dados com falha e desconfiança das fontes.

Especialistas do Hadoop tentam mesclar dados juntos

Portanto, as organizações que desejam analisar dados nas fontes de dados recorreram à contratação de especialistas do Hadoop para criar scripts personalizados específicos da fonte para mesclar conjuntos de dados. Esses especialistas do Hadoop geralmente não são especialistas em integração de dados ou resolução de entidades, mas fazem o melhor possível para atender às necessidades imediatas da organização. Esses especialistas geralmente usam Pig ou Java para escrever regras rígidas e rápidas que determinam como combinar dados estruturados de fontes específicas, por exemplo, registros correspondentes com base em um número de conta. Depois que um script para duas fontes for gravado, se uma terceira fonte precisar ser adicionada, o primeiro script deverá ser descartado e um novo script projetado para combinar três fontes específicas. O mesmo acontece se outra fonte for adicionada e assim por diante. Essa abordagem não apenas é ineficiente, mas também falha quando aplicada em escala, lida mal com casos extremos, pode resultar em um grande número de registros duplicados e geralmente mescla muitos registros que não devem ser combinados.

Métodos independentes de origem são melhores para combinar dados

Uma abordagem melhor é combinar fontes de dados internas usando um método independente de fonte que inclua um modelo de resolução de entidade flexível, que permita que novas fontes sejam adicionadas facilmente usando um processo repetível estatisticamente correto.

Este artigo foi publicado originalmente em Novetta.com. Foi reed aqui com permissão. Novetta mantém todos os direitos autorais.