Hadoop Analytics: a combinação de dados requer uma abordagem independente da fonte

Fonte: Agsandrew / Dreamstime.com

Leve embora:

Os métodos independentes de origem são ideais para o processamento de dados para análises do Hadoop.

Combinar fontes de dados no Hadoop é um negócio complexo. Algumas das razões para isso incluem:

Os scripts personalizados e específicos da fonte que combinam fontes de dados são problemáticos.
O uso de ferramentas de integração de dados ou ciência de dados introduz muita incerteza.
Adicionar dados de fontes externas é quase impossível.

Hoje, discutirei como as análises do Hadoop são aprimoradas por meio de tecnologias independentes de fonte que facilitam a combinação de fontes de dados internas e externas. Além de descrever como os métodos independentes de origem funcionam, também abordarei por que as análises do Hadoop precisam de recursos integrados de transferência de inteligência e conhecimento, um entendimento dos relacionamentos e características dos dados e uma arquitetura escalável e de alto desempenho.

Métodos agnósticos de origem incluem um modelo flexível de resolução de entidades que permite que novas fontes de dados sejam adicionadas usando processos de ciência de dados repetidos estatisticamente sólidos. Esses processos utilizam algoritmos para coletar conhecimento dos dados e avaliar, analisá-los para determinar a melhor abordagem de integração.
Não importa quão fragmentados ou incompletos os registros originais de origem, as tecnologias de análise do Hadoop devem ser independentes de origem e poder unificar dados sem alterar ou manipular dados de origem. Essas tecnologias também devem criar índices de entidade com base no conteúdo dos dados e atributos sobre os indivíduos e como eles existem no mundo. Para fazer isso, eles devem entender o conteúdo dos dados, con, estrutura e como os componentes se relacionam.
Experiência em ciência de dados e integração de dados incorporada permite que os dados sejam limpos, padronizados e correlacionados com um alto grau de exatidão e precisão. As ferramentas e os relatórios de visualização ajudam os analistas a avaliar e aprender com os dados e a executar o ajuste do sistema com base no conhecimento adquirido em diferentes etapas do processo.
Entendendo os relacionamentos entre entidades resulta em processos de resolução de entidade mais precisos. Como as entidades do mundo real não são apenas a soma de seus atributos, mas também de suas conexões, o conhecimento de relacionamento deve ser usado para detectar quando os registros são os mesmos. Isso é especialmente importante para lidar com casos de canto e big data.
Caracterização de dados melhora a análise, resolução e vinculação de dados, identificando e fornecendo informações para as fontes de dados. Pode ajudar a validar o conteúdo, a densidade e a distribuição de dados dentro de colunas de informações estruturadas. A caracterização de dados também pode ser usada para identificar e extrair dados importantes relacionados à entidade (nome, endereço, data de nascimento etc.) de fontes não estruturadas e semiestruturadas para correlação com fontes estruturadas.
Arquitetura escalável e paralela realiza análises rapidamente, mesmo ao oferecer suporte a centenas de fontes de dados estruturados, semiestruturados e não estruturados e dezenas de bilhões de registros.

O Hadoop está mudando a maneira como o mundo executa análises. Quando novas análises agnósticas de fonte são adicionadas aos ecossistemas Hadoop, as organizações podem conectar os pontos a muitas fontes de dados internas e externas e obter insights que antes não eram possíveis.

Este artigo foi publicado originalmente em Novetta.com. Foi reed aqui com permissão. Novetta mantém todos os direitos autorais.