Momento avançado: movendo o relacionamento além do tradicional

Leve embora: O anfitrião Eric Kavanaugh discute inovações na tecnologia de banco de dados com os especialistas Dez Blanchfield, Robin Bloor e Bert Scalzo.

No momento, você não está logado. Faça o login ou inscreva-se para ver o vídeo.

Eric Kavanagh: Senhoras e senhores, é quarta-feira, às quatro horas do leste. Estou em Nova Orleans, o verão está chegando, isso significa que está quente! É hora das Tecnologias Quentes, sim, de fato, sim, de fato. Meu nome é Eric Kavanagh, serei seu anfitrião. Vou chutar a bola aqui para a Hot Technologies. O tópico de hoje é "Momento avançado: movendo o relacionamento além do tradicional". Pessoal, hoje temos três especialistas em banco de dados por telefone. Portanto, qualquer dúvida que você tenha, seja a mais difícil, não seja tímida. Hoje temos um bom conteúdo alinhado para você. Existe um ponto sobre o seu verdadeiramente, o suficiente sobre mim. Claro, este ano é quente. Estamos falando sobre tecnologias quentes neste programa, que é uma parceria com nossos amigos da Techopedia. E estamos indo até a base do gerenciamento de informações hoje, que obviamente é o banco de dados. Vamos falar sobre como chegamos aqui, o que está acontecendo hoje e o que está acontecendo daqui para frente. Muitas coisas muito interessantes acontecendo.

Obviamente, temos alguma inovação séria no espaço do banco de dados. Ficou meio quieto por um tempo; se você conversar com alguns dos analistas do ramo, eu diria que provavelmente do ano de 2005 a 2009 ou '10 'não parecia haver muita coisa acontecendo em termos de inovação.E de repente tudo começou, como um jailbreak ou algo assim, e agora há todo tipo de coisa interessante acontecendo. Muito disso é devido à escala da web e a todas as propriedades legais da web que estão fazendo diferentes coisas interessantes. É daí que surgiu o conceito NoSQL. E isso significa duas coisas diferentes: significa que não há SQL, pois não suporta SQL, mas também significa não apenas SQL. Existe um termo "NewSQL" que algumas pessoas usaram. Mas, obviamente, o SQL - a Linguagem de Consulta Estruturada - realmente é a base, é a base da consulta.

E é interessante que todos esses mecanismos NoSQL, o que aconteceu? Bem, eles saíram, havia muita empolgação nisso e, alguns anos depois, o que todos nós começamos a ouvir? Oh, SQL no Hadoop. Bem, todas essas empresas começaram a aplicar interfaces SQL em suas ferramentas NoSQL, e qualquer pessoa que esteja no mundo da programação sabe que isso levará a alguns desafios e algumas dificuldades, e alguns fios cruzados e assim por diante. Então, vamos descobrir muitas dessas coisas hoje.

Existem três apresentadores: temos Dez Blanchfield ligando de Sydney, nosso próprio Robin Bloor, que está no Texas, e Bert Scalzo, ele também está no Texas. Então, antes de tudo, ouviremos de Dez Blanchfield. Pessoal, vamos twittar na hashtag da #HotTech, então fique à vontade para seus comentários ou perguntas através do componente de perguntas e respostas do console de webcast ou mesmo pela janela de bate-papo. E com isso, Dez Blanchfield, leve embora.

Dez Blanchfield: Obrigado, Eric. Olá a todos. Então, vou tentar definir o cenário em um ponto de vista de 30.000 pés, do tipo que aconteceu na última década, e as mudanças significativas que vimos - ou pelo menos uma década e meia de qualquer maneira - do sistemas de gerenciamento de banco de dados e alguns dos impactos do ponto de vista comercial ou técnico, além de algumas das tendências que sofremos ultimamente, e nos levam à conversa que estamos prestes a ter hoje sobre o assunto.

Minha imagem de capa aqui é uma duna de areia, e o vento sopra minúsculos pedacinhos de areia em cima dela. E como resultado disso, o que acontece é que a duna de areia caminha lentamente de um espaço para outro. E é um fenômeno incrível, onde essas enormes montanhas de areia de 40 e 50 pés de altura efetivamente se movem. E eles se movem muito lentamente, mas se movem com segurança e, à medida que se movem, mudam a paisagem. E é algo a se observar se você passa algum tempo em uma área onde as dunas de areia são uma coisa natural. Porque você pode olhar pela janela um dia e perceber que essa enorme montanha de areia, pequenos grãos minúsculos se moveram por si só, com efeito, e que o vento a desloca lentamente de um lugar para outro.

E acho que, de várias maneiras, esse é o mundo dos sistemas de banco de dados há algum tempo. Até muito, muito recentemente, aquela mudança muito pequena na forma de grãos de areia movendo uma montanha gigante de areia na forma de uma duna de areia. Pequenas mudanças ocorreram nas plataformas de banco de dados ao longo dos anos e tem sido um ambiente bastante estável e sólido em torno de sistemas e plataformas de banco de dados, através do mainframe da era de médio alcance. Mas, ultimamente, tivemos algumas coisas bastante significativas acontecendo com nossas necessidades comerciais e nossos direcionadores técnicos. Eu vou nos guiar por isso.

Tenho uma opinião de que o conceito básico de um banco de dados, como o conhecíamos há muitos e muitos anos, e como você já deve ter ouvido na conversa pré-show, nossos dois especialistas que estão hoje comigo hoje tiveram uma vida inteira. esse espaço e eles estão certos em compartilhar os direitos de se gabar de estar lá quando tudo começou no início dos anos 80. Mas vimos essa mudança maciça na última década e um pouco, e eu vou nos guiar rapidamente antes de entregá-la ao Dr. Robin Bloor.

Passamos por isso que chamo de experiência "maior, melhor, mais rápida e mais barata". Como eu disse, a definição de um banco de dados mudou. O cenário em que as plataformas de banco de dados tiveram que lidar com o desempenho e os requisitos técnicos e comerciais também mudaram. Vimos esse aumento na demanda por soluções para lidar com requisitos técnicos comerciais mais complexos ou mais complexos. Então, uma rápida olhada no que isso realmente significa, na minha opinião, é que chegamos aos anos 90 e vimos a tecnologia de banco de dados impactada pela introdução da Internet e o que chamamos naquela época de Internet. escala. Não estávamos falando apenas de pessoas sentadas em frente a terminais, originalmente de tipos de terminais de teletipo com ers físicos embutidos nelas e 132 colunas saindo em papel. Em seguida, os primeiros terminais de tela verde, pressionando os teclados.

Mas você sabe, nosso mundo era de terminais e cabos seriais ou de rede conversando com computadores por um longo tempo. Então veio a Internet e esse crescimento explosivo da conectividade, que você não precisava mais conectar ao computador. Para acessar um sistema de banco de dados, você só precisava de um navegador da web. Portanto, a tecnologia de banco de dados teve que mudar drasticamente, para lidar com a escala de tudo, desde as tecnologias básicas de mecanismo de pesquisa usadas para indexar o mundo e armazenar um índice de informações, no exemplo da escala de formato de banco de dados. E pessoas como o Google e outras pessoas forneceram uma plataforma para fazer isso. E todos os novos tipos de armazenamento de banco de dados, consultas e indexação foram produzidos. E então tivemos sites de música e sites de filmes.

E então, nos anos 2000, vimos o boom das pontocom e isso produziu uma explosão ainda mais dramática no número de pessoas que usam sistemas que eram invariavelmente alimentados por um banco de dados de alguma forma. Nesse estágio, os bancos de dados relacionais ainda lidam com a maior parte da carga, apenas os colocamos em estanho maior e fomos para os muito, muito, muito grandes sistemas de médio porte executando plataformas Unix de pessoas como IBM e Sun e assim por diante . O boom das pontocom tornou as coisas maiores e mais rápidas do ponto de vista do hardware e do desempenho, e houve algumas mudanças significativas nos mecanismos de banco de dados, mas, na melhor das hipóteses, ainda era a mesma coisa que tínhamos visto por um tempo. muito tempo.

E então chegamos a essa era da web 2.0, como nos referimos a ela. E essa foi uma mudança monstruosa, porque, de repente, precisávamos de plataformas de banco de dados muito mais simples, e tinha que haver uma escala horizontal. E foi uma mudança tão significativa na maneira que abordamos a idéia do que era um banco de dados. Na verdade, ainda estamos nos atualizando. E agora estamos lidando com todo esse atoleiro, e digo que, com um giro positivo, não uma conotação negativa, esse atoleiro do que chamamos de big data e uma enorme explosão, e eu quero dizer explosão. Essa mudança ultrajante verticalmente no gráfico do número de opções que temos quando falamos sobre um banco de dados e alguma forma de capacidade de consulta relacional.

E, curiosamente, sou pessoalmente da opinião de que acho que o big data realmente é apenas a ponta do iceberg. Nós tendemos a ficar um pouco empolgados com o impacto do big data e com os tipos de escolhas que temos disponíveis agora. Temos tudo, desde mecanismos NoSQL, mecanismos gráficos, todos esses tipos diferentes de plataformas nas quais podemos lançar dados e fazer coisas com eles. Até o ponto em que, de fato, uma das primeiras conversas que tive com Eric Kavanagh, que hoje está aqui conosco, foi sobre uma conversa referente a uma coisa chamada Apache Drill, que é um projeto de código aberto que permite consultar Os dados dentro do modelo modelam diferentes tipos de dados: tudo, desde arquivos CSE brutos em um disco rígido até sistemas de arquivos HDFS em escala de petabytes. E você sabe, ele permite que você faça essas consultas no estilo SQL de dados estruturados e não estruturados de todos os tipos de plantas interessantes.

Estamos prestes a ver o “prédio inteligente” se tornar uma coisa e gostaríamos de pensar que temos edifícios inteligentes de segurança e gerenciamento de calor, mas estou falando de edifícios inteligentes que sabem muito mais sobre quem você é e onde você está quando entra e faz todo tipo de coisas legais nesse nível, até cidades inteligentes - ecossistemas inteiros no nível da cidade - que sabem como fazer as coisas de maneira inteligente. Além disso, temos uma coisa incrível que não acho que ninguém no mundo tenha compreendido completamente, e essa é a forma da Internet das Coisas. Houve todas essas mudanças diferentes na última década e um pouco, talvez duas décadas, se a arredondarmos, que meio que impactaram o mundo do que consideramos bancos de dados, na minha opinião.

Houve algumas coisas importantes que tornaram isso ainda possível. O custo dos discos rígidos diminuiu drasticamente e, de várias maneiras, foi possível conduzir algumas das arquiteturas de referência, como o modelo Hadoop, na medida em que coletamos muitos dados e os espalhamos em vários discos rígidos, e faça coisas inteligentes com isso. E, na verdade, o que se tornou fragmentar, a meu ver, o banco de dados relacional ou o modelo tradicional de unidade de banco de dados. E a RAM ficou muito, muito barata, e isso nos deu uma oportunidade totalmente nova de brincar com diferentes arquiteturas de referência, como na memória, e fazer coisas como particionar grandes quantidades de dados muito grandes.

E isso nos deu uma pequena imagem que estamos vendo agora, que é um diagrama que mostra os tipos de plataformas disponíveis se você estiver no cenário de big data. E é muito, muito difícil de ler, e o motivo disso é que há muita informação sobre isso. Existem muitas opções de criar, modelar e fabricar maneiras de colocar dados nos sistemas de banco de dados de qualquer forma, consultá-los e executar as tradicionais leituras e gravações. E eles não são todos compatíveis, na verdade, poucos deles cumprem qualquer padrão básico de estilo, mas ainda se consideram um banco de dados. E mostrarei algumas telas em um segundo para que você entenda o que quero dizer com a mudança dos anos 90 e a escala da Internet, para a Web 2.0 e, em seguida, todo o crescimento por meio de big data. Se achamos que esse gráfico de cenário da tecnologia de big data é empolgante porque há muitas opções, vamos dar uma olhada em uma das principais verticais.

Vamos olhar para a tecnologia de marketing. Aqui estão as opções para sistemas de gerenciamento de banco de dados, ou gerenciamento de dados dentro do espaço Mar-Tech, portanto, tecnologia relacionada ao marketing. Agora, isso foi em 2011, alguns anos atrás; cinco anos atrás, era assim que a paisagem era. Se eu voltar um slide brevemente, é assim que o cenário de dados atual se parece nas várias marcas e ofertas que temos nas tecnologias de banco de dados. É assim que parecia uma vertical há cinco anos, apenas em tecnologia de marketing.

Agora, se eu for para a exibição de hoje, é assim que é e é completamente impenetrável. É apenas esse muro de marcas e opções, e são milhares e milhares de combinações de software que se considera pertencentes à classe de banco de dados, que podem capturar, criar ou armazenar e recuperar dados de várias formas. E acho que estamos entrando em um momento muito, muito interessante e corajoso agora, onde era uma vez possível conhecer as principais marcas, conhecer as cinco ou seis plataformas diferentes da Oracle e Informix, DB2 e assim por diante, e estar quase um especialista em todas as marcas que estavam disponíveis há cerca de 20 anos. Há dez anos, ficou um pouco mais fácil porque algumas das marcas caíram, e nem todas as marcas conseguiram lidar com a escala do boom das pontocom, e algumas empresas simplesmente faliram.

Hoje, é absolutamente impossível ser especialista em toda a tecnologia de banco de dados que existe, sejam bancos de dados relacionais ou plataformas padrão de gerenciamento de banco de dados que conhecemos nas últimas décadas. Ou provavelmente o caso, os motores mais modernos como o Neo4j e esses tipos. Por isso, acho que estamos entrando em um mundo muito corajoso, onde muitas opções estão disponíveis, e temos plataformas em escala horizontalmente, na memória ou no disco agora. Mas acho que é um momento desafiador para os tomadores de decisão de tecnologia e de negócios, porque eles precisam tomar algumas decisões muito grandes sobre pilhas de tecnologias, que em alguns casos existem apenas há meses. Agora, dezoito meses não é um número assustador para algumas das mais emocionantes e novas plataformas de banco de dados de código aberto. E eles começam a mesclar plataformas e se tornam ainda mais novos e mais emocionantes.

Acho que teremos uma ótima conversa hoje sobre como tudo isso impactou as plataformas de banco de dados tradicionais e como elas estão respondendo a ela, e os tipos de tecnologias que estão sendo lançadas nisso. E com isso em mente, vou passar agora para o Dr. Robin Bloor e obter suas idéias. Robin, para você.

Robin Bloor: Ok, obrigado por isso. Sim, esse é um tópico muito grande. Quero dizer, se você apenas derramar uma das ilustrações que Dez acabou de mostrar, poderá ter uma longa conversa sobre apenas uma das lascas. Mas você sabe, você pode acessar um banco de dados. Eu tenho procurado bancos de dados, não sei, desde os anos 80, e você pode ver os bancos de dados de maneiras diferentes. E uma das coisas que imaginei que faria, apenas entrar na conversa de hoje, foi falar sobre o motivo pelo qual coisas perturbadoras aconteceram no nível do hardware. E você deve ter em mente que muitas coisas perturbadoras também aconteceram no nível do software, então essa não é a imagem completa de nada, é apenas uma questão de hardware.

Eu não falaria por muito tempo também, só queria lhe dar uma imagem do hardware. Um banco de dados possuía recursos de recuperação de dados que abrangem CPU, memória e disco, e isso está mudando drasticamente. E a razão pela qual digo isso foi que aprendi a entender o banco de dados da perspectiva do que você realmente fez. Você sabe, há uma diferença na latência entre os dados realmente na CPU e os dados sendo puxados para a CPU a partir da memória e os dados sendo puxados do disco para a memória e através da CPU. E as antigas arquiteturas de banco de dados estavam apenas tentando equilibrar isso. Sabe, eles estavam apenas dizendo: "Bem, isso fica muito lento, armazenaremos em cache os dados no disco para que fiquem na memória. Vamos tentar fazer isso de uma maneira realmente precisa, para que uma proporção realmente boa dos dados solicitados já esteja na memória. E marcharemos os dados para a CPU o mais rápido possível. ”

E os bancos de dados foram escritos nos velhos tempos, as máquinas são escritas para pequenos grupos. E agora, para os ignorantes do paralelismo. Porque se você quiser obter desempenho de um cluster, precisará fazer várias coisas em paralelo. O paralelismo é uma parte do jogo, nada parecido com o que é agora. Eu apenas passo o que aconteceu.

Primeiro de tudo, disco. Bem, o disco acabou, realmente. Está praticamente acabado no que diz respeito aos bancos de dados. Eu acho que há muitos contras no arquivamento de dados e, mesmo em grandes lagos de dados em execução no Hadoop, o pior disco giratório provavelmente é viável hoje em dia. Realmente, o problema com o disco giratório era que as velocidades de leitura não melhoravam muito. E quando a CPU estava subindo, a lei de Moore acelera, tipo de ordem de magnitude, mais rápida a cada seis anos. E a memória seguia seu rastro, então esses dois estavam razoavelmente acompanhando o ritmo, não era totalmente suave, mas eles fizeram.

Mas a leitura aleatória em um disco em que a cabeça voa sobre o disco, quer dizer, além de qualquer outra coisa, é um movimento físico. E se você estiver fazendo leituras aleatórias de um disco, é incrivelmente lento se comparado à leitura da memória, é 100.000 vezes mais lento. E, recentemente, a maioria das arquiteturas de banco de dados que eu analisei em profundidade foi na verdade apenas lendo em série os discos. Você realmente deseja, de uma forma ou de outra, apenas armazenar em cache o máximo que puder do disco, e retirá-lo do dispositivo lento e colocá-lo em um dispositivo rápido. E há muitas coisas inteligentes que você pode fazer com isso, mas acabou meio que.

E discos de estado sólido, ou unidades flash, na verdade, são o que são, estão substituindo rapidamente o disco giratório. E isso muda completamente novamente, porque a maneira como os dados são organizados em um disco é organizada de acordo com a maneira como o disco funciona. Na verdade, trata-se de uma cabeça se movendo em uma superfície giratória, na verdade várias cabeças se movendo em várias superfícies giratórias e coletando os dados à medida que avançam. Uma unidade de estado sólido é apenas um bloco de coisas que você pode ler. Quero dizer, a primeira coisa é que todos os bancos de dados tradicionais foram projetados para disco giratório e agora estão sendo reprojetados para SSD. Novos bancos de dados provavelmente podem - qualquer pessoa que esteja escrevendo um novo banco de dados no momento pode ignorar o disco giratório, nem pensar nisso. Mas a Samsung, a principal fabricante de SSDs, diz que os SSDs estão na verdade na curva da lei de Moore.

Acho que eles já eram três ou quatro vezes mais rápidos que girar discos, mas agora ficam muito mais rápidos a cada 18 meses, basicamente. O dobro de velocidade e 10 vezes em velocidade até cerca de seis anos. Se foi apenas isso, no entanto, não é, como vou lhe dizer em um momento. O disco giratório está se tornando um meio de arquivamento.

Sobre a memória. Primeiras coisas primeiro, RAM. A taxa de CPU entre RAM por CPU está aumentando o tempo todo. E é claro que, de certa forma, oferece muito mais velocidade, porque os acres de memória que você pode ter agora podem armazenar muito mais. O que isso realmente faz é reduzir a pressão sobre os aplicativos MLTP ou aplicativos de leitura aleatória, porque é mais fácil atendê-los, porque agora você tem muita memória e, dessa forma, pode armazenar em cache qualquer coisa que seja provável que seja lido na memória. Mas você enfrenta problemas com um heap de dados maior, portanto, o big data não é tão simples assim.

E então temos a Intel com o 3D Xpoint e a IBM com o que eles chamam de PCM, que é a memória de mudança de fase, oferecendo algo que eles acreditam que é - bem, é pelo menos 10 vezes mais rápido que os SSDs atuais e eles acreditam que isso muito perto de ter a mesma velocidade que a RAM. E é claro que é menos caro. Então, anteriormente, você tinha essa estrutura de banco de dados de CPU, memória e disco, e agora estamos caminhando para uma estrutura com quatro camadas. Possui CPU, memória ou RAM e, em seguida, esse tipo de memória mais rápida que o SSD, que na verdade é não volátil e, em seguida, SSD. E essas novas tecnologias são não voláteis.

E há o memristor da HP, que ainda não é, porque foi anunciado há cerca de sete anos, mas ainda não apareceu. Mas os rumores que ouço são de que a HP também mudará o jogo com um memristor, para que você tenha uma nova situação de memória. Não é como se tivéssemos coisas mais rápidas, como se tivéssemos uma nova camada. E então temos o acesso SSD, você pode lê-lo em paralelo. Você não pode ler discos giratórios em paralelo, exceto por ter muitos discos giratórios diferentes. Mas um bloco de SSD, você pode realmente ler em paralelo. E como você pode ler isso em paralelo, ele vai muito mais rápido do que suas velocidades de leitura simples, se você realmente configurar vários processos nos vários processos em uma única CPU e apenas usar o SSD.

Estima-se que você possa obter quase velocidades de RAM fazendo isso. E tudo o que isto está dizendo é que o futuro da arquitetura de memória não é claro. Quero dizer, a realidade é que os vários fornecedores dominantes, sejam eles quem forem, provavelmente determinarão a direção do hardware. Mas ninguém sabe para onde está indo neste momento. Conversei com alguns engenheiros de banco de dados que dizem: "Não tenho medo do que está acontecendo", mas eles não sabem como otimizá-lo desde o início. E você sempre meio que fez, então isso é interessante.

E depois há a CPU. Bem, CPUs multicore não eram apenas CPUs multicore. Também temos volumes significativos de cache L1, L2 e L3, principalmente L3, que é, até eu sei, dezenas de megabytes. Você pode colocar muita coisa lá, você sabe. E, portanto, você pode realmente usar o chip como um meio de armazenamento em cache. Então isso mudou o jogo. E certamente, processamento de vetor e compactação de dados, vários fornecedores realmente fizeram isso, arrastaram essas coisas para a CPU para acelerar tudo mais rapidamente na CPU. Então você obtém o fato de que, bem, CPUs com GPUs são realmente boas para acelerar a análise. E eles são realmente muito bons em certos tipos de consultas, depende apenas de qual é a sua consulta.

Você pode criar placas com CPUs e GPUs ativadas ou, como a AMD está fazendo agora, produzir algo chamado APU, que é um tipo de casamento entre uma CPU e uma GPU; tem os dois tipos de capacidade nele. Então esse é um tipo diferente de processador. E então o recente anúncio da Intel de que eles colocarão um FPGA no chip, isso meio que me fez pensar. Eu estava pensando: “Como diabos isso vai acontecer?” Porque se você tem o possibilidade de CPU, GPU, e você tem a possibilidade de CPU, FPGA - e, a propósito, se você realmente quiser, na mesma placa, poderá colocar uma CPU, uma GPU e um FPGA. Não tenho idéia de como você realmente executaria algo dessa maneira, mas conheço empresas que estão fazendo coisas assim e estão recebendo respostas de consulta muito, muito rápidas. Isso não é algo que será ignorado, é algo que será usado pelos fornecedores estabelecidos e por novos fornecedores, talvez. Os DBMSs sempre foram paralelos, mas agora as possibilidades paralelas acabaram de explodir, porque isso permite que você paralelize isso com aquilo, com aquilo, com aquilo de várias maneiras.

Finalmente, aumentar ou diminuir? Ampliar é realmente a melhor solução, mas por um lado. Você obtém um desempenho muito melhor do nó se puder otimizar absolutamente o desempenho da CPU e a memória no disco em um nó. E você usará menos nós, então será mais barato, certo? E será mais fácil de gerenciar. Infelizmente, é um projeto dependente de hardware e, à medida que o hardware muda, torna-se cada vez menos possível, a menos que seus engenheiros possam executar o mais rápido que o hardware está mudando. E você tem problemas com a carga de trabalho, porque, quando está ampliando, está fazendo várias suposições sobre o que a carga de trabalho fará.

Se você expandir, ou seja, se sua arquitetura enfatizar a expansão antes da expansão - na verdade, você precisará fazer as duas coisas, apenas enfatize uma. Então você obterá melhor desempenho de rede, porque a arquitetura lidará com isso. Será mais caro em termos de hardware, porque haverá mais nós, mas haverá menos problemas de carga de trabalho e haverá um design mais flexível.

E eu apenas pensei em incluir isso, porque se você realmente pensar em todas as mudanças de hardware, apontei meu dedo e, em seguida, você pensou em como você vai escalar e escalar essas coisas? Então você percebe que os engenheiros de banco de dados são, na minha opinião, pelo menos bem pagos. Portanto, se você apenas contemplar a camada de hardware, os desafios do banco de dados são claros. Agora passo isso para Bert, que fará com que todos nos sintamos educados.

Eric Kavanagh: É isso aí! Bert?

Bert Scalzo: Muito obrigado. Deixe-me ir direto para esses slides. Como tenho muitos slides, então em alguns deles posso ir rapidamente. Nós vamos falar sobre esse "Momento avançado: movendo o relacionamento além do tradicional". Não é mais o banco de dados de seu pai. As coisas mudaram e, como disse um orador anterior, nos últimos seis a sete anos, o cenário mudou radicalmente.

Eu próprio trabalho em bancos de dados desde meados dos anos 80. Escrevi livros sobre Oracle, SQL Server, benchmarking e várias outras coisas. “O mundo está mudando muito rápido. O grande não mais derrotará o pequeno. Será o mais rápido que o mais lento. ”Eu adicionei o“ para adaptar ”. Isso foi de Rupert Murdoch. Eu realmente acredito que isso será verdade. Você não poderá fazer coisas de banco de dados como fazia 10, 15, 20 anos atrás. Você precisará fazer isso da maneira que a empresa deseja agora.

Vou tentar permanecer um pouco genérico no que estou apresentando, mas a maioria dos recursos de que estou falando, você encontrará no Oracle, no SQL Server, MySQL, MariaDB e outros grandes jogadoras. Na revolução do banco de dados relacional, eu meio que concordo novamente com os palestrantes anteriores. Se você olhar por volta de 2010, passamos do carro de corrida vermelho para o carro de corrida amarelo. Houve uma mudança significativa e, em 2020, acredito que você verá outra mudança radical. Estamos em um momento muito interessante.

Agora, este slide é a chave, é por isso que eu coloquei uma chave lá em cima. Toda essa mudança está acontecendo e, no lado esquerdo, tenho tecnologia e, no lado direito, tenho negócios. E a pergunta é: qual está causando qual e qual está apoiando qual? Temos todas essas alterações de hardware: discos caindo, tamanho do disco aumentando, novos tipos de discos, o que foi coberto pelos alto-falantes anteriores. O preço da queda de memória, todas essas versões mais recentes dos bancos de dados. No lado direito, porém, temos proteção e conformidade de dados, data warehousing, inteligência de negócios, análises, retenção obrigatória de dados. Ambos os lados da equação estão dirigindo e os dois lados da equação farão uso de todos esses novos recursos.

Primeiro de tudo, temos o nosso disco giratório SAS típico, eles têm até 10 terabytes agora. Se você ainda não viu, a Western Digital, HGST tem o que chamam de unidade de hélio, que chega a cerca de 10 terabytes no momento. Os custos do disco giratório estão ficando muito baixos. Como mencionado anteriormente, você pode obter discos de estado sólido de até dois terabytes, mas a Samsung tem uma unidade de 20 terabytes em breve. Os custos estão se tornando razoáveis. Uma coisa que vou falar sobre os outros não foi, o conceito de discos flash. PCIe, que é PCI Express, versus NVMe, você pode ou não ter ouvido falar desse expresso de memória não volátil. Basicamente, o NVMe substituirá SAS e SATA, e é realmente mais um protocolo de comunicação do que qualquer outra coisa. Mas esses discos estão com cerca de três terabytes agora.

Você também deve ter visto que algumas unidades SAS agora vêm com conectores U.2, que são um tipo de conector diferente de um SAS ou SATA, que suporta o NVMe com um disco padrão - o disco também precisa suportá-lo, é claro. E então SATA com conectores M.2, e esses estão começando a obter o NVMe. De fato, agora existem fornecedores de notebooks que vendem notebooks com um disco flash NVMe e essas coisas gritarão em comparação com a tecnologia que você já usou antes.

Muitas pessoas não sabem o que são todos esses diferentes flashes. Se você olhar no canto inferior direito, esse é um exemplo de M.2. Você pode dizer: "Bem, parece muito com a unidade mSATA à esquerda dela". Mas, como você pode ver, há duas lacunas nos pinos, em oposição a uma, e é um pouco maior. E também, o M.2 pode vir em três tamanhos diferentes.

E então o flash PCI Express e o NVMe. Agora, o flash NVMe também é PCI Express, mas o PCI Express ainda é tipicamente um algoritmo de controlador do tipo SAS ou SATA que foi escrito para disco giratório, e NVMe é os algoritmos ou técnicas que foram escritos especificamente para o flash. E, novamente, você verá tudo isso.

O NVMe oferece várias coisas. Eu acho que as duas maiores melhorias são, no canto superior direito, a latência é reduzida em até 70%. Eu realmente vi ainda mais do que isso. Além disso, se você olhar no canto inferior direito, quando o sistema operacional se comunica com o disco NVMe, ele passa por muito menos níveis de software. Basicamente, você passa pelo driver NVMe, que agora está incluído no sistema operacional, e ele fala diretamente com a mídia. Existem várias razões pelas quais essa tecnologia vai mudar radicalmente o mundo dos bancos de dados.

E muitas vezes, as pessoas dizem: “Bem, quão rápido é o NVMe?” Você sabe, nos bons velhos tempos, em 2004 e antes, ficávamos animados se tivéssemos o Ultra-320 SCSI, 300 megabytes por segundo. As velocidades de hoje, muitos de vocês provavelmente estão em fibra ou InfiniBand, e esse tipo de vantagem. O NVMe, ali à direita, começa onde as tecnologias atuais terminam. O que eu estou falando é que o PCI Express 3.0 com um link de oito faixas começa em quase 8000, e aumenta à medida que obtemos novas versões do PCI Express, versões quatro e assim por diante. O NVMe não tem para onde ir, exceto para cima.

Agora, quais são algumas das coisas que estão mudando no banco de dados? Agora, no canto superior direito dos meus slides, coloquei os motivos comerciais que consideram a tecnologia aparecida. Nesse caso, devido ao armazenamento de dados e por motivos regulamentares para retenção obrigatória de dados, os bancos de dados estão começando a oferecer compactação neles. Agora, alguns bancos de dados oferecem compactação como complemento, outros a incorporam ao padrão, digamos, edição corporativa de seu banco de dados e, no entanto, alguns bancos de dados, como no Oracle, podem até ter uma versão ainda melhor da compactação. digamos, na plataforma Exadata, para que eles realmente construam um hardware que possa suportar uma compactação muito especializada e que no Exadata, por exemplo, obtenha uma taxa de compactação de 40x, e por isso é muito significativo. E eu acho que é a retenção obrigatória de dados, as pessoas só querem dados por mais tempo. As empresas, para realizar análises e BI, precisam dos últimos 5, 10, 15 anos de dados.

Agora, outro recurso que começou a aparecer por volta desse período de 2008 e 2009 foi o particionamento. Novamente, você encontrará isso em bancos de dados como Oracle, SQL Server e nos dois que você precisa pagar por isso. No Oracle, você precisa comprar a opção de particionamento e, no SQL Server, você deve estar na edição do data center. É sua técnica tradicional de dividir e conquistar e o que você faz é ter o conceito de uma grande mesa lógica no topo e, quando colocada no disco, é dividida em baldes. E você pode ver que esses buckets são organizados por alguns critérios de separação, geralmente referenciados ou chamados de função de particionamento, e, da mesma forma, também pode subdividir em algumas plataformas de banco de dados e pode ir ainda mais longe.

Mais uma vez, acho que o armazenamento de dados e a retenção obrigatória de dados levaram isso a sério. Em alguns desses bancos de dados, você pode ter até 64.000 partições, e acredito que em outros bancos de dados, até 64.000 sub-partições. Isso permite que você divida seus dados em partes gerenciáveis. Você também irá particionar os índices; é uma opção, você não precisa, mas também pode particionar seus índices. Um dos motivos para fazer isso pode ser o fato de você ter uma janela deslizante de dados. Você deseja manter 10 anos de dados, mas, para eliminar os índices para executar o carregamento em lote de hoje à noite, não é necessário eliminar os índices em todas as linhas, apenas nas linhas que estão no bloco atual. O particionamento é realmente uma ferramenta administrativa muito boa, embora a maioria das pessoas pense que seu grande benefício é renunciar à eliminação da partição em seus planos e, portanto, acelerar suas consultas. Isso é realmente tipo de cereja no topo do bolo.

Agora você provavelmente já ouviu falar sobre sharding e provavelmente pensa: “Bem, por que você colocou esse slide aqui?” Este é um daqueles NoSQL - este é um daqueles ambientes do tipo Hadoop. O Oracle 12c lançou dois, que ainda não é o G8, mas que está sendo mostrado ou visualizado, na verdade, possui sharding. Você terá um sistema de banco de dados tradicional como Oracle e poderá fazer o shard como no modelo Hadoop, e assim terá outra técnica de dividir e conquistar que dividirá seu tabela em linhas em agrupamentos por nó e isso será - exatamente como o que você vê em alguns bancos de dados NoSQL. E, na verdade, MySQL, você pode realmente fazer isso usando uma das técnicas de cluster, mas está chegando a um banco de dados tradicional e acho que a Microsoft não quer ficar para trás. Esses dois jogam um salto juntos um com o outro o tempo todo, então eu esperaria ver sharding talvez na próxima versão do SQL Server.

Gerenciamento do ciclo de vida dos dados, novamente retenção obrigatória de dados, mas também para inteligência de negócios e análises. Realmente, essa é uma técnica de dividir e conquistar, e normalmente os DBAs fazem isso manualmente, ou seja, “eu vou manter os dados deste ano em discos rápidos, os dados do ano passado em discos um pouco mais lentos, talvez eu esteja indo para manter os últimos dois anos antes disso em discos ainda mais lentos, e então terei algum método de arquivamento. ”Normalmente não é mais gravado, é tipicamente - você tem algum tipo de armazenamento conectado à rede ou algum dispositivo com muito de armazenamento e é, você sabe, econômico, mas ainda está girando o disco.

E agora você pode realmente - tanto no Oracle quanto no SQL Server - você pode comprar uma opção onde define as regras e isso acontece automaticamente em segundo plano. Você não precisa mais escrever scripts, não precisa fazer nada. E se você viu o SQL Server 2016, lançado no dia primeiro de junho, há um novo recurso chamado "Stretch Databases" que basicamente permite - no canto inferior direito - você pode mover de várias camadas diretamente para a nuvem e, novamente, esse é um recurso incorporado ao banco de dados, você apenas diz algo como: "Se os dados tiverem mais de 365 dias, mova-os para a nuvem e, você sabe, faça-os automaticamente para mim".

Esse será um recurso muito interessante, na verdade, estou pensando que talvez seja o que veremos no futuro, que é o de ter bancos de dados híbridos nos quais você manterá algumas informações locais. e alguns na nuvem. Antes disso, as pessoas pensavam: "Ah, eu vou fazer no local ou na nuvem". Agora estamos vendo o casamento das duas tecnologias dessa maneira híbrida. Eu acho que isso será bem grande e a Microsoft chegou primeiro.

Redação, isso ocorre devido à proteção e conformidade dos dados. Agora, nos bons velhos tempos, poderíamos ter dito: “Ei, desenvolvedor de aplicativos, quando você exibe isso no relatório, quando você exibe isso na tela, aqui estão algumas coisas de segurança que você deve verificar e, por favor, apenas mostrar os dados eles devem ver, mascarar ou redigir os dados que não deveriam ver. ”Bem, como de costume, quando você envia para o aplicativo, ele não é feito em um único local, por isso é feito de maneira diferente ou não. é feito em alguns lugares. E agora você realmente tem esse recurso em seus sistemas de banco de dados.

Agora, no SQL Server 2016, esse recurso foi criado para que ainda não seja um item de custo opcional a ser adicionado ao data center, acredito; e no Oracle 12 você precisa comprar o complemento de gerenciamento do ciclo de vida, mas isso é algo novo e, novamente, está sendo impulsionado pelos negócios. E especialmente porque você está mantendo tantos dados agora e está fazendo a mineração de dados, assim o BI e as análises, você precisa saber quem está acessando quais dados e garantir que eles só possam ver o que eles podem ver.

Da mesma forma, olhe novamente para a proteção e conformidade de dados. Você verá que muitos dos sistemas de banco de dados agora estão construindo compactação, ou, desculpe, criptografia diretamente no banco de dados e o que é importante sobre essa criptografia, se você olhar para a seta para baixo e a seta para cima no diagrama em que está escrito até o disco criptografado e, em seguida, ele o lê novamente na memória e descriptografa. Na verdade, esse é um modelo, existe outro modelo que você faria apenas quando comunica esses dados através da rede para o aplicativo cliente real.

Nesse caso, ele ainda estava no servidor de banco de dados na memória e poderia ser criptografado e descriptografado apenas quando enviado para o aplicativo cliente. Existem dois modelos diferentes aqui e você os encontrará nos bancos de dados, e de fato um dos bancos de dados que acabou de adicionar isso recentemente foi o MariaDB na versão 10.X; Eu acredito que eles estão no 10.1 ou 10.2 agora. Na verdade, eu fiz alguns testes comparativos dessa criptografia e, para obtê-la, experimentei apenas uma redução de 8% na taxa de transferência ou na velocidade. Em um teste de benchmarking, a criptografia não causou muito e, portanto, é um recurso muito útil.

Agora, mencionamos anteriormente sobre memória flash e SSDs e coisas assim. Um dos recursos que você tem no Oracle e no SQL Server que muitas pessoas não percebem é que você pode usar um flash ou SSD no servidor de banco de dados e dizer ao banco de dados: "Use isso como se fosse memória. Trate a RAM como preferencial, mas finja que essa é uma memória lenta e use-a como um cache estendido. ”Agora, no SQL Server 2014, isso foi lançado e foi chamado de“ Buffer Pool Extension ”, é gratuito. No Oracle, foi lançado no 11g R2 e era chamado de "Database Flash Cache" e também era gratuito lá.

Meu conselho, no entanto, é testar esse recurso com cuidado. Toda vez que você aumenta o cache quando faz uma pesquisa, leva mais tempo. Se você colocar um cartão flash de três terabytes e disser ao banco de dados "Adicione isso à sua memória", você poderá descobrir que algo diminuiu a velocidade devido ao tempo de olhar e ver se está em flash, está sujo ou limpar limpo? Há um ponto de retorno decrescente. Meu conselho é novamente testar isso, ver o que funciona para você, mas, novamente, ele está no seu banco de dados e, no caso do Oracle, no SQL Server e no Oracle, já existe há alguns anos.

E isso nos leva ao avô, que era o banco de dados na memória e é porque os preços do banco de dados caíram. O outro motivo pelo qual você provavelmente pensaria que isso ocorreu é que muitas das análises exigem que os dados sejam acessados muito rapidamente e, portanto, precisam estar na memória. Observe que os algoritmos que os bancos de dados usam para acessar esses dados, compactá-los, criptografá-los e armazená-los, você sabe que em alguns casos alguns bancos de dados podem continuar armazenando na memória como uma linha.

Em alguns casos, alguns bancos de dados podem dividir isso em uma coluna orientada e o motivo é que eles obtêm um nível de compactação muito mais alto, algo entre 11 e 12X, armazenando-o na ordem das colunas versus na ordem das linhas. Este foi apresentado pela primeira vez no SQL Server 2014, foi chamado de "Hekaton". Ele foi radicalmente aumentado no SQL Server 2016, eles o verão referenciado por alguns nomes diferentes e foi lançado no Oracle 12c; Eu digo o segundo lançamento aqui, não o R2. Havia duas versões diferentes do Oracle 12c, a 12.1.0.1 e a 12.1.0.2. É o segundo lançamento da versão R1 do banco de dados.

E da maneira que você o define, o objeto na memória é semelhante nos dois bancos de dados. Aqui você pode ver no canto superior direito, estou criando um SQL Server e você pode ver que a memória otimizada e a durabilidade são apenas esquemas. Não vou falar sobre todos esses significados de sintaxe, e no Oracle é ainda mais simples: basta alterar uma tabela e dizer na memória ou não, e você pode mudar isso. Hoje posso dizer que está na memória e amanhã não, e por isso é muito flexível.

Fiz alguns testes no Oracle com tabelas na memória, tive alguns testes que levaram quase 40 minutos para serem executados, lá em cima na linha superior. Agora, o importante é que, quando cheguei às duas linhas inferiores, eu havia aumentado ou diminuído o tempo de execução, devo dizer, para cinco minutos aproximadamente, e quando observei o fator de compactação, os dados na memória eram na verdade 3,6 4,6 vezes menor. Isso é importante porque, neste caso, eu estava usando o formato orientado a colunas e é a compressão. E então adivinhe? Na verdade, eu estava encaixando quase quatro a cinco vezes mais dados em minha memória. Não apenas eu estava obtendo a vantagem da memória, a vantagem da orientação de colunas, mas também a vantagem de muito mais dados - até cinco vezes mais dados no cache de memória, por isso essa é uma técnica bastante poderosa. Novamente, Oracle e SQL Server, você quer dar uma olhada neles, são recursos muito legais. E com isso, acho que vou abrir para perguntas.

Eric Kavanagh: Bem, Bert, antes de tudo, você foi muito altruísta em toda essa educação maravilhosa. Você poderia falar um pouco sobre o que vocês fazem? Porque você tem alguma tecnologia de ativação que pode facilitar o que você está falando. Apenas fale por um minuto sobre o que vocês fazem e então vamos colocar Dez e Robin na equação aqui.

Bert Scalzo: Sim, eu trabalho para uma empresa chamada IDERA. Estamos no Texas, estamos sediados em Houston e atualmente estou em Austin, mas estou em Dallas. Criamos ferramentas de banco de dados e ferramentas de banco de dados para ajudá-lo a resolver problemas. Esse problema pode ser algo tão simples quanto a produtividade. Nesse caso, temos uma ferramenta chamada DBArtisan que permite executar tarefas administrativas do banco de dados e é uma ferramenta para gerenciar 12 plataformas de banco de dados diferentes. Posso gerenciar o SQL Server, o Oracle, o MySQL, o DB2, o Postgres e estou usando uma ferramenta, um executável, um design de GUI e um conjunto consistente de fluxos de trabalho. Também criamos ferramentas para cumprir a conformidade; temos uma ferramenta chamada SQL Compliance Manager para ajudá-lo a atender às suas necessidades de conformidade. Outra ferramenta chamada SQL Security, por isso tentamos criar as ferramentas que ajudarão você a ser eficaz e eficiente, e o que é realmente bom se você for ao nosso site, temos um monte de freeware por aí, então, se nada mais, faça o download Acho que temos 20 ou 25 freewares. Existem algumas coisas realmente boas sobre freeware, como o SQL Server e o Windows Help Check, que basicamente analisam o que você tem e informam se você tem problemas ou coisas e é totalmente gratuito.

Eric Kavanagh: E você realmente meio que ...

Bert Scalzo: Definitivamente a primeira coisa

Eric Kavanagh: Você está falando da heterogeneidade no mercado hoje, costumava haver uma equação do tipo "tamanho único" que, na verdade, eu me lembro de entrevistar o Dr. Michael Stonebraker quando em 2005, quando ele fazia um grande esforço falando sobre o veredicto sobre o movimento do banco de dados orientado a colunas e ele estava falando sobre como o modelo relacional de tamanho único dominou por muitos anos, e ele estava prevendo que tudo isso mudaria, e garoto, ele estava certo sobre isso. Agora, temos esse ambiente realmente diversificado e interessante, com muitas opções e oportunidades diferentes, mas você precisa de alguém para gerenciar tudo isso e parece-me que sua empresa está focada bastante na solução de problemas de matemática, sendo assim um facilitador do processo. cabeçalho da heterogeneidade, certo?

Bert Scalzo: Absolutamente. Quero dizer, sempre haverá DBAs que dizem: "Não quero usar uma ferramenta GUI, faço tudo com scripts", sabe? Eles acham que são o tipo de DBA de super-homem e isso é bom, mas para a maioria de nós, queremos apenas fazer o trabalho e - você sabe, eu uso o Microsoft Word para escrever meus documentos. Eu uso o Microsoft Outlook para fazer o meu. Quero dizer, tenho ferramentas para realizar tarefas. Estamos construindo o mesmo tipo de conceito, estamos construindo ferramentas para administradores e desenvolvedores de banco de dados para ajudá-los a se concentrar no que eles querem fazer e não em como eles precisam fazer.

Eric Kavanagh: Isso faz sentido, mas deixe-me falar com nossos especialistas, e as pessoas se sentem à vontade para mergulhar. Temos alguns comentários vindos do público. Talvez Dez, algumas perguntas e Robin algumas perguntas?

Dez Blanchfield: Certo. Uma das primeiras perguntas que quero fazer, dada a enorme experiência que você tem, você vê em algum momento em que algo disso vai desacelerar? Ou você acha que estamos realmente apenas no ponto de entrada dessa linha de mudança contínua de crescimento? Eu acho que um dos maiores problemas que as empresas estão enfrentando e, invariavelmente, as pessoas que tentam dar suporte à tecnologia oferecida por essas empresas para administrar seus negócios, é que a taxa de mudança é tão dramática que elas simplesmente não conseguem acompanhar tudo os diferentes recursos, softwares, sistemas, estruturas e arquiteturas e o novo código que está surgindo, e depois o hardware subjacente, você vê a taxa atual de mudanças diminuindo imediatamente? Quero dizer, você lida com uma variedade tão grande de plataformas com toda a suíte IDERA, vamos desacelerar em breve ou estamos nesse tipo de trem de carga louco por muito tempo ainda?

Bert Scalzo: Acho que estamos nos primeiros 20% dessa curva de crescimento e ainda temos um longo caminho a percorrer, e há duas coisas a impulsionar. A tecnologia continua evoluindo. Você mencionou alguns dos novos tipos de memória que serão lançados, que serão fantásticos. A Samsung terá uma unidade flash de 20 terabytes aqui em breve. Isso vai mudar as coisas. Temos todos esses bancos de dados NoSQL e nuvem, isso vai continuar. A única coisa engraçada é que, quando olho para bancos de dados como Oracle e SQL Server e alguns outros, eles não são mais bancos de dados relacionais. Posso inserir dados não estruturados no Oracle e ainda manter a conformidade com o ACID. Se você me dissesse isso há 20 anos, acabei de dizer que você usava drogas.

Dez Blanchfield: Sim, sim, eles são legais. Bem, mesmo agora, os mecanismos que possuem nichos de mercado bastante agradáveis, como o GIS, são melhores do que a capacidade nativa agora. Você fez ótimos comentários sobre os desafios que os DBAs enfrentam e os diferentes momentos dos DBAs que esperamos ver em todo o lugar, mas como é o mundo com o tipo de camada de negócios com a qual você está lidando? Quero dizer, essas são as pessoas que usam as diferentes plataformas, desde o seu gerente de diagnóstico até as ferramentas de inventário, e até o grito até a desfragmentação, como os DBAs estão lidando com essa mudança e como eles meio que - você sabe , o que eles estão fazendo com suas ferramentas para lidar com essa mudança significativa no cenário deles?

Bert Scalzo: Bem, vou voltar há quase 20 anos, depois vou dizer que os DBAs resolvem um papel muito específico em uma organização. Eles normalmente trabalham com uma plataforma de banco de dados, talvez duas, e gerenciaram um número relativamente pequeno de bancos de dados. Agora, avançando rapidamente para hoje e para o administrador do banco de dados, ele conhecerá 10 plataformas de banco de dados. Ele está gerenciando, e isso não é brincadeira, em alguns casos milhares de bancos de dados; isso é mais do mundo do SQL Server ou do mundo MySQL. Mas ainda no mundo Oracle, eles poderiam gerenciar centenas de bancos de dados. E, assim, eles lançam todos esses novos recursos, todas essas novas plataformas e todos os bancos de dados pelos quais são responsáveis. Eles estão procurando ferramentas para permitir sua produtividade e também para ajudá-los a aprender algumas coisas.

E vou dar um exemplo: se eu quiser particionar uma tabela, é uma sintaxe bastante obscura e, se eu quiser subdividi-la, a sintaxe fica ainda mais difícil. Sei o que quero fazer, quero criar baldes. Se eu tenho uma ferramenta como o DBArtisan que diz: “Ei, aqui está uma boa tela que permite que você se concentre no que está tentando fazer, em vez de como está tentando fazê-lo, e, a propósito, empurre o Mostre o botão SQL quando terminar e mostraremos o que era o SQL para que você possa realmente aprender e dominar isso. ”

Os DBAs estão descobrindo as ferramentas que os ajudam a realizar o trabalho, mas também ensinam a eles todas essas coisas novas que estão usando e o mesmo seria verdade - digamos que eu seja um cara do Oracle e eu vá para o MySQL e diga: “Ok, crie um banco de dados, DBArtisan. Agora me mostre o SQL porque me pergunto como é criar um banco de dados no MySQL e aprendi a sintaxe. ”E, portanto, não estamos apenas ajudando-os a trabalhar no banco de dados, mas também os educando no banco de dados.

Dez Blanchfield: Torna-se ainda mais interessante quando você se depara com alguns dos mais modernos - ou não mais modernos, isso não é algo justo de se dizer - mas, uma vez, um banco de dados é um banco de dados. Hoje em dia, vejo tudo o que você está falando lá com o desafio adicional que a tecnologia acumula que tradicionalmente vemos dos fornecedores e você meio que é de código aberto e também que eles são bons. Não apenas lida com os mecanismos de banco de dados e as linguagens de consulta, mas também com os tipos de dados, os estruturados e não estruturados, você sabe, o desafio de ter que lidar com tudo, desde o extremo do espectro de um HDFS de vários petabytes ambiente para pequenos contêineres e arquivos de pacotes e vários formatos de arquivos de log.

E eu acho que isso é algo que agora vemos onde apenas nenhum ser humano, não importa o quanto de um super-homem, super-mulher, seja o que eles pensem, fisicamente, eles simplesmente não conseguem lidar mentalmente com essa taxa de mudança e a escala de variações. Acho que o conjunto de ferramentas que você está oferecendo agora chegará a um ponto em que elas quase estarão em um conjunto padrão de várias maneiras, para que não possamos executar os ambientes de banco de dados que temos sem eles, porque apenas fisicamente não pode jogar tantos corpos neles. Gostei muito da sua apresentação. Vou passar para o Dr. Robin Bloor, tenho certeza que ele tem muitas perguntas a fazer também.

Robin Bloor: OK. Bem, eu certamente tenho perguntas. Bert, não sei para onde você está indo - tive uma conversa muito interessante alguns dias atrás, em que alguém começou a me falar sobre a mais recente proteção de dados da DU, e me pareceu pelo que eles estavam dizendo que era incrivelmente incrível. draconiano em termos de coisas em que insistiam. Gostaria de saber se você realmente olhou para isso; é algo que você conhece?

Bert Scalzo: Absolutamente. Sim.

Robin Bloor: 2016, ok, conte-nos sobre isso.

Bert Scalzo: E eu realmente ...

Robin Bloor: Profundamente interessante.

Bert Scalzo: Na verdade, trabalhei por um tempo para um fornecedor de flash, na área de banco de dados deles, ajudando-os a criar produtos em flash para bancos de dados, e posso dizer-lhe que o draconiano cai completamente. O que quero dizer é que, se você se lembra do meu único slide, eu disse em alguns bancos de dados que ele fará a criptografia, mas o coloca na memória do servidor e em alguns bancos de dados a criptografia - ainda está criptografada na memória do servidor, só é descriptografada quando é enviado ao cliente. Bem, o que você também encontrará é alguns desses padrões do governo, especialmente o Departamento de Defesa ou militar aqui nos EUA. Eles também vão até o nível do flash e querem saber não apenas que você suporta criptografia e descriptografia em seu hardware, mas que se alguém roubasse os chips que - você sabe, os retirassem do seu servidor, que o que está lá é criptografado e, mesmo que eles tenham o armazenamento, não poderiam ser e até o real - não a parte do flash em si, mas até os chips individuais. Eles queriam saber que chip por chip, tudo estava criptografado.

Robin Bloor: Uau. Quero dizer, existem muitas coisas que - você sabe, acho que foram apenas um ou dois slides que você falou sobre isso, mas foi algo, um cenário que eu acho realmente interessante. A redação de informações, por exemplo, deve ser um pouco mais inteligente do que apenas mascarar vários campos, porque especialmente com o aprendizado de máquina hoje em dia, você pode fazer coisas dedutivas que permitem exibir informações que antes não eram possíveis.

Se você está tentando proteger, digamos informações de saúde, essas são regras muito draconianas nos EUA em relação às informações de saúde, mas na verdade você pode, usando várias técnicas de aprendizado de máquina, muitas vezes descobrir quem é a informação médica de alguém na verdade é. Só me perguntei se você tem algo a dizer sobre isso, porque todos acham que é uma área interessante.

Bert Scalzo: Sim, com certeza, e estou apenas usando isso como exemplo, não estou tentando dizer que um banco de dados é melhor que outro, mas este é um exemplo muito bom para o que você acabou de perguntar. No Oracle, se não tenho permissão para ver uma linha de dados, por exemplo, como não tenho permissão para ver o registro médico de John Smith. No Oracle, se eu disser: "Selecione esse registro", serei bloqueado ou poderei ver o que tenho permissão para ver e será redigido. E se eu disser: "Selecionar estrela da conta na tabela onde é igual a John Smith", receberei zero.

No SQL Server, ele pode fazer a redação, mas possui alguns furos. Se eu disser: "Selecionar estrela da conta na tabela em que é igual a John Smith", na verdade receberei uma, então sei que existe uma John Smith. Um é mais seguro que o outro. Agora eu espero que eles consertem isso, eles sempre brincam de pular um com o outro. E, novamente, não estou tentando diferenciar os bancos de dados a não ser para mostrar um exemplo de - veja o que estamos falando agora, algo tão simples quanto uma conta selecionada também deve ser cortado pela redação, embora tecnicamente falando, não há nada sendo redigido além da existência da linha.

Robin Bloor: Okay, certo. Isso é interessante. Quero dizer, outra pergunta geral, porque não tenho muito tempo, é realmente apenas sobre as melhorias.Quero dizer, você esteve em um onde eu sei que nos mostrou exemplos de vários resultados de testes que você executou - você acha que os bancos de dados tradicionais, vamos chamá-los de bancos de dados dominantes, SQL Server e Oracle? acha que eles vão ficar à frente da conclusão? Ou você acha que eles serão realmente pegos por um ou outro dos vários tipos de interrupções no mercado que realmente correm para eles? Qual a sua opinião?

Bert Scalzo: Eu tenho uma opinião e é - você sabe, mais uma vez vou dizer que é minha opinião - a Microsoft, por exemplo, na era pós-Ballmer está apenas impressionando o inferno de mim. Quero dizer, esse banco de dados extensivo, recebendo o SQL Server no Linux, o .NET no Linux, o PowerShell no Linux; Não acho que os fornecedores tradicionais de bancos de dados sejam deixados para trás. Eu acho que eles decidiram: "Ei, deixe os novos caras, as startups definirem algo. Deixe que eles descubram o que é sharding e como deve ser aperfeiçoado. Depois de fazer toda a pesquisa e desenvolvimento, sabemos exatamente o que os usuários desejam, agora vamos adicionar sharding ao Oracle. ”Acho que eles estão ficando espertos e dizendo: "Ei, ficar em segundo ou terceiro não é ruim quando você é o jogador dominante, porque as pessoas não migram de você".

Robin Bloor: Sim, quero dizer, é uma estratégia que foi usada. Quero dizer, a IBM costumava fazer isso e todo o conjunto - para toda a gama de produtos e classifica-se razoavelmente bem até que alguém invente algo completamente fora do comum em que ninguém jamais pensou, mas você não pode planejar contra isso de qualquer maneira.

Perguntas da platéia, Eric?

Eric Kavanagh: Sim, mas você tem tempo, acho que só para uma, talvez, e eu sei que Bert tem que correr. Havia algo aqui sobre - ok, a arquitetura de sharding no Oracle 12c é uma indicação de - ou o que é isso na sua opinião, o que você acha que está acontecendo lá?

Bert Scalzo: Bem, a Oracle está absorvendo ou oferecendo tudo o que todos os outros fornecedores de banco de dados oferecem. Por exemplo, eu posso colocar dados não estruturados no Oracle. Não sei como você pode colocar dados não estruturados e chamá-lo de banco de dados relacional, para que não faça sentido, mas você pode. E agora a Oracle está adicionando sharding, então a Oracle está dizendo: “Você sabe o que? O que quer que o mercado queira, faremos nossa oferta de banco de dados, porque o mercado quer o que o mercado quer e queremos oferecer a solução, queremos que eles fiquem conosco. ”

Eu acho que você verá itens adicionais. Eu não ficaria surpreso ao ver o cluster de nós do banco de dados semelhante ao Hadoop, não em um rack Oracle ou em um cluster de aplicativos real, mas basicamente em mais de um cluster tradicional do tipo Hadoop fazendo esse sharding. E, portanto, acho que você poderá implantar um banco de dados como o Oracle, como faria no Hadoop, e esse tipo de tendência continuará. Esses grandes fornecedores de bancos de dados, eles faturam bilhões de dólares e não querem perder seu mercado, então estão dispostos a se adaptar a qualquer coisa ou a adotar qualquer coisa.

Eric Kavanagh: Bem, você sabe, é engraçado, porque eu acompanho os fornecedores de código aberto há algum tempo e fico imaginando tudo isso enquanto esse impacto terá na tecnologia tradicional de portas fechadas e, por um tempo, com certeza pareceu os fornecedores de código aberto estavam progredindo seriamente, e agora, quando olho para o mercado, vejo o que você está dizendo, que os grandões fizeram suas contas, afiaram seus lápis e descobriram como podem tecer muitas dessas coisas em suas arquiteturas. Seja IBM, Oracle ou SAP - estive na conferência SapphireNow no mês passado e Steve Lucas, que chefia metade da empresa, se gabou de que a SAP agora incorpore em sua plataforma em nuvem HANA, mais componentes de código aberto do que qualquer um de seus concorrentes. Se você fizer as contas, é uma afirmação bastante impressionante e me diz que os grandes não vão a lugar nenhum tão cedo.

Bert Scalzo: Não, eu apostaria meu dinheiro em ambos. Quero dizer, se você observar, as ações da Microsoft estavam recentemente em cerca de US $ 50 e, você sabe, há alguns anos atrás, em 25. Você não duplica o preço das suas ações em um curto período, a menos que esteja fazendo coisas boas e, você sabe, desde fazer tudo, desde o Windows 10, ser gratuito pelo primeiro ano até todas as outras coisas inteligentes que eles estão fazendo, esse recurso de banco de dados extensível é simplesmente fenomenal. Acho que o que vai acontecer é que muitas pessoas vão acabar no Azure, não diretamente, como disseram: "Vamos migrar meu banco de dados para o Azure". Ele migrará para lá magicamente, porque será arquivado por lá, usando esse novo recurso de banco de dados extensível e, portanto, a adoção do Azure vai disparar.

Eric Kavanagh: Bem, essa é uma das tendências do mercado que até eu consigo ver, mesmo no seu Mac. À medida que você vai no seu Mac para salvar alguns documentos, eles agora - e os Macs mais novos seguem a nuvem, certo? Quero dizer, há muito sentido nessa estratégia e também olho para ela e digo: “Ok, pessoal, vocês estão tentando me atrair pedaço por pedaço no seu ambiente de nuvem e, um dia, quando eu quiser assistir a um filme, se meu cartão de crédito expirou, vou ter problemas.

Bert Scalzo: Sim, mas você faz.

Eric Kavanagh: Sim. Isso é verdade.

Bert Scalzo: Você coloca tudo.

Eric Kavanagh: Bem, nem tudo.

Bert Scalzo: Não, quero dizer-

Eric Kavanagh: Sim, VA em frente.

Bert Scalzo: Essas tendências sociais estão chegando às empresas. Agora, as empresas ainda têm muitas outras coisas que precisam fazer, mas estão vendo essas tendências e estão fazendo o mesmo tipo de coisa. Não vejo a Oracle nem a Microsoft desaparecendo. Na verdade, comprarei ações nas duas vezes que houver uma queda.

Eric Kavanagh: Sim, de fato. Bem pessoal, acesse idera.com, I-D-E-R-A ponto com. Como Bert disse, eles têm um monte de coisas grátis lá em cima e é uma das novas tendências do mercado - oferecer algumas coisas gratuitas para você brincar, se apaixonar e depois comprar as coisas reais.

Gente, essa tem sido outra tecnologia quente. Obrigado pelo seu tempo hoje, Bert, Dez, é claro, e Robin também. Falaremos com você na próxima semana, pessoal, muita coisa acontecendo. Se você tiver alguma idéia, sinta-se à vontade para a sua verdadeiramente,. Conversaremos com você na próxima vez, pessoal, tome cuidado. Tchau tchau.