A conquista do exascale pelo supercomputador Aurora no Argonne National Laboratory representa um marco importante no campo da computação de alto desempenho. Neste post, Dicas TOP apresenta informações sobre essa realização, acompanhe.
O que é a Computação Exascale
A Computação Exascale refere-se a uma categoria de supercomputadores com capacidade de processamento extremamente poderosa, podendo fazer quintilhões de cálculos em apenas um segundo.
Ela é usada em aplicações que necessitam realizar processamento e análises de muitos dados de forma rápida, algo que computadores tradicionais não conseguiriam, como por exemplo, simulações climáticas, modelagem de proteínas para pesquisa médica e simulações para desenvolvimento de artefatos nucleares (por Banco do Brasil – adaptado).
Continuando…
O supercomputador Aurora, instalado em junho de 2023, foi projetado para enfrentar alguns dos desafios científicos mais complexos do mundo. Atualmente, o Aurora é o segundo supercomputador mais rápido do planeta.
Com sua recente conquista de desempenho exascale, o Aurora desbloqueia níveis superiores de precisão, velocidade e potência em comparação com gerações anteriores de supercomputadores. Nesse sentido, tal avanço vai melhorar significativamente a pesquisa científica em áreas como modelagem climática, pesquisas sobre o câncer e energia verde.
Por que a Conquista do Aurora no Campo da Computação Exascale é um Marco tão Significativo
A conquista do Aurora em computação exascale é um marco significativo porque representa a capacidade de realizar mais de um quintilhão de cálculos por segundo, um salto impressionante em poder computacional. Antes de tudo, essa potência permite que o Aurora lide com uma variedade de tarefas científicas, desde modelagem e simulação tradicionais até fluxos de trabalho intensivos em dados e aplicações de IA/ML, tudo em um único sistema unificado. Sua arquitetura, que combina poderosas CPUs e GPUs, aborda problemas complexos, como modelagem climática, descoberta de materiais e pesquisas energéticas.
Quais avanços tecnológicos permitiram que o supercomputador Aurora ultrapassasse a barreira do exascale, e como essas inovações contribuem para seu desempenho
O Aurora ultrapassou a barreira do exascale graças a diversos avanços tecnológicos, incluindo memória de alta largura de banda, GPUs avançadas e um sistema de interconexão chamado Slingshot 11. A rede Slingshot, com quase o dobro de end-points de qualquer outro sistema de grande escala atualmente implantado, permite que os mais de 10.000 nós (pontos de conexão) do Aurora entreguem quantidades massivas de dados, o que é crucial para seu desempenho. Dessa forma, esse design torna o Aurora o sistema mais rápido do mundo para inteligência artificial (AI) (#1 Top500 MxP) e um dos mais rápidos para tarefas de computação tradicionais (#2 Top500 HPL).
De que maneiras o poder de computação exascale do Aurora pode acelerar avanços em inteligência artificial e aprendizado de máquina
O poder exascale do Aurora vem da sua enorme memória e múltiplos GPUs, essenciais para treinar grandes modelos de IA com trilhões de parâmetros. Em junho, o Aurora mostrou resultados impressionantes em cálculos de precisão mista, essencial para cargas de trabalho de IA, antes do sistema estar totalmente operacional. Esse desempenho destaca como o Aurora acelera avanços em IA, permitindo a manipulação de grandes conjuntos de dados e o desenvolvimento de modelos sofisticados para descobertas científicas.
Como o Aurora Potencializa Simulações e Experimentos Científicos
Embora o Aurora ainda não esteja em plena produção, códigos reais já estão sendo executados no sistema com resultados excelentes. Isso inclui projetos do Programa de Ciência Inicial do Argonne Leadership Computing Facility (ALCF) e do Exascale Computing Project, abrangendo áreas como ciência da energia, pesquisa sobre câncer e cosmologia. Além disso, esses aplicativos estão gerando novos resultados científicos em escalas que eram impossíveis com sistemas anteriores – destacando as capacidades do Aurora mesmo antes de seu lançamento oficial.
A tecnologia avançada do Aurora irá aprimorar significativamente esses estudos ao permitir simulações mais detalhadas e complexas. Sendo assim, o Aurora amplia as possibilidades para a pesquisa científica, possibilitando descobertas em algumas das áreas mais desafiadoras, especialmente na ciência da energia. A produção completa é esperada para 2025.
Desafios no Desenvolvimento e Implantação do Aurora: Lições para Projetos de Supercomputação Futuros
O desenvolvimento e a implantação do Aurora enfrentaram vários desafios: atrasos por decisões de fornecedores e problemas com suprimentos relacionados à pandemia. Em contrapartida, a projetos anteriores, esses problemas evidenciaram a necessidade de maior flexibilidade nas estratégias de aquisição. Os modelos de aquisição rígidos atualmente em uso dificultam a adaptação às mudanças rápidas no campo, onde a tecnologia evolui rapidamente.
Durante os atrasos, outros sistemas poderosos foram implantados, permitindo que as equipes de ciência continuassem seu trabalho. Desse modo, a experiência ensinou a importância de estratégias adaptáveis e sistemas alternativos em operação, garantindo o avanço da pesquisa mesmo diante de obstáculos imprevistos. Para projetos futuros de supercomputação, modelos de aquisição mais flexíveis serão cruciais para acompanhar os avanços rápidos em IA e outras tecnologias.
Como Gerenciar os Grandes Volumes de Dados Coletados pelo Aurora
O gerenciamento dos enormes volumes de dados gerados pelo Aurora é possível graças à combinação de sua interconexão de alta velocidade Slingshot e seu sistema de arquivos personalizado. O sistema de arquivos DAOS (Distributed Asynchronous Object Store) é uma solução de armazenamento de alto desempenho. A interconexão Slingshot oferece largura de banda excepcional ao sistema de arquivos DAOS, permitindo uma transferência e armazenamento de dados rápidos.
Esse sistema está integrado ao ambiente Global Filesystem da ALCF, garantindo que os dados sejam gerenciados, armazenados e acessados eficientemente pela vasta estrutura de computação do Aurora. Essa configuração suporta as altas demandas de simulações e cargas de trabalho de IA. Contribui para a liderança do Aurora em gerenciamento de dados, como evidenciado pela sua classificação no topo da lista IO500 de 2024.
Eficiência Energética e Impacto Ambiental do Aurora em Comparação com Supercomputadores Anteriores
Projetaram o Aurora com foco na eficiência energética, usando tecnologias avançadas para reduzir seu impacto ambiental em comparação com supercomputadores anteriores. O resfriamento por água é mais eficiente que o por ar, e os transformadores e dispositivos de comutação foram posicionados para minimizar a perda de energia.
Além disso, o Aurora está localizado em um novo centro de dados de última geração, projetado especificamente para suportar o uso eficiente de energia. Embora o Aurora represente um avanço significativo, a comunidade como um todo ainda precisa continuar aprimorando a eficiência energética em futuros projetos de supercomputação.
Esforços Colaborativos no Desenvolvimento do Aurora: Parcerias que Contribuíram para o Sucesso
O sucesso do Aurora é fruto de fortes esforços colaborativos em várias frentes. Intel e HPE estabeleceram parcerias para projetar e implantar o sistema, atendendo às exigências da comunidade de usuários. O trabalho colaborativo com o Oak Ridge Leadership Computing Facility (OLCF) e o National Energy Research Scientific Computing Center (NERSC), permitiu compartilhar experiências e melhores práticas otimizando o processo de desenvolvimento e implantação.
Finalmente, a parceria com o Exascale Computing Project do Departamento de Energia foi fundamental. Essa colaboração aumentou o engajamento com a indústria e ajudou a desenvolver ferramentas e aplicações preparadas para exascale, assegurando que o Aurora estivesse equipado para enfrentar os desafios científicos mais complexos. Esses esforços combinados foram essenciais para o sucesso do Aurora, estabelecendo um novo padrão para a supercomputação.
Metas de Longo Prazo para o Aurora e Próximos Passos na Supercomputação
Projetaram o Aurora para ser um protagonista crucial em um ecossistema em evolução de supercomputadores exascale, desbloqueando novas possibilidades para a pesquisa científica e acelerando descobertas. A meta de longo prazo é desenvolver fluxos de trabalho e modelos habilitados por IA para revolucionar áreas como energia limpa, a compreensão do nosso universo e a descoberta de medicamentos.
Além disso, o Aurora faz parte de uma jornada mais ampla no continuum da computação. O design do sistema de próxima geração, Helios, que se baseará nas lições aprendidas com o Aurora, já está sendo desenvolvido. O Helios continuará essa trajetória de inovação, expandindo os limites do que a supercomputação pode alcançar nos próximos anos.
Ufa… Esse foi longo, hein!?
O que achou do artigo?
Comente, compartilhe!
Você também pode gostar:
- O que é Edge AI
- A Lataria do Seu Carro Pode ser Substituída por Baterias de Carbono
- Dicas Indispensáveis para Backup no Linux
- O Supercomputador Aurora Alcança o Exascale
- Atualize para o Ubuntu Pro e Ganhe 5 Anos de Suporte Estendido Gratuito
Imagem: intel.com