{"id":2025,"date":"2024-03-08T15:15:44","date_gmt":"2024-03-08T15:15:44","guid":{"rendered":"https:\/\/www.cesar.org.br\/painel\/?post_type=insight&#038;p=2025"},"modified":"2025-08-11T19:32:18","modified_gmt":"2025-08-11T22:32:18","slug":"por-que-a-proxima-grande-jogada-da-ia-generativa-e-a-miniaturizacao","status":"publish","type":"insight","link":"https:\/\/www.cesar.org.br\/painel\/insight\/por-que-a-proxima-grande-jogada-da-ia-generativa-e-a-miniaturizacao\/","title":{"rendered":"Por que a pr\u00f3xima grande jogada da IA Generativa \u00e9 a miniaturiza\u00e7\u00e3o?"},"content":{"rendered":"<p><span style=\"font-weight: 400;\">No final de 2022, o ChatGPT teve seu momento \u201cestrela&#8221; e rapidamente se tornou o garoto propaganda do movimento IA Generativa ap\u00f3s viralizar dias ap\u00f3s seu lan\u00e7amento. Para a pr\u00f3xima onda dos LLMs, muitos profissionais est\u00e3o de olho na pr\u00f3xima grande oportunidade: adotar uma abordagem mais enxuta e \u201cminiaturizado\u201d.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Os principais fatores que impulsionam essa nova grande mudan\u00e7a s\u00e3o bem conhecidos: uma experi\u00eancia de cliente aprimorada, ligada \u00e0 nossa expectativa de gratifica\u00e7\u00e3o instant\u00e2nea, e um aumento da privacidade e seguran\u00e7a integradas \u00e0s buscas dos usu\u00e1rios em redes locais menores, como os aparelhos que temos em m\u00e3os ou que est\u00e3o dentro de nossos ve\u00edculos e resid\u00eancias. Assim, eliminamos a necessidade de enviar e receber dados para e de centros de processamento de dados remotos na nuvem, o que inevitavelmente levaria a maiores tempos de espera conforme o tempo passa.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Embora existam algumas d\u00favidas sobre a rapidez com que os LLMs locais possam alcan\u00e7ar as capacidades do GPT-4, como seus 1,8 trilh\u00e3o de par\u00e2metros distribu\u00eddos em 120 camadas que operam em um cluster de 128 GPUs, alguns dos mais conhecidos inovadores tecnol\u00f3gicos do mundo est\u00e3o trabalhando para levar a IA &#8220;para a ponta&#8221;, permitindo, assim, novos servi\u00e7os como assistentes de voz inteligentes e r\u00e1pidos, processamento de imagem computadorizado localizado para produzir rapidamente efeitos de imagem e v\u00eddeo, e outros tipos de aplicativos para consumidores.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Por exemplo, a Meta e a Qualcomm anunciaram, em julho, que se uniram para executar grandes modelos de IA em smartphones. O objetivo \u00e9 habilitar o novo modelo de linguagem avan\u00e7ado da Meta, Llama 2, para rodar em chips da Qualcomm, tanto em telefones quanto em PCs, a partir de 2024. Isso em vez dos LLMs que funcionavam nos centros de dados na nuvem, devido ao imenso processamento de dados e ao poder computacional que \u00e9 custoso.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Al\u00e9m disso, essa quest\u00e3o est\u00e1 se tornando um problema de sustentabilidade para as grandes empresas de tecnologia, representando um dos &#8220;segredos inconvenientes&#8221; da ind\u00fastria emergente de IA, diante das preocupa\u00e7\u00f5es com mudan\u00e7as clim\u00e1ticas e a necessidade de outros recursos naturais, como \u00e1gua para resfriamento.<\/span><\/p>\n<h2><a href=\"https:\/\/materiais.cesar.org.br\/ia-positioning-paper-br\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-2024 size-large\" src=\"https:\/\/www.cesar.org.br\/painel\/wp-content\/uploads\/2024\/03\/Linkedin-Paper-PT-3-1-1024x512.png\" alt=\"Smartphone exibindo uma capa de papel de posicionamento colorido com uma ilustra\u00e7\u00e3o de um c\u00e9rebro e texto sobre intelig\u00eancia artificial generativa.\" width=\"1024\" height=\"512\" srcset=\"https:\/\/www.cesar.org.br\/painel\/wp-content\/uploads\/2024\/03\/Linkedin-Paper-PT-3-1-1024x512.png 1024w, https:\/\/www.cesar.org.br\/painel\/wp-content\/uploads\/2024\/03\/Linkedin-Paper-PT-3-1-300x150.png 300w, https:\/\/www.cesar.org.br\/painel\/wp-content\/uploads\/2024\/03\/Linkedin-Paper-PT-3-1-768x384.png 768w, https:\/\/www.cesar.org.br\/painel\/wp-content\/uploads\/2024\/03\/Linkedin-Paper-PT-3-1-1536x768.png 1536w, https:\/\/www.cesar.org.br\/painel\/wp-content\/uploads\/2024\/03\/Linkedin-Paper-PT-3-1-2048x1024.png 2048w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/a><\/h2>\n<h2><strong>O desafio t\u00e9cnico da IA Generativa funcionando na ponta<\/strong><\/h2>\n<p><span style=\"font-weight: 400;\">Assim como o caminho que observamos h\u00e1 anos com os dispositivos de tecnologia de consumo, certamente veremos processadores mais potentes e chips de mem\u00f3ria com tamanhos menores, impulsionados por inovadores como a Qualcomm. O hardware continuar\u00e1 evoluindo, seguindo a Lei de Moore.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400;\">No entanto, no lado do software, houve muita pesquisa, desenvolvimento e progresso sobre como podemos miniaturizar e reduzir<br \/>\nas redes neurais para se adequarem a dispositivos menores, como smartphones, tablets e computadores.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">As redes neurais s\u00e3o bem grandes e pesadas. Elas consomem uma enorme quantidade de mem\u00f3ria e precisam de bastante poder de processamento para funcionar porque consistem em muitas equa\u00e7\u00f5es que envolvem a multiplica\u00e7\u00e3o de matrizes e vetores, estendendo-se matematicamente de maneira semelhante a como o c\u00e9rebro humano \u00e9 projetado para pensar, imaginar, sonhar e criar.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Existem duas abordagens amplamente utilizadas para reduzir a mem\u00f3ria e o poder de processamento necess\u00e1rio para implementar redes neurais em dispositivos de ponta: <\/span><b>quantiza\u00e7\u00e3o e vetoriza\u00e7\u00e3o.<\/b><\/p>\n<p><b>Quantiza\u00e7\u00e3o <\/b><span style=\"font-weight: 400;\">significa converter a aritm\u00e9tica de ponto flutuante para ponto fixo, o que \u00e9 mais ou menos como simplificar os c\u00e1lculos realizados: se em ponto flutuante voc\u00ea faz c\u00e1lculos com n\u00fameros decimais, com ponto fixo voc\u00ea os faz com inteiros. Isso tamb\u00e9m significa que <\/span><b>as redes neurais ocupam menos mem\u00f3ria<\/b><span style=\"font-weight: 400;\">, j\u00e1 que os n\u00fameros de ponto flutuante ocupam 4 bytes e os de ponto fixo geralmente ocupam 2 ou at\u00e9 1 byte.<\/span><\/p>\n<p><b>Vetoriza\u00e7\u00e3o, <\/b><span style=\"font-weight: 400;\">por sua vez, pretende utilizar instru\u00e7\u00f5es especiais do processador para executar uma opera\u00e7\u00e3o em v\u00e1rios dados de uma vez s\u00f3 (usando instru\u00e7\u00f5es de Dados M\u00faltiplos para Uma \u00danica Instru\u00e7\u00e3o &#8211; SIMD). Isso <\/span><b>acelera as opera\u00e7\u00f5es matem\u00e1ticas realizadas pelas redes neurais<\/b><span style=\"font-weight: 400;\">, pois permite que adi\u00e7\u00f5es e multiplica\u00e7\u00f5es sejam realizadas com v\u00e1rios pares de n\u00fameros simultaneamente.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Outras abordagens est\u00e3o ganhando espa\u00e7o para executar redes neurais em dispositivos de ponta, como: o uso de Unidades de Processamento Tensorial (TPUs) e Processadores de Sinal Digital (DSPs), que s\u00e3o processadores especializados em opera\u00e7\u00f5es matriciais e processamento de sinais, respectivamente; e o uso de t\u00e9cnicas de Poda e Fatoriza\u00e7\u00e3o de Baixa Ordem, que envolve analisar e remover partes da rede que n\u00e3o fazem diferen\u00e7a relevante para o resultado.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Assim, \u00e9 poss\u00edvel ver que t\u00e9cnicas para reduzir e acelerar redes neurais podem tornar vi\u00e1vel ter a IA Generativa funcionando em dispositivos de ponta num futuro pr\u00f3ximo.<\/span><\/p>\n<h2><b>As aplica\u00e7\u00f5es revolucion\u00e1rias que poderiam ser liberadas em breve:<\/b><\/h2>\n<h3><strong>Automa\u00e7\u00f5es mais inteligentes<\/strong><\/h3>\n<p><span style=\"font-weight: 400;\">Ao combinar a IA Generativa rodando localmente \u2013 em dispositivos ou dentro de redes na casa, escrit\u00f3rio ou carro \u2013 com v\u00e1rios sensores IoT conectados a eles, ser\u00e1 poss\u00edvel realizar uma fus\u00e3o de dados na ponta. Por exemplo, poderiam existir sensores inteligentes emparelhados com dispositivos que podem escutar e entender o que est\u00e1 acontecendo no seu ambiente, provocando uma consci\u00eancia de contexto e possibilitando que a\u00e7\u00f5es inteligentes ocorram por si pr\u00f3prias \u2013 como abaixar automaticamente a m\u00fasica que est\u00e1 tocando ao fundo durante chamadas recebidas, ligar o ar-condicionado ou o aquecedor se ficar muito quente ou frio, e outras automa\u00e7\u00f5es que podem acontecer sem que um usu\u00e1rio precise program\u00e1-las.<\/span><\/p>\n<h3><strong>Seguran\u00e7a p\u00fablica<\/strong><\/h3>\n<p><span style=\"font-weight: 400;\">Do ponto de vista da seguran\u00e7a p\u00fablica, h\u00e1 um grande potencial para melhorar o que temos hoje conectando um n\u00famero crescente de sensores em nossos carros aos sensores nas ruas para que eles possam se comunicar e interagir conosco inteligentemente em redes locais conectadas aos nossos dispositivos.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Por exemplo, para uma ambul\u00e2ncia tentando chegar a um hospital com um paciente que precisa de cuidados urgentes para sobreviver, uma rede inteligente conectada de dispositivos e sensores poderia automatizar sem\u00e1foros e alertas dentro do carro para abrir caminho para a ambul\u00e2ncia chegar a tempo. Esse tipo de sistema conectado e inteligente tamb\u00e9m poderia ser utilizado para &#8220;ver&#8221; e alertar pessoas se estiverem muito pr\u00f3ximas uma das outras no caso de uma pandemia como a COVID-19, ou para entender atividades suspeitas capturadas em c\u00e2meras conectadas em rede e alertar a pol\u00edcia.<\/span><\/p>\n<h3><strong>Telemedicina<\/strong><\/h3>\n<p><span style=\"font-weight: 400;\">Usando o modelo do Apple Watch estendido para LLMs que poderiam monitorar e fornecer conselhos iniciais para quest\u00f5es de sa\u00fade, sensores inteligentes com IA Generativa na ponta poderiam facilitar a identifica\u00e7\u00e3o de potenciais problemas de sa\u00fade &#8211; desde batimentos card\u00edacos incomuns, aumento da temperatura ou quedas s\u00fabitas sem movimento limitado a nenhum.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Emparelhado com vigil\u00e2ncia por v\u00eddeo para aqueles que est\u00e3o idosos ou doentes em casa, a IA Generativa na ponta poderia ser usada para enviar alertas urgentes para familiares e m\u00e9dicos ou fornecer lembretes de cuidados de sa\u00fade para pacientes.<\/span><\/p>\n<h3><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-2015 size-large\" src=\"https:\/\/www.cesar.org.br\/painel\/wp-content\/uploads\/2024\/03\/Navegacao-segura-2-2-1024x683.jpg\" alt=\"ia generativa miniaturiza\u00e7\u00e3o\" width=\"1024\" height=\"683\" srcset=\"https:\/\/www.cesar.org.br\/painel\/wp-content\/uploads\/2024\/03\/Navegacao-segura-2-2-1024x683.jpg 1024w, https:\/\/www.cesar.org.br\/painel\/wp-content\/uploads\/2024\/03\/Navegacao-segura-2-2-300x200.jpg 300w, https:\/\/www.cesar.org.br\/painel\/wp-content\/uploads\/2024\/03\/Navegacao-segura-2-2-768x512.jpg 768w, https:\/\/www.cesar.org.br\/painel\/wp-content\/uploads\/2024\/03\/Navegacao-segura-2-2-1536x1024.jpg 1536w, https:\/\/www.cesar.org.br\/painel\/wp-content\/uploads\/2024\/03\/Navegacao-segura-2-2-2048x1365.jpg 2048w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/h3>\n<h3><strong>Eventos ao vivo e navega\u00e7\u00e3o inteligente<\/strong><\/h3>\n<p><span style=\"font-weight: 400;\">Redes IoT emparelhadas com a IA Generativa na ponta t\u00eam grande potencial para melhorar a experi\u00eancia em eventos ao vivo, como concertos e esportes em grandes locais e est\u00e1dios.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Para aqueles sem assentos no ch\u00e3o, a combina\u00e7\u00e3o poderia permitir que escolhessem um \u00e2ngulo espec\u00edfico acessando uma c\u00e2mera conectada em rede para que possam assistir ao evento ao vivo de um \u00e2ngulo e localiza\u00e7\u00e3o espec\u00edficos, ou at\u00e9 mesmo rever um momento ou jogada instantaneamente, como voc\u00ea pode fazer hoje usando um dispositivo de grava\u00e7\u00e3o tipo TiVo emparelhado com sua TV.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Essa mesma intelig\u00eancia conectada na palma da sua m\u00e3o poderia ajudar a navegar por grandes locais \u2013 de est\u00e1dios a shoppings \u2013 para perguntar onde um servi\u00e7o ou produto espec\u00edfico est\u00e1 dispon\u00edvel dentro daquele local, simplesmente ao perguntar por ele.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Embora essas novas inova\u00e7\u00f5es estejam a pelo menos alguns anos de dist\u00e2ncia, h\u00e1 uma mudan\u00e7a significativa \u00e0 nossa frente para novos servi\u00e7os valiosos que podem ser lan\u00e7ados uma vez que os desafios t\u00e9cnicos de reduzir LLMs para uso em dispositivos locais e redes tenham sido abordados. Com base na velocidade adicionada e no aumento da experi\u00eancia do cliente, e nas preocupa\u00e7\u00f5es reduzidas sobre privacidade e seguran\u00e7a de manter tudo local em vez da nuvem, h\u00e1 muito o que apreciar.<\/span><\/p>\n<h6><span style=\"font-weight: 400;\"><a href=\"https:\/\/www.linkedin.com\/in\/tiagobarros\/\">Tiago Barros<\/a> \u00e9 o Principal Technical Manager de IoT no CESAR e professor do curso de p\u00f3s-gradua\u00e7\u00e3o em Ci\u00eancia da Computa\u00e7\u00e3o na CESAR School. Ele tem mais de 27 anos de experi\u00eancia em desenvolvimento de software, arquitetura de hardware, sistemas embarcados em tempo real, IoT e protocolos de comunica\u00e7\u00e3o.<\/span><\/h6>\n<p>&nbsp;<\/p>\n","protected":false},"featured_media":2019,"template":"","categories":[5],"tags":[93,354,316],"formato_insights":[],"class_list":["post-2025","insight","type-insight","status-publish","has-post-thumbnail","hentry","category-tecnologia","tag-ia-generativa","tag-inteligencia-artificial","tag-machine-learning"],"acf":[],"_links":{"self":[{"href":"https:\/\/www.cesar.org.br\/painel\/wp-json\/wp\/v2\/insight\/2025","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.cesar.org.br\/painel\/wp-json\/wp\/v2\/insight"}],"about":[{"href":"https:\/\/www.cesar.org.br\/painel\/wp-json\/wp\/v2\/types\/insight"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.cesar.org.br\/painel\/wp-json\/wp\/v2\/media\/2019"}],"wp:attachment":[{"href":"https:\/\/www.cesar.org.br\/painel\/wp-json\/wp\/v2\/media?parent=2025"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.cesar.org.br\/painel\/wp-json\/wp\/v2\/categories?post=2025"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.cesar.org.br\/painel\/wp-json\/wp\/v2\/tags?post=2025"},{"taxonomy":"formato_insights","embeddable":true,"href":"https:\/\/www.cesar.org.br\/painel\/wp-json\/wp\/v2\/formato_insights?post=2025"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}