🇺🇸🇧🇷🇫🇷
🇺🇸🇧🇷🇫🇷
Blog

Inteligência Artificial: Dos Princípios aos Agentes

February 20, 2026
Um mapa mental guiado A Inteligência Artificial é um território vasto e ruidoso. Se você abrir as redes sociais, vai ouvir falar de agentes, AGI, engenharia de prompts, multimodalidade, alinhamento, fine-tuning, embeddings, leis de escala, modelos de raciocínio e uma dúzia de outros termos frequentemente usados de forma intercambiável, muitas vezes sem contexto. O resultado é um emaranhado conceitual. Neste post, não tentarei mapear todo o território da IA. Em vez disso, percorreremos uma direção pré-determinada, apontando os caminhos que se ramificam ao longo do percurso, mas sempre mantendo o foco em nossa trajetória: dos conceitos básicos da aprendizagem com dados até os agentes de IA modernos. O objetivo é oferecer um modelo mental claro:
  • Que tipo de problema os sistemas de IA resolvem
  • Como o aprendizado de máquina (Machine Learning ou simplesmente ML) moderno está estruturado
  • Onde o Deep Learning se encaixa
  • Por que os transformers importam
  • O que os LLMs realmente são
  • E como sistemas do mundo real são construídos ao seu redor
Seguiremos isso passo a passo, usando alguns marcos de pesquisa como guias. Não trata-se de uma revisão bibliográfica, mas de um mapa delineado para mostrar como as ideias evoluíram ao longo do tempo.
Grande parte da IA inicial focou em sistemas baseados em regras. Pesquisadores acreditavam que a inteligência poderia ser construída explicitamente:
  • Representar conhecimento simbolicamente
  • Codificar regras como "SE X ENTÃO Y"
  • Aplicar inferência lógica para derivar conclusões
Essa abordagem, frequentemente chamada de IA simbólica, foi profundamente influenciada pela lógica formal e pela filosofia. Inteligência era vista como raciocínio estruturado sobre símbolos. É importante notar que isso não era apenas uma coleção de simples declarações if. A IA simbólica tipicamente dependia de formas mais ricas de lógica (ex: lógica de primeira ordem) onde sistemas representavam:
  • Objetos (ex: João)
  • Propriedades (ex: tem_febre(João))
  • Regras gerais (ex: "para todos os pacientes, febre E tosse implicam possível gripe")
Um motor de inferência separado aplicaria essas regras para derivar novas conclusões. Conhecimento e raciocínio eram explicitamente codificados e mecanicamente aplicados. Em aplicações restritas, funcionou notavelmente bem. Sistemas foram construídos para:
  • Jogar xadrez
  • Provar teoremas
  • Planejar em domínios bem definidos
  • Diagnóstico médico especializado
Mas as limitações apareceram quando a IA passou a ser utilizada em outros domínios menos restritos. Percepção, linguagem e raciocínio "humano" revelaram-se problemas complexos, com desafios de ambiguidade e de alta dimensionalidade. Escrever regras explícitas para reconhecer a figura de um gato em diferentes condições ou lidar com a variabilidade da linguagem natural rapidamente se tornou intratável. O problema não era a lógica em si. O problema era escala. Codificar inteligência manualmente não escala bem para dados ruidosos e não estruturados. A grande mudança, frequentemente chamada de virada estatística, foi conceitualmente simples:
Em vez de escrever as regras, deixe o sistema aprendê-las com os dados.
Essa ideia é a fundação do ML moderno. No seu âmago, ML define um modelo parametrizado e ajusta seus parâmetros para otimizar a performance com base em dados. No caso supervisionado mais simples, isso se equivale a ajustar uma função: fθ(x)yf_\theta(x) \approx y Você não codifica explicitamente o mapeamento de entrada para saída. Você define uma função flexível com parâmetros θ\theta, e ajusta esses parâmetros durante a fase de treinamento para que a função performe bem nos exemplos. Essa forma de pensar — modelos como funções parametrizadas otimizadas a partir de dados — não apareceu da noite para o dia. Ela emergiu gradualmente da teoria de decisão estatística, teoria do aprendizado e pesquisa em redes neurais no final do século XX. Conforme pesquisadores começaram a formalizar conceitos como generalização, capacidade do modelo e minimização de risco, a otimização tornou-se a lente unificadora através da qual o aprendizado era entendido. Na década de 1990 e início dos anos 2000, essa formulação tornou-se padrão na literatura de ML e foi consolidada em livros influentes como Pattern Recognition and Machine Learning (Bishop, 2006). Mas não precisamos da matemática para manter a ideia central:
Um sistema de aprendizado é uma função otimizada.
Esse é o primeiro marco.
Antes de ir além, é importante separar as ideias frequentemente confundidas em discussões casuais sobre IA. Quando pessoas dizem "treinar um modelo" podem estar se referindo a escolhas de design muito diferentes. Sistemas de IA modernos envolvem pelo menos quatro camadas distintas:
  1. Sinal de aprendizado — De onde vem o feedback? (Rótulos? Estrutura? Recompensas?)
  2. Arquitetura do modelo — Que tipo de função estamos usando? (Modelo linear? Rede neural? Transformer?)
  3. Função objetivo — O que estamos otimizando? (Erro de predição? Likelihood? Recompensa?)
  4. Método de otimização — Como atualizamos parâmetros? (Gradiente descendente? Backpropagation?)
Manter essas camadas separadas previne confusões conceituais mais tarde, especialmente quando chegarmos em Deep Learning e modelos de linguagem. Passaremos por essas camadas gradualmente, mas mantê-las distintas tornará o resto da jornada mais ameno.
Em alto nível, ML difere principalmente no tipo de sinal de feedback disponível ao aprendiz. Ao longo de décadas de pesquisa, três grandes paradigmas de aprendizado emergiram. Eles não são distinguidos pela arquitetura, mas pela maneira como a informação flui do ambiente para o modelo. No aprendizado supervisionado, o sistema recebe pares entrada–saída:
  • Imagem → Rótulo
  • Texto → Sentimento
  • Features → Preço
O modelo ajusta seus parâmetros para minimizar erro de predição, tipicamente formalizado como minimizar a perda esperada sobre um conjunto de dados. Esse paradigma foi moldado pela teoria de decisão estatística e posteriormente formalizado através da teoria de aprendizado estatístico. Trabalho de Vapnik e outros sobre conceitos como dimensão VC (cf. post do blog do Andy Jones), minimização de risco estrutural, e limites de generalização ajudou a clarificar quando e por que modelos treinados em dados finitos podem generalizar para exemplos não vistos. A maioria dos sistemas de ML industriais está nessa categoria. Modelo mental:
Aprendizado supervisionado trata-se de aproximação de funções com exemplos.

No aprendizado não supervisionado, não há rótulos explícitos. Em vez disso, o sistema tenta modelar a estrutura ou distribuição dos próprios dados. Historicamente, isso inclui:
  • Métodos de agrupamento
  • Técnicas de redução de dimensionalidade como análise de componentes principais (PCA)
  • Modelos generativos probabilísticos como modelos de mistura e modelos de variáveis latentes
Em vez de trabalhar com predições externamente definidas, o sistema descobre estruturas intrínsecas: comprimindo informação, modelando distribuições, ou organizando entradas em representações internas significativas. Modelo mental:
Aprendizado não supervisionado trata-se de descobrir estruturas nos dados.
Essa perspectiva torna-se crucial mais tarde quando discutirmos embeddings e aprendizado de representação.
No aprendizado por reforço (RL), o aprendiz está inserido em um ambiente.
  • Ele toma ações
  • Ele recebe recompensas
  • Ele atualiza uma política para maximizar recompensa cumulativa de longo prazo
Os fundamentos matemáticos do RL derivam em grande medida da teoria de controle e programação dinâmica — particularmente a formulação de Bellman para controle ótimo — e foram posteriormente estendidos através de aprendizado por diferença temporal, Q-learning e métodos de gradiente de política (policy gradient methods). Em vez de rótulos diretos, o feedback é diferido e é apenas avaliativo. Modelo mental:
Aprendizado por reforço trata-se de otimização através de interação.
RL reaparecerá mais tarde quando discutirmos como grandes modelos de linguagem são alinhados com preferências humanas.
Até agora, descrevemos como sistemas aprendem, incluindo o tipo de feedback que recebem e os objetivos que otimizam. Mas isso deixa uma pergunta importante sem resposta:
O que exatamente está sendo aprendido?
Um modelo não simplesmente memoriza mapeamentos entrada–saída. Para generalizar além de seus dados de treinamento, ele deve construir representações internas; ou seja, codificações estruturadas do mundo que capturam padrões, regularidades e abstrações. Aprendizado é otimização. Mas generalização depende de representação. E é aqui que a IA moderna tomou uma guinada decisiva. Antes do Deep Learning, a maioria dos sistemas de ML dependia pesadamente de engenharia de features. O fluxo de trabalho frequentemente consistia em:
  1. Humanos projetam features.
  2. O modelo aprende como combiná-las.
Em visão computacional, engenheiros projetavam manualmente:
  • Detectores de bordas
  • Features de Histograma de Gradientes Orientados (HOG)
  • Descritores SIFT
Em processamento de linguagem natural, modelos dependiam de:
  • Vetores bag-of-words
  • N-gramas
  • Features linguísticas manualmente curadas
O algoritmo de aprendizado em si era frequentemente relativamente simples — regressão logística, SVMs, redes neurais rasas. A inteligência real estava no design de features. Isso criou um gargalo. A performance melhorava apenas à medida que humanos podiam inventar melhores representações.
O avanço do Deep Learning não foi meramente redes neurais mais profundas ou melhor otimização. Foi a automação sistemática do aprendizado de features. Em vez de alimentar modelos com abstrações construídas manualmente, pesquisadores começaram a treinar redes neurais diretamente em entradas brutas:
  • Pixels em vez de descritores de borda
  • Sequências de palavras em vez de features linguísticas pré-computadas
Redes neurais profundas aprenderam camadas intermediárias de representação automaticamente. Camadas inferiores capturavam padrões locais. Camadas superiores capturavam estrutura cada vez mais abstrata. Esse aprendizado de representação hierárquico tornou-se a vantagem definidora das redes neurais profundas. O ponto de virada tornou-se visível em 2012 com o sucesso de redes convolucionais profundas no ImageNet, tornado notório em ImageNet Classification with Deep Convolutional Neural Networks (Krizhevsky et al., 2012). O resultado chave não foi apenas maior acurácia. Foi que a rede aprendeu sua própria hierarquia de features a partir de dados brutos, em escala.
O que significa "aprender uma representação"? Significa transformar entradas brutas em uma forma interna onde a tarefa se torna mais simples. Em muitos casos, essa forma interna é geométrica: vetores de alta dimensionalidade. Mas a ideia importante não é o vetor em si. É a estrutura que o vetor captura. Uma boa representação:
  • Coloca entradas similares próximas umas das outras.
  • Separa conceitos distintos.
  • Codifica invariâncias relevantes.
  • Descarta variação irrelevante.
Nesse sentido, aprendizado de representação é sobre descobrir o "sistema de coordenadas" (ou mais precisamente um hiperespaço, em linguagem mais técnica) certo para um problema. Uma vez que entradas são expressas nas coordenadas certas, a predição se torna muito mais fácil.
Essa intuição geométrica tornou-se especialmente clara em processamento de linguagem natural com trabalhos como Efficient Estimation of Word Representations in Vector Space (Mikolov et al., 2013). Embeddings de palavras demonstraram que relações semânticas podiam emergir como relações espaciais:
  • Palavras similares agrupam-se.
  • Analogias correspondem a deslocamentos vetoriais.
O modelo não foi explicitamente programado com definições de "rei" ou "rainha".
Ele aprendeu estrutura estatística de grandes corpora, e essa estrutura manifestou-se geometricamente. Nesse ponto, um novo modelo mental torna-se útil:
Sistemas de IA modernos convertem realidade desordenada em geometria estruturada.
E uma vez que o significado é codificado geometricamente, escalar modelos torna-se uma questão de aprender representações mais ricas e de maior dimensionalidade. Essa mudança, de features desenhadas à mão para representações aprendidas, é o verdadeiro ponto de inflexão que preparou o cenário para a IA moderna. O próximo passo foi aprender como representar sequências efetivamente. É aqui que transformers entram na história. Essa ideia de que a representação é frequentemente o verdadeiro gargalo não é apenas teórica. No meu trabalho de doutorado, o problema central não era realmente "qual algoritmo devemos usar?". Era: como representamos comportamento de programas de uma forma que um modelo de ML possa realmente trabalhar com eles? A pesquisa focou em modelar arquivos binários como grafos estruturados — especificamente, Grafos de Dependência de Chamadas de Sistema (SCDGs). A parte difícil não era a classificação em si. Era transformar esses objetos complexos e estruturados em algo que preservasse a informação comportamental e que, ao mesmo tempo, fosse amigável à aprendizagem. Na prática, isso significava constantemente fazer perguntas como:
  • Que estrutura deve ser mantida?
  • Que detalhe pode ser descartado?
  • O que torna dois binários "próximos" ou "similares" em um sentido significativo?
  • Como avaliamos se a representação captura o que importa?
À época, isso parecia um desafio de engenharia muito específico do meu domínio. Retrospectivamente, porém, está claro que o trabalho situava-se dentro de uma mudança mais ampla na IA: a crescente percepção de que representação é frequentemente o problema central. Isso tudo foi antes de transformers e grandes modelos de linguagem se tornarem parte do cotidiano. Ainda assim, a pergunta subjacente já era a mesma: como construímos representações que tornem o aprendizado possível? Antes da obsessão por escala, antes de LLMs, antes da atual onda de IA generativa, há a questão da representação. E em muitos sistemas, é aí que mora a maior parte do trabalho intelectual. Em meados da década de 2010, o Deep Learning havia se estabelecido como uma estrutura poderosa para aprendizado de representação, especialmente em visão. Linguagem, no entanto, expôs uma fraqueza estrutural. Diferente de imagens, linguagem é sequencial. O significado de uma palavra depende das palavras ao seu redor, às vezes distantes na sentença. Modelar essas dependências de longo alcance provou ser mais difícil do que parecia. Abordagens anteriores dependiam de redes neurais recorrentes (RNNs) e posteriormente redes Long Short-Term Memory (LSTMs). Essas arquiteturas processavam sequências passo a passo, mantendo um estado oculto que evoluía ao longo do tempo. Funcionavam, mas imperfeitamente: Processamento sequencial limitava paralelização; Dependências de longo alcance eram difíceis de preservar; Treinamento tornava-se instável para contextos muito longos. Conceitualmente, o modelo comprime tudo que viu até certo ponto em um único vetor em evolução. Esse vetor efetivamente torna-se a memória do modelo. Isso cria duas restrições:
  1. Gargalo de informação — todo contexto prévio deve caber em um único estado.
  2. Dependência sequencial — tokens devem ser processados em ordem, limitando paralelização.
Para sequências curtas, isso funciona bem. Para contextos longos, a informação degrada e o treinamento torna-se difícil. Uma ideia diferente começou a tomar forma:
E se, ao invés de processar tokens um de cada vez, o modelo pudesse olhar para a sequência inteira de uma só vez?
Essa foi a intuição chave por trás do paper de 2017 Attention Is All You Need (Vaswani et al., 2017), que introduziu a arquitetura transformer. A inovação central foi o mecanismo de atenção. Em vez de forçar toda informação prévia através de um único estado em evolução, atenção permite que cada token compute sua representação ponderando diretamente a relevância de cada outro token na sequência. Em termos práticos:
  • Cada palavra pode diretamente "olhar para" cada outra palavra.
  • Contexto é modelado através de relações ponderadas.
  • Cálculos podem ser paralelizados eficientemente.
Em outras palavras:
Cada palavra decide dinamicamente quais outras palavras importam para entendê-la.
O modelo não depende mais de uma única memória comprimida. Ele constrói contexto dinamicamente, através de relações ponderadas. Em modelos baseados em atenção, cada token pode interagir com os outros tokens dentro de uma única camada. Isso permite representações de sequência mais ricas e flexíveis, o que torna treinamento em larga escala viável. Por debaixo do capô, esses pesos de relevância são medidas de similaridade aprendidas entre representações de tokens, permitindo que o modelo descubra quais relações importam para a tarefa.
Essa mudança altera três coisas fundamentalmente: 1. Fluxo de Informação Contexto não é mais forçado através de um canal sequencial estreito. Relações são modeladas explícita e diretamente. 2. Paralelização Porque tokens são processados simultaneamente em vez de passo a passo, o treinamento pode aproveitar o hardware moderno de forma muito mais eficiente. 3. Flexibilidade de Representação O mecanismo de atenção constrói representações sensíveis ao contexto. O embedding de uma palavra não é fixo; ele muda dependendo dos tokens ao redor. Importante, essa mudança foi arquitetural, não conceitual.
  • O modelo ainda otimiza um objetivo preditivo.
  • Ainda aprende representações.
  • Ainda opera em espaço de alta dimensionalidade.
Mas a capacidade representacional da arquitetura torna-se muito mais expressiva. E o mais importante, a arquitetura é estável e escalável. Essa combinação, atenção mais escala, preparou o cenário para a ascensão dos grandes modelos de linguagem. Por si só, a arquitetura transformer não produziu imediatamente o tipo de sistemas que agora associamos com grandes modelos de linguagem. O fator decisivo foi escala:
  • Modelos maiores.
  • Mais dados.
  • Maior poder de cálculo.
Por anos, aumentar tamanho do modelo produziu melhorias incrementais. Mas por volta do final da década de 2010, pesquisadores começaram a notar algo mais sistemático. A performance não melhorava aleatoriamente. Melhorava previsivelmente. Essa observação foi formalizada em Scaling Laws for Neural Language Models (Kaplan et al., 2020), que mostrou que a performance do modelo segue relações suaves de lei de potência com respeito a tamanho do modelo, tamanho do conjunto de dados e capacidade computacional. Em termos simples:
Se você torna o modelo maior, alimenta-o com mais dados e treina por mais tempo, a performance melhora de forma surpreendentemente regular.
Não há um ponto de saturação óbvio. Nenhum colapso súbito. Apenas melhoria constante e mensurável. Isso teve uma implicação importante: Melhorar modelos de linguagem não era mais primariamente sobre inventar novas arquiteturas. Era sobre escalar as existentes eficientemente.
A próxima surpresa veio com Language Models are Few-Shot Learners (Brown et al., 2020), que introduziu o GPT-3. Conforme modelos cruzavam certos limiares de tamanho, novas capacidades apareciam:
  • Realizar tarefas sem treinamento específico para tal tarefa
  • Seguir instruções a partir de prompts
  • Traduzir, resumir, responder perguntas com exemplos mínimos
Essas habilidades não foram explicitamente programadas. Emergiram de predição de próximo token em escala. Esse fenômeno tornou-se conhecido como aprendizado in-context. Em vez de atualizar pesos, o modelo podia adaptar seu comportamento com base em exemplos fornecidos no prompt. A arquitetura não havia mudado fundamentalmente. O objetivo não havia mudado fundamentalmente. O procedimento de treinamento ainda era predição de próximo token. O que mudou foi escala. E escala alterou comportamento.
Por que aumentar tamanho produz comportamento qualitativamente diferente? Vários fatores contribuem:
  1. Modelos maiores podem armazenar estrutura estatística mais refinada.
  2. Redes neurais mais profundas podem construir representações mais abstratas.
  3. Conjuntos de dados massivos expõem modelos a padrões mais amplos de uso de linguagem.
  4. Otimização em escala suaviza comportamento através de muitas tarefas.
Conforme capacidade aumenta, a geometria interna do modelo torna-se mais rica. Padrões que eram anteriormente sutis demais para serem capturados, tornam-se representáveis. Isso não significa que o modelo "entende" em um sentido humano. Significa que o espaço de representação torna-se expressivo o suficiente para simular uma ampla gama de comportamentos linguísticos. E uma vez que isso acontece, uma nova classe de sistemas torna-se possível. Grandes modelos de linguagem não são definidos por um novo paradigma de aprendizado. São transformers treinados em escala sem precedentes. Essa é a mudança crucial. Neste ponto, podemos finalmente definir o que é um grande modelo de linguagem (LLM) (sem nenhum misticismo). Um grande modelo de linguagem é uma rede neural baseada em transformer treinada para prever o próximo token em uma sequência. Só isso. Mais precisamente, ele aprende uma distribuição de probabilidade condicional: P(τNτ1,,τN1)P(\tau_N \mid \tau_1, \dots, \tau_{N-1}) Dado uma sequência de texto, o modelo atribui probabilidades a todos os possíveis próximos tokens e seleciona um de acordo com essa distribuição. Essa formulação é a versão moderna escalada do modelagem clássica de linguagem: estimar a probabilidade de sequências a partir de dados (veja, por exemplo, A Neural Probabilistic Language Model (Bengio et al., 2003)). Todo o resto emerge desse objetivo.
LLMs são treinados usando aprendizado auto-supervisionados. Em vez de requerer conjuntos de dados rotulados, eles usam texto bruto e tratam o próximo token como alvo. Aprendizado auto-supervisionado pode ser entendido como uma forma estruturada de aprendizado não supervisionado, onde o sinal de supervisão é derivado da própria estrutura dos dados em vez de rótulos externos. Por exemplo:
Entrada: "A capital da França é"
Alvo: "Paris"
Nenhuma anotação humana é necessária. Os próprios dados fornecem supervisão. Ao repetir esse objetivo através de bilhões (ou trilhões) de tokens, o modelo aprende:
  • Sintaxe
  • Gramática
  • Regularidades estatísticas
  • Fatos comuns
  • Padrões de raciocínio presentes no texto
O objetivo de treinamento permanece simples. O que muda é a escala.
Um LLM não armazena regras simbólicas explícitas. Não contém um banco de dados de declarações lógicas. Não executa um motor de raciocínio formal. Em vez disso, conhecimento é codificado implicitamente em seus parâmetros, distribuído através de um espaço vetorial de alta dimensionalidade. Quando o modelo produz um texto que parece raciocinar, o que ele está fazendo é gerar sequências que estatisticamente se assemelham a padrões de raciocínio que aprendeu dos dados. Essa distinção é sutil, mas importante:
  • Fluidez não é o mesmo que entendimento.
  • Coerência não é o mesmo que verdade.
O modelo otimiza probabilidade, não precisão factual.
Porque o objetivo é predição probabilística do próximo token, o objetivo do modelo é produzir um texto que seja plausível dado o contexto — não um texto que seja verificado ou fundamentado. Se os dados de treinamento contêm informações inconsistentes ou incompletas, o modelo pode convictamente gerar saídas incorretas. Por exemplo, perguntado sobre um paper de pesquisa fictício, um LLM poderia fabricar um título plausível, lista de autores e resumo — fluente mas inteiramente inventado. Isso não é um bug na lógica de raciocínio. É uma consequência direta do objetivo de treinamento. Essa tensão de fluitez sem fundamentação é uma das razões pela qual alucinações aparecem na prática. Isso tem sido estudado sob o guarda-chuva mais amplo de factualidade e fidelidade na geração (ex: On the Dangers of Stochastic Parrots (Bender et al., 2021); e em trabalhos sobre consistência factual como TruthfulQA (Lin et al., 2022)).
Apesar da simplicidade de seu objetivo, LLMs parecem qualitativamente diferentes de modelos anteriores. Essa percepção vem de três fatores:
  1. Escala — grandes quantidades de parâmetros permitem representações internas ricas.
  2. Pré-treinamento — exposição a corpora massivos e diversos.
  3. Aprendizado in-context — a habilidade de condicionar o comportamento em prompts sem atualizações de pesos.
Combinados, eles produzem sistemas que podem simular muitos comportamentos linguísticos dentro de um único modelo unificado. Mas por debaixo do capô, o mecanismo permanece o mesmo: Um transformer prevendo o próximo token. Se as Seções 1–6 foram sobre como modelos aprendem, esta seção é sobre como os tornamos úteis e confiáveis no mundo real. Um grande modelo de linguagem é um componente. Uma aplicação de IA é um sistema. Essa distinção é fácil de passar despercebida, e grande parte da confusão em torno da IA moderna vem de se tratar coisas diferentes como se fossem iguais. Um LLM é um modelo de sequência probabilístico treinado para prever o próximo token. Por si só, ele não tem:
  • Nenhuma memória persistente além de sua janela de contexto
  • Nenhum acesso direto a bancos de dados externos
  • Nenhuma habilidade de executar códigos
  • Nenhum mecanismo embutido para "fact-checking"
O que torna sistemas de IA modernos poderosos não é apenas o modelo, mas o arcabouço construído ao seu redor.
Desenvolvimento moderno de LLMs tipicamente segue um paradigma de duas fases: pré-treinamento em corpora massivos para predição de próximo token, seguido por pós-treinamento para alinhamento e comportamento específico de tarefa. Uma forma de adaptar um modelo base é através do fine-tuning. Em vez de treinar do zero, os parâmetros do modelo são ajustados em conjuntos de dados mais específicos:
  • Corpora de seguimento de instruções
  • Documentos específicos de domínio
  • Exemplos conversacionais
Reinforcement Learning from Human Feedback (RLHF) vai mais longe. Em vez de otimizar puramente conforme a probabilidade do próximo token, o modelo é ajustado para produzir saídas que humanos avaliam como úteis, seguras ou alinhadas (cf. Training language models to follow instructions with human feedback (Ouyang et al., 2022)). Isso não muda a estrutura de objetivo subjacente. Refina o comportamento do mesmo modelo probabilístico. A arquitetura permanece um transformer. A otimização permanece baseada em gradiente.
Nem toda adaptação requer atualizações de pesos. Como LLMs exibem aprendizado in-context, o comportamento pode ser moldado diretamente através do prompt. Fornecer exemplos dentro da janela de contexto efetivamente condiciona o modelo a continuar em um dado padrão particular. Nesse sentido, prompting é uma forma de programação soft:
  • Você não muda o código.
  • Você molda as condições sob as quais ele roda.
Essa capacidade foi uma das consequências mais surpreendentes do treinamento em grande escala.
Uma limitação central de LLMs é que eles geram texto plausível, mas não necessariamente embasados. O Retrieval-Augmented Generation (RAG) aborda isso inserindo informação externa no contexto do modelo. O sistema:
  1. Busca informações em uma base de conhecimento.
  2. Seleciona documentos relevantes.
  3. Injeta-os no prompt.
  4. Deixa o modelo gerar uma resposta baseada nesses documentos.
Efetivamente, o modelo em si permanece inalterado. O que muda é a arquitetura ao seu redor. O RAG é portanto não um novo paradigma de aprendizado, mas um padrão de sistemas: "recupere, depois gere". Essa ideia foi formalizada em trabalhos como Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (Lewis et al., 2020). Ao fundamentar geração em fontes externas, o sistema melhora confiabilidade factual sem modificar o preditor de próximo token subjacente (i.e. o modelo LLM).
Talvez o advento mais importante dos sistemas modernos de LLM seja uso de ferramentas, frequentemente implementado através de chamada de funções. Aqui, o modelo não meramente gera textos, ele pode produzir saídas estruturadas que especificam:
  • Qual ferramenta chamar
  • Com quais argumentos
Por exemplo:
  • Invocar uma calculadora
  • Consultar um banco de dados
  • Enviar uma requisição de API
  • Iniciar a execução de código
O papel do LLM torna-se o de um orquestrador:
  1. Interpretar intenção do usuário
  2. Decidir qual função é apropriada
  3. Produzir parâmetros estruturados
  4. Integrar o resultado retornado na resposta final
Isso é o que permite comportamento similar à de um agente (autônomo). Esse padrão "linguagem-para-ação" tem sido explorado em pesquisas como ReAct: Synergizing Reasoning and Acting in Language Models (Yao et al., 2022), que intercala sequências de raciocínio com uso de ferramentas, e Toolformer: Language Models Can Teach Themselves to Use Tools (Schick et al., 2023), onde modelos aprendem quando chamar ferramentas a partir de dados. Um breve aparte: o ReAct toca em uma área mais ampla e ativa de pesquisa frequentemente descrita como raciocínio (reasoning) em grandes modelos de linguagem. Trabalhos nessa direção investigam como modelos podem gerar passos intermediários, decompor problemas e estruturar soluções de múltiplos passos mais confiavelmente. Não exploraremos os métodos de raciocínio em maior profundidade aqui, pois esse tópico merece sua própria discussão. Para nossos propósitos, o ponto chave é arquitetural: o modelo em si ainda está prevendo tokens, mas esses tokens agora descrevem ações. O sistema ao redor executa essas ações. O modelo então continua geração baseada nos resultados. Dessa forma:
O modelo de linguagem torna-se uma interface de raciocínio sobre ferramentas.
Essa é uma mudança crucial. A inteligência não está mais confinada à representação interna. Está distribuída através de modelo, ferramentas e lógica de controle.
Quando chamadas de funções são combinadas a prompting iterativo e memória, esse sistema começa a se assemelhar a um agente. Ele pode:
  • Planejar ações de múltiplos passos
  • Chamar ferramentas repetidamente
  • Avaliar resultados intermediários
  • Ajustar comportamento dinamicamente
Contudo, mesmo aqui, o mecanismo subjacente permanece o mesmo: Um transformer prevendo o próximo token. A aparência de autonomia ("agência") emerge de loops de interação estruturados construídos ao redor de geração probabilística.
O modelo base fornece:
  • Aprendizado de representação em larga escala
  • Fluidez linguística
  • Generalização de padrões
O sistema fornece:
  • Fundamentação
  • Acesso a ferramentas
  • Memória
  • Verificação
  • Controle iterativo
Entender essa separação reduz muito do hype. Grandes modelos de linguagem são componentes poderosos. Sistemas de IA modernos são arquiteturas que organizam esses componentes em uma única estrutura. A na diferença entre os dois onde está a maior parte do trabalho de engenharia. Percorremos um caminho deliberado através da IA moderna.
  1. Começamos com a virada estatística: a mudança de escrever regras para aprender com dados.
  2. Separamos sinais de aprendizado de arquiteturas, objetivos e métodos de otimização.
  3. Vimos como o aprendizado da representação tornou-se um avanço importante, demovendo o gargalo de features artesanais em prol de estruturas internas aprendidas.
  4. Examinamos como transformers reformularam modelagem de sequências substituindo compressão sequencial por atenção.
  5. Vimos que a escala mudou comportamento; não alterando objetivos subjacentes, mas expandindo sua capacidade representacional.
E clarificamos o que grandes modelos de linguagem realmente são:
Preditores de próximo token baseados em transformer treinados em escala massiva.
Nada mais. Nada menos.
Se você comprimir todo o território de IA em algumas ideias duradouras, fica assim:
  • Modelos de IA aprendem como funções otimizadas.
  • Performance depende criticamente da representação.
  • Transformers permitem representações de sequências escaláveis.
  • Escala altera o comportamento qualitativo.
  • LLMs são componentes, não sistemas completos.
A maior parte da confusão sobre IA vem de misturar essas camadas. Quando arquiteturas são confundidas com paradigmas de aprendizado. Quando fluitez probabilística é confundida com raciocínio. Quando modelos são confundidos com sistemas. Quando escala é confundida com um novo tipo de inteligência. Despidos do hype, a IA moderna é notavelmente consistente:
É otimização de grandes modelos parametrizados que aprendem representações estruturadas a partir de dados.
A inteligência aparente emerge da geometria, escala e design de sistema. Entender essa hierarquia torna mais fácil raciocinar sobre o que sistemas de IA atuais podem fazer e onde estão seus limites. Os mesmos princípios estendem-se naturalmente a sistemas de IA multimodais, onde representações de texto, imagens e áudio são aprendidas e combinadas dentro de uma arquitetura unificada. E isso, mais do que qualquer ferramenta ou modelo individual, é um mapa durável.
IA pode parecer caótica de fora. Internamente, sua estrutura é surpreendentemente disciplinada.