O chatbot que você usa está apoiado num artigo de tradução de 2017

26 de junho de 2026 · 8 min

Me incomoda quando transformam um modelo de linguagem num milagre. Vai ler como ele funciona, está tudo aí. Então um dia eu sentei e percorri os artigos sobre os quais ele se apoia. Não são muitos. A indústria inteira, cada chatbot, cada bugiganga com "IA" colada nela, anda em cima de uma cadeia curta de trabalho, e quase tudo cabe em vinte anos. Dá pra percorrer rápido. E quando você percorre, o milagre evapora, e junto com ele vai embora o medo fora de hora, e também as expectativas infladas.

Aqui está a cadeia, elo por elo.

A ideia é velha: língua é previsão

A ideia de que dá pra prever a língua não é nova. Claude Shannon, lá em 1948, no artigo que deu início à teoria da informação, mediu o quanto uma letra do inglês é previsível quando você conhece as anteriores. Ele mostrou que o texto é cheio de redundância, que sabendo o começo, o próximo caractere é mais fácil de adivinhar do que parece. Aí está a semente de tudo que vem depois. A língua é estatisticamente previsível. A única pergunta era com o que prever.

Por décadas contaram de forma grosseira. Pegavam frequências, com que frequência uma palavra vinha depois das duas ou três anteriores, e chamavam de n-gramas. Funcionava em frases curtas e desmoronava nas longas. A máquina não fazia ideia de que "gato" e "gatinho" ficam pertinho. Pra ela eram dois sinais diferentes, e era só isso.

As palavras ganham uma geometria

A primeira virada veio de Yoshua Bengio e a equipe dele em 2003, o artigo "A Neural Probabilistic Language Model". Ideia simples: representar a palavra não como um sinal, mas como um conjunto de números, coordenadas num espaço. Aí palavras próximas no sentido ficam perto uma da outra, e a máquina, vendo uma, já sabe um pouco sobre a vizinha. Foi assim que as redes neurais entraram nos modelos de linguagem, e que entraram os embeddings, as palavras como vetores.

Em 2013 a equipe de Tomas Mikolov no Google deixou isso visível, o modelo word2vec. Descobriu-se que o sentido mora nesse espaço como geometria. O exemplo clássico deles: pega o vetor da palavra "rei", subtrai "homem", soma "mulher", e você cai quase exatamente em "rainha". As relações entre palavras viraram aritmética sobre números. Isso está na fundação até hoje, dentro de qualquer modelo atual o texto primeiro vira vetores assim.

As máquinas aprendem a ler em ordem

Texto é uma sequência, e a ordem é tudo nele. "Cachorro morde homem" e "homem morde cachorro" são notícias diferentes com as mesmas palavras. Pra segurar a ordem usavam redes recorrentes, em especial a LSTM (Hochreiter e Schmidhuber, 1997, muito antes da moda). Elas liam o texto palavra por palavra e arrastavam consigo uma memória do que tinham lido.

Em 2014 construíram tradução em cima disso. O trabalho da equipe de Ilya Sutskever (seq2seq) mostrou como uma rede podia espremer uma frase de uma língua num vetor, e outra podia desdobrar num texto traduzido. Na mesma época Dzmitry Bahdanau e os coautores acrescentaram a peça chave, o mecanismo de atenção. Conforme o modelo produz cada palavra da tradução, ele aprende a olhar pras palavras do original que mais importam naquele momento. Não arrastar tudo num vetor espremido, mas escolher a cada passo no que olhar.

Guarde a palavra "atenção". Em três anos ela vira o nome de tudo.

A virada: 2017

Em 2017 oito pessoas do Google soltaram um artigo com um título ousado, "Attention Is All You Need", "Atenção é tudo que você precisa". E jogaram fora a recorrência inteira. Ficaram com o único mecanismo de atenção e construíram com ele uma arquitetura nova, o transformer.

Foi isso que fizeram. Em vez de ler o texto palavra por palavra em ordem, o transformer olha todas as palavras de uma vez e, pra cada uma, calcula o quanto ela se relaciona com cada outra. A palavra "ele" numa frase varre todos os substantivos e decide a qual se refere. Isso é a autoatenção, self-attention.

Parece um detalhe pequeno. Na verdade é a fundação da indústria inteira, por dois motivos.

Primeiro, qualidade. O modelo enfim enxerga ligações a qualquer distância, entre o começo e o fim de um parágrafo longo, não só entre vizinhos.

Segundo, e esse pesa mais pra tudo que veio depois, velocidade. Como as palavras não precisam mais ser lidas estritamente em ordem, todo o trabalho pode rodar em paralelo, em milhares de placas de vídeo ao mesmo tempo. As redes recorrentes antigas não conseguiam, ficavam presas na própria sequência. O transformer tirou esse teto. O que significava que dava pra inflar ele até tamanhos de que ninguém estava falando.

Tudo que você chama de "IA" hoje é um transformer. GPT, Claude, Gemini, os modelos abertos, tradutores, geradores de código. O T de GPT é de Transformer. A arquitetura tem quase dez anos, e nada a empurrou pro lado ainda.

Dois ramos

Daquele artigo de 2017 cresceram dois ramos.

Em 2018 o Google fez o BERT, um modelo que lê o texto nas duas direções ao mesmo tempo e entende ele bem, pra busca e classificação. A OpenAI foi pro lado da geração e fez a linha GPT, um modelo que lê da esquerda pra direita e continua o texto. O mesmo autocomplete caro do primeiro texto. GPT-1 em 2018, GPT-2 em 2019, GPT-3 em 2020.

O GPT-3 merece uma parada. No artigo de 2020 (Brown e coautores, com o título "Language Models are Few-Shot Learners") a OpenAI mostrou uma coisa estranha. Faça o modelo grande o suficiente e dê texto suficiente pra ele, e ele começa a resolver tarefas pras quais ninguém o treinou diretamente. Mostre dois ou três exemplos de tradução no pedido, e ele traduz o quarto. Ninguém colocou uma "habilidade de tradução" nele à parte. Ela surgiu sozinha, um subproduto de prever texto em escala enorme. Isso assustou e ao mesmo tempo eletrizou a indústria: parece que a escala, sozinha, te dá alguma coisa.

A lei da escala

O quanto de "alguma coisa" ela te dá, foram lá e mediram. Em 2020 Kaplan e coautores na OpenAI deduziram as leis de escala: a qualidade sobe de forma previsível, ao longo de uma curva suave, conforme você gira três botões, o tamanho do modelo, a quantidade de dados e a computação. Não aos saltos, não por mágica. Por uma fórmula.

Em 2022 a DeepMind afinou isso (o artigo do modelo Chinchilla, Hoffmann e coautores). Descobriu-se que a indústria estava correndo atrás do tamanho do modelo e subalimentando ele de dados. No mesmo orçamento, um modelo menor treinado em mais texto sai mais forte. Isso reescreveu a receita e explica por que os modelos dos últimos anos são treinados em quantidades monstruosas de texto.

Vale dar o nome à coisa aqui. O salto dos últimos anos não é uma ideia nova sobre mente. É a engenharia da escala em cima da arquitetura de 2017. A mesma máquina de previsão de texto, inflada até o limite que o hardware aguenta.

O último elo

Sobrava um problema. A GPT-3 crua continuava o texto, mas não obedecia. Você pedia uma coisa e recebia uma continuação plausível, muitas vezes fora do ponto. Pra uma pessoa comum era difícil de usar.

Fecharam isso com treino sobre avaliações humanas. O método se chama RLHF (aprendizado por reforço com feedback humano), as raízes dele estão no artigo de Christiano e coautores de 2017, e foi levado a produto na OpenAI no artigo do InstructGPT (Ouyang e coautores, 2022). O esquema é simples no fundo: o modelo produz vários candidatos de resposta, pessoas de verdade marcam qual é melhor, e sobre essas avaliações o modelo é ajustado pra produzir mais do que as pessoas acham útil e adequado. Isso não acrescenta inteligência. Coloca modos na máquina de previsão, seguir a instrução, manter o formato, não ser grosseiro.

Esse último elo, o treino na obediência, foi o que virou uma curiosidade de pesquisa em produto. Em novembro de 2022 a OpenAI embrulhou um modelo desses numa janela de chat e lançou como ChatGPT. A arquitetura por dentro tinha cinco anos. A única coisa nova era uma porta de entrada fácil.

Estenda a cadeia

Junte tudo. A ideia velha de que a língua é previsível (Shannon, 1948). Palavras como vetores (Bengio 2003, word2vec 2013). O mecanismo de atenção pra tradução (2014). O transformer, que ficou só com a atenção e deu paralelismo (2017). A escala como alavanca previsível (GPT-3 2020, as leis de escala, Chinchilla 2022). O treino na obediência (InstructGPT 2022). Na ponta da cadeia, o chat no seu navegador.

Nenhum elo precisa de uma mente sentada lá dentro. Cada um é engenharia, botar texto em números, calcular as ligações em paralelo, inflar a escala, pentear a saída pro gosto das pessoas. Conhecer a cadeia vale mais do que curiosidade. Quando você entende do que a máquina é feita, enxerga onde estão as bordas dela. E você para de superestimar ela, e para de temer a coisa errada.

← Todas as notas