Um novo estudo realizado por pesquisadores das universidades de Washington, Stanford e Copenhague acaba de acender mais uma faísca no debate sobre inteligência artificial e propriedade intelectual. A pesquisa sugere que modelos da OpenAI, como o GPT-4, memorizaram trechos literais de livros protegidos por direitos autorais e artigos do New York Times durante seu treinamento, o que pode fortalecer acusações judiciais contra a empresa por uso indevido de material sem permissão. Essa constatação é especialmente relevante em um cenário em que autores, desenvolvedores e editoras já movem processos contra a companhia, alegando violações sistemáticas de copyright.
Os pesquisadores desenvolveram um método baseado em “palavras de alta surpresa” — ou seja, palavras raras dentro de um determinado contexto — para avaliar se os modelos de IA memorizavam passagens específicas. Quando o modelo conseguia preencher lacunas com precisão incomum, indicando ter visto aquele trecho exato antes, isso era interpretado como sinal claro de memorização. Os resultados mostraram que o GPT-4 conseguiu “lembrar” com precisão passagens de obras incluídas em bancos de dados como o BookMIA, que reúne e-books protegidos por copyright, além de trechos jornalísticos, ainda que em menor escala.
Do ponto de vista legal, a descoberta deve ter implicações sérias para a OpenAI, que até aqui vinha defendendo seu treinamento com base no conceito de “uso justo” (fair use), previsto pela lei americana. No entanto, especialistas argumentam que esse princípio tem limites claros, e que memorizar e reproduzir conteúdo protegido pode ultrapassá-los. O estudo, nesse contexto, oferece uma ferramenta concreta para auditar o comportamento dos modelos e reforça a necessidade de mais transparência na origem dos dados utilizados para treinar sistemas de IA.Para o mercado, a discussão vai além dos tribunais: ela também impacta a forma como empresas e marcas podem usar IA de forma ética e segura. Ferramentas generativas estão cada vez mais presentes em áreas como publicidade, marketing de conteúdo e automação de atendimento, mas as descobertas reforçam a importância de entender os riscos jurídicos envolvidos. Se a IA usada por uma marca reproduz, mesmo que sem intenção, trechos protegidos por copyright, isso pode gerar passivos inesperados. Assim, a tendência é que cresça a demanda por soluções auditáveis, baseadas em dados licenciados e com rastreabilidade clara — especialmente entre empresas que prezam por reputação e responsabilidade legal.