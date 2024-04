O GPT-4, modelo de linguagem de inteligência artificial que está por trás do ChatGPT, foi treinado com mais de um milhão de horas de vídeos do YouTube, coletando dados sem autorização e provavelmente infringindo leis de direitos autorais, segundo reportagem do jornal The New York Times, publicada na última semana.

A OpenAI, empresa responsável pelo GPT-4, teria feito isso a partir de 2021, após usar praticamente todos os textos de fontes confiáveis em inglês para treinar seus algoritmos com inteligência artificial.

Como a IA é treinada

O GPT-4 é um dos chamados "modelos de linguagem grande" (LLM, na sigla em inglês), ou seja, uma inteligência artificial projetada para entender e gerar texto em uma escala significativamente grande.

Para que o sistema gerar informações por conta própria, é preciso que ele passe por um "treinamento", o que envolve reunir um grande volume de textos de base para alimentá-lo. Tratam-se de livros de textos, artigos, sites da internet, documentos, entre outros. Quanto mais diversificados e representativos forem os dados, melhor será o desempenho do modelo.

De acordo com a reportagem, uma vez que não havia mais bons textos disponíveis em inglês na internet naquele momento e ainda faltava muito treinamento para que esse LLM fosse aperfeiçoado, a OpenAI deu um passo adiante: passou a treinar o GPT-4 com transcrições de vídeos da internet.

O próprio presidente da empresa, Greg Brockman, esteve envolvido na coleta de vídeos, segundo o jornal.

A OpenAI afirmou que cada um de seus modelos de inteligência artificial "tem um conjunto de dados único que selecionamos para ajudar na compreensão do mundo e permanecer globalmente competitivos em pesquisa".

Batalhas jurídicas

O problema é que esses vídeos não poderiam ser usados para tal objetivo. As regras do YouTube, de propriedade do Google, dizem que é proibido o uso em serviços independentes da plataforma. Mais do que isso: essa coleta de dados pode representar um desrespeito às leis de direitos autorais dos Estados Unidos. Quem vai decidir é a Justiça estadunidense.

Já existem processos judiciais em andamento contra o uso sem autorização de textos disponíveis na internet para treinamento de LLMs. Em 2023, o próprio New York Times acionou na Justiça a OpenAI e a Microsoft pela utilização de suas matérias jornalísticas para treinar as IAs das respectivas empresas. O uso de vídeos sem autorização é apenas uma nova camada nesse imbróglio.

Nos EUA, o Escritório de Direitos Autorais, órgão governamental que cuida do assunto, já recebeu mais de 10 mil reclamações e registros de sindicatos, escritores e empresas que alegam terem tido suas produções usadas sem autorização por modelos de IA.

Fundada em 1870, essa agência federal ainda está preparando um material para definir como devem funcionar os direitos autorais no país na era da inteligência artificial. Até lá, porém, as empresas da área se aproveitam do que parece ser uma zona cinzenta da legislação.

Não é só a OpenAI

A velocidade com a qual os modelos LLMs estão crescendo desafiam a quantidade de material disponível na internet. Segundo o New York Times, os dados de qualidade disponíveis para treinar essas IAs podem ser completamente exauridos até 2026.

"O único jeito prático para que essas ferramentas existam é se elas puderem ser treinadas em quantidades massivas de dados, sem precisar licenciá-los", afirmou Sy Damle, advogado especializado em modelos de IA, numa discussão pública sobre leis de direitos autorais no ano passado. "A quantidade de dados necessários é tão massiva que até mesmo um licenciamento coletivo não funcionaria."

Por isso, não é só a OpenAI que está recorrendo a esse uso controverso de dados sem autorização: o próprio Google usou transcrições de vídeos do YouTube para treinar seus próprios modelos de IA.

De acordo com fontes ouvidas pelo jornal, essa é uma das razões pela qual o Google não se posicionou publicamente sobre o tema.

Por outro lado, Matt Bryant, porta-voz da empresa, negou ao New York Times que o Google tinha conhecimento das práticas da OpenAI e reafirmou que são proibidos a "coleta ou downloads não autorizados de conteúdo do YouTube".