O que abastece o ChatGPT?

Gustavo Martins de Almeida
25 de out. de 2023
4 min de leitura

Em 30 de novembro de 2022 foi lançado mundialmente o programa ChatGPT (do inglês: Chat Generative Pre-Trained Transformer) que responde por escrito a perguntas digitadas pelo usuário, utilizando a tecnologia de inteligência artificial (AI). Esse assunto foi tratado na minha coluna de 27 de janeiro desde ano.

O programa foi criado pela sociedade OpenAI, cuja estrutura consta do seu site, que também informa ter o grupo uma parceria com a Microsoft.

Segundo um programa de linguagem sofisticado, o LLM (Large Language Model), o Chat consegue entender perguntas e gerar respostas em linguagem corrente, com base em sistema de probabilidades. Ainda segundo o site, a missão da empresa é garantir que a inteligência artificial generativa – sistemas de IA que são geralmente mais inteligentes que os humanos – beneficie toda a humanidade.

Assim, o ChatGPT alastrou-se pelo mundo, conquistando 100 milhões de usuários ativos em um mês e transformando-se no aplicativo de mais rápido crescimento na história.

O presente artigo discute o fornecimento das informações que permitem gerar as respostas dadas pelo programa, diante de questionamentos recentes sobre esse processo.

No Brasil, pouco após o lançamento do ChatGPT foi apresentado, pelo Senador Rodrigo Pacheco, o Projeto de lei 2338, que visa a regular o “uso da inteligência artificial”, fruto do trabalho de Comissão de Juristas especialmente nomeada para esse fim.

Esse projeto certamente sofrerá modificações – principalmente pela súbita, revolucionária e crescente influência do ChatGPT em todo o sistema de IA – mas destaco o conceito de sistema de inteligência artificial, constante do art. 4º , inc. I :

“ Art. 4º Para as finalidades desta lei, adotam-se as seguintes definições:

I – sistema de inteligência artificial: sistema computacional, com graus diferentes de autonomia, desenhado para inferir como atingir um dado conjunto de objetivos, utilizando abordagens baseadas em aprendizagem de máquina e/ou lógica e representação do conhecimento, por meio de dados de entrada provenientes de máquinas ou humanos, com o objetivo de produzir previsões, recomendações ou decisões que possam influenciar o ambiente virtual ou real;”

“Dados de entrada”! Quem alimenta o ChatGPT? Os livros que conduzem as informações armazenadas são adquiridos? Seu conteúdo é pago? As fontes são citadas? Quais os direitos do programa sobre esse conteúdo? Essas questões vêm suscitando algumas inquietações no mundo.

Nos EUA já existem ações de autores de livros reclamando direitos sobre o uso de suas obras, para compor a base de dados que gera as respostas aos questionamentos dos usuários. Por exemplo, na Corte de San Francisco, California, os escritores Paul Tremblay e Mona Awad ajuizaram, em 28/06/2023, a ação nº 3:23-cv-03223, alegando que seus livros, junto com outros milhares, serviram para o treinamento da linguagem e dados utilizados pelo programa ChatGPT. Pediram indenização pelo uso indevido de suas obras.

O site CNN publicou matéria informando que 200 mil livros, constantes de base de dados pirata, estão sendo utilizados para treinamento do ChatGPT, sem conhecimento dos autores, conforme relatório do site The Atlantic.

O fluxo de informações do ChatGPT tem gerado polêmicas, também em relação aos usuários. As informações “inputadas” pelos usuários serviriam para alimentar o banco de dado do GPT, também seriam dados de entrada, como consta do conceito de sistema de inteligência artificial referido acima no PL 2338.

Na página de esclarecimentos da OpenAI consta que os dados dos usuários podem ser utilizados para aprimorar os modelos do programa (When you use our non-API consumer services ChatGPT or DALL-E, we may use the data you provide us to improve our models). Ali também é informado como reclamar de uso de material protegido por direito autoral e informa que não reclamará direito autoral sobre o conteúdo gerado pelo programa.

Observo que na Lei brasileira (art. 11), só a pessoa física pode ser considerada autora de obras protegidas pelo direito autoral. A criação pela máquina é tema que ainda causará muita polêmica.

No site referente aos termos de uso, a OpenAI informa como reclamar a respeito da utilização pelo programa de material protegido pelo direito autoral (OpenAI DMCA Takedown Form), de acordo com o Digital Millenium Copyright Act.

Mas a questão básica deste artigo diz respeito aos “dados de entrada”, como define o PL 2338; ao conteúdo que alimenta o programa. Nesse aspecto, indagado sobre quem inventou a aviação, o Chat respondeu que “a invenção da aviação é um esforço conjunto que envolveu vários indivíduos ao longo do tempo [Otto Lilienthal, Samuel Langley e Santos Dumont], mas os Wright Brothers são frequentemente considerados os pioneiros da aviação moderna devido ao seu voo histórico em 1903.” Certamente não foi um livro brasileiro que forneceu essa informação.

A inteligência artificial foi assunto de debates na Bienal do Livro Rio, em setembro; na Rio Innovation Week, semana passada e será discutida na Feira de Frankfurt. É a hype (de hipérbole, fui pesquisar) do momento!

Muita discussão sobrevirá, pois toda a tecnologia disruptiva causa abalo na sociedade, ainda mais quando revoluciona o sistema de criação intelectual. O ChatGPT acaba de divulgar que agora pode ver, ouvir e falar, permitindo ao usuário conversar com o programa e exibir o tema da consulta, quase um “Hal 9000” do filme 2001 – Uma Odisseia no Espaço.

Por ora, o questionamento diz respeito aos direitos sobre o conteúdo inserido no ChatGPT, para posterior disseminação de informação. Ainda estamos na era da inteligência artificial polida, mas os desafios jurídicos são enormes, também em relação a titularidade do conteúdo produzido.

O que abastece o ChatGPT?

Posts recentes

Comentários