Por falta de uma suposta transparência no uso dos dados dos brasileiros, entidade do governo impede a Meta de treinar plataformas de IA com dados públicos
Você já ouviu falar da ANPD? É uma abreviação de Autoridade Nacional de Proteção de Dados. Eu tô falando de uma entidade relativamente nova, que tá debaixo do guarda-chuva do Ministério da Justiça e Segurança Pública e foi criada bem no finzinho de 2018 pra garantir que a LGPD tá sendo cumprida direito, a tal da Lei Geral de Proteção de Dados.
Resumindo, é uma galera do governo federal que tem uma obrigação dura: fiscalizar se os dados dos brasileiros tão sendo usados do jeito certo e tendo o tratamento que a lei prevê.
E por que a ANPD entrou forte pro noticiário nos últimos dias? Porque, agora no começo de julho, eles impediram a Meta, do Zuckerberg, de levar adiante a nova política de privacidade da empresa, que dizia que eles iam começar a usar “informações publicamente disponíveis e conteúdos compartilhados por usuários de suas plataformas para treinamento e aperfeiçoamento de sistemas de IA generativa“.
O que que isso significa na prática? Que Zuckerzinho falou algo que já era meio óbvio pra gente que acompanha um pouco mais a fundo esses debates sobre Inteligência Artificial… absolutamente tudo que a gente posta ou compartilha pode ser usado pra treinar os sistemas de IA sobre as nossas preferências e o nosso comportamento dentro e fora das redes.
Como é que funciona esse trem na prática? As informações que tão nas redes são “lidas” pelas plataformas e vão sendo empilhadas num GIGANTESCO banco de dados que junta a média do nosso comportamento como usuário da plataforma, que vai ficando mais informada sobre os nossos padrões de comportamento e, principalmente, os nossos hábitos de consumo.
As IAs mais avançadas que a gente discute hoje são as tais generativas, ou seja, que geram conteúdos. Todo esse comportamento “criativo” é feito a partir de predições. Você faz um pedido pra tecnologia, que prevê uma resposta se baseando na média dessas informações que foram aprendidas estudando esses comportamentos e essas informações que a gente coloca na internet.
Pra dar um exemplo, é como se eu pedisse pra uma IA escrever um texto sobre comidas típicas de festa junina, me dizendo quais são os pratos mais famosos e me indicar receitas. A resposta da plataforma vai se basear nas muitas e muitas informações que ela colher na internet e reunir de um jeito estruturado.
Nessa área do banco de dados, a IA pode entender que, quando se fala em comidas típicas de festa junina, a palavra “pé de moleque” é muito mais recorrente, então, essa palavra ganha, por exemplo, um peso 10. Isso significa que ela é muito importante nessa discussão, porque, de tudo que a IA viu as pessoas comentando nas redes, a correlação entre comidas típicas de festa junina e pé de moleque é muito grande.
Mas outras palavras e termos também aparecem menos vezes, ainda assim com bastante frequência, tipo “pinhão”, “milho verde”, “quentão” e por aí vai. Pra essas, o peso atribuído pode ser 4, 5 e por aí vai, dependendo da frequência. Todas essas notas são cruzadas com as ordens dadas pelo usuário e, no fim, um texto é gerado predizendo o que, na média, é mais frequente quando o assunto é esse.
A questão é que as maiores empresas de tecnologia do mundo são americanas. Por isso, é meio óbvio que essas plataformas de Inteligência Artificial são mais bem treinadas em inglês e com elementos da cultura americana.
Pra gente ter o mesmo nível de eficiência e probabilidade de acerto (acurácia) nos nossos assuntos, os sistemas precisam ser treinados com as informações locais, afinal, eu nunca vi americano raiz vestido de xadrez pulando fogueira e tomando vinho quente, no meio do ano, nas igrejas de Nova York.
Essa é uma realidade brasileira e, sem a possibilidade das IAs aprenderem esse tipo de informação, a chance dessas plataformas darem respostas que reflitam a nossa realidade cai drasticamente. Por isso, a Meta avisou na nova política que essas varreduras começariam a ser feitas. Mas a ANPD barrou tudo.
O ponto, segundo a entidade brasileira, é que mais da metade dos brasileiros tem Facebook e/ou Instagram. Deixar que todos os conteúdos postados sejam vasculhados e coletados desse jeito pode colocar em risco a segurança dessas informações, que são pessoais (apesar da gente tá falando, em tese, de posts públicos) e, em muitos, casos, de menores de idade.
No próprio site oficial, tá escrito que a ANPD existe pra “garantir a devida proteção aos direitos fundamentais de liberdade, privacidade e livre desenvolvimento da personalidade dos indivíduos”. Mas nem a ANPD nem ninguém conseguiu provar ainda que esses dados tão sendo usados do jeito errado.
Os detalhes de funcionamento dessa triagem monstruosa de informações pessoais são uma grande caixa preta pra praticamente todas as plataformas, em praticamente todo o mundo. A discussão é super importante, eu concordo, mas será que a gente não tá talvez diante de um excesso de preciosismo quando o assunto é Inteligência Artificial?
Pensa comigo, querer saber exatamente, e em detalhes absolutos, como funciona esse tratamento de dados por parte das grandes empresas de tecnologia é algo parecido com dizer que uma emissora de televisão precisa explicar em detalhes como o sinal viaja de dentro do estúdio da emissora pro satélite no espaço e chega até a casa dos telespectadores captado pelas antenas de cada um. Que tecnologia a TV usa? Como essas frequências operam? Qual estudo me garante com certeza absoluta que esse sinal quando chega na minha casa não faz mal pra minha saúde? A gente não questiona nada disso.
Quase ninguém pede pro fabricante provas de que a comida congelada não faz mal pro meu organismo, ninguém questiona o jeito que a máquina do relógio de pulso movimenta os ponteiros, ninguém coloca em xeque a tecnologia que faz acender a lâmpada de led da sala de casa, nem o 5G que faz eu assistir à CNN no meu celular.
Eu sei que, com IA, o buraco é mais embaixo. Longe de mim tá aqui defendendo ferozmente as Big Techs. Elas são empresas que ganham bilhões de dólares com esse tipo de serviço, mas será que não é um pouco demais impedir o avanço de um processo que pode deixar as tecnologias mais próximas da nossa realidade local? A ANPD ainda estipulou uma multa diária se a Meta desrespeitar a proibição.
A empresa inclusive divulgou uma nota lamentando essa decisão e dizendo que isso vai atrasar a evolução da IA no Brasil e coisas do tipo. Como especialista em tecnologia, a minha preocupação maior nem é tanto com a Meta, mas é com as discussões futuras sobre esse assunto, que certamente vão aparecer.
Proibir uma tecnologia simplesmente por desconhecer os detalhes da lógica de funcionamento dela é tipo fazer a vigilância sanitária interditar um restaurante sem sequer fiscalizar o lugar presencialmente.
Tudo bem que, na Meta, não existe plaquinha na parede de “visite a nossa cozinha”, mas, em tempos de avanços tecnológicos tão grandes e tão rápidos, o que é melhor? Fiscalizar a aplicação de uma tecnologia e, se for o caso, proibir um uso errado das informações ou proibir a coleta de dados pressupondo que eles, talvez, de repente, quem sabe, possam ser usados de forma irregular?
Pensa aí e posta a sua conclusão nas redes sociais. E pode ficar tranquilo que o Zuckerzinho não vai usar essa resposta sua pra treinar nenhuma IA dele. Pelo menos por enquanto…