Introdução

A IA generativa é extremamente fácil de usar, e uma parte crescente do conteúdo publicado atualmente é escrita principalmente pelo ChatGPT.

Se você já usou algum chatbot de IA generativa, concordará: ele pode fazer a maior parte do trabalho pesado rapidamente e com bastante precisão. No entanto, isso cria vários problemas com a próxima geração de escritores, as próximas atualizações dos principais LLMs e muitos outros problemas.

Os chatbots produzem conteúdo de qualidade média com informações falsas

Será que alguém saberá escrever sem a ajuda de Chatbots? O problema com isso é que o ChatGPT e todos os outros LLMs não verificam suas fontes e a precisão de suas informações e resultados. À medida que mais conteúdo gerado por IA invade a Web, o mesmo acontece com as informações imprecisas que eles produzem. O efeito dominó final disso é que a próxima geração de LLMs é treinada em uma mistura de dados humanos e dados sintéticos que contêm conteúdo de baixa qualidade e fatos imprecisos, conhecidos principalmente como “alucinações”.

Os LLMs precisam vasculhar a Internet para treinar seus novos modelos e atualizações

Todas as grandes empresas de IA, inclusive a Open AI (ChatGPT), a Anthropic e até mesmo o Google, precisam vasculhar a Internet para treinar seu novo modelo. Isso se tornará extremamente problemático por alguns motivos. Os dados disponíveis na Internet estão completamente inundados de conteúdo gerado por IA. Além disso, a maioria das plataformas em que os seres humanos interagem agora está bloqueando qualquer tipo de coleta de dados ou cobrando quantias surpreendentes para usar sua API.

Os chatbots com IA estão presos em 2021?

O ChatGPT é vítima de seu próprio sucesso. Agora que a ferramenta pode escrever excepcionalmente bem, seus resultados já inundaram a Internet. Para se atualizar em relação ao novo conteúdo, talvez seja necessário também ingerir seu próprio conteúdo sintético no processo, tornando menos provável que seu modelo imite a maneira como os humanos escrevem. É por isso que muitas agências de notícias informaram que os resultados do GPT4 estão ficando cada vez mais previsíveis… e piores.

Linha de fundo

Devido à sua natureza, os modelos de linguagem grandes precisarão de grandes quantidades de dados de qualidade para seu treinamento. A qualidade e a precisão desses LLMs baseiam-se, em primeiro lugar, nos dados em que foram treinados. Ao alimentar as próximas atualizações e a geração de Chatbots de IA com uma mistura de conteúdo humano e sintético, esperamos que os resultados produzidos pelos LLMs diminuam até que uma solução seja encontrada. Os Detectores de IA, como o Winston AI, estão aqui para ajudar as organizações a filtrar o conteúdo criado por humanos e a escrita gerada por IA.

PERGUNTAS FREQUENTES

O que é IA generativa e como ela está invadindo a Web?

A IA generativa refere-se a sistemas de inteligência artificial, como o ChatGPT ou o Midjourney (para imagens), que podem gerar novos conteúdos. O problema é que, à medida que a IA generativa se torna mais amplamente utilizada, mais e mais conteúdo on-line está sendo gerado por IA em vez de humanos. Isso pode “envenenar” a Web com informações de baixa qualidade, imprecisas ou tendenciosas, pois a IA não verifica os fatos nem avalia a veracidade do conteúdo que cria.

Como você pode saber se o conteúdo foi escrito por uma IA?

Você pode usar um detector de conteúdo de IA como o Winston AI.
Há também alguns sinais de que o conteúdo pode ser gerado por IA:
– Tem um estilo genérico e estereotipado sem muita originalidade.
– Não tem a nuance, a complexidade e a variabilidade características da escrita humana.
– Parece resumir informações de outras fontes em vez de fornecer análises originais.
– O nível de escrita é muito consistente, sem a variação natural dos autores humanos.

Por que o conteúdo gerado por IA é um problema para o treinamento de novos modelos de IA?

Os modelos de IA são treinados em grandes conjuntos de dados de texto, imagens, etc. Se grande parte dos dados usados para treinamento for, na verdade, conteúdo sintético de baixa qualidade de outras IAs, isso poluirá os dados de treinamento. Isso pode propagar preconceitos, informações falsas e o estilo genérico de escrita da IA. Os novos modelos de IA imitarão essas falhas em vez de aprender a gerar conteúdo de alta qualidade, semelhante ao humano.

Como a comunidade de IA pode combater o envenenamento dos dados de treinamento?

Algumas soluções incluem:
– Usar um detector de IA como o Winston AI.
– Confiar mais em conjuntos de dados de alta qualidade verificados como sendo criados por humanos.
– Treinar modelos para identificar e evitar a regurgitação de informações falsas.
– Testar regularmente os modelos para detectar quaisquer vieses ou imprecisões que possam surgir.
– Usar técnicas como o aprendizado por reforço para incentivar resultados mais criativos e variáveis.

A qualidade da IA piorará com o tempo devido aos dados de treinamento sintéticos?

Sem dúvida, isso é algo que provavelmente acontecerá se não forem tomadas medidas para verificar os dados de treinamento e corrigir quaisquer falhas que possam surgir. Mas com práticas de dados responsáveis e inovações para tornar a IA mais robusta, também há oportunidades de melhorar a qualidade, a precisão e a confiabilidade dos sistemas de IA ao longo do tempo. A comunidade de IA está levando esse problema a sério.

Thierry Lavergne

Co-fundador e Chief Technology Officer (CTO) da Winston AI. Com mais de 15 anos de experiência em desenvolvimento de software, sou especializado em Inteligência Artificial e aprendizado profundo. Na Winston AI, lidero a visão tecnológica, com foco no desenvolvimento de soluções inovadoras de detecção de IA. Gosto de escrever sobre tudo relacionado à IA e tecnologia.