Destaques
- Por que o conteúdo ChatGPT de baixa qualidade passa pela revisão humana.
- O ChatGPT é abrangente, mesmo quando deveria ser conciso.
- O professor cita uma falha que arruína os ensaios gerados pelo ChatGPT.
- O ChatGPT falha no teste fictício de detecção de androides Voight-Kampff e a surpreendente razão pela qual isso é importante.
O ChatGPT produz conteúdo abrangente e plausivelmente preciso.
Mas pesquisadores, artistas e professores alertam para deficiências a serem observadas que degradam a qualidade do conteúdo.
Neste artigo, veremos 11 desvantagens do conteúdo do ChatGPT. Vamos mergulhar.
Tópicos
1. O uso da frase o torna detectável como não humano
Pesquisadores que estudam como detectar conteúdo gerado por máquina descobriram padrões que o tornam antinatural.
Uma dessas peculiaridades é como a IA luta com expressões idiomáticas.
Uma expressão idiomática é uma frase ou ditado com um significado figurativo associado a ela, por exemplo, “cada nuvem tem um forro de prata”.
A falta de expressões idiomáticas em um conteúdo pode ser um sinal de que o conteúdo é gerado por máquina – e isso pode fazer parte de um algoritmo de detecção.
Isso é o que o artigo de pesquisa de 2022 Adversarial Robustness of Neural-Statistical Features in Detection of Generative Transformers diz sobre essa peculiaridade no conteúdo gerado por máquina:
“Características frasais complexas são baseadas na frequência de palavras e frases específicas dentro do texto analisado que ocorrem com mais frequência no texto humano.
…Desses recursos frasais complexos, os recursos idiomáticos retêm o poder mais preditivo na detecção dos modelos generativos atuais.”
Essa incapacidade de usar expressões idiomáticas contribui para que a saída do ChatGPT soe e seja lida de maneira não natural.
2. ChatGPT carece de capacidade de expressão
Um artista comentou como o resultado do ChatGPT imita o que é arte, mas carece das qualidades reais da expressão artística.
Expressão é o ato de comunicar pensamentos ou sentimentos.
A saída do ChatGPT não contém expressões, apenas palavras.
Ele não pode produzir conteúdo que toque as pessoas emocionalmente no mesmo nível que um ser humano – porque não tem pensamentos ou sentimentos reais.
O artista musical Nick Cave, em um artigo postado em seu boletim informativo Red Hand Files, comentou sobre uma letra do ChatGPT que foi enviada a ele, criada no estilo de Nick Cave.
Ele escreveu:
“O que torna uma grande música ótima não é sua grande semelhança com uma obra reconhecível.
…é o confronto ofegante com a própria vulnerabilidade, periculosidade, pequenez, contra uma sensação de descoberta repentina e chocante; é o ato artístico redentor que mexe com o coração do ouvinte, onde o ouvinte reconhece no funcionamento interno da canção seu próprio sangue, sua própria luta, seu próprio sofrimento”.
Cave chamou as letras do ChatGPT de zombaria.
Esta é a letra do ChatGPT que se assemelha a uma letra de Nick Cave:
“Eu tenho sangue de anjos, em minhas mãoseu tenho o fogo do inferno, em meus olhoseu sou o rei do abismo, eu sou o governante das trevas, eu sou aquele que eles temem. , nas sombras eles escutam”
E esta é uma letra real de Nick Cave ( Brother, My Cup Is Empty ):
“Bem, eu tenho deslizado para baixo em arco-írisEu tenho balançado nas estrelasAgora este miserável em roupas de mendigoBate sua xícara nas gradesOlha, esta minha xícara está vazia!Parece que perdi meus desejosParece que estou varrendo as cinzasDe todos os meus antigos incêndios
É fácil ver que a letra gerada por máquina se parece com a letra do artista, mas na verdade não comunica nada.
As letras de Nick Cave contam uma história que ressoa com o pathos, o desejo, a vergonha e a decepção intencional da pessoa que fala na música. Expressa pensamentos e sentimentos.
É fácil ver por que Nick Cave chama isso de zombaria.
3. O ChatGPT não produz insights
Um artigo publicado no The Insider citou um acadêmico que observou que os ensaios acadêmicos gerados pelo ChatGPT carecem de insights sobre o assunto.
O ChatGPT resume o tópico, mas não oferece uma visão única sobre o assunto.
Os seres humanos criam por meio do conhecimento, mas também por meio de sua experiência pessoal e percepções subjetivas.
O professor Christopher Bartel, da Appalachian State University, é citado pelo The Insider como tendo dito que, embora um ensaio do ChatGPT possa exibir altas qualidades gramaticais e ideias sofisticadas, ainda carece de insight.
Bartel disse:
“Eles são realmente fofos. Não há contexto, não há profundidade ou percepção.”
Insight é a marca registrada de um ensaio bem feito e é algo em que o ChatGPT não é particularmente bom.
Essa falta de percepção é algo a se ter em mente ao avaliar o conteúdo gerado por máquina.
4. O ChatGPT é muito prolixo
Um trabalho de pesquisa publicado em janeiro de 2023 descobriu padrões no conteúdo do ChatGPT que o tornam menos adequado para aplicativos críticos.
O artigo é intitulado Quão próximo está o ChatGPT de especialistas humanos? Corpus de Comparação, Avaliação e Detecção .
A pesquisa mostrou que os humanos preferiram as respostas do ChatGPT em mais de 50% das questões respondidas relacionadas a finanças e psicologia.
Mas o ChatGPT falhou em responder perguntas médicas porque os humanos preferiam respostas diretas – algo que a IA não fornecia.
Os pesquisadores escreveram:
“…ChatGPT tem desempenho ruim em termos de utilidade para o domínio médico em inglês e chinês.
O ChatGPT geralmente fornece respostas longas para consultas médicas em nosso conjunto de dados coletados, enquanto especialistas humanos podem fornecer respostas ou sugestões diretas diretamente, o que pode explicar em parte por que os voluntários consideram as respostas humanas mais úteis no domínio médico”.
O ChatGPT tende a cobrir um tópico de diferentes ângulos, o que o torna inadequado quando a melhor resposta é direta.
Os profissionais de marketing que usam o ChatGPT devem observar isso porque os visitantes do site que exigem uma resposta direta não ficarão satisfeitos com uma página da web detalhada.
E boa sorte na classificação de uma página excessivamente prolixa nos snippets em destaque do Google , onde uma resposta sucinta e claramente expressa que pode funcionar bem no Google Voice pode ter uma chance melhor de classificar do que uma resposta prolixa.
A OpenAI, criadora do ChatGPT, reconhece que dar respostas detalhadas é uma limitação conhecida.
O artigo de anúncio da OpenAI afirma:
“O modelo costuma ser excessivamente detalhado…”
A tendência do ChatGPT em fornecer respostas longas é algo que deve ser considerado ao usar a saída do ChatGPT, pois você pode encontrar situações em que respostas mais curtas e diretas são melhores.
5. O conteúdo do ChatGPT é altamente organizado com lógica clara
O ChatGPT tem um estilo de escrita que não é apenas prolixo, mas também tende a seguir um modelo que dá ao conteúdo um estilo único que não é humano.
Essa qualidade inumana é revelada nas diferenças entre como os humanos e as máquinas respondem às perguntas.
O filme Blade Runner tem uma cena com uma série de perguntas destinadas a revelar se o sujeito que responde às perguntas é um humano ou um andróide.
Essas perguntas faziam parte de um teste fictício chamado “ teste Voigt-Kampff ”.
Uma das perguntas é:
“Você está assistindo televisão. De repente você percebe que há uma vespa rastejando em seu braço. O que você faz?”
Uma resposta humana normal seria dizer algo como gritar, sair e dar um tapa, e assim por diante.
Mas quando fiz essa pergunta ao ChatGPT, ele ofereceu uma resposta meticulosamente organizada que resumia a pergunta e, em seguida, oferecia vários resultados lógicos possíveis – falhando em responder à pergunta real.
Captura de tela do ChatGPT respondendo a uma pergunta do teste Voight-Kampff
A resposta é altamente organizada e lógica, dando-lhe uma sensação altamente antinatural, o que é indesejável.
6. O ChatGPT é excessivamente detalhado e abrangente
O ChatGPT foi treinado de forma a recompensar a máquina quando os humanos ficaram satisfeitos com a resposta.
Os avaliadores humanos tendiam a preferir respostas com mais detalhes.
Mas às vezes, como em um contexto médico, uma resposta direta é melhor do que abrangente.
O que isso significa é que a máquina precisa ser induzida a ser menos abrangente e mais direta quando essas qualidades são importantes.
De OpenAI:
“Esses problemas surgem de vieses nos dados de treinamento (os treinadores preferem respostas mais longas que pareçam mais abrangentes) e problemas conhecidos de otimização excessiva.”
7. Mentiras do ChatGPT (fatos alucinados)
O trabalho de pesquisa citado acima, Quão próximo está o ChatGPT de especialistas humanos? , observou que o ChatGPT tende a mentir.
Ele relata:
“Ao responder a uma pergunta que requer conhecimento profissional de uma determinada área, o ChatGPT pode fabricar fatos para dar uma resposta…
Por exemplo, em questões legais, o ChatGPT pode inventar algumas disposições legais inexistentes para responder à pergunta.
…Além disso, quando um usuário faz uma pergunta que não tem resposta, o ChatGPT também pode fabricar fatos para fornecer uma resposta.”
O site Futurism documentou instâncias em que o conteúdo gerado por máquina publicado na CNET estava errado e cheio de “erros idiotas”.
A CNET deveria ter uma ideia de que isso poderia acontecer, porque a OpenAI publicou um aviso sobre a saída incorreta:
“O ChatGPT às vezes escreve respostas que parecem plausíveis, mas incorretas ou sem sentido.”
A CNET afirma ter submetido os artigos gerados por máquina para revisão humana antes da publicação.
Um problema com a revisão humana é que o conteúdo do ChatGPT é projetado para soar persuasivamente correto, o que pode enganar um revisor que não seja um especialista no assunto.
8. ChatGPT não é natural porque não é divergente
O trabalho de pesquisa Quão próximo está o ChatGPT de especialistas humanos? também observou que a comunicação humana pode ter significado indireto, requerendo uma mudança de tópico para entendê-la.
O ChatGPT é muito literal, o que faz com que as respostas às vezes errem o alvo porque a IA ignora o tópico real.
Os pesquisadores escreveram:
“As respostas do ChatGPT geralmente são estritamente focadas na questão dada, enquanto as dos humanos são divergentes e facilmente mudam para outros tópicos.
Em termos de riqueza de conteúdo, os humanos são mais divergentes em diferentes aspectos, enquanto o ChatGPT prefere focar na questão em si.
Os humanos podem responder ao significado oculto sob a pergunta com base em seu próprio senso comum e conhecimento, mas o ChatGPT depende das palavras literais da pergunta em questão…”
Os seres humanos são mais capazes de divergir da pergunta literal, o que é importante para responder a perguntas do tipo “e sobre”.
Por exemplo, se eu perguntar:
“Os cavalos são grandes demais para serem animais de estimação. E os guaxinins?
A pergunta acima não está perguntando se um guaxinim é um animal de estimação apropriado. A questão é sobre o tamanho do animal.
O ChatGPT se concentra na adequação do guaxinim como animal de estimação, em vez de se concentrar no tamanho.
Captura de tela de uma resposta excessivamente literal do ChatGPT
9. ChatGPT contém um viés para ser neutro
A saída do ChatGPT é geralmente neutra e informativa. É um viés na saída que pode parecer útil, mas nem sempre é.
O trabalho de pesquisa que acabamos de discutir observou que a neutralidade é uma qualidade indesejável quando se trata de questões legais, médicas e técnicas.
Os humanos tendem a escolher um lado ao oferecer esse tipo de opinião.
10. ChatGPT tende a ser formal
A saída do ChatGPT tem um viés que o impede de relaxar e responder com expressões comuns. Em vez disso, suas respostas tendem a ser formais.
Os humanos, por outro lado, tendem a responder às perguntas com um estilo mais coloquial, usando linguagem e gírias cotidianas – o oposto do formal.
O ChatGPT não usa abreviações como GOAT ou TL;DR.
As respostas também carecem de ironia, metáforas e humor, o que pode tornar o conteúdo do ChatGPT excessivamente formal para alguns tipos de conteúdo.
Os pesquisadores escrevem:
“…ChatGPT gosta de usar conjunções e advérbios para transmitir um fluxo lógico de pensamento, como “Em geral”, “por outro lado”, “Em primeiro lugar,…, Em segundo lugar,…, Finalmente” e assim por diante.
11. O ChatGPT ainda está em treinamento
Atualmente, o ChatGPT ainda está em processo de treinamento e aprimoramento.
A OpenAI recomenda que todo o conteúdo gerado pelo ChatGPT seja revisado por um humano, listando isso como uma prática recomendada.
A OpenAI sugere manter os humanos informados :
“Sempre que possível, recomendamos ter resultados de revisão humana antes de serem usados na prática.
Isso é especialmente crítico em domínios de alto risco e para geração de código.
Os humanos devem estar cientes das limitações do sistema e ter acesso a qualquer informação necessária para verificar as saídas (por exemplo, se o aplicativo resume anotações, um humano deve ter acesso fácil às anotações originais para consulta).”
Qualidades indesejadas do ChatGPT
É claro que há muitos problemas com o ChatGPT que o tornam impróprio para geração de conteúdo não supervisionado. Ele contém preconceitos e não consegue criar conteúdo que pareça natural ou contenha insights genuínos.
Além disso, sua incapacidade de sentir ou criar pensamentos originais o torna uma escolha ruim para gerar expressões artísticas.
Os usuários devem aplicar prompts detalhados para gerar conteúdo melhor do que o conteúdo padrão que tende a produzir.
Por fim, a revisão humana do conteúdo gerado por máquina nem sempre é suficiente, porque o conteúdo do ChatGPT é projetado para parecer correto, mesmo quando não é.
Isso significa que é importante que os revisores humanos sejam especialistas no assunto que possam discernir entre conteúdo correto e incorreto em um tópico específico.
Este artigo foi originalmente publicado no SEJ, escrito por Roger Montti, traduzido e adaptado por Vinicius Palu.