Os pesquisadores demonstraram uma solução automatizada baseada em algoritmo que é comparável e às vezes melhor do que os humanos na identificação correta de notícias falsas. O sistema que identifica pistas linguísticas reveladoras em notícias falsas pode fornecer agregadores de notícias e sites de mídia social como o Google News com uma nova arma na luta contra a desinformação.
Uma solução automatizada pode ser uma ferramenta importante para sites que estão lutando para lidar com um ataque de notícias falsas, muitas vezes criadas para gerar cliques ou manipular a opinião pública, disse Rada Mihalcea, professora da Universidade de Michigan por trás do projeto, em um comunicado.
O novo sistema encontrou falsificações em 76% das vezes, em comparação com uma taxa de sucesso humano de 70%, de acordo com o estudo a ser apresentado em 24 de agosto na Conferência Internacional de Lingüística Computacional em Santa Fé, Novo México.
Os pesquisadores acreditam que sua abordagem de análise linguística também pode ser usada para identificar artigos de notícias falsos que são muito novos para serem desmascarados por referências cruzadas de seus fatos com outras histórias. A abordagem de análise linguística analisa atributos quantificáveis como estrutura gramatical, escolha de palavras, pontuação e complexidade.
Para o estudo, a equipe de Mihalcea criou seus próprios dados, terceirizando uma equipe on-line que transformou notícias genuínas verificadas em falsificações de engenharia reversa. É assim que a maioria das notícias falsas reais é criada, disse Mihalcea, por indivíduos que as escrevem rapidamente em troca de uma recompensa monetária..
Os participantes do estudo foram pagos para transformar notícias curtas e reais em itens semelhantes, mas falsos, imitando o estilo jornalístico dos artigos. No final do processo, a equipe de pesquisa tinha um conjunto de dados de 500 notícias reais e falsas. Eles então alimentaram esses pares de histórias rotulados com um algoritmo que realizou uma análise linguística, ensinando-se a distinguir entre notícias reais e falsas.
Finalmente, a equipe transformou os algoritmos em um conjunto de dados de notícias reais e falsas extraídas diretamente da web, obtendo a taxa de sucesso de 76 por cento. Os detalhes do novo sistema e o conjunto de dados que a equipe usou para construí-lo podem ser usados por sites de notícias ou outras entidades para construir seus próprios sistemas de detecção de notícias falsas, disse Mihalcea.