Acreditamos que seja mais importante do que nunca sermos totalmente transparentes sobre a precisão do Detector de Imagens por IA, incluindo as taxas de falsos positivos e falsos negativos, bem como as áreas de melhoria, para garantir o uso e a adoção responsáveis. Esta análise abrangente visa proporcionar total transparência em relação à nossa metodologia de teste do modelo Detector de Imagens por IA V1.
Nosso modelo foi projetado para detectar partes de uma imagem manipuladas por IA, produzindo uma sobreposição das áreas detectadas. Os testes comprovam que o Detector de Imagens por IA atinge alta precisão na distinção entre fotos autênticas tiradas por humanos e imagens geradas ou manipuladas por IA, mantendo uma taxa de falsos positivos extremamente baixa.
Data do teste: 1º de setembro de 2025
Data de publicação: 15 de outubro de 2025
Modelo testado: V1
Utilizando um sistema de duas equipes, projetamos nosso processo de avaliação para garantir qualidade, padrões e confiabilidade de alto nível. Temos dois departamentos independentes avaliando o modelo: as equipes de Ciência de Dados e de Garantia da Qualidade (QA). Cada equipe trabalha de forma independente com seus próprios dados e ferramentas de avaliação e não tem acesso ao processo de avaliação da outra. Essa separação garante que os resultados da avaliação sejam imparciais, objetivos e precisos. É fundamental ressaltar também que todos os dados de teste são estritamente separados dos dados de treinamento; testamos nossos modelos apenas com dados novos, que eles ainda não viram.
Para detecção de imagens por IA, nosso objetivo é oferecer múltiplas variantes de modelo. Ultra O modelo oferece o mais alto nível de precisão, realizando uma análise abrangente ideal para situações em que a precisão é crucial.
As equipes de Controle de Qualidade e Ciência de Dados do projeto Copyleaks coletaram e criaram, de forma independente, diversos conjuntos de dados de teste. Cada conjunto de dados consiste em um número finito de imagens com um rótulo esperado indicando sua origem. Os conjuntos de dados são divididos em duas categorias:
As imagens geradas por IA foram criadas usando uma ampla variedade de modelos generativos de IA. Os testes foram executados com a API Copyleaks e agregamos as pontuações para calcular o desempenho do modelo.
A avaliação foi realizada exclusivamente em imagens que atendem aos requisitos técnicos do produto: dimensão mínima de 512×512 pixels, tamanho de arquivo inferior a 32 MB e resolução inferior a 16 megapixels, conforme definido na documentação.
O produto faz uma previsão na forma de uma sobreposição dos segmentos gerados por IA. O desempenho geral é então avaliado com base na precisão com que o modelo classifica as imagens, de acordo com sua categoria real.
Para fornecer uma medida de precisão clara e robusta, utilizamos diferentes métricas em nível de pixel, dependendo do tipo de imagem que está sendo testada:
Os índices de precisão geral apresentados no Resultados tabelas, como TNR (Precisão Humana) e TPR (IA), são agregados a partir desses critérios de sucesso em nível de pixel. Por exemplo, o TNR é a porcentagem de todas as imagens humanas testadas que atenderam com sucesso ao <5% Limiar de pixels falsos positivos.
A equipe de Ciência de Dados realizou o seguinte teste independente em um conjunto de dados amplo e diversificado, contendo imagens com resoluções variadas, dispositivos de captura, geradores de imagem e tipos de conteúdo diversos.
| Nome do conjunto de dados | Imagens humanas (n=31.374) | Imagens de IA (n=33.947) |
|---|---|---|
| Precisão "Ultra"" | 99.3% | 99.2% |
A equipe de controle de qualidade realizou um teste independente usando imagens criadas especificamente para avaliação após o treinamento do modelo. O conjunto de dados de teste compreende imagens de resoluções variadas, capturadas por diferentes dispositivos, geradas por diversos geradores de imagens e apresentando diversos tipos de conteúdo.
| Nome do conjunto de dados | Imagens humanas (n=10.000) | Imagens de IA (n=10.000) |
|---|---|---|
| Precisão "Ultra"" | 99.98% | 99.87% |
Durante o processo de avaliação, identificamos e analisamos avaliações incorretas para permitir que a equipe de ciência de dados corrija as causas subjacentes. Todos os erros são registrados sistematicamente e categorizados com base em sua natureza e características em um processo de "análise de causa raiz". Esse processo visa compreender as causas subjacentes dos erros e identificar padrões recorrentes, garantindo a melhoria contínua e a adaptabilidade do nosso modelo. Essas informações são usadas para aprimorar versões futuras do modelo.
Embora nosso modelo alcance resultados de última geração, nenhum sistema de detecção é perfeito, e nosso modelo pode cometer erros, como classificar incorretamente um conjunto específico de pixels.
O Detector de Imagens por IA é especificamente treinado para identificar manipulações a partir de ferramentas de IA generativa. O sistema atualmente não detecta outras alterações comuns em imagens, incluindo: