O OpenAI promete maior transparência em alucinações modelo e conteúdo prejudicial

Openai Lançou um novo site chamado Avaliação de segurança do hub Compartilhar publicamente informações relacionadas a coisas como o índice de ilusão dos modelos. O centro também destacará se um modelo produz conteúdo nocivo, como funciona bem de acordo com as instruções e tenta quebrar.

A empresa de tecnologia afirma que esta nova página fornecerá transparência adicional no OpenAI, uma empresa, para o contexto, enfrentando. Vários processos judiciais A alegação de documentos protegidos por direitos autorais usados ilegalmente para treinar seus modelos de IA. Oh, sim, e vale a pena mencionar New York Times Declaração da empresa de tecnologia Apagando acidentalmente evidências No caso católico do jornal contra ele.

Os centros de avaliação de segurança significam expansão nos cartões do sistema OpenAI. Eles apenas esboçaram as medidas de segurança de desenvolvimento quando lançadas, enquanto o centro fornecerá atualizações contínuas.

“Quando a ciência avalia a IA se desenvolve, pretendemos compartilhar nosso processo no desenvolvimento de maneiras que possam ser expandidas para medir as capacidades e a segurança do modelo”, declarou o OpenAI em nosso aviso. “Ao compartilhar uma coleção de nossos resultados de avaliação de segurança aqui, esperamos que isso não apenas ajude a entender o desempenho de segurança dos sistemas OpenAI ao longo do tempo, mas também apoiar os esforços da comunidade para aumentar a transparência no campo”. O Openai acrescentou que sua operação para ter uma comunicação mais ativa nesse campo em toda a empresa.

Introdução de avaliações de segurança Hub um recurso para descobrir resultados de segurança para nossos modelos.
Embora o sistema compartilhe dados de segurança quando lançado, o centro será atualizado periodicamente como parte de nossos esforços para a comunicação ativa sobre segurança.https://t.co/c8ngmxlc2y
– Openai (@Openai) 14 de maio de 2025

As partes interessadas podem considerar cada parte do centro e visualizar informações sobre os modelos relevantes, como o GPT-4.1 a 4.5. Open Open que as informações fornecidas neste centro são apenas uma “fotografia rápida” e as partes interessadas devem considerar seu cartão do sistema. Revisões e outros lançamentos para obter mais detalhes.

Um dos adultos Mas Para todo o centro de avaliação de segurança, o OpenAI é a entidade para realizar esses testes e quais informações optarem por compartilhar publicamente. Portanto, não há como garantir que a empresa compartilhe todos os seus problemas ou preocupações com o público.

Link da fonte

O OpenAI promete maior transparência em alucinações modelo e conteúdo prejudicial

Goncalo Moreira

Apesar das ameaças de Trump, a Índia ainda receberá petróleo da Rússia, diz as autoridades | Índia

A tentativa do chanceler de intervir no escândalo de financiamento de carros ‘embaraçoso’ | Supremo Tribunal Britânico

Kim Kardashian está pronto para apertar seu rosto | Arwa Mahdawi

Neil McDonph está transformando sua opinião sobre o ‘retorno’ de Hollywood

Columbia Sportswear processa violação da marca registrada da Universidade Columbia | Universidade de Columbia

Apesar das ameaças de Trump, a Índia ainda receberá petróleo da Rússia, diz as autoridades | Índia

Solidariedade em Ação: Mais de 40 mil voluntários contribuem para recolhimento de alimentos pelo Banco Alimentar

Novo aumento nos preços dos combustíveis: Confira os valores atualizados

Real I.S. Marca Presença em Portugal com Aquisição de Edifício de Escritórios em Lisboa

Estrangeiros em Portugal Encorajados a Aprender a Falar Português

Invasão de Campistas na Algarve: Residentes Descontentes com o Comportamento dos Turistas

As últimas marcas da HBO Max chamam reações na Internet incríveis

Invista em um jornalismo corajoso e progressivo

Artigos Relacionados

Apesar das ameaças de Trump, a Índia ainda receberá petróleo da Rússia, diz as autoridades | Índia

Solidariedade em Ação: Mais de 40 mil voluntários contribuem para recolhimento de alimentos pelo Banco Alimentar

Novo aumento nos preços dos combustíveis: Confira os valores atualizados

Real I.S. Marca Presença em Portugal com Aquisição de Edifício de Escritórios em Lisboa

Estrangeiros em Portugal Encorajados a Aprender a Falar Português

Invasão de Campistas na Algarve: Residentes Descontentes com o Comportamento dos Turistas