Acontece que você pode treinar modelos de IA sem documentos protegidos por direitos autorais

As empresas de IA solicitam suas ferramentas Não pode sobreviver sem treinamento de direitos autorais. Acontece que eles podem – é realmente difícil. Para provar isso, os pesquisadores de IA treinaram um novo modelo menos poderoso, mas muito mais ético. Isso ocorre porque os conjuntos de dados da LLM usam apenas domínios públicos e documentos licenciados públicos.
O papel .através The Washington Post) A cooperação entre 14 organizações diferentes. Os autores representam universidades como MIT, Carnegie Mellon e a Universidade de Toronto. Organizações sem fins lucrativos, como o Vector e o AI Allen Institute, também contribuíram.
O grupo criou um conjunto de dados éticos de 8 TB. Entre os dados está um conjunto de 130.000 livros na Biblioteca da Assembléia Nacional. Depois de inserir o documento, eles treinaram um grande modelo de idioma de parâmetro de sete bilhões (LLM) nesses dados. Resultado? É feito e também do mesmo tamanho da meta LLAMA 2-7B Desde 2023. O grupo não publicou uma referência para comparar seus resultados com os principais modelos hoje.
O desempenho que pode ser comparado a um modelo de dois anos não é a única desvantagem. O processo de colocar tudo juntos também é um esmagamento. A maioria dos dados não pode ser lida por máquinas, então as pessoas precisam exibi -los. “Usamos ferramentas automáticas, mas todas as nossas ferramentas foram comentadas manualmente no final do dia e são verificadas por todos”, disse a co -autora Stella Biderman. Wapo. “E isso é difícil.” Encontrar detalhes legais também dificulta o processo. O grupo deve determinar qual licença é aplicada a cada site que eles digitalizaram.
Então, o que você fará com um LLM menos poderoso para treinar? Se nada mais, pode servir como um contrapeso.
Em 2024, Openai Diga a um comitê parlamentar britânico Tal modelo é basicamente impossível. A empresa anunciou que “é impossível treinar os principais modelos de IA hoje sem usar documentos protegidos por direitos autorais”. No ano passado, uma testemunha antropológica acrescentou: “Os LLMs podem não existir se as empresas de IA precisam de licenciar trabalhos em seus conjuntos de dados de treinamento”.
Obviamente, esta pesquisa não mudará a órbita das empresas de IA. No final, mais trabalho para criar ferramentas menos poderosas sem seus benefícios. Mas pelo menos perfurou um dos argumentos gerais da indústria. Não se surpreenda se ouvir sobre esta pesquisa novamente caso legal E Demância.