Наука и техника

Гарвард открыл нейросетям доступ к своей библиотеке

Гарвардский университет представил масштабный проект, который может изменить подход к созданию инструментов искусственного интеллекта. Новый набор данных, включающий почти миллион книг, уже находящихся в общественном достоянии, был разработан в рамках недавно созданной Гарвардской институциональной инициативы данных.

Гарвард открыл нейросетям доступ к своей библиотеке
© globallookpress.com

Этот проект реализован при финансовой поддержке Microsoft и OpenAI и основан на материалах уже оцифрованных в Google Books.

Новинка существенно превосходит по объёму предыдущие известные базы данных, такие как Books3, которые активно использовались для обучения крупных языковых моделей. Новая база включает в себя произведения мировой классики, учебники, редкие словари и многое другое. Такой состав текстов делает её уникальным ресурсом, который открывает доступ к высококачественным данным не только крупным корпорациям, но и небольшим исследовательским коллективам.

Грег Лепперт (Greg Leppert), возглавляющий проект, считает, что инициатива станет значительным шагом к демократизации искусственного интеллекта. Он подчёркивает, что открытые данные могут стать основой для создания качественных и разнообразных моделей. Тем не менее, для достижения конкурентного преимущества компаниям придётся дополнять открытые базы данными, собранными самостоятельно или лицензированными.

Кроме книг инициатива планирует работать с другими источниками данных. Например, совместно с Бостонской публичной библиотекой ведётся оцифровка газетных статей. Подобные проекты уже активно развиваются и за пределами Гарварда. Во Франции был создан Common Corpus, содержащий миллионы книг и журналов, а стартап Spawning выпустил набор данных Source.Plus с открытыми изображениями.

Рост таких инициатив подтверждает, что для создания эффективных моделей искусственного интеллекта необязательно использовать материалы, защищённые авторским правом. Хотя крупные игроки рынка продолжают настаивать на важности доступа к лицензированным данным, развитие открытых ресурсов ставит под сомнение эту точку зрения. Эксперты считают, что подобные проекты могут стать серьёзным подспорьем, если использовать их для замены закрытых и платных баз данных.

Источник: news.rambler.ru

Похожие записи

Фигурку необычного старика с бородой нашли в российском городе

В Британии закрыли антимонопольное расследование в отношении Google и Apple

Саблю в ножнах неожиданно нашли в колодце XIX века

Радиожурнал «Друзья-сябры» от 20.07.2024 года

Планшет HONOR MagicPad 2 с мощным процессором и сертифицированным IMAX звуком появится в России

В России произошёл крупный интернет-сбой: не работают домашние и мобильные сети

Кто такие тихоходки и почему они неуязвимы

Морские птицы обладают чувствительным клювом

ИИ ускорит открытие квантовых материалов

Стоит ли покупать материнскую плату microATX?

Названа причина краха Восточной Римской империи

Радиостанция «Судного дня» неожиданно вышла в эфир: что скрывают шифры

Ваш комментарий

3 + 6 =

* Используя эту форму, вы соглашаетесь с хранением и обработкой ваших данных этим веб-сайтом.

Этот сайт использует файлы cookies и сервисы сбора технических данных посетителей. Ок Подробнее