Гарвард открыл нейросетям доступ к своей библиотеке

От Наталья Маврина13.12.202406

Гарвардский университет представил масштабный проект, который может изменить подход к созданию инструментов искусственного интеллекта. Новый набор данных, включающий почти миллион книг, уже находящихся в общественном достоянии, был разработан в рамках недавно созданной Гарвардской институциональной инициативы данных.

Гарвард открыл нейросетям доступ к своей библиотеке — © globallookpress.com

Этот проект реализован при финансовой поддержке Microsoft и OpenAI и основан на материалах уже оцифрованных в Google Books.

Новинка существенно превосходит по объёму предыдущие известные базы данных, такие как Books3, которые активно использовались для обучения крупных языковых моделей. Новая база включает в себя произведения мировой классики, учебники, редкие словари и многое другое. Такой состав текстов делает её уникальным ресурсом, который открывает доступ к высококачественным данным не только крупным корпорациям, но и небольшим исследовательским коллективам.

Грег Лепперт (Greg Leppert), возглавляющий проект, считает, что инициатива станет значительным шагом к демократизации искусственного интеллекта. Он подчёркивает, что открытые данные могут стать основой для создания качественных и разнообразных моделей. Тем не менее, для достижения конкурентного преимущества компаниям придётся дополнять открытые базы данными, собранными самостоятельно или лицензированными.

Кроме книг инициатива планирует работать с другими источниками данных. Например, совместно с Бостонской публичной библиотекой ведётся оцифровка газетных статей. Подобные проекты уже активно развиваются и за пределами Гарварда. Во Франции был создан Common Corpus, содержащий миллионы книг и журналов, а стартап Spawning выпустил набор данных Source.Plus с открытыми изображениями.

Рост таких инициатив подтверждает, что для создания эффективных моделей искусственного интеллекта необязательно использовать материалы, защищённые авторским правом. Хотя крупные игроки рынка продолжают настаивать на важности доступа к лицензированным данным, развитие открытых ресурсов ставит под сомнение эту точку зрения. Эксперты считают, что подобные проекты могут стать серьёзным подспорьем, если использовать их для замены закрытых и платных баз данных.

Источник: news.rambler.ru

Предыдущая запись

IZKP.ru

Двое российских подростков подожгли электровоз по заданию украинских кураторов

В Ростове троих подростков задержали за поджог электровоза

В Ростове-на-Дону задержали троих подростков по делу о поджоге электровоза

Режим ЧС и задержание капитана: что происходит в Анапе после разлива…

В 26 муниципалитетах Ставрополья произошли отключения электроэнергии

Между Салехардом и Лабытнанги с 1 января запустят «Обдорский экспресс»

Тюменская гордума подписала соглашение с коллегами из Салехарда и Ханты-Мансийска

Полицейские Башкортостана продолжают отправлять «посылки добра» детям ДНР,…

Артист балета Сергей Полунин заявил о планах уехать из России

Глава СК потребовал доклад о нарушении природоохранного законодательства в деревне под…

Гарвард открыл нейросетям доступ к своей библиотеке

Наталья Маврина

Ваш комментарий Удалить ответ

На пост мэра Самары заявилсь семь человек

Двое российских подростков подожгли электровоз по заданию украинских кураторов

В Ростове троих подростков задержали за поджог электровоза

В Ростове-на-Дону задержали троих подростков по делу о поджоге электровоза

Новый терминал в аэропорту Салехард планируют построить в 2028 году

Похожие записи

Ваш комментарий Удалить ответ