Гарвардский университет представил масштабный проект, который может изменить подход к созданию инструментов искусственного интеллекта. Новый набор данных, включающий почти миллион книг, уже находящихся в общественном достоянии, был разработан в рамках недавно созданной Гарвардской институциональной инициативы данных.
Этот проект реализован при финансовой поддержке Microsoft и OpenAI и основан на материалах уже оцифрованных в Google Books.
Новинка существенно превосходит по объёму предыдущие известные базы данных, такие как Books3, которые активно использовались для обучения крупных языковых моделей. Новая база включает в себя произведения мировой классики, учебники, редкие словари и многое другое. Такой состав текстов делает её уникальным ресурсом, который открывает доступ к высококачественным данным не только крупным корпорациям, но и небольшим исследовательским коллективам.
Грег Лепперт (Greg Leppert), возглавляющий проект, считает, что инициатива станет значительным шагом к демократизации искусственного интеллекта. Он подчёркивает, что открытые данные могут стать основой для создания качественных и разнообразных моделей. Тем не менее, для достижения конкурентного преимущества компаниям придётся дополнять открытые базы данными, собранными самостоятельно или лицензированными.
Кроме книг инициатива планирует работать с другими источниками данных. Например, совместно с Бостонской публичной библиотекой ведётся оцифровка газетных статей. Подобные проекты уже активно развиваются и за пределами Гарварда. Во Франции был создан Common Corpus, содержащий миллионы книг и журналов, а стартап Spawning выпустил набор данных Source.Plus с открытыми изображениями.
Рост таких инициатив подтверждает, что для создания эффективных моделей искусственного интеллекта необязательно использовать материалы, защищённые авторским правом. Хотя крупные игроки рынка продолжают настаивать на важности доступа к лицензированным данным, развитие открытых ресурсов ставит под сомнение эту точку зрения. Эксперты считают, что подобные проекты могут стать серьёзным подспорьем, если использовать их для замены закрытых и платных баз данных.