Гарвард создаёт крупнейшую базу данных для обучения искусственного интеллекта
Гарвардский университет объявил о создании крупнейшей базы данных, содержащей около миллиона книг, находящихся в открытом доступе. Проект реализован в рамках Инициативы по институциональным данным (Institutional Data Initiative, IDI) при поддержке OpenAI и Microsoft. Цель проекта — обеспечить равный доступ к высококачественным данным для обучения моделей искусственного интеллекта (ИИ).
IDI сосредоточится на уточнении миллиона книг, находящихся в открытом доступе и отсканированных Гарвардской библиотекой. В сотрудничестве с Бостонской публичной библиотекой Гарвард сделает доступными в качестве данных миллионы страниц старых газет. Хотя эти коллекции относятся к длинным текстам, IDI стремится к партнёрству с другими субъектами по всем формам данных, включая научные и биомедицинские.
Инициатива, по словам её руководителя Грега Лепперта, стремится создать открытую экосистему данных для ИИ, подобную влиянию операционной системы Linux. База будет полезна не только исследователям, но и небольшим компаниям, которые ранее не имели доступа к таким ресурсам.
Microsoft, как отметил её вице-президент Бёртон Дэвис, поддерживает проект, считая его важным шагом к созданию инклюзивной экосистемы ИИ. Компания уже несколько лет работает над устранением неравенства в доступе к данным, что является ключевым условием развития технологий.
OpenAI также выразила поддержку проекту, который, по мнению её экспертов, создаёт безопасную альтернативу данным, защищённым авторским правом. В условиях судебных разбирательств вокруг использования закрытых данных для обучения ИИ Harvard IDI становится примером того, как можно минимизировать юридические риски.
Запуск таких инициатив, как Harvard IDI и французский проект Common Corpus, поддержанный Министерством культуры Франции, доказывает, что качественные модели ИИ можно обучать без нарушения авторских прав. Однако, как подчёркивает Эд Ньютон-Рекс, бывший руководитель Stability AI, важно, чтобы открытые данные не просто дополняли, а заменяли защищённые данные в обучающих выборках.