OMC25: датасет для вычислительной химии. ОMC25 - крупнейший набор данных по молекулярным кристаллам, рассчитанный методом теории функционала плотности (DFT) в пакете VASP. В основе датасета лежат структуры, полученные из траекторий релаксации молекулярных кристаллов. Сами исходные кристаллы были сгенерированы с помощью инструмента Genarris 3.0, который, в свою очередь, использовал молекулы из известного набора OE62. Это обеспечивает преемственность данных и четкую привязку к проверенным химическим структурам, но масштаб здесь совершенно иной. Тренировочная часть содержит почти 25 млн. фреймов. Это данные по 207 тыс. кристаллов, которые, в свою очередь, произошли от 44 тыс. уникальных молекул. Валидационная часть меньше, но тоже весовая: около 1,4 миллиона кадров. Данные упакованы в формате ase-db как объекты LMDBDatabase, что является стандартом в задачах машинного обучения для химии. Исходные кристаллы были созданы программой Genarris 3.0. Она, в свою очередь, использовала молекулы из популярного набора OE62. Так что у данных есть четкая привязка к проверенным химическим структурам. Работа с данными сета происходит через библиотеку fairchem. Каждая структура хранится как объект ASE Atoms, что привычно для инженеров, работающих с атомистическим моделированием. Ключевые метки для обучения моделей включают полную энергию DFT, силы, действующие на атомы, и тензор напряжений . Это "каноническая троица" для обучения межатомных потенциалов. Помимо физических величин, в атрибуте atoms.info зашиты критически важные метаданные. Помимо самого набора, авторы выложили базовый чекпоинт eSEN-S, обученный на всём OMC25. Лицензирование : CC-BY-4.0 License Датасет Модель GitHub @ai_machinelearning_big_data #AI #ML #Dataset #FAIR #Chemistry