Содержание
- 2. Работа с данными в ML проектах 2 Под сбором данных понимается непосредственно сбор данных из самых
- 3. Способы сбора данных 3 Как мы можем собирать данные? - Публичные базы данных (PubChem, ChEMBL, ZINC,
- 4. Сбор данных 4 Единственный вариант – сбор информации из научных статей Это долгий и неблагодарный процесс.
- 5. Какие данные нужны нам? Состав – в основном ферриты металлов (Fe2O3 + оксид металла). Важна структура
- 7. Скачать презентацию
Работа с данными в ML проектах
2
Под сбором данных понимается непосредственно сбор данных из
Работа с данными в ML проектах
2
Под сбором данных понимается непосредственно сбор данных из
Нужно четко понимать задачу, которую нам надо решить
Это помогает выбрать данные, которые необходимо собрать
Качество данных напрямую влияет на эффективность моделей МО
Способы сбора данных
3
Как мы можем собирать данные?
- Публичные базы данных (PubChem, ChEMBL, ZINC,
Способы сбора данных
3
Как мы можем собирать данные?
- Публичные базы данных (PubChem, ChEMBL, ZINC,
Лабораторный журнал – долго оцифровывать бумажки
Инструментальные данные – редко когда сырые данные пригодны для использования
Опубликованные статьи – успешные кейсы
Неопубликованные данные – неуспешные кейсы
-Компьютерное моделирование (пример – методы Монте-Карло)
Основная проблема состоит в том, что данных огромное количество, однако систематизированных данных меньше в разы
Поэтому публичные базы данных непригодны для определенных классов проблем (как например, наночастицы ?)
Сбор данных
4
Единственный вариант – сбор информации из научных статей
Это долгий и неблагодарный процесс.
Сбор данных
4
Единственный вариант – сбор информации из научных статей
Это долгий и неблагодарный процесс.
https://doi.org/10.1021/acs.chemmater.1c01368
Какие данные нужны нам?
Состав – в основном ферриты металлов (Fe2O3 + оксид металла).
Какие данные нужны нам?
Состав – в основном ферриты металлов (Fe2O3 + оксид металла).
Форма – сферические, квадратные, эллипсоидные, параллелепипед, flower-like т.д. В основном сферы
Размер – суперпарамагнетик или ферромагнетик
Покрытие – взаимодействие с окружающей средой, особенно для МРТ
Магнитные свойства наночастицы – производные многих факторов. Их расчет – крайне нетривиальная задача, проще получить экспериментально с высокой точностью
Дзета-потенциал – устойчивость дисперсий
Гидродинамический радиус – фактический размер наночастицы в среде
Условия эксперимента
А также “учитель” – правильные данные для обучения
Экспериментально измеренные значения SAR и r1/r2 релаксаций – то, на что мы будем равняться
5