Применение молекулярного подобия для оценки точности предсказания газохроматографических индексов удерживания с помощью глубокого обучения

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

При предсказании индексов удерживания с помощью глубокого обучения обычно нет способа оценить надежность предсказания для конкретной молекулы. В данной работе на примере неподвижных фаз на основе полиэтиленгликоля и базы данных NIST 17 показано, что в среднем предсказание тем точнее, чем более близкая по структуре к соединению, для которого выполняется предсказание, молекула находилась в обучающем наборе данных. Сходство по Танимото “молекулярных отпечатков пальцев” ECFP – наиболее подходящий для этой задачи алгоритм вычисления молекулярного подобия из четырех рассмотренных. Показано, что для ряда продуктов трансформации несимметричного диметилгидразина, структура которых была установлена с использованием такого предсказания, оно могло быть весьма ненадежным.

Полный текст

Доступ закрыт

Об авторах

Д. Д. Матюшин

ФГБУН Институт физической химии и электрохимии им. А. Н. Фрумкина РАН

Email: shonastya@yandex.ru
Россия, 119071, Москва

А. Ю. Шолохова

ФГБУН Институт физической химии и электрохимии им. А. Н. Фрумкина РАН

Автор, ответственный за переписку.
Email: shonastya@yandex.ru
Россия, 119071, Москва

М. Д. Хрисанфов

ФГБУН Институт физической химии и электрохимии им. А. Н. Фрумкина РАН; МГУ им. М. В. Ломоносова

Email: shonastya@yandex.ru
Россия, 119071, Москва; 119991, Москва

С. А. Боровикова

ФГБУН Институт физической химии и электрохимии им. А. Н. Фрумкина РАН

Email: shonastya@yandex.ru
Россия, 119071, Москва

Список литературы

  1. Tarján G., Nyiredy S., Györ M. et al. // J. of Chromatography A. 1989. V. 472. P. 1. https://doi.org/10.1016/S0021-9673(00)94099-8
  2. Franke J.-P., Wijsbeek J., De Zeeuw R.A. // J. of Forensic Sciences. 1990. V. 35. № 4. P. 813. https://doi.org/10.1520/JFS12893J
  3. Zellner B.A., Bicchi C., Dugo P. et al. // Flavour and Fragrance J. 2008. V. 23. № 5. P. 297–314. https://doi.org/10.1002/ffj.1887
  4. Milman B.L., Zhurkovich I.K. // TrAC Trends in Analytical Chemistry. 2016. V. 80. P. 636–640. https://doi.org/10.1016/j.trac.2016.04.024
  5. Vinaixa M., Schymanski E.L., Neumann S. et al. // TrAC Trends in Analytical Chemistry. 2016. V. 78. P. 23. https://doi.org/10.1016/j.trac.2015.09.005
  6. Matyushin D.D., Sholokhova A.Yu., Karnaeva A.E. et al. // Chemometrics and Intelligent Laboratory Systems. 2020. V. 202. P. 104042. https://doi.org/10.1016/j.chemolab.2020.104042
  7. Schymanski E.L., Meringer M., Brack W. // Analytical Chemistry. 2011. V. 83. № 3. P. 903. https://doi.org/10.1021/ac102574h
  8. Dossin E., Martin E., Diana P. et al. // Analytical Chemistry. 2016. V. 88. № 15. P. 7539–7547. https://doi.org/10.1021/acs.analchem.6b00868
  9. Sholokhova A.Yu., Matyushin D.D., Grinevich O.I. et al. // Molecules. 2023. V. 28. № 8. P. 3409. https://doi.org/10.3390/molecules28083409
  10. Su Q.-Z., Vera P., Salafranca J. et al. // Resources, Conservation and Recycling. 2021. V. 171. P. 105640. https://doi.org/10.1016/j.resconrec.2021.105640
  11. Su Q.-Z., Vera P., Nerín C. et al. // Resources, Conservation and Recycling. 2021. V. 167. P. 105365. https://doi.org/10.1016/j.resconrec.2020.105365
  12. Sholokhova A.Yu., Grinevich O.I., Matyushin D.D. et al. // Chemosphere. 2022. V. 307. P. 135764. https://doi.org/10.1016/j.chemosphere.2022.135764
  13. Matyushin D.D., Buryak A.K. // IEEE Access. 2020. V. 8. P. 223140. https://doi.org/10.1109/ACCESS.2020.3045047
  14. Debus B., Parastar H., Harrington P. et al. // TrAC Trends in Analytical Chemistry. 2021. V. 145. P. 116459. https://doi.org/10.1016/j.trac.2021.116459
  15. Dong S., Wang P., Abbas K. // Computer Science Review. 2021. V. 40. P. 100379. https://doi.org/10.1016/j.cosrev.2021.100379
  16. Matyushin D.D., Sholokhova A.Yu., Buryak A.K. // Intern. J. of Molecular Sciences. 2021. V. 22. № 17. P. 9194. https://doi.org/10.3390/ijms22179194
  17. Matyushin D.D., Sholokhova A.Yu., Buryak A.K. // J. of Chromatography A. 2019. V. 1607. P. 460395. https://doi.org/10.1016/j.chroma.2019.460395
  18. Anjum A., Liigand J., Milford R. et al. // Ibid. 2023. V. 1705. P. 464176. https://doi.org/10.1016/j.chroma.2023.464176
  19. Qu C., Schneider B.I., Kearsley A.J. et al. // Ibid. 2021. V. 1646. P. 462100. https://doi.org/10.1016/j.chroma.2021.462100
  20. Vrzal T., Malečková M., Olšovská J. // Analytica Chimica Acta. 2021. V. 1147. P. 64. https://doi.org/10.1016/j.aca.2020.12.043
  21. Geer L.Y., Stein S.E., Mallard W.G. et al. // J. of Chemical Information and Modeling. 2024. V. 64. № 3. P. 690–696. https://doi.org/10.1021/acs.jcim.3c01758
  22. Raymond J.W., Gardiner E.J., Willett P. // The Computer J. 2002. V. 45. № 6. P. 631–644. https://doi.org/10.1093/comjnl/45.6.631
  23. Bender A., Glen R.C. // Organic & Biomolecular Chemistry. 2004. V. 2. № 22. P. 3204. https://doi.org/10.1039/B409813G
  24. Morehouse N.J., Clark T.N., McMann E.J. et al. // Nature Communications. 2023. V. 14. № 1. P. 308. https://doi.org/10.1038/s41467-022-35734-z
  25. Rogers D., Hahn M. // J. of Chem. Inform. and Modeling. 2010. V. 50. № 5. P. 742. https://doi.org/10.1021/ci100050t
  26. Hoo Z.H., Candlish J., Teare D. // Emergency Medicine J. 2017. V. 34. № 6. P. 357. https://doi.org/10.1136/emermed-2017-206735
  27. Polo T.C.F., Miot H.A. // J. Vascular Brasileiro. 2020. V. 19. P. e20200186. https://doi.org/10.1590/1677-5449.200186
  28. Popov M.S., Ul’yanovskii N.V., Kosyakov D.S. // Microchemical J. 2024. V. 197. P. 109833. https://doi.org/10.1016/j.microc.2023.109833

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис. 1. Распределение количества молекул N в базе данных индексов удерживания NIST 17 (полярные неподвижные фазы) по значениям Smax (максимальное значение молекулярного подобия для всех пар, включающих в себя рассматриваемую молекулу и молекулы из обучающего набора) для четырех методов расчета молекулярного подобия. Темно-серым цветом обозначены “плохо предсказываемые молекулы” (абсолютная ошибка предсказания больше 100), светло-серым цветом обозначены остальные молекулы.

Скачать (115KB)
3. Рис. 2. Зависимость общего количества молекул N (сплошные круги и линии) и доли “плохо предсказываемых молекул” (абсолютная ошибка предсказания больше 100) F (прямоугольники) от значения Smax (максимальное значение молекулярного подобия для всех пар, включающих в себя рассматриваемую молекулу и молекулы из обучающего набора).

Скачать (120KB)
4. Рис. 3. Распределение количества молекул N по абсолютной ошибке предсказания для различных значений Smax (максимальное значение молекулярного подобия для всех пар, включающих в себя рассматриваемую молекулу и молекулы из обучающего набора) для двух методов расчета молекулярного подобия.

Скачать (200KB)
5. Рис. 4. ROC-кривые (кривые специфичность-чувствительность) для предсказания того, является ли молекула “плохо предсказываемой” (абсолютная ошибка предсказания больше 100) с помощью различных алгоритмов вычисления молекулярного подобия. Кривые для алгоритмов, для которых площадь под кривой отличается не более чем на 0.02, обозначены одним типом линии для читабельности.

Скачать (106KB)
6. Рис. 5. Структуры продуктов трансформации несимметричного диметилгидразина, предложенные в работе [9], и значения Smax (величина молекулярного подобия между рассматриваемой молекулой и наиболее близкой молекулой из обучающего набора) для каждой из них. Метод расчета молекулярного подобия ECFP.

Скачать (265KB)

© Российская академия наук, 2025