Нейросетевой подход к анализу необработанных данных научных статей на примере оптических свойств наночастиц нитрида бора
- Авторы: Резникова А.Р.1, Фролова А.В.1
-
Учреждения:
- Тольяттинский государственный университет
- Выпуск: Том 1 (2025)
- Страницы: 389-390
- Раздел: ЧАСТЬ I. Цифровые технологии: настоящее и будущее
- Статья получена: 13.05.2025
- Статья одобрена: 04.06.2025
- Статья опубликована: 02.11.2025
- URL: https://clinpractice.ru/osnk-sr2025/article/view/679606
- ID: 679606
Цитировать
Полный текст
Аннотация
Обоснование. Современные научные исследования сопровождаются значительным объемом данных, включая необработанные спектры и текстовые описания экспериментов. Традиционные методы ручного анализа требуют больших временных затрат и часто страдают от субъективности оценок. Исследования показывают, что в 72 % публикаций отсутствуют полные описания экспериментальных условий, что существенно затрудняет воспроизводимость результатов. Эти проблемы особенно актуальны для исследований в области материаловедения, таких как изучение оптических свойств нано- и микрочастиц нитрида бора.
Цель — разработка нейросетевого метода, позволяющего автоматизировать анализ научных статей, сочетая обработку текстовой информации и данных инфракрасной спектроскопии. Метод должен обеспечивать высокую точность извлечения ключевых параметров экспериментов и эффективную интеграцию разнородных данных.
Методы. В исследовании использован комплексный подход, объединяющий современные методы обработки естественного языка и анализа спектральных данных. Для семантического анализа текстов применялись специализированные модели SciBERT и ChemBERTa, предобученные на научных и химических текстах соответственно. Обработка спектров инфракрасного поглощения осуществлялась с помощью сверточных нейронных сетей, показавших высокую эффективность в распознавании спектральных паттернов. Особое внимание было уделено разработке гибридной архитектуры, сочетающей возможности трансформерных моделей для работы с текстами и CNN для анализа спектров. В работе использовались такие инструменты, как ChemDataExtractor для извлечения химических данных и RDKit для работы с молекулярными структурами. Данные собирались через Semantic Scholar, а их тематическая кластеризация выполнялась методом k-means.
Результаты. Разработанная система продемонстрировала высокую эффективность при анализе научных публикаций. На тестовой выборке из 100 статей достигнута точность 89 % при полноте данных 84 %. Временные затраты на обработку сократились с 3,5 часов при ручном анализе до менее 15 минут при использовании автоматизированной системы. Для анализа спектральных данных точность распознавания ключевых паттернов составила 91 %. В табл. 1 представлено сравнение эффективности различных NLP-моделей, используемых в работе.
Таблица 1. Сравнительный анализ эффективности NLP-моделей
Параметр | BERT | SciBERT | ChemBERTa |
Точность | 75 % | 89 % | 91 % |
Область применения | Общие тексты | Научные статьи | Химические данные |
Выводы. Разработанный нейросетевой метод обеспечивает существенное повышение эффективности анализа научных публикаций за счет автоматизации процессов извлечения и интеграции данных. Система позволяет стандартизировать анализ экспериментальных условий, повысить воспроизводимость исследований и значительно сократить временные затраты. Перспективными направлениями дальнейших исследований являются развитие мультимодальных моделей и интеграция системы с электронными лабораторными журналами.
Полный текст
Обоснование. Современные научные исследования сопровождаются значительным объемом данных, включая необработанные спектры и текстовые описания экспериментов. Традиционные методы ручного анализа требуют больших временных затрат и часто страдают от субъективности оценок. Исследования показывают, что в 72 % публикаций отсутствуют полные описания экспериментальных условий, что существенно затрудняет воспроизводимость результатов. Эти проблемы особенно актуальны для исследований в области материаловедения, таких как изучение оптических свойств нано- и микрочастиц нитрида бора.
Цель — разработка нейросетевого метода, позволяющего автоматизировать анализ научных статей, сочетая обработку текстовой информации и данных инфракрасной спектроскопии. Метод должен обеспечивать высокую точность извлечения ключевых параметров экспериментов и эффективную интеграцию разнородных данных.
Методы. В исследовании использован комплексный подход, объединяющий современные методы обработки естественного языка и анализа спектральных данных. Для семантического анализа текстов применялись специализированные модели SciBERT и ChemBERTa, предобученные на научных и химических текстах соответственно. Обработка спектров инфракрасного поглощения осуществлялась с помощью сверточных нейронных сетей, показавших высокую эффективность в распознавании спектральных паттернов. Особое внимание было уделено разработке гибридной архитектуры, сочетающей возможности трансформерных моделей для работы с текстами и CNN для анализа спектров. В работе использовались такие инструменты, как ChemDataExtractor для извлечения химических данных и RDKit для работы с молекулярными структурами. Данные собирались через Semantic Scholar, а их тематическая кластеризация выполнялась методом k-means.
Результаты. Разработанная система продемонстрировала высокую эффективность при анализе научных публикаций. На тестовой выборке из 100 статей достигнута точность 89 % при полноте данных 84 %. Временные затраты на обработку сократились с 3,5 часов при ручном анализе до менее 15 минут при использовании автоматизированной системы. Для анализа спектральных данных точность распознавания ключевых паттернов составила 91 %. В табл. 1 представлено сравнение эффективности различных NLP-моделей, используемых в работе.
Таблица 1. Сравнительный анализ эффективности NLP-моделей
Параметр | BERT | SciBERT | ChemBERTa |
Точность | 75 % | 89 % | 91 % |
Область применения | Общие тексты | Научные статьи | Химические данные |
Выводы. Разработанный нейросетевой метод обеспечивает существенное повышение эффективности анализа научных публикаций за счет автоматизации процессов извлечения и интеграции данных. Система позволяет стандартизировать анализ экспериментальных условий, повысить воспроизводимость исследований и значительно сократить временные затраты. Перспективными направлениями дальнейших исследований являются развитие мультимодальных моделей и интеграция системы с электронными лабораторными журналами.
Об авторах
Анастасия Романовна Резникова
Тольяттинский государственный университет
Автор, ответственный за переписку.
Email: stasyrez@gmail.com
студентка, ПИб-2106а
Россия, ТольяттиАнастасия Валерьевна Фролова
Тольяттинский государственный университет
Email: fro1owa.anas7@yandex.ru
студентка, ПИб-2106а
Россия, ТольяттиДополнительные файлы



