На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

2
Ожидается:
14 Июня 2026

Методика сравнения эффективности программных средств реконструкции аминокислотных последовательностей на основе эталонных пептид-спектральных соответствий

Methodology for benchmarking the performance of peptide sequence reconstruction software based on reference peptide-spectrum matches
Дата подачи статьи: 12.05.2025
Дата после доработки: 18.06.2025
Дата принятия к публикации: 26.06.2025
УДК: 004.94
Группа специальностей ВАК: 2.3.1. Системный анализ, управление и обработка информации, статистика (технические науки, физико-математические науки)
Статья опубликована в выпуске журнала № 1 за 2026 год. [ на стр. 051-057 ]
Аннотация:В статье исследуется проблема реконструкции аминокислотных последовательностей первичной структуры пептидов по данным тандемной масс-спектрометрии с жидкостной хроматографией. Задача рассматривается в контексте идентификации белков в биологических и биоподобных объектах без априорной информации. Описаны доступные и разрабатываемые программные средства ее решения. Объектом исследования стали алгоритмы и программные средства для реконструкции аминокислотных последовательностей пептидов. Предметом являются показатели корректности формирования пептид-спектральных соответствий программными средствами. Рассмотрены наиболее популярные в использовании, доступные и цитируемые программы de novo секвенирования пептидов. Предложена методика оценки корректности de novo секвенирования на основе адаптации методики расчета количественных показателей схожести элементов функциональной аннотации нуклеотидных последовательностей. Выбран подход к расчету на уровне отдельных нуклеотидов и экзонинтронной структуры генов для применения к оценке достоверности результата работы существующих программных средств формирования аминокислотных последовательностей пептидов без априорной информации. Приведены результаты оценки качества работы программ de novo секвенирования пептидов в соответствии со статистическими метриками методики. Представленная методика и ее программная реализация обеспечивают объективную, воспроизводимую и практически применимую основу для сравнения, выбора при использовании в медико-биологических исследованиях и для дальнейшего совершенствования программных средств de novo секвенирования пептидов. Это особенно важно в условиях стремительного развития методов глубокого обучения в протеомике и постоянного появления новых доступных программных средств.
Abstract:This paper addresses the challenge of reconstructing amino acid sequences of primary peptide structures from liquid chromatography-tandem mass spectrometry (LC-MS/MS) data for protein identification in biological and bioanalogous samples lacking prior sequence information. It provides an overview of currently available and emerging software tools developed to address this problem. The object of this research encompasses the algorithms and software tools utilized for peptide sequence reconstruction, with the subject being the accuracy metrics associated with peptide-spectrum matches generated by these tools. A review is conducted of the most widely used and frequently cited de novo peptide sequencing programs. A methodology is proposed for evaluating the correctness of de novo sequencing. This approach is based on adapting a method originally designed for calculating quantitative similarity measures of functional annotation elements in nucleotide sequences–applied at the level of individual nucleotides and gene exonintron structures–to assess the reliability of amino acid sequence reconstruction by existing software tools operating without prior information. Results are presented from a quality assessment of de novo peptide sequencing programs, performed using a custom-developed software tool in accordance with the statistical metrics defined in the proposed methodology. The proposed methodology, along with its software implementation, provides an objective, reproducible, and practically applicable framework for comparing de novo peptide sequencing tools, selecting them for use in biomedical research, and facilitating their further improvement. This is particularly pertinent given the rapid progress in deep learning applications within proteomics and the continuous emergence of new publicly available software solutions in this field.
Авторы: Аржаев В.И. (arzhaeVI@cps.tver.ru) - НИИ «Центрпрограммсистем» (зав. отделением), Тверь, Россия, кандидат технических наук, Скворцов А.В. (skvortsovAV@cps.tver.ru) - НИИ «Центрпрограммсистем» (зав. отделом), Тверь, Россия, кандидат технических наук, Цыганков Р.Я. (tsygankov_ry@cps.tver.ru) - НИИ «Центрпрограммсистем» (инженер-программист), Тверь, Россия, Белякова С.Н. (belyakova_sn@cps.tver.ru) - НИИ «Центрпрограммсистем» (главный специалист), Тверь, Россия
Ключевые слова: программные средства, программная реализация, алгоритмы, протеомный анализ, de novo секвенирование пептидов, пептид-спектральные соответствия
Keywords: software, program realization, algorithms, proteomic analysis, de novo peptide sequencing, peptide-spectrum matches
Количество просмотров: 2168
Статья в формате PDF

Методика сравнения эффективности программных средств реконструкции аминокислотных последовательностей на основе эталонных пептид-спектральных соответствий

DOI: 10.15827/0236-235X.153.051-057

Дата подачи статьи: 12.05.2025

Дата после доработки: 18.06.2025

Дата принятия к публикации: 26.06.2025

УДК: 004.94

Группа специальностей ВАК: 2.3.1. Системный анализ, управление и обработка информации, статистика (технические науки, физико-математические науки)

Статья опубликована в выпуске журнала № 1 за 2026 год. [ на стр. 051-057 ]

В статье исследуется проблема реконструкции аминокислотных последовательностей первичной структуры пептидов по данным тандемной масс-спектрометрии с жидкостной хроматографией. Задача рассматривается в контексте идентификации белков в биологических и биоподобных объектах без априорной информации. Описаны доступные и разрабатываемые программные средства ее решения. Объектом исследования стали алгоритмы и программные средства для реконструкции аминокислотных последовательностей пептидов. Предметом являются показатели корректности формирования пептид-спектральных соответствий программными средствами. Рассмотрены наиболее популярные в использовании, доступные и цитируемые программы de novo секвенирования пептидов. Предложена методика оценки корректности de novo секвенирования на основе адаптации методики расчета количественных показателей схожести элементов функциональной аннотации нуклеотидных последовательностей. Выбран подход к расчету на уровне отдельных нуклеотидов и экзонинтронной структуры генов для применения к оценке достоверности результата работы существующих программных средств формирования аминокислотных последовательностей пептидов без априорной информации. Приведены результаты оценки качества работы программ de novo секвенирования пептидов в соответствии со статистическими метриками методики. Представленная методика и ее программная реализация обеспечивают объективную, воспроизводимую и практически применимую основу для сравнения, выбора при использовании в медико-биологических исследованиях и для дальнейшего совершенствования программных средств de novo секвенирования пептидов. Это особенно важно в условиях стремительного развития методов глубокого обучения в протеомике и постоянного появления новых доступных программных средств.
Аржаев В.И. (arzhaeVI@cps.tver.ru) - НИИ «Центрпрограммсистем» (зав. отделением), Тверь, Россия, кандидат технических наук, Скворцов А.В. (skvortsovAV@cps.tver.ru) - НИИ «Центрпрограммсистем» (зав. отделом), Тверь, Россия, кандидат технических наук, Цыганков Р.Я. (tsygankov_ry@cps.tver.ru) - НИИ «Центрпрограммсистем» (инженер-программист), Тверь, Россия, Белякова С.Н. (belyakova_sn@cps.tver.ru) - НИИ «Центрпрограммсистем» (главный специалист), Тверь, Россия
Ключевые слова: программные средства, программная реализация, алгоритмы, протеомный анализ, de novo секвенирование пептидов, пептид-спектральные соответствия
Размер шрифта:
      Шрифт:
Ссылка скопирована!

Введение. Практика анализа белков протеома биологических объектов показывает, что до настоящего времени исследования основывались в большей степени на универсальной технологии тандемной масс-спектрометрии  с жидкостной хроматографией [1]. В различных областях медико-биологических исследований спектрометрический анализ белков обычно решает две основные задачи: идентификацию наличия конкретных белков и их протеоформ, а также оценку их содержания в биологических и биоподобных образцах [2].

Наиболее распространенной стратегией при планировании и проведении экспериментов протеомного анализа является подход «снизу вверх», при котором извлеченные из образца белки подвергаются фрагментации на олигомеры (пептиды) с использованием расщепляющих ферментов или других физико-химических воздействий. Такой метод предполагает хроматографическое разделение и масс-спектро- метрические измерения, выполняемые на уров- не целых молекул белков или их крупных фрагментов [3, 4]. Получение данных масс-спектров пептидов может производиться в зависимом  и независимом от данных режимах. В первом – фрагментация ионов пептидов и получение масс-спектров второго порядка производится только для диапазонов отношения массы к заряду с наибольшей интенсивностью. Во втором, поддерживаемом современным оборудованием масс-спектрометрии высокого разрешения – производится фрагментация всех ионов, попадающих в предопределенные окна диапазона отношения массы к заряду (https://bigomics.ch/ blog/how-to-process-raw-mass-spectrometry-data- top-tools-for-proteomics-data/).

Инструментальный анализ и процедура обработки данных в задачах идентификации соста- ва и содержания белков в образцах при про- ведении медико-биологических исследований включают: получение данных тандемной масс-спектрометрии с жидкостной хроматографией пептидов (зависимое от данных или независи- мое); обнаружение спектральных пиков и извлечение признаков; идентификацию пептидов; оценку вероятности ошибочного определения; идентификацию белков по обнаруженным пептидам; количественную оценку содержания белков. Успешность проведения первого этапа целиком зависит от качества работы лаборатории и применяемого оборудования. Второй этап является хорошо разработанной областью обработки результатов жидкостной хроматографии/масс-спектрометрии данных [5].

Идентификация пептидов по данным, генерируемым жидкостной хроматографией/масс-спектрометрией, является ключевым этапом, который определяет чувствительность, специфичность и воспроизводимость результатов протеомного анализа. Основными стратегиями идентификации состава пептидов в образце  и оценки их содержания являются использование белковых БД и определение аминокислотных последовательностей пептидов без априорной информации (de novo секвенирование пептидов).

Использование белковых БД значительно упрощает выполнение этапа протеомного анализа. Последовательности, хранящиеся в БД виртуально расщепляются и формируют набор пептидов для поиска пептид-спектральных соответствий (ПСС). Однако такой метод идентификации требует надежной гипотезы о составе белков, потенциально содержащихся в образце, и наличия качественно секвенированного протеома – множества аминокислотных последовательностей первичной структуры всех белков, которые могут быть обнаружены в процессе выполнения анализа. Известно большое количество программных средств, автоматически выполняющих идентификацию пептидов по данным жидкостной хроматографии/масс-спектрометрии и референсному набору белков в БД, например, [6–8].

При отсутствии точной информации о представленных белках или при наличии существенных различий (например, эволюционных) между реальными белками в образце и теми, которые включены в состав референсного протеома для поиска, применяются средства de novo секвенирования пептидов. Программы реконструкции аминокислотной последовательности пептидов без использования предварительной информации о структуре белков исследуемого объекта используют широкий спектр алгоритмов – от базовых методов оптимизации и динамического программирования до систем глубокого обучения сложных архитектур [9]. Так, программы lutefisk, MSNovo, PEAKS [10] используют алгоритмы оптимизации на основе динамического программирования для получения аминокислотной последовательности, наи- лучшим образом соответствующей экспериментальному спектру ионов фрагментов.

С ростом интереса к интеллектуальным методам прогнозирования последовательностей пептидов для de novo секвенирования начали широко применяться технологии на основе алгоритмов глубокого обучения. Известно более 20 таких средств [11], многие из них имеют архитектуру сверточных нейронных сетей [12–14], рекуррентных сетей, таких как LSTM [15–17], и трансформеров [9, 18, https://github.com/insta- deepai/InstaNovo]. Эффективность средств de novo секвенирования пептидов оценивается  и сопоставляется по недостаточно описанным критериям. Поэтому качество работы и пригодность к решению задачи идентификации этих программ можно оценить только по публикациям коллективов их разработки.

Следовательно, существует потребность разработки единой методики и реализующего ее программного средства статистической оценки качества работы программ de novo секвени- рования пептидов, позволяющих выполнить сравнительный анализ на основе кортежа показателей ПСС с эталоном.

Постановка задачи de novo  секвенирования

Программные средства de novo секвенирования пептидов получают в качестве входных данных множество экспериментальных спектральных измерений, дополненных данными  о заряде, времени выхода из хроматографической колонки и экспериментально полученном отношении массы к заряду для иона-предшественника пептида:

S = {Si | i = 1, …, m},

где S – множество входных спектральных измерений; Si – кортеж конкретного i-го спектра (измерения); m – число измерений во входном наборе данных;

где Zi – заряд i-го иона-предшественника пептида; Rti – время выхода i-го пептида из хроматографической колонки; Mzei – экспериментальное отношение массы к заряду (m/z) i-го иона предшественника; MS2i – спектр фрагментации в виде ряда измерений пиков в коорди- натах отношений массы к заряду и интенсивности;

где m/zj и Ij – данные отношения массы к заряду и интенсивности j-го пика спектра фрагментации i-го иона-предшественника пептида.

По итогам работы программы реконструкции последовательности пептида методом de novo секвенирования для каждого спектра фраг- ментации может быть сформировано ПСС:

где PSM – множество выходных ПСС в результатах работы средства реконструкции последовательностей пептидов; PSMik – кортеж k-го ПСС, релевантного i-му входному спектральному измерению; p – количество ПСС в выходных данных программы de novo секвенирования;

где Pk – реконструированная аминокислотная последовательность с учетом химических посттрансляционных модификаций аминокислот, идентифицированная k-м ПСС для i-го спектрального измерения; Mzk – теоретическое отношение массы к заряду, соответствующее  заряду иона-предшественника пептида и моноизотопной молекулярной массе аминокислотной последовательности Pk.

Для большинства лабораторий, занимающихся идентификацией белков и оценкой их содержания в анализируемых образцах, подход к оценке применимости конкретных доступных программных средств de novo секвенирования на основе сформированных обучающих наборов данных [10] неприемлем. Необходимо разработать альтернативную методику, где  в качестве эталонного набора ПСС для оценки эффективности доступных программных средств de novo секвенирования пептидов могут быть использованы результаты работы классических конвейеров идентификации пептидов на основе поиска в БД для образцов, состав и содержание белков в которых известен.

Разработанная методика

В статье [19] была представлена авторская методика оценки точности результатов прогнозирования генов в нуклеотидных последовательностях на нуклеотидном, генном и экзон-интронной структуры уровнях. Для вычис- ления статистических показателей точности на них использовалась эталонная аннотация –  информация о расположении генов, экзонов  и интронов, полученная из достоверного источ- ника (значительно более точная, чем результат работы оцениваемых программ). Пользуясь об- щими рассуждениями по оценке качества работы средств прогнозирования генов на экзон-интронном уровне, оценку точности результатов работы средств de novo секвенирования пептидов целесообразно выполнить на основе аналогичных адаптированных метрик.

Все спектральные измерения получают признаки принадлежности к следующим классам:

– спектральное измерение имеет ПСС в эталонном наборе, AS – количество спектральных измерений, имеющих ПСС в эталонном наборе;

– спектральное измерение имеет ПСС в результатах работы тестируемой программы,  PS – количество спектральных измерений, имеющих ПСС в тестируемом наборе;

– корректное ПСС при совпадении аминокислотных последовательностей пептида в эталонном и тестируемом наборе для конкретного спектра, CS – число спектральных измерений, имеющих корректное ПСС в тестируемом на- боре.

Чувствительность (Sn) и специфичность (Sp) результатов тестируемого программного инструмента de novo секвенирования пептидов определяются отношениями

Sn = CS/АS, Sp = CS/PS.

Дополнительные метрики точности прогнозирования основываются на том, что часть некорректно распознанных пептидов из числа PS неточно соответствует последовательностям пептидов из числа AS, в то время как некоторые спрогнозированные из числа PS соответству- ют спектральным измерениям, для которых вообще нет ПСС в эталонном наборе, и являются неверными W (wrong). Часть ПСС из эталонного набора (из числа AS) соответствует спектральным измерениям, не имеющим ПСС в тестируемом наборе, и относится к пропущенным M (missing). Тогда доли пропущенных  MR (miss rate) и доли неверных ПСС WR (wrong rate) составляют

MR = M/AS, WR = W/PS.

Программная реализация

На основе показателей методики разработана программа, предназначенная для оценки качества предсказания пептидных последовательностей по масс-спектрам средствами de novo секвенирования пептидов.

Представим псевдокод программы:

1. Загрузить исходные масс-спектры из файла в формате mzML

2. Загрузить эталонные данные из файла в форате idXML

   a. Извлечь идентификаторы спектров и соответствующие им пептидные последовательности

3. Загрузить резульаты de novo секвенирования из файла:

   a. Если формат CSV InstaNovo — прочитать столбцы `scan_number` и `final_prediction`

   b. Если idXML — получить `spectrum_reference` и первую (наиболее значимую) последовательность

4. Создать словарь для хранения найденных эталонных последовательностей (search_sequences: ключ номер спектрального измерения, значение последовательность пептида)

5. Создать словарь для хранения предсказанных последовательностей (predicted_sequences: ключ номер спектрального измерения, значение последовательность пептида)

6. Для каждого спектра:

   a. Проверить, есть ли он в `search_sequences` и `predicted_sequences`

   b. Определить статус:

      - Найдено в эталоне + Предсказано — сравнить последовательности

      - Найдено в эталоне + Не предсказано — пропущено

      - Не найдено в эталоне — не учитывается

   c. Обновить метрики:

      - `correct_predictions`: если последовательность совпадает (с учетом неразличимости аминокислот лейцина  и изолейцина в масс-спектрометрическом измерении)

      - `missed_predictions`: если пептид есть в эталоне, но его не предсказали

      - `wrong_predictions`: если пептид предсказан, но он неверный

7. Вывести детальный отчет для каждого спектра:

   a. `spectrum_id`, `search`, `prediction`, `matching`, `search_sequence`, `predicted_sequence`

8. Вычислить и вывести статистические метрики:

   a. Чувствительность = correct_predictions / reference_sequences

   b. Точность = correct_predictions / predictions

   c. Доля пропущенных = missed_predictions / reference_sequences

   d. Доля ошибок = wrong_predictions / predictions

Результаты

В таблице и на рисунках 1 и 2 приведены результаты оценки чувствительности и специфич- ности распространенных программ de novo се- квенирования пептидов Novor [20] и PepNovo [21], а также наиболее динамично развивающегося и цитируемого проекта InstaNovo [9] на основе модели нейронной сети трансформера, которая транслирует спектральные пики фрагментов ионов в пептидные последовательности.

В качестве эталонного набора ПСС использованы результаты идентификации пептидов  в шести образцах с известной структурой метапротеома свободно доступными программами поиска ПСС в БД белков с помощью свободного конвейера SearchGui [22]. Полученныеоценки чувствительности и специфичности подтверждают публичные выводы о значительном превосходстве проекта InstaNovo доступ- ных программ de novo секвенирования пептидов на основе алгоритмов оптимизации.

Выводы

Обоснованная количественная оценка сравнения результатов работы различных алгоритмов и программных средств реконструкции аминокислотных последовательностей пептидов является важной задачей, позволяющей контролировать точность новых разрабатываемых программ и их применимость в медико-биологических исследованиях. Предложенные в работе показатели оценки точности работы программ de novo секвенирования пептидов  и разработанное на их основе программное средство позволяют решать эту задачу, используя в контролируемых экспериментах надежные данные идентификации ПСС.

Список литературы

  1. Li S., Li Sh., Liu S., Ren Ya. Mass spectrometry-based solutions for single-cell proteomics. Genomics, Proteomics & Bioinformatics, 2025, vol. 23, no. 1, art. qzaf012. doi: 10.1093/gpbjnl/qzaf012.
  2. Athira R.T., Aravind G.B., Arun M., Aneesh E.M. Mass spectrometry-based proteomics in forensic investigations: a focused review of LC-MS applications. Egyptian J. of Forensic Sci., 2025, vol. 15, art. 75. doi: 10.1186/s41935-025-00484-8.
  3. Roberts D.S., Loo J.A., Tsybin Y.O. et al. Top-down proteomics. Nature Reviews Methods Primers, 2024, vol. 4, art. 38. doi: 10.1038/s43586-024-00318-2.
  4. Ahmed S., Altman J., Jones G. et al. Tear fluid proteomics: a comparative study of DIA and DDA mass spectrometry. JMSACL, 2025, vol. 38, pp. 26–36.
  5. Yan B., Shi M., Cai S., Su Y., Chen R., Huang C., Chen D.D.Y. Data-driven tool for cross-run ion selection and peak-picking in quantitative proteomics with data-independent acquisition LC-MS/MS. Analytical Chemistry, 2023, vol. 95, no. 45, pp. 16558–16566. doi: 10.1021/acs.analchem.3c02689.
  6. Eng J.K., McCormack A.L., Yates J.R. An approach to correlate tandem mass spectral data of peptides with amino acid sequences in a protein database. JASMS, 1994, vol. 5, no. 11, pp. 976–989. doi: 10.1016/1044-0305(94)80016-2.
  7. Perkins D.N., Pappin D.J.C., Creasy D.M., Cottrell J.S. Probability-based protein identification by searching sequence databases using mass spectrometry data. Electrophoresis, 1999, vol. 20, no. 18, pp. 3551–3567. doi: 10.1002/
    (SICI)1522-2683(19991201)20:18<3551::AID-ELPS3551>3.0.CO;2-2
    .
  8. Craig R., Beavis R.C. TANDEM: Matching proteins with tandem mass spectra. Bioinformatics, 2004, vol. 20, no. 9, pp. 1466–1467. doi: 10.1093/bioinformatics/bth092.
  9. Eloff K., Kalogeropoulos K., Mabona A. et al. InstaNovo enables diffusion-powered de novo peptide sequencing in large-scale proteomics experiments. Nature Machine Intelligence, 2025, vol. 7, pp. 565–579. doi: 10.1038/s42256-025-01019-5.
  10. Ma B., Zhang K., Hendrie C., Liang C., Li M., Doherty-Kirby A., Lajoie G. PEAKS: Powerful software for peptide de novo sequencing by tandem mass spectrometry. Rapid Communications in Mass Spectrometry, 2003, vol. 17, no. 20, pp. 2337–2342. doi: 10.1002/rcm.1196.
  11. Bittremieux W., Ananth V., Fondrie W.E., Melendez C. et al. Deep learning methods for de novo peptide sequencing. ChemRxiv, 2024. URL: https://chemrxiv.org/doi/pdf/10.26434/chemrxiv-2024-l6wnt-v2 (дата обращения 13.06.2025). doi: 10.26434/chemrxiv-2024-l6wnt-v2.
  12. Tran N.H., Zhang X., Xin L., Shan B., Li M. De novo peptide sequencing by deep learning. Proc. Natl. Acad. Sci. U.S.A., 2017, vol. 114, no. 31, pp. 8247–8252. doi: 10.1073/pnas.1705691114.
  13. Karunratanakul K., Tang H.-Y., Speicher D.W., Chuangsuwanich E., Sriswasdi S. Uncovering thousands of new peptides with sequence-mask-search hybrid de novo peptide sequencing framework. MCP, 2019, vol. 18, pp. 2478–2491. doi: 10.1074/mcp.TIR119.001656.
  14. Qiao R., Tran N.H., Xin L., Chen X. et al. Computationally instrument-resolution-independent de Novo peptide sequencing for high-resolution devices. Nature Machine Intelligence, 2021, vol. 3, pp. 420–425. doi: 10.1038/s42256-021-00304-3.
  15. Yang H., Chi H., Zeng W., Zhou W., He S. pNovo 3: Precise de novo peptide sequencing using a learning-to-rank framework. Bioinformatics, 2019, vol. 35, no. 14, pp. 83–90. doi: 10.1093/bioinformatics/btz366.
  16. Zhou X., Zeng W.-F., Chi H., Luo Ch. et al. pDeep: Predicting MS/MS spectra of peptides with deep learning. Analytical Chemistry, 2017, vol. 89, no. 23, pp. 12690–12697. doi: 10.1021/acs.analchem.7b02566.
  17. Tran N.H., Qiao R., Xin L., Chen X. et al. Deep learning enables de novo peptide sequencing from data-independent-acquisition mass spectrometry. Nature Methods, 2019, vol. 16, pp. 63–66. doi: 10.1038/s41592-018-0260-3.
  18. Yilmaz M., Fondrie W.E., Bittremieux W., Oh S., Noble W.S. De novo mass spectrometry peptide sequencing with a transformer model. Proc. 39th ICML, 2022, vol. 22, pp. 25514–25522.
  19. Аржаев В.И., Скворцов А.В. Многоуровневая оценка точности средств прогнозирования функциональной структуры генетических последовательностей // Программные продукты и системы. 2025. Т. 38. № 3. С. 409–416. doi: 10.15827/0236-235X.151.409-416.
  20. Ma B. Novor: Real-time peptide de Novo sequencing software. JASMS, 2025, vol. 26, no. 11, рр. 1885–1894. doi: 10.1007/s13361-015-1204-0.
  21. Frank A., Pevzner P. PepNovo: De Novo peptide sequencing via probabilistic network modeling. Analytical Chemistry, 2005, vol. 77, no. 4, pp. 964–973. doi: 10.1021/ac048788h.
  22. Barsnes H., Vaudel M. SearchGUI: A highly adaptable common interface for proteomics search and de Novo engines. J. of Proteome Research, 2018, vol 17, no. 7, pp. 2552–2555. doi: 10.1021/acs.jproteome.8b00175.

References

  1. Li, S., Li, Sh., Liu, S., Ren, Ya. (2025) ‘Mass spectrometry-based solutions for single-cell proteomics’, Genomics, Proteomics & Bioinformatics, 23(1), art. qzaf012. doi: 10.1093/gpbjnl/qzaf012.
  2. Athira, R.T., Aravind, G.B., Arun, M., Aneesh, E.M. (2025) ‘Mass spectrometry-based proteomics in forensic investigations: a focused review of LC-MS applications’, Egyptian J. of Forensic Sci., 15, art. 75. doi: 10.1186/s41935-025-00484-8.
  3. Roberts, D.S., Loo, J.A., Tsybin, Y.O. et al. (2024) ‘Top-down proteomics’, Nature Reviews Methods Primers, 4, art. 38. doi: 10.1038/s43586-024-00318-2.
  4. Ahmed, S., Altman, J., Jones, G. et al. (2025) ‘Tear fluid proteomics: a comparative study of DIA and DDA mass spectrometry’, JMSACL, 38, pp. 26–36.
  5. Yan, B., Shi, M., Cai, S., Su, Y., Chen, R., Huang, C., Chen, D.D.Y. (2023) ‘Data-driven tool for cross-run ion selection and peak-picking in quantitative proteomics with data-independent acquisition LC-MS/MS’, Analytical Chemistry, 95(45), pp. 16558–16566. doi: 10.1021/acs.analchem.3c02689.
  6. Eng, J.K., McCormack, A.L., Yates, J.R. (1994) ‘An approach to correlate tandem mass spectral data of peptides with amino acid sequences in a protein database’, JASMS, 5(11), pp. 976–989. doi: 10.1016/1044-0305(94)80016-2.
  7. Perkins, D.N., Pappin, D.J.C., Creasy, D.M., Cottrell, J.S. (1999) ‘Probability-based protein identification by searching sequence databases using mass spectrometry data’, Electrophoresis, 20(18), pp. 3551–3567. doi: 10.1002/
    (SICI)1522-2683(19991201)20:18<3551::AID-ELPS3551>3.0.CO;2-2
    .
  8. Craig, R., Beavis, R.C. (2004) ‘TANDEM: Matching proteins with tandem mass spectra’, Bioinformatics, 20(9), pp. 1466–1467. doi: 10.1093/bioinformatics/bth092.
  9. Eloff, K., Kalogeropoulos, K., Mabona, A. et al. (2025) ‘InstaNovo enables diffusion-powered de novo peptide sequencing in large-scale proteomics experiments’, Nature Machine Intelligence, 7, pp. 565–579. doi: 10.1038/s42256-025-01019-5.
  10. Ma, B., Zhang, K., Hendrie, C., Liang, C., Li, M., Doherty-Kirby, A., Lajoie, G. (2003) ‘PEAKS: Powerful soft-ware for peptide de novo sequencing by tandem mass spectrometry’, Rapid Communications in Mass Spectrometry, 17(20), pp. 2337–2342. doi: 10.1002/rcm.1196.
  11. Bittremieux, W., Ananth, V., Fondrie, W.E., Melendez, C. et al. (2024) ‘Deep learning methods for de novo peptide sequencing’, ChemRxiv, available at: https://chemrxiv.org/doi/pdf/10.26434/chemrxiv-2024-l6wnt-v2 (accessed June 13, 2025). doi: 10.26434/chemrxiv-2024-l6wnt-v2.
  12. Tran, N.H., Zhang, X., Xin, L., Shan, B., Li, M. (2017) ‘De novo peptide sequencing by deep learning’, Proc. Natl. Acad. Sci. U.S.A., 114(31), pp. 8247–8252. doi: 10.1073/pnas.1705691114.
  13. Karunratanakul, K., Tang, H.-Y., Speicher, D.W., Chuangsuwanich, E., Sriswasdi, S. (2019) ‘Uncovering thousands of new peptides with sequence-mask-search hybrid de novo peptide sequencing framework’, MCP, 18, pp. 2478–2491.
    doi: 10.1074/mcp.TIR119.001656.
  14. Qiao, R., Tran, N.H., Xin, L., Chen, X. et al. (2021) ‘Computationally instrument-resolution-independent de Novo peptide sequencing for high-resolution devices’, Nature Machine Intelligence, 3, pp. 420–425. doi: 10.1038/s42256-021-00304-3.
  15. Yang, H., Chi, H., Zeng, W., Zhou, W., He, S. (2019) ‘pNovo 3: Precise de novo peptide sequencing using a learning-to-rank framework’, Bioinformatics, 35(14), pp. 83–90. doi: 10.1093/bioinformatics/btz366.
  16. Zhou, X., Zeng, W.-F., Chi, H., Luo, Ch. et al. (2017) ‘pDeep: Predicting MS/MS spectra of peptides with deep learning’, Analytical Chemistry, 89(23), pp. 12690–12697. doi: 10.1021/acs.analchem.7b02566.
  17. Tran, N.H., Qiao, R., Xin, L., Chen, X. et al. (2019) ‘Deep learning enables de novo peptide sequencing from data-independent-acquisition mass spectrometry’, Nature Methods, 16, pp. 63–66. doi: 10.1038/s41592-018-0260-3.
  18. Yilmaz, M., Fondrie, W.E., Bittremieux, W., Oh, S., Noble, W.S. (2022) ‘De novo mass spectrometry peptide sequencing with a transformer model’, Proc. 39th ICML, 22, pp. 25514–25522.
  19. Arzhaev, V.I., Skvortsov, А.V. (2025) ‘Multilevel accuracy assessment of prediction tools for a genetic sequence functional structure’, Software & Systems, 38(3), pp. 409–416 (in Russ.). doi: 10.15827/0236-235X.151.409-416.
  20. Ma, B. (2025) ‘Novor: Real-time peptide de Novo sequencing software’, JASMS, 26(11), рр. 1885–1894. doi: 10.1007/s13361-015-1204-0.
  21. Frank, A., Pevzner, P. (2005) ‘PepNovo: De Novo peptide sequencing via probabilistic network modeling’, Analytical Chemistry, 77(4), pp. 964–973. doi: 10.1021/ac048788h.
  22. Barsnes, H., Vaudel, M. (2018) ‘SearchGUI: A highly adaptable common interface for proteomics search and de Novo engines’, J. of Proteome Research, 17(7), pp. 2552–2555. doi: 10.1021/acs.jproteome.8b00175.

Постоянный адрес статьи:
http://www.swsys.ru/index.php?page=article&id=5224&lang=
Версия для печати
Статья опубликована в выпуске журнала № 1 за 2026 год. [ на стр. 051-057 ]

Статья опубликована в выпуске журнала № 1 за 2026 год. [ на стр. 051-057 ]

Возможно, Вас заинтересуют следующие статьи схожих тематик:

Возможно, Вас заинтересуют следующие статьи схожих тематик: