Авторитетность издания
Добавить в закладки
Следующий номер на сайте
Многоуровневая оценка точности средств прогнозирования функциональной структуры генетических последовательностей
Аннотация:В статье рассматриваются некоторые методики количественной оценки качества прогнозирования функциональной структуры генетических последовательностей доступными программами прогнозирования генов. Объектом исследования послужили алгоритмы и программные средства для прогнозирования функциональной структуры генетических последовательностей. Предметом являются количественные показатели точности прогнозирования функциональной структуры генетических последовательностей и алгоритмы их вычислений. Рассмотрено состояние разработки методов сравнения функциональной аннотации генетических последовательностей и самих методов прогнозирования функциональной структуры геномов. В результате отобраны количественные показатели схожести элементов функциональной аннотации нуклеотидных последовательностей на уровне отдельных нуклеотидов и экзон-интронной структуры генов, методики их расчета адаптированы для применения к оценке достоверности результата работы существующих программных средств прогнозирования генов на уровнях нуклеотидов и экзонов. На основе отобранных и уточненных методик сравнения эталонной и спрогнозированной функциональной структуры последовательностей разработано программное средство оценки качества прогнозирования кодирующих белки генов. Рассмотрено описание статической структуры разработанной программы и обобщенное описание алгоритма формирования статистических оценок качества прогнозирования генов по сравнению с эталонной функциональной аннотацией. В отличие от известных программных средств с открытым исходным кодом обеспечивается вычисление более информативных показателей точности прогнозирования генов по сравнению с базовыми метриками ложноположительных и ложноотрицательных результатов.
Abstract:The paper examines several methodologies for quantitative assessment of functional structure prediction quality in genetic sequences using available gene prediction tools. It focuses on algorithms and software tools for predicting functional structure in genetic sequences. The paper analyzes quantitative prediction accuracy parameters for functional structure in genetic sequences and their algorithmic implementations. The authors explored current development of methods for comparing functional annotation of genetic sequences, as well as methods for predicting a genome functional structure. As a result, they selected quantitative similarity metrics for functional annotation elements in nucleotide sequences. These metrics involve both nucleotide-level resolution and gene exon-intron structure. The calculation methods were adapted to assess the reliability of existing gene prediction software outputs. The methodology is applicable at both nucleotide and exon levels. Using the selected and refined methods for comparing reference and predicted functional sequence structures, the authors developed a software tool for assessing protein-coding gene prediction quality. The paper describes the static architecture of the developed program and a generalized algorithm for generating statistical quality metrics comparing gene predictions against reference annotations. Unlike existing open-source tools, the proposed solution calculates more informative gene prediction accuracy metrics that surpass basic false-positive and false-negative measures.
| Авторы: Аржаев В.И. (arzhaeVI@cps.tver.ru) - НИИ «Центрпрограммсистем» (зав. отделением), Тверь, Россия, кандидат технических наук, Скворцов А.В. (skvortsovAV@cps.tver.ru) - НИИ «Центрпрограммсистем» (зав. отделом), Тверь, Россия, кандидат технических наук | |
| Ключевые слова: средства прогнозирования, функциональная структура, генетические последовательности, многоуровневая оценка, программное средство |
|
| Keywords: prediction tools, functional structure, genetic sequence, multilevel accuracy, software |
|
| Количество просмотров: 1382 |
Статья в формате PDF |
Многоуровневая оценка точности средств прогнозирования функциональной структуры генетических последовательностей
DOI: 10.15827/0236-235X.151.409-416
Дата подачи статьи: 22.01.2025
Дата после доработки: 09.03.2025
Дата принятия к публикации: 16.04.2025
УДК: 004.94
Группа специальностей ВАК: 2.3.1. Системный анализ, управление и обработка информации, статистика (технические науки, физико-математические науки)
Статья опубликована в выпуске журнала № 3 за 2025 год. [ на стр. 409-416 ]
Введение. В современной научно-инженерной практике в области обработки результатов молекулярно-генетических исследований биологических и биоподобных объектов с примене- нием методов биоинформатики важное место занимают программные средства прогнозирования функциональной структуры генетических последовательностей без априорной информации (прогнозирование генов ab initio). В этом контексте под функциональной структурой генетических последовательностей понимается расположение генов, их экзон-интронная структура, наличие и расположение регуляторных элементов и других функционально значимых участков. К настоящему времени разработаны различные методы решения задачи прогнозирования функциональной структуры генетических последовательностей, достаточно широко применяются реализующие их программные средства. Наиболее простые, но все еще применяющиеся на практике подходы основаны на по- иске открытых рамок считывания в нуклеотидных последовательностях. Их реализации доступны в открытых программных пакетах EMBOSS, где эту функцию выполняет программа getorf [1] и ПО Ugene, в состав которого входит компонент find-orfs [2]. Более сложные подходы используют статистические методики вычисления потенциала кодирования белка фрагментом генетической последовательности (методика расчета показателя кодирующего потенциала, опубликованная в [3] и усовершен- ствованная в [4]). Реализации этих методик также доступны в пакете EMBOSS (программа tcode) и в интернет-сервисе CPC2 [5]. Следующий шаг в развитии методов прогнозирова- ния генов представляет программа prodigal [6], которая интегрирует расчет кодирующего потенциала фрагмента генетической последовательности в алгоритм динамического программирования, оптимизирующий формируемый для анализируемой последовательности набор генов по нескольким статистическим критериям. Исторически и в направлении возрастания сложности располагаются подходы, использую- щие алгоритмы машинного обучения. До недав- него времени лучшие результаты демонстрировали программы, основанные на обучении скрытых марковских моделей, представляющих структуру последовательностей как смену скрытых состояний генов и регуляторных участков, в то время как наблюдаемыми состояниями являются символы последовательности. Среди программ, реализующих этот метод, широко используется Augustus [7]. К преимуществам относится сравнительная легкость адаптации к генетическим последовательностям новых организмов за счет обучения на экспериментально подтвержденных данных о структурных элементах последовательностей. В последние годы стремительное развитие моделей искусственного интеллекта для обработки текстов на естественном языке способствовало появлению нового класса инструментов биоинформатики: геномных языковых моделей, одним из применений которых также является прогнозирование функциональной структуры ДНК-последовательностей. В работе [8] описывается модель прогнозирования функциональной структуры ДНК-последова- тельностей Nucleotide transformer, исследование [9] посвящено геномной языковой модели анализа процессов регуляции синтеза белков и их функций, в работе [10] рассмотрены общие вопросы структуры и обучения геномных языковых моделей. Несмотря на большое количество доступных программных средств для прогнозирования генов их точность и применимость для использования с конкретными генетическими последовательностями в медико-биологических исследованиях остается неоднозначной и зависит от множества факторов, включая специфику организма источника анализируемых последовательностей, используемый алгоритм и степень его параметризации. В ряде исследований предлагались метрики оценки качества прогнозирования генов. Работа [11] описывает расчет традиционных метрик чувствительности и специфичности для нуклеотидного и экзонного уровня, в [12] вводятся производные показатели, исследование [13] вводит метрики экзон-интронного уровня, статья [14] посвящена оценке современных средств прогнозирования генов доступными методами. Однако рассмотренные работы не позволяют всесторонне охарактеризовать эффективность и применимость инструментов прогнозирования на разных уровнях организации генетической информации – от нуклеотидного до функционального. Это затрудняет выбор оптимального ПО для конкретной задачи и снижает надежность получаемых результатов. Метод В работах [11–14] предлагаются метрики точности прогнозирования, которые могут быть адаптированы для оценки достоверности результатов предсказания структуры генетических последовательностей: отдельных нуклеотидов, экзонов, генов, белковых продуктов. Пусть даже биологический смысл функциональной аннотации ДНК-последовательностей очевиден, результат ее выполнения и, следовательно, процесс сравнения результата с эталонным для формирования оценки качества работы программного средства, выполнявшего эту аннотацию, может быть легко освобожден от биологического смысла, и задача будет ограничена обработкой разметки текстовых строк с выделением фрагментов нескольких типов. На уровне отдельных нуклеотидов генетическая последовательность может быть представлена строкой символов, где кодирующие белки гены, а точнее, экзоны – фрагменты генов, являются участками этой строки ненулевой длины, возможно, пересекающимися. Для оценки качества прогнозирования кодирующих белки генов на уровне нуклеотидов, как и на всех последующих уровнях, используется эталонная аннотация – экспериментально подтвержденные данные о кодирующих белки генах в последовательности, которая используется для тестирования конкретного программного средства. Каждому символу строки последовательности присваиваются признаки принадлежности к кодирующему фрагменту в эталонной аннотации и в прогнозной (полученной в результате работы тестируемого программного средства): – AP (actual positive) – является частью кодирующего региона в эталонной аннотации; – AN (actual negative) – не является частью кодирующего региона в эталонной аннотации; – PP (predicted positive) – является частью кодирующего региона в прогнозной аннотации; – PN (predicted negative) – не является частью кодирующего региона в прогнозной аннотации.
– TP (true positive) – истинноположительный результат прогнозирования принадлежности символа кодирующему региону при Np Î Î AP ∩ PP; – TN (true negative) – истинноотрицательный результат при Np Î AN ∩ PN; – FP (false positive) – ложноположительный результат при Np Î AN ∩ PP; – FN (false negative) – ложноотрицательный результат при Np Î AP ∩ PN. Приведем пример классификации элементов функциональной аннотации для фрагмента последовательности, содержащего перекрывающиеся кодирующие регионы в обеих аннотациях (рис. 2). Признак (TP, TN, FP, FN) присваивается каждому символу последовательности, попадающему в соответствующий диапазон на рисунке. Наиболее распространенными метриками точности при использовании классификации элементов аннотации, аналогичной приведенной выше, являются чувствительность (Sn) и специфичность (Sp):
В работе [4] дополнительно вводится единый скалярный оценочный коэффициент – коэффициент корреляции (Correlation Coefficient, CC):
Однако у данного показателя есть очевидный недостаток – он не определен в случае, если PP, PN, AP или AN равны 0. Такое условие включает предельные случаи, когда эталонная или прогнозная аннотация не содержит кодирующих областей (последовательность полностью некодирующая) или не содержат интронов и междугенных регионов (вся последовательность кодирующая). Наиболее простой используемой метрикой, определенной для любых данных, является простой коэффициент соответствия (Simple Matching Coefficient, SMC):
Данная метрика также имеет ограничения, поскольку может принимать высокие значения при низкой чувствительности или специфичности, но высоком значении второй величины. Наиболее информативной оценкой из рассмотренных является предложенный в той же работе коэффициент средней условной вероятности для всех классов (Average Conditional Probability, ACP). Кроме описанных условных вероятностей Sn и Sp, он зависит от P(F(x) = = n | x = n):
и P(x = n | F(x) = n):
Коэффициент ACP является средним значением четырех указанных условных вероятностей и в общем случае, когда определены все четыре, вычисляется следующим образом:
Для перевода ACP к диапазону значений, близкому к CC, используется преобразование, дающее значение приближенной корреляции (Approximate Correlation, AC):
Точность прогнозирования генов может быть также оценена на уровне экзон-интронной структуры. В данном случае признаки TP, TN, FP, FN следует назначать не отдельным символам строки последовательности, а ее фраг- ментам, которые соответствуют экзонам функциональной структуры. При этом применяются в целом аналогичные метрики, однако слож- ность состоит в том, что не существует единых критериев определения корректно распознанного экзона. Так, корректно спрогнозированным может считаться экзон при полном совпадении границ с эталонной аннотацией, при перекрытии с эталонным на количество нуклеотидов, больше заданного порогового значения, при совпадении хотя бы одной границы и т.д. Как и на нуклеотидном уровне, экзоны E (b, e), где b – начальная граница экзона в последовательности, e – конечная граница, обладают следующими признаками, характеризующими их присутствие в аннотации: AE (actual exon) – экзон является частью кодирующего белок гена в эталонной аннотации; PE (predicted exon) – экзон является частью кодирующего белок гена в спрогнозированной аннотации; CE (correct exon) – корректный экзон при E (b, e) Î AE ∩ PE. Признаки AN и PN, использованные на нуклеотидном уровне, не имеют смысла на экзонном уровне, так как вне кодирующих белки регионов последовательности не существует экзонов. Здесь и далее нижний индекс e обозначает принадлежность параметров и коэффициентов экзонному уровню оценки качества прогнозирования кодирующих белки областей генетической последовательности. Применение приведенной выше модели признаков предоставляет возможность использовать на данном уровне описанные на предыдущем чувствительность и специфичность:
В данном случае появляется возможность использовать дополнительные метрики точности прогнозирования, которые основываются на том, что часть некорректно распознанных экзонов (PE) частично перекрывается c ошибочно не определенными (AE), в то время как некоторые спрогнозированные (PE) целиком располагаются вне кодирующих регионов в соответствии с эталонной аннотацией и являются неверными W (wrong). Часть экзонов – экзоны из эталонной аннотации (AE) – целиком располагаются в некодирующем регионе прогнозной аннотации и являются пропущенными M (mis- sing). В связи с этим оказывается полезным ввести метрики доли пропущенных MR (miss rate) и доли неверных экзонов WR (wrong rate) [13]:
Оценка качества прогнозирования на уров- не экзонов имеет более высокое значение по сравнению с нуклеотидным уровнем, посколь- ку любые ошибки в определении набора и границ экзонов ведут к неверному результату прогнозирования последовательностей кодирующих геном белков. В качестве примера существующих програм- мных средств с открытым исходным кодом для решения задачи оценки качества прогнозирования генов можно привести средство GFFCom- pare из пакета GFF Tools [15]. Данная программа проводит сопоставление аннотаций на большом числе уровней: дельных нуклеотидов, экзонов, интронов, цепочек интронов, транскриптов, но выполняет только вычисление базовых показателей TP, FP, FN. Результаты Описанные методики реализованы в програм- мном средстве оценки качества прогнозирования функциональной структуры генетических последовательностей. Построена диаграмма статической структуры данной программы в нотации диаграммы классов UML2 (http:// www.swsys.ru/uploaded/image/2025-3/17.jpg). Основу статической структуры программы составляют классы сущностных объектов: – Statistics: базовая статистика (TP, FP, FN, чувствительность, специфичность); – NucleotideStatistics: расширенная статистика для нуклеотидов (TN, корреляции); – ExonStatistics: статистика для экзонов (пропущенные, неправильные); – EvaluationResult: объединяет статистику всех уровней; – FeatureTreeItem: элемент дерева функциональных элементов аннотаций последовательностей.
Листинг содержит краткое описание алгоритма работы программы в виде псевдокода: 1. Основная программа: - Получить аргументы командной строки (-a для эталонного файла, -p для проверяемого файла) - Открыть файлы - Вызвать функцию evaluate() 2. Функция evaluate(annoFile, evaluateFile): - Прочитать последовательности из файлов в формате GenBank - Для каждой цепи (+ и -): a. Построить дерево аннотаций (makeTree) b. Сравнить аннотации (объект класса Evaluator) c. Сохранить статистику - Объединить статистику для обеих цепей - Вывести и сохранить отчет 3. Функция makeTree(sequence, strand): - Создать список генов - Для каждого элемента аннотации: - Если это ген: создать новый FeatureTreeItem - Если это CDS (кодирующая область): добавить экзоны к соответствующему гену - Удалить дубликаты экзонов - Вернуть список генов с экзонами 4. Класс Evaluator: - Инициализация: принимает списки аннотированных и проверяемых генов - Сравнение: a. Уровень генов: подсчет TP, FP, FN b. Уровень экзонов: подсчет совпадений, пропущенных, неправильных c. Уровень нуклеотидов: точность предсказаний - Расчет статистики: чувствительность, специфичность, точность В таблице приведены результаты применения программного средства оценки качества прогнозирования генов для сравнения результатов работы программ Ugene get_orfs и Augustus по прогнозированию генной структуры референсных генетических последовательностей двух модельных организмов. Выводы Разработка и применение многоуровневого подхода к оценке точности ab initio методов прогнозирования функциональной структуры генетических последовательностей представляет собой важную научно-практическую задачу. Предложенные в работе показатели оценки точности работы программ прогнозирования генов и разработанное на их основе программное средство позволяют сравнивать различные алгоритмы объективно и детализировано на уровнях нуклеотидов и экзонов, что дает возможность подбирать подходящие средства ab initio прогнозирования генов для конкретных задач. Список литературы 1. Rice P., Longden I., Bleasby A. EMBOSS: The European molecular biology open software suite. Trends in Genetics, 2000, vol. 16, no. 6, pp. 276–277. doi: 10.1016/S0168-9525(00)02024-2. 2. Rose R., Golosova O., Tiunov A. et al. Flexible design of multiple metagenomics classification pipelines with UGENE. Bioinformatics, 2018, vol. 35, no. 11, pp. 1963–1965. doi: 10.1093/bioinformatics/bty901. 3. Fickett J.A., Tung C.S. Assessment of protein coding measures. Nucleic Acids Research, 1992, vol. 20, no. 24, pp. 6441–6450. doi: 10.1093/nar/20.24.6441. 4. Kang Y.-J., Yang D.-C., Kong L. et al. CPC2: A fast and accurate coding potential calculator based on sequence intrinsic features. Nucleic Acids Research, 2017, vol. 45, no. W1, pp. W12–W16. doi: 10.1093/nar/gkx428. 5. Coding Potential Calculator 2. URL: https://cpc2.gao-lab.org/ (дата обращения: 21.01.2025). 6. Hyatt D., Chen G.-L., LoCascio P.F. et al. Prodigal: Prokaryotic gene recognition and translation initiation site identification. BMC Bioinformatics, 2010, vol. 11, art. 119. doi: 10.1186/1471-2105-11-119. 7. Lars G., Bruna T., Hoff K.J. et al. BRAKER3: Fully automated genome annotation using RNA-seq and protein evidence with GeneMark-ETP, AUGUSTUS and TSEBRA. Genome Research, 2024, vol. 34, no. 5, pp. 769–777. doi: 10.1101/2023.06.10.544449. 8. Dalla-Torre H., Gonzalez L., Mendoza-Revilla J. et al. Nucleotide transformer: Building and evaluating robust foundation models for human genomics. Nature Methods, 2025, vol. 22, pp. 287–297. doi: 10.1038/s41592-024-02523-z. 9. Hwang Y., Cornman A.L., Kellogg E.H. et al. Genomic language model predicts protein co-regulation and function. Nature Communications, 2024, no. 15, art. 2880. doi: 10.1038/s41467-024-46947-9. 10. Benegas G., Ye C., Albors C., Li J.C., Song U.S. Genomic language models: Opportunities and challenges. Trends in Genetics, 2025, vol. 41, no. 4, pp. 286–302. 11. Burset M., Guigo R. Evaluation of gene structure prediction programs. Genomics, 1996, vol. 34, no. 3, pp. 353–367. doi: 10.1006/geno.1996.0298. 12. Pavy N., Rombauts S., Dehais P. et al. Evaluation of gene prediction software using a genomic data set: Application to Arabidopsis thaliana sequences. Bioinformatics, 1999, vol. 15, no. 11, pp. 887–899. doi: 10.1093/bioinformatics/15.11.887. 13. Goodswen S.J., Kennedy P.J., Ellis J.T. Evaluating high-throughput Ab initio gene finders to discover proteins encoded in eukaryotic pathogen genomes missed by laboratory techniques. PloS One, 2012, vol. 7, no. 11, art. e50609. doi: 10.1371/journal.pone.0050609. 14. Kirkland T.N., Beyhan S., Stajich J.E. Evaluation of different gene prediction tools in coccidioides immitis. J. Fungi, 2023, vol. 9, no. 11, art. 1094. doi: 10.3390/jof9111094. 15. Pertea G., Pertea M. GFF Utilities: GffRead and GffCompare. F1000Research, 2020, no. 9, art. 304. doi: 10.12688/f1000research.23297.1. References 1. Rice, P., Longden, I., Bleasby, A. (2000) ‘EMBOSS: The European molecular biology open software suite’, Trends in Genetics, 16(6), pp. 276–277. doi: 10.1016/S0168-9525(00)02024-2. 2. Rose, R., Golosova, O., Tiunov, A. et al. (2025) ‘Flexible design of multiple metagenomics classification pipelines with UGENE’, Bioinformatics, 35(11), pp. 1963–1965. doi: 10.1093/bioinformatics/bty901. 3. Fickett, J.A., Tung, C.S. (1992). ‘Assessment of protein coding measures’, Nucleic Acids Research, 20(24), pp. 6441–6450. doi: 10.1093/nar/20.24.6441. 4. Kang, Y.-J., Yang, D.-C., Kong, L. et al. (2017) ‘CPC2: A fast and accurate coding potential calculator based on sequence intrinsic features’, Nucleic Acids Research, 45(W1), pp. W12–W16. doi: 10.1093/nar/gkx428. 5. Coding Potential Calculator 2, available at: https://cpc2.gao-lab.org/ (accessed January 21, 2025) (in Russ.). 6. Hyatt, D., Chen, G.-L., LoCascio, P.F. et al. (2010) ‘Prodigal: Prokaryotic gene recognition and translation initiation site identification’, BMC Bioinformatics, 11, art. 119. doi: 10.1186/1471-2105-11-119. 7. Lars, G., Bruna, T., Hoff, K.J. et al. (2024) ‘BRAKER3: Fully automated genome annotation using RNA-seq and protein evidence with GeneMark-ETP, AUGUSTUS and TSEBRA’, Genome Research, 34(5), pp. 769–777. doi: 10.1101/2023.06.10.544449. 8. Dalla-Torre, H., Gonzalez, L., Mendoza-Revilla, J. et al. (2025) ‘Nucleotide transformer: Building and evaluating robust foundation models for human genomics’, Nature Methods, 22, pp. 287–297. doi: 10.1038/s41592-024-02523-z. 9. Hwang, Y., Cornman, A.L., Kellogg, E.H. et al. (2024) ‘Genomic language model predicts protein co-regulation and function’, Nature Communications, (15), art. 2880. doi: 10.1038/s41467-024-46947-9. 10. Benegas, G., Ye, C., Albors, C., Li, J.C., Song, U.S. (2025) ‘Genomic language models: Opportunities and challenges’, Trends in Genetics, 41(4), pp. 286–302. 11. Burset, M., Guigo, R. (1996) ‘Evaluation of gene structure prediction programs’, Genomics, 34(3), pp. 353–367. doi: 10.1006/geno.1996.0298. 12. Pavy, N., Rombauts, S., Dehais, P. et al. (1999) ‘Evaluation of gene prediction software using a genomic data set: Application to Arabidopsis thaliana sequences’, Bioinformatics, 15(11), pp. 887–899. doi: 10.1093/bioinformatics/15.11.887. 13. Goodswen, S.J., Kennedy, P.J., Ellis, J.T. (2012) ‘Evaluating high-throughput Ab initio gene finders to discover proteins encoded in eukaryotic pathogen genomes missed by laboratory techniques’, PloS One, 7(11), art. e50609. doi: 10.1371/journal.pone.0050609. 14. Kirkland, T.N., Beyhan, S., Stajich, J.E. (2023) ‘Evaluation of different gene prediction tools in coccidioides immitis’, J. Fungi, 9(11), art. 1094. doi: 10.3390/jof9111094. 15. Pertea, G., Pertea, M. (2020) ‘GFF Utilities: GffRead and GffCompare’, F1000Research, (9), art. 304. doi: 10.12688/f1000research.23297.1. |
| Постоянный адрес статьи: http://www.swsys.ru/index.php?page=article&id=5182&lang= |
Версия для печати |
| Статья опубликована в выпуске журнала № 3 за 2025 год. [ на стр. 409-416 ] |
Статья опубликована в выпуске журнала № 3 за 2025 год. [ на стр. 409-416 ]
Возможно, Вас заинтересуют следующие статьи схожих тематик:Возможно, Вас заинтересуют следующие статьи схожих тематик:
- Использование метода валидации выделением особенностей для сопоставления наборов экспериментальных или смоделированных данных
- Расширяемая система генерации заданий
- Метод создания параллельных программных средств моделирующих комплексов военного назначения
- Разработка программной среды поддержки анализа функциональной структуры систем в аспекте свойства целостности
- О реализации средств машинного обучения в интеллектуальных системах реального времени
Назад, к списку статей




Класс управляющего объекта Evaluator осуществляет построение дерева функциональных элементов и расчет исходных данных для вычисления показателей качества прогнозирования.