Авторитетность издания
ВАК - К1
RSCI, ядро РИНЦ
Добавить в закладки
Следующий номер на сайте
№2
Ожидается:
16 Июня 2024
Comatch – поиск партнерских сайтов связывания с транскрипционными факторами
Comatch. A search engine for transcription factors cooperative binding sites
Дата подачи статьи: 13.10.2015
УДК: 519.688
Статья опубликована в выпуске журнала № 1 за 2016 год. [ на стр. 101-107 ]Аннотация:Распознавание коротких последовательностей, называемых сайтами связывания с транскрипционными факторами, в регуляторных районах ДНК является одной из важнейших задач биоинформатики ввиду того, что эта задача существенно улучшает понимание механизмов работы живой клетки. В настоящее время разработано около 100 алгоритмов решения данной задачи, и их количество непрерывно растет. Однако единственно верное решение на данный момент не найдено, так как на вероятность связывания фактора с некоторым участком ДНК влияет большое количество параметров. Например, в сложных живых организмах транскрипционные факторы во время связывания объединяются в составные комплексы, что позволяет говорить о необходимости исследования таких связей. В рамках данной задачи авторами разработано средство поиска статистически перепредставленных пар сайтов, один из которых принадлежит наперед заданному фактору, а другой фактор необходимо найти. Метод использует два набора последовательностей – экспериментальный и фоновый, и находит значимые статистические различия экспериментальных результатов по отношению к фоновым данным. Также были проведены исследования зависимости результата от взаимного расстояния между матрицами, выбора пороговых значений для весовых матриц и влияния размера фоновых данных на итоговую значимость результатов. Результатом работы программы является набор таких пар с соответствующими P-значениями, характеризующими вероятность получения такого результата по случайным причинам, а также значение FDR (False Discovery Rate), характеризующее вероятность ошибочного предсказания. Для последовательностей, перенасыщенных сайтами связывания для выбранной весовой матрицы, был реализован режим коррекции Р-значения. В этом случае исключается зависимость P-значения от перепредставленности фиксированной матрицы и повышается значимость полученных результатов.
Abstract:Recognition of short sequences called transcription factor binding sites is one of the most important problems in bioinformatics. Transcription factor binding sites are short sequences located in DNA regulatory areas and play a key role in transcription process, which is a basic element of every living organism. About 100 algorithms are developed to solve this problem and a number of algorithms is still growing. However, there is no universal algorithm due to many factors that influence binding. For example, in complex living organisms transcription factors are joining into complexes during binding to DNA. Here we present a novel algorithm, which predicts statistically overrepresented transcription factors binding sites pairs. In this case the first site in a pair belongs to initially known fixed transcription factor and another factor should be found. The method uses two kinds of input data: an experimental sequence set and a background sequence set. It searches for significant difference between sites in experimental and background sets. As a result, a user obtains the list of binding sites pairs with P-values, which characterizes the probability to get a pair accidentally, and FDR (False Discovery Rate) is calculated for every pair. In addition, the authors developed a P-value cor-rection option for datasets overrepresented by the anchor matrix binding sites. In this case, dependence between P-value and the selected anchor matrix is made invisible. As a result, the significance of obtained results increases.
Авторы: Никитин С.И. (sergey_post@inbox.ru) - Институт систем информатики им. А.П. Ершова СО РАН; компания «Новые вычислительные системы в биологии» (аспирант), Новосибирск, Россия, Черемушкин Е.С. (evgeny.cheryomushkin@gmail.com) - Институт систем информатики им. А.П. Ершова СО РАН; компания «Новые вычислительные системы в биологии» (научный сотрудник), Новосибирск, Россия, кандидат физико-математических наук | |
Ключевые слова: пары сайтов связывания, алгоритм, р-значение, весовые матрицы, рнк, днк, транскрипционные факторы, сайты связывания |
|
Keywords: binding sites pairs, algorithm, р-value, positional weight matrix, rna, DNA, transcription factors, binding sites |
|
Количество просмотров: 13573 |
Версия для печати Выпуск в формате PDF (8.31Мб) Скачать обложку в формате PDF (1.24Мб) |
Comatch – поиск партнерских сайтов связывания с транскрипционными факторами
DOI: 10.15827/0236-235X.113.101-107
Дата подачи статьи: 13.10.2015
УДК: 519.688
Статья опубликована в выпуске журнала № 1 за 2016 год. [ на стр. 101-107 ]
Распознавание коротких последовательностей, называемых сайтами связывания с транскрипционными факторами, в регуляторных районах ДНК является одной из важнейших задач биоинформатики ввиду того, что эта задача существенно улучшает понимание механизмов работы живой клетки. В настоящее время разработано около 100 алгоритмов решения данной задачи, и их количество непрерывно растет. Однако единственно верное решение на данный момент не найдено, так как на вероятность связывания фактора с некоторым участком ДНК влияет большое количество параметров. Например, в сложных живых организмах транскрипционные факторы во время связывания объединяются в составные комплексы, что позволяет говорить о необходимости исследования таких связей.
В рамках данной задачи авторами разработано средство поиска статистически перепредставленных пар сайтов, один из которых принадлежит наперед заданному фактору, а другой фактор необходимо найти. Метод использует два набора последовательностей – экспериментальный и фоновый, и находит значимые статистические различия экспериментальных результатов по отношению к фоновым данным. Также были проведены исследования зависимости результата от взаимного расстояния между матрицами, выбора пороговых значений для весовых матриц и влияния размера фоновых данных на итоговую значимость результатов.
Результатом работы программы является набор таких пар с соответствующими P-значениями, характеризующими вероятность получения такого результата по случайным причинам, а также значение FDR (False Discovery Rate), характеризующее вероятность ошибочного предсказания. Для последовательностей, перенасыщенных сайтами связывания для выбранной весовой матрицы, был реализован режим коррекции Р-значения. В этом случае исключается зависимость P-значения от перепредставленности фиксированной матрицы и повышается значимость полученных результатов.
Никитин С.И. (sergey_post@inbox.ru) - Институт систем информатики им. А.П. Ершова СО РАН; компания «Новые вычислительные системы в биологии» (аспирант), Новосибирск, Россия, Черемушкин Е.С. (evgeny.cheryomushkin@gmail.com) - Институт систем информатики им. А.П. Ершова СО РАН; компания «Новые вычислительные системы в биологии» (научный сотрудник), Новосибирск, Россия, кандидат физико-математических наук
Ключевые слова: пары сайтов связывания, алгоритм, р-значение, весовые матрицы, рнк, днк, транскрипционные факторы, сайты связывания
Ссылка скопирована!
Постоянный адрес статьи: http://swsys.ru/index.php?page=article&id=4117&lang=&lang=&like=1 |
Версия для печати Выпуск в формате PDF (8.31Мб) Скачать обложку в формате PDF (1.24Мб) |
Статья опубликована в выпуске журнала № 1 за 2016 год. [ на стр. 101-107 ] |
Статья опубликована в выпуске журнала № 1 за 2016 год. [ на стр. 101-107 ]
Возможно, Вас заинтересуют следующие статьи схожих тематик:Возможно, Вас заинтересуют следующие статьи схожих тематик:
- Библиотека для поиска сайтов связывания с транскрипционными факторами
- Программа для построения геномных профилей весовых матриц
- Алгоритм сравнения методов комплексной количественной оценки качества сложных систем
- Метод повышения адекватности модели общекорабельных систем для тренажеров
- Поиск решения задачи целочисленного программирования с помощью итеративного округления координат
Назад, к списку статей