Back to Search
Start Over
СРАВНИТЕЛЬНЫЙ АНАЛИЗ СВЯЗАННЫХ РЯДОВ И ИХ ПРИРАЩЕНИЙ НА ОСНОВЕ ДИСКРИМИНАНТНОГО АНАЛИЗА
- Publication Year :
- 2018
- Publisher :
- Международный научный журнал “Современные информационные технологии и ИТ-образование”, 2018.
-
Abstract
- Работа посвящена изучению связи длин ортологичных белков четырех организмов, один из которых принят за базисный (в сумме более 1200 белков). Использованы методы многомерного статистического анализа, который применяется к парам, тройкам и четвёркам (строкам), составленным из длин ортологичных белков. Таких строк от 200 до 400. Анализ парных корреляций, ортогональное преобразование и кластерный анализ позволили выделить два однородных кластера четвёрок длин. Параллельно изучали приращения длины ортологичного белка относительно базисного организма. Показали, что строки образуют неоднородную выборку, а приращения образуют однородную выборку. Далее задача состояла в расширении кластеров строками с неполными данными. Показали, что для этого кластерный анализ не применим, поэтому использовали дискриминантный анализ с обучающей выборкой – кластеризацией с полными данными. Получено 100-процентное разделение всех неполных строк по кластерам; с последующим описанием по кластерам зависимости длин от базисных. Проверена адекватность полученных уравнений регрессии. В результате статистического анализа сделаны следующие выводы. Для множества длин ортологичных рядов получен обобщающий фактор, назовем его размером ортологичного объекта из 4-х длин ортологичных беков. Для данной задачи получены такие размеры объектов, причем их средние групповые отличаются они образуют два отдельных интервала значений, по одному для каждой группы из полученных другими методами. Для рядов приращений длин ортологичных белков из объектов по четыре анализ показал всеми методами однородность множества. Показано, что длины ортологичных белков имеют значимую автокорреляцию, как и бывает у рядов, связанных с одним и тем же базисным рядом.<br />The article is devoted to the study of the relationship between the lengths of orthologous proteins of four organisms, one of which is taken as the basic one ( more than 1200 proteins in total). The methods of multivariate statistical analysis are used, it is applied to pairs, triples and fours (strings) composed of lengths of orthologous proteins. The number of such lines is from 200 to 400. The analysis of pair correlations, orthogonal transformation and cluster analysis allowed us to distinguish two homogeneous clusters of four-lengths. At the same time, we studied the increments of the length of the orthologous protein relative to the basic organism. We showed that the lines form a non-uniform sample, and the increments form a homogeneous sample. Then the task was to expand the clusters with rows with incomplete data. It was shown that cluster analysis is not applicable for this task, so we used discriminant analysis with a training sample — clustering with complete data. A 100 percent separation of all incomplete rows by clusters was obtained; with the following description of the length dependences of clusters on the base. The adequacy of the resulting regression equations was tested. As a result of statistical analysis, the following conclusions were made. For a set of lengths of orthologous series, a generalizing factor was obtained, let's call it the size of an orthologic object from 4 lengths of orthologous proteins. For the given task such sizes of objects were obtained, and their average group values differ, they form two separate ranges of values, one for each group of the values obtained by other methods. For series of increments of the lengths of orthologous proteins from objects of four, an analysis performed by all methods showed homogeneity of the set. It was shown that the lengths of orthologous proteins have significant autocorrelation, as is the case with rows associated with the same basic series.<br />№3 (2019)
- Subjects :
- корреляция
кластерный анализ
ортологичные белки
principal component
критерий Фишера
дискриминантный анализ
Orthogonal multivariate transformation
регрессионный анализ
главная компонента
training set
orthologous proteins
discriminant analysis
regression analysis
обучающая выборка
confidence interval
correlation
F-test
доверительный интервал
Ортогональное многомерное преобразование
cluster analysis
Subjects
Details
- Language :
- Russian
- Database :
- OpenAIRE
- Accession number :
- edsair.doi...........42131bc17d20efa554f934bbd71988ca
- Full Text :
- https://doi.org/10.25559/sitito.14.201803.672-678