Back to Search
Start Over
APPLICATION OF DATA MINING METHODS FOR STATISTICAL MODELING
- Publication Year :
- 2021
- Publisher :
- РАС, 2021.
-
Abstract
- The main goal of this dissertation is to apply data mining with machine learning methods for statistical modeling and study of dependencies in empirical data from animal husbandry. The object of the study is the 305-day milk productivity of Holstein- Friesians cows raised on farms in Bulgaria.Using the CART method, regression trees were constructed on the dependence of 305-day milk yield on 12 linear traits and the farm as an environmental factor in -Holstein Friesians type cows from 4 farms on the territory of Bulgaria (n = 97). The main factors for greater milk yield are identified farm (growing conditions, health care, etc.) and some linear features. The models match the measured data up to R2 = 70%. Using the ensemble data mining method CART Ensembles and Bagging, the ranking variable for 305-day milk yield was modeled depending on 12 exterior features and the farm. The influence of all studied factors for explanation of milk yield was evaluated. The best models in this group explain the actual observations with R2 = 0.894 and accuracy RMSE = 816.01 kg. A comparison of the results obtained from the models was performed. The RF method was found to have the best predictive statistics, followed by CART Ensemble and Bagging and CART. All models were cross-validated and their residues were analyzed. The methods used work well with small samples and ordinary data type. Основната цел на настоящия дисертационен труд е да се приложат дейта майнинг с машинно обучение методи за статистическо моделиране и изследване на зависимости в емпирични данни от животновъдството. Обект на изследването е 305-дневната млечна продуктивност на крави от породата Холщайн-Фрезийска, отглеждани във ферми на територията на България.С помощта на метода CART са построени регресионни дървета на зависимостта на 305 дневната млечност от 12 линейни признаци и фермата като средови фактор при крави тип Фрезийска-Холщайн от 4 ферми на територията на България (n=97). Като основни фактори за по-голяма млечност са идентифицирани фермата (условия на средата на отглеждане, здравни грижи и други) и някои линейни признаци. Моделите достигат съвпадение с измерените данни до R2=70%.С приложение на ансамбловия дейта майнинг метод CART Ensembles and Bagging е проведено моделиране на ранговата променлива за 305-дневната млечност в зависимост от 12 екстериорни признаци и фермата. Оценено е влиянието на всички изследвани фактори за обяснение на млечността. Най-добрите модели от тази група обясняват реалните наблюдения с R2=0,894 и точност RMSE=816,01 кг. Проведено е сравнение на получените резултати от моделите. Установено е, че най-добри предсказващи статистики има методът RF, следван от CART Ensemble and Bagging и CART. Всички модели са кросвалидирани и е проведен анализ на остатъците им. Използваните методи работят добре и с малки извадки и ординален тип данни.
Details
- Database :
- OpenAIRE
- Accession number :
- edsair.od......9626..5f767add8e307994da55b22303084ee1