Izraz kardiovaskularne bolesti (KVB) odnosi se na brojne funkcionalne abnormalnosti srca i krvožilnog sustava. KVB uzrokuju gotovo jednu trećinu (33%) smrtnosti u suvremenom svijetu, što predstavlja najveći udio u odnosu na sve druge bolesti. Rana dijagnoza i odgovarajuće liječenje kardiovaskularnih bolesti mogu značajno smanjiti smrtnost i poboljšati kvalitetu pacijentova života. Postavljanje dijagnoze temelji se na cjelokupnoj slici kardiovaskularnog sustava, uključujući anatomiju i fiziologiju srca. Dijagnostički proces obično se sastoji od dva glavna dijela. Prvi dio odnosi se na prikuplanje slika srca pomoću medicinskih uređaja. Razvijene su brojne invazivne i neinvazivne tehnike medicinskog snimanja koje omogućuju uvid u anatomiju i funkcionalnost srca. Drugi dio dijagnostičkog procesa je kvantifikacija i interpretacija prethodno dobivenih slika pomoću naprednih metoda obrade slike. Razvoj učinkovitih metoda za obradu medicinskih slika je složen zadatak, s obzirom da podrazumijeva obradu ogromne količine visokodimenzionalnih podataka. Napredak u razvoju algoritama obrade slike, računalnog vida i umjetne inteligencije, kao i dostupnost grafičkih procesorskih jedinica (GPU-a), značajno su olakšale i ubrzale razvoj takvih metoda. Segmentacija medicinskih slika ima važnu ulogu u procjeni, dijagnozi te postavljanju prognoze različitih kardiovaskularnih bolesti. Opsežna istraživanja i kliničke primjene pokazale su da računalna tomografija (CT) i magnetska rezonanca (MRI), kao osnovne tehnike prikupljanja medicinskih slika, imaju izrazito važnu ulogu u procjeni kardiovaskularnih bolesti. Njima je omogućeno kvantificiranje bolesti, mjerenje volumena kao i analizira morfologije različitih organa. Prema tome, segmentaciju srca i srčanih struktura predstavlja osnovu za širok spektar kliničkih primjena. Primjerice, često se koristi se za modeliranje i analizu anatomije i funkcionalnosti kao i za lokalizaciju različitih patologija. Izrada trodimenzionalnog (3D) modela srca specifičnog za pojedinog pacijenta predstavlja izrazit potencijal za poboljšanje kirurškog planiranja za pacijente s urođenom srčanom manom. Kako bi se takvi 3D modeli mogli izraditi, potrebno je imati segmentirane različite srčane strukture, uključujući pojedine srčane komore, epikardijalnu površinu, aortu kao i pojedine žile kardiovaskularnog sustava. Segmentacija lijeve i desne klijetke ima izrazito važnu ulogu u kvantitativnoj analizi globalnih i regionalnih informacija, odnosno pokazatelja rada srca, poput xviii volumena na kraju dijastole (VKD), volumena na kraju sistole (VKS), frakcije izbacivanja (FI), debljine stijenke ili mase. Primjerice, ventrikularna hipertrofija uzrokovana je abnormalnim povećanjem srčanog mišića koji okružuje lijevu ili desnu klijetku. Prema tome, segmentacija cijelog srca i srčanih komora iz volumetrijskih medicinskih slika igraju bitnu ulogu u procjeni cjelokupnog kardiovaskularnog zdravlja. Nadalje, radiolozi često trebaju ocrtati aortu kako bi dobili njezinu morfologiju, što je bitno za otkrivanje i dijagnosticiranje aneurizme aorte. Ručna segmentacija srca i srčanih struktura je vremenski veoma zahtijevan posao, podložan subjektivnosti. Prema tome, razvoj točnih i robusnih automatskih algoritama za segmentaciju je neophodan za primjenu u kliničkoj praksi. Duboko učenje predstavlja najsuvremeniju metodu za različite zadatke obrade slike poput raspoznavanja, segmentacije i klasifikacije. Metode dubokog učenja temelje se na umjetnim neuronskim mrežama. Najčešće upotrebljena vrsta neuronske mreže su konvolucijske neuronske mreže (CNN). FCNs predstavljaju specifičnu vrstu CNN-a bez potpuno povezanog sloja, kojima se obrađuje cijela slika te nije potrebno korištenje patcheva. Razvijene su različite varijante FCN-a, od kojih su najznačajnije varijante koje koriste koder-dekoder arhitekture. U biomedicinskoj obradi slika, za segmentaciju, najčešće se koristi U-Net arhitektura neruonske mreže kao i njezina odgovarajuća 3D verzija. U-Net arhitektura ima snažnu reprezentativnu snagu te je u mogućnosti zabilježiti značajke niskih razina što je izrazito važno prilikom treniranja mreže sa malom količinom podataka. Iako U-Net ima snažnu reprezentativnu snagu, dugoročni odnosi između značajki su slabi zbog upotrebe konvolucijskih operacija. Prema tome, potrebno je razvijati naprednije mehanizme kao i dodatne blokove koji će biti u mogućnosti ispraviti nedostatke U-Net arhitekture. Tehnike i blokovi poput veza za preskakivanje ili dubokog nadzora, omogućuju izgradnju dubljih arhitektura neuronskih mreža koje pružaju apstraktnije rezultate učenja te postižu veću točnost prilikom segmentacije medicinskih slika. S obzirom da povećanje broja slojeva osigurava veći prostor parametara koji omogućuje učenje apstraktnijih značajki, dublje arhitekture neuronskih mreža pružaju apstraktnije učenje koje rezultira boljim performanse i većom točnost u zadacima medicinske segmentacije. Unatoč tome, kako se dubina mreže povećava, informacije o gradijentu prolaze kroz mnogo slojeva te mogu nestati ili nakupiti velike pogreške do trenutka kada gradijet dosegne kraj mreže. To dovodi do uobičajenih prepreka treninga dubokih arhitektura neuronskih mreža kao što su problem nestajajućih gradijenta, ekstenzivnog rasta parametara, kao i smanjenja točnosti, što dovodi do računalno zahtjevnih modela. U ovoj doktorskoj disertaciji, predložen je niz metoda dubokog učenja za automatsku segmentaciju srca i srčanih komora. Fokus disertacije je na poboljšanju metoda dubokog učenja za segmentaciju cijeloga srca, lijeve i desne klijetke i miokarda kao i aneurizme abdominalne aorte. S xix obzirom na karakteristične probleme koji se javljanju prilikom dizajniranja metoda dubokog učenja za segmentaciju medicinskih slika, poput problema visoke dimenzionalnosti slika koje rezultiraju treniranim modelima s velikim brojem parametara kao i nedostatkom anotiranih podataka za treniranje, cilj ove disertacije je ublažiti navedene izazove predlaganjem novih i robusnih arhitektura neuronskih mreža koje smanjuju broj korištenih parametara, ali zadržavaju izrazito visoku točnost krajnjih rezultata segmentacije. Prvi i najvažniji znanstveni doprinos predstavlja nova struktura povezivanja rezidualnih jedinica, koju nazivamo rezidualna jedinica za spajanje značajki (FM-Pre-ResNet). FM-Pre-ResNet struktura povezivanja rezidualnih jedinica dodaje konvolucijski sloj na vrh i na dno već postojećih prethodno aktivirajućih rezidualnih jedinica. Pri tome, gornji sloj uravnotežuje parametre dviju grana rezidualne jedinice, dok donji sloj smanjuje dimenzije kanala. Na ovaj način predložena struktura povezivanja rezidualnih jedinica omogućuje kreiranje značajno dubljih modela uz održavanje iste ili čak manje količine parametara u odnosu na originale rezidualne jedinice. Nakon toga, u drugom znanstvenom doprinosu, predložena je nova 3D arhitektura neuronske mreže bazirana na koder-dekoder arhitekturi koja uspješno integrira FM-Pre-ResNet jedinice s varijacijskim autokoderima (VAE) za segmentaciju srca i srčanih komora iz CT i MRI slika. Metoda se sastoji od tri osnovna dijela. U prvom dijelu, prethodno predložene FM-Pre-ResNet jedinice koriste se za učenje nisko-dimenzionalnog prikaza ulaza u fazi kodiranja. U drugom dijelu, VAE rekonstruira ulaznu sliku iz nisko-dimenzionalnog latentnog prostora, osiguravajući da su sve težine modela snažno regulirane, kako bi se izbjegnula neželjena pojava pretreniranja. VAE dio koristi se samo tijekom treniranja mreže. Konačno, u trećoj fazi dekodiranja ponovno su integrirane FM-Pre-ResNet jedinice pomoću kojih se stvaraju konačne segmentacije srca. Predložena nova arhitektura evaluirana je na testnom skupu podataka koji se sastoji od 40 različitih pacijenata dostupnih kroz MICCAI Multi-Modality Whole Segmentation Challenge (MM-WHS) izazov. Naša metoda ostvarila je prosječni DSC, JI, SD i HD za cijelo srce od 90,39%, 82,24%, 1.1093 i 15,3621 na CT snimkama, odnosno 89,50%, 80,44%, 1,8599, 25,6558 na MRI snimkama. Predloženi pristup ostvario je približno slične rezultate kao i najsuvremenije metode za segmentaciju cijelog srca na CT slikama dok su rezultati na MRI slikama bolji od rezultata prethodno objavljenih najsuvremenijih metoda. Treći znanstveni doprinos, predstavlja novu automatsku metodu za segmentaciju miokarda (MiO), lijeve (LK) i desne klijetke (DK) iz cineMRI slika. Predstavljena je nova arhitekturu koja integrira SERes blokove u 3D U-net arhitekturu (3D SERes-U-Net). SERes blokovi upotrebljavaju operacije stiskanja i uzbude u rezidualne jedinice. Sposobnost ponovne kalibracije značajki operacija stiskanja i uzbude povećava reprezentativnu snagu mreže, dok ponovna upotreba značajki xx koristi učinkovito učenje o značajkama, što poboljšava performanse segmentacije. Predloženu metodu evaluirali smo na testnom skupu podataka MICCAI Automated Cardiac Diagnosis Challenge (ACDC). Naša predložena metoda za segmentaciju pomoću 3D SERes-U-Net ostvarila je prosječni DSC za LK, DK i MiO na kraju dijastole od 95%, 90%, 83%. Slično, prosječni DSC za LK, DK i MiO na kraju sistole je 86%, 83%, 85%. Dodatno, izračunati su volumeni LK, DK i MiO na temelju kojih su dalje računate značajne kliničke metrike te su uspoređeni rezultati s referentnim rezultatima. Navedeno uključuje kliničke metrike, odnosno pokazatelje funkcionalnosti srca, uključujući volumen lijeve klijetke na kraju dijastole (VLKKD), volumen lijeve klijetke na kraju sistole (VLKKS), frakciju izbacivanja lijeve klijetke (FILK), volumen desne klijetke na kraju dijastole (VDKKD), volumen desne klijetke na krajnjoj sistoli (VDKKS), frakciju izbacivanja desne klijetke (FIDK), volumen miokarda na krajnjoj sistoli (VMiOKS) kao i masu miokarda na kraju dijastole (MiOKD). Bland-Altman analiza pokazuje visoki koeficijent korelacije od R = 0,99 za VLKKD i VLKKD, dok je R = 0,95 za FILK. Korelacije VDKKD, VDKKS i FIDK su R = 0,97, R = 0,93, R = 0,69. Konačno, R = 0,96 za VMiOKS i R = 0,95 za MiOKD dodatno pokazuju snagu točnosti i preciznosti naše predložene metode. Konačno, četvrti znanstveni doprinos predstavlja novi automatski pristup za segmentaciju aneurizme abdominalne aorte (AAA). 3D UNet arhitektura modificirana je uvođenjem rezidualnih jedinica u koder dijelu kao i mehanizmom dubokog nadzora u dekoder dijelu. Kako bi se povećala točnost rezultata, mreža je trenirana i validirana na 19 preoperativnih AAA CTA volumena različitih pacijenata primjenom 4-ostrukog pristupa unakrsne provjere valjanosti. Naša metoda postiže DSC rezultat od 91,03% za segmentaciju aneurizme abdominalne aorte. Tijekom rada na ovoj doktorskoj disertaciji, objavljeno je 5 radova u časopisima (od čega 3 kao prvi autor), 10 radova objavljeno je na međunarodnim konferencijama (od čega 5 kao prvi autor) te 1 rad kao dio knjige (ko-autor). The term cardiovascular disease (CVD) refers to numerous dysfunctions of the heart and circulatory system. Cardiovascular disease accounts for nearly one-third (33%) of all deaths in the modern world, which is the highest proportion of all diseases. Early diagnosis and appropriate treatment can significantly reduce mortality and improve quality of life. The diagnosis of heart disease is based on the complete cardiovascular picture, including anatomy and physiology. The diagnostic process usually consists of two main parts. The first part refers to obtaining images of the heart using imaging devices. Numerous invasive and noninvasive imaging techniques have been developed to characterize the anatomy and functionality of the heart. The second part of the diagnostic process is the quantification and interpretation of the images using advanced image processing methods. Developing efficient medical image processing and analysis methods is a complex task, mainly because it involves processing large amounts of high-dimensional data. Advances in the development of image processing, computer vision, and artificial intelligence, as well as the widespread availability of powerful graphical processing units (GPUs), have made this challenging task manageable. Medical image segmentation plays an important role in the assessment, diagnosis, and prognosis of various cardiovascular diseases. Extensive research and clinical applications have shown that computed tomography (CT) and magnetic resonance imaging (MRI) play an important role in the noninvasive assessment of cardiovascular disease. They help quantify disease, measure the volume of structures, and analyze organ morphology. Therefore, segmentation of whole heart is an important step for a variety of clinical applications. For example, it is used for modeling and analyzing the anatomy and function of the heart and for localizing pathologies. The creation of a patient-specific 3D heart model holds excellent potential for improving surgical planning for patients with congenital heart defects. It requires delineation of all cardiac structures, including heart chambers, epicardial surface, entire blood pool, and great vessels. Segmentation of the left and right ventricles plays a critical role in quantitative analysis of global and regional information, i.e., indicators of cardiac function, such as enddiastolic volume (EDV), end-systolic volume (ESV), ejection fraction (EF), wall thickness, and mass. For example, ventricular hypertrophy x is caused by abnormal enlargement of the myocardium surrounding the left or right ventricle. Therefore, segmentation of the whole heart and heart chambers from volumetric medical images plays an essential role in cardiac assessment. In addition, radiologists often need to delineate the aorta to obtain its morphology, which is essential for the detection and diagnosis of aortic aneurysms. Manual segmentation of cardiac structures is a time-consuming process that depends on observer variability. Therefore, the development of accurate and robust automatic segmentation algorithms is critical for clinical practice. Deep learning has emerged as a state-of-the-art method for various image processing tasks such as recognition, segmentation, and classification. Deep learning methods are based on deep artificial neural networks. The most common type of deep neural network is convolutional neural networks (CNNs). Fully convolutional neural networks (FCNs) are a special type of CNNs that do not have a fully connected layer and are trained and applied to the entire image so that no patch selection is required. Several variants of FCNs have been proposed to transfer features from the encoder to the decoder to increase segmentation accuracy. The most widely used FCNs for biomedical image segmentation are the U-net architecture and its corresponding three-dimensional counterpart, the 3D U-net architecture. The ability of U-Net architecture to capture low-level features makes them very useful in scenarios with a small amount of training data. Although it has strong representational power, long-range relationships are weak due to the inherent localization of convolutional operations, so more advanced mechanisms and building blocks are required. Techniques and building blocks such as residual connections and deep supervision enable the construction of deeper architectures that provide more abstract learning results and higher accuracy for medical segmentation tasks. The increment in the number of layers provides larger parameter space enabling learning of more abstract features. Therefore, deeper architectures could provide more abstract learning that results in better performance and higher accuracy in medical segmentation tasks. Nevertheless, when the depth of CNN increases, information about the gradient passes through many layers, and it can vanish or accumulate large errors by the time it reaches the end of the network. This leads to common obstacles of training deep neural network architectures such as appearance of vanishing gradients, accuracy degradation, and extensive parameter growth, which results in computationally intensive models. In this Thesis, we propose a set of deep learning methods for automatic heart and heart chambers segmentation. We focus on improving deep learning segmentation methods for the whole heart, both ventricles, myocardium, and abdominal aortic aneurysm. Several unique challenges and issues arise in developing deep learning methods for medical image segmentation and analysis. For example, the high image dimensionality leads to trained models with a high number of xi parameters, and the lack of expert annotation makes the models more susceptible to overfitting. Therefore, we aim to alleviate these challenges by proposing new and robust CNNs that reduce the number of parameters so that they can be trained with smaller training sets and are less prone to overfitting. One of the most important scientific contributions of this work is the novel connectivity structure of residual units, which we call the feature merge residual unit (FM-Pre-ResNet). The FM-Pre-ResNet unit attaches two convolution layers at the top and at the bottom of the pre-activation residual block. The top layer balances the parameters of the two branches, while the bottom layer reduces the channel dimension. The proposed connectivity allows the construction of notably deeper models while maintaining the same or smaller number of parameters than the pre-activation residual units. Following that, the second scientific contribution is a novel threedimensional (3D) encoder-decoder architecture that successfully integrates FM-Pre-ResNet units and is additionally guided with variational autoencoders (VAE) for the task of whole heart segmentation from CT and MRI images. The architecture includes three stages. First, in an encoding stage, FM-Pre-ResNet units learn a low-dimensional representation of the input. Second, in the VAE stage, an input image is reduced to a low-dimensional latent space and reconstructs itself to provide a strong regularization of all model weights. This ensures that all model weights are strongly regularized while avoiding overfitting the training data. Third, the decoding stage creates the final whole heart segmentation. We evaluate our method on the 40 test subjects of the MICCAI Multi-Modality Whole Heart Segmentation (MM-WHS) Challenge. Our method achieves an average Dice score (DSC), Jaccard index (JI), surface distance (SD), and Hausdorff distance (HD) for WHS of 90.39%, 82.24%, 1.1093, and 15.3621 on CT images and 89.50%, 80.44%, 1.8599, 25.6558 on MRI images, respectively. The proposed approach obtains highly comparable DSC to the state-of-the-art for whole heart segmentation tasks on CT images while outperforming the current state-of-the-art on the MRI images. The third scientific contribution is a new automatic method for left ventricle (LV), right ventricle (RV), and myocardium (Myo) segmentation and quantification from cine-MRI images. We introduce a new architecture that incorporates SERes blocks into 3D U-net architecture (3D SERes-U-Net). The SERes blocks incorporate squeezeand- excitation operations into residual learning. The adaptive feature recalibration ability of squeeze-and-excitation operations boosts the network’s representational power while feature reuse utilizes effective feature learning, which improves segmentation performance. We evaluate the proposed method on the MICCAI Automated Cardiac Diagnosis Challenge (ACDC) testing dataset. Our method obtains an average DSC for LV, RV, and Myo at end-diastole of 95%, 90%, 83%, respectively. Similarly, we obtain an average DSC for LV, RV, and xii Myo at end-systole of 86%, 83%, 85%, respectively. Additionally, we calculate significant clinical metrics, i.e., indicators of hearts’ function, including volume of the left ventricle at end-diastole (LVEDV), the volume of the left ventricle at end-systole (LVESV), left ventricles’ ejection fraction (LVEF), the volume of the right ventricle at end-diastole (RVEDV), volume of the right ventricle at end-systole (RVESV), right ventricles’ ejection fraction (RVEF), myocardium volume at end-systole (MyoLVES), and myocardium mass at end-diastole (MyoMED). The Bland-Altman analysis shows a high correlation coefficient of R=0.99 for LVEDV and LVESV, while R=0.95 for LVEF. Correlations of RVEDV, EVESV and RVEF are R=0.97, R=0.93, R=0.69, respectively. Finally, R=0.96 for MyoLVES and R=0.95 for MyoMED further show our proposed methods’ strength of accuracy and precision. Finally, the fourth scientific contribution includes a new automatic approach for robust and reproducible abdominal aortic aneurysm (AAA) segmentation. The 3D U-Net network is adapted by introducing residual units in the contracting pathway and a deep supervision mechanism in the expanding pathway. We conduct an ablation study to demonstrate the effect of the addition of residual units and deep supervision for this particular clinical application. To increase the robustness of the results, networks are trained, validated, and evaluated on 19 pre-operative CTA volumes from different patients using a 4-fold cross-validation approach. Our pipeline achieves a Dice score of 91.03% for AAA segmentation. The work conducted during this Thesis resulted in 5 journal publications (of which 3 as the first author), 10 papers are published at international conferences (of which 5 as the first author), and 1 publication in book chapters (as co-author).