Erdur, Rıza CenkDikenelli, OğuzYönyül, Burak2024-08-212024-08-212023https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=S2eMu1TIwY_v4mYv58xAr0edxRqLT7KOuXTU9ywS28Tt57uotUlfB18i6wHdeYJThttps://hdl.handle.net/11454/98524Büyük veri; sahip olduğu hız, çeşitlilik, büyüklük ve doğruluk boyutlarıyla yönetilmesi güç bir olgudur. Büyük veriyi yönetebilmek için tüm bu boyutların belirli ölçülerde ele alınarak çözülmesi gereklidir. Sunulacak olan çözümde büyük boyuttaki veri, yapısına uygun model(ler)deki depo veya depolarda saklanmalı, hızlı sorgulanmanlı, ayrıca doğru ve güvenilir kaynaklardan elde edilmiş olmalıdır. Tam da bu noktada çoklu depo sistemleri büyük verinin yönetimini sağlamak için çözüm olarak ortaya çıkmaktadır. Sistem temel olarak bir çoklu depo ortamı ve bu ortamı depo özelinde tekil veya tümleşik olarak sorgulayan bir sorgu motorundan oluşur. Buradan hareketle büyük veri yönetimine bir çözüm olarak tez kapsamında bir alan odaklı çoklu depo sistemi oluşturulması hedeflenmiştir. Öncelikle yönetilecek büyük veri için sağlık alanı belirlenerek veri kümesi olarak farklı yapılarda ve büyük boyutta veri içeren MIMIC-III seçilmiştir. MIMIC-III'e referans veren tüm çalışmalar taranmış ve önemli kullanım durumu senaryoları belirlenmiştir. Sistemin değerlendirilmesi için; bu senaryolardan tekil ve birleşik sorgular oluşturulmuştur. Böylece verinin doğruluğu ve yapısallığından emin olunduktan sonra içinde bulunduğu alan, büyüklüğü ve yapısı özelinde çözümlenerek bölüneceği veri modelleri belirlenmiştir. Bu veri modellerine uygun saklama teknolojileri seçilmiş ve tüm ilişkili MIMIC-III verisi bu depolara yüklenmiştir. Kurulan bu mimarinin etkinliğini ortaya koymak adına; işleticiler ve dönüştürücüler ile birlikte aktör model yapısı üzerinde ölçeklenebilir bir çoklu depo sorgu motoru geliştirilmiştir. Sistem sorgu işletim süreleri ve ölçeklenebilirlik bakış açılarından değerlendirilmiştir. Sonuçlar çoklu depo sistemlerinin belirli bir alandaki büyük veriyi etkin biçimde yönetebildiğini kanıtlamakta ve hem geliştirilen sistemin hem de bu araştırma alanının önemini ortaya koymaktadır.Big data is a difficult phenomenon to manage by having velocity, variety, volume and veracity dimensions. In order to manage big data, it is necessary to take into account all these dimensions in a certain manner. In the solution to be presented, large-scale data should be persisted in the store(s) suitable for its structure, it should be queried quickly, and it should also be obtained from accurate and reliable sources. At this point, multistore / polystore systems emerge as a solution to manage the big data. The system basically consists of a polystore environment and a query engine that queries this environment as simple or federated. From this point of view, it is aimed to create a domain orineted polystore system within the scope of the thesis in order to provide an exemplary big data management. First of all, the medical domain has been determined for the big data to be managed, and MIMIC-III has been chosen as the dataset which contains large amount of data with various structures. All studies that reference MIMIC-III have been scanned and critical use case scenarios have been determined. For the evaluation of the system; single and compound queries have been generated from these scenarios. Thus, after proving the correctness and structure of the data, its models have been analyzed and determined according to the field, size and structure. Storage technologies suitable for these data models have been selected and all MIMIC-III data associated with these stores have been imported. In order to demonstrate the effectiveness of the proposed architecture, a scalable polystore query engine along with the executors and wrappers for the determined stores has been built on top of the actor model. The system has been evalauted in terms of the query evaluation times and scalability point of views. The results prove that the polystore systems are able to manage the big data in a relevant domain effectively, and put forward both the importance of the developed system and this research field.trinfo:eu-repo/semantics/openAccessBilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolComputer Engineering and Computer Science and Control ; Bilim ve TeknolojiÇoklu depo sistemlerinde ölçeklenebilir sorgu yönetimiScalable query management in polystore systemsDoctoral Thesis1205833384