asyan.org
добавить свой файл
1
ТЕХНОЛОГІЇ ІНТЕГРАЦІЇ ДАНИХ В СЕМАНТИЧНОМУ ГРІД
Дорошенко А.В. студент 4 курсу

кафедри системного проектування ННК “IПСА” НТУУ “КПI” м. Київ,
Науковий керівник – Б.В. Булах, асистент кафедри системного

проектування ННК “IПСА” НТУУ “КПI” м. Київ,
У різних областях науки спостерігається експоненціальній ріст одержуваних експериментальних даних. Велика кількість організацій, які виконують спостереження, та їх незалежність, розмаїття об'єктів спостереження, неперервне і швидке вдосконаленням техніки спостережень призводить до необхідності використання неоднорідної, розподіленої інформації, накопиченої протягом значного періоду спостережень технологічно різними інструментами.

Спочатку грід-технології призначалися для вирішення складних наукових і інженерних задач, які неможливо вирішити в розумні терміни на окремих обчислювальних установках. Однак тепер сфера застосування технологій грід не обмежується лише цими типами задач. Із розвитком грід проникає в промисловість і бізнес, претендуючи на роль універсальної інфраструктури для обробки даних, у якій функціонує безліч служб, що не лише дозволяють вирішувати конкретні прикладні задачі, а й пропонують послуги з пошуку необхідних ресурсів, збору інформації про стан ресурсів, зберігання і доставки даних.

Метою технології грiд є глобальна інтеграція інформаційних i обчислювальних ресурсів на основі мережевих технологій i спеціального програмного забезпечення промiжного рiвня, а також набору стандартизованих служб для забезпечення надійного сумісного доступу до географiчно розподiлених iнформацiйних i обчислювальних ресурсів: окремих комп’ютерів, кластерів, сховищ даних i мереж. Семантичний грiд [1] як розвиток існуючого грiда, об’єктам якого (ресурси, сервiси) надано чітких визначень (придатних для машинної обробки), є iнфраструктурою з покращеними можливостями для кооперації людей та програмних агентiв [2]. Таким чином, семантичний грiд має ефективно вирішувати i задачу iнтеграцiї даних з рiзних джерел, з розбiжностями у їх моделях, часi отримання, якості тощо.

Потенціал технологій грiд вже зараз оцінюється дуже високо: він має стратегічний характер, і в близькій перспективі грiд повинен стати обчислювальним інструментарієм для розвитку високих технологій в різних сферах людської діяльності, подібно до того, як подібним інструментарієм стали персональний комп'ютер і інтернет. Такі високі оцінки можна пояснити здатністю грiд на основі безпечного і надійного віддаленого доступу до ресурсів глобально розподіленої інфраструктури вирішити дві проблеми:

  1. створення розподілених обчислювальних систем надвисокої пропускної спроможності з устаткування (показники продуктивності: агрегована потужність більше 1 терафлоп, об'єм оброблюваних даних більше 1 петабайта в рік), що серійно випускається, при одночасному підвищенні ефективності (до 100%) наявного парку обчислювальної техніки шляхом надання в грiд тимчасово простоюючих ресурсів;

  2. створення широкомасштабних систем моніторингу, управління, комплексного аналізу і обслуговування з глобально розподіленими джерелами даних, здатних підтримувати життєдіяльність державних структур, організацій і корпорацій.

Інфраструктура гріда повинна надавати набір технічних можливостей,
таких, як [3]:

  • Моделювання ресурсів. Описує наявні ресурси, їх можливості, взаємовідношення між ними в цілях ефективнішого їх виявлення, налаштування, а також підвищення якості управління обслуговуванням.

  • Моніторинг і повідомлення. Надає можливості проглядання стану ресурсів і повідомляє застосування і служби управління інфраструктурою про зміну стану. Протоколювання важливих подій (logging) і переходів ресурсів в новий стан також необхідне для підтримки функцій обліку і аудиту.

  • Аллокація. Забезпечує гарантовану якість обслуговування для всієї множини ресурсів на весь період їх використання застосуванням. Це досягається в процесі переговорів про необхідний рівень обслуговування і гарантоване забезпечення наявності відповідних ресурсів за допомогою деякої форми резервування - по суті, у вигляді динамічного створення угоди про рівень обслуговування.

  • Налаштування, управління життєвим циклом і припинення дії. Дає можливість автоматичної конфігурації виділеного ресурсу для прикладного використання, управляє ресурсом весь час рішення поточної задачі, приводить ресурс в первинний стан для подальшого використання.

  • Облік і аудит. Простежує використання ресурсів, що розділяються, і надає механізми пересилки тарифів членам колективу користувачів і виставляє рахунку за використання ресурсів застосуваннями і користувачами".

Д
Рис. 1. Обробка даних через

OGSA-DAI
о небагатьох iснуючих програмних рiшень, орiєнтованих на інтеграцію та управлiння даними у грiд-середовищi, вiдноситься проект OGSA-DAI — продукт, призначений для вирiшення задачi органiзацiї доступу до SQL-орiєнтованих баз даних на основi сертифiкатiв стандарту X.509, який використовується в багатьох наукових i бiзнес-проектах. Забезпечуючи можливiсть доступу до неоднорiдних ресурсiв даних, засоби OGSA-DAI можуть скласти основу для створення спеціалізованих грiд-сервiсiв по роботi з даними та знаннями та семантичних грiд-додаткiв.

OGSA-DAI спирається на сервiсно-орiєнтовану архітектурну модель, як i OGSA-DQP – сервiс-орiєнтований обробник розподілених запитів, здатний паралельно виконувати запити до рiзних ресурсів, доступних через OGSA-DAI, а також використовувати iншi веб-сервiси для обробки отриманих даних. OGSA-DAI дозволяє працювати з набором джерел даних як з єдиною вiртуальною БД. та підтримує каскадні промiжнi обчислення вiдповiдi на глобальний запит у грiдi (у сценаріях аналізу даних тощо), що характерно для наукових досліджень [4].

Зважаючи на потреби українського грiда у високорозвинутих середовищах (програмних комплексах, порталах), орієнтованих на роботу з даними та знаннями, актуальною є задача дослідження можливостей OGSA-DAI для виконання у грiд складних сценарiїв обробки (агрегацiї, трансформацiї, узгодження та i т.п.) даних та вилучення знань, що залучають рiзнорiднi СУБД та БД, а також шляхiв iнтеграцiї OGSA-DAI у архітектуру семантичного грiда. Дослiджувана тестова інфраструктура (рис. 1) може слугувати основою для подальшої розробки подібних середовищ.

Лiтература:

1. Згуровский М.З. Е-наука на шляху до семантичного Грiд. Частина 2: Семантичний Web- i семантичний Грiд / М.З. Згуровский, А.I. Петренко // Системнi дослiдження i iнформацiйнi технологiї. – К.,2010. – №2. – C.7 – 25.

2. De Roure. The Semantic Grid:Past, Present and Future / D.De Roure , N.R. Jennings, N.R. Shadbolt // Procedings of the IEEE. – 2005. – 93(3). – P.669 – 681.

3. A service-oriented system for distributed data querying and integration on Grids / C. Comito, A. Gounaris, R. Sakellariou, D. Talia // Future Generation Computer Systems. – 2009. – Vol.25,Issue 5. – P. 511 – 524.

4. Ailamaki A. Managing scientific data / A. Ailamaki, V. Kantere, D. Dash // Communications of the ACM. – 2010. – 53(6). – P.68 – 78.