6.4 Data Mining әдістері мен кезеңдері. Data Mining міндеттері

Data Mining технологиясы заңдылықтарды білдіретін шаблондар тұжырымдамасына негізделген. Көзге көрінбейтін осы заңдылықтарды табу нәтижесінде Data Mining міндеттері шешіледі. Адамға түсінікті түрде білдіруге болатын заңдылықтардың әртүрлі түрлері Data Mining-тің белгілі бір міндеттеріне сәйкес келеді.

Data Mining тапсырмаларын (tasks) кейде заңдылықтар (regularity) немесе техникалар (techniques) деп атайды. Әдетте мыналарға бөлінеді: жіктеу, кластерлеу, болжау, ассоциация, визуализация, ауытқуларды талдау және анықтау, бағалау, байланыстарды талдау, қорытындылау.

Жіктеу (Classification). Data Mining-тің ең қарапайым және кең таралған міндеті. Жіктеу мәселесін шешу нәтижесінде зерттелетін мәліметтер жиынтығы объектілерінің топтарын сипаттайтын белгілер – кластар анықталады; осы белгілер бойынша жаңа объектіні белгілі бір класқа жатқызуға болады.

Кластерлеу (Clustering). Кластерлеу – жіктеу идеясының логикалық жалғасы. Бұл тапсырма күрделірек, кластерлеудің ерекшелігі - объектілердің кластары бастапқыда алдын-ала анықталмаған. Кластерлеудің нәтижесі объектілерді топтарға бөлу.

Болжау (Forecasting). Ереже түрінде обьектілер немесе оқиғалар арасындағы тәуелділікті табу, яғни А оқиғасынан кейін В оқиғасы болады. Мұндай тапсырмаларды шешу үшін математикалық статистика әдістері, нейрондық желілер және т. б. кеңінен қолданылады.

Қауымдастық (Associations). Ассоциативті ережелерді іздеу мәселесін шешу барысында деректер жиынтығындағы байланысты оқиғалар арасындағы заңдылықтар ізделеді. Бұл мәселенің шешімі талданатын деректердің табиғатын түсінуге және оқиғалардың пайда болуын болжауға көмектеседі.

Визуализация (Visualization, Graph Mining). Визуализация нәтижесінде талданған деректердің графикалық бейнесі жасалады. Визуализация мәселесін шешу үшін деректерде заңдылықтардың болуын көрсететін графикалық әдістер қолданылады. Визуализация әдістерінің мысалы – деректерді 2D және 3D өлшемдерінде ұсыну.

Ауытқуларды анықтау (Deviation Detection). Бұл мәселені шешудің мақсаты – деректердің жалпы жиынтығынан ерекшеленетін деректерді анықтау және талдау, сипаттамасыз шаблондарды анықтау.

Бағалау (Estimation). Бағалау міндеті белгінің үздіксіз мәндерін болжауға дейін азаяды.

Байланыстарды талдау (Link Analysis) – деректер жиынтығында тәуелділіктерді табу міндеті.

Қорытындылау (Summarization) – талданатын деректер жиынтығынан объектілердің нақты топтарын сипаттау мақсаты болып табылатын міндет.

Data Mining-тің басты әдістері ретінде келесілерді бөлу керек:

-        Регрессия, дисперсия және корреляциялық талдау;

-        Нейронды желі алгоритмдері (бастапқы параметрлері сигнал ретінде қарастырылады; талдау нәтижесі барлық жүйенің бастапқы параметрлерге дыбыс беруі);

-        Шешім ағаштары – (иерархиялық құрылымдар, предикат);

-        Сегменттеу алгоритмі (ұқсас оқиғаларды топтарға біріктіруде қолданады);

-        Шектеулі асып кету алгоритмі қарапайым логикалық оқиғалардың жиілік комбинациясын есептейді;

-        Эволюциялық әдістер (бастапқыда берілген алгоритмдер негізінде

деректердің өзара тәуелділігін көрсететін іздеу және туынды алгоритмдерді тудыру).

Data Mining міндеттері

Банк жүйесі. Несиелік картамен алаяқтықты анықтау. Банк бұрынғы транзакцияларды талдау арқылы кейіннен алаяқтық болып шыққан алаяқтықты анықтайды.

Клиенттерді сегменттеу. Клиенттерді түрлі санаттарға бөлу арқылы банктер клиенттердің топтарына түрлі қызмет түрлерін ұсына отырып, өздерінің маркетингтік саясатын тиімді ете алады.

Клиенттердің өзгеруін болжау. Data Mining банктерге клиенттер құндылығының болжамды модельдерін құруға және әр санатқа сәйкес қызмет көрсетуге көмектеседі.

Бизнес. Нарықты сегменттеу. Барлық салалар өз клиенттерінің жеке сегменттерін анықтау үшін Data Mining әдістерін қолдана алады. Data Mining кәсіпорындарға құрылымданбаған ақпаратты сақтаудың дәстүрлі әдістеріне қарағанда әлдеқайда көп параметрлерді ескеруге мүмкіндік береді.

Жиі ұшатын клиенттерді ынталандыру. Авиакомпаниялар осы ынталандыру шараларымен көбірек ұшуға шақыруға болатын клиенттер тобын таба алады.

Медицина. Медициналық диагноз қоюға арналған көптеген сараптамалық жүйелер белгілі. Олар негізінен түрлі аурулардың әртүрлі белгілерінің комбинациясын сипаттайтын ережелерге негізделген. Мұндай ережелердің көмегімен олар науқастың немен ауыратынын ғана емес, оны қалай емдеу керектігін де біледі. Сондай-ақ дәрі-дәрмектерге әсер ету құралдарын таңдауға, қарсы көрсеткіштерді анықтауға, емдеу процедураларын басшылыққа алуға, тиімді емдеу жағдайларын жасауға, тағайындалған емдеу курсының нәтижелерін болжауға көмектеседі. Data Mining технологиялары медициналық мәліметтерде осы ережелердің негізін құрайтын шаблондарды анықтауға мүмкіндік береді.

Генетикалық зерттеулерді дамытуға үлкен қаражат бөлінеді. Жақында бұл салада Data Mining әдістерін қолдануға қызығушылық пайда болды. Адам мен өсімдік геномын декодтау үшін осы әдістерді қолдануға мамандандырылған бірнеше ірі фирмалар бар.

Бөлшек сауда. Бүгінгі күні бөлшек саудагерлер дүкеннің брендтік несие карталары мен компьютерленген бақылау жүйелерін пайдалана отырып, әрбір жеке сатып алу туралы толық ақпаратты жинайды.

Сатып алу себетін талдау (ұқсастықты талдау). Сатып алушылар бірге сатып алғысы келетін тауарларды анықтауға арналған. Сатып алу себетін білу жарнаманы жақсарту, тауарлық-материалдық құндылықтарды құру стратегиясын және оларды сауда залдарында орналастыру тәсілдерін жасау үшін қажет.

 Сақтандыру. Сақтандыру компаниялары бірнеше жылдар бойы үлкен   көлемдегі деректерді жинақтап келеді. Мұнда Data Mining әдістеріне бірнеше

қызмет алаңдары бар:

Алаяқтықты анықтау. Сақтандыру компаниялары адвокаттар, дәрігерлер мен өтініш берушілер арасындағы қарым-қатынасты сипаттайтын сақтандыру төлемдерін төлеу туралы өтініштерден белгілі бір стереотиптерді іздеу арқылы алаяқтық деңгейін төмендете алады.

Телекоммуникация. Телекоммуникация саласында Data Mining әдістері компаниялардың клиенттерді ұстап қалу және басқаларды тарту үшін маркетинг пен бағаларын қарқынды түрде алға жылжытуға көмектеседі. Әдеттегі іс-шаралардың ішінде мыналарды атап өтеміз:

Клиенттердің адалдығын анықтау. Data Mining әдістерімен белгілі бір компанияның қызметтерін бір рет пайдаланғаннан кейін оған адал болып қалатын клиенттердің сипаттамаларын анықтау үшін пайдаланылуы мүмкін. Нәтижесінде маркетингке бөлінген қаражатты қайтарымы көп болатын жерге жұмсауға болады.

Data Mining жүйелерінің нарығы өсуде. Бұған ірі SAS, IBM, Microsoft, Oracle және басқада корпорациялардың қызметі ықпал етуде. Data Mining-тің соңғы тенденцияларына виртуалды шындық элементтері бар талдау әдістерін дамыту, оларды дерекқор жүйелерімен біріктіру, медицинадағы инновациялар үшін биологиялық деректерді өндіру, веб-майнинг (интернетте деректерді талдау), нақты уақыттағы деректерді талдау және деректерді өндіру кезінде құпиялылықты қорғау шаралары кіреді.

Деректердегі үлгілерді анықтаудың негізгі мәселесі ақпараттық массивтерді сұрыптауға кететін уақыт болып табылады. Белгілі әдістер мұндай іздеуді жасанды түрде шектейді немесе іздеудің тиімділігін төмендететін бүкіл шешім ағаштарын құрастырады. Бұл мәселені шешу деректерді өңдеу өнімдерін әзірлеушілердің негізгі мақсаты болып қала береді.

Қазақстан Халық банкі кредиттік саясатты қалыптастыру әдіснамасында және жарнамалық қызметті басқару құралы ретінде Data Mining технологиясын пайдаланады. Kaspi банк адамдарға шынымен пайдалы және қажетті қаржылық өнімдер мен қызметтерді ұсынуға ұмтылуда, соңғы жеті жылда SAS компаниясының бағдарламалық жасақтамасын белсенді қолданады. Бұл үлкен деректерді (Big Data) жинауға және талдауға және осы нәтижелерге сүйене отырып, клиенттердің әрекетін болжауға мүмкіндік береді. Бұл білім қарапайым, ыңғайлы және пайдалы өнімдерді жасауға көмектеседі