پژوهش های انجام شده با موضوع رویکردی مبتنی برگراف به منظور خوشهبندی ترکیبی ... |
الگوريتم زير را ميتوان براي اين روش خوشهبندي در نظر گرفت:
-
- شروع: مقدار M(تعداد خوشهها) با عدد 1 مقدار دهي اوليه ميشود. سپس براي تمام دادهها بردار مرکز محاسبه ميشود.
-
- شکست: هر يک از M بردار مرکز به 2 بردار جديد شکسته ميشوند تا 2M بردار مرکز توليد شود. هر بردار جديد بايستي درون همان خوشه قرار داشته باشد و به اندازة کافي از هم دور باشند.
-
- K-Means: با اجراي الگوريتم K-Means با تعداد خوشة 2M و مراکز اوليه خوشههاي محاسبه شده در مرحلة ii خوشههاي جديدي با مراکز جديد توليد ميشود.
شرط خاتمه: در صورتي که M برابر تعداد خوشة مورد نظر الگوريتم LBG بود الگوريتم خاتمه مييابد و در غير اين صورت به مرحلة ii رفته و الگوريتم تکرار ميشود
1-8-2 روش های سلسله مراتبی
یک روش سلسله مراتبی یک تجزیه سلسله مراتبی از اشیاء دادهای یک مجموعه معلوم ایجاد می کند. این روش کلاسبندی را یا به صورت ترکیبی (تراکمی)و یا به صورت تقسیمی(تفرقی) انجام دهد. یعنی در دو قالب بالا به پایین و پایین به بالا عمل می کنند از یک خوشه بزرگ در بالا (در روش های بالا به پایین) و یا تعداد زیادی خوشههای کوچک در پایین ( برای روش های پایین به بالا) شروع کرده و به بهترین شکل یک خوشه را به خوشههای کوچکتر بشکنند و یا خوشههای کوچک را با یکدیگر ترکیب کنند تا تعداد مورد نظر خوشه بدست بیایند. به رویکرد ترکیبی ، رویکرد پایین به بالا(bottom up) نیز گفته می شود که با شکلدهی گروه های مجزا و هر یک شامل یک شیء شروع شده. سپس اشیاء یا گروه های نزدیک بهم را یکی می کند. تا اینکه در نهایت همه گروه ها یکی شوند و یا ( بالاترین سطح سلسله مراتبی ) یا تا هنگامیکه شرط پایانی بدست آید در واقع خوشه ها مکررا با هم یکی میشوند تا اینکه همه اشیاء در یک خوشه قرار گیرند و یا به شرط پایان برسند. در رویکرد تقسیم یا بالا به پایین روش سلسله مراتبی با خوشه ای شامل همه اشیاء شروع می کند خوشه ها مکررا تقسیم میشوند وخوشه ها را به خوشه های کوچک وکوچکتر تجزیه میکندتا اینکه هر شئ در یک خوشه قرار گیرد. این روش معمولا مناسب نیست زیرا پیچیدگی محاسباتش بالاست توجه داشته باشید که در تقسیم خوشه ها باید بهترین حالت انتخاب شود. روش های سلسله مراتبی این واقعیت را دارند که در هر گامی ( یکی کردن یا تقسیم کردن) که انجام می شود آن گام هرگز نباید ناتمام بماند. این سختی گاهی نیز مفید میباشد. با این وجود مشکل اصلی این تکنیکها این است که آنها نمی توانند تصمیمات اشتباه را تصحیح کنند.
همان گونه که بيان شد، در روش خوشه بندي سلسله مراتبي، به خوشههاي نهايي بر اساس ميزان عموميت آنها ساختاري سلسله مراتبي، معمولا به صورت درختي نسبت داده ميشود. به اين درخت سلسله مراتبي دندوگرام (dendogram) ميگويند. روش کار تکنيکهاي خوشهبندي سلسلهمراتبي معمولا بر اساس الگوريتمهاي حريصانه (Greedy Algorithms) و بهينگي مرحلهاي (stepwise-optimal) است. روشهاي خوشهبندي بر اساس ساختار سلسله مراتبي توليدي توسط آنها معمولا به دو دستة زير تقسيم ميشوند:
-
- بالا به پايين (Top-Down) يا تقسيم کننده (Divisive): در اين روش ابتدا تمام دادهها به عنوان يک خوشه در نظر گرفته ميشوند و سپس در طي يک فرايند تکراري در هر مرحله دادههايي که شباهت کمتري به هم دارند به خوشههاي مجزايي شکسته ميشوند و اين روال تا رسيدن به خوشههايي که داراي يک عضو هستند ادامه پيدا ميکند.
-
- پايين به بالا (Bottom-Up) يا متراکم شونده (Agglomerative): در اين روش ابتدا هر دادهای به عنوان خوشهاي مجزا در نظر گرفته ميشود و در طي فرايندي تکراري در هر مرحله خوشههايي که شباهت بيشتري با يکديگر دارند ترکيب ميشوند تا در نهايت يک خوشه و يا تعداد مشخصي خوشه حاصل شود. از انواع الگوريتمهاي خوشهبندي سلسله مراتبي متراکم شونده رايج ميتوان از الگوريتمهاي Single-Link، Average-Link و Complete-Link نام برد. تفاوت اصلي در بين تمام اين روشها به نحوة محاسبة شباهت بين خوشهها مربوط ميشود. که در بخشهاي بعد به تشريح هر يک پرداخته خواهد شد.
نمونهاي از روش خوشهبندي سلسله مراتبي و تفاوت بين روشهاي بالا به پايين و پايين به بالا در شکل زير مشاهده ميشود.
شکل1-3 : تفاوت بين روشهاي بالا به پايين با روشهاي پايين به بالا
1-8-2-1 خوشهبندي با روش Single-Link
اين روش يکي از قديميترين و سادهترين روشهاي خوشهبندي است و جزء روشهاي خوشهبندي سلسله مراتبي و انحصاري محسوب ميشود. به اين روش خوشهبندي، تکنيک نزديکترين همسايه (Nearest Neighbour) نيز گفته ميشود. در اين روش براي محاسبة شباهت بين دو خوشة A و B از معيار زير استفاده ميشود:
که i يک نمونه داده متعلق به خوشة A و j يک نمونه دادة متعلق به خوشة B ميباشد. در واقع در اين روش شباهت بين دو خوشه، کمترين فاصلة بين يک عضو از يکي با يک عضو از ديگري است. در شکل زير اين مفهوم بهتر نشان داده شده است.[7]
شکل1-4 : شباهت بين دو خوشه در روش Single-Link برابر است با کمترين فاصلة بين دادههاي دو خوشه
1-8-2-2 خوشهبندي با روش Complete-Link
اين روش همانند Single-Link جزء روشهاي خوشهبندي سلسله مراتبي و انحصاري محسوب ميشود. به اين روش خوشهبندي، تکنيک دورترين همسايه (furthest Neighbour) نيز گفته ميشود. در اين روش براي محاسبة شباهت بين دو خوشة A و B از معيار زير استفاده ميشود:
که i يک نمونه داده متعلق به خوشة A و j يک نمونه دادة متعلق به خوشة B ميباشد. در واقع در اين روش شباهت بين دو خوشه بيشترين فاصلة بين يک عضو از يکي با يک عضو از ديگري است. در شکل زير اين مفهوم بهتر نشان داده شده است.[7]
شکل1-5 : شباهت بين دو خوشه در روش Complete-Link برابر است با بيشترين فاصلة بين دادههاي دو خوشه.
1-8-2-3 خوشهبندي با روش Average-Link
اين روش همانند Single-Link جزء روشهاي خوشهبندي سلسله مراتبي و انحصاري محسوب ميشود. از آنجا که هر دو روش خوشهبندي Single-link و Complete-link بشدت به نويز حساس ميباشد، اين روش که محاسبات بيشتري دارد، پيشنهاد شد. در اين روش براي محاسبة شباهت بين دو خوشة A و B از معيار زير استفاده ميشود:
که i يک نمونه داده متعلق به خوشة A و j يک نمونه دادة متعلق به خوشة B ميباشد. و NA تعداد اعضاء خوشة A و NB تعداد اعضاء خوشة B است. در واقع در اين روش، شباهت بين دو خوشه ميانگين فاصلة بين تمام اعضاء يکي با تمام اعضاء ديگري است. در شکل زير اين مفهوم بهتر نشان داده شده است.[7]
شکل1-6 : شباهت بين دو خوشه در روش Average-Link برابر است با ميانگين فاصلة بين دادههاي دو خوشه
1-8-2-4 ديگر روشهاي خوشه بندي سلسله مراتبي
-
- خوشهبندي با روش Group Average Link:
اين روش همانند Single-Link جزء روشهاي خوشهبندي سلسله مراتبي و انحصاري محسوب ميشود. [Webb] به اين روش Centriod Distance نيز گفته ميشود. در اين روش براي محاسبة شباهت بين دو خوشة A و B از معيار زير استفاده ميشود:
که Xi يک نمونه داده متعلق به خوشة A، Xj يک نمونه دادة متعلق به خوشة B، NA تعداد اعضاء خوشةA و NB تعداد اعضاء خوشة B است. در واقع در اين روش، شباهت بين دو خوشه فاصلة بين بردار ميانگينِ تمام اعضاء يکي با بردارِ ميانگينِ تمام اعضاء ديگري است. در شکل 1-7 اين مفهوم بهتر نشان داده شده است.
خوشهبندي با روش Median Distance:
اين روش نيز همانند Single-Link جزء روشهاي خوشهبندي سلسله مراتبي و انحصاري محسوب ميشود. در روش Group Average Link اگر يک خوشة کوچک با يک خوشة بزرگ ترکيب شود نقطة ميانگين خوشة حاصل نقطهاي نزديک ميانگين خوشة بزرگتر خواهد بود که در بعضي از کاربردها چندان مطلوب نيست. بدين منظور اين روش خوشهبندي پيشنهاد شده است که مشکل مذکور را ندارد. در اين روش از ميانة نقاط يک خوشه به عنوان مرکز ثقل آن خوشه استفاده ميشود.[7]
شکل1-7 : شباهت بين دو خوشه در روش Group Average Link برابر است با فاصله بين ميانگين نقاط دو خوشه
- الگوريتم خوشهبندي پايين به بالاي عمومي
فرم در حال بارگذاری ...
[پنجشنبه 1400-08-13] [ 11:20:00 ب.ظ ]
|