انجام پایان نامه

درخواست همکاری انجام پایان نامه  بانک مقالات رایگان انجام پایان نامه

سفارش پایان نامه

|

انجام پایان نامه ارشد

 پایان نامه 

پایان نامه‏ کامپیوتر

انجام پایان نامه‏ ارشد کامپیوتر

                                                                      
Data mining
        

چكيده :
       داده كاوي عبارت است از فرآيند خودكار کشف دانش و اطلاعات از پايگاه هاي داد ه اي.
اين فرآيند تكنيك ها يي از هوش مصنوعي را بر روي مقادير زيادي داده اعمال مي كند تا روندها , الگوها و روابط مخفي را كشف كند. ابزار هاي داده كاوي براي كشف دانش يا اطلاعات از داده ها به كاربراتكا نمي كنند، بلكه فرآيند پيشگويي واقعيت ها را خود كار مي سازند. اين تكنولوژي نوظهور، اخيرًا به طورفزايند هاي در تحليل ها مورد استفاده قرار مي گيرد.

    كلمات كليدي :
          Data mining, Predictive data mining, Exploration data analysis,
         Data warehousing, Olap, neural network, Deployment , machine
         Learning, Meta-learning, Bagging , Boosting , clustering , Eda
         Drill-down analysis, Stacket generalization , classification       

 
مقدمه :
              امروزه با حجم عظيمي از داده ها روبرو هستيم. براي استفاده از آنها به ابزارهاي كشف دانش نياز داريم. داده كاوي به عنوان يك توانايي پيشرفته در تحليل داده و كشف دانش مورد استفاده قرار مي گيرد. داده كاوي در علوم (ستاره شناسي،...)‌در تجارت (تبليغات، مديريت ارتباط با مشتري،...) در وب (موتورهاي جستجو،...) در مسايل دولتي (فعاليتهاي ضد تروريستي،...) كاربرد دارد.  عبارت داده كاوي شباهت به استخراج زغال سنگ و طلا دارد. داده كاوي نيز اطلاعات را كه در انبارهاي داده مدفون شده است، استخراج مي كند.
در واقع هـــــدف از داده كاوي ايجاد مدل هايي براي تصميم گيري است. اين مدلها رفتارهاي آينده را براساس تحليلهاي گذشته پيش بيني مي كنند. به كاربردن داده كاوي به عنوان اهرمي براي آماده سازي داده ها و تكميل قابليتهاي انباره داده ، بهترين موقعيت را براي به دست آوردن برتريهاي رقابتي ايجاد مي كند.






   داده كاوي (Data mining)    :                     

         داده كاوي (Data mining) يك فرايند تحليلي است كه جهت كاوش داده ها (معمولاً حجم بالاي داده ها و يا داده هاي تجاري و مربوط به  بازار) و جستجوي الگوهاي پايدار يا روابط سيستماتيك مابين متغيرها بكار ميرود وسپس با اعمال الكو هاي شناسايي شده به زير مجمو عه هاي جديد صحت  داده هاي بدست آمده بررسي ميگردد. هدف نهايي داده كاوي پيشگويي است.
سازما نها معمو ً لا روزانه مقدار زيادي داده را در انجام عمليات تجاري خود توليد و جمع آوري مي كنند.
امروزه براي اين پايگاه هاي داده شركتي عجيب نيست كه مقدار داده هاي آن در حد ترابايت باشد. با اين حال علي رغم ثروت اطلاعاتي عظيم ذخيره شده حدس زده مي شود كه فقط ٪ ٧كل داد ه هايي كه جمع آوري  مي شود مورد استفاده قرار مي گيرد. بدين ترتيب مقدار قابل توجهي داده كه بدون شك حاوي اطلاعات ارزشمند سازماني است تا حد زيادي دست نخورده باقي مي ماند. در محيط تجاري عصر اطلاعات، كه هر روز رقابتي تر مي شود  مي توان با استخراج اطلاعات از داد ه هاي استفاده نشده به تصميم گيري هاي استراتژيك دست يافت. در طول تاريخ تحليل داده ها از طريق رگرسيون و ديگر تكنيك هاي آماري انجام شده است.  براي استفاده از اين تكنيكها ، لازم است كه تحليل گر مدلي خلق كند و فرآيند گر دآوري دانش را سازمان دهد.
اما امروزه اين روش ها به تنهايي كافي نيستند و بايد از روش ها ي خود كار استفاده كرد.
داده كاوي عبارت است از فرآيند خودكار کشف دانش و اطلاعات از پايگاه هاي داد ه اي.
اين فرآيند تكنيك ها يي از هوش مصنوعي را بر روي مقادير زيادي داده اعمال مي كند تا روندها ، الگوها و روابط مخفي را كشف كند. ابزار هاي داده كاوي براي كشف دانش يا اطلاعات از داده ها به كاربر اتكا نمي كنند، بلكه فرآيند پيشگويي واقعيت ها را خود كار مي سازند. اين تكنولوژي نوظهور، اخيرًا به طور
فرايند هاي در تحليل ها مورد استفاده قرار مي گيرد
 
  داده كاوي پيشگويانه رايج ترين نوع داده كاوي است و با برنامه هاي كاربردي تجاري در ارتباط مستقيم است . فرايند داده كاوي از سه مرحله تشكيل شده است.
ا- كاوش اوليه (initial exploration )
   2-ساختن مدل يا شناسايي الگو بوسيلة سنجيدن اعتبار وصحت داده ها
   3-گسترش

1- مرحله كاوش(Exploration)  :
اين مرحله معمولاً با آماده سازي داده ها آغاز مي شود كه تشكيل شده است از پاكسازي داده ها (cleaning data) ،تغير شكل داده ها، انتخاب زير مجموعه اي از ركورد ها (در زماني كه مجموعه اي از داده ها با حجم بالايي از فيلد ها  موجود است) و انجام دادن برخي عمليات اوليه جهت قرار دادن  متغير ها در يك بازة قابل مديريت،كه بستگي به روش آماري اي كه مورد نظراست دارد و پس ازآن به طبيعت مسئله تحت بررسي مربوط مي شود.
مرحلهُ اول فرآيند داده كاوي مي تواند در هر جايي از گسترة ، انتحاب يك روش مستقيم پيشگويي   تا يك روش تجزيه و تحليل با جزئيات وزحمت بالا قرار داشته باشد .(جهت كسب اطلاعات وسيع تر به قسمت EDA مراجعه كنيد).
  اين مدل جهت شناسايي متغيير هايي كه بيشتر از همه با موضوع مرتبط هستند و جهت مشخص كردن پيچيدگي و طبيعت كلي مسئله در مراحل بعدي مورد استفاده قرار ميگيرد .

مرحله 2- ساختن مدل و معتبر سازي (model building and validation):
اين مرحله در گير در نظر گرفتن مدل هاي مختلف،و انتخاب بهترين آنها بر اساس كارايي در پيشگويي ، مي باشد.(براي مثال تعييرات سوُالات را تشريح كندونتايج ثابتي در مقابل نمونه ها توليد كند.) شايد اين به نظر عمليات ساده اي بيايد. ولي در واقع بعضي از مواقع در گير يكسري فرآيند هاي پيچيده مي شود.روشهاي مختلفي جهت رسيدن به اين هدف وجود دارد كه آنها را روشهاي ارزيابي رقابتي مدل ها (competitive evaluation of models ) مي نامند كه مدلهاي مختلفي را بر روي يك دادهُ ثابت اعمال مي كند و سپس كارايي آنها بررسي مي شود تا بهترين آنها انتخاب گردد. اين روش ها كه در خيلي از مواقع به عنوان هستهُ داده كاوي پيشگويانه تلقي مي گردند و شامل    طبقه بندي كردن(bagging،)، ترقي دادن (boosting ) ،انباشتن (stacking )و يادگيري غير نمادين(meta learning  )ميباشند.

مرحلة3- مرحلهُ گسترش Deployment):( :
در آخرين مرحله مدلي كه به عنواي بهترين مدل در مرحلة قبلي انتخاب شده بود بر روي داده هاي جديد به منظور توليد پيشگويي يا بر آورد خروجي مورد انتظار اعمال ميگردد.
شهرت داده كاوي به طور روز افزوني به عنوان يك ا بزار مديريت تجاري داده ها شهرت يافته است و انتظار مي رود بتواند ساختار هاي دانشي را نمايان سازد كه در شرايط عدم قطعيت تصميمات گرفته شده را هدايت كند.
روشهاي تحليلي جديد خصوصاً جهت نشان دادن مسائل مرتبط با داده كاوي تجاري ،اخيراًبسيار مورد توجه بوده اند (به عنوان مثال  درخت هاي رده بندي) ، با اين حال داده كاوي هنوز مبتني بر قواعد مفهومي روشهاي دستيابي قديمي نظير  آناليز اكتشافي داده ها (EDA) و مدلساري ميباشد. وقسمت هايي از دست آورد هاي عمومي و بعضي از تكنيك هاي خاص خود را با آنها به اشتراك مي گذارد.
بهرحال تفاوت زيادي در نفطه نظرات و اهداف داده كاوي و روش آناليز اكتشافي داده ها (EDA) وجود دارد . داده كاوي بيشتر متمايل به كاربردها است تا طبيعت اصلي پديدة مورد بررسي.به عبارت ديگر داده كاوي كمتر  به شناسايي روابط خاص موجود بين متغيرها مي پردازد.براي مثال آشكار كردن توابع و انواع داده اي خاصي كه بر روابط تعاملي و چند متغيري كه بين متغيرها وجود دارد هدف اصلي داده كاوي نمي باشد. در عوض توجه خود را به ايجاد روشي كه بتواند پيشگويي قابل استفاده اي توليد كند معطوف مي سازد. و به همين دليل است كه داده كاوي از بين دست آوردهاي جعبه سياه(black box )  در كاوش داده ها يا اكتشاف دانش مقبوليت بيشتري دارد. و نه تنها از روش هاي سنتي آناليز اكتشافي داده ها (exploratory data analysis  (استفاده مي كند بلكه از روشهايي مانند شبكه هاي عصبي   (  Neural network   ) كه مي تواند پيشگويي هاي معتبري توليد كند ولي قادر به شناسايي طبيعت خاص روابط داخلي بين متغيرهايي كه پيشگويي ها بر اساس آنها صورت گرفته است نميباشد سود مي جويد.
مفاهيم تعيين كننده در داده كاوي:
1-هم پيوندي (Bagging) :
هم پيوندي قابليتي براي يافتن روابط ناشناخته موجود در اطلاعات است. اين روابط مواردي از قبيل اينكه
حضور مجموعه اي از مقولات اشاره به اين دارند كه مجموعه مقولات ديگري نيز احتمالا وجود دارند را
شامل مي شود. اين قابليت اساسًا روشي است براي اينكه كشف كنيم چه مقولاتي به هم مي خورند.  از آن با عنوان تحليل سبد بازار يا گروه بندي خويشاوندي نيز ياد مي شود.
براي مثال، گزار شهاي هم پيوندي چنين شكلي دارند:"٪ ٨٠ مشترياني كه كالاي A را خريداري نموده اند، كالاي Bرا نيز خريده اند." درصد خاص وقوع وقايع) مثلا ٪ ٨٠ اين نمونه ( را فاكتور اطمينان هم پيوندي B و A مي نامند. همچنين ممكن است هم پيوندي هاي چند گانه وجود داشته باشد: "٪ ٧٥ مشترياني كه كالاي D را خريداري نموده اند، كالاي Cرا نيز خريده اند."
كاربرد هاي هم پيوندي عبارتند از برنامه ريزي موجودي، برنامه ريزي تبليغاتي براي فروش و مراسلات بازاريابي مستقيم.
مفهوم Bagging (راُي دادن به رده بندي و بدست آوردن متوسط مسائلي كه داراي متغير هايي با مقادير متوسط وابسته ميباشند)و در گسترة داده  كاوي اعمال مي گردد تا طبقه بندي هاي پيشگويانه را از مدل هاي چندگانه يا از يك نوع مدل ، براي درك اطلاعات تركيب كند . و همچنين جهت نشان دادن بي ثبا تي ماندگار نتايج در زماني كه مدل هاي پيچيده به مجموعه هاي كوچك داده ها اعمال مي شوند به كار مي رود. فرض كنيد كه عمل داده كاوي شما مي خواهد يك مدل جهت طبقه بندي پيشگويا نه بسازد و مجموعة داده هاي آن نسبتاً كوچك است . شما مي توانيد به صورت متوالي مجموعه داده ها را به نمونه هاي كوجكتر تقسيم كنيد و اعمال كنيد همانند رده بندي درختي تا به نمونه مورد نظر برسيد.در عمل درخت هاي متفاوتي براي نمونه هاي منقاوت بسط داده ميشوند.يكي از روش هاي استنتاج يك پيشگويي استفاده از قالب درختي در نمونه هاي مختلف است و پس از آن برخي نظريات بر روي آن اعمال مي گردد.
طبقه بندي   نهايي  طبقه بندي است كه عموماً توسط درخت هاي متفاوت پيشگويي  مي شود. توجه داشته باشيد كه برخي از تركيب هاي وزن دار از پيشگويي ها نيز محتمل است و عموماً مورد استفاده قرار مي گيرد. يك الگوريتم پيشرفته جهت ايجاد وزن براي پيشگويي هاي وزن دار يا voting رويه هاي Boosting  هستند.

2-طبقه بندي) Boosting  (  :
طبقه بندي در واقع ارزشيابي ويژگيهاي مجموعه اي از داد ه ها و سپس اختصاص دادن آ نها به مجموعه اي از گرو ههاي از پيش تعريف شده است. اين متداولترين قابليت داده كاوي مي باشد. داده كاوي را مي توان با استفاده از داده هاي تاريخي براي توليد يك مدل يا نمايي از يك گروه بر اساس ويژگي هاي داده ها به كار برد. سپس مي توان از اين مدل تعريف شده براي طبقه بندي مجموعه داده هاي جديد استفاده كرد. همچنين مي توان با تعيين نمايي كه با آن سازگار است براي پيش بيني هاي آتي از آن بهره گرفت.
براي مثال، براي طبقه بندي تخلفات و كلاهبرداري ها در صنعت و اعتبارات، با استفاده از قابليت طبقه بندي داده كاوي، سيستم با استفاده از مجموعه اي از پيش تعريف شده از داده ها، تعليم مي بيند. مجموعه داد ه هاي مورد استفاده در اين نمونه بايد هم شامل مجموعه هايي از داد ه هاي معتبر باشند و هم شامل مجموعه هايي از داد ه هاي جعلي. از آن جا كه اين داده ها از پيش تعريف شده هستند، سيستم پارامترهايي را مي يابد كه مي توان از آ نها براي تشخيص طبقه بندي هاي متمايز استفاده كرد. بعد از تعيين پارامترها سيستم از آ نها براي طبقه بندي هاي بعدي بهره خواهد گرفت.
در واقع سيستم هايي كه بر اساس طبقه بندي داده كاوي مي كنند، دو مجموعه ورودي دارند: يك مجموعه آموزشي كه در آن داده هايي كه به طور پيش فرض در دسته هاي مختلفي قرار دارند، همراه با ساختار دسته بندي خود وارد سيستم مي شوند و سيستم بر اساس آ نها به خود آموزش مي دهد يا به عبارتي پارامترهاي دسته بندي را براي خود مهيا مي كند. دسته ديگر از ورودي هايي هستند كه پس از مرحله آموزش و براي تعيين دسته وارد سيستم مي شوند.








انجام پایان نامه

انجام پایان نامه کامپیوتر، انجام پایان نامه ارشد کامپیوتر، انجام پایان نامه، پایان نامه

برای دیدن ادامه مطلب از لینک زیر استفاده نمایید

 

سفارش پایان نامه