انجام پایان نامه

درخواست همکاری انجام پایان نامه  بانک مقالات رایگان انجام پایان نامه

سفارش پایان نامه

|

انجام پایان نامه ارشد

 پایان نامه 

مشاور پایان نامه|تقسيم‌بندي صفحات وب  68 ص



معرفی فصل دوم پایان نامه:
1-1-    روش های مختلف تقسیم بندی صفحات وب
در این بخش همانگونه که از عنوان آن پیداست به معرفی و مقایسه ی روش های متفاوت تقسیم بندی می پردازیم.این بخش شامل سه قسمت مجزاست که در هر قسمت هر یک از این روش ها به تفصیل مورد بحث قرار گرفته اند:

1-1-1- تقسیم بندی صفحات وب بطور مختصر
با رشد سریع جهان پهنه ی گسترده ی وب  نیاز فزاینده ای به فعالیت های گسترده در جهت کمک به کاربران صفحات وب برای  طبقه بندی و دسته بندی این صفحات وجود دارد . این قبیل کمک ها که در سازمان دهی مقادیر زیاد  اطلاعات که با سیستم های جستجو در ارتباط هستند و یا تشکیل کاتالوگ هایی که تشکیلات وب را سامان دهی می کنند ، بسیار مفید هستند.از نمونه های اخیر آن می توان یاهو و فرهنگ لغت looksmart (http://www.looksmart.com) که دارای کاربران زیادی هستند را نام برد.
 شواهد نشان می دهد که طبقه بندی نقش مهمی را در آینده سیستم های جستجو بازی می کند. تحقیقات انجام شده  نشان می دهد که کاربران ترجیح می دهند برای جستجو ، از کاتولوگ های از پیش دسته بندی شده استفاده کنند . از طرفی رسیدن به این قبیل نیاز های اساسی بدون تکنیک های خودکار دسته بندی صفحات وب و تحت ویرایش دستی و طبیعی توسط انسان بسیار مشکل است . زیرا با افزایش حجم اطلاعات طبقه بندی دستی بسیار وقتگیر و دشوار است.
    در نگاه اول ، دسته بندی صفحات وب را می توان از برنامه های اداری دسته بندی متون مقتبس نمود.اگر بخواهیم در یک آزمایش ملموس تر به نتایج دقیق برسیم، راه حل مساله بسیار دشوار خواهد شد.صفحات وب ساختار اصلی و اساسی خود را در قالب زبان HTML قرار می دهند که آنها شامل محتویات پر سروصدا مانند تیترهای تبلیغاتی و یا هدایت گرهای راهنما و غیر متنی هستند.اگز روش های خاص طبقه بندی ویژه متون برای این صفحات بکار گرفته شود چون متمایل به یک الگوریتم خاص دسته بندی متون است ، گمراه شده و باعث از دست رفتن تمرکز بر موضوعات اصلی و محتویات مهم می شود.زیرا این محتویات فقط شامل متن نیست.
    پس وظیفه و هدف مهم ما طراحی یک کاوشگر هوشمند برای جستجوی مطالب مهم صفحات وب است که هم شامل اطلاعات متنی و هم سایر اطلاعات مهم باشد.در این مقاله ما نشان می دهیم که تکنیک های خلاصه سازی صفحات وب برای جستجوگر ها دسته بندی صفحات وب ، تکنیکی کاربردی و بسیار مفید است. ما همچنین نشان می دهیم که به جای استفاده از تکنیک های خلاصه سازی در فضای وب که عمدتا برای متون طراحی شده ، می توان از برنامه ها و تکنیک های خاص خلاصه سازی صفحات وب استفاده کرد. به منظور جمع آوری شواهد قابل ملموسی که نشان دهیم تکنیک های خلاصه سازی در صفحات وب سودمند هستند، ما ابتدا یک آزمایش موردی ایده آل را بررسی می کنیم که در آن هر صفحه وب ، با خلا صه این صفحه، که توسط انسان خلاصه شده جابجا شده است.پس از انجام این آزمایش در می یابیم که در مقایسه با استفاه از متن کامل صفحه وب ، حالت خلاصه شده رشد چشمگیر 14.8 درصدی داشته است که پیشرفت قابل ملاحظه ای شمرده می شود.به علاوه در این مقاله ما یک تکنیک جدید خلاصه سازی صفحات وب را پیشنهاد می کنیم که این روش موضوعات اصلی صفحات وب را با روش آنالیز لایه ای صفحات برای بالا بردن دقت دسته بندی استخراج می کند.
     سپس عملیات دسته بندی را به همراه الگوریتم اجرای آن ارزیابی می کنیم و آن را با روش های سنتی دسته بندی خودکار متون که شامل روش های نظارتی و غیر نظارتی می باشد مقایسه می کنیم.در آخر ما نشان می دهیم که یک اسمبل از روش خلاصه سازی حدود 12.9 درصد پیشرفت را می تواند حاصل کند که این عدد بسیار نزدیک به حدود بالایی است که ما در آزمایش ایده آل خود به آن دست یافتیم.
    نتیجه کلی این مقاله این است که جستجو گر هایی که فقط برای متون طراحی شده اند در حالت کلی گزینه مناسبی برای جستجو در فضای وب نیستند و ما نیاز به برنامه هاو جستجو گر هایی داریم که صفحات وب را در لایه های مختلف و همچنین سطوح متفاوت بررسی و جستجو کنند. لذا استفاده از مدل هایی که روش های خلاصه سازی و دسته بندی را بادقت بیشتری انجام می دهند، سرعت و دقت جستجو را افزایش خواهد داد.

1-1-2- تقسیم یندی صفحات وب با استفاده از الگوریتم اجتماع مورچه ها
در این بخش هدف کشف کردن یک مجموعه  خوب  قوانین  تقسیم  بندی  به  منظور  رده بندی کردن صفحات وب بر اساس موضوعات آنهاست. الگوریتم استفاده شده در این فصل الگوریتم اجتماع مورچه( اولین الگوریتم بهینه سازی اجتماع مورچه) برای کشف  قوانین  تقسیم بندی  در زمینه ی  استخراج مضامین  وب می باشد. همچنین مزایا و معایب  چندین  تکنیک  پیش پردازش متنی  بر اساس زبان شناسی  را  به منظور کاهش مقدار  زیادی از علائم و نشان های به هم پیو سته  با استفاده از استخراج  مضامین وب  بررسی می کند.
   نگهداری صفحات وب بسیار چالش پذیر تر است.زیرا شامل متون غیر سازمان یافته و یا نیمه سازمان یافته بسیاری در صفحات وب یافت می شود. به علاوه تعداد زیادی از لغات و خصوصیات در رابطه با صفحات وب بالقوه موجود است . و یک تحلیل تئوری از      الگوریتم مورچه (تحت یک نگاه بدبینانه) نشان می دهد که زمان محاسباتی شدیدا به مقدار توصیفات و خصوصیات حساس است . پس استنباط اینکه این الگوریتم در رابطه با مجموعه داه هایی که در عمل خصوصیت های زیادی دارند  و همچنین در چالش با دنیای وب و نگهداری وب ها چگونه مقیاس بندی می کند ، از اهمیت فراوانی برخوردار است.
    در آخر تحقیق در مورد اینکه تکنیک های مختلف جستجوی متون که توصیفات و خصوصیات آنها رو  به افزایش است ، چه تاثیری بر عملکرد الگوریتم خواهد گذاشت دارای اهمیت می باشد.
    نتیجه کلی این مقاله این است که باافزایش اطلاعات صفحات وب جهت سهولت در برداشت و جستجو نیازمند دسته بندی و طبقه بندی آنها هستیم.برای دسته بندی نیاز به یک الگوی مناسب وجود دارد که این انتخاب الگو نیز به نوبه خود نیازمند قواعد کلی و مناسب ا ست.قواعد شامل مقدمه ها و نتایج هستند که مارا در جهت ایجاد الگوی مناسب برای دسته بندی یاری می دهند.
    هدف ما دسته بندی اطلاعات بر حسب موضوع است که نباید به صورت جزئی و خاص این مهم را انجام داد ، بلکه دسته بندی مناسب و معقول باید عمومی ، مفید و جامعه نگر باشد.

1-1-3- تقسیم بندی صفحات وب براساس ساختارپوشه ای
اخیرا در حجم داده های موجود در web یک افزایش نمایی وجود دارد. بر این اساس ، تعداد صفحات موجود در web  در حدود 1 میلیارد است و روزانه تقریبا 1.5 میلیون به آن اضافه می شود. این حجم وسیع داده علاوه  بر تاثیرات متقابل ،وب رابه شدت مورد توجه عامه مردم قرار داده است.
 در هر حال ، در مواردی چون اطلاعات ، محتویات و کیفیت تا حدود زیادی با یکدیگر تفاوت دارند. به علاوه ، سازمان این صفحات اجازه یک تحقیق ساده را نمی دهد. بنابراین ، یک روش دقیق و موثر برای  دسته بندی این حجم از اطلاعات برای بهره برداری از تمام قابلیت های وب بسیار ضروری است. این ضرورت مدت زیادی است که احساس شده است و رویکردهای مختلفی برای حل این مشکل پیشنهاد شده است.
برای شروع ، دسته بندی توسط متخصصین شبکه جهانی به صورت دستی انجام شد. اما خیلی سریع ، دسته بندی به صورت اتوماتیک ونیمه اتوماتیک در آمد. تعدادی از رویکردهای مورد استفاده شامل دسته بندی متن بر اساس الگوریتم های آماری است ، رویکرد -Kنزدیکترین همسایه ، یادگیری قوانین القایی ، در خت های تصمیم ، شبکه های عصبی و ماشین های برداری پشتیبان ، از جمله این موارد می باشند. تلاش دیگری که در این زمینه صورت گرفت ، دسته بندی محتویات وب بر اساس ساختمانی وراثتی است.
به هر حال ، علاوه بر محتویات متن در صفحات وب ، تصاویر ، نمایش ها و دیگر موارد رسانه ای در کنار هم و در تعامل با ساختمان متن ، اطلاعات زیادی را برای دسته بندی صفحات می دهند.
 الگوریتم های دسته بندی موجود که به تنهایی روی محتویات متن برای دسته بندی ، تکیه دارند ، از این جنبه ها استفاده نمی کنند. به تازگی با رویکردی اتوماتیک بر اساس   جنبه ای  برای دسته بندی صفحات وب  روبرو شده ایم.

ما یک رویکرد برای دسته بندی اتوماتیک صفحات وب  توصیف کرده ایم واز تصاویر و ساختمان صفحه برای دسته بندی استفاده می کند.نتایج حاصله کاملا امیدوار کننده است . این رویکرد می تواند در کنار   دیگر رویکرد های مبتنی بر متن توسط موتور های جسنجو گر برای  دسته بندی صفحات وب ، مورد استفاده قرار گیرد .
عملیات جاری ما روشی را برای دسته بندی استفاده می کند که در آن وزن اختصاص یافته به هر جنبه به طور دستی چند جنبه ابتکاری دیگر ( مانند قرار دادن یک صفحه به عنوان صفحه ی خانگی ) می تواند دقت دسته بندی را افزایش دهد. در حال حاضر ، ما تنها از تصاویر علاوه بر اطلاعات ساختمان صفحات استفاده کرده ایم و از جنبه هایی چون  صوت و نمایش استفاده نکرده ایم.

معرفی فصل سوم پایان نامه:

1-2- جستجوی وب با استفاده از طبقه بندی خودکار
پهنه  مرزی  جستجوی  مساعد  و  مفید کاربر  برای  صفحات  وب  هنوز  یکی از مهمترین  مبارزه طلبی ها  درسهل  نمودن آن برای عموم  می باشد و در حقیقت  همه ابزارهای  جستجوی اخیر هر یک از ریزه کاری های نا چیز  یا فراخوانی ناچیز دستخوش تغییر می شوند.
 ما این مسئله را در این فصل با گسترش پهنه مرزی جستجوی که به طبقه بندی خودکار صفحات وب وابسته است مورد توجه قرار داده ایم. تقسیم بندی ما متکی بر علم رده بندی یاهو! می باشد اما از این نظر که آن خودکار می باشد  و توانایی در برگرفتن سریع تر   همه عظمت وب را در قبال  علم  رده بندی یاهو! دارد  با  هم  متفاوتند .  اعتبار آزمایشات طبقه بندی  ما  در  این  فصل  اطلاعات جانبی  را در  زمینه  قدرت  طبقه بندی  خودکار  ارائه  می کند .
همچنین جستجوی  مجدد  ما نشان می دهد که تقسیم  بندی وب و ابزار های جستجو باید برای مهارت هایی نظیر تشخیص هرزنامه ی وب که از موجودی های چنین ابزار هایی  نتیجه شده اند ، پاداشی در نظر بگیرند.      
تهیه یک روش  تحقیق  و جستجو موثر و مطلوب در وب همچنان یکی از چالش های مهم برای در دسترس عموم قرار دادن آن است . تصور کنید که شما به عنوان یک جستجو گر می خواهید وزن متوسط یوز پلنگ رابدانید. اگر شما تصمیم بگیرید که بوسیله ی کلمات کلیدی "یوز پلنگ" و " وزن " جستجو را انجام دهید ، تقریبا 900 متن مطابق با کلمات مورد نظر را خواهید یافت . اما متا سفانه شما به سرعت آن جواب مورد نظر را نخواهید یافت . نتایج جستجو با صفحات زیادی که شامل  " ماشینهای جاگوار " ، "آتاری جاگوار " به عنوان یک سیستم بازی خانگی ، و احتمالا حتی تیم فوتبال " جاگوار " ، همراه خواهد شد. از این 900 صفحه ، یافته ایم که بالاترین متن موجود در لیست که شامل اطلاعات مورد نظر ما است ، متن 41 می باشد .  ( وزن متوسط جنس نر ، بین 125 تا 250  پوند است.)
حال سوال این است که آیا ما کم وبیش می توانیم به یک موتور جستجو گر مانند Alta Vista بگوییم که جستجوی ما با این کلمات کلیدی تنها باید محدود به متون مربوط به جانور شناسی و یا موارد دیگری از علوم باشد؟
یک رویکرد برای محدود کردن جستجو استفاده از یک شاخه مانند یاهو! است . متاسفانه این موارد تنها در بخش کوچکی از وب پوشش داده شده اند. در واقع ، تمامی ابزار های جستجو گر موجود در حال حاضر از دو مشکل دقت پایین ( به معنای تعداد بیش از اندازه متن های بدون ارتباط ) و فراخوانی ضعیف ( به این معنی که قسمت کوچکی از وب توسط این ابزار پوشش داده شده است.) رنج می برند.
ما بر این مورد یا توسعه یک جستجو که بر دسته بندی اتوماتیک صفحات وب تکیه دارد ، تاکید می کنیم. دسته بندی ما در یاهو! یک طبقه بندی علمی را می سازد ، اما با این تفاوت که اتوماتیک است و بنابراین این قابلیت را دارد که تمامی وب  را تحت پوشش قرار دهد .





فصل دوم
روش های متفاوت تقسیم بندی صفحات وب

2-1-  تقسيم بندي صفحات وب بطور مختصر
در اين فصل ما به بررسي ساختار مطلقاً پيچيده‌اي كه در صفحات وب جاسازي شده است مي پردازيم و چگونگي استفاده از اطلاعات را در خلاصه سازي صفحات وب نشان مي دهيم . در اينجا هدف ما استخراج كردن مفاهيم مربوطه‌ي بيشتر از صفحات وب و گذراندن آنها از يك الگوريتم تقسيم بندي متني استاندارد مي باشد .
 بويژه ما به چهار شيوه‌ي متفاوت اجراي خلاصه سازي صفحات وب رسيدگي مي نماييم روش اول مشابه تكنيك خلاصه سازي  Luhn مي باشد،که در بخش 2-1-1-1- توضیح داده شده است . روش دوم مشابه استفاده از تحليل معنايي نهفته روي صفحات وب براي خلاصه سازي مي باشد . روش سوم پيدا كردن مفاهيم مهم بدنه‌ ي اصلي متن و تركيب اجزاي آن به منظور خلاصه سازي مي باشد و در آخر ، روش چهارم نگريستن به خلاصه سازي همانند يك امر يادگيري نظارت شده مي باشد .
ما نتايج هر چهار روش خلاصه سازي شده را با هم تركيب كرده و در خلاصه سازي صفحات وب مورد استفاده قرار مي دهيم .

2-1-1-1- روش خلاصه سازي تعديل شده Luhn
 ما روش Luhn كه به منظور خلاصه سازي متون طراحي شده است را براي خلاصه سازي صفحات وب تغيير مي دهيم . روش Luhn يك شيوه‌ي اصولي خلاصه سازي است كه در آن هر جمله با يك عامل با معني ارجاع داده شده است و جملات با بزرگ ترين عاملهاي با معني شان به منظور شكل دادن خلاصه انتخاب شده اند به منظور محاسبه ي عامل با معني يك جمله نيازمند ساختن يك " منبع لغات با معني " هستيم كه كلماتي را كه فرآواني آنها بين بيشترين حد فرآواني و كمترين حد فرآواني مي باشد را معين مي كند . پس از انجام دادن اين كار عامل با معني يك جمله مي تواند توسط روش Luhn همانند زير محاسبه شود :
(1) قرار دادن يك حد L براي فاصله بين هر دو كلمه‌ با معني كه از نظر معني بهم مربوط مطرح شده‌اند.
(2) پيدا كردن يك بخش از جمله كه مساوي با كلمات با معني نه بيشتر از L می باشد و از كلمات غير معني دار است.
(3) شمارش تعداد كلمات معني دار آن بخش و تقسيم عادلانه‌ي اين تعداد توسط كل كلمات اين بخش .
نتيجه عامل با معني مربوط به S مي باشد .
به منظور تغيير دادن اين روال براي صفحات وب ما يك سري دستورات را براي الگوريتم Luhn مي سازيم . در امر تقسيم بندي صفحات وب ، دسته اطلاعات هر صفحه قبلاً در داده‌هاي آموزشي معلوم شده است ، بنابراين كلمات با معني انتخاب شده مي تواند بين هر دسته از قبل توليد شده باشد .
در اين روش ما براي هر دسته با انتخاب كردن كلمات با فرآواني زياد و پس از پاك كردن كلمات غير قابل استفاده در آن بخش يك منبع لغات بامعني ساختيم و سپس روش Luhn را به منظور محاسبه عامل با معني به كار گرفتيم.
اين تغيير دو مزيت دارد اول اينكه دانسته هاي قبلي بخش ها در خلاصه سازي مورد استفاده قرار مي گيرد و دوم اينكه برخي از لغاتي نسبتاً بطور مكرر دريك صفحه‌ي مجزا تكرار مي شوند از ميان آمار پوشه‌هاي متعدد پاك خواهند شد .
در طول خلاصه سازي صفحات وب در دوره‌ي آموزشي شان با معني در جمله با توجه به معني لغات با معني مطابق بر چسب آن بخش محاسبه خواهد شد .
براي تست صفحات وب اطلاعات آن بخش را در دست نداريم در اينجا ما عاملهاي با معني را براي هر جمله با توجه به منابع لغات با معني متفاوت در سرتا سر بخش‌هاي مختلف محاسبه مي نماييم .
نشان با معني جمله‌ي نهايي ميانگين همه‌ي بخش ها خواهد بود و به Luhn S منسوب است . خلاصه‌ي اين صفحه با جملاتي كه بالاترين نشان را دارند شكل خواهد گرفت .

 
2-1-1-2 – روش تحليل معنايي نهفته (LSA )
تحليل معنايي نهفته با موفقيت در بازيابي اطلاعات و بسياري از قلمروهاي مربوطه بكار رفته است و توانايي اين روش در ارائه كردن واحدها و اجزاي مربوط است كه به يك "فضاي خالي معنايي " با ابعاد خيلي بزرگ اشاره مي كند . در حوزه‌ي خلاصه سازي متني،روش گنگ  يكي از كارهايي است كه در متن هاي محض به روش LSA جواب داده است . در اين بخش ما چگونگي به كار بردن LSA را براي خلاصه سازي مرور خواهيم كرد .
روش تحليل معنايي نهفته مبني بر تجزيه‌ي ارزش منفرد (SVD)  مي باشد .
 SVD تكنيك تجزيه‌ي ماتريس رياضي است كه قابل اجرا بر روي متون توسط انسان هاي كار آزموده و با تجربه است . به عنوان مثال ماتريس   داده شده است كه هر بردار ستون   نماينده‌ي بردار واحد فرآواني داراي وزن جمله‌ي i در پوشه‌ي تحت ملاحظه مي‌باشد ، روش SVD همانند زير تعريف مي‌شود :

                                  

•    در اينجا  كه يك ماتريس نرمال ستوني است كه ستونهاي آن بردارهاي منفرد طرف چپ ناميده مي شوند.
•     ، يك ماتريس قطري n  n است كه عناصر قطری غیر منفی آن با ارزش منفرد ، با ترتيب نزولي ذخيره شده‌اند .
•     يك ماتريس نرمال n  n است كه ستونهاي آن بردارهاي منفرد طرف راست ناميده مي‌شوند ، روش LSA در خلاصه سازي به دو علت كاربرد پذير است:
ابتدا اينكه ، LSA قابل تعريف و مدلسازي در رابطه‌ي متقابل بين واحدهاي طبقه بندي شده از نظر معنا وجملات مي باشد . دوم اينكه ، LSA مي تواند الگوي تركيبي كلمات برجسته و تكرار شونده‌ي متن را در پوشه‌اي كه يك موضوع خاص را توصيف مي كند بدست آورد. در روش LSA ، مفاهيم توسط يكي از بردارهاي منفردي كه مقدار متناظرشان نمايانگر اهميت درجه‌ي آن الگو در يك پوشه مي باشد ، نشان داده مي‌شود. هر جمله اي شامل اين الگوي تركيبي لغات در اين بردار منفرد ارائه خواهد شد . هر جمله‌اي كه اين الگو را بهتر نمايش دهد ،بيشترين مقدار شاخص اين بردار را خواهد داشت اين شاخص را با   نمايش مي دهيم . و جملات با بالاترين شاخص را براي خلاصه سازي انتخاب مي كنيم .

2-1-1-3- شناسايي  مضمون  بدنه  اصلي  توسط  تجزيه  و تحليل لايه‌اي
 كاراكترهاي ساخت يافته‌ي صفحات وب ، خلاصه سازي صفحات وب را از خلاصه سازي متني محض متفاوت مي سازد . انجام اين كار روي اجزاء بسيار زياد يك صفحه وب مشكل است . همانند بلاك واسط كاربر، آگهي تبليغاتي و اطلاعات حق چاپ.
به منظور استفاده از اطلاعات ساخت يافته‌ي صفحات وب ما يك نسخه ساده شده از تابع مدل شي‌‌ء  را بكار مي‌گيريم.
تابع مدل شيء تلاش مي كند تا منظور يك برنامه نويس كامپيوتر را با مشخص كردن تابع شيء و دسته‌ي مربوط برساند . در تابع مدل شي ء اشياء به دسته‌هاي شيء اصلي (BO) كه شامل كوچكترين اطلاعاتي است كه قابل تقسيم شدن نيستند يا شيء مركب ( CO) كه يك مجموعه از اشيايي هستند كه چندين تابع را با يكديگر اجرا مي‌نمايد .
فايل ( pegj) يك مثال از شيء اصلي مي‌باشد . هيچ گونه برچسب ديگري درون محتواي شيء اصلي نمي باشد با توجه به این معيار پيدا كردن تمامي شيء هاي اصلي درون يك صفحه وب آسان است .
همچنان اشياء مركب مي توانند توسط تحليل لايه‌اي صفحات وب نمايان شوند . پس از يافتن تمامي اشياء اصلي و اشياء مركب در يك صفحه وب ما مي توانيم طبقه‌ي هر شيء را با توجه به برخي قوانين اكتشافي تعيين كنيم . در اينجا ما يك نظر اجمالي بر مضامين طبقات اشياء مي اندازيم .
1- شيء اطلاعاتي : اين شيء اطلاعات مضامين را نمايش مي دهد .
2- شيء واسط كاربر: اين شيء راهنمايي‌هاي واسط كاربر را در اختيار قرار مي دهد .
3- شيء عكس العمل : اين شيء عكس العمل جانب كاربر را مهيا مي نمايد .
4- شيء تزئيني : اين شيء براي اهداف تزئيني بكار مي رود .
5- شيء تابع خاص : اين شيء توابع خاص را اجرا مي كند .
به منظور استفاده از اين اشياء از انواع اشياء بالا ما بدنه اصلي مضمون  (CB) يك صفحه‌ي وب را توضيح مي دهيم كه شامل اشياء اصلي مربوط به متن آن صفحه مي باشد. اين ها اشيايي هستند كه اطلاعات اصلي در مورد آن صفحه را حمل مي‌كنند. الگوريتم نمايش (CB) همانند زير است :
1- رسيدگي كردن به هر شيء انتخابي همانند يك پوشه‌ي منفرد .
2- محاسبه شباهت بين هر دو شيء .
3- در يك گراف شيء هسته با بيشترين درجه مشخص شده است.
4- استخراج كردن (CB) با تركيب تمام اشيايي كه یالی به شيء هسته دارد .
 در آخر ما يك امتياز  را به هر جمله اختصاص مي دهيم . اگر 1=  جمله شامل بدنه‌ي اصلي مضمون مي باشد و در غير اين صورت 0=   ، در انتها همه‌ي جملات با 1=   در خلاصه سازي صفحه‌ي وب به كار گرفته مي‌شود .

2-1-1-4- خلاصه سازي نظارت شده
 در اين بخش ما يك رويكرد نظارت شده را براي خلاصه سازي بكار مي گيريم كه بطور كامل از داده‌هاي آموزشي بر چسب دار استفاده مي كند و سپس يك الگوريتم يادگيري به منظور آموزش تلخيص كننده بكار گرفته مي‌شود تا تلخيص كننده بتواند شناسايي كند كه آيا يك جمله بايد براي خلاصه‌اش انتخاب شود يا خير . در مجموع هشت خصوصيت مورد استفاده در اين الگوريتم موجود مي باشد كه پنج تاي آنها خصوصيات متداول براي پوشه هاي متني و صفحات وب مي‌باشند و سه تاي باقيمانده مختص طراحي صفحات مي‌باشند .
برخي از علامت گذاري‌هادر زير توضيح داده شده اند :
PN: تعداد پاراگراف هاي يك پوشه
SN: تعداد جملات يك پوشه
 : تعداد جملات يك پاراگراف خاص K
Para(i): پاراگراف مربوط به جمله ي i
 : تعداد وقوع كلمه‌ي w در يك صفحه‌ي وب مشخص
 : تعداد جملات شامل كلمه‌ي W در b صفحه
به عنوان مثال اگر مجموعه جملات   در يك صفحه داده شده باشداين هشت خصوصيت مانندزير است :
(1)  = موقعيت يك جمله در يك پاراگراف خاص
(2) = طول يك جمله كه تعداد كلمات آن جمله را نشان مي دهد .
(3)   اين خصوصيت به منظور استفاده و حذف كلمات محلي تكرار شونده بكار مي رود .
(4) = شباهت بين جمله‌ي  و عنوان مي‌باشد .
(5) = شباهت بين جمله   و تمامي متن آن صفحه مي باشد.
(6) = شباهت بين جمله   و داده‌هاي يك صفحه وب مي باشد .
(7) = تعداد وقوع كلمه‌اي از جمله‌ي   در مجموعه لغات خاص .
با جمع آوري لغات مايل ، پررنگ و زير خط دار واقع در صفحه‌ي وب مجموعه لغات خاص ساخته مي‌شود.
(8) = ميانگين سايز فونت لغات در جمله است . بطور كل سايز فونت بزرگتر در يك صفحه‌ي وب نشاندهنده‌ي اهميت بيشتر مي باشد .
پس از اقتباس اين 8 خصوصيت از يك صفحه‌ي وب ما از يك روش طبقه بندي براي آموزش دادن به يك تلخيص كننده استفاده مي نماييم :

 

در اينجا P(s/S) بر نرخ فشرده سازي و اختصار تلخيص كننده دلالت مي كند كه مي تواند براي كاربردهاي خاص از پيش تعيين شده باشد و  احتمال هر خصوصيت I مي باشد و  احتمال شرطي هر خصوصيت i است به هر جمله‌اي يك امتيازي مي تواند تعلق گيرد كه با  نمايش داده مي‌شود.

2-1-1-5- يك دسته بندي كلي از خلاصه سازي
 با تركيب كردن چهار روش ارائه شده در بخش هاي قبل ما يك صفحه‌ي وب پيوندي به دست مي آوريم . بدين ترتيب با در اختيار داشتن يك صفحه وب مقدار امتيازات هر جمله را با چهار الگوریتم خلاصه سازي به طور جداگانه محاسبه مي نماييم . امتياز نهايي يك جمله مجموع اين چهار امتياز مي باشد :
                        
جملات با بالاترين S براي خلاصه ي صفحات وب انتخاب خواهند شد .

2-1-2- آزمايشات
 به منظور تست خلاصه سازي براي طبقه بندي صفحات وب چندين آزمايش انجام شده است . ابتدا ما طبقه بندي صفحات وب را بر روي خلاصه‌ي توليد شده توسط انسان تست مي كنيم تا متوجه شويم كه آيا خلاصه سازي مي تواند به طبقه بندي صفحات وب كمك كند يا خير ما " تلخيص كننده ي شناسايي بدنه‌ي مضمون " پيشنهاد شده‌ي خود را با دو الگوريتم سنتي مقايسه مي‌كنيم:
الگوريتم تعديل شده‌ي Luhn وروش هاي مبتني بر LSA . در انتها، يك دسته بندي كلي از خلاصه سازي ارزيابي شده است . ما در آزمايشاتمان همچنين تغييرات تنظيمات پارامترهاي متفاوت را براي حروف چيني بهترين خلاصه مطالعه مي نماييم .

2-1-2-1- مجموعه ی داده
 در آزمايشاتمان ما تقريبا از دو ميليون صفحه‌ي وب كه از شاخه‌ي مراجعه به وب عبور مي‌كنند  استفاده مي كنيم ( http://search.looksmart.com) به علت محدوديت پهناي باند شبكه ، ما تنها مي توانيم در حدود پانصد هزار صفحه وب را دانلود نماييم كه اين صفحات توسط ويرايشگران بشري توليد شده‌اند . از آنجائيكه اجراي آزمايشات بر روي اين مجموعه عظيم اطلاعات يك امر زمان بر است ، ما به طور اتفاق از %30 صفحات براي اهداف آزمايشي مان نمونه برداري مي كنيم. مطلب استخراج شده شامل 153019 صفحه مي باشد كه به 64 بخش تقسيم شده است كه بزرگترين بخش شامل 17473 صفحه است ، در حاليكه كوچكترين بخش تنها شامل 52 صفحه مي باشد . جداول 2-1 و 2-2 تعداد صفحات بزرگترين سه بخش و كوچكترين 3 بخش را نشان مي دهند.
به منظور كاهش خطاي تخميني از هم جدا شدن داده ها از يك روال تصديقي براي اين آزمايش كمك گرفته مي‌شود.

  جدول 2-1 سه بخش بزرگتر
        نام بخش       مجموع       تمرین      آزمایش
   کتابخانه / اجتماع            ١٧٤٧٣                ١٥٧٢٦              ١٧٤٧
   مسیر / مقصد       ١٣٣٢٤       ١١٩٩٢       ١٣٣٢
   سرگرمی / شهرت          ١٠١١٢                                   ٩١٠١       ١٠١١


  جدول 2-2 سه بخش كوچكتر
       نام بخش        مجموع       تمرین       آزمایش
ورزش ها / اخبار و امتیازات     ١٠٦       ٩٦         ١٠
مردم و چت / شخصی     ٧٤       ٦٧         ٧
مردم و چت / یافتن افراد     ٥٢       ٤٧         ٥



2-1-2-2- دسته كننده ها
 از آنجائيكه مركز توجه اين بخش ميزان تاثير خلاصه سازي صفحات وب براي طبقه بندي مي باشد ما در آزمايشاتمان دو دسته كننده‌ي معروف را انتخاب مي‌كنيم يكي از آنها دسته كننده‌ بيس ساده  است و ديگري ماشين بردار پشتيبان می باشد.

الف - دسته كننده‌ي بيس ساده ( NB):
دسته كننده‌ي بيس ساده يك الگوريتم طبقه بندي متني ساده ولي مؤثر مي باشد كه نيت و قصد آن استفاده از تركيب احتمالات كلمات و بخش ها به منظور برآورد احتمالات بخش هاي مربوط به يك پوشه مي باشد . اغلب پژوهشگران روش NB را با استفاده از قانون بيس بكار مي برند:

   

 در اين جا   مي‌تواند با شمارش تكرار هر بخش  تعداد بخش ها مي‌باشد ،  بر احتمال وقوع كلمه‌ي   در بخش  دلالت مي كند و  تعداد رخدادهاي كلمه  در  است و n تعداد كلمات در داده‌هاي آموزشي مي باشد .

ب - ماشين بردار پشتيبان (SVM)
ماشين بردار پشتيبان يك روش يادگيري بسيار قدرتمند مي باشد كه در شرايط تئوري يادگيري محاسباتي بنا نهاده شده و براي طبقه بندي متني باموفقيت به كار گرفته شده است . (SVM) با پيدا كردن يك سطح فوق العاده در فضاي ورودي‌هاي ممكن عمل مي كند. سطح فوق العاده تلاش مي‌كند تا نمونه‌هاي مثبت را از نمونه‌هاي منفي با استفاده از ماكزيمم كردن فضاي بين نزديك ترين نمونه هاي مثبت و منفي با سطح فوق العاده جدا كند.
اين امر ، طبقه بندي را براي تست كردن داده‌هايي كه نزديك اما مشابه داده‌هاي آموزشي نمي باشند تصحيح مي كند .
بنابراين الگوريتم SMO بطور كارا و مؤثر براي مجموعه‌هاي آموزشي عمل مي كند .

2-1-2-3- مقياس ارزيابي
 ما مقياس هاي استانداردي را براي ارزيابي اجراي تقسيم بندي وب بكار مي بريم مثل فراخواني مقياس F1 . پارامتر اندازه گيري دقيق (P) مقدار واقعي اجزاي مثبت بخش مي باشد كه توسط سيستم برگردانده شده است و فراخواني (R) مقدار اجزاء مثبت پيش بيني شده از ميان تمام اجزاي حقيقي مثبت بخش مي‌باشد . بنابراين تابع F1 ميانگين دقت مي‌باشد و مطابق زير فراخواني مي‌شود.
                               

به منظور ارزيابي ميانگين اجرا از بين بخش هاي متعدد دو روش قرار دادي وجود دارد : ميانگين كوچك و ميانگين بزرگ. ميانگين كوچك ميزان هم ارز هر پوشه را بدست مي آورد ، در حاليكه ميانگين بزرگ ميزان هم ارز هر بخش را صرف نظر از تعداد تكرارش بدست مي آورد . در آزمايشات ما تنها ميانگين كوچك به منظور ارزيابي طبقه بندي مورد استفاده قرار خواهد گرفت .

2-1-2-4- نتايج و تحليل هاي تجربي
 الف-خط مبنا
 يك روش ساده براي اجراي تقسيم بندي صفحات وب اين است كه با آن همانند يك پوشه‌ي متني محض رفتار نماييم . در آزمايش ما الگوريتم هاي بسيار پيشرفته‌ي متني طبقه بندي (NB,SVM) براي ساختن سيستم خط مبنا به كار برده شده‌اند. در ابتدا صفحات وب با پاك كردن بر چسب هاي HTML به پوشه‌ي متني محض تبديل شده‌اند و سپس هر صفحه‌اي همانند يك كيسه‌ي كلمات نمايش داده مي‌شود در حاليكه مقدار هر كلمه به واحد تكرار آن نسبت داده شده است . به منظور بالا بردن سرعت طبقه بندي ، يك روش ساده به نام " انتخاب فركانس پوشه (DF) " در آزمايش ما بكار گرفته مي‌شود.
در اين آزمايشات كلماتي كه DF آنها كم تر از شش مي باشد حذف خواهند شد و در آخر ما به نتايج طبقه بندي براساس كلمات انتخابي دست مي يابيم همانطور كه در سطر " كاملاً متني " از جدول 3 و جدول 4 نشان داده شده است .
 از اين دو جدول ما در مي يابيم كه روش SVM در تابع F1 كوچك به 0.651 مي رسد كه نتايج روش NB نسبتاً در حدود %2.4 افزايش را شامل مي‌شود .

 
     جدول 2-3 نتايج تجربي روش NB
      1Fکوچک         Rکوچک          Pکوچک
  کاملاً متنی    63.6±0.3                        57.7±0.3          70.7±0.3      
 عنوان    61.2±0.4         55.4±0.4          68.3±0.4      
 ماوراءداده    42.7±0.4         38.7±0.4          47.7±0.4      
 توصیف    73.0±0.4         66.2±0.4          81.5±0.4      
 بدنه مضمون    69.2±0.4         62.7±0.4          77.2±0.4      
 N H UL    69.8±0.5         63.3±0.4          77.9±0.4      
 ASL    68.1±0.5         61.7±0.4          75.9±0.4      
 نظارت    67.3±0.4         60.9±0.4          75.2±0.4      
 پیوندی    71.8±0.3         65.0±0.3          80.2±0.3      



       جدول 2-4 نتایج تجربی  SVM
       1Fکوچک        Rکوچک         Pکوچک
   کاملاً متنی    65.1±0.3         59.3±0.3          72.4±0.3       
   عنوان    61.7±0.3         55.9±0.3          68.8±0.3       
   ماوراءداده    42.8±0.4         38.8±0.4          47.8±0.4       
   توصیف         73.7±0.4          66.9±0.4          82.1±0.4
   بدنه مضمون    70.3±0.3         63.7±0.3          78.6±0.3       
   NUHL    69.3±0.3         62.8±0.3          77.3±0.3       
   ASL    71.0±0.3         64.3±0.3          79.2±0.3       
   نظارت     68.3±0.4         61.8±0.4          76.3±0.4       
   پیوندی    72.6±0.3         65.7±0.3          81.1±0.3       
 
ب-نتایج خلاصه سازی توسط انسان
به منظور تست میزان  تاثیر تکنیک  خلاصه سازی برای تقسیم بندی  صفحات  وب  ما یک طرح  آزمایشی قابل اجرا در  آزمایشاتمان  را مورد بررسی و مطالعه قرار می دهیم . ابتدا توصیف  و شرح حال  هر صفحه ی وب  را از وب سایت Look Smart استخراج کرده  و به عنوان یک خلاصه ی ایده آل آن  صفحه  به آن رسیدگی می نماییم . از آنجائیکه  توصیف و شرح حال  توسط ویرایشگران  شاخه ی وب  تالیف شده ،  کیفیت و چگونگی آن  برای امر خلاصه  سازی  صفحه  به اندازه ی  کافی خوب مطرح  شده است . پس  ما از دسته کننده ها مستقیما روی  این توصیف ها  استفاده می نماییم  بجای  اینکه از آنها  بر روی صفحات   کاملاً متنی  استفاده کنیم این آزمایشات می توانند در این امر به ما کمک زیادی کنند که ما متوجه شویم در بهترین  وضعیت  خلاصه سازی می تواند طبقه بندی را  اصلاح کند. به علاوه  عنوان  و ماوراء داده ی  یک صفحه ی وب  می توانند هر کدام به عنوان نوعی از  خلاصه ی صفحه ی وب  مورد بررسی  قرار بگیرند.
یک مثال از توصیف ، عنوان  و ماوراء  داده در شکل 2-1 نشان  داده شده است  و نتایج طبقه بندی  روی این خلاصه ی ایده آل در سطرهای مربوطه ی جداول 2-3 و 2-4 نشان داده شده است .
با مقایسه ی  طبقه بندی متنی محض ،  طبقه بندی براساس  توصیف تألیف  شده  توسط انسان  مقیاس F1 را با بیشتر از % 2/13 اصلاح می کند  . همچنین از میان تجارب  " موقعیت ایده آل " ما به این نتیجه  رسیدیم که  " خلاصه ی ایده آل " براستی در بهتر کردن و اصلاح اجرای  طبقه بندی  وب به ما کمک می کند . به علاوه اگر  امر خلاصه سازی  بخوبی انجام  نشود ،  " خلاصه ی نادرست  " به امر اجرا لطمه  وارد می کند . از اینرو  در نتیجه ی آزمایشاتمان ، امیدواریم که به یک خلاصه ی  خوب توسط تکنیک های خلاصه سازی  صفحات وب  دست یابیم .






            شکل 2-1 یک مثال از" خلاصۀ خوب " توسط انسان = توصیف ،عنوان وداده های یک صفحه    
             

ج-نتایج الگوریتم های خلاصه سازی  نظارت نشده
در این قسمت ما  الگوریتم های  خلاصه سازی  پیشنهادی خود را ارزیابی  می نماییم . ما شناسایی  مضمون بدنه ی اصلی را بااستفاده از تحلیل لایه ای صفحات آزمایش کرده و مقایسه  می نماییم  همانند دو الگوریتم   خلاصه سازی LSA , Luhn.

 .



چكيده پايان نامه

انجام پایان نامه

برای دیدن ادامه مطلب از لینک زیر استفاده نمایید

سفارش پایان نامه