پروپوزال داده کاوی در سازمان (docx) 49 صفحه
دسته بندی : تحقیق
نوع فایل : Word (.docx) ( قابل ویرایش و آماده پرینت )
تعداد صفحات: 49 صفحه
قسمتی از متن Word (.docx) :
centercenter
2042160-187325دانشگاه علامه طباطبايي
دانشکده مديريت و حسابداري
پايان نامه کارشناسي ارشد رشته مديريت امور شهري
کاربرد داده کاوي در کشف دانش پنهان ميان داده هاي سامانه 137 شهرداري تهران
استاد راهنما
دکتر جمال شهرابي
استاد مشاور
دکتر غلامرضا کاظميان
پژوهشگر
مينا گشادرو
زمستان 1390
تقديم به مادرم
آن که از نگاهش صلابت،
از رفتارش محبت
و از صبرش ايستادگي را آموختم...
به رسم ادب و احترام برخود لازم مي دانم، زحمات کليه اساتيد گرانقدرم را ارج نهاده و مراتب تشکر و سپاسگزاري قلبي خويش را از الطاف ايشان ابراز دارم.
از جناب آقاي دکتر شهرابي استاد راهنماي گرامي که با راهنمايي هاي ارزنده و حمايت هاي هميشگي شان نقش چشمگيري در به ثمر رسيدن اين تحقيق داشته اند صميمانه تشکر مي کنم.
از جناب آقاي دکتر کاظميان استاد مشاور گرامي به خاطر مساعدت ها و هم فکري هاي بي دريغشان سپاسگزارم. بي شک انجام اين پژوهش بدون همکاري و همدلي اين اساتيد غير ممکن مي نمود.
هم چنین از جناب آقای مهندس مجیدی مدیر فنی مرکز سامانه مدیریت شهری 137 و جناب آقای فرهند معاون فرهنگی-اجتماعی شهرداری تهران به خاطر همکاری های صمیمانه شان در دریافت اطلاعات مورد نیاز و نیز از جناب آقای مهندس هداوندی که با راهنمایی های ارزنده خود سهم بسزایی در پیشرفت کار داشتند تشکر می نمایم.
در پايان از خانواده ي مهربانم به ويژه خواهرم به خاطر صبوري، بردباري و حمايت هاي دلسوزانه شان سپاسگزارم.
پبامبر اکرم (ص):
دانش اگر در ثريا هم باشد مردماني از سرزمين پارس بدان دست خواهند يافت.
چکيده
شهرداري يکي از کليدي ترين سازمان هايي است که در ارائه ي خدمات شهري به شهروندان نقش مهمي ايفا مي کند. اين سازمان با به کار بستن دانش فن آوري اطلاعات و سيستم هاي مخابراتي و نيز توان متخصصان داخلي و مجرب در مديريت شهري، سامانه اي را ايجاد نموده است که شهروندان را نسبت به محيط زندگي خويش وارد عرصه مديريت مي نمايد و تلاش نموده امور شهري را با مشارکت فعال همين شهروندان به انجام رساند. از اين رو مي توان سامانه ي 137 را بانك اطلاعاتي دانست كه داده هاي ارزشمندي در زمينه ي مسايل شهري در آن جاي گرفته است.
اطلاعات حاصل از اين سامانه، حاوي مطالب مفيدي در مورد خدمات ارائه شده به شهروندان است و مي تواند به عنوان منبعي مهم و مناسب در انجام تحليل هاي داده کاوي مورد استفاده قرار بگيرد. به عنوان نمونه با استفاده از اين تحليل ها مي توان وقايع و مشکلاتي که ممکن است در آينده گريبان شهر را بگيرد پيش بيني کرد و آماده مقابله با اين مشکلات شد.
در اين تحقيق که از نوع تحقيقات کاربردی –توصيفی محسوب می شود، داده هاي سال 1389 سامانه 137 با استفاده از نرم افزار کلمنتاين 12 براي انجام فرايند داده کاوي مورد استفاده قرار گرفته است. يکي از نتايج اين تحقيق تعيين همگني مناطق از منظر سامانه 137 با استفاده از تکنيک خوشه بندي به دو دسته است؛ که نشان مي دهد مناطقي که در دسته دوم قرار گرفته اند آمادگي و آگاهي بيشتري براي برقراري ارتباط با سامانه دارند و ميزان تماس بالاتر شهروندان اين مناطق ارتباطي با مشکلات بيشتر آن ها ندارد.
هم چنين با استفاده از قوانين وابستگي ارتباط ميان مشکلات، مناطق و نواحي مورد بررسي قرار گرفته است و مشخص گرديد کدام نواحي در هر منطقه بيشتر مستعد بروز برخي مشکلات و معضلات شهري هستند که شهرداري مي تواند با کسب آمادگي بيشتر از بروز آن جلوگيري نمايد.
علاوه بر آن، نتايج به دست آمده، الگوهاي جالبي را نيز در پيش بيني تعداد تماس هاي مربوط به آب گرفتگي و آب افتادگي يک منطقه بر اساس ميزان بارش و يا تعيين وابستگي ميان پيام هاي آب گرفتگي بين نواحي مختلف يک منطقه خاص به دست داد.
انتظار مي رود نتايج به دست آمده در مديريت مشکلات شهري و افزايش سطح رضايت مندي شهروندان موثر واقع شود.
کلمات کليدي مديريت شهري، سامانه ي 137، داده کاوي، خوشه بندي، قوانين وابستگي، مدل خطي تعميم بافته، شبکه عصبي.
فهرست مطالب
عنوان صفحه
فصل اول: کليات
TOC \o "1-3" \f \h \z \u \t "Heading 4,1" مقدمه PAGEREF _Toc350583291 \h 1
1-1- بيان مساله PAGEREF _Toc350583292 \h 2
1-2- هدف تحقيق PAGEREF _Toc350583293 \h 3
1-3- سوالات تحقيق PAGEREF _Toc350583294 \h 3
1-4- اهميت و ضرورت تحقيق PAGEREF _Toc350583297 \h 4
1-5- قلمرو تحقيق PAGEREF _Toc350583298 \h 5
1-5-1-از منظر سازماني PAGEREF _Toc350583299 \h 5
1-5-2-از منظر زماني و مکاني PAGEREF _Toc350583300 \h 5
1-5-3-از منظر موضوعي PAGEREF _Toc350583301 \h 5
1-6- روش تحقيق و جمع آوري اطلاعات PAGEREF _Toc350583302 \h 5
1-7- تعريف واژه ها و اصطلاحات فنی PAGEREF _Toc350583303 \h 6
1-8- خلاصه فصل اول PAGEREF _Toc350583305 \h 6
فصل دوم: ادبيات تحقيق
مقدمه PAGEREF _Toc350583306 \h 8
2-1- مباني نظري PAGEREF _Toc350583308 \h 9
2-1-1-تاريخچه داده کاوي PAGEREF _Toc350583309 \h 9
2-1-2-تعريف داده کاوي PAGEREF _Toc350583310 \h 10
2-1-3-انواع داده کاوي PAGEREF _Toc350583311 \h 11
2-1-4-دلايل استفاده از داده کاوي PAGEREF _Toc350583312 \h 12
2-1-5-پيش نيازهاي يک داده کاوي موفق PAGEREF _Toc350583313 \h 12
2-1-6-مراحل فرايند داده کاوي ( استاندارد CRISP-DM ) PAGEREF _Toc350583314 \h 13
2-1-6-1شناخت کسب و کار PAGEREF _Toc350583315 \h 14
2-1-6-2شناخت داده ها PAGEREF _Toc350583316 \h 14
2-1-6-3آماده سازي داده ها PAGEREF _Toc350583317 \h 15
2-1-6-4مدل سازي PAGEREF _Toc350583318 \h 15
2-1-6-5ارزيابي مدل PAGEREF _Toc350583319 \h 15
2-1-6-6توسعه ي مدل PAGEREF _Toc350583320 \h 16
2-1-7-قابليت هاي اساسي داده کاوي PAGEREF _Toc350583321 \h 16
2-1-7-1 طبقه بندي PAGEREF _Toc350583322 \h 16
2-1-7-2 پيش بيني PAGEREF _Toc350583323 \h 17
2-1-7-3تحليل خوشه اي PAGEREF _Toc350583324 \h 17
2-1-7-4تخمين PAGEREF _Toc350583325 \h 18
2-1-7-5گروه بندي شباهت يا قوانين وابستگي PAGEREF _Toc350583326 \h 19
2-1-7-6توصيف و نمايه سازي PAGEREF _Toc350583327 \h 20
2-1-8-دسته بندي الگوريتم هاي داده کاوي PAGEREF _Toc350583328 \h 20
2-1-9-الگوريتم هاي خوشه بندي PAGEREF _Toc350583329 \h 21
2-1-9-1روش افرازي ( تقسيم بندي) PAGEREF _Toc350583330 \h 21
2-1-9-1-1الگوريتم K-means PAGEREF _Toc350583331 \h 22
2-1-9-2روش هاي سلسله مراتبي PAGEREF _Toc350583332 \h 22
2-1-9-3روش هاي مبتني بر چگالي PAGEREF _Toc350583333 \h 23
2-1-10-الگوريتم هاي وابستگي قواعد PAGEREF _Toc350583334 \h 23
2-1-10-1الگوريتم Naïve PAGEREF _Toc350583335 \h 23
2-1-10-2 الگوريتم Apriori PAGEREF _Toc350583336 \h 24
2-1-11-الگوريتم هاي طبقه بندي PAGEREF _Toc350583337 \h 26
2-1-11-1الگوريتم درخت طبقه بندي و رگرسيون (CART) PAGEREF _Toc350583338 \h 26
2-1-11-2الگوريتم درخت تصميم C4.5 PAGEREF _Toc350583339 \h 27
2-1-11-3الگوريتم هاي شبکه هاي بيزين PAGEREF _Toc350583340 \h 29
2-2-1-مديريت شهري و شهرداري PAGEREF _Toc350583342 \h 30
2-2-2-نقش فن آوري اطلاعات در توسعه ي مديريت شهري PAGEREF _Toc350583343 \h 31
2-2-3-معرفي سامانه مديريت شهري 137 شهرداري تهران PAGEREF _Toc350583344 \h 33
2-2-3-1نحوه ي عملکرد سامانه مديريت شهري 137 PAGEREF _Toc350583345 \h 36
2-2-3-2ماموريت هاي مرکز سامانه مديريت شهري 137 PAGEREF _Toc350583346 \h 38
2-2-3-3رويکردهاي اجرايي مرکز سامانه مديريت شهري 137 PAGEREF _Toc350583347 \h 38
2-2-3-4چشم انداز مرکز سامانه مديريت شهري 137 PAGEREF _Toc350583348 \h 39
2-2-3-5ساختار سازماني سامانه مديريت شهري 137 PAGEREF _Toc350583349 \h 39
2-2 مدل مفهومي تحقيق PAGEREF _Toc350583350 \h 40
2-3- ادبيات ياپيشينه تحقيق PAGEREF _Toc350583351 \h 40
2-4- خلاصه فصل دوم PAGEREF _Toc350583352 \h 44
فصل سوم: روش تحقيق
مقدمه PAGEREF _Toc350583353 \h 46
3-1- نوع تحقيق PAGEREF _Toc350583355 \h 46
3-2- مدل فرايندي داده کاوي بر اساس استاندارد CRISP-DM PAGEREF _Toc350583356 \h 47
3-2-1-شناخت کسب و کار PAGEREF _Toc350583357 \h 47
3-2-2-شناخت داده ها PAGEREF _Toc350583358 \h 48
3-2-3-آماده سازي داده ها PAGEREF _Toc350583359 \h 48
3-2-4-مدل سازي PAGEREF _Toc350583360 \h 49
3-2-5-ارزيابي مدل PAGEREF _Toc350583361 \h 49
3-2-6-توسعه مدل PAGEREF _Toc350583362 \h 49
3-3-داده هاي تحقيق PAGEREF _Toc350583363 \h 50
3-4-جامعه آماري, روش نمونه گيري و حجم نمونه PAGEREF _Toc350583364 \h 50
3-5-روش گردآوري اطلاعات و ابزار سنجش PAGEREF _Toc350583365 \h 50
3-6-نوع داده ها و مقياس آن ها PAGEREF _Toc350583366 \h 51
3-7-ساختار اجرايي تحقيق PAGEREF _Toc350583367 \h 51
3-7-1-درک مساله کسب و کار PAGEREF _Toc350583368 \h 51
3-7-2-درک داده ها PAGEREF _Toc350583369 \h 52
3-7-3-آماده سازي داده ها PAGEREF _Toc350583370 \h 53
3-7-4-مدل سازي PAGEREF _Toc350583371 \h 55
3-7-5-ارزيابي نتايج PAGEREF _Toc350583372 \h 56
3-7-6-به کارگيري مدل PAGEREF _Toc350583373 \h 56
3-8-مدل اجرايي تحقيق PAGEREF _Toc350583374 \h 56
3-9-خلاصه فصل سوم PAGEREF _Toc350583375 \h 58
فصل چهارم: تجزيه و تحليل داده ها
مقدمه PAGEREF _Toc350583376 \h 60
4-1- توصيف داده ها PAGEREF _Toc350583378 \h 60
4-2- تحليل توصيفي داده ها با استفاده از جداول و نمودارهاي توصيفي PAGEREF _Toc350583379 \h 63
4-2-1-طبقه بندي بر اساس نوع مشکل PAGEREF _Toc350583380 \h 63
4-2-2-طبقه بندي بر اساس منطقه بروز مشکل PAGEREF _Toc350583381 \h 66
4-2-3-شاخصهاي توصيفي سرانه PAGEREF _Toc350583382 \h 67
4-3- تحليل داده ها با استفاده از تکنيک هاي داده کاوي PAGEREF _Toc350583383 \h 70
4-3-1-شناسايي مناطق همگن از منظر سامانه 137 PAGEREF _Toc350583384 \h 70
4-3-1-1ارزيابي خوشه ها PAGEREF _Toc350583385 \h 76
4-3-2-پيش بيني وضعيت تماس هاي آب گرفتگي در هر يک از مناطق به ازاي بارش هر ميليمتر باران PAGEREF _Toc350583386 \h 77
4-3-2-1 مدل تعميم يافته خطي PAGEREF _Toc350583387 \h 77
4-3-2-2مدل شبکههاي عصبي PAGEREF _Toc350583388 \h 82
4-3-3تعيين ارتباط ميان آب گرفتگي نواحي مختلف يک منطقه PAGEREF _Toc350583389 \h 84
4-3-4تعيين نواحي مستعدتر در هر منطقه در بروز مشکلات و معضلات شهري PAGEREF _Toc350583390 \h 86
4-4- خلاصه فصل چهارم PAGEREF _Toc350583391 \h 87
فصل پنجم: بحث و نتيجه گيری
مقدمه PAGEREF _Toc350583392 \h 89
5-1-خلاصه PAGEREF _Toc350583394 \h 89
5-2- دلايل با اهميت بودن نتايج و دستاوردهاي تحقيق PAGEREF _Toc350583395 \h 90
5-3- جنبه ي نوآوري تحقيق PAGEREF _Toc350583396 \h 91
5-4- نتايج تحقيق PAGEREF _Toc350583397 \h 91
5-4-1-نتايج تحليل توصيفي PAGEREF _Toc350583398 \h 91
5-4-2-نتايج حاصل از تحليل داده کاوي و ارائه ي دانش استخراج شده PAGEREF _Toc350583399 \h 94
5-4-2-1نتايج حاصل از شناسايي مناطق همگن با استفاده از روش خوشه بندي دو مرحله اي PAGEREF _Toc350583400 \h 94
5-4-2-2- نتايج پيش بيني تماس هاي آب گرفتگي در هر يک از مناطق به ازاي بارش هر ميليمتر باران PAGEREF _Toc350583401 \h 95
5-4-2-3تعيين ارتباط میان آب گرفتگي نواحي مختلف يک منطقه96
5-4-2-4نتايج تحليل قوانين وابستگي براي شناسايي نواحي مستعدتر در هر منطقه در بروز مشکلات و معضلات شهري PAGEREF _Toc350583403 \h 97
5-5- پاسخ به سوالات تحقيق PAGEREF _Toc350583404 \h 97
5-6- محدوديتهاي تحقيق PAGEREF _Toc350583405 \h 98
5-7- پيشنهادات تحقيق PAGEREF _Toc350583406 \h 99
5-8- پيشنهادات جهت تحقيقات آتي PAGEREF _Toc350583407 \h 100
5-9- خلاصه فصل پنجم PAGEREF _Toc350583408 \h 101
فهرست منابع102
چکیده انگلیسی105
فهرست جداول
عنوان صفحه
TOC \h \z \t "Mina -Jadval,1" جدول 2-1 : نمونه اي از جدول پيام PAGEREF _Toc317048851 \h 35
جدول 2-2: تحقيقات خارجي در زمينه کاربرد داده کاوي در مراکز تماس PAGEREF _Toc317048852 \h 444
جدول4-1 : فيلد هاي جدول پيام61
جدول 4-2: فيلد هاي جدول اطلاعاتي مربوط به اعتبار مصوب عمراني مناطق PAGEREF _Toc317048854 \h 61
جدول4-3: فيلد هاي جدول اطلاعاتي مربوط به بارش مناطق PAGEREF _Toc317048855 \h 61
جدول4-4: فراواني گروه هاي تماس PAGEREF _Toc317048856 \h 63
جدول4-5 پراکندگي مشکلات مربوط به گروه جمع آوري و نصب65
جدول4-6 : طبقه بندي مشکلات بر اساس منطقه PAGEREF _Toc317048858 \h 66
جدول 4-7 سرانه تماس و بودجه مناطق بيست و دو گانه تهران68
جدول4-8: شاخصهاي نيکويي برازش PAGEREF _Toc317048860 \h 78
جدول4-9: آزمون درستنمايي مدل خطي تعميم يافته PAGEREF _Toc317048861 \h 78
جدول4-10 آزمون عوامل مدل خطي تعميم يافته79
جدول4-11 آزمون ضرائب مدل خطي تعميم يافته79
جدول4-12 بخشي از ارتباطهاي دنبالهاي شناسايي شده PAGEREF _Toc317048864 \h 85
جدول4-13 قوانين شناسايي شده به روش GRI PAGEREF _Toc317048865 \h 86
فهرست شکل ها
عنوان صفحه
TOC \h \z \t "Mina-Shekl,1" شکل 2-1 مراحل فرايند کشف دانش و جايگاه داده کاوي. PAGEREF _Toc363221364 \h 11
شکل2-2 مراحل فرايند CRISP-DM PAGEREF _Toc363221365 \h 13
شکل 2-1 چرخه گردش پيام- ماخذ: مرکز سامانه 137 PAGEREF _Toc363221366 \h 36
شکل 2-2ساختار سازماني سامانه مديريت شهري سامانه 137-ماخذ: مرکز مديريت سامانه 137 PAGEREF _Toc363221367 \h 39
شکل2-3 مدل مفهومي تحقيق PAGEREF _Toc363221368 \h 40
شکل3-1وضعيت ايستگاه هاي پنج گانه هواشناسي مستقر در شهر تهران مي باشد. PAGEREF _Toc363221369 \h 53
شکل3-2 روش اجرايي تحقيق PAGEREF _Toc363221370 \h 57
شکل4-1: درصد فراواني هر کدام از گروههاي تماس PAGEREF _Toc363221371 \h 64
شکل 4-2 :سهم مناطق در تماس هاي از نوع "جمع آوري خاک و نخاله" و "نصب سطل زباله مخزن دار" PAGEREF _Toc363221372 \h 66
شکل4-3: رابطه ميان تعداد تماس، جمعيت و اعتبار مصوب عمرانی PAGEREF _Toc363221373 \h 69
شکل4-4 بررسي نه عامل اول در خوشه بندي PAGEREF _Toc363221374 \h 73
شکل4-5 بررسي نه عامل دوم در خوشه بندي PAGEREF _Toc363221375 \h 74
.شکل 4-6 بررسي هفت عامل آخر در خوشه بندي PAGEREF _Toc363221376 \h 75
شکل 4-7 اعضاي خوشه هاي اول و دوم PAGEREF _Toc363221377 \h 76
شکل 4-8 : آناليز مدل خطی تعميم يافته PAGEREF _Toc363221378 \h 81
شکل 4-9: نمودار صعود PAGEREF _Toc363221379 \h 81
شکل 4-10: مدل شبکه عصبي PAGEREF _Toc363221380 \h 83
شکل 4-11: آناليز مدل شبکه عصبی PAGEREF _Toc363221381 \h 84
شکل 5-1 : رابطه ميان تعداد تماس، جمعيت و اعتبار مصوب عمراني PAGEREF _Toc363221382 \h 93
شکل 5-2 اعضای خوشه اول و دوم PAGEREF _Toc363221383 \h 94
1
فصل اول
کليات
مقدمه
تمايل به شهرنشيني و جاذبه هاي آن در ميان جامعه، به حدي رو به افزايش است که در حال حاضر شهرها به عنوان مهم ترين پايگاه رشد و توسعه و مرکز اصلي تحولات قرار گرفته اند. بنابراين در مسير دستيابي به توسعه ي پايدار، شهر يک شاخص مهم تلقي مي گردد که رشد وبالندگي آن ارتباط مستقيم با چگونگي مديريت و دستاورد هاي حاصله دارد.
مشارکت اگرچه به معناي عام آن از ديرباز با زندگي انسان پيوند داشته، اما به معناي جديد از عرصه سياست و پس از جنگ جهاني دوم آغاز شده است. اين نوع مشارکت در برخي از کشورهاي صنعتي جهان، در قلمرو اقتصادي و صنعتي آغاز شد؛ تا مردم را در مالکيت شريک سازد و پايه هاي پايدار و تداوم صنعت و اقتصاد را مستحکم سازد.
اما تازه ترين زمينه ي مشارکت، مشارکت شهروندان در اداره ي امور شهرهاست. اين نوع مشارکت يکي از الزامات زندگي شهري است و هنگامي تحقق مي يابد که شهرنشينان از حالت فردي که صرفاً در مکاني به نام شهر زندگي مي کنند درآيند و به شهروند بدل شوند.
مي توان گفت يکي از مسائل مهم در عرصه ي مديريت شهري، نحوه ي ارزيابي شهروندان از عملکرد مديريت شهري، اعتماد به اين نهاد و مشارکت در آن است. در اين ميان، نحوه ی عملکرد مديريت شهري، خود مي تواند عامل مهمي براي ميزان اعتماد شهروندان به مديريت شهري و مشارکت با آن باشد.
به عبارت ديگر با توجه به گسترش شهر نشيني و مهاجرت به شهرها، به خصوص كلان شهر تهران و با در نظر گرفتن جمعيت ميليوني اين شهر، عدم كارايي مديريت سنتي شهر و لزوم بهره گيري از مديريت متمركز همراه با به كارگيري از بروزترين دانش فن آوري اطلاعات، احساس مي شود. يكي از مشكلات بارز شهر تهران، عدم اطلاع به موقع مديران شهري از وجود و بروز حوادث و مشكلات در شهر مي باشد كه مشاركت بيشتر شهروندان در اداره ي شهر و برقراري ارتباط مستقيم مردم با سيستم مديريت شهري از طريق يك وسيله در دسترس و ارزان قيمت راه حل اين معضل بزرگ مي باشد(اميري 1389).
از اين رو شهرداري تهران در يک اقدام ابتکاري و با استفاده از فن آوري هاي نوين اطلاعاتي و ارتباطاتي، به راهاندازي سامانه ي مديريت شهري 137 جهت ايجاد ارتباط مستقيم شهروندان با مديران شهري به منظور انتقال نظرات و خواستهها و بيان مشکلات مربوط به امور مديريت شهري اقدام کرده است.
از طرفي تنوع و پيچيدگي در حوزه ي خدمات شهرداري، دسترسي به دانش مناسب براي تصميم گيري و توليد اطلاعات از ميان حجم انبوهي از داده ها را براي اين سازمان، بيش از پيش ضروري مي سازد. استفاده از فن آوري اطلاعات و ارتباطات نقش اساسي در حل مسائل تهران و کلان شهرها دارد. اين مساله به ويژه در مديريت شهري، اقتصاد شهري، توليد شغل و ارتقاي سطح فرهنگ شهروندي نقشي اساسي ايفا مي کند(هراتي زاده، 1386). يکي از ابزارهاي مناسب جهت ايجاد اين دانش سازماني و کمک به مديران در تصميم سازي و تصميم گيري صحيح به کارگيري فن آوري هاي نوين، نظير داده کاوي است.
از اين رو هدف اين تحقيق، به کارگيري تکنيک هاي داده کاوي در شناسايي و پيش بيني، نيازها و مشکلات شهري بر اساس داده هاي بدست آمده از سامانه ي مديريت شهري 137 مي باشد.
بيان مساله
شهرها، امروزه بسيار پيچيده شده اند. مشکلات متعددي هم چون آلودگي هوا، آلودگي صوتي، توليد انبوه زباله، دفن زباله هاي توليدي، توسعه معابر و آسفالت، فضاي سبز، بهداشت، و ... شهرها را احاطه کرده اند. با توسعه ي شهرها وظايف شهرداري ها در خدمت رساني هم توسعه پيدا کرده است. در مديريت شهري امروز که آن را اداره امور شهر بهمنظور ارتقاي مديريت پايدار مناطق شهري در سطح محلي و با تبعيت از اهداف سياست هاي ملي، اقتصادي و اجتماعي کشور مي دانند، مشارکت و تعامل، مفاهيمي محوري مي باشند(ويژهنامه مرکز مطالعات برنامهريزي شهري، شهرداري تهران 1387، ص 7).
يکي از راه هاي مشارکت شهروندان در اداره ي امور شهر برقراري ارتباط با شهرداري از طريق سامانه 137 مي باشد. اين سامانه که در رويكردي نوين توسط شهرداري تهران و با بهره مندي از دانش فن آوري اطلاعات، ايجاد شده است سعي در انجام سريع و دقيق امور شهري با نظر مستقيم و مشاركت فعال شهروندان دارد و تلاش مي نمايد ساكنين شهر را نسبت به محيط زندگي خويش وارد عرصه ي مديريت نمايد.
از نگاهي ديگر سامانه 137 يك بانك اطلاعاتي است كه داده هاي ارزشمندي در مورد مسايل شهري را در خود جاي داده است. كليه پيام ها و درخواست هاي مردم در بانك اطلاعاتي مركز سامانه 137 ذخيره شده و با استفاده از اين داده ها مي توان تحليل هايي كاربردي در بازه هاي زماني مختلف و به تفكيك لايه هاي مختلف اطلاعاتي مانند مناطق، نواحي و واحدهاي مختلف سازماني ارائه كرد. با استفاده از اين تحليل ها مي توان وقايع و مشكلاتي كه ممكن است در آينده گريبان شهر را بگيرد پيش بيني كرد و آماده مقابله با اين مشكلات شد. توانايي استخراج دانش مفيد نهفته در اين داده ها در جهان امروزي خود يک توانايي رقابتي محسوب مي شود و در چنين شرايطي است که بايد از رشد تکنولوژي براي استفاده موثر از اين ثروت بالقوه سود جست و داده کاوي نيز يک جواب بهينه براي استخراج اين ثروت است.
داده کاوي که يکي از ده دانش در حال توسعه مي باشد امروزه در امور کسب و کار مورد توجه بيشتر سازمان ها قرار گرفته است و هدف آن استخراج اطلاعات از پايگاه هاي داده و يافتن الگوهاي جديد، معتبر، مفيد و قابل فهم در داده ها مي باشد (http:// www.wikipedia.org).
در طول دهه گذشته، حجم زيادي از داده ها در پايگاه داده ها انباشته و ذخيره شده اند و نتيجه اين انباشتگي اين است که سازمان ها در داده غني ولي در کسب دانش بسيار ضعيف مي باشند. امروزه ميزان داده هاي در دسترس هر 3 سال دو برابر مي شود و سازماني تواناست که قادر باشد حداقل 7 درصد از اطلاعاتش را مديريت نمايد. تحقيقات انجام يافته نشان از آن دارد که سازمان ها امروزه کمتر از يک درصد از داده هايشان را براي تحليل استفاده مي نمايند. به عبارت ديگر امروزه سازمان ها در اطلاعات غرق شده اند در حالي که گرسنه دانش هستند؛ چرا که سازمان ها داده هاي زيادي را در تصرف خود دارند درحالي که هنوز با فقدان دانش پنهان درون داده ها مواجه هستند(www.irandatamining.ir).
هدف تحقيق
به کارگيري برخی از قابليت هاي داده کاوي نظير Clustering، Association Rules و ... بر روي اطلاعات سامانه ي137 و کشف روابط و الگوهاي پنهان ميان داده ها با استفاده از تکنيک هاي مختلف هريک از آن ها و بررسي و تحليل نتايج به دست آمده به منظور ارتقاي کيفيت خدمات شهري.
سوالات تحقيق
چگونه مي توان با استفاده از تکنيک هاي داده کاوي بر روي داده هاي سامانه 137 شهرداري تهران به پيش بيني مشکلات مناطق22 گانه شهرداري در حوزه ي کلان شهري پرداخت؟
چگونه مي توان با استفاده از تکنيک هاي داده کاوي بر روي داده هاي سامانه 137 شهرداري به کشف الگوي پنهان ميان مشکلات مناطق و حوزه هاي مختلف شهرداري دست يافت؟
اهميت و ضرورت تحقيق
با رشد فزاينده ي جمعيت در کلانشهر تهران و به دنبال آن افزايش مشکلات و مسائل ناشي از شهرنشيني در ابعاد وسيع اقتصادي، اجتماعي، فرهنگي و زيستمحيطي، لزوم ايجاد و استفاده از بسترهاي مديريت شهري جديد همراه با بهروزترين و کاربرديترين فن آوريها احساس ميشود (اميري، 1388،ص3 ).
تهران با جمعيت بيش از 8217236 نفر(سالنامه آماري شهر تهران- 1388) و مساحت 730 کيلومتر مربع پرجمعيت ترين کلان شهر ايران محسوب مي شود. ناگفته پيداست که ارائه خدمات شهري در چنين کلان شهري با تراکم بيش از 11256 نفر بر کيلومتر مربع که سفرهاي آونگي ساکنين شهرهاي دور و نزديک اطراف نيز به جمعيت روز آن مرتباً مي افزايد، نيازمند به کارگيري تمهيدات ويژه بوده و بدون حضور و نقش فعال شهروندان امکان پذير نمي باشد.
يکي از مشکلات رايج و فراگيري که در مديريت كلانشهر تهران مشاهده ميشود، ضعف دريافت اطلاعات به موقع مديران شهري درباره نيازهاي شهروندان و تشخيص ضرورتهاي ارائه خدمات شهري در نواحي و مناطق مختلف شهرداري ميباشد. در اين ميان يکي از بهترين روشها براي کسب اطلاعات دقيق در زمينه ی مسائل و مشكلات شهروندان و دريافت نقطهنظرات مردم پيرامون مديريت شهري، ايجاد خطوط ارتباطي مناسب با شهروندان و كسب اطلاعات از طريق خود آنان ميباشد و اين مهم با ايجاد سامانه اي موسوم به 137 در شهرداري تهران دنبال ميشود.
از اين رو شماره 137 پل ارتباطي بين شهروندان و شهرداري تهران است؛ که به شهروندان اجازه مي دهد مشکلات و کمبودهاي موجود در شهر را به اطلاع شهرداري برسانند. به عبارت ديگر سامانه 137، که از سال 1384 جايگزين صندوق صوتي پيام گير شهرداري گرديده است، فرايندي است که با سرلوحه قرار دادن اصول شهروند مداري، محله گرايي و مشارکت مردمي به اجرا در آمده تا اين مشکلات و درخواست هاي شهروندان را رسيدگي و برطرف نمايد.
کاوش داده ها و اطلاعات جمع آوري شده از طريق اين سامانه مي تواند منجر به شناسايي الگوهاي مهم و پنهاني شود که پيش از آن ممکن است مورد توجه قرار نمي گرفته و دانستن آن مديران شهري را در ارائه ي مطلوب خدمات شهري به شهروندان ياري مي رساند. زيرا دانش داده کاوي سازمان ها را قادر مي سازد تا از سرمايه ي داده هايشان بهره برداري نمايند. از اين ابزار براي پشتيباني فرايند تصميم گيري استفاده مي گردد. داده کاوي با پردازش جامع داده و انجام فرايند تصميم سازي از طريق استخراج دانش با ارزش از داده، تصميم گيري را براي مديران سازمان تسهيل مي نمايد.
قلمرو تحقيق
از منظر سازماني
قلمرو اين تحقيق از منظر سازماني، مرکز مديريت شهري سامانه ي 137 شهرداري تهران است که از سال 1384 جايگزين صندوق صوتي پيام گير شهرداري گرديده و اصول شهروند مداري، محله گرايي و مشارکت مردمي را سرلوحه خود در رسيدگي به درخواست ها و مشکلات مردم شهر تهران نموده است.
از منظر زماني و مکاني
قلمرو اين تحقيق از منظر مکاني – زماني، پيام ها و درخواست هاي واصله شهروندان در همه مناطق 22 گانه شهرداري تهران است که در طول فروردين تا اسفند ماه سال 1389 از طريق کانال هاي ارتباطي با 137 دريافت شده است.
از منظر موضوعي
از منظر موضوعي اين تحقيق در حوزه ي کاربرد داده کاوي در مديريت شهري جاي دارد. به اين ترتيب که در نتيجه داده کاوي سامانه 137 و کشف دانش پنهان ميان داده ها، به توسعه مديريت شهري خواهيم رسيد. کشف دانش پنهان منجر به تسهيل در امر تصميم سازي مديران، تخصيص بهينه منابع و آمادگي بيشتر در مقابل معضلات شهري خواهد شد. و در نتيجه توسعه مديريت شهري به افزايش مشارکت هاي مردمي و به کارگيري هر چه بيشتر فن آوري هاي نوين اطلاعاتي در فرايندهاي شهري نايل مي شويم.
روش تحقيق و جمع آوري اطلاعات
تحقيق حاضر از نظر هدف کاربردي و از نظر روش تشريحي محسوب مي شود. در اجراي تکنيک هايداده کاوي، از نرم افزار Clementine 12 استفاده شده است. دليل استفاده از اين نرم افزار توانايي آن در پردازش مجموعه هاي داده اي بزرگ و متداول بودن آن در ميان کاربران است. در بخش آماده سازي داده ها از نرم افزارهايي نظير Sql server 2008، Excel 2007 و Spss 16 استفاده شده است.
داده هاي اصلي اين تحقيق شامل برشي از بانک داده سامانه 137 در مقطع سال 89 مي باشد که از طريق مراجعه حضوري به آن مرکز و طي مراحل استاندارد و قانوني گرد آوري گرديده است. ساير داده هاي تحقيق که شامل اعتبار مصوب عمراني مناطق و ميزان بارش روزانه در سال 89 مي شود از اطلاعات معتبر منتشر شده در سايت اينترنتي شهرداري و هواشناسي به دست آمده است.
تعريف واژه ها و اصطلاحات فنی
داده کاوي(Data Mining): علم استخراج اطلاعات مفيد از پايگاههاي داده يا مجموعه دادهاي ميباشد.
انباره داده ها (Data Warehouse) : مجموعه اي از داده هاي ذخيره شده به شکل الکترونيکي در يک سازمان که به منظور استفاده در فعاليت هاي تحليلي و گزارش گيري طراحي و راه اندازي شده است.
خوشه بندي(Clustering): يکي از تکنيک هاي مهم داده کاوي است که اشياء با تعداد زيادي مشخصه را به زيرگروههاي معني دار جدا ازهم تقسيم بندي مي کند. به طوري که اعضاي هر گروه از نظر مقدار مشخصه هايشان، بيشترين شباهت را به هم دارند و با اعضاي ساير گروه ها بيشترين تفاوت را دارند.( هن و کمبر 2006)
قوانين وابستگي (Association Rules): هدف قوانين وابستگي تعيين کردن اين است که چه پديده هايي با هم در ارتباط بوده و به هم وابسته اند. نمونه ي اصلي اين کار تعيين اقلامي است که با هم در چرخه ي خريد مشتريان يک سوپرمارکت قرار مي گيرند.
خلاصه فصل اول
در اين فصل به کليات تحقيق پرداخته شد که شامل: بيان مساله، هدف تحقيق، سوالات تحقيق، اهميت و ضرورت تحقيق، قلمرو سازماني- زماني و مکاني- موضوعي تحقيق، روش تحقيق و جمع آوري اطلاعات، تعريف واژه ها و اصطلاحات فنی مي شد. توضيحات لازم ذيل هر بخش به تفصيل آورده شده است تا تصويري جامع و کلي از چارچوب تحقيق انجام يافته ارائه شود.
3
فصل سوم
روش تحقيق
مقدمه
در اين فصل ساختار مفهومي روش تحقيق تشريح مي گردد. براي اين منظور مباحث مرتبط با مدل و الگوريتم هاي مورد استفاده به تفصيل بيان مي گردند، سپس در خصوص داده ها و ساختار اجرايي تحقيق و گام هاي آن بحث خواهد شد.
نوع تحقيق
در اين قسمت نوع تحقيق بر مبناي هدف تحقيق و روش گردآوري داده ها بيان مي شود که در ادامه به شرح آن مي پردازيم:
بر اساس هدف تحقيقات
تحقيقات علمي بر اساس هدف، به سه دسته: بنيادي، کاربردي، تحقيق و توسعه تقسيم مي شوند. اين پژوهش از آن جهت که سعي در توسعه ي دانش داده کاوي در مديريت شهري دارد؛ تحقيق کاربردي محسوب مي شود.
بر اساس روش گردآوري داده ها
تحقيقات علمي بر اساس روش گردآوري اطلاعات به دو دسته کلي: تحقيقات توصيفي و تحقيقات آزمايشي طبقه بندي مي شوند. پژوهش حاضر از نوع توصيفي مي باشد زيرا محقق به دنبال کشف الگوهاي پنهان ميان داده ها و تشريح و تبيين دلايل چگونه بودن و چرايي اين الگوهاست.
مدل فرايندي داده کاوي بر اساس استاندارد CRISP-DM
با توجه به ماهيت تحقيق که استفاده از داده کاوي در کشف روابط و الگوهاي پنهان ميان داده هاي سامانه 137 شهرداري تهران مي باشد اين تحقيق از نوع داده محور محسوب مي شود. پايه اصلي تحقيق بر کشف دانش از پايگاه داده مرکز مديريت شهري 137 شهرداري تهران نهاده شده است. از اين رو استاندارد جهاني CRISP-DM جهت انجام فرايند تحقيق مورد استفاده قرار گرفته است که در فصل دوم به مراحل اصلي آن اشاره شد. هم چنين ساختار اجرايي تحقيق بر همين اساس مورد بررسي قرار گرفته است که در ادامه به آن مي پردازيم.
با توجه به اين که در اين تحقيق از تکنيک هاي متعدد داده کاوي براي مدل سازي استفاده شده است در هر بخش سعي شده الگوريتمي که بيشترين دقت را در مدل سازي ارائه مي کند به کار گرفته شود. در فصل بعد به تفصيل به جزئيات الگوريتم هاي به کار گرفته شده پرداخته مي شود.
شناخت کسب و کار
همان گونه که پيشتر اشاره شد؛ يکي از مسائل مهم در عرصه ي مديريت شهري، نحوه ي ارزيابي شهروندان از عملکرد مديران شهري، اعتماد به اين نهاد و مشارکت در آن است. با رشد فزاينده ي جمعيت در کلانشهر تهران و به دنبال آن افزايش مشکلات و مسائل ناشي از شهرنشيني در ابعاد وسيع اقتصادي، اجتماعي، فرهنگي و زيستمحيطي لزوم ايجاد و استفاده از بسترهاي مديريت شهري جديد همراه با بهروزترين و کاربرديترين فن آوريها احساس ميشود. از اين رو شهرداري تهران در يک اقدام ابتکاري و با استفاده از فن آوري هاي نوين ارتباطي در پياده سازي سامانه مديريت شهري 137، فصل جديدي را در ايجاد ارتباط باشهروندان و افزايش مشارکت آنان در زمينه ي شناسايي و اطلاع رساني مسائل و مشکلات شهري پايه ريزي کرده است.
هم اکنون با گذشت بيش از 6 سال از پياده سازي اين سامانه مي توان گفت که داده هاي ارزشمندي در زمينه مسائل شهري در بانک اطلاعاتي اين مرکز جمع آوري شده که با به کارگيري دانش داده کاوي به عنوان يکي از ابزارهاي پياده سازي هوش سازماني يا Business Intelligence بر روي اين داده ها به شهرداري در شناخت درست نيازهاي شهروندان و ارائه ي هر چه بهتر خدمات به آنان کمک نمود. نتيجه ي به کارگيري تکنولوژي داده کاوي در اين سامانه مي تواند منجر به شناسايي الگوهاي مهم و پنهاني شود که پيش از آن ممکن است مورد توجه قرار نمي گرفته و دانستن آن مديران شهري را در ارائه ي مطلوب خدمات شهري به شهروندان ياري مي رساند.
شناخت داده ها
داده هاي اصلي مورد استفاده در اين تحقيق از بانک اطلاعاتي مربوط به سامانه 137 شهرداري تهران به دست آمده که طي سال 1389 از طريق روش هاي 5 گانه ارتباط شهروندان با اين مرکز در سراسر مناطق 22 گانه شهرداري تهران جمع آوري شده است. هر پيام در اين سامانه داراي يک کد رهگيري مشخص مي باشد که از زمان ثبت پيام تا زمان اقدام همراه آن است. بانک اطلاعاتي اين سامانه SQL Server 2005 مي باشد.
با توجه به اين که اطلاعات فرد تماس گيرنده نظير شماره ي تلفن تماس گيرنده، نام و نام خانوادگي، در صورت تمايل شهروند در سامانه ثبت مي شود پس از بررسي مشاهده شد که در حجم وسيعي از رکوردها اين فيلد به صورت مقادير تهي ثبت شده بود و به همين دليل امکان طبقه بندي تماس ها به تفکيک شهروند ميسر نبود ( با در نظر گرفتن اين فرض که هر شهروند بيش از 1 بار در سامانه ثبت اطلاعات نموده است).
شرح دقيق فليدهاي جداول به کار رفته در اين تحقيق در بخش تحليل توصيفي آورده شده است.
آماده سازي داده ها
آماده سازي داده ها مهم ترين و زمان بر ترين بخش در انجام يک فرايند داده کاوي است و شامل مواردي هم چون حذف نقاط مغشوش، پر و يا حذف کردن مقادير مفقوده، تبديل و يا گسسته سازي و کاهش ابعاد داده هاست. هم چنين در اين مرحله بايد داده ها به فرمتي مناسب براي استفاده از نرم افزارها و برنامه هاي داده کاوي تبديل شوند. در قسمت روش اجرايي تحقيق به شرح فرايندهاي انجام شده در مرحله آماده سازي داده ها به تفصيل مي پردازيم.
مدل سازي
اين مرحله پياده سازي تکنيک هاي مدل سازي يا داده کاوي بر روي ديدگاه قابل کاوش ايجاد شده در مرحله قبل است. براي مدل سازي لازم است که ابتدا تکنيک مدل سازي انتخاب شود که در اين تحقيق سعي شده است از اکثر تکنيک ها (قابليت ها) ي داده کاوي نظير خوشه بندي، درخت تصميم و قوانين وابستگي در کاوش داده هاي موجود به کار گرفته شود. در هر مورد الگوريتم هاي موجود آزمايش و بر اساس نوع و تعداد رکوردهاي اطلاعاتي، بهترين الگوريتم انتخاب گرديده است.
براي اعمال اين تکنيک ها در تحقيق حاضر از نرم افزار SPPS Clementine به کار گرفته شده است. بدين شکل که داده ها با فرمت هاي شناخته شده در نرم افزار بارگذاري شده و الگوريتم هاي مختلف بر روي اين مجموعه داده ها اجرا گرديده است. نتايج به دست آمده در فصل چهارم ارائه شده است.
ارزيابي مدل
در اين مرحله مدل هاي طراحي شده در هر بخش مورد ارزيابي قرار مي گيرد تا مشخص شود آيا اهداف پيش بيني شده در انجام داده کاوي تامين شده است يا خير.
توسعه مدل
در آخرين مرحله، گزارش نهايي از محصول که همان دانش کشف شده است را مي توان در اختيار شهرداري تهران قرار داد تا راجع به استفاده از نتايج تصميم گيري نمايند.
با توجه به اين که اين تحقيق يک تحقيق کاربردي مي باشد، نتايج مي تواند به صورت يک سيستم جهت تصميم گيري مديران شهري کاربرد داشته باشد.
داده هاي تحقيق
داده هاي اين تحقيق شامل موارد زير مي باشد:
داده هاي حاصل از تماس شهروندان تهراني با مرکز سامانه مديريت شهري137 شهرداري تهران که هر يک به نوعي بيان کننده ي مشکلات شهري در يکي از مناطق 22 گانه شهرداري تهران مي باشد و به يکي از روش هاي 5 گانه ارتباطي که در بخش 2-2-3-1 به آن اشاره شده به اين مرکز اطلاع رساني شده و در بانک اطلاعاتي مربوطه ثبت گرديده است. اين داده ها مربوط به سال 1389 مي باشد.
داده هاي جمعيتي شهر تهران به تفکيک مناطق 22گانه شهرداري تهران.
داده هاي مربوط به وضعيت اعتبار عمراني مصوب 89 به تفکيک مناطق 22گانه شهرداري تهران.
داده هاي هواشناسي.
جامعه آماري, روش نمونه گيري و حجم نمونه
جامعه ي آماري اين تحقيق، 1.135.237 رکورد از بانک داده مرکز سامانه مديريت شهري 137 شهرداري تهران مي باشد که هر رکورد نمايانگر يکي از موضوعات و مشکلات شهري منعکس شده از سوي شهروندان در طول سال 1389 مي باشد.
از آن جايي که داده هاي جمعيتي، آب و هوايي و بودجه اي مناطق در طول سال مورد بررسي در بانک داده سامانه 137 ثبت و نگهداري نشده است، لذا داده هاي مذکور با مراجعه به سايت هاي مربوطه استخراج و ذخيره گرديد.
با توجه به اين که نتايج داده کاوي با داشتن داده هاي بيشتر از صحت بالاتري برخوردار مي شوند، بنابراين نمونه گيري در خصوص اين جامعه آماري صورت نگرفته است و تمامي داده ها به جز داده هاي پرت و داده هاي ناقص مورد استفاده قرار گرفته است.
روش گردآوري اطلاعات و ابزار سنجش
گردآوري داده هاي اصلي اين پژوهش از طريق مراجعه حضوري به مرکز سامانه مديريت شهري 137 شهرداري تهران و در اختيار گرفتن برشي از بانک اطلاعاتي اين سامانه در مقطع يک سال و مصاحبه با کارشناسان محترم معاونت فن آوري اطلاعات مرکز مديريت شهري137 که متولي امر پياده سازي اين سامانه از ابتدا و نظارت بر حسن اجراي نرم افزار اين سامانه و ارزيابي عملکرد و تهيه گزارش هاي آماري مرتبط در حال حاضر هستند صورت گرفته است.
هم چنين مطالعات کتابخانه اي، شامل جستجوي مقالات و پايان نامه هاي با موضوع مشابه، مطالعه کتاب هاي مرتبط در زمينه ي داده کاوي و نيز شرکت در سمينارهاي مرتبط با داده کاوي از جمله روش هاي گردآوري اطلاعات در بخش ادبيات موضوع بوده است.
نوع داده ها و مقياس آن ها
نوع و مقياس داده هاي اين تحقيق به شرح ذيل مي باشد:
رکوردهاي مربوط به جدول پيام ها يا همان تماس هاي مشتريان شامل 12 فيلد مي شد که اکثراً از نوع اسمي (رشته اي) بود که در مرحله آماده سازي داده ها مقادير عددي فيلدهاي مورد نظر از طريق اضافه شدن ستون هاي جديد به انتهاي جدول ايجاد گرديد.
رکوردهاي مربوط به جداول جمعيت، بارندگي و اعتبار مصوب همگي از نوع عددي مي باشند.
شرح دقيق فيلدهاي اطلاعاتي در هر جدول در فصل بعد آورده شده است.
ساختار اجرايي تحقيق
همان طور که در ابتداي اين فصل بيان شد، ماهيت تحقيق، داده محور مي باشد و پايه اصلي تحقيق حاضر برکشف دانش از پايگاه هاي داده شهرداري تهران بنا نهاده شده است. از اين رو استاندارد جهاني CRISP-DM جهت انجام فرايند تحقيق مورد استفاده قرار گرفته است که در اين بخش ساختار اجرايي تحقيق بر اساس مراحل اين استاندارد تشريح شده است.
درک مساله کسب و کار
در اين مرحله گام هاي زير دنبال شده است که جزئيات آن در ادامه بيان گرديده است:
تعيين اهداف کسب و کار
ارزيابي موقعيت
تعيين اهداف داده کاوي
در اين فاز، ابتدا اهداف کسب و کار تعيين و تبيين گرديد که اصلي ترين هدف کسب و کار، به کارگيری تکنيک هاي مختلف داده کاوي نظير Clustering، Classification، Association Rules و ... بر روي اطلاعات سامانه 137 و بررسي و تحليل نتايج به دست آمده به منظور ارتقاي کيفيت خدمات شهري.
گام بعدي که در اين مرحله انجام شده است تعيين اهداف داده کاوي تحقيق است که به طور کاملاً روشن مي توان گفت که نوع داده کاوي، هم از نوع پيش بيني کننده و هم از نوع تشريح کننده مي باشد.
درک داده ها
در اين مرحله گام هاي زير دنبال شده است که جزئيات آن در ادامه بيان شده است:
جمع آوري داده هاي اوليه
توصيف داده ها
تصديق کيفيت داده ها و شناسايي داده هاي هدف
در مرحله ي قبل يک تصوير کلي از وضعيت کسب و کار و اهداف مورد نظر از لحاظ کسب و کار و داده کاوي براي محقق حاصل گرديد. در اين مرحله با توجه به درک صورت گرفته از اين اهداف و وضعيت موجود لازم است تا درک صحيحي از وضعيت داده ها، نحوه ي جمع آوري و اطمينان از کيفيت داده هاي مورد بررسي، حاصل گردد.
در مجموع مهم ترين اقداماتي که در اين بخش به آن ها پرداخته شده تعيين داده هاي مورد نياز و نحوه ي دسترسي به آن داده ها مي باشد.
در اين مرحله براي ارزيابي اوليه از داده هاي موجود، ابتدا ساختار بانک اطلاعاتي سامانه ی 137 شهرداري تهران با 12 فيلد دريافت گرديد. لازم به ذکر است که برخي از فيلدها مثل فيلد نام و شماره تماس شهروند به علت اختياري بودن حاوي رکوردهاي تهي بود که در فرايند تحقيق قابل کاربرد نبودند و لذا از اين فرايند حذف گرديدند.
هم چنين اطلاعات مربوط به جمعيت و بودجه مناطق و نيز وضعيت آب و هواي تهران در سال 1389 به ترتيب از وب سايت شهرداري تهران و وب سايت سازمان هواشناسي دريافت و در جداول جداگانه ذخيره گرديد.
نکته ي قابل توجه اين که نه در سازمان هواشناسي و نه در شهرداري تهران وضعيت آب و هوايي شهر به تفکيک مناطق 22 گانه اندازه گيري و ثبت نمي شود و تنها اطلاعات مذکور به تفکيک ايستگاه هاي پنج گانه سازمان هواشناسي قابل دسترس مي باشد. بنابراين محقق با در نظر گرفتن مجاورت جغرافيايي مناطق درنقشه ي شهر تهران و نيز راهنمايي کارشناسان هواشناسي، اطلاعات هر ايستگاه را براي مناطقي که در همسايگي و
217170-318135شکل3-1وضعيت ايستگاه هاي پنج گانه هواشناسي مستقر در شهر تهران مي باشد.
مجاورت آن ايستگاه بود تعميم داد. شکل3-1 نمايانگر وضعيت ايستگاه هاي هواشناسي مستقر در شهر تهران مي باشد. به طور مثال اطلاعات ايستگاه اقدسيه که در منطقه 1 واقع شده است به مناطق 1، 3 و 4 تعميم داده شد.
آماده سازي داده ها
در اين مرحله گام هاي زير دنبال شده است که جزئيات آن در ادامه آورده شده است:
جمع آوري و انتخاب داده ها
يکپارچه سازي داده ها
پاکسازي داده ها (کاهش داده ها)
شکل دادن وساخت داده ها (تغيير داده ها)
قالب بندي داده ها ( براي مدل سازي در نرم افزار)
در مرحله قبل داده هاي هدف، جهت جمع آوري و پالايش مشخص شدند. در اين مرحله داده هاي مرتبط با تماس هاي مشتريان شناسايي و از تماس هاي مرتبط با کارمندان و کارکنان سازمان شهرداري تفکيک گرديد.
در ادامه فرايند آماده سازي، بايد براي پاکسازي و پيش پردازش داده ها، دو عمليات مهم کاهش داده و اعمال تغييرات در شکل داده ها بر روي اطلاعات صورت گيرد.
کاهش اطلاعات عبارت است از توليد يک مجموعه کوچکتر از داده هاي اوليه که تحت عمليات داده کاوي نتايج تقريبا يکساني با نتايج داده کاوي روي اطلاعات اوليه به دست مي دهد (مرشدلو، 1386)
در اين مرحله بر حسب نياز، عمليات کاهش داده ها به صورت حذف فيلد هاي شماره تماس ثابت و همراه شهروند - نام و نام خانوادگي شهروند به علت تهي بودن بيش از نيمي از رکوردهاي بانک اطلاعاتي صورت گرفت.
همان طور که قبلاً نيز بحث شد داده هاي بانک اطلاعاتي سامانه 137 در مقطع سال 89 به همراه اطلاعات وضعيت بارندگي و جمعيت و اعتبار مصوب عمراني در همان سال به منظور تحليل، انتخاب و گردآوري گرديد. پس از بررسي و انتخاب فيلدهاي مورد نظر از هر يک از جداول از طريق ايجاد ديد هاي تو در تو در نرم افزار Sql 2008 داده هاي هر 3 جدول با يکديگر ترکيب شدند. با عنايت به اين موضوع که بيشتر فيلدهاي جدول مربوط به اطلاعات پيام ها حاوي رکوردهاي فارسي مي شد لازم بود تا مقادير فارسي به کدهاي متناظر عددي تبديل شوند. بنابراين فيلد جديدي به انتهاي جدول پيام ها اضافه و کدهاي عددي جاي مقادير منحصر به فرد داده هاي فارسي را گرفت. در اين راستا حذف فاصله هاي اضافي انتهاي رکورد و يکسان کردن حروف عربي و فارسي به کدپيچ واحد از مقدمات کار بود.
با توجه به اين که اکثر تحليل هاي انجام گرفته در اين تحقيق به تفکيک منطقه و يا ناحيه مي باشد لذا مي بايست وجود مقادير صحيح کد منطقه و ناحيه در کليه رکوردهاي جدول کنترل مي شد. لذا با انجام پرس جو هاي متعدد از طريق نرم افزار Sql 2008 دو فيلد جديد به انتهاي جدول پيام اضافه و مقادير کد منطقه و ناحيه شناسايي شده که ترکيب آن (نام منطقه – نام ناحيه) در ستون ديگري از همان جدول قرار داشت به صورت عددي و تفکيک شده، اضافه گرديد. در مواردي که نام منطقه يا ناحيه در ستون مربوطه آورده نشده بود، تلاش شد تا از طريق ستون متن پيام، مقادير آن شناسايي گردد. که تکميل داده ها به اين روش بسيار زمان بر بود. البته در مواردي که کد ناحيه ومنطقه از هيچ روشي قابل تعيين نبود به ناچار رکورد مربوط به آن از مجموعه رکوردهاي مورد بررسي حذف گرديد.
طبق بررسي هاي انجام شده بر روي داده ها مشخص گرديد بخشي از پيام هاي ثبت شده در اين سامانه مربوط به تماس هاي شهروندان با شهرداري نبوده بلکه مربوط مي شود به شکايات يا درخواست هاي کارکنان و پرسنل سازمان شهرداري از واحدهاي اجرايي همان سازمان. بنابراين با توجه به اين که اساساً اين رکوردها موضوعيتي با نيازها و معضلات شهري شهروندان تهراني پيدا نمي کرد، به ناچار از مجموعه رکوردهاي مورد بررسي حذف گرديد.
همان طور که پيش تر گفته شد داده هاي سامانه 137 (جدول پيام ها) بر اساس نوع و موضوع پيام 644 عنوان دارد که ذيل 51 عنوان کلي طبقه بندي شده است. به عبارت ديگر در مجموع 644 نوع مشکل در سطح شهر تهران شناسايي شده است که هر کدام در يکي از 51 طبقه تعيين شده قرار مي گيرد. با بررسي هاي به عمل آمده بر روي داده ها مشخص شد در برخي از اين 51 طبقه، تعداد تماس هاي شهروندان بسيار کم و ناچيز مي باشد. به عبارت ديگر فراواني بسيار کم آن ها در ميان ساير مشکلات نشان دهنده موردي بودن و بي اهميت بودن مشکلات آن طبقه بود و از آن جا که بيم آن مي رفت که در روند تکرار پذيري پيام ها اختلال ايجاد نمايد لذا با امکان پرس جوي نرم افزار Sql 2008 اين طبقه ها شناسايي و به همراه مشکلات آن طبقه از مجموع داده هاي مورد بررسي حذف گرديدند.
گفته شد که مرحله آماده سازي داده ها مهم ترين و زمان بر ترين بخش از فرايند داده کاوي محسوب مي شود. در اين بخش، فارسي بودن اکثر فيلدهاي جدول پيام و نيز حجم زياد رکوردها خود منجر به طولاني تر شدن اين مرحله گرديد به گونه اي که محقق براي جلوگيري از حذف رکوردهاي صحيح ، که به علت رشته اي بودن نوع فيلدها ممکن بود رخ دهد، اين مرحله را با صرف زمان و دقت بيشتري به انجام رساند.
در نهايت پس از مرحله آماده سازي، داده ها در قالب SPSS تجميع و به عنوان ورودي در نرم افزار Clementine مورد استفاده قرار گرفت.
مدل سازي
در اين مرحله گام هاي زير دنبال شده است که جزئيات آن در ادامه بيان شده است:
انتخاب تکنيک هاي مدل سازي
ساخت مدل
ارزيابي مدل
براي مدل سازي لازم است که ابتدا تکنيک مدل سازي انتخاب شود. با توجه به اين که هدف از انجام اين تحقيق انجام تکنيک هاي مختلف بر روي داده هاي سامانه 137 شهرداري تهران و بررسي نتايج به دست آمده از هر تکنيک مي باشد؛ لذا تکنيک هاي مختلف داده کاوي نظير خوشه بندي، قوانين وابستگي، درخت تصميم، مدل خطي تعميم يافته بر روي داده ها انجام و نتايج آن در فصل بعد آورده شده است. در هر مرحله سعي شده است با توجه به نوع داده ها بهترين الگوريتم انتخاب شود.
ارزيابي نتايج
در اين مرحله گام هاي زير دنبال شده استکه جزئيات آن در ادامه بيان شده است:
ارزيابي نتايج
مرور نمودن فرايند
نتايج به دست آمده در مرحله قبل به عنوان دانش استخراج شده از تحقيق تلقي مي گردد. در مرحله قبل نتايج حاصل از اجراي تکنيک هاي داده کاوي در هر بخش با الگوريتم ديگري مورد مقايسه قرار گرفت. سپس با توجه به مقايسه هاي صورت گرفته الگوريتم مناسب انتخاب گرديده است.
براي اطمينان از صحت عمليات انجام شده فرايند کار در نهايت مرور گرديده است.
به کارگيري مدل
در آخرين مرحله، گزارش نهايي از محصول که همان دانش کشف شده است صورت مي گيرد. کار اصلي تحليل گر يا داده کاو در مرحله قبل به اتمام رسيده و در اين تحقيق نيز نتايج، به صورت يک گزارش از کل کار در اختيار سازمان مربوطه يا داوطلبان قرار مي گيرد تا راجع به استفاده از نتايج تصميم گيري نمايند.
نکته اي که لازم است در انتهاي اين بخش به آن اشاره شود اين است که تحقيق صورت گرفته مي توانست در صورت وجود برخي فيلدهاي اطلاعاتي ديگر که در فصل اول به آن ها اشاره شد، بسيار جامع تر گردد.
مدل اجرايي تحقيق
مدل اجرايي تحقيق براساس آن چه بيان شد، مطابق شکل 3-2 مي باشد. در فصل بعد چرايي انتخاب هر يک از موضوعات شرح داده شده است.
ارائه دانش استخراج شده و پيشنهادات براي افزايش کيفيت در ارائه ي بهتر خدمات شهريانتخاب و جمع آوري داده هاي مورد نيازتلخيص توصيفي داده ها با استفاده از ابزارهاي آماري پيش پردازش، آماده سازي و تشکيل انباره داده هاآماده سازي نهايي داده ها براي Associationتحليل وابستگي بين انواع پيام ها براساس روش GRI براي تعيين نواحي مستعد در بروز مشکلات شهري ارائه نتايج و تفسير قوانينآماده سازي نهايي داده ها برای Association کشف وابستگي بين پيام هاي آب گرفتگي بر اساس روش Sequenceارائه نتايج و تفسير قوانينآماده سازي نهايي داده ها براي Predictionارائه مدلي براي پيش بيني تماس هاي آب گرفتگي هريک از مناطق بر اساس روش Gen Lin ارائه نتايج و تفسير مدلآماده سازي نهايي داده ها براي Segmentationشناسايي مناطق همگن از طريق خوشه بندیارائه نتايج و تفسير خوشه ها
شکل3-2 روش اجرايي تحقيق
خلاصه فصل سوم
در اين فصل روش تحقيق تحقيق صورت گرفته به صورت گام به گام، تشريح گرديد. روش انجام تحقيق بر مبناي استفاده از يک مدل استاندارد داده کاوي مي باشد که مراحل اجراي تحقيق با الگوگيري از اين مدل به صورت گام به گام مورد بررسي قرار گرفت. هم چنين کلياتي در خصوص داده هاي تحقيق بيان گرديد.
فهرست منابع
منابع فارسي
وست فال، ماتيو و ديگران(1386)، شاخص هاي شهري براي مديريت شهرها، ترجمه همت مراد قلندري؛ امير قادري و امير حسين ممتازي، تهران، مرکز انتشارات دانشگاه علم و صنعت ايران.
هراتي ، سامان (1386)؛"حل مشکلات شهري از طريق فن آوري اطلاعات و ارتباطات"، نشريه مرکز ارتباطات بين المللي شماره 46.
مرشدلو، حسين ،(۱۳۸۶)،" داده کاوي پويا با استفاده از عامل "، پايان نامه کارشناسي ارشد، دانشگاه صنعتي امير کبير.
کاظميان، غلامرضا، سعيدي رضواني، سعيد (1381) امکان سنجي واگذاري وظايف جديد به شهرداري ها- جلد دوم.تهران. انتشارات سازمان شهرداري هاي کشور.
شريفيان ثاني، مريم (1380)؛ "مشارکت شهروندي، حکمراني شهري و مديريت شهري"، فصلنامه مديريت شهري، شماره 8.
جلالي، علي اکبر (1384) شهر الکترونيک، چاپ سوم، تهران، انتشارات دانشگاه علم و صنعت ايران.
خانزاده،علي(1386) "شهر، شهرداري، شهروند الکترونيکي"، ماهنامه توسعه کاربري فن آوري اطلاعات و ارتباطات، سال پنجم، شماره دوم.
نظريان آزاد، سيروس(1388)نقش فناوري اطلاعات در توسعه مديريت شهري، دومين کنفرانس شهرداري الکترونيکي، تهران.
جلالي لواساني، احسان؛ نجفي، مهرداد ( 1388)،" بررسي ابعاد حاصل از بکارگيري فن آوري اطلاعات در ساختار مديريت شهري (سامانه مديريت شهري 137 )"؛ دومين کنفرانش شهرداري الکترونيکي، تهران.
محکي، علي اصغر(1386)، "شهرداري الکترونيکي"، ماهنامه توسعه کاربري فن آوري اطلاعات و ارتباطات ، سال پنجم، شماره دوم،.
آخوندزاده نوقابي، الهام(1388)؛ کاوش دانش پنهان مديريت ارتباط با مشتري: مورد کاوي پايگاه اطلاعاتي 137 شهرداري تهران، پايان نامه کارشناسي ارشد؛ دانشگاه شاهد دانشکده فني و مهندسي.
اميري، آرين (1387)؛ عوامل مؤثر بر پذيرش سامانه مديريت شهري تهران (137) توسط شهروندان؛ پايان نامه کارشناسي ارشد؛ دانشگاه علامه طباطبائي، دانشکده مديريت وحسابداري
يوسفيان مريم آبادي، محمد حسين(1389)؛ طراحي چهارچوب کندوکاو فرايندهاي همکارانه بر پايه فرايند کاوي: پايان نامه کارشناسي ارشد؛ دانشگاه تربيت مدرس، دانشکده فني و مهندسي (گروه مهندسي سيستم هاي اقتصادي – اجتماعي)
"داده کاوي و کاربرد آن در مديريت شهري"، (1388)، مرکز مطالعات و برنامه ريزي شهر تهران
نقش نوين شهرها و مساله مديريت، ويژه نامه مرکز مطالعات و برنامه ريزي شهري شهرداري تهران،ص 7.
شهرابي، جمال (1390) داده کاوي؛ تهران؛ جهاد دانشگاهي اميرکبير.
شهرابي، جمال (1390) داده کاوي 2؛ تهران؛ جهاد دانشگاهي اميرکبير.
شهرابي، جمال؛ ونوس شکور نياز (1389)، داده کاوي کاربردي با مثال هايي در SQL Server ؛ تهران؛ جهاد دانشگاهي اميرکبير.
شهرابي، جمال؛ ذوالقدر شجاعي، علي (1388)، داده کاوي پيشرفته مفاهيم و الگوريتم ها؛ تهران؛ جهاد دانشگاهي اميرکبير.
شهرابي، جمال (1390)؛ کارگاه آموزشي داده کاوي ، تهران؛ دانشگاه صنعتي اميرکبير.
شهرابي، جمال (1389)؛ کارگاه آموزشي داده کاوي، تهران؛ دانشگاه صنعتي اميرکبير.
نخعي زاده ، غلامرضا (۱۳۸9)،داده کاوي و کاربرد آن در بانک و بيمه ، کارگاه آموزشي، دانشگاه تربيت مدرس.
http://www.irandatamining.ir/datamining.htm
http://137.tehran.ir/Default.aspx?tabid=92
http://137.tehran.ir/Default.aspx?tabid=94
http://www.irimo.ir/farsi/current/index.asp?station=40751
منابع لاتين
Han J., Kamber M., (2006), “Data Mining concepts and techniques”, Second Edition, Morgan Kaufmann.
Larsed D., “DISCOVERING KNOWLEDGE IN DATA, An Introduction to Data Mining”, (2003), John Wiley & Sons
Gupta G.K. (2006) , “Introduction to DATA MINING with Case Studies”, Prentice-Hall ,ISBN-81-203-3053-6
Frawley W.,Piatetsky G., ”Knowledge Discovery In DataBases”, ISSN- 0738-4602
Hand D.,Mannila H., Smyth P., (2001).”Principles of Data Mining”, MIT Press,Cambridge
Wu X. , Kumar V., (2006), “The Top Ten Algorithms in Data mining”, Chapman & Hall /CRC Press
Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth (1996), From Data Mining toKnowledge Discovery inDatabases
William J. Frawley, Gregory Piatetsky-Shapiro, and Christopher J. Matheus, Knowledge Discovery in Databases:An Overview(1992)
Marcin and others, Data Mining Approach for Analyzing Call Center Performance, http://arxiv.org/ftp/cs/papers/0405/0405017.pdf
Ruiyuan Guo, and others, Analyzing Call Center Performance: A Data Mining Approach, http://www.softcomputing.net/icfai-km.pdf
Stephanus Francois du Toit, Andre Calitz, A Model for the Visual Data Mining of Call Patterns, http://www.nmmu.ac.za/documents/coe/SFduToit.pdf
Abstract
Municipality is one of the most important organizations playing an important role in providing citizens with urban services. Applying the information technology and the communications systems knowledge, and also the skilled domestic experts’ ability in urban management, this organization has established a system which enters the citizens into the management zone about their life environment, and has attempted to perform urban affairs using the same citizens’ active participation. Therefore, the 137 system can be regarded as a data-base which holds valuable data on city problems.
The information obtained from this system contains useful matters on the presented services to the citizens, and can be used as an important and suitable source for doing the data-mining analyses. For example, the possible future events and problems that may become problematic for the city can be predicted using these analyses, and preparation can be made facing them.
In this research considered as an applied-descriptive one, the 2011 data from the 137 system has been used to perform the data-mining process using Clementine 12. One of the results is determining the homogeneity of these regions from the 137 system’s perspective using the clustering technique in two categories. It shows that the second category regions are more ready and informed for communicating with the system, and the greater number of calls from the citizens of these regions does not have any relationship with their having more problems.
The regions and areas have been analyzed regarding the relation dependence rules among the problems, and it was determined that which areas of each region are more susceptible to some urban problems and difficulties that the municipality can prevent their occurrence by acquiring more readiness.
In addition, interesting patterns have also been obtained by the results in predicting the number of calls related to one region’s inundation and flood based on the amounts of rain, and/or determining the dependence of the inundation messages among different areas of a special region.
The obtained results are expected to be effective in urban problems’ management and enhancing citizens’ satisfaction.
Key words: Urban Management, 137 Portal, Data Mining, Clustering, Association Rules.
2197735174625
Allame Tabataba’i University
FacultyFaculty of Management and Accounting
Dissertation in Urban Management
The Application of Data Mining in discovering hidden knowledge among 137 portal of Tehran Municipally
Supervisor
Dr.Jamal Shahrabi
Advisor
Dr.Gholamreza Kazemian
By
Mina Goshadrou
Febuary 2012