قالب وبلاگ

قالب وبلاگ

آسان یاب

آسان یاب
 
دنیای مطلب و نرم افزار

محل درج آگهی و تبلیغات
 
نوشته شده در تاريخ شنبه نوزدهم آذر 1390 توسط جعفر

آموزش شبكه

 

نصب Windows 2000 Advanced

نصب ويندوز 2000 Advanced Server تقريبا مشابه نصب ويندوز 2000 Professional است با چند گزينه اضافي .

براي نصب ويندوز 2000 Advanced Server از روي بوت ويندوز 98 ميبايست ابتدا پارتيشن Fat يا Fat32 خود را آماده سازيد و سپس براي سرعت بخشيدن به كپي فايهاي ويندوز بروي هارد ديسك خود با كمك Smartdrv.exe كشي را بروي سيستم خود ايجاد نمائيد .

در اين مرحله با رفتن به درايو سي دي و ساب دايركتوري I386 و اجراي فايل Winnt.exe ميتوانيد نصب ويندوز را شروع كنيد .

در طول مراحل نصب ويندوز 2000 Advanced Server تنها 2 مرحله متفاوت با ويندوز 2000 Professional وجود دارد :

1. مرحله اي براي نصب كامپوننتها و سرويسهاي ويندوز
2. مرحله اي براي انتخاب نوع سرويس دهي سرور

در مرحله اول ميتوانيد مشخص كنيد كه چه سرويسهايي بروي اين سرور نصب گردد . مثلا Remote Installation Service و IIS و غيره ...

در مرحله دوم بايد مشخص كنيد كه اين سرور براي مديريت از راه دور تنظيم گردد يا براي اجراي برنامه ها از راه دور ( Application Server ) .

 

 

 

تنظيمات TCP/IP

تنظيمات TCP/IP شامل :

1. كلاس بندي كردن IP ها
2.
ست كردن آي پي ها بر كارتهاي شبكه ( به 2 روش استاتيك و ديناميك )


حالا اصلا اين IP چيه ؟

آي پي در اصل يك عدد 32 بيتيه كه به چهار نود 8 بيتي تقسيم شده . مثلا : 192.168.0.1

كار اين IP چيه ؟

آي پي توي شبكه هاي TCP/IP آدرس كامپيوترهاي موجود در شبكه ميباشد . به اين شكل كه هر كامپيوتري با داشتن IP در يك شبكه اصل و نصب دار ميشه يعني خوار مادر پيدا ميكنه .
حالا اگر حضرت عشق آي پي يه كامپيوتري رو توي شبكه ( حتي اينترنت ) داشته باشه ميتونه بفهمه كه اين كامپيوتر كجاست .

شبكه كامپيوتري چيه ؟

هر وقت حداقل 2 كامپيوتر رو به هم متصل كنيم ( به هر شكل ) يك شبكه كامپيوتري ايجاد كرديم .

شبكه LAN چيه ؟

شبكه LAN يعني Local Area Network و به معني شبكه محلي يا داخليه .

شبكه WAN چيه ؟

شبكه WAN به مجموع 2 يا چند شبكه LAN گفته ميشه كه به هم متصل هستند . ( به هر شكل ) . شايان ذكر است اينترنت هم در اصل يك شبكه WAN ميباشد و در اصل بزرگترين شبكه WAN .

 

 

 

كلاس بندي كردن IP ها

آي پي ها رو به سه كلاس مختلف تقسيم كردند .

كلاس A ٬ كه بزرگترين و گرونترين كلاس آي پي هاست .
كلاس B ٬ بعد از كلاس A بزرگترين كلاس هاست .
كلاس C ٬ كوچكترين كلاس آي پي ميباشد .

قديم نديما يادم مياد يه كلاس A شصت هزار دلار قيمت داشت و كلاس B دقيقا نصف اون بود .

حالا اين كلاس بندي چه فايده اي داره ؟

فايده اين كلاس بندي اينه كه ميشه شبكه هاي مختلف رو از هم جدا كرد و براي فروش رنجهاي مختلف IP هم مشكلي پيش نمياد .

حالا بخش مهم اين موضوع اينجاست :

هر كلاس آي پي رو ميشه از طريق Subnet Mask به رنجهاي مختلفي تقسيم كرد . مثلا يك كلاس C كه 256 عدد آي پي داره رو ميشه از طريق تنظيمات Subnet Mask به مثلا 4 تا رنج 32 تايي تقسيم كرد و به 4 شبكه مختلف داد .

چه فايده اي داره ؟

فايده اش اينه كه ميشه از تعداد آي پي ها به طور كامل استفاده كرد . مثلا شبكه اي فقط 30 تا استيشن ( كامپيوتر ) داره ٬ دليلي نداره يه كلاس C رو به اين شبكه بديم چون استفاده اي از آي پي ها نميكنه . پس يك رنج 32 تايي آي پي بهش ميديم تا حالشو ببره .

از اين 32 تا آي پي فقط 30 تاشو ميتونه استفاده كنه ٬ چرا ؟
به اين دليل كه :

اولين IP توي شبكه به نام ID شبكه معروفه و براي شناسايي شبكه استفاده ميشه و معمولا ازش استفاده نميكنند . آخرين آي پي توي يك رنج رو BroadCast ميگن و نشاندهنده پايان رنج آي پي هاست و نميشه ازش استفاده كرد .

 

 

 

مثلا رنج 213.165.107.0 رو در نظر بگير .

ميتونيم اين رنج رو كه از آي پي 213.165.107.0 تا 213.165.107.256 هستش رو ( در نظر داشته باش كه آي پي هاي 213.165.107.0 و 213.165.107.256 رو نميتوني استفاده كني ) به 4 رنج كوچكتر تقسيم كنيم .

به اين شكل عمل ميكنيم :

ID شبكه اول رو ميديم 213.165.107.0 و Subnet Mask رو ميديم 255.255.255.224
ID شبكه دوم رو ميديم 213.165.107.32 و Subnet Mask رو ميديم 255.255.255.224
ID شبكه سوم رو ميديم 213.165.107.64 و Subnet Mask رو ميديم 255.255.255.224
ID شبكه چهارم رو ميديم 213.165.107.128 و Subnet Mask رو ميديم 255.255.255.224

حالا از يك كلاس C توي چهار تا شبكه داريم استفاده ميكنيم

 

 

به دو بخش تقسيم ميشه:
1-بخش ثابت (Network Id )
2-بخش متغير (Host Id)
کلاس A مي گه من يه Net Id دارم و سه تا Host Id
هر يه دونه Host Id هم 256 به توان 3هستش يعني مي شه 16 ميليون ip.
و در کل دنيا هم 128 کلاس A داريم و رنج ip امون از 0 شروع مي شه تا 127.
کلاس B دو تا Net Id داره و دو تا همHost Id
هر کلاس B هم 65 هزار Generate .ip مي کنه.
کلاس B با 10 شروع مي شود.و رنجIPهاش از 128 تا 191 .
کلاس C هم 256 کامپيوتر رو به هم مي بنده و 2 ميليون و خرده اي IPداره.از 192شروع ميشه تا
223
براي broadcasting از کلاس D استفاده مي کنند که از 224شروع مي شه تا 239
و براي تحقيقات روي اينترنت از کلاس E که از 240 هستش تا 247
از 47 به بعد هنوز به کسي داده نشده!!!
سايتهاي IANAو INTERNIC مسئول دادن IP در اينترنت هستند.

 

 

 

اول از همه چيز اين بحث كلاسهاي آي پي رو تكميل كنيم ٬ بعد بر ميگرديم به عقب و در مورد licensing توضيح ميديم .

توي اين بحث الان جا داره كه بگيم به چه شكل Subnet Mask رو محاسبه ميكنند .

شما خيلي ساده تعداد آي پي هايي رو كه ميخواي به يك شبكه بدي رو در نظر بگيريد اين تعداد رو از عدد 256 كم كنيد يك عدد به دست مياد اين عدد ميشه ساب نت شبكه شما .

مثلا : اگر قراره 32 تا آي پي بديم به يه شبكه ميگيم 256 - 32 = 224 و اگر مثلا 16 تا ميخوايم آي پي بديم ميگيم 256 - 16 = 240 .

براي آي پي دادن هم بايد دقت كنيد كه نميشه همينطوري عشقي آي پي داد . يه شكل خاصي داره . اونم اينجوريه :

يك شبكه حداقل ميتونه 2 تا آي پي داشته باشه . به اين شكل محاسبه ميشه :

2*2 = 4
4*2 = 8
8*2=16
16*2 = 32
و
.....

يعني اينكه تعداد آي پي رو ضرب در 2 ميكنيم تا تعداد رنج بعدي به دست بياد .

 

 

حالا نوبت ميرسه به Licensing

در كل خلاصه مطلب رو خدمتتون عرض ميكنم . خلاصه مطلب اين كه License مثل يك مجوزه .

شما براي ورود به سرور از روي كلاينت به مجوز عبور احتياج داريد . اين مجوز عبور رو Client License ميگن . ( حالا اين توصيف منه براي گرفتن مطلب ) .

وقتي ويندوز 2000 سرور رو نصب ميكنيد توي مراحل نصب از شما پرسيده ميشه كه از چه نوع License ميخوايد استفاده كنيد . ما 2 نوع License داريم يكي Per Server و ديگري Per Seat .

تفاوت Per Server و Per Seat چيه ؟

Per Server :
Per Server به نوعي License گفته ميشه كه براي اتصال به سرور هر كانكشني بايد Client License خودش رو داشته باشه . در اين حالت Server License جواز عبور به تعداد خاصي كانكشن رو ميده كه توي نصب ويندوز از شما پرسيده ميشه و شما اونو تنظيم ميكنيد .

Per Seat :
Per Seat به نوعي License گفته ميشه كه براي اتصال به سرور هر كامپيوتري بايد Client License خودش رو داشته باشه .

اين مطلب احتمالا الان يكم گنگه ولي غمشو نخورين بعد بهتر ترش ميكنيم .

يه موضوع ديگه هم هست كه بايد گوش زد بشه . موقع نصب ويندوز جايي از شما نام كامپيوتر و رمز عبور مدير شبكه سوال ميشه . شما نام كامپيوتر رو وارد كنيد و رمز عبور مدير شبكه رو خالي بگذاريد ( گويي مدير شبكه شما پسوردي نداره ) . چرا ؟ دليلش رو توي سايت مايكروسافت به اين شكل مطرح كرده كه از نظر امنيتي مشخص كردن رمز عبور مدير شبكه از توي خود ويندوز خيلي بهتره . ( اين فقط يك پيشنهاده ) .

براي انتخاب رمز عبور هم هيچ عجله نكنيد . لازم نيست حتما اسم دوست دختر يا دوست پسرتون رو بذارين رمز عبورتون . مايكروسافت ميگه از Strong Password استفاده كنيد .

Strong Password چيه ؟

Strong Password آميزه اي از انواع كاركتر ها و عدد هاست به شكلي كه امكان حدس زدنش صفر باشه . مثلا A0<6@pwB^C#x يك رمز عبور قويه . :mrgreen: ( يكم حافظتون رو قوي كنيد و از اين روش براي انتخاب رمز عبور استفاده كنيد . )

 

 

 

حالا نوبت ميرسه به تنظيمات TCP/IP

شما ميتونيد به 2 روش استاتيك و ديناميك آي پي كارو به كامپيوترهاي توي شبكه تون بديد .

روش اول رو موقعي استفاده ميكنيم كه تعداد كامپيوترهاي موجود در شبكه كم باشه و از روش دوم موقعي كه تعداد استيشنها زياد باشه و امكان دادن آي پي بصورت استاتيك وجود نداشته باشه .

دادن استاتيك آي پي به يك كارت شبكه رو همه شما بلد هستين :

ما بر روي ويندوز 2000 ( كه الهي من قربونش برم ) مثال ميزنيم .

از روي كامپيوتري كه قراره يك آي پي بهش داده بشه از Network and Dial-up Connections وارد شده ( شكل 1 ) و بر روي كانكشني كه براي كارت شبكه شما ساخته شده ( ويندوز با نصب درايور كارت شبكه اين كانكشن رو ميسازه ) دابل كليك كرده تا پنچره Local Area Connection Status باز شود ( شكل 2 ) و پيرو باز شدن اين پنجره كليد Properties را انتخاب ميكنيم تا پنجره Local Area Connection Properties باز بشه ( شكل 3 ) دوباره با زدن كليد Properties پنجره اي با نام Internet Protocol TCP/IP Properties باز ميشه كه داخل اين پنجره ميشه مقادير IP , Subnet Mask , Gateway , DNS رو وارد كرد . توي ويندوز 2000 و اكس پي كليد Adcanced هم وجود داره كه بعدا توضيح ميديم كه چيه و چيكار ميشه باهاش انجام داد .

توي اين قسمت يكي از آي پي هاي شبكه خودتون رو به اين كارت شبكه ميديد و تاييد ميكنيد .

 

 

هميشه اين مورد رو توي ذهنتون داشته باشيد كه تعداد آي پي بايد يك عدد زوج باشه اونم با اين فرمول كه تعداد اي پي براي يك رنج هميشه عدديه كه حاصل ضرب رنج قبلي در عدد 2 هستش .

يعني اگر يك رنج 16 تايي داريم و ميخوايم يك رنج بزرگتر ايجاد كنيم اين رنج بايد با فرمول X*2 ايجاد بشه كه X تعداد آي پي هاي اين رنج هستش و به اين ترتيب ميشه رنج بزرگتري رو ايجاد كرد .

براي مثال فوق اگر بخوايم يك رنج بزرگتر از 16 تا آي پي درست كنيم بايد 16 رو ضرب در 2 كنيم كه حاصلش ميشه 32 پس اولين رنج بزرگتر از 16 تايي ميشه يك رنج 32 تايي و براي رنجي بزرگتر از 32 تايي بايد 32 رو ضرب در 2 كنيم كه ميشه 64 و به همين شكل تا به آخر .

 

 

 

 

DHCP چيست ؟

DHCP سرور ابزاريست براي دادن IP به كلاينتهاي يك شبكه بطور اتوماتيك . اين ابزار در شبكه هاي بزرگ با تعداد كلاينتهاي زياد بسيار مفيد است . و كار آي پي دهي را بسيار بسيار ساده ميكند .

روش كار به اين شكل است كه شما با درست كردن يك اسكوپ در دي اچ سي پي سرور ميتوانيد يك يا چند رنج آي پي را براي كلاينتها در نظر بگيريد تا كلاينتها بطور اتوماتيك بعد از روشن شدن و وارد به ويندوز يك آي پي دريافت كنند و وارد شبكه بشن .

در هنگام تنظيم دي اچ سي پي سرور براي كلاينتها يك آي پي بعنوان gateway و يك يا چند آي پي بعنوان دي ان اس و وينز معرفي كنيد .

 

 

DHCP Server ميتونه براي شما خيلي خيلي مفيد باشه پس سعي كنيد خوب يادش بگيريد ٬ چون توي مراحل بعدي هم بدردتون ميخوره .

براي نصب DHCP Server حتما بايد حداقل يك كارت شبكه بروي كامپيوترتون داشته باشيد . توي مثال هاي فوق من يك رنج آي پي NAT رو مثال زدم كه پيرو همين مثالها در آينده نزديك در مورد NAT و Routing هم مطالبي خواهيم داشت .

براي شروع چون من پشت سرور نبودم از طريق Terminal Client به سرور متصل شدم . براي اتصال از طريق Terminal Client به سرور بايد حتما سرويس Terminal SERVER بروي سرور نصب و Start باشه . ( شما فعلا نيازي به اين قسمت نداريد ) .

اولين قدم براي نصب و تنظيم DHCP Server ٬ نصب كامپوننتهاي ميورد نياز اون از سي دي ويندوز به ويندوزه . در تصوير شماره ( كامپوننتهاي شبكه ويندوز ) ميتونيد قسمتي كه بايد براي نصب بريد رو ببينيد .

با انتخاب گزينه سرويسهاي شبكه ( Networking Services ) بروي كليد Details كليك كرده و ليست سرويسهاي مختلف شبكه رو ببينيد ( تصوير نمايش كامپوننتهاي شبكه ويندوز ) .

در اين قسمت بعد از انتخاب سرويسهايي كه نياز داريد كليد OK را بفشاريد تا به پنجره قبل برگرديد . حالا كليد NEXT رو كليك كنيد تا اين سرويسها كه در حقيقت كامپوننتهايي براي ويندوز هستند بروي هارد دسك و ويندوز نصب بشن .

بعد از نصب كامپوننتهاي فوق الذكر ( از اين به بعد ميگيم سرويس نه كامپوننت ) ميتويند در منوي Administrative Tools گزينه هاي جديدي رو ببينيد . ( تصوير موقعيت ابزارهاي افزوده شده ) .

حالا وقتش رسيده كه به خود DHCP Server بپردازيم .
از منوي Administrative Tools گزينه DHCP رو انتخاب كنيد تا وارد ابزار مديريت DHCP Server بشيد . ( تصوير اولين لحظه اي كه DHCP باز ميشود ) .

 

بعد از ورود به ابزار مديريرتي DHCP Server اين ابزار بصورت اتوماتيك به كامپيوتر جاري ( كامپيوتري كه بروي اون اجرا ميشه ) متصل ميشه . ( تصوير آماده براي انجام تنظيمات ) . بروي نام كامپيوتر رايت كليك كرده و از منويي كه در اختيار شما قرار ميگيره گزينه New Scope روانتخاب كنيد . ( تصوير نمايي از گزينه هاي مختلف DHCP ) .

با انتخاب اين گزينه ويزاردي ( ويزارد برنامه ايست براي راحت تر كرد كار شما ) در مقابل شما قرار ميگيرد كه ميتوانيد به واسطه آن اسكوپ جديدي بسازيد . ( به تصوير ٬ ايجاد اسكوپ تصوير 1 توجه كنيد ) .

در اولين پنجره كليد Next را بفشاريد تا به پنجره بعد برويد . در اين پنجره ( ايجاد اسكوپ جديد تصوير 2 ) براي اسكوپي كه ميخواهيد بسازيد يك اسم انتخاب ميكنيد كه به دلخواه خود آن را پر ميكنيد . ( ايجاد اسكوپ تصوير 3 ) . بعد از پر كردن اين اطلاعات كليد Next را بفشاريد .

همانطور كه در تصوير ( ايجاد اسكوپ تصوير 4 ) ميبينيد ويزارد از شما رنج IP هايي كه ميخواهيد به كلاينتها بدهيد را از شما ميخواهد :

گزينه Start IP Address را با مقدار اولين IP مورد نظرتان پر كنيد ٬ گزينه End IP Address را با مقدار آخرين IP مورد نظرتان پر كنيد .
گزينه هاي Length و Subnet Mask دقيقا براي شما يك كار را انجام ميدهند ٬ قبلا در مورد Subnet Mask و روش محاسبه آن توضيح داده شده ٬ ميتوانيد به راهتي مقدار Subnet Mask را محاسبه و در گزينه Subnet Mask قرار دهيد و يا اينكه مقدار آن را از طريق مقدار آن به BIT محاسبه كرده و در گزينه Length قرار دهيد . قبلا در قسمت IP چيست صحبت كرديم و گفتم كه آي پي در حقيقت يك عدد 32 بيتيه كه به 4 نود 8 بيتي تقسيم شده حالا اينجا ميتونيد از اين خاصيت استفاده كنيد و خيلي سريع مقدار Length رو بدست بياريد .

 

 

 

DNS Server چيست ؟

DNS - Domain Name Service جهت تبديل نام يك كامپيوتر به آدرس آي پي آن كامپيوتر در يك شبكه يا چند شبكه و يا اينترنت استفاده ميشه .

اين يك تعريف كلي از DNS بود .

چرا از DNS Server استفاده ميكنيم ؟

استفاده از DNS Server به شما اين امكان رو ميده كه به راحتي آدرسهاي مختلف رو به خاطر بسپاريد ٬ بعنوان مثال آدرس وب سرور ياهو بصورت معمول در حقيقت همان IP Address سروري ( سرورهايي ) هستش كه عمليات هاستينگ رو به عهده دارند و اين آدرس مشكل به خاطر شما سپرده ميشه . براي رفع اين مشكل DNS Server بدون دخالت شما اون IP Address رو به Domain Name تبديل ميكنه .

Yahoo! WebServer's IP Address = 66.94.230.51
DNS Server اين IP Address رو به يك نام تبديل ميكنه و اون نام هم براي اين مثال اينه : www.yahoo.com

به اين شكل شما هر وقت آدرس www.yahoo.com رو درخواست ميكني DNS Server بصورت واسطه بدون اطلاع شما اين نام درخواستي شما رو به IP Address اون سرور تبديل ميكنه و شما رو به مقصد ميرسونه .

 

 

 

مي خواهم يك شبكه ستاره اي را مديريت كنم . البته استيشن هايم كم است ولي تا 16 عدد قابل ارتقاء است .
آي پي ها را به اين صورت داده ام : 10.10.10.1 و ساب نت .1. 255.255.224
1 -
آيا صحيح است ؟
2 -
يك برنامه مفيد مديريت شبكه مثل نت ورك ساپورت مي خواهم . البته نمي دونم windows server 2003 در مورد شبكه ( مجوز ها و qoutoa ) چقدر مفيد است.
3-
لطفا اگر در مورد امنيت و دادن مجوزها به كامپيوتر ها اطلاعاتي داريد بنده را راهنمايي فرماييد .
4 -
آيا مي توان با اين شبكه ( ستاره اي ) طوري استفاده كرد كه هر كامپيوتر بتواند با استفاده از ميكروفن و دوربين طرف مقابل رامشاهده كند .
5 -
لطفا ترتيب سيم هايي كه به سوكت وصل مي كنيم ( در مورد هاب DLINK و كارت شبكه هاي ON Board Via ) را در اختيار بنده بگذاريد . (((((مهم )))))
با تشكر . لطفا جواب را سريع بفرماييد : .



اول و Subnet Mask رو با 255.255.255.0 و یا 255.0.0.0 تغییر بده . دوم اینکه شما داری از رنج Secure NAT استفاده میکنی حتما میدونی که چیه و چطور ایجاد میشه .
سوم اینکه ویندوز چه 2000 چه 2003 هر دو قابلیتهای بسیار خوبی رو جهت مدیریت کاربران دارند و غیره ...
چهارم اینکه در مورد سوال سومت قبلا توی تاپیکهای دیگه توضیح داده شده .
پنجم اینکه بله میتونی یک کنفرانس تصویری روی شبکه محلی خودت راه اندازی کنی .
ششم اینکه :

از پایه شماره 1 تا 8 بروی RJ45 از سمتی که برآمدگی نداره رو در نظر بگیر . ( از چپ به راست )

1 . نارنجی سفید
2 . نارنجی
3 . سبز سفید
4 . آبی
5 . آبی سفید
6 . سبز
7 . قهوه ای سفید
8 . قهوه ای

 

 

 

 

ترتيب كابلهاي بك تو بك به چه صورت است ؟‌ ( بدون هاب )

 

به اون نمیگن بک تو بک میگن Cross Cable

1 به 3
3 به 1
2 به 6
6 به 2

 

به همون شکل قبل یک سوکت RJ45 رو در نظر بگیر ، پایه های 1 تا 8

یک سمت کابل رو A و سمت دیگه رو B در نظر بگیر .

پایه شماره 1 از سمت A به 3 سمت B متصل میشه
پایه شماره 3 از سمت A به 1 سمت B متصل میشه
پایه شماره 2 از سمت A به 6 سمت B متصل میشه
پایه شماره 6 از سمت A به 2 سمت B متصل میشه

به همین ترتیب خودت رنگها رو انتخاب کن .

 

 

 

شما روشي رو براي محاسبه subnet Mask ارائه داديد ولي به من گفته بودن كه هر وقت از كلاس c استفاده ميكني Subnet رو بذاريد 255.255.255.0 و اگر كلاس B بود ميشه 255.255.0.0 و كلاس A
ميشه 255.0.0.0

 

 

استفاده از استانداردها در بعضی موارد به شدت تاکید میشه .

در مورد کلاسها هم همینطور که دوستتون گفتن کلاس C 255.255.255.0 و B 255.255.0.0 و A 255.0.0.0 ولی اگر مطالبی که در پستهای قبلی این تاپیک عنوان شده رو با دقت مطالعه کنی متوجه میشی ممکنه ما نیاز داشته باشیم یک کلاس C رو به زیر شبکه های کوچکتری تقسیم کنیم که برای اینکار از روشی که خدمتتون عرض کردم استفاده میشه .

مثلا : نیاز داریم یک کلاس C رو به 4 شبکه مختلف تخصیص بدیم .

 

 

 

 

 

 

 

 

 

 

 


نوشته شده در تاريخ شنبه نوزدهم آذر 1390 توسط جعفر

 

Terminology
شبكه: از به هم پيوستن چند کامپيوتر به يکديگر و برقراري ارتباط بين آنها يک شبکه تشکيل مي گردد.

Lan: به شبکه محلي که در آن کامپيوتر ها نزديک به هم بوده و ارتباط آنها از طريق Hub ،Switch و يا Wireless باشد اطلاق مي شود.

Intranet و Internet: منظور از اينترانت همان شبکه جهاني اينترنت است که در محيط بسته (Lan) پياده سازي شده و با دنياي خارج از آن ارتباطي ندارد.

Protocol: عبارتست از قراردادي که تعدادي کامپيوتر طبق آن با يکديگر ارتباط برقرار کرده و به تبادل اطلاعات مي پردازند.

TCP/IP: يک پروتکل جامع در اينترنت بوده و تمام کامپيوترهايي که با اينترنت کار مي کنند از آن تبعيت مي کنند.

IP Address: در اينترنت هر کامپيوتر داراي يک آدرس IP است. هر IP متشکل از 4 عدد بوده که با يک نقطه ازهم جدا مي شوند. ( مثل 217.219.175.11 ) هر کدام از اين اعداد حداکثر مي توانند 254 باشند. هر IP داراي يک Mask مي باشد که از روي آن مي توان تعداد IP هاي يک شبکه محلي را تشخيص داد.

Valid IP: به IP هايي گفته مي شود که در اينترنت معتبر بوده و قابل شناسايي باشند.

Invalid IP: به IP هايي گفته مي شود که در اينترنت فاقد هويت و غير قابل شناسايي مي باشند. از اين IP ها معمولا در شبکه هاي Lan در صورت نداشتن Valid IP به ميزان کافي و يا جهت امنيت شبکه استفاده مي شود. از Invalid IP بدليل نداشتن هويت در اينترنت نمي توان براي اتصال به اينترنت استفاده کرد. بلکه بايد از تکنيکهايي مثل NAT يا Proxy استفاده کرد.

Proxy: در مفهوم عاميانه به سانسور کردن سايتها تعبير مي شود. اما از نظر فني راه حلي است براي اينکه ما بتوانيم از Invalid IP ها براي اتصال به اينترنت استفاده کنيم. در اين روش بايد يک Proxy Server در شبکه نصب شود. در کل اين روش مطلوب نبوده و داراي نقاط ضعف عمده زير است: 1- نياز است که کاربران تنظيمات خاصي را در کامپيوتر خود انجام دهند. 2- در اين روش بسياري از پروتکلها پشتيباني نشده و قابل استفاده نيستند.
با اين حال برخي از مراکز اينترنتي نظير دانشگاهها، مؤسسات دولتي و امنيتي و ... براي کنترل بيشتر کاربران خود و گزارشگيري از سايتهاي مرور شده توسط هر کاربر از Proxy استفاده مي کنند. از جمله نرم افزارهاي Proxy Server مي توان به Squid، ISA، CacheXpress و . . . اشاره کرد.

NAT: يک تکنيک خوب براي بکارگيري Invalid IP است. در اين روش تقريبا تمام پروتکل ها پشتيباني مي شوند و مهمتر اينکه نياز به تنظيم خاصي بر روي کامپيوتر کاربران نيست. از جمله نرم افزارهايي که کار NAT را انجام مي دهند مي توان به ISA و Winroute اشاره کرد.

DNS: پروتکل تبديل اسم Domain به IP مي باشد. در شبکه به دستگاهي که اين کار را انجام مي دهد DNS Server گفته مي شود. (62.217.156.205 = www.yahoo.com )

Routing: اگر کامپيوتري بخواهد با يک کامپيوتر ديگر در اينترنت ارتباط برقرار کند، Packet هايش الزاما از چندين Node (کامپيوتر يا Router ) عبور مي کند تا به مقصد برسد. به عملي که يک Node بر روي Packet ها و ارسال آنها به Node ديگر براي رسيدن به مقصد انجام مي دهد Routing گفته مي شود.

Mail Server: در شبکه به سروري گفته مي شود که کار دريافت، ارسال و نگهداري Email را انجام ميدهد. از جمله نرم افزارهايي که براي Mail Server مورد استفاده قرار مي گيرند مي توان به MDaemon و Exchange اشاره کرد.

Web Server: به سروري گفته مي شود که صفحات Web بر روي آن قرار گرفته و Page هاي آن از طريق اينترنت قابل دستيابي است.

FTP Server: به سروري گفته مي شود که فايلهاي مورد نياز براي Download کردن کاربران بر روي آن قرار گرفته است. و کاربران مي توانند فايلهاي موجود در FTP Server را Download کنند.

Domain: به نام يک شبکه که منحصر بفرد بوده و در اينترنت Register شده است گفته مي شود. مثل persiannetworks.com . يک شبکه مي تواند داراي يک يا چند Domain باشد. البته يک شبکه مي تواند بدون Domain يا داراي Domain محلي نيز باشد.

Domain Registration: به عمل ثبت Domain گفته مي شود. چنانچه شما بخواهيد يک Domain براي خود رجيستر کنيد ابتدا بايد يک نام را که تا کنون در اينترنت استفاده نشده است انتخاب کنيد. سپس توسط شرکتهايي که عمل Domain Registration را انجام مي دهند آنرا بنام خود به مدت زمان معين Register کنيد.

Host: به کامپيوترهاي ميزبان که صفحات Web يا فايلهاي FTP بر روي آن قرار دارند Host گفته مي شود.

PC 2 Phone: به امکان ايجاد ارتباط تلفني بوسيله اينترنت از طريق يک کامپيوتر با يک تلفن PC2Phone گفته مي شود.

Phone 2 Phone: به امکان ايجاد ارتباط تلفني بوسيله اينترنت از طريق يک تلفن با يک تلفن ديگر Phone2Phone گفته مي شود.

ISP: به مراکز سرويس دهي اينترنت ISP گفته مي شود. (Internet Service Provider)

ITSP: به مراکز سرويس دهي Phone2Phone گفته مي شود. (Internet Telephony Service Provider)

DVB: به کارت سخت افزاري اطلاق مي شود که در يکي از Slot هاي کامپيوتر قرار مي گيرد و بوسيله يک کابل به ديش متصل شده و از طريق آن مي تواند Receive کند.

Receiver: يک Device است که به ديش وصل شده و عمل دريافت اطلاعات از ديش را انجام مي دهد.

Transiver : يک Device است که به ديش وصل شده و عمل ارسال اطلاعات به ديش را انجام مي دهد.

Cache Server: در حقيقت Proxy Server اي است که بتواند هنگام کارکردن کاربران، سايتهاي بازديد شده توسط آنها را در خود نگهداري کرده و در صورتي که کاربر ديگري بخواهد همان سايتها را بازديد نمايد با سرعت بيشتر و صرفه جويي در پهناي باند پاسخ خود را از طريق Cache Server دريافت کند. وجود Cache Server در شبکه مي تواند تا 50 درصد در اندازه پهناي باند صرفه جويي کند و راندمان شبکه را بالا ببرد. (در شرايط بهينه اين ميزان تا 60 درصد هم افزايش مي يابد.) Cache Server هم مي تواند سخت افزاري باشد (مثل Cache Force) و هم مي تواند نرم افزاري باشد.(مثل: 1- Squid که تحت Linux و Windows قابل نصب است. 2- ISA که تحت Win2000 قابل نصب است. 3- CacheXpress که تحت Linux و اکثر Windowsها قابل نصب است.)

Accounting/Billing: به نرم افزارهاي مديريت کاربران در يک ISP گفته مي شود. اين نرم افزارها کنترل ميزان استفاده کاربران از شبکه اينترنت را برعهده دارند. پر استفاده ترين نرم افزار در اين زمينه، NTTacPlus است.

Firewall: هم بصورت سخت افزاري و هم بصورت نرم افزاري وجود دارد و وظيفه آن بالا بردن ضريب امنيتي شبکه به منظور جلوگيري از Hack شدن و سوء استفاده توسط افراد سودجو مي باشد.

Filtering: هم بصورت سخت افزاري و هم بصورت نرم افزاري وجود دارد و وظيفه آن جلوگيري از ورود کاربران به سايتهاي غير مجاز مي باشد.

MultiPort: دستگاهي است که معمولا در ISPها مورد استفاده قرار مي گيرد. داراي يک کارت PCI بوده و بر روي Mainboard يک کامپيوتر نصب مي شود. با نصب MultiPort مي توان Comport هاي يک کامپيوتر را افزايش داد و تعداد زيادي Modem به يک کامپيوتر متصل کرد.

RAS: به کامپيوتري گفته مي شود که تعداد زيادي Modem به آن متصل بوده و کاربران مي توانند به آن Connect کرده و از اينترنت استفاده کنند.

Access Server: به دستگاههايي گفته مي شود که کاربران اينترتني قادر باشند به آن Connect کرده و از طريق آن به اينترنت دسترسي پيدا کنند.

VOIP Gateway: به دستگاههايي گفته مي شود که کاربران تلفني قادر باشند به آن Connect کرده و از طريق آن با کشورهاي مختلف ارتباط تلفني برقرار کنند.

VOIP Carrier: به تشکيلاتي گفته مي شود که با VoIP Gateway از طريق اينترنت در ارتباط بوده و ارتباط هاي تلفني بين VoIP Gateway و کشورهاي مختلف را برقرار مي سازد.


انواع راههاي ارتباط كاربر به ISP:
خط آنالوگ، خط Leased، خط E1 ،Wireless ،ADSL

هر ISP مي تواند براي دستيابي به اينترنت از يک يا چند روش از روشهاي زير استفاده کند.
خط آنالوگ، خط Leased، خط E1 ،Wireless ،ADSL ،Receive Only Sattelite ،Send/Rec Sattelite.

انواع دستگاههاي ارتباطي كه كاربر را به ISP متصل مي كند(براي خطوط آنالوگ و E1 ) عبارتند از:
1- روترهاي Cisco: امروزه استفاده از روترهاي Cisco به منظور برقراري ارتباط کاربران با ISP از جمله رايج ترين روشهاي موجود است.

2- Multiports: همانگونه که قبلا گفته شد از Multiport براي افزايش دادن پورتهاي Com و اتصال مودمهاي External به آنها استفاده مي شود. رايج ترين Multiport محصول شرکت Moxa مي باشد که داراي دو مدل Desktop (روميزي) و Rackmount (قابل نصب در Rack ) مي باشد. Multiport ها داراي مدلهاي 8پورت، 16 پورت و 32 پورت هستند. از انواع ديگر مولتي پورت مي توان به Equinox اشاره کرد.

3- Moxa Async Server: محصول شرکت Moxa بوده و داراي CPU مي باشد و در شبکه مستقيما به Hub وصل مي شود. و تعداد زيادي خطوط تلفن به آن وصل مي شود و کاربران از طريق آن مي توانند به شبکه وصل شوند.

4- Lucent Max TNT : محصول شرکت Lucent بوده و همانند Router قادر است هم به منظور Access Server براي ISP ها و هم به منظور VoIP Gateway براي ITSP ها مورد استفاده قرار بگيرد. در اين دستگاه کلا امکان نصب 10 Module وجود دارد. برخي از اين Module ها عبارتند از:

modem, ISDN, VoIP, V.110, and PHS MultiDSP module: support for analog
Digital modem module: support for analog modem and ISDN users
Analog modem module
Channelized T1/E1
Ethernet module

ضمنا اين دستگاه داراي چهار Ethernet با سرعت 10MB/s و يک Ethernet با سرعت 100MB/s مي باشد. اين دستگاه توانايي پشتيباني از انواع خطوط مخابراتي را دارد. هر ماديول MultiDSP توانايي پشتيباني از 96 پورت Dialup را دارد. بنابراين اگر 10 ماديول MultiDSP را به Max وصل کنيم توانايي پشتيباني از 960 خط را خواهد داشت!

Lucent Max 3000: اين دستگاه هم مانند Max TNT محصول Lucent بوده و داراي مشخصات زير است :
داراي 2 WAN براي اتصال خطوط E1 مي باشد. 32MB اندازه Ram و 16MB اندازه ظرفيت Flash آن مي باشد.

Taicom TopServer: اين دستگاه محصول شرکت Taicom بوده و داراي 30 مودم Internal براي اتصال به خطوط آنالوگ مي باشد.

USRobotics Net Server: اين دستگاه هم محصول شرکت USRobotics بوده و از خطوط معمولي و E1 پشتيباني مي کند.

Zyxel ModemPool: محصول Zyxel بوده که حاوي تعداد زيادي مودم است که در يک Box جاسازي شده اند و مي توان آنرا به يک کامپيوتر متصل کرده و از آن استفاده نمود. اخيرا يک شرکت ايراني بنام قاصدک نيز يک ModemPool مشابه بنام Ghasedak را توليد کرده است.

Quintum: Tenor: دستگاه تک منظوره اي است که فقط براي VoIP مورد استفاده قرار مي گيرد. در انواع متنوع 2، 4 و 8 پورت موجود ميباشد.

ChannelBank: دستگاهي است که از آن براي تبديل خطوط E1 به خطوط تلفن معمولي و بالعکس استفاده مي شود.

 

 

PSTN: منظور از آن شبکه مخابراتي عمومي مي باشد. (Public Switched Telephone Network)

خطوط آنالوگ معمولي: منظور از اين خطوط همان خطوط تلفني معمولي مي باشد. نرخ انتقال Data توسط اين خطوط حداکثر 33.6 Kb/s مي باشد. استفاده از اين خطوط براي اتصال به اينترنت در کشورمان بسيار رايج مي باشد.

T1: نام خطوط مخابراتي مخصوصي است که در آمريکا و کانادا ارائه مي شود. بر روي هر خط T1 تعداد 24 خط تلفن معمولي شبيه سازي مي شود. هر خط T1 مي تواند حامل 1.5 MB/s پهناي باند باشد.

E1: نام خطوط مخابراتي مخصوصي است که در اروپا و همچنين ايران ارائه مي شود. بر روي هر خط E1 تعداد 30 خط تلفن معمولي شبيه سازي مي شود. هر خط E1 مي تواند حامل 2 MB/s پهناي باند باشد. خطوط E1 نمي توانند همزمان هم Dialin باشند و هم Dialout.
در حال حاضر برخي از شرکتها و سازمانهاي خصوصي در ايران از E1 براي ارتباط تلفني خود استفاده مي کنند که مشخصه اين سيستم 8 رقمي بودن شماره هاي اين سازمانهاست. متأسفانه در دزفول هنوز خطوط E1 ارائه نمي شوند.

ISDN: اساس طراحي تکنولوژي ISDN به اواسط دهه 80 ميلادي باز ميگردد که بر اساس يک شبکه کاملا ديجيتال پي ريزي شده است .در حقيقت تلاشي براي جايگزيني سيستم تلفني آنالوگ با ديجيتال بود که علاوه بر داده هاي صوتي ، داده هاي ديجيتال را به خوبي پشتيباني کند. به اين معني که انتقال صوت در اين نوع شبکه ها به صورت ديجيتال مي باشد . در اين سيستم صوت ابتدا به داده ها ي ديجيتال تبديل شده و سپس انتقال مي يابد .
ISDN به دو شاخه اصلي تقسيم مي شود . N-ISDN و B-ISDN . B-Isdn بر تکنولوژي ATM استوار است که شبکه اي با پهناي باند بالا براي انتقال داده مي باشد که اکثر BACKBONE هاي جهان از اين نوع شبکه براي انتقال داده استفاده مي کنند ( از جمله شبکه ديتا ايران ) .
نوع ديگر B-ISDN يا ISDN با پهناي باند پايين است که براي استفاده هاي شخصي طراحي شده است . در
N-ISDN دو استاندارد مهم وجود دارد. BRI و PRI . نوع PRI براي ارتباط مراکز تلفن خصوصي (PBX ) ها با مراکز تلفن محلي طراحي شده است . E1 يکي از زير مجموعه هاي PRI است که امروزه استفاده زيادي دارد . E1 شامل سي کانال حامل (B-Channel ) و يک کانال براي سيگنالينگ ( D-Channel) ميباشد که هر کدام 64Kbps پهناي باند دارند .
بعد از سال 94 ميلادي و با توجه به گسترش ايتنرنت ، از PRI ISDN ها براي ارتباط ISP ها با شبکه PSTN استفاده شد که باعث بالا رفتن تقاضا براي اين سرويس شد. همچنانکه در ايران نيز ISP هايي که خدمات خود را با خطوط E1 ارايه مي کنند روز به روز در حال گسترش است .
نوع ديگر ISDN، BRIاست( نوعي که در کيش از آن استفاده شده ) که براي کاربران نهايي طراحي شده است. اين استاندارد دو کانال حامل 64Kbps و يک کانال براي سيگنالينگ با پهناي باند 16kbps را در اختيار مشترک قرار مي دهد .اين پهناي باند در اواسط دهه 80 ميلادي که اينترنت کاربران مخصوصي داشت و سرويسهاي امروزي همچون HTTP ، MultiMedia ، Voip و .... به وجود نيامده بود ، مورد نياز نبود همچنين براي مشترکين عادي تلفن نيز وجود يک ارتباط کاملا ديجيتال چندان تفاوتي با سيستمهاي آنالوگ فعلي نداشت و به همين جهت صرف هزينه هاي اضافي براي اين سرويس از سوي کاربران بي دليل بود و به همين جهت اين تکنولوژي استقبال چنداني نشد . تنها در اوايل دهه 90 بود که براي مدت کوتاهي مشترکين ISDN افزايش يافتند . پس از سال 95 نيز با وجود تکنولوژيهايي با سرعتهاي بسيار بالاتر مانند ADSL که سرعتي حدود8Mb/s براي دريافت و 640Kb/s را براي دريافت با هزينه کمتر از ISDN در اختيار مشترکين قرار ميدهد ، انتخاب ISDN از سوي کاربران عاقلانه نبود.
در حقيقت مي توان گفت کهISDN BRI تکنولوژي بود که در زماني به وجود آمد که نيازي به آن نبود و زماني که به آن نياز احساس مي شد ، با تکنولوژيهاي جديد تري که سرعت بالاتر و قيمت بيشتر داشتند جايگزين شده بود .
Leased Line يا Digital Subscriber Line يا DSL : خطي است که بصورت نقطه به نقطه دو محل را به يکديگر متصل مي کند که از آن براي تبادل Data استفاده مي شود. اين خط داراي سرعت بالايي براي انتقال Data است. نکته قابل توجه اين که در دو سر خط Leased بايد مودمهاي مخصوصي قرار داد.

خط Asynchronous Digital Subscriber Line يا ADSL: همانند خطوط DSL بوده با اين تفاوت که سرعت انتقال اطلاعات آن بيشتر است.

Wireless: يک روش بي سيم براي تبادل اطلاعات است. در اين روش از آنتنهاي فرستنده و گيرنده در مبدأ و مقصد استفاده مي شود. اين آنتنها بايد رو در روي هم باشند. برد مفيد اين آنتنها بين 2 تا 5 کيلومتر بوده و در صورت استفاده از تقويت کننده تا 20 کيلومتر هم قابل افزايش است. از نظر سرعت انتقال Data اين روش مطلوب بوده اما بدليل ارتباط مستقيم با اوضاع جوي و آب و هوايي از ضريب اطمينان بالايي برخوردار نيست.

Leased Modem: به مودم هايي گفته مي شود که در دو طرف خط Leased قرار مي گيرند. از جمله اين مودم ها مي توان به Patton , Paradyne , WAF , PairGain , Watson اشاره کرد.

از ميان انواع مودم هاي Leased مدل Patton در کشورمان رايج تر بوده و داراي مدلهاي زير است:
1092A (Upto 128Kb/s) , 1088C ( Upto 2Mb/s) و 1088i (Upto 2Mb/s)
مدل 1088i مودم/ روتر بوده و براي کار Bridge بيشتر استفاده مي شود.

ChannelBank: دستگاهي است که از آن براي تبديل خطوط E1 به خطوط تلفن معمولي و بالعکس استفاده مي شود.

انواع Modem
مودمها داراي انواع مختلفي هستند که مهمترين آنها عبارتند از:
1- Analog Modems: از اين مودمها براي برقراري ارتباط بين دو کامپيوتر (User و ISP) از طريق يک خط تلفن معمولي استفاده مي شود. انواع گوناگوني از اين نوع مودم در بازار يافت مي شود که برخي از آنها عبارتند از: Acorp , Rockwell , Dlink و ... .
2- Leased Modems: استفاده از اين مودمها در دوسر خط Leased الزامي است. مدلهاي معروف اين نوع مودمها عبارتند از: Patton , Paradyne , WAF , PairGain , Watson

Satellite: به معناي ماهواره مي باشد. امروزه بسياري از ماهواره ها خدمات اينترنت ارائه مي کنند. برخي از آنها عبارتند از: Taicom , Sesat , Telestar 12 , EuroAsia Sat
IntelSat 902 , France Telecom , ArabSat

Bandwidth: به اندازه حجم ارسال و دريافت اطلاعات در واحد زمان Bandwidth گفته مي شود. واحد اصلي آن بيت بر ثانيه مي باشد. هنگامي يک ISP مي خواهد پهناي باند خود را چه از طريق ديش و چه از طريق ساير روشها تهيه کند بايد ميزان پهناي باند درخواستي خود را در قراردادش ذکر کند. معمولا" پهناي باند براي ISPهاي خيلي کوچک64KB/s است و براي ISPهاي بزرگتر اين مقدار افزايش مي يابد و براي ISPهاي خيلي بزرگ تا 2MB/s و حتي بيشتر هم مي رسد.

پهناي باند بر دو نوع است:
1- Shared Bandwidth: اين نوع پهناي باند ارزان تر بوده و در آن تضميني براي تأمين پهناي باند طبق قرارداد براي مشترک وجود ندارد. چراکه اين پهناي باند بين تعداد زيادي ISP مشترک بوده و همگي از آن استفاده مي کنند. بنابراين طبيعي است که ممکن است در ساعات پر ترافيک ISP نتواند از پهناي باند درخواستي خود بهره ببرد.
2- Dedicated Bandwidth: اين نوع پهناي باند گران تر بوده اما در آن استفاده از سقف پهناي باند در تمام ساعات شبانه روز تضمين شده است. زيرا پهناي باند بصورت اختصاصي به مشترک اختصاص يافته است.

Bandwidth Quality: به معناي کيفيت پهناي باند مي باشد.کيفيت پهناي باند به دو عامل زير بستگي دارد:
1- Ping Time: به مدت زماني گفته مي شود که يک Packet از ISP به مقصد يک Host قوي (مثلا" www.yahoo.com) در اينترنت ارسال شده و پس از دريافت پاسخ مناسب دوباره به ISP باز مي گردد. هرچه اين زمان کمتر باشد پهناي باند از کيفيت بهتري برخوردار است.
2- Packet Loss: هنگامي که يک Packet به اينترنت ارسال مي شود ممکن است که بدلايل مختلف مفقود شده و يا از دست برود. Packet Loss عبارت است از نسبت Packetهاي از دست رفته و مفقود شده به کل Packetها. هر چه اين نسبت کمتر باشد پهناي باند از کيفيت بهتري برخوردار است.

 

 

 

 

اصطلاح شناسي شبکه هاي بيسيم (wireless)


تجهيزات و پيکربندي يک شبکه Wireless
سخت افزار مورد نياز به منظور پيکربندي يک شبکه بدون کابل به ابعاد شبکه مورد نظر بستگي دارد . عليرغم موضوع فوق ، در اين نوع شبکه ها اغلب و شايد هم قطعا" به يک access point و يک اينترفيس کارت شبکه نياز خواهد بود . در صورتي که قصد ايجاد يک شبکه موقت بين دو کامپيوتر را داشته باشيد ، صرفا" به دو کارت شبکه بدون کابل نياز خواهيد داشت .

Access Point چيست ؟
سخت افزار فوق ، به عنوان يک پل ارتباطي بين شبکه هاي کابلي و دستگاههاي بدون کابل عمل مي نمايد . با استفاده از سخت افزار فوق ، امکان ارتباط چندين دستگاه به منظور دستيابي به شبکه فراهم مي گردد .access point مي تواند داراي عملکردي مشابه يک روتر نيز باشد . در چنين مواردي انتقال اطلاعات در محدوده وسيعتري انجام شده و داده از يک access point به access point ديگر ارسال مي گردد .

کارت شبکه بدون کابل
هر يک از دستگاههاي موجود بر روي يک شبکه بدون کابل ، به يک کارت شبکه بدون کابل نياز خواهند داشت . يک کامپيوتر Laptop ، عموما" داراي يک اسلات PCMCIA است که کارت شبکه درون آن قرار مي گيرد . کامپيوترهاي شخصي نيز به يک کارت شبکه داخلي که معمولا" داراي يک آنتن کوچک و يا آنتن خارجي است ، نياز خواهند داشت .آنتن هاي فوق بر روي اغلب دستگاهها ،اختياري بوده و افزايش سيگنال بر روي کارت را بدنبال خواهد داشت .


پيکربندي يک شبکه بدون کابل
به منظور پيکربندي يک شبکه بدون کابل از دو روش متفاوت استفاده مي گردد :

روش Infrastructure : به اين نوع شبکه ها، hosted و يا managed نيز گفته مي شود . در اين روش از يک و يا چندين access point ( موسوم به gateway و يا روترهاي بدون کابل ) که به يک شبکه موجود متصل مي گردند ، استفاده مي شود . بدين ترتيب دستگاههاي بدون کابل، امکان استفاده از منابع موجود بر روي شبکه نظير چاپگر و يا اينترنت را بدست مي آورند .

روش Ad-Hoc : به اين نوع شبکه ها ، unmanaged و يا peer to peer نيز گفته مي شود . در روش فوق هر يک از دستگاهها مستقيما" به يکديگر متصل مي گردند.مثلا" يک شخص با دارا بودن يک دستگاه کامپيوتر laptop مستقر در محوطه منزل خود مي تواتند با کامپيوتر شخصي موجود در منزل خود به منظور دستيابي به اينترنت ، ارتباط برقرار نمايد .

پس از تهيه تجهيزات سخت افزاري مورد نياز به منظور ايجاد يک شبکه بدون کابل ، در ادامه مي بايست تمامي تجهيزات تهيه شده را با هدف ايجاد و سازماندهي يک شبکه به يکديگر متصل تا امکان ارتباط بين آنان فراهم گردد . قبل از نصب و پيکربندي يک شبکه بدون کابل ، لازم است به موارد زير دقت نمائيد :

تهيه درايورهاي مربوطه از فروشنده سخت افزار و کسب آخرين اطلاعات مورد نياز
فاصله بين دو کامپيوتر مي بايست کمتر از يکصد متر باشد .
هر يک از کامپيوترهاي موجود مي بايست بر روي يک طبقه مشابه باشند .
استفاده از تجهيزات سخت افزاري مربوط به يک توليد کننده ، داراي مزايا و معايبي است . در اين رابطه پيشنهاد مي گردد ليستي از ويژگي هاي هر يک از سخت افزارهاي مورد نياز عرضه شده توسط توليد کنندگان متعدد تهيه شود تا امکان مقايسه و اخذ تصميم مناسب، فراهم گردد .

مراحل لازم به منظور نصب يک شبکه ( فرضيات : ما داراي يک شبکه کابلي موجود هستيم و قصد پياده سازي يک شبکه بدون کابل به منظور ارتباط دستگاههاي بدون کابل به آن را داريم ) :

اتصال access point به برق و سوکت مربوط به شبکه اترنت

پيکربندي access point ( معمولا" از طريق يک مرورگر وب ) تا امکان مشاهده آن توسط شبکه موجود فراهم گردد . نحوه پيکربندي access point بستگي به نوع آن دارد.

پيکربندي مناسب کامپيوترهاي سرويس گيرنده به منظور ارتباط با access point ( در صورتي که تمامي سخت افزارهاي شبکه بدون کابل از يک توليد کننده تهيه شده باشند ، عموما" با تنظيمات پيش فرض هم مي توان شبکه را فعال نمود . به هر حال پيشنهاد مي گردد همواره به راهنماي سخت افزار تهيه شده به منظور پيکربندي بهينه آنان ، مراجعه گردد ) .

 

 

 

Data Center چيست ؟
** تا قبل از دهه 90 استفاده از اينترنت برای مردم عادی به سادگی امكان‌پذير نبود، چرا كه استفاده از امكانات اينترنت نياز به دانش خاصی داشت. محيط خط فرماني(Command Line) و ساختار غير گرافيكی اينترنت سبب شده بود كه كاربران عادی علاقه چندانی به استفاده از اينترنت نداشته باشند.
** در اوايل دهه 90، پس از به وجود آمدن مفهوم وب در اينترنت (سال 1993 ) و پروتكل HTTP كه به سادگی امكان به اشتراك
گذاشتن مستندات در اينترنت را در اختيار كاربران قرار می‌داد، روز به روز بر تعداد كاربران اينترنت افزوده شد. از سوی ديگر با اضافه شدن كاربران اينترنت، حجم مستندات نيز روز به روز افزايش يافت. مسلماً خطوط سابق اينترنتی و سرورهای موجود، توانايی جوابگويی به خيل عظيم كاربران را نداشتند.
** همچنين با زياد شدن كاربران و بالا رفتن حجم مستندات، و نيز سادگی انتشار اطلاعات در اينترنت، مفاهيم تجاری نيز وارد عرصه اينترنت شدند. شركت‌های تجاری نياز به سرورهايی داشتند كه اين امكان را به آنها بدهد كه به سادگی و با سرعت بتوانند اطلاعات خود را در اختيار مشتريان و كاربران خود قرار دهند.
** بالطبع اين امكان وجود نداشت كه هر شركت يا سازمانی كه قصد راه‌اندازی سايت‌های اينترنتی را دارد، خود راساً اقدام به راه‌اندازی سرور خود كند، چرا كه با وجود كاربران زياد اين سايت‌ها و حجم بالای ترافيك، نياز به اتصال‌هايی با سرعت‌های بسيار بالا وجود داشت كه مسلما حتی در صورتی كه اين امكان از لحاظ عملی وجود داشته باشد، هزينه بالايی را می‌طلبيد.
** راه‌حلی كه برای اين مشكل به نظر رسيد، راه‌اندازی مراكز خاصی تحت عنوان Data Center يا مراكز داده‌ای بود. Data Center ها با در اختيار داشتن اتصالات پرسرعته‌ای به اينترنت، و همچنين در اختيار داشتن سرورهای قوی و متعدد، امكان راه‌اندازی سرورهای وب را برای عموم مردم ممكن ساختند.
** شركت‌های تجاری و مردم می‌توانستند با اجاره كردن فضای محدودی در اين سرورها، سايت‌های وب خود را معرض ديد عموم قرار دهند. برخی شركت‌های بزرگ نيز با توجه به نياز خود، اقدام به اجاره كردن يك سرور در مركز داده‌ای می‌كردند و آن را از راه دور با ابزارهای خاص كنترل می‌كردند.
** اكنون با توجه به رشد سريع اينترنت، روز به روز به تعداد Data Center ها اضافه می‌شود به طوری كه در حال حاضر در اكثر كشورهای پيشرفته اين مراكز وجود دارند. تمركز اين مراكز بخصوص در كشور امريكا بسيار زياد است. دليل آن ارزان بودن نرخ اتصال به اينترنت و همچنين در دسترس بودن سرعت‌های بالا می‌باشد.
** برخی از اين Data Center از طريق خطوط مختلف فيبرنوری، پهنای باندی بيش از 4Gbps را در اختيار دارند و تعداد سرورهای اين Data Center معمولا بيش از 1000 است كه بر اساس مشخصات به متقاضيان اجاره داده می‌شود.
** پارامترهای زيادی در قيمت اجاره ماهانه يك سرور تاثيرگذار است كه می‌توان به سرعت CPU، مقدار حافظه RAM و اندازه Hard Disk ، حداكثر ترافيكی كه ماهانه در اختيار هر سرور قرار می‌گيرد، سيستم عامل سرور و همچنين سابقه مركز داده‌ای بستگی دارد.
مشخصات يك Data Center
** Data Centerهای متفاوتی در نقاط دنيا وجود دارد كه با توجه به نياز و همچنين شرايط منطقه‌ای طراحی و ساخته شده‌اند. استاندارد خاصی برای يك Data Center وجود ندارد اما در اينجا سعی شده است به برخی از مشخصات عمومی يك مركز داده‌ای اشاره شود.
· در اختيار داشتن اتصالات مختلف به اينترنت از طريق ISP و ICPهای مختلف:
** به طور معمول يك Data Center برای اتصال به اينترنت از چندين اتصال مختلف استفاده می‌كند تا در صورتی كه هر يك از اتصالات به دليلی از كار افتادند، در سرويس‌دهی مركز وقفه‌ای پيش نيايد. برخی از Data Center معروف با بيش از 12 اتصال مختلف به اينترنت متصلند.
· وجود سيستم قدرت پشتيبان:
** يكی از مهم‌ترين مسائل در Data Center سرويس‌دهی بدون وقفه به مشتريان می‌باشد. با توجه به امكان قطع برق به دلايل مختلف همچون حوادث غيرمترقبه يا جنگ، نياز به سيستم برق پشتيبان ضروری است. معمولاً Data Centerهای بزرگ از UPS های مخصوصی استفاده می‌كنند كه امكان سرويسدهی به بيش از 100 كامپيوتر را دارند. علاوه بر سيستم UPS، ژنراتورهای قوی نيز در مركز داده‌ای وجود دارد تا در صورت قطع بلندمدت برق، سرويس‌دهی بدون وقفه انجام شود.
· وجود سرورهای متعدد:
** هدف اصلی يك Data Center در اختيار گذاشتن سرورهای وب برای مشتريان است. سرورهای مورد استفاده با توجه به نياز و امكانات Data Center تعيين می‌شود. تنها تفاوت مهم، نوع سرورهای مورد استفاده توسط Data Center است. در Data Center ها از دو نوع سرور استفاده می‌شود: سرورهای Rackmount و يا سرورهای Desktop. با توجه به حجم كم سرورهای Rackmount اين امكان برای مركز داده‌ای فراهم می‌شود كه در فضايی كوچك، تعداد زيادی سرور قرار گيرد. اما مسئله مهم در اين نوع سرورها، قيمت بالای اين سرورها نسبت به سرورهای Desktop است. علاوه بر اين امكان ارتقاء سرورهای Rack Mount تنها به مقدار اندك امكان‌پذير است. با توجه به اين موضوع اكثر Data Center از سرورهای Desktop استفاده می‌كنند.
· مشخصات فيزيكی:
** با توجه به اين نكته كه اكثر سرورهای وب از نوع Desktop هستند، ساختمان‌های مراكز داده‌ای اكثرا با سقف‌های بلند ساخته می‌شوند كه علاوه بر تهويه هوا، امكان قرار دادن سرورهای بيشتر را می‌دهند. همچنين در تمامی Data Centerها، مسيرهايی برای گذراندن كابل‌های شبكه و همچنين كابل‌های برق وجود دارد. علاوه بر اينها، وجود سيستم تهويه قوی برای پايين نگاه داشتن دمای سرورها ضروری می‌باشد. البته مشخصاتی همچون وجود سقف كاذب، كف كاذب و همچنين سيستم اطفاء حريق در برخی موارد توصيه شده است.
مسئله مهم در Data Centerها، امكان استفاده متقاضيان از سرورهای Data Center می‌باشد كه در اين بخش به آن می‌پردازيم.
· نحوه در اختيار گرفتن يك سرور وب:
** پس از اينكه متقاضی سرور، با شرايط قراردادی كه Data Center مفاد آن را تنظيم كرده موافقت كرد، يك سرور در اختيار وی
گذاشته می‌شود. بسته به نوع قرارداد سرور می‌تواند تنها شامل سيستم عامل و يا نرم‌افزارهای كمكی همچون نرم‌افزارهای FTP و يا Control Panel سايت باشد. در صورتی كه اين نرم‌افزارها بر روی سرور نصب نشده باشد، متقاضی خود بايد اين نرم‌افزارها را نصب كند. متقاضی اكثرا از طريق Remote terminalها و يا نرم‌افزارهای خاصی مانند PCAnywere سرور خود را از راه دور كنترل می‌كند. پس از نصب و تنظيمات نرم‌افزاری، سرور آماده سرويسدهی می‌شود و بر حسب نياز متقاضی استفاده می‌شود.
** نكته قابل توجه، كنترل سرورها توسط متقاضی از راه دور است. با توجه به اين موضوع مسئوليت كليه مسائل و مشكلات سرور از جمله از كار افتادن سرويس‌ها و نرم‌افزارها و يا حملات هكری به عهده متقاضی می‌باشد.
البته در شرايط خاص و پرداخت مبالغ معين متقاضی می‌تواند از خدمات Data Center استفاده كند.
** هرچند در شرايط بحرانی همچون حملات گسترده كه منجر به از كار افتادن تمامی سرورها شود، معمولا Data Center برای سرويسدهی به تمامی سرورها به مشكل برخورد می‌كنند كه در اين صورت طبق اولويت‌های خود اقدام به رفع مشكل می‌كنند.

 

 

 

 

QOS در VOIP


سيستم تلفنی، يك شبكه سوئيچينگ مداری (Circuit Switching ) است. بدين معنی كه از طريق گره‌های شبكه، يك مسير اختصاصی بين دو ايستگاه انتهايی برقرار می‌شود. در مقابل، شبكه‌ای مانند اينترنت از سوئيچينگ پاكتی (Packet Switching) استفاده می‌كند كه روشی كاملا متفاوت با سوئيچينگ مداری دارد. در اين نوع شبكه برای انتقال ديتا نياز به يك مسير اختصاصی نيست، بلكه ديتا به صورت دنباله‌ای از قطعات كوچك به نام پاكت (Packet) ارسال می‌شود . هر پاكت در طول شبكه از گرهی به گره ديگر ارسال می‌شود و در هر گره پاكت به طور كامل دريافت و ذخيره شده، سپس به گره‌های بعدی ارسال می‌شود. البته چگونگی هدايت و مسيريابی در گره‌های ميانی، روش‌های مختلفی دارد كه توضيح آنها در اين نوشتار نمی‌گنجد.

شبكه تلفن با داده‌های آنالوگ (صوت ) سرو كار دارد. محدوده فركانسی سيگنال تلفن 0 تا 4Khz می‌باشد كه تقريبا محدوده فركانسی صوت انسان را پوشش می‌دهد. البته برای انتقال صدا در بسياری موارد، سيگنال آنالوگ تلفن را به داده‌های ديجيتال تبديل می‌كنند تا امكان انتقال آن با هزينه كمتر امكان‌پذير باشد. ( برای مثال برای ارتباط بين مراكز تلفن در قسمتی به نام PCM، سيگنال ديجيتال به آنالوگ تبديل شده، و در مركز مقصد عكس اين عمل انجام می‌شود و سيگنال آنالوگ دوباره به دست می‌آيد) برای تبديل سيگنال آنالوگ تلفنی به ديجيتال، مطابق با قضيه نايكوييست حداقل فركانس 8Khz نياز است كه با توجه به استاندارد نمونه‌برداری 8 بيتی در هر بازه زمانی، برای انتقال هر خط آنالوگ تلفنی به 64Kbps پهنای باند ديجيتال نياز است. اين پهنای باند حالت ايده‌آل و پايه انتقال ديجيتالی تلفن است. در حقيقت اكثر استانداردهای مخابراتی همچون E1 و T1 و حتی استانداردهای فيبر نوری STM1 بر اساس تعداد كانال‌های 64Kbps تعريف شده‌اند.

اما تخصيص 64Kbps برای انتقال هر كانال صوتی هزينه بالايی می‌طلبد، مخصوصا زمانی كه شبكه‌ای به اندازه كره زمين مدنظر طراحان باشد. با پيشرفت تكنولوژی به خصوص در زمينه كامپيوتر، راه‌حل‌های جديد برای كم‌كردن هزينه ارتباط مطرح شد كه برخی از اين راه‌حل‌ها منجر به پايين آوردن پهنای باند مورد نياز انتفال تلفنی می‌شدند.

مهم‌ترين راه‌حل، استفاده از الگوريتم‌های فشرده‌سازی خاص و حذف بعضی از سيگنال‌های زايد از داده ديجيتال می‌باشد. برای مثال در اكثر ارتباطات تلفنی، يكی از طرفين، شنونده وديگری گوينده است. در ارتباط كلاسيك تلفنی، در اين حالت كانال اشغال می‌شود هرچند داده‌ای منتقل نمی‌شود. می‌توان با استفاده از الگوريتم‌های خاص، سكوت يك طرف را تشخيص داد و به جای ارسال كامل داده و اشغال شدن كامل پهنای باند، داده‌ای به معنی سكوت را به گيرنده ارسال كرد و تا زمانی كه سكوت در يك طرف برقرار است، داده‌ای منتقل نكرد. اهميت اين الگوريتم بخصوص در ارتباطات راديويی (مانند سيستم تلفنی موبايل) بسيار با اهميت می‌شود، چرا كه با توجه به محدوديت كانال‌ها و وجود درخواست كنندگان زياد، استفاده بهينه از باند مهدود بسيار مهم است.

مسئله ديگر، سكوتی است كه بين اداكردن حروف از دهان انسان وجود دارد، چرا كه هرقدر شخصی بتواند سريع صحبت كند، باز بين اداكردن حروف، زمانی وجود دارد كه با استفاده از الگوريتم‌های خاص می‌توان آنها را حذف كرد. علاوه بر تمام اينها، امكان استفاده از الگوريتم‌های فشرده‌سازی در صوت ديجيتال‌شده وجود دارد.

البته استانداردهای مختلفی برای پايين آوردن پهنای باند مصرفی وجود دارد.

يكی از اولين و مشهورترين اين استانداردها، استاندارد GSMK می‌باشد كه در سيستم موبايل (GSM) استفاده می‌شود. اثبات شده است كه اين استاندارد با استفاده از يك پهنای باند 13Kbps (حدود يك پنجم پهنای باند پايه) كيفيتی مطلوب را به مشترك ارائه می‌كند.

در VOIP هم از استانداردهای مختلفی برای تبديل صوت به داده ديجيتال وجود دارد كه نياز به 64Kbps تا 8.3Kbps پهنای باند دارند.


البته عامل ديگری نيز در كيفيت انتفال صدا به وسيله IP تاثيرگذار است. با توجه به ساختار سوئيچينگ پاكتی در اينترنت و استفاده از پروتكل UDP در VOIP، تضمين 100% برای رسيدن داده‌ها به مقصد وجود ندارد، چرا كه علاوه بر امكان از دست رفتن پاكت‌ها در طول مسير، امكان پس و پيش شدن آنها(به دليل استفاده ازپروتكل UDP ) نيز وجود دارد.
البته مكانيزمی در استانداردهای جديد وجود دارد، تا در صورت گم شدن پاكت‌ها، افت كيفيت زياد نباشد.

همان طور كه مشاهده می‌شود، استاندارد G729 تنها تا زمانی كه درصد گمشدن پاكت‌ها كمتر از5 باشد، سرويسی با كيفيت قابل قبول را به كاربر ارائه می‌دهد. البته اين درصد گم‌شدن پاكت‌ها بسيار كم می‌باشد و امكان ارائه سرويسی مطمئن را به كاربر نمی‌دهد.

از سوی ديگر همان طور كه مشاهده می‌شود، در استاندارد Enhanced G.711 حتی با وجود 30% گم شدن پاكت‌ها، باز كيفيت سرويس در حد عالی است. البته در ايران با توجه به گران بودن پهنای باند، معمولا از استاندارد G.729 و يا پايين‌تر استفاده می‌شود و متاسفانه به دليل پايدار نبودن ارتباط ISPها با اينترنت و وجود نويز زياد و درصد بالای گم‌شدن پاكت‌ها، كيفيت ارتباط در اكثر مواقع در حد مطلوبی نمی‌باشد.

در هر حال VOIP توانسته است با ارائه كيفيتی در حد PSTN اما با هزينه‌ای بسيار پايين‌تر نسبت به PSTN (به علت ساختار شبكه‌ای و مهم‌تر از همه ساختار سوئيچينگ پاكتی) توانسته است توجه زيادی را به خود جلب كند، به طوری كه به نظر می‌رسد در آينده كليه ارتباطات راه دور از طريق VOIP انجام شود.

شركت‌های دولتی و خصوصی برای استفاده از اين تكنولوژی و ارانه خدمات با هزينه پايين‌تر و كيفيت بالاتر به مردم، در صورت توجه به نكات فنی و نيز اقدامات ضروری، می‌توانند توفيق زيادی يابند.

 


نوشته شده در تاريخ شنبه نوزدهم آذر 1390 توسط جعفر

آموزش نحوه NAT کردن در لینوکس


ابتدا فایل زیر را با نام rc.Firewall در مسیر /etc/rc.d ذخیره کنید و سپس در فایل rc.local آن را فراخوانی کنید.



 

#!/bin/sh

echo -e "\n\nLoading NAT script written by H.Zolghadri 1380/5/3 \n"

IPTABLES=/sbin/iptables

EXTIF="eth0"

INTIF="eth1"

echo " External Interface: $EXTIF"

echo " Internal Interface: $INTIF"

echo -en " loading modules: "

echo " - Verifying that all kernel modules are ok"

/sbin/depmod -a

echo -en "ip_tables, "

/sbin/insmod ip_tables

echo -en "ip_conntrack, "

/sbin/insmod ip_conntrack

echo -en "ip_conntrack_ftp, "

/sbin/insmod ip_conntrack_ftp

echo -en "ip_conntrack_irc, "

/sbin/insmod ip_conntrack_irc

echo -en "iptable_nat, "

/sbin/insmod iptable_nat

echo -en "ip_nat_ftp, "

/sbin/insmod ip_nat_ftp

echo ". Done loading modules."

echo " enabling forwarding.."

echo "1" > /proc/sys/net/ipv4/ip_forward

echo " enabling DynamicAddr.."

echo "1" > /proc/sys/net/ipv4/ip_dynaddr

echo " clearing any existing rules and setting default policy.."

$IPTABLES -P INPUT ACCEPT

$IPTABLES -F INPUT

$IPTABLES -P OUTPUT ACCEPT

$IPTABLES -F OUTPUT

$IPTABLES -P FORWARD DROP

$IPTABLES -F FORWARD

$IPTABLES -t nat -F

echo " FWD: Allow all connections OUT and only existing and related ones IN"

$IPTABLES -A FORWARD -i $EXTIF -o $INTIF -m state --state ESTABLISHED,RELATED -j ACCEPT

$IPTABLES -A FORWARD -i $INTIF -o $EXTIF -j ACCEPT

#$IPTABLES -A FORWARD -j LOG

echo " Enabling SNAT (MASQUERADE) functionality on $EXTIF"

#$IPTABLES -t nat -A POSTROUTING -o $EXTIF -j MASQUERADE

$IPTABLES -t nat -A POSTROUTING -o $EXTIF --source 192.168.0.0/24 -j MASQUERADE

echo -e "\n H.Zolghadri NAT script done.\n"

 

توجه داشته باشید که نام های کارت شبکه را طبق توضیحات داده شده در متن تغییر دهید.
EXTIF به کارت شبکه ای که به اینترنت متصل است اشاره می کند و INTIF به کارت شبکه ای که به lan متصل است اشاره می کند و همچنین 192.168.0.0 را بایستی به تناسب شبکه خود تغییر دهید.

 

 


نوشته شده در تاريخ شنبه نوزدهم آذر 1390 توسط جعفر

چکیده
امروزه با کوچک‌تر و پیچیده‌تر شدن جهان به واسطه رشد روزافزون وسایل ارتباط جمعی از قبیل اینترنت و ماهواره معادلات گذشته در تنظیم روابط بین کشورها تا حدود زیادی به هم خورده و جای خود را به معادلات جدیدی داده است؛ به گونه‌ای که به جای به کارگیری مستقیم زور، توجه قدرت‌ها به استفاده از قدرت نرم و ایجاد تغییرات از طریق مسالمت‌آمیز با به کارگیری شیوه‌های نوین مداخله در امور داخلی کشورها جلب شده است. علاوه بر این، در این دوران رسانه‌ها به مثابه ابزاری اساسی برای اِعمال سیاست‌های قدرت‌های زورمدار به کار می‌روند و رقابتی جهانی در عرصه نبرد رسانه‌ای شکل گرفته است. در این میان جنگ نرم با هدف گرفتن فکر و اندیشه ملت‌ها نقش مهمی را در سست نمودن حلقه‌های فکری و فرهنگی جوامع ایفا می‌کند. در این خصوص، امریکا سعی دارد با ارائه تعریف جدیدی از تروریسم و آزادی‌خواهی جنگ نرم گسترده‌ای را علیه دیگر کشورها از جمله ایران شکل دهد. در این مقاله راهکارهای این کشور برای مقابله نرم با جمهوری اسلامی ایران مورد مطالعه و بررسی قرار می‌گیرد.
واژگان کلیدی: جنگ نرم، قدرت نرم، ناتوی فرهنگی، جنگ‌ رسانه‌ای، شبکه‌سازی.
مقدمه
جنگ نرم در برابر جنگ سخت در حقیقت شامل هرگونه اقدام روانی و تبلیغات رسانه‌ای که جامعه هدف یا گروه هدف را نشانه می‌گیرد و بدون جنگ روانی، درگیری نظامی و گشوده شدن آتش رقیب را به انفعال یا شکست وامی‌دارد.  جنگ رایانه‌ای، اینترنتی، براندازی نرم، راه‌اندازی شبکه‌های رادیویی و تلویزیونی و شبکه‌سازی از اشکال جنگ نرم هستند. جنگ نرم در پی از پای درآوردن اندیشه و تفکر جامعه هدف است تا حلقه‌های فکری و فرهنگی آن را سست کند و با بمباران خبری و تبلیغاتی در نظام سیاسی – اجتماعی حاکم تزلزل و بی‌ثباتی تزریق کند.
جنگ نرم به وسیله کمیته خطر جاری در سال‌های پایانی دهه 1980 طراحی شد. کمیته خطر جاری در اوج جنگ سرد و در دهه 1970 با مشارکت اساتید برجسته علوم سیاسی و مدیران سابقه‌دار سازمان سیا و پنتاگون تأسیس شد.
در آن مقطع و در پی اصلاحات گورباچف مبنی بر ایجاد فضای باز سیاسی و تغییر در قوانین اقتصادی (پروسترویکا) این کمیته با منتفی دانستن جنگ سخت و رودررو با اتحاد جماهیر شوروی تنها راه به زانو درآوردن بلوک شرق را جنگ نرم و فروپاشی از درون معرفی کرد. سیاستگذاران پنتاگون و سیا با سه راهبرد دکترین مهار، نبرد رسانه‌ای و سامان‌دهی نافرمانی مدنی اتحاد شوروی را به فروپاشی و شکست واداشتند.
ایران نیز امروزه به لحاظ وسعت سرزمینی، کمیت جمعیت، کیفیت نیروی انسانی، امکانات نظامی، منابع طبیعی سرشار و موقعیت جغرافیایی ممتاز در منطقه خاورمیانه و هارتلند نظام بین‌الملل به قدرتی کم‌نظیر تبدیل شده است که از دید کارشناسان سیاسی کشورهای غربی دیگر نمی‌توان با یورش نظامی و جنگ سخت آن را سرنگون کرد بلکه تنها راه سرنگونی نظام جمهوری اسلامی پیگیری مکانیسم‌های جنگ نرم و به کارگیری تکنیک‌های عملیات روانی با استفاده از سه راهبرد دکترین مهار، نبرد رسانه‌ای و سامان‌دهی و پشتیبانی از نافرمانی مدنی است. راه‌اندازی پروژه جنگ نرم علیه ایران در مقطع کنونی را باید ناشی از گسترش حس تنفر از امریکا در جهان دانست که به نظر سران کاخ سفید ایران مرکز اصلی ایجاد این تنفر و گسترش آن است. در امریکا برای مقابله با این موج، نیروی واکنش سریع تشکیل شد تا اولاً در قالب پروژه دموکراتیزه کردن کشورها به خنثی‌سازی نفوذ معنوی ایران در کشورهای اسلامی و منطقه خاورمیانه بپردازد و ثانیاً با القای خطرناک بودن ایران برای امنیت همسایگان اذهان عمومی از اقدامات و نقشه‌های ایالات متحده منحرف شود.
نکته مهم اینکه آخرین نظرسنجی که به وسیله شورای روابط خارجی امریکا در بیشتر کشورهای خاورمیانه مانند مصر، عربستان سعودی، اردن، لبنان و امارات متحده عربی صورت گرفته حاکی از آن است که کمتر از ده درصد مردم این کشورها طرفدار دمکراسی به سبک امریکایی‌اند. اکثریت مردم این کشورها معتقدند هدف اصلی امریکا از پروژه دمکراسی‌سازی در خاورمیانه دستیابی آسان به نفت، امنیت اسرائیل و تضعیف مسلمانان است. نوشتار حاضر بر این اعتقاد است که استراتژی امریکا برای مقابله با جمهوری اسلامی ایران در شرایط کنونی مبتنی بر اقدامات غیرنظامی و نرم در کنار تهدید به اقدام نظامی است.
جنگ نرم؛ استراتژی جدید امریکا برای مقابله با جمهوری اسلامی ایران
پدیده جنگ نرم که هم‌اکنون به عنوان پروژه‌ای عظیم علیه جمهوری اسلامی ایران در حال تدوین است در شاخص‌هایی ماننده ایجاد نابسامانی اقتصادی، شکل دان به نارضایتی در جامعه، تأسیس سازمان‌های غیردولتی در حجم گسترده، جنگ رسانه‌ای، عملیات روانی برای ناکارامد جلوه دادن دستگاه اداری و اجرایی دولت، تضعیف حاکمیت ایران از طریق روش‌های مدنی و ایجاد ناتوی فرهنگی متبلور می‌شود. در برایند جنگ نرم، عوامل براندازی یا از زمینه‌های موجود در جامعه برای پیشبرد اهداف خود بهره می‌برند یا به طور مجازی سعی در ایجاد نارضایتی در نزد افکارعمومی و سپس بهره‌برداری از آن دارند.
به طور کلی تهدیدات علیه امنیت ملی جمهوری اسلامی ایران در برهه زمانی کنونی را می‌توان در گونه تهدیدات نظامی و تهدیدات نرم تقسیم‌بندی کرد.
در همین راستا کمیته صلح جاری برای مقامات امریکایی، نیز تنها راه تغییر نظام جمهوری اسلامی ایران، را پیگیری جنگ نرم به جای جنگ سخت می‌داند. این استراتژی که دلتا نام دارد سه محور اصلی آن استفاده از تاکتیک‌های دکترین مهار، نبرد رسانه‌ای و ساماندهی نافرمانی مدنی می‌باشد.
استفاده از مشکلات اقتصادی، تنوع کثرت قومی ایران، ایجاد و دامن زدن به نافرمانی مدنی در تشکل‌های دانشجویی و نهادهای غیردولتی و صنفی، تلاش در نزدیکی به مردم تحت پوشش حمایت از حقوق بشر و دمکراسی در ایران، ایجاد شبکه‌های متعدد رادیو – تلویزیونی فارسی زبان حمایت از اپوزیسیون (سفر فعالان جوان خارجی از کشورهای متحد با امریکا به ایران تحت عناوین جهانگرد که در صورت نیاز، به جنبش‌های مدنی و نافرمانی‌ها بپیوندند)، تسهیل فعالیت ان.جی.اُ امریکایی در ایران، دعوت فعالان جوان ایرانی به خارج برای شرکت در سمینارهای کوچک (این افراد باید از سوی مقامات امریکایی انتخاب شوند نه نهادهای ایرانی)، استفاده از سفارتخانه‌های کشورهای دیگر و به طور کلی تضعیف ستون‌های حمایتی حکومت ایران از جمله راهکارهای اجرای استراتژی دلتا به شمار می‌آیند.(www.aei.org/publications)
رژیم صهیونیستی نیز با همکاری امریکا در راستای جنگ نرم علیه جمهوری اسلامی ایران چندی پیش در نر داشت که با درج آگهی در روزنامه‌های وابسته به خود تعدادی جاسوس فارسی‌زبان را با عنوان انتخاب شغلی جالب و چالشگر به استخدام موساد درآورد. علاوه بر این، این رژیم‌ها با همکاری اتحادیه اروپا و امریکا در نظر دارد یک شبکه رادیو – تلویزیونی برای ایرانیان راه‌اندازی کند.
طرح یاد شده شامل راه‌اندازی یک کانال تلویزیونی، یک ایستگاه رادیویی و یک وب‌سایت اینترنتی است که اخبار فوری، برنامه‌های زنده و تکراری را به صورت 24 ساعته برای ایرانیان پخش می‌کنند. هدف از این طرح تأثیرگذاری بر افکارعمومی جامعه ایران و فراهم نمودن زمینه جنگ نرم جمهوری اسلامی ایران عنوان شده است.
دلایل به کارگیری قدرت نرم علیه جمهوری اسلمی ایران
قدرت نرم، به آن دسته از قابلیت‌ها و توانایی‌های کشور اطلاق می‌شود که با به کارگیری ابزاری چون فرهنگ، آمال و یا ارزش‌های اخلاقی به صورت غیرمستقیم بر منافع یا رفتارهای دیگر کشورها اثر می‌گذارد استفاده از راهکارهای قدرت نرم در جنگ نرم از اهمیت زیادی برخوردار است. ژوزف نای از پیشگامان طرح قدرت نرم در سال 1989 می‌گوید: «قدرت نرم، توجه ویژه به اشغال فضای ذهنی کشور دیگر، از طریق ایجاد جاذبه است و نیز زمانی یک کشور به قدرت نرم دست می‌یابد که بتواند (اطلاعات و دانایی) را به منظور پایان دادن به موضوعات مورد اختلاف به کار گیرد و اختلافات را به گونه‌ای ترسیم کند که از آنها امتیاز بگیرد. مونوپولی اطلاعات و دانایی مرکز دیپلماسی نیست، بلکه خود دانش و گسترش آن است که باید نقطه قوت دیپلماسی باشد. قدرت نرم، تبلیغات سیاسی نیست بلکه مباحث عقلانی و ارزش‌های عمومی را شامل می‌شود. هدف قدرت نرم افکارعمومی خارج و سپس داخل کشور است. وسایل ارتباط جمعی در جهان امروز، جهان‌های ذهنی و غیرواقعی را به دنیا مخابره می‌کنند. آنها دیگر به انتقال واقعیت فکر نمی‌کنند، بلکه واقعیت‌ها را می‌سازند. هدف رسانه‌ها از قدرت نرم در ابتدا مدیریت افکارعمومی نیست، بلکه رسانه‌ای در این دنیا موفق است که بتواند با افکارعمومی حرکت کند و خود را سازگار با آنها نشان دهد. در عصر رسانه‌های نوین جهانی، به یاری فناوری‌های نوین ارتباطات و اطلاعات کسب قدرت نرم به مراتب راحت‌تر از به دست آوردن و نگهداری قدرت سخت است.
دولت‌ها اگر بتوانند مفاهیم جدید امنیتی را برای خود، بازتعریف کنند، در آن صورت مجبور نیستند لشکرهای عظیم نظامی خود را تقویت کنند. (کوآت.بی،ای.ماتیو)
راهکارهای رسیدن و در اختیار داشتن قدرت نرم محورهای ذیل را دربر می‌گیرد:
1. داشتن کانال‌های چندگانه ارتباطی داخلی و خارجی؛
2. نزدیک کردن سنت‌ها و ایده‌های فرهنگی اجتماعی و سیاسی بر نرم‌های جهانی؛
3. حرکتی آرام، پراکنده و پیوسته در جهت تسخیر افکارعمومی به وسیله رسانه‌های همراه و همگام با مردم (نه رسانه‌ای که قصد مدیریت افکار را داشته باشد)؛ و
4. ایجاد گفتمان‌های خبری – رسانه‌ای در خارج و داخل به زبان‌های مختلف.
البته در شرایط فعلی به نظر می‌رسد قدرت متراکم و سخت امریکا دچار بحران اساسی شده است، به همین منظور امریکا در صدد به کارگیری قدرت نرم برای مقابله با حریفان خود به خصوص ایران است.
بر همین مبنا دونالد رامسفلد طی سخنانی در شورای روابط خارجی امریکا ضمن دفاع از استراتژی مقابله با تروریسم و ادامه جنگ در عراق بر نقش اثرگذار و خصمانه محیط رسانه‌ای گروه‌های رقیب برای مقابله با تروریسم تأکید کرد.
نکته مهم و برجسته سخنان رامسفلد، هشدار وی در مورد ناتوانی دولت امریکا در روند مواجهه با واقعیت عصر رسانه‌ای است که موجب ضرر و زیان و از دست رفتن جان هزاران امریکایی در سراسر جهان شده است. وی اشاره می‌کند که برخی از صحنه‌های نبرد ممکن است در کوهستان‌های افغانستان یا خیابان‌های عراق اتفاق نیفتد، بلکه در اتاق‌های خبر در نیویورک، لندن و قاهره یا هر جای دیگر شکل بگیرد.
از دید اکثر کارشناسان امریکایی در حالی که القاعده و جنبش‌های افراطی سال‌ها از این سکو – رسانه خبری استفاده کرده و به طور موفقیت‌آمیزی توانسته‌اند افکارعمومی مسلمانان را علیه غرب مسموم نمایند، ولی این کشور هنوز در مرحله آغاز رقابت برای جلب مخاطبان قرار دارد. علاوه بر این، تلاش رسانه‌ای و ارتباطی مقامات امریکا در پنتاگون و دیگر سازمان‌ها، به جای آنکه فعال باشد بیشتر متمایل به افدامات واکنشی است.
این کارشناسان به دولت بوش پیشنهاد در پیش گرفتن استراتژی ارتباطات را می‌نمایند که بر بازنگری در تلاش‌های جاری رسانه‌ای به ویژه در نحوه فعالیت‌ سازمان اطلاعات امریکا و رادیو اروپای آزاد و نیز شناسایی واقعیت‌های رسانه‌های تصویری و دیجیتالی و لزوم تغییر در شیوه‌های کاری و تجاری بخش‌های روابط عموی مبتنی است. به نظر می‌رسد قدرت سخت امریکا در چنبره قدرت نرم رسانه‌ها گرفتار شده است و خاورمیانه با پیچیدگی‌ها و تنوع خاص فرهنگی، سیاسی و رسانه‌ای خود، به خطرناک‌ترین دام برای امریکا تبدیل شده است. به گونه‌ای که ایجاد و رشد شبکه‌های خبری مستقل در این منطقه ضربه سختی را بر وجهه و موقعیت امریکا در منطقه وارد نموده است. شبکه‌های خبری همچون الجزیره، روند هدایت افکارعمومی و مسلمانان علیه امریکا را وارد فاز جدیدی کرد.
علاوه بر این با اشغال عراق و افغانستان و فشار بر سوریه و لبنان از یک‌سو و بهانه‌جویی و شرارت امریکا در خصوص پرونده هسته‌ای ایران، بازی باخت – باخت امریکا در خاورمیانه، بسیار روشن‌تر و خطرناک‌تر شده است، گروه‌های ضدامریکایی با گرایش‌های سلفی – تکفیری رشد و توسعه برق آسایی را تجربه کردند و افکارعمومی منطقه خاورمیانه هم به شدت ضدامریکایی‌تر شد.
افتضاح زندان‌های ابوغریب و گوانتانامو، بحران افکارعمومی را برای امریکایی‌ها، سیاه‌تر و مشکل‌تر کرد. ورود مستقیم امریکا به بحران انرژی در منطقه خاورمیانه و عقد قرارداد هسته‌ای با هند از جمله مصادیق همین قمار امریکایی و ورود سخت به بازی‌های نرم منطقه است.
از سوی دیگر چالش هسته‌ای ایران و امریکا نیز تاکنون با ناکامی و البته خشم امریکایی‌ها روبه‌روابط عمومی، شده است و آنها عملاً نتوانسته‌اند ایران را در چارچوب شورای امنیت تحت فشار بگذارد.
رشد سریع شبکه‌های خبری در منطقه خاورمیانه که با الگوبرداری از الجزیره تأسیس شده‌اند و به موفقیت‌های قابل قبولی در ایجاد فضای رسانه‌ای و هدایت افکارعمومی منطقه دست یافته‌اند، دورنمای بسیار تاریکی را برای موقعیت امریکا در منطقه خاورمیانه ایجاد کرده است؛ بنابراین، اگر در دوره نخست ریاست‌جمهوری بوش استفاده از قدرت سخت برای مقابله با کشورهای خاورمیانه به خصوص ایران در میان بود اکنون قدرت نرم در مرکز توجه مقامات سیاسی واشنگتن قرار گرفته است، به گونه‌ای که براساس بررسی انجام شده از سوی پروژه گرایش‌های جهانی پیو بیشتر جهانیان فکر می‌کنند جنگ امریکا در عراق خطر بزرگ‌تری برای صلح جهانی است تا ایران؛ و این جنگ جهان را به مکانی خطرناک‌تر تبدیل کرده است.
همچنین، این گزارش تأکید می‌نماید که در کشورهایی که اکثر جمعیت‌شان مسلمان‌اند امریکا باید احتمالاً بیشتر بر قدرت نرم متمرکز شود، با این حال این کشور وجهه‌ای منفی دارد، اما ایران در این کشورها تصویری بسیار مطلوب از خود بر جای گذاشته است.(دبلیو، ی، آستین)
ناتوی فرهنگی؛ چهره‌ای دیگر از جنگ نرم
پس از فروپاشی اتحاد جماهیر شوروی در سال 1991 و پایان یافتن جنگ سرد (1991 – 1945) دنیا به سمت تک‌قطبی شدن پیش رفت، بنابراین امریکا که رقیب اصلی‌اش (اتحاد جماهیر شوروی) دیگر توان مقابله با او را نداشت احساس کرد رقیب ممتازی ندارد به همین علت تلاش کرد سیطره خود را در عرصه‌های نظامی، اقتصادی، فرهنگی و سیاسی بر جهان تحمیل کند. بنابراین به فرهنگ‌سازی جهانی مبتنی بر فرهنگ لیبرال دمکراسی، متوسل شد؛ از همین روابط عمومی،، به یک مجموعه مقتدر فرهنگی نیاز بود و شاید از این زمان به بعد عملاً ناتوی فرهنگی موجودیت یافت. در همین راستا اندکی پیش از فروپاشی اتحاد جماهیر شوروی نظریه پایان تاریخ فوکویاما – استاد اقتصاد سیاسی دانشگاه جان‌هاپکینز – در سال 1989 در سطح جهان مطرح گردید. وی در مقاله‌اش خاطرنشان می‌کند: «واقعیتی که اینک شاهد عینی آن هستیم تنها پایان جنگ سرد یا عبور از یک دوران تاریخی جنگ سرد نیست بلکه این واقعه نقطه پایان تحول ایدئولوژیکی و بشری و جهانی‌سازی لیبرالیسم غربی به عنوان شکل نهایی حکومت بشری است.» همچنین همزمان با نظریه مذکور نظریات دیگری مانند موج سوم آلوین تافلر، دهکده جهانی جرج اورول و مک لوهان، برخورد تمدن‌های ساموئل هانتینگتون، جهانی‌شدن و جهانی‌سازی رابرتسون هابرماس و گیدنز و نظریه عدالت جهان راولز به عنوان مکمل‌های نظریه پایان تاریخ فوکویاما مطرح شدند، در نتیجه حس جهانشمولی و به تعبیر دیگر احساس کدخدا بودن برای دنیایی که در چارچوب دهکده جهانی گنجانده شده است، سبب گردید که ناتوی فرهنگی عینیت یابد. همچنین می‌توان دلایل روی آوردن به ناتوی فرهنگی را نسبت به ناتو با رویکرد نظامی به شرح ذیل بیان نمود:
- گستره و دوربرد ناتوی فرهنگی فراتر از مرزهای جغرافیایی – بلکه مرزهای فکر، اندیشه و فرهنگ ملت‌هاست – لکن دوربرد ناتوی نظامی مرزهای جغرافیایی یک یا چند کشور است.
- استراتژی و رهیافت ناتوی فرهنگی قبضه کردن باورها، ایدئولوژی و جهان‌بینی ملت‌ها و فرهنگ‌هاست، لکن استراتژی با رویکرد نظامی تصرف زمین و کسب منابع و مراکز مهم اقتصادی است.
- ویرانی‌ها، تلفات و خرابی‌ها در کارکرد نظامی و جنگ سخت، محسوس و ملموس است ضمن آنکه با هزینه کردن، قابل بازسازی است، ولی در ناتوی فرهنگی ویرانی‌ها و تلفات و به تعبیر بهتر آسیب‌ها نامحسوس است، بنابراین تخریب فکری و فرهنگی به آسانی بازسازی نمی‌شود.
- ناتوی فرهنگی جنگ نرم، بدون خاکریز و بی‌سروصداست اما ناتو با رویکرد نظامی درگیر جنگ سخت و پرسرصداست.
- کارکرد ناتوی فرهنگی بلندمدت، پرجاذبه، پربازده، کم‌دردسر و کم‌هزینه‌تر است، ولی ناتو با رویکرد نظامی کوتاه‌مدت، خشک و سخت، کم‌بازده و پردردسر و پرهزینه‌تر است.
- تلفات انسانی در جبهه نظامی مقدس، با ارزش و ماندنی است و به خصوص در فرهنگی دینی تحت عنوان شهادت از آن یاد می‌شود اما در عرصه فرهنگی ذهن‌ها و اندیشه‌ها آسیب می‌بیند.
به طور کلی فرهنگ هر قوم و آیینی و به تعبیر دیگر فرهنگ هر ملت و کشوری دربر گیرنده باورها، ارزش‌ها، آداب، رسوم و بایدها و نبایدهایی است که به عنوان زیربنای اصلی هویت هر کشوری به شمار می‌آید، بنابراین از جمله اهداف ناتوی فرهنگی به حاشیه راندن فرهنگ ملی و دینی جوامع و ملت‌هاست تا با حاکم کردن فرهنگ لیبرال دمکراسی در راستای فرهنگ‌سازی جهانی خواسته‌های خود را در تمام ابعاد تأمین کنند و در عمل اداره کشورها و به تعبیر صحیح‌تر اداره امور جهان را به دست گیرند. (سریع القلم، محمود)
امریکا و جریان صهیونیسم بین‌الملل برای عملیاتی ساختن و جنگ نرم در قالب ناتوی فرهنگی علیه جمهوری اسلامی ایران طی سال‌های گذشته و همچنین برای سال‌های آینده راهبردها و شیوه‌های زیر را طراحی کرده‌اند:
- پیگیری پرونده هسته‌ای ایران و القای غیرصلح‌امیز بودن این فناوری تبلیغ و اینکه ایرانی‌ها تلاش دارند بمب اتمی بسازند که نه تنها برای امنیت و ثبات منطقه و جهان خطرناک است بلکه موجب تقویت جبهه تروریست‌ها و جریان بنیادگرایی افراطی در جهان خواهد شد.
- سرمایه‌گذاری در رسانه‌های دیداری و شنیداری، سازمان‌های تبلیغاتی و خبری و کمپانی‌های فیلم‌سازی برای ارائه تصویری سیاه و خطرناک از جمهوری اسلامی ایران برای افکارعمومی جهان که آخرین نمونه آن ساخت و پخش فیلم ضدایرانی 300 بوده است. فیلم دیگری نیز تحت عنوان فرار از تهران توسط کمپانی برادران وارنر در حال تولید است.
- ایجاد فضای رسانه‌ای درباره دخالت ایران در عراق، لبنان و … در نقش بزرگ‌ترین مدافع تروریسم که به عوامل ناامنی در این کشورها تسلیحات می‌رساند و آنها را آموزش نظامی می‌دهد.
- تقویت و ایده جنبش دمکراسی به سبک امریکایی و مستمسک قراردادن مقوله حقوق بشر، حقوق زنان و دامن‌زدن به مطالبات صنفی و اجتماعی همچنین سازمان‌دهی نارضایتی‌ها و نافرمانی به اصطلاح مدنی به وسیله مطبوعات خاکستری، احزاب و …
- راه‌اندازی سایت‌های اینترنتی و ارائه نرم‌افزارهای جاسوسی به عوامل خود در داخل کشور تا ابعاد مختلف جنگ رسانه‌ای به شکل اثربخش‌تر طراحی و اجرا شود.
- تلاش برای تحلیل مغرضانه از اوضاع داخلی و ایجاد فضای وحشت‌زا و موهوم از احتمال بروز جنگ، آغاز دوره بحران اقتصادی و مشکلات عظیم ناشی از آن.
- سوءاستفاده تبلیغاتی از اجرای طرح‌هایی چون طرح امنیت اجتماعی به عنوان محدودکننده آزادی و حقوق زنان و نقش‌ آزادی‌های مدنی و اجتماعی.
- ایجاد تقابل‌های سیاسی بین سران ارشد نظام اسلامی و القای اینکه جنگ قدرت در جمهوری اسلامی بین چند طیف در جریان است و در نهایت فلان طیف یا فلان گروه پیروز و یا شکست می‌خورد.
جنگ رسانه‌ای امریکا علیه جمهوری اسلامی ایران
بنیادی‌ترین تعریف از جنگ رسانه‌ای استفاده از رسانه‌ها برای تضعیف کشور هدف و بهره‌گیری از توان و ظرفیت رسانه‌ها (اعم از مطبوعات، خبرگزاری‌ها، رادیو، تلویزیون، اینترنت و اصول تبلیغات) به منظور دفاع از منابع ملی است. جنگ رسانه‌ای یکی از برجسته‌ترین جنبه‌های جنگ نرم و جنگ‌های جدید بین‌المللی است. اگرچه رسانه‌ای عمدتاً به هنگام جنگ‌های نظامی کاربرد بیشتری پیدا می‌کند، اما این به آن مفهوم نیست که در سایر مواقع جنگ رسانه‌ای در جریان نبوده و یا مورد استفاده قرار نمی‌گیرد. جنگ رسانه‌ای تنها جنگی است که حتی در شرایط صلح نیز بین کشورها به صورت غیررسمی ادامه دارد و هر کشوری از حداکثر توان خود برای پیشبرد اهداف سیاسی خویش با استفاده از رسانه‌ها، بهره‌برداری می‌کند. جنگ رسانه‌ای ظاهراً میان رادیو و تلویزیون‌ها، مفسران مطبوعاتی، خبرنگاران خبرگزاری‌ها، شبکه‌های خبری و سایت‌های اینترنتی جریان دارد، اما واقعیت آن است که در پشت این جدال ژورنالیستی، چیزی به نام سیاست رسانه‌ای یک کشور نهفته است که به طور مستقیم توسط بودجه‌های رسمی مصوب پارلمان‌ها یا بودجه‌های سری سازمان‌های اطلاعاتی و امنیتی و سرویس‌های جاسوسی تغذیه می‌شود.(روبین، مایکل) سربازان جنگ رسانه‌ای، متخصصان تبلیغات، استراتژیست‌های تبلیغات بین‌المللی و کارگزاران رسانه‌ها هستند. پیچیدگی‌های ابعاد مختلف جنگ رسانه‌ای موجب شده تا تصمیم‌گیری درباره طراحی، تدوین استراتژی، چارچوب‌ها، تکنیک‌های کاربردی، نحوه عملیاتی کردن اهداف و مأموریت‌های تعریف شده، استفاده از حداکقر از توان هر رسانه با توجه به امکانات انتشار مکتوب، چاپی، صوتی، تصویری، چندرسانه‌ای، اینترنتی و سرانجام انتشار آنلاین تنها به ژنرال‌های نظامی واگذار نشود. جنگ رسانه‌ای مقوله‌ای است که همکاری هماهنگ و نزدیک بخش‌های نظامی، سیاسی، اطلاعاتی، امنیتی، رسانه‌ای و تبلیغاتی یک کشور را می‌طلبد. طراحان جنگ رسانه‌ای نه لزوماً ژنرال‌های پادگان‌نشین، بلکه ممکن است پروفسورهای کالج‌ها و دپارتمان‌های رسانه‌ای در دانشگاه‌های معتبر هر کشور باشند.
جنگ رسانه‌ای برخلاف جنگ‌های نظامی که عمدتاً میان دو یا چند کشور به عنوان ائتلاف با یک کشور جریان می‌یابند، می‌تواند میان یک گروه از کشورها با گروه بزرگ دیگری از کشورها با ویژگی‌های مشخص جریان یابد. جنگ رسانه‌ای غرب علیه جهان اسلام و جنگ رسانه‌ای غرب علیه کشورهای جهان سوم، دو نمونه بارز از موضوعی هستند که می‌توانیم آن را به جنگ جهانی رسانه‌ای تعبیر کنیم. (کاگن، رابرت)
بهره‌برداری چندمنظوره از فناوری جدید ارتباطاتی، یکی از شیوه‌های جنگ رسانه‌ای علیه ایران است. از سویی شبکه تلویزیون ماهواره‌ای مخصوص کامپیوتر و اینترنت راه‌اندازی می‌کنند و از سوی دیگر با استفاده از اینترنت، سایت‌ها و وبلاگ‌ها، به تشریح روش استفاده از آنتن‌ها و رسیورهای ماهواره‌ای و نحوه عبور از پارازیت‌ها می‌پردازند.
در تعدادی از سایت‌ها و وبلاگ‌های مخصوص ماهواره آنچنان از جزئیات فنی کانال‌ها، فرکانس‌ها، سیگنال‌ها و مشخصات آنتن‌ها و ان‌ال‌پی سخن به میان آمده که هر مخاطبی با داشتن سطح اطلاعات اندکی می‌تواند تشخیص دهد که در پشت چنین سایت یا وبلاگی یک طراح حرفه‌ای و یک برنامه از پیش تعیین شده برای گسترش فرهنگ استفاده از ماهواره در ایران و حل مسائل و مشکلات فنی استفاده‌کنندگان وجود دارد.
اگرچه توجه مطبوعاتی امریکایی به مسائل ایران بسیار اندک بوده و به ندرت رویدادهای جاری ایران در این رسانه‌ها بازتاب می‌یابد، اما یک خط‌مشی کلان و محوری بر این رسانه‌ها حاکم است که بر اساس آن فقط اخبار منفی از ایران بر روی صفحات این نشریات نقش می‌بندد و عمده گزارش‌های خبرنگاران مطبوعات غربی از ایران، یا مربوط به بحران‌های سیاسی، اجتماعات، زدوخوردها و تضاد حاکمیت با مردم و یا مربوط به موضوعات کلیشه‌ای و تکراری مانند نقض حقوق بشر، تلاش برای دستیابی به سلاح‌های هسته‌ای و کشتارجمعی و نقش آزادی‌های سیاسی و مدنی است. این رسانه‌ها همچنین با انتشار اخبار سری و محرمانه یا اخبار هدایت‌شده از سوی دستگاه‌های سیاست خارجی و اطلاعاتی کشور متبوع خود، به ایجاد فضا و جوسازی علیه ایران می‌پردازد.
ریشه‌یابی بسیاری از جریان‌سازی‌های رسانه‌ای علیه ایران، برای اولین بار نشان می‌دهد که این راسنه‌ها که عمدتاً وابسته به محافل صهیونیستی بوده‌اند با جعل یا انتشار عامدانه برخی اطلاعات، اقدام به ایجاد محور فشار علیه ایران کرده و بیشتر رسانه‌های بین‌المللی تحت تأثیر فضای ایجاد شده، به دنباله‌روی از آن مسئله و دامن‌زدن به بحران خبری و سیاسی پرداخته‌اند.
در سال‌های اخیر، با محوریت یافتن مسائل سیاسی ایران، بسیاری از مطبوعات امریکا، اقدام به اعزام خبرنگار یا تأسیس و تقویت دفاتر نمایندگی در ایران کرده‌اند.
این مسئله، عیناً در مورد خبرگزاری‌هایی نظیر رویترز، آسوشیتدپرس، یونایتدپرس، فرانس پرس و شبکه‌های تلویزیونی بی.بی.سی و سی.ان.ان نیز مصداق دارد. (میلانی، عباس و مایکل مک فول)
شبکه‌سازی، گزینه جدید امریکا برای مقابله با جمهوری اسلامی ایران
فعالیت‌های شبکه‌سازی جنگ سرد ایالات متحده و بریتانیا، امروزه برای نبرد با اسلام و حکومت‌های اسلامی خصوصاً ایران به کار برده می‌شود.(www.tebyan.net)
در سطح استراتژیک، ایالات متحده در آغاز جنگ سرد دریافت که شبکه‌سازی باید بخشی حیاتی از استراتژی همه‌جانبه آن باشد. بنابراین منابع زیادی را برای تأمین مالی مجموعه‌ای از سازمان‌هایی که می‌توانستند با سازمان‌های کمونیستی در اروپای غربی و جهان سوم رقابت کنند، اختصاص داد. سیاستگذاران همچنین دریافتند که تلاش‌های آنان در راستای شبکه‌سازی تنها در صورتی موفق خواهد بود که یک استراتژی خوب و منسجم با همه آژانس‌ها و برنامه‌های سیاسی امریکا پیوند خورده باشد.
این استراتژی هرچند تا حد زیادی دفاعی بود، ولی از عنصری تهاجمی نیز برخوردار بود. این بدان معنی بود که اگرچه بخش بزرگی از این کوشش در راستای تلاش برای ایجاد ثبات و تقویت نیروهای دمکراتیک در اروپای غربی صورت می‌گرفت (و بعدها در آسیا و خاورمیانه)، ولی همچنین تلاش‌هایی برای تضعیف حاکمیت کمونیستی در بلوک شوروی از طریق جنگ سیاسی و اطلاعاتی نیز وجود داشت. امروزه نیز، امریکا این استراتژی را در قالب پروژه ترویج دموکراسی انجام می‌دهد، به گونه‌ای که کارشناسان امریکایی معتقدند تلاش‌های امریکا برای جذب مردمان اروپای شرقی و اتحاد شوروی در دوران جنگ سرد می‌تواند مدلی برای مقابله با ایران امروزی باشد.(www.brookings.edu)
البته امریکا برای اجرای این استراتژی با مشکلاتی زیادی روبروست. یکی از مشکلات کلیدی پیش‌روی ایالات متحده در حال حاضر عبارت از چگونگی حفظ اعتبار گروه‌هایی است که از امریکا یا دیگر سازمان‌های بین‌المللی کمک دریافت می‌کنند. به همین منظور این کشور برای مقابله با این مشکل سعی دارد تا با تشویق سازمان‌های غیردولتی برای گسترش فعالیت‌های خود در جهان اسلام، بخش‌های عمومی و خصوصی را به یکدیگر مرتبط نموده و نقش خود را به ارائه کمک‌های مالی و عملیاتی به این گروه‌ها محدود نماید. نکته مهم در این زمینه این است که امروزه، گروه‌ها و اشخاص در ایالات متحده و اروپا در قالب طرح ترویج دمکراسی و اسلام اروپایی در حال سازماندهی خود برای مبارزه با اسلام هستند.
در برخی موارد، ممکن است دولت ایالات متحده مجبور به اتخاذ نقشی فعال‌تر در شکل‌دهی به شبکه‌ها باشد. کنگره آزادی فرهنگی در دوران جنگ سرد که مثالی بسیار موفق به حساب می‌آمد، می‌تواند نمونه خوبی از چگونگی متحد ساختن گروه‌های پراکنده و شخصیت‌های همفکر در یک شبکه بین‌المللی قدرتمند با حمایت مالی و سازمان‌دهی محدود ایالات متحده باشد. امروزه هدف امریکا از این اقدام عبارت از ایجاد سازمانی دائمی و چندملیتی است که بتواند در نقش یک سکوی فکری برای ترویج دموکراسی امریکایی در جهان اسلام خدمت کند.(www.aei.org)
نخستین گام در این راستان برای امریکا و متحدانش اتخاذ تصمیمی روش برای ایجاد شبکه‌هایی از حامیان خود در کشورهای اسلامی به خصوص در ایران و ارتباطی آشکار میان این فعالیت‌ها با استراتژی همه جانبه امریکا است. برای دستیابی به این هدف، این کشور در تلاش است تا ساختاری نهادی در داخل دولت امریکا برای هدایت، نظارت و بررسی این تلاش‌ها ایجاد کند. بر این اساس، ایالات متحده برای موفقیت سیاست شبکه‌سازی (که سیاستی نامتقارن و انتخابی است) خود که امروزه برای مقابله با حکومت‌های اسلامی خصوصاً دولت جمهوری اسلامی ایران برگزیده شده است، بر این گروه‌ها تمرکز دارد:
1. شخصیت‌های دانشگاهی و روشنفکران مسلمان لیبرال و سکولار؛
2. صاحب‌نظران مذهبی جوان و میانه‌روابط عمومی،؛
3. فعالان اجتماعی؛
4. گروه‌های زنان فعال در مبارزات برابری جنسیتی؛ و
5. روزنامه‌نگاران و نویسندگان میانه‌رو.
بر همین اساس امریکا استراتژی شبکه‌سازی خود را بر این اصول قرار داده است
1- آموزش دمکراتیک؛ در این زمینه این کشور تلاش دارد تا با به چالش کشیدن مفاهیم اسلامی به وسیله ارزش‌های دمکراتیک غربی، اسلام را مطابق برداشت خود بازتعریف کند.
2- رسانه‌ها؛ حمایت از رسانه‌های طرفدار غرب برای مبارزه با سلطه رسانه‌ای عناصر مسلمان بسیار مهم است.
3- برابری جنسیتی؛ مسئله حقوق زنان موضوعی مهم در شبکه‌سازی است. ترویج برابری جنسیتی باید بخشی ضروری از این پروژه برای توانمند ساختن مسلمانان طرفدار غرب باشد.
4- هواداری سیاسی؛ اسلام‌گرایان دارای برنامه‌های سیاسی هستند و به همین جهت اسلام‌گرایان سکولار نیز باید وارد فعالیت سیاسی شوند. در این زمینه فعالیت‌های حمایتی در راستای شکل‌دهی به محیط سیاسی و حقوقی جهان اسلام مهم است.
به طور کلی، امریکا برای موفقیت شبکه‌سازی در کشورهای اسلامی به خصوص جمهوری اسلامی ایران بر یک استراتژی کلی تأکید دارد و آن تلاش برای معکوس کردن جریان ایده‌ها است. در این رابطه مطالب و کتاب‌های مهم متفکران و روشنفکران غربی در میان مسلمانان مهاجر در ترکیه، اندونزی و به ویژه ایران با هدف ترویج اسلام غربی به زبان عربی ترجمه و در سطحی گسترده انتشار می‌یابد.
علاوه بر این تلاش دارند تا انگاره‌های غربی از مسلمانان را در جوامع دیگر گسترش دهند.
بر همین اساس در سال‌های اخیر تفاسیر رادیکال و متعصبانه از اسلام در بسیاری از جوامع غربی رشد چشمگیری داشته است.(واشنگتن وی‌بس، 2005)
این رویکردها در نقاشی‌های اروپاییان از مسلمین بازتاب یافته که در آن مسلمین اغلب در صحنه‌های گویای بی‌رحمی شدید به تصویر کشیده می‌شدند. تحقیق ریوا سیمون نشان می‌دهد که کلیشه اصلی مسلمان خشن چگونه هنگام شخصیت‌پردازی خاورمیانه‌ای در داستان‌های جنایی انگلیسی و امریکایی نقشی عمده دارد.
اگر امریکا بتواند افکارعمومی دنیا را متقاعد کند که مسلمانان وحشی و خشن هستند، آنگاه کشتن آنها و تخریب اموالشان مقبول‌تر به نظر خواهد رسید. این قالب تبلیغاتی به طور معمول به وسیله رسانه‌های گروهی پخش می‌شود، به گونه‌ای که این رسانه‌ها تصویر معدودی از مسلمان جنگجو را به عنوان نماینده اسلام بازنمایی می‌نمایند.(دیویدمک‌کولاف)
علاوه بر این شماری از محققان امریکایی نیز می‌کوشند تا ثابت کنند که جنگجویان حاضر در میان مسلمین معاصر، تبلور امروزین تروریست‌های صدر تاریخ اسلام هستند!
با این نوع استدلال‌ها، کارشناسان امریکایی تأکید می‌کنند از آنجایی که امریکا و دیگر کشورهای غربی به طور مستقیم توان زیادی برای تأثیرگذاری بر مسلمانان ندارند، باید از خود کشورهای اسلامی برای مقابله با اسلام استفاده کنند در اینجاست که این کشور می‌تواند با ترویج ایجاد شبکه‌های مسلمانان میانه‌رو حامی غرب و پیگیری اقدامات مدنی کمک قابل توجهی را به این مسئله کند.
بنابراین در نبرد ضداسلام‌گرایی امریکا، مسلمانان میانه‌رو، لیبرال و سکولار با ارزش‌های منطبق با ارزش‌های لیبیرال و مدرن، شرکای بالقوه این کشور خواهند بود.
ایالات متحده امریکا تلاش دارد تا با انجام اقدامات مدنی علیه کشورهای اسلامی از جمله ایران به شیوه‌ای نرم بر منابع قدرت جهانی مسلط شود. (جرج کنان)
شبکه‌سازی تحت پوشش اقدامات مدنی علیه جمهوری اسلامی ایران
صاحب‌نظرانی همچون رابرت ستلاف در کتاب خود با عنوان نبرد ایده‌ها در جنگ بر علیه تروریزم درباره چگونگی کمک به متحدان امریکا در نبرد بر ضدحکومت‌های اسلامی به خصوص ایران سه پیشنهاد ارائه می‌دهند: نخست اینکه امریکا متحدان بالقوه‌ای را که شناسایی کند که می‌توانند زیر یک چتر دسته‌جمعی مخالف، با ایده‌های اسلام‌گرایانه سازمان یابند. دوم؛ ایالات متحده باید شرکای خود را در نبرد با موج فزاینده سازمان‌های غیردولتی اسلام‌گرا تقویت کند. این سازمان‌ها تحت پوشش ارائه خدمات اجتماعی به جوامع محلی به مسیر مهمی برای اشاعه افکار اسلام‌گرایانه در سرتاسر جهان اسلام تبدیل شده‌اند. سوم؛ فرصت‌های آموزشی لازم – با تأکید بر زبان انگلیسی – در اختیار جوانان مسلمان قرار داده شود. دانش عملی از زبان انگلیسی پنجره رو به جهان را برای جوانان مسلمان می‌گشاید و به آنها امکان دسترسی به منابع اطلاعاتی جهانی و نه تنها محلی را می‌دهد.(والتر، ال.هیکسون)
دانیل بایمن کارشناس مؤسسه بروکینگز نیز معتقد است امریکا در مقابل ایران گزینه‌های محدودی در اختیار دارد. بنا به گفته وی گزینه‌هایی همچون تغییر نظام، بمباران تأسیسات هسته‌ای و اعمال فشارهای دیگر علیه ایران می‌تواند به تضعیف موقعیت امریکا در خاورمیانه بینجامد.
در مقابل بایمن از استراتژی چندجانبه اعمال فشارهای مدنی و نرم به عنوان ابزارهای بالقوه امریکا برای مقابله با ایران نام می‌برد. به اعتقاد وی هدف این استراتژی باید تقویت گروه‌هایی در ایران باشد که به ظاهر از افزایش انزوای کشور ابراز نگرانی می‌کنند.
گروهی از کارشناسان امریکایی نیز شبکه‌سازی را در قالب رویکرد تعامل‌گرایی با هدف تغییر رفتار ایران پیشنهاد می‌دهند.
براساس این رویکرد، مخالفان جمهوری اسلامی باید متحد شوند و همبستگی مؤثری میان آنها به وجود آید. حامیان رویکرد تغییر رفتار معتقدند اتخاذ رویکرد تعامل‌گرایانه برای امریکا سخت نخواهد بود چرا که این کشور پیش از این نیز با وضعیت‌های مشابه روبه‌رو بوده است. دونالد ریگان در دهه 80 با وجود که اتحاد جماهیر شوروی را شیطان بزرگ نامید، سال‌ها ایدئولوژی و رفتار شوروی را تحمل کرد، روابط دیپلماتیک خود را با مسکو قطع ننمود و طی این فرایند به نتایج سودمند و عملی برای هر دو طرف دست یافت. حوزه‌های چهارگانه‌ای که حامیان ایده تعامل‌گرایی به دنبال تغییر رفتار جمهوری اسلامی در آنها هستند عبارتند از: 1. مسئله هسته‌ای ایران و به طور کلی سلاح‌های کشتارجمعی، 2. حمایت از تروریسم، 3. اخلال در روند صلح خاورمیانه، و 4. وضع حقوق بشر.
مراکزی نظیر مؤسسه بروکینگز، شورای غیردولتی روابط خارجی، مرکز نیکسون، بنیاد کارنگی برای صلح جهانی و مرکز بین‌المللی وودرو ویلسون و محققانی چون جفری کمپ، ری تکیه، زیبگینیو برژینسکی، ریچارد هاوس و هنری کسینجر نمایندگان رویکرد تعامل‌گرا و تغییر رفتار به شمار می‌روند.(ادوارد.پی، لیلی)
شورای روابط خارجی امریکا و برخی شخصیت‌های فعال سیاسی و مقامات اسبق و فعلی امریکا در آن نیز به نحوی رویکرد تغییر رفتار ایران را مورد توجه قرار داده‌اند.
مایکل رابین در مقابل درخواست شورای ایرانیان مقیم امریکا مبنی بر درخواست از کنگره امریکا برای قطع بودجه مربوط به فعالیت جامعه مدنی در ایران مطرح نمود: «قطع بودجه مربوط به جنگ نرم علیه رژیم ایران اقدامی نادرست است. مهم‌ترین اقدام این است که ما به روشی نرم رژیم ایران را تغییر دهیم که مهم‌ترین محور آن افزایش بودجه برای گسترش فدرالیسم قومی در ایران است.» نکته مهم این است که بودجه این اقدامات از 4/1 میلیون دلار به 66 میلیون دلار در سال جاری رسیده است که 36 میلیون دلار آن به برنامه‌های رادیو صدای امریکا و رادیو اروپا آزاد با هدف خدشه‌دار نمودن چهره ایران اختصاص یافته است. علاوه بر این دپارتمان دولت امریکا 5 میلیون دلار بودجه برای ترجمه این برنامه‌ها به فارسی اختصاص داده است. علاوه بر این، مایکل رابین می‌گوید که پروژه انقلاب‌های مخملی باید در مورد ایران هم اجرا شود، به این صورت که با تغییرات فرهنگی در ایران این کشور وتوی فرهنگی شود.
دیگر محور این طرح تمرکز بر نیروهای داخلی برای کاهش مشروعیت رهبران نظام و زمینه‌سازی برای تغییر نرم رژیم است.
در مجموع به نظر می‌رسد دلایل چندی موجب شده است تا شاهد نوعی چرخش ظاهری در ادبیات سیاسی مقامات امریکا در قبال نظام جمهوری اسلامی و ماهیت و موجودیت آن باشیم. به دیگر سخن عواملی مانند ناامیدی واشنگتن به تغییر قهری و نرم نظام اسلامی و امکان تهییج جنبش‌های اجتماعی، شکست سیاست تغییر قهری رژیم در عراق و بحران امنیتی پس از سقوط رژیم بعث در این کشور و نیز علل ریشه‌ای تر، تاریخی‌تر و بنیادی‌تر دیگر موجب شده است تا گفتمان تغییر نظام اسلامی تا حد زیادی افول یابد و به جای آن اندیشه جنگ نرم اهمیت یابد.(کروس، پیتر)
نتیجه‌گیری
در مجموع به نظر می‌رسد به رغم تنوع و تکثری که در تئوریزه کردن راهبردهای کلان واشنگتن در قبال جمهوری اسلامی در عرصه آکادمیک و محافل سیاسی – رسانه‌ای وجود دارد، رویکرد جنگ نرم در قالب ناتوی فرهنگی، جنگ رسانه‌ای، قدرت نرم و شبکه‌سازی از اهمیت خاصی برخوردار است.
جنگ نرم فرایندی هدایت شده (پروژه) و به شدت متأثر از محیط داخلی و بین‌المللی است. در محیط داخلی، زمینه‌های تهدیدات نرم بسیار گسترده و پیچیده‌اند، به نحوی که از سوءرفتار یک مقام مسئول در برخورد با مردم تا سوءمدیریت در بخش‌های اجرایی و فساد اداری و‌… می‌تواند عاملی برای ایجاد زمینه‌های جنگ نرم و نارضایتی عمومی باشند. به همین دلیل در عرصه داخلی تمام دستگاه‌های دولتی در جلوگیری از شکل‌گیری زمینه‌های جنگ نرم مسئولیت دارند.
اساساً بدون بالا بردن ظرفیت مسئولیت‌پذیری تمام دستگاه‌های دولتی نمی‌توان با تهدیدات نرم و جنگ نرم مقابله کرد. در عرصه بین‌المللی نیز با توجه به نقش اساسی عامل خارجی در جنگ نرم، باید با طراحی سیاست خارجی منطقی و تهاجمی از دخالت سایر کشورها در امور داخلی و تعرض به حاکمیت کشور جلوگیری کرد.
از آنجایی که برای مقابله با تهدیدات نرم داشتن استراتژی بیش از داشتن قدرت مؤثر است، در نتیجه شایسته است استراتژی مقابله‌ای با پروژه جنگ نرم در دو حوزه داخلی و بین‌المللی تدوین و نقش هر یک از نهادهای دولتی در آن مشخص و تبیین شود. در این راستا، تقویت توانمندی‌های کنترلی سازمان‌های امنیتی ضروری است. در راستای تقویت توانمندی‌های امنیتی نیز برای جلوگیری از افزایش بی‌رویه هزینه‌های امنیتی و تأثیر منفی آن بر بودجه‌ سایر بخش‌ها، باید نسبت به هماهنگی کامل نهادهای امنیتی کشور جهت بهره‌وری کامل از ظرفیت‌های امنیتی موجود اقدامات لازم در دستور کار قرار گیرد.
- پیشبرد طرح‌های توسعه‌ای در مناطق محروم و مرزی در ابعاد مختلف جهت از بین بردن ظرفیت‌های واگرایی و زمینه‌های اعتراض اجتماعی مانند فقر، ناامنی، تورم، بیکاری، ترافیک و …
- پرهیز از تهدیدانکاری بیش از حد در فعالیت نهادهای غیردولتی و گسترش آزادی‌های مدنی در چارچوب قانون اساسی همراه با هوشیاری لازم جهت اجتناب از تهدیدات احتمالی این نهادها در حوزه‌های امنیت سیاسی و اجتماعی.
- تلاش برای عملیاتی کردن حداکثر ظرفیت‌های معطل‌مانده قانون اساسی در حوزه مردم‌سالاری دینی.
- تقویت زیرساخت‌های فرهنگی – آموزشی با هدف تقویت حس میهن‌دوستی.
- تقویت کنترل و نظارت عام بر نهادهای غیردولتی با قانون‌"ذاری مناسب در این حوزه.
- نظارت و کنترل بر سازمان‌های مردم‌نهاد و موضوع فعالیت آنان و به ویژه درآمدها و کمک‌های مالی به آنان.
- همسان کردن ظرفیت‌های سازمان‌های امنیتی کشور با ماهیت تهدیدات نرم.
- افزایش کارآمدی نظام اداری و اجرایی کشور.
- فراهم آوردن زمینه عضویت نخبگان در نهادهای دولتی و سیاسی با هدف جلوگیری از جذب آنان در جبهه مخالفان.
پی‌نوشت‌ها
1- http://www.aei.org/publications/pubID.26987,filter.all/pub-detail.asp.
2- Kogut,B.,A.Metiu.2001.Open Source Software development and distributed innovation. Oxford Rev. Econom. Policy (17(2) 248-264.
3- W.G.Austin,S.Worchel,eds. The Social Psychology of inter – Group Relations. Brooks. Brooks /Coole, Monterey, CA.
Taylor, C.T.,Z.A Cilberston. 1973. The Economic Impact
4- محمود سریع‌القلم، مبانی نظری سیاست خارجی دولت بوش، فصلنامه مطالعات منطقه‌ای، زمستان 1381، ص 10.
5- Michael Robin, Can Iran be Trusted? AEI, Middle Eastern out Look, 1 Sept 2006, p.5.
6- Robert Kagan, "It s the Regime, stupid', Washington Post, 29 Jan 2006, p.7.
7- Abbas Milani, Michael McFaul, To Tame Tehran, Washington Post, 28 Jan, 2006, p.21.
8- http://www.tebyan.net/Archive/Society-Politics/2007/8/2/44061.html
9- http:www.brookings.edu/opinions/2007/09middleeast-telhami.aspx.
10- http://www.aei.org/events/eventID.1254,filter.all/event-detail.asp.
11- Ibn Rushd Fund for Freedom of Thought, "Who Are We?" Web page, n.d.
12- گفتگوی پژوهشگر مؤسسه رند با کارکنان کمیسیون ایالات متحده در زمینه آزادی مذهبی در سطح بین‌المللی، واشنگتن دی.سی.نوامبر 2005.
13- David McCullough, Truman, New York: Simon and Schuster, 1992, P.546.
14- George Kennan, Memoirs: 1952 – 1950, Boston: Little, Brown, 1967. Pp.319-320.
15- Walter L.Hixson, George F.Kennan: Cold War Iconoclast, New York: Couumbia University Press, 1989.p.56.
16- Edward P.Lilly, "The Development of American psychological operations, 1945 – 1951," December 19, 1951, Box 22.p.35.Records of the Psychological Strategy Board, Harry S.Truman Library.
17- Policy Phanning Staff to National Security Group 273, Records of the National Warfare," 4 May 1948, Record Group 273, Records of the National Security Council, NSC 10/2. National Archives and Records Administration.
18- Peter Grose, Operation Rollback: America s Secret War Behind the Iron Curtain, Boston: Houghton Mifflin, 2000, p.98.
19- http://www.brookings.edu/testimony/2007/1023iran.aspx.

 

منبع: Scientific - Research Quarterly on Psychological Operations


نوشته شده در تاريخ شنبه نوزدهم آذر 1390 توسط جعفر

 

 

 

 

فصل اول

 

 

مقدمه

 

 

اينترنت چيست؟

 

هنگامي كه دو و يا چند كامپيوتر را بوسيله دستگاهي به يكديگر متصل كنند و اين كامپيوتر‌ها بتوانند به يكديگر اطلاعات ارسال كنند، در اصطلاح به آن يك شبكه كامپيوتري[1] مي‌گويند. ساده‌ترين شبكه كامپيوتري را مي‌توان بوسيله متصل كردن يك كابل مخصوص  به  دو كامپيوتر كه در كنار يكديگر قرار دارند تشكيل داد. اگر فاصله اين كامپيوتر‌ها زيادتر شود مي‌توان طول سيمها را زياد كرد مثلاً مي‌توان بوسيلة كشيدن كابل به نقاط مختلف يك شهر يك شبكه محلي[2] تشكيل داد. اما در عمل به جايي مي‌رسيم كه دو كامپيوتر كه لازم است با يكديگر ارتباط داشته باشند در فاصلة بسيار زيادي قرار دارند و ديگر امكان كشيدن كابل از يك كامپيوتر به كامپيوتر ديگر ميسر نيست. راه حل اين مشكل مرتبط ساختن اين شبكه‌ها به يكديگر مي‌باشد. (به جاي متصل كردن هر كامپيوتر به يك كامپيوتر ديگر).

 در واقع اينترنت[3] از به هم پيوستن چندين شبكه كوچك محلي به يكديگر بوجود آمده است.

 

مرتبط ساختن دو شبكه محلي به يكديگر

                         يك شبكه محلي

 

                     يك شبكه محلي

 

 

 

 

 

 



 

كاربردهاي اينترنت:

 

امروزه كاربردهاي اينترنت آنچنان گسترده شده كه نمي‌توان تمامي كاربرد‌هاي آن را برشمرد. چندان عجيب نيست اگر بگوييم بزودي اينترنت يكي از اجزاي ضروري زندگي انسانها مي‌شود. در گذشته، پست به علت ارزان بودن آن بسيار مورد استفاده قرار مي‌گرفت، اما مدت زمان دريافت نامه توسط گيرنده بسيار زياد بود. اكنون مي‌توان به سادگي متني را تايپ كرده و با فشار يك دكمه آن را براي شخص ديگري در دورترين نقطه كره زمين ارسال كرد و آن شخص نيز نامه را در كمتر از چند لحظه دريافت كند. اكنون حتي بدون اينكه از منزل خود خارج شويد مي‌توانيد كالايي را از يك شركت مثلاً در ژاپن خريداري كنيد. مي‌توانيد بجاي رفتن به كتابخانه براي تحقيق پايان‌نامه تحصيلي خود چندين كتابخانه معتبر دنيا را با سرعت بسيار جستجو كنيد و از ميان انبوه مطالبي كه ممكن است خواندن همة آنها عمر نوح طلب كند، مطلب مورد نظر را بلافاصله پيدا كنيد. مي‌توان: از آخرين اخبار، به طور زنده آگاه شد. جديدترين قيمت انواع محصولات كشاورزي، صنعتي را مشاهده كرد. آخرين شماره مجله يا روزنامه مورد علاقه را قبل از اينكه حتي چاپ شود، خواند. با هزينة بسيار اندك با افراد خارج از كشور تماس تلفني گرفت. آخرين نرم‌افزارهاي روز دنيا را دريافت كرد. بعضي از موسسات حتي به شما اجازه مي‌دهند در كلاسهاي آنها ثبت نام كنيد و در پاي كامپيوتر درس مورد علاقه خود را خوانده و مدارك دانشگاهي معتبري نيز دريافت كنيد. شما مي‌توانيد با يك تبليغ ساده در سراسر جهان براي كالا يا خدمات خود بازار فروش خوبي پيدا كنيد. مي‌توانيد در زمينه يك موضوع خاص با افراد مختلف وارد بحث شويد. اين افراد ممكن است از هركجاي جهان در اين بحث شركت كنند مثلاً ممكن است شخصي از ايران، كشاورزي در استراليا، و شخصي بيكار در يك هواپيماي بويينگ بر فراز اقيانوس آرام با يكديگر در مورد موضوعي شروع به گفتگو كنند. و مي‌توان...

 

اصطلاحات اينترنت:

 

سايت[4] (پايگاه): سايت را مي‌توان به يك كتاب تشبيه كرد، با اين تفاوت كه سايت كتابي است كه مي‌تواند صدا، موسيقي، تصاوير متحرك و... داشته باشد. يك سايت اين مجموعة نوشته‌ها و تصاوير و... را در كنار هم گرد مي‌آورند. هر سايت معمولاً از چند صفحه تشكيل شده است. تصوير مقابل يك سايت را نشان مي‌دهد.

اين سايت تاريخچه مختصري از زندگي مورس مخترع تلگراف را همراه با عكس وي و اولين دستگاه تلگراف نشان مي‌دهد. همانطور كه مي‌بينيد نوشته‌ها در كنار عكسها قرار گرفته اند. و همانند يك كتاب مطلبي را توضيح مي‌دهند.

 

پيوند يا حلقه[5]:

اگر دقت كنيد زير قسمتي از نوشته خط كشيده شده است. درصورتي كه ماوس را بر روي اين خط منتقل كنيد فلش ماوس به يك دست تبديل مي‌شود و مي‌توان با يكبار فشاردادن كليد سمت چپ ماوس، به صفحة ديگري منتقل شويم. از نوشته زير ماوس برمي‌آيد كه به صفحه‌اي كه منتقل مي‌شويم اطلاعات بيشتري در مورد ساموئل مورس به ما ارايه مي‌كند.

به اين كلامات يا جملات كه زير آنها خط كشيده شده و با فشار دكمه چپ ماوس برروي آنها به صفحة ديگري منتقل مي‌شويم يك پيوند يا حلقه گفته مي‌شود.

در حالت كلي هرگاه فلش ماوس به دست تبديل شد با يكبار فشردن كليد سمت چپ ماوس به صفحة ديگري مي‌رويم  ويا صفحة جديدي باز مي‌شود.

 

آدرس سايتها: براي دسترسي به هر سايت بايد آدرس آن را داشت درست مانند شماره مرجع در يك كتابخانه. براي اينكه سايت مورد نظر را ببينيم بايد آدرس آن را داشته باشيم[6].

به عنوان مثال آدرس سايت شبكه خبري CNN به صورت: www.cnn.com  مي‌باشد.

معمولاً آدرس سايتها در اينترنت از سه قسمت تشكيل شده است.

در مثال بالا اين سه قسمت عبارتند از: www , cnn , com كه هر قسمت از قسمت بعدي با يك نقطه ( . ) جدا شده است.

قسمت اول آدرس معمولاً ثابت است و www. ابتداي اكثر سايتها را تشكيل مي‌دهد.

قسمت دوم ( cnn ) نام سايت مي‌باشد. ( دقيقاً همانند نام يك كتاب كه معمولاً متناسب با محتويات داخل آن انتخاب مي‌شود.)

قسمت سوم پسوندي است كه نوع سايت را نشان مي‌دهد. اين پسوند طبق يك طبقه‌بندي قديمي قرار بود نشان دهنده محتويات سايت باشد و سايت شركتها به .com  (مخفف شركت يا Company) سايت سازمانها و نهادها به .org (مخفف سازمان يا Organization) سايت دانشگاهها و موسسات آموزشي به .edu (مخفف Education) و... ختم شود، اما در عمل امروزه اين قاعده چندان رعايت نمي‌شود.

اكثر كشورها براي خود پسوند‌هاي جاگانه‌اي دارند. مثلاً پسوند ايران .ir پسوند ژاپن .jp پسوند روسيه .ru و... است. به عنوان مثال هر شركت ايراني مي‌تواند آدرسي به صورت .irنام شركتwww. داشته باشد، اما اين قانون نيز رعايت نمي‌گردد. (نه تنها در ايران بلكه در اغلب كشورها، مردم سايتهايي كه پسوند .com داشته باشند را ترجيح مي‌دهند.)

همانطور كه گفته شد، هر سايت مي‌تواند از چندين صفحه تشكيل شده باشد. آدرس اين صفحات كه در واقع زيرمجموعه‌اي از سايت اصلي هستند، با علامت (  \) از هم جدا مي‌شوند. (مثلاً صفحه اخبار سايت cnn در آدرس www.cnn.com\news  قرار دارد.)

چگونگي بدست آوردن اين آدرسها و كاربرد آنها را در فصل بعد خواهيد ديد.

 

رمز عبور (كلمة عبور) [7]: بعضي از سايتها براي جلوگيري از دسترسي افراد غيرمجاز به اطلاعات، از رمز عبور استفاده مي‌كنند (مثل اطلاعات محرمانه اقتصادي يك شركت) و فقط افرادي كه رمز عبور صحيح را داشته باشند مي‌توانند از اين سايت ديدن كنند.

 

Download: به عمل دريافت فايل از اينترنت Download مي‌گويند. در اينترنت مي‌توان آخرين نسخه برنامه‌هاي مورد علاقه خود را پيدا كرد و آنها را Download كرد.

 


 

 

 

فصل دوم

 

 

به اينترنت خوش‌آمديد.

 

شروع كار:

 

در اين فصل فرض مي‌كنيم امكانات شما براي ارتباط با اينترنت از هر نظر آماده است و شما به اينترنت متصل[8] شده‌ايد.[9]

 

بر روي صفحة اصلي ويندوز گزينه‌اي به نام Internet Explorer وجود دارد.

ماوس را بر روي اين گزينه برده و دوبار دكمه چپ ماوس را سريعاً و پشت سرهم فشار دهيد.

2 بار سريع و بدون فاصله بر روي اين علامت كليد سمت چپ ماوس را قشار دهيد.

 

 

 

 

2-

1-

صفحة Internet Explorer باز مي‌شود. مي‌توان نوشته‌هاي قسمت آدرس Address را پاك كرد و آدرس يك سايت را به جاي آن نوشت و سپس كليد Enter را فشار داد. اگر همه چيز درست باشد شما به صفحة مورد نظر وارد مي‌شويد. براي شروع سايت خبرگزاري جمهوري اسلامي را برگزيده‌ايم.

3-

سايت خبرگزاري در آدرس www.irna.com  قرار دارد.

در قسمت آدرس نوشته‌هاي ديگر را پاك كرده و آدرس سايت ايرنا را تايپ كرده و كليد Enter را فشار دهيد.

(1)

تبريك مي‌گويم شما وارد يك صفحه اينترنت شده‌ايد.

توجه كنيد كه هركجا كه فلش ماوس به دست تبديل مي‌شود، مي‌توانيد با فشردن كليد چپ ماوس به صفحه ديگري برويد.

در اين قسمت عنوان سايت نشان داده مي‌شود.

(مطالب موجود در صفحة ايرنا-  خبرگزاري جمهوري اسلامي ايران -  هر روز تعويض مي‌گردد. صفحه‌اي كه شما خواهيد ديد با اين صفحه متفاوت خواهد بود.)

 


 

كار با Internet Explorer :

در اين قسمت آدرس سايت نشان داده مي‌شود.

 


 

در يك نگاه كلي به سايت نكات زير قابل توجه است.

1-     در نوار عنوان، نام و عنوان كامل سايت نوشته شده است.

2-     در نوار آدرس، آدرس سايت نوشته شده است. البته اين آدرس كمي با آنچه ما وارد كرده بوديم تفاوت دارد. اين آدرس كامل سايت است، http//:www.irna.com (مي‌توانستيم اين آدرس را به جاي آدرس www.irna.com تايپ كنيم. در عمل تفاوتي بين دو آدرس وجود ندارد، فقط وارد كردن آدرس اول ساده‌تر وكوتاهتر است.)

3-     در قسمت بالاي Internet Explorer تعدادي دكمه وجود دارد كه كاربرد مهمترين آنها را در زير شرح مي‌دهيم:

 

 

 

 

دكمه‌هاي Back و Forward: در صورتيكه شما از صفحات ديگر يك سايت ديدن كرده باشيد، اين دكمه‌ها فعال مي‌شوند و مي‌توانيد با كمك دكمة Back صفحة قبلي را كه ديده‌ايد مجدداً ببينيد. براي مشاهدة صفحة ماقبل آخر بايد دوباره دكمهBack   را فشرد. (اين عمل را مي‌توان به تناوب تكرار كرد تا به اولين صفحة مشاهده شده برسيد.) اگر بخواهيد صفحه‌اي را كه قبل از فشردن دكمه Back مي‌ديديد، مجدداً ببينيد بايد دكمه Forward را انتخاب كنيد. (اين عمل نيز مي‌تواند تا رسيدن به آخرين صفحه تكرار شود.)

در كنار هر‌كدام از دكمه‌هاي Back و Forward يك فلش كوچك روبه پايين وجود دارد كه با فشردن آنها ليستي از صفحاتي كه قبلاً در آنها بوده‌ايد به نمايش در مي‌آيد و مي‌توان با انتخاب صفحه دلخواه از ليست به آن صفحه رفت.

 

دكمه STOP: ممكن  است هنگامي كه يك صفحه در حال باز شدن است، از ادامة كار منصرف شويد، مي‌توان با فشردن دكمه Stop از ادامه كار جلوگيري كرد. در اين صورت بقيه صفحه نمايش داده نمي‌شود و فقط آن مقدار از صفحه كه تا‌به‌حال دريافت شده ديده مي‌شود.

 

دكمه Refresh: ممكن است بنا به دلايلي محتويات يك سايت به درستي نمايش داده نشود (مثلاً قطع شدن ارتباط اينترنت) مي‌توان با فشردن اين دكمه محتويات صفحه را مجدداً دريافت كرد. (اين عمل درست مانند اين است كه آدرس سايت مورد نظر را مجدداً وارد كرده و كليد Enter را بزنيد.)

دكمه Home: در برنامة Internet Explorer معمولاً يك سايت به عنوان صفحة شروع قرار مي‌گيرد. و بلافاصله پس از باز شدن Internet Explorer اين صفحه به نمايش در مي‌آيد. اين صفحه را مي‌توان در منوي Tools Internet Options و كادر Address  با آدرس مورد نظر تعويض كرد.


 

 

 

فصل سوم

 

 

استفاده از موتورهاي جستجو[10]

 

مقدمه:

همانطور كه گفته شد، براي وارد شدن به هر سايت اينترنت بايد آدرس آن را داشت. حال فرض كنيد به دنبال سايتي مي‌گرديد كه آدرس آن را نداريد. مثلاً مي‌خواهيم در مورد كشور كانادا اطلاعاتي بدست آوريم، از كجا مي‌توان آدرس يك سايت كه اطلاعاتي در مورد كانادا دارد بدست آورد؟ در ضمن حجم اطلاعات در اينترنت آنقدر زياد است كه نمي‌توان تك تك سايتها را جهت يافتن صفحه مورد نظر مرور كرد.

براي حل اين مشكل سايتهايي در اينترنت وجود دارند كه مي‌توان به سادگي از آنها خواست به دنبال مطلب مورد نظر ما بگردند و آنها با سرعتي بسيار زياد آدرس تعداد زيادي سايت كه با مطلب درخواست شده مطابقت دارند را نمايش مي‌دهند.

موتورهاي جستجو هر چند روز يكبار بوسيلة برنامه‌هايي خاص سايتهاي اينترنت را جستجو مي‌كنند و مطالب پيدا شده را طبقه بندي مي‌كنند و نام سايتهاي پيدا شده را همانند دفتر تلفن (مثلاً بر اساس حروف الفبا) ذخيره مي‌كنند.[11] علت سرعت بسيار زياد آنها نيز همين است كه هنگامي كه شما يك موضوع را براي جستجو وارد مي‌كنيد، اين موتورها تمامي صفحات را به دنبال مطلب شما نمي‌گردند بلكه بر اساس حروف وارد شده در قسمت جستجو، و با استفاده از طبقه‌بندي كه قبلاً توضيح داده شد، مستقيماً به سراغ آن صفحاتي مي‌روند كه اين كلمات درون آنها وجود دارد.

سايتهاي بسيار زيادي براي جستجو در اينترنت وجود دارند اما ما ابتدا معروفترين و بهترين آنها را در اينجا شرح مي‌دهيم و سپس به شرح و طرز كار هركدام مي‌پردازيم:

 

‎‎Yahoo!:[12] سايت ياهو در واقع يك موتور جستجو نيست بلكه در اين سايت انسانها (كارمندان ياهو) به جاي برنامه‌ها به جستجوي صفحات جديد مي‌گردند و سايتهايي را كه جديد پيدا مي‌كنند به ليست ياهو اضافه مي‌كنند. اين روش باعث مي‌شود كه بسياري از سايتهاي طبقه‌بندي شده مطالب دقيقتري داشته باشند، زيرا طبقه‌بندي انسانها به هرجهت از نرم‌افزارها بهتر است. اما همين مطلب باعث مي‌شود كه سايتهاي كمتري بوسيله ياهو طبقه‌بندي شود. ياهو براي رفع اين مشكل از تعدادي موتور جستجوي واقعي براي جستجوي بهتر استفاده مي‌كند.

 

Altavista: اين سايت يكي از معروفترين و قديمي‌ترين موتورهاي جستجو مي‌باشد. از امكانات اين سايت كه بسيار قابل توجه است مي‌توان به ترجمة همزمان متون اشاره كرد. اين سايت مي‌تواند سايتهايي كه به زبانهاي ديگر نوشته شده‌اند را به يكديگر ترجمه كند. تعداد زبانها محدود است و فارسي نيز پشتيباني نمي‌شود. با اينحال بسياري اوقات يك سايت خوب پيدا مي‌شود كه به زباني مثلاً فرانسه است و مي‌توان اين سايت را به سادگي به انگليسي ترجمه كرد.

 

Google: يكي از بهترين و سريعترين موتورهاي جستجو مي‌باشد. بسياري از سايتهاي اينترنت از جمله 2 سايت Yahoo و Altavista براي تامين مالي خويش از تبليغ استفاده مي‌كنند. اما سايت  Google تقريباً از هيچ تبليغي در صفحه‌هاي خود استفاده نمي‌كند و همين امر باعث سرعت بسيار زياد آن شده است. اخيراً اين سايت را مي‌توان به زبانهاي مختلف مشاهده كرد، حتي زبانهاي مثل عربي نيز در ميان زبانهاي آن ديده مي‌شود. جالب اينكه اين سايت از افرادي كه بخواهند سايت را به زبانهاي محلي خود ترجمه كنند دعوت به همكاري مي‌كند. (مثلاً فارسي). اين سايت نيز اخيراً سايتها به زبانهاي مختلف را به يكديگر ترجمه مي‌كند.

 

شروع به كار با Yahoo!:

1

سايت ياهو در آدرس www.yahoo.com قرار دارد.

3

در عكس روبرو نمونه‌اي از سايت ياهو را مي‌بينيد.

در اين سايت قسمتهاي مختلف به شرح زير مي‌باشند:

1-      ابزارهاي ياهو

2-      جستجوي ياهو

3-      تبليغ‌هاي ياهو

4-    

3

2

6

4

6

5

 خبرهاي مهم

5-      طبقه‌بندي‌هاي ياهو

6-      بخشهايي برگزيده از ياهو

 

طريقة جستجو در Yahoo: در ياهو كافي است كلمه يا كلماتي را كه در مورد آنها اطلاعاتي مي‌خواهيد در كادر خالي در قسمت شماره 2 وارد كرده و دكمة Search را فشار دهيد. (مثلاً iran movies به دنبال سايتهايي مي‌گردد كه اطلاعاتي درمورد فيلمهاي ايراني داشته باشند. اگر هيچ سايتي پيدا نشود كه هر دو كلمه در آن وجود داشته باشد، سايتهايي را نشان مي‌دهد كه حداقل يكي از اين كلمات در آن وجود داشته باشد.)

مي‌توان ياهو را مجبور كرد كه كلمة جستجو شده حتماً در سايت پيدا شده وجود داشته باشد. براي اينكار قبل از هر كلمه يك علامت + قرار مي‌دهيم. (مثلاً +iran +movies به دنبال سايتهايي مي‌گردد كه هر دو كلمه حتماً در آنها وجود داشته باشد.

با به كار بردن علامت – به ياهو مي‌فهمانيم كه به دنبال سايتهايي بگردد كه كلمة ذكر شده در آن وجود نداشته باشد. (مثلاً با وارد كردن عبارت (+iran +movies -oscar به دنبال سايتهايي مي‌گرديم كه عبارت oscar در آنها ذكر نشده باشد، اما دو كلمة iran و movies به هر تركيب ممكن در آن وجود داشته باشد.

در ياهو مي‌توان به دنبال يك عبارت خاص گشت. اين عبارت لزوماً نبايد از يك كلمه تشكيل شده باشد. بلكه حتي مي‌تواند يك جمله باشد. مثلاً مي‌توان به دنبال"First Iranian Movies" گشت. همانطور كه مي‌بينيد اين عبارت را در بين دو " قرار داده‌ايم تا به ياهو نشان دهيم كه ما دقيقاً به دنبال همين عبارت مي‌گرديم.

 

Altavista: سايت Altavista در آدرس www.altavista.com قرار دارد.

جهت سهولت كار مي‌توان آدرس www.av.com  را بجاي آدرس سايت وارد كرد.

 

طريقه جستجو در Altavista: براي جستجو در اين سايت مي‌توان به سادگي كلماتي را كه فكر مي‌كنيد مربوط به مطلب موردنظرتان است را با يك فاصله از هم جدا كرد. هر چه تعداد كلمات مربوطه بيشتر باشد Altavista هوشمندانه سعي در پيدا كردن صفحاتي مي‌كند كه هرچه بيشتر به مطلب شما نزديك باشد.

در اين سايت نيز تمامي قواعدي كه براي Yahoo ذكر شد صدق مي‌كند، يعني مي‌توان كلماتي را كه حتماً مي‌خواهيم در سايت يافت شده موجود باشد را با علامت + و كلماتي را كه نمي‌خواهيم در صفحاتي كه پيدا مي‌شود موجود باشد را با علامت – از هم جدا مي‌كنيم. عبارات را نيز مي‌توان درون “  قرار داد تا Altavista دقيقاً به دنبال همين عبارت بگردد. علاوه بر مطالب فوق مي‌توان از يكي از امكانات جالب Altavista استفاده از * به‌جاي حروفي است كه تلفظ دقيق آنها را نمي‌دانيم. خود سايت به دنبال كلماتي مي‌گردد كه به‌جاي * كلماتي با معنا يافت شود. مثلاً فرض كنيد املاي صحيح كلمه University را نمي‌دانيم. فراموش كرده‌ايم كه آيا اين كلمه با S نوشته مي‌شود و يا با C.

مي‌توان در Altavista به دنبال عبارت univer*ity گشت.

 

Google: سايت Google در آدرس www.google.com  قرار دارد. همانطور كه گفته شد، اين سايت به دليل عدم استفاده از تبليغ و سرعت بالا، يكي از محبوبترين موتورهاي جستجو مي‌باشد.

 

طريقه جستجو در Google: در اين سايت نيز همانند دو سايت Yahoo و Altavista مي‌توان از + و – و “  استفاده كرد. (* قابل استفاده نيست.)

در Google تنها صفحاتي پيدا خواهد شد كه تمامي كلمات ذكر شده در جستجوي شما در آن وجود داشته باشد.

حروف كوچك و بزرگ براي Google تفاوتي نخواهد داشت.

 

و غيره...: تعداد موتورهاي جستجو بسيار زياد است و هر روز نيز به تعداد آنها افزوده مي‌شود. طرز كار اكثر آنها نيز يكسان است. (تفاوتهاي جزئي را مي‌توان با مراجعه به خود سايت و در قسمت Help سايت يافت.)

از موتورهاي جستجوي ديگر مي‌توان به www.lycos.com و www.goto.com  و www.hotbot.com  و از موتورهاي جستجوي فارسي مي‌توان به www.gooya.com  اشاره كرد.

 

فصل چهارم

 

 

طريقة ارتباط با اينترنت

 

نيازها:

جهت اتصال به اينترنت به موارد زير نياز داريد:

1-     يك كامپيوتر شخصي كه يكي از ويندوزهاي 95 – 98 – ME و يا ويندوزهاي 2000 يا ويندوز XP را داشته باشد نياز داريد.

2-      يك خط تلفن

3-     يك مودم جهت ارتباط از طريق خط تلفن

4-     يك حساب اينترنتي كه بايد خريداري شود. ( به سادگي مي‌توان يك كارت 5 يا 10 ساعته اينترنت از فروشگاههاي كامپيوتري خريداري كرد.)

 

خط تلفن

محل ورودي مودم با علامت Line

نمايي فرضي از پشت كامپيوتر

شروع:

1- ابتدا خط تلفن را به ورودي مودم در پشت كامپيوتر كه با علامت Line مشخص شده‌است متصل كنيد.

 

 

 

 

 

 

 

 

2-     در ويندوزهاي 95 و 98 در My Computer گزينه‌اي به نام Dial-Up Networking وجود دارد. (اين گزينه در ويندوز ME در My Computer>Control Panel>Dial-up Networking قرار دارد)

3-      با دو بار فشردن دكمه چپ ماوس بر روي گزينه Make New Connection كادر Make New Connection  ظاهر مي‌شود.

 

توجه: در صورتيكه اين عمل را براي اولين بار انجام مي‌دهيد، ممكن است صفحه روبرو نيز ظاهر شود:

از ليست كشورها IRAN را انتخاب كنيد.

در قسمت كد شهر، كد شهر محل اقامت خود را وارد كنيد.

اگر در منطقه شما شماره‌گيري سريع از طرف مخابرات پشتيباني مي‌شود گزينه Tone و در غير اين صورت گزينه‌ Palse را انتخاب كنيد.

4-     در قسمت نام، نام شركتي را كه از آن شركت حساب اينترنتي خريداري كرده‌ايد وارد كنيد ( اين يك نام فرضي است، در صورت تمايل مي‌توان عبارت موجود در كادر را به همان شكل باقي گذاشت) و دكمه Next را انتخاب كنيد.

5-      در كادر بعدي شماره شبكه را وارد كرده دكمه Next را انتخاب كنيد.

6-     در كادر بعد دكمه Finish ار انتخاب كنيد.

7-      حال در قسمت Dial-up Networking شما يك گزينه جديد با نامي كه در قسمت 4 وارد كرده‌ايد تشكيل شده است. با دكمه چپ ماوس 2 بار بر روي آن كليك كنيد.

 

 

 


 

8-      كادر Connect to ظاهر مي‌شود. در اين كادر Username و Password خود را وارد كنيد.  (Username و Password را شركتي كه از او حساب اينترنتي خريداري مي‌كنيد به شما اعلام مي‌كند.) و دكمه Connect را انتخاب كنيد.

 

 

9-      كادر  Connecting to My Connection ظاهر مي‌شود. در اين قسمت شماره‌اي كه در قسمت 5 وارد كرده‌ايد به طور خودكار شماره‌گيري مي‌شود و پس از چند ثانيه صداهاي مخصوصي را خواهيد شنيد كه و در صورتي كه همه چيز به درستي انجام شده باشد كادر روبرو را خواهيد ديد. شما به اينترنت متصل شده‌ايد و مي‌توانيد با انتخاب Internet Explorer  از سايتهاي مختلف ديدن كنيد. (فصل اول)

 

10-  براي قطع ارتباط از اينترنت كافي است 2 بار بر روي شكل كامپيوترها كنار ساعت كليك كرده و در كادر باز شده دكمه Disconnect را انتخاب كرد.

تمام شد...

 

مرتضي ظفري پاييز 1380 تهران



[1] Computer Network

[2] LAN : Local Area Network.

[3] INTERNET

[4] Site

[5] Link

[6]  در صورت نداشتن آدرس و يا صحيح نبودن آن مي‌توان از ابزارهايي كه در اينترنت براي جستجو وجود دارد استفاده  كرد. ( رجوع شود به فصل 3 موتورهاي جستجو)

[7] Password

[8] Connect

[9]  جهت اتصال به اينترنت به فصل 4 مراجعه كنيد.

[10] Search Engine 

[11] Index

[12] افراد بسياري سوال مي‌كنند كه Yahoo به چه معناست؟ آيا همان معناي يا- هو در لغت درويشان است. بايد گفت در زبان انگليسي Yahoo يكي از ادات صوت است و موقعي استفاده مي‌شود كه شخص بسيار خوشحال باشد يا به يك موفقيت بزرگ دست پيدا كرده باشد. (در فارسي تقريباً معادل «آخ جون» مي‌باشد.)

 


نوشته شده در تاريخ شنبه نوزدهم آذر 1390 توسط جعفر

 مقدمه

امروزه با بهبود عملكرد، كارايی و عوامل امنيتی، شبكه‌های بی‌سيم به شكل قابل توجهی در حال رشد و گسترش هستند و استاندارد IEEE 802.11 استاندارد بنيادی است كه شبكه‌های بی‌سيم بر مبنای آن طراحی و پياده سازی می‌شوند.

    در ماه ژوئن سال 1997 انجمن مهندسان برق و الكترونيك (IEEE) استاندارد IEEE 802.11-1997 را به عنوان اولين استانداردِ شبكه‌های محلی بی‌سيم منتشر ساخت. اين استاندارد در سال 1999 مجدداً بازنگری شد و نگارش روز آمد شده آن تحت عنوان IEEE 802.11-1999 منتشر شد. استاندارد جاری شبكه‌های محلی بی‌سيم يا همانIEEE 802.11 تحت عنوان ISO/IEC 8802-11:1999، توسط سازمان استاندارد سازی بين‌المللی (ISO) و مؤسسه استانداردهای ملی آمريكا (ANSI) پذيرفته شده است. تكميل اين استاندارد در سال 1997، شكل گيری و پيدايش شبكه سازی محلی بی‌سيم و مبتنی بر استاندارد را به دنبال داشت. استاندارد 1997، پهنای باند 2Mbps را تعريف می‌كند با اين ويژگی كه در شرايط نامساعد و محيط‌های دارای اغتشاش (نويز) اين پهنای باند می‌تواند به مقدار 1Mbps كاهش يابد. روش تلفيق يا مدولاسيون در اين پهنای باند روش DSSS است. بر اساس اين استاندارد پهنای باند 1 Mbps با استفاده از روش مدولاسيون FHSS نيز قابل دستيابی است و در محيط‌های عاری از اغتشاش (نويز) پهنای باند 2 Mbpsنيز قابل استفاده است. هر دو روش مدولاسيون در محدوده باند راديويی 2.4 GHz عمل می‌كنند. يكی از نكات جالب توجه در خصوص اين استاندارد استفاده از رسانه مادون قرمز علاوه بر مدولاسيون‌های راديويی DSSS و FHSS به عنوان رسانهانتقال است. ولی كاربرد اين رسانه با توجه به محدوديت حوزه عملياتی آن نسبتاً محدود و نادر است. گروه كاری 802.11 به زير گروه‌های متعددی تقسيم می‌شود. شكل‌های 1-1 و 1-2 گروه‌های كاری فعال در فرآيند استاندارد سازی را نشان می‌دهد. برخی از مهم‌ترين زير گروه‌ها به قرار زير است:

 

- 802.11D: Additional Regulatory Domains
- 802.11E: Quality of Service (QoS)

- 802.11F: Inter-Access Point Protocol (IAPP)
- 802.11G: Higher Data Rates at 2.4 GHz

- 802.11H: Dynamic Channel Selection and Transmission Power Control
- 802.11i: Authentication and Security

 

    كميته 802.11e كميته‌ای است كه سعی دارد قابليت QoS اِتـِرنت را در محيط شبكه‌های بی‌سيم ارائه كند. توجه داشته باشيد كه فعاليت‌های اين گروه تمام گونه‌های 802.11 شامل a، b، و g را در بر دارد. اين كميته در نظر دارد كه ارتباط كيفيت سرويس سيمی يا Ethernet QoS را به دنيای بی‌سيم بياورد.

     كميته 802.11g كميته‌ای است كه با عنوان 802.11 توسعه يافته نيز شناخته می‌شود. اين كميته در نظر دارد نرخ ارسال داده‌ها در باند فركانسی ISM را افزايش دهد. باند فركانسی ISM يا باند فركانسی صنعتی، پژوهشی، و پزشكی، يك باند فركانسی بدون مجوز است. استفاده از اين باند فركانسی كه در محدوده 2400 مگاهرتز تا 2483.5 مگاهرتز قرار دارد، بر اساس مقررات FCC در كاربردهای تشعشع راديويی نيازی به مجوز ندارد. استاندارد 802.11g تا كنون نهايی نشده است و مهم‌ترين علت آن رقابت شديد ميان تكنيك‌های مدولاسيون است. اعضاء اين كميته و سازندگان تراشه توافق كرده‌اند كه از تكنيك تسهيم OFDM استفاده نمايند ولی با اين وجود روش PBCC نيز می‌تواند به عنوان يك روش جايگزين و رقيب مطرح باشد.

    كميته 802.11h مسئول تهيه استانداردهای يكنواخت و يكپارچه برای توان مصرفی و نيز توان امواج ارسالی توسط فرستنده‌های مبتنی بر 802.11 است.

    فعاليت دو كميته 802.11i و 802.11x در ابتدا برروی سيستم‌های مبتنی بر 802.11b تمركز داشت. اين دو كميته مسئول تهيه پروتكل‌های جديد امنيت هستند. استاندارد اوليه از الگوريتمی موسوم به WEP استفاده می‌كند كه در آن دو ساختار كليد رمز نگاری به طول 40 و 128 بيت وجود دارد. WEP مشخصاً يك روش رمزنگاری است كه از الگوريتم RC4 برای رمزنگاری فريم‌ها استفاده می‌كند. فعاليت اين كميته در راستای بهبود مسائل امنيتی شبكه‌های محلی بی‌سيم است.

شكل 1-1- گروه‌های كاری لايه فيزيكی

 

شكل1-2- گروه‌های كاری لايه دسترسی به رسانه

 

    اين استاندارد لايه‌های كنترل دسترسی به رسانه (MAC) و لايه فيزيكی (PHY) در يك شبكه محلی با اتصال بی‌سيم را دربردارد. شكل 1-3 جايگاه استاندارد 802.11 را در مقايسه با مدل مرجع نشان می‌دهد.

 

شكل 1-3- مقايسه مدل مرجعOSI و استاندارد 802.11

 محيط‌های بی‌سيم دارای خصوصيات و ويژگی‌های منحصر به فردی می‌باشند كه در مقايسه با شبكه‌های محلی سيمی جايگاه خاصی را به اين گونه شبكه‌ها می‌بخشد. به طور مشخص ويژگی‌های فيزيكی يك شبكه محلی بی‌سيم محدوديت‌های فاصله، افزايش نرخ خطا و كاهش قابليت اطمينان رسانه، همبندی‌های پويا و متغير، تداخل امواج، و عدم وجود يك ارتباط قابل اطمينان و پايدار در مقايسه با اتصال سيمی است. اين محدوديت‌ها، استاندارد شبكه‌های محلی بی‌سيم را وا می‌دارد كه فرضيات خود را بر پايه يك ارتباط محلی و با بُرد كوتاه بنا نهد. پوشش‌های جغرافيايی وسيع‌تر از طريق اتصال شبكه‌های محلی بی‌سيم كوچك برپا می‌شود كه در حكم عناصر ساختمانی شبكه گسترده هستند. سيـّار بودن ايستگاه‌های كاری بی‌سيم نيز از ديگر ويژگی‌های مهم شبكه‌های محلی بی‌سيم است. در حقيقت اگر در يك شبكه محلی بی‌سيم ايستگاه‌های كاری قادر نباشند در يك محدودهعملياتی قابل قبول و همچنين ميان ساير شبكه‌های بی‌سيم تحرك داشته باشد، استفاده از شبكه‌های محلی بی‌سيم توجيه كاربردی مناسبی نخواهد داشت.

 

    از سوی ديگر به منظور حفظ سازگاری و توانايی تطابق و همكاری با ساير استانداردها، لايهدسترسی به رسانه (MAC) در استاندارد 802.11 می‌بايست از ديد لايه‌های بالاتر مشابه يك شبكه محلی مبتنی بر استاندارد 802 عمل كند. بدين خاطر لايه MAC در اين استاندارد مجبور است كه سيـّاربودن ايستگاه‌های كاری را به گونه‌ای شفاف پوشش دهد كه از ديد لايه‌های بالاتر استاندارد اين سيـّاربودن احساس نشود. اين نكته سبب می‌شود كه لايهMAC در اين استاندارد وظايفی را بر عهده بگيرد كه معمولاً توسط لايه‌های بالاتر شبكه انجام می‌شوند. در واقع اين استاندارد لايه‌های فيزيكی و پيوند داده جديدی به مدل مرجع OSI اضافه می‌كند و به طور مشخص لايه فيزيكی جديد از فركانس‌های راديويی به عنوان رسانهانتقال بهره می‌برد. شكل1-4، جايگاه اين دو لايه در مدل مرجع OSI را در كنار ساير پروتكل‌های شبكه سازی نشان می‌دهد. همانگونه كه در اين شكل مشاهده می‌شود وجود اين دولايه از ديد لايه‌های فوقانی شفاف است

 

شكل 1-4- جايگاه 802.11 در مقايسه با ساير پروتكل‌ها

 برای كسب اطلاعات بيشتر در خصوص گروه‌های كاری IEEE 802.11 می‌توانيد به نشانی http://www.ieee802.org/11 مراجعه كنيد. علاوه بر استاندارد IEEE 802.11-1999 دو الحاقيه IEEE 802.11a و IEEE 802.11b تغييرات و بهبودهای قابل توجهی را به استاندارد اوليه اضافه كرده است كه در ادامه اين مقاله به بررسی آنها خواهيم پرداخت.

 

2.معماری شبكه‌های محلی بی‌سيم

    معماری 802.11 از عناصر ساختمانی متعددی تشكيل شده است كه در كنار هم، سـّيار بودن ايستگاه‌های كاری را پنهان از ديد لايه‌های فوقانی برآورده می‌سازد. ايستگاه بی‌سيم يا به اختصار ايستگاه (STA)، بنيادی‌ترين عنصر ساختمانی در يك شبكه محلی بی‌سيم است. يك ايستگاه، دستگاهی است كه بر اساس تعاريف و پروتكل‌های 802.11 (لايه‌های MAC و PHY) عمل كرده و به رسانه بی‌سيم متصل است. توجه داشته باشيد كه براساس تعريف كلاسيكِ شبكه‌های كامپيوتری، يك شبكه كامپيوتری مجموعه‌ای از كامپيوترهای مستقل و متصل است كه منظور از اتصال در اين تعريف، توانايی جابجايی و مبادله پيام‌ها است. ايستگاه‌های كاری بی‌سيم امروزی عمدتاً به صورت مجموعه سخت‌افزاري/نرم‌افزاری كارت‌های شبكه بی‌سيم پياده‌سازی می‌شوند. همچنين يك ايستگاه می‌تواند يك كامپيوتر قابل حمل، كامپيوتر كفدستی و يا يك نقطه دسترسی باشد. نقطه دسترسی در واقع در حكم پلی است كه ارتباط ايستگاه‌های بی‌سيم را با سيستم توزيع يا شبكه سيمی برقرار می‌سازد. كوچكترين عنصر ساختمانی شبكه‌های محلی بی‌سيم در استاندارد 802.11 مجموعه سرويس پايه يا BSS ناميده می‌شود. در واقع BSS مجموعه‌ای از ايستگاه‌های بی‌سيم است.

 

2-1- همبندی‌های 802.11

    در يك تقسيم بندی كلی می‌توان دو همبندی را برای شبكه‌های محلی بی‌سيم در نظر گرفت. سـاده‌ترين همبندی، فیالبداهه (Ad Hoc) و براساس فرهنگ واژگان استاندارد 802.11، IBSS است. در اين همبندی ايستگاه‌ها از طريق رسانه بی‌سيم به صورت نظير به نظير با يكديگر در ارتباط هستند و برای تبادل داده (تبادل پيام) از تجهيزات يا ايستگاه واسطی استفاده نمی‌كنند. واضح است كه در اين همبندی به سبب محدوديت‌های فاصله هر ايستگاهی ضرورتاً نمی‌تواند با تمام ايستگاه‌های ديگر در تماس باشد. به اين ترتيب شرط اتصال مستقيم در همبندی IBSS آن است كه ايستگاه‌ها در محدوده عملياتی بی‌سيم يا همان بُرد شبكه بی‌سيم قرار داشته باشند. شكل 2-1 همبندی IBSSرا نشان می‌دهد.

 

شكل 2-1- همبندی فی‌البداهه يا IBSS

    همبندی ديگر زيرساختار است. در اين همبندی عنصر خاصی موسوم به نقطه دسترسی وجود دارد. نقطه دسترسی ايستگاه‌های موجود در يك مجموعه سرويس را به سيستم توزيع متصل می‌كند. در اين هم بندی تمام ايستگاه‌ها با نقطه دسترسی تماس می‌گيرند و اتصال مستقيم بين ايستگاه‌ها وجود ندارد در واقع نقطهدسترسی وظيفه دارد فريم‌ها (قاب‌های داده) را بين ايستگاه‌ها توزيع و پخش كند. شكل 2-2 همبندی زيرساختار را نشان می‌دهد.

 

شكل2-2- همبندی زيرساختار در دوگونه BSS و ESS

 

 در اين هم بندی سيستم توزيع، رسانه‌ای است كه از طريق آن نقطه دسترسی (AP) با ساير نقاط دسترسی در تماس است و از طريق آن می‌تواند فريم‌ها را به ساير ايستگاه‌ها ارسال نمايد. از سوی ديگر می‌تواند بسته‌ها را در اختيار ايستگاه‌های متصل به شبكه سيمی نيز قراردهد. در استاندارد 802.11 توصيف ويژه‌ای برای سيستم توزيع ارائه نشده است، لذا محدوديتی برای پياده سازی سيستم توزيع وجود ندارد، در واقع اين استاندارد تنها خدماتی را معين می‌كند كه سيستم توزيع می‌بايست ارائه نمايد. بنابراين سيستم توزيع می‌تواند يك شبكه 802.3 معمولی و يا دستگاه خاصی باشد كه سرويس توزيع مورد نظر را فراهم می‌كند.

    استاندارد 802.11 با استفاده از همبندی خاصی محدوده عملياتی شبكه را گسترش می‌دهد. اين همبندی به شكل مجموعه سرويس گسترش يافته (ESS) بر پا می‌شود. در اين روش يك مجموعه گسترده و متشكل از چندين BSS يا مجموعه سرويس پايه از طريق نقاط دسترسی با يكديگر در تماس هستند و به اين ترتيب ترافيك داده بين مجموعه‌های سرويس پايه مبادله شده و انتقال پيام‌ها شكل می‌گيرد. در اين همبندی ايستگاه‌ها می‌توانند در محدوده عملياتی بزرگ‌تری گردش نمايند. ارتباط بين نقاط دسترسی از طريق سيستم توزيع فراهم می‌شود. در واقع سيستم توزيع ستون فقرات شبكه‌های محلی بی‌سيم است و می‌تواند با استفاده از فنّاوری بی‌سيم يا شبكه‌های سيمی شكل گيرد. سيستم توزيع در هر نقطه دسترسی به عنوان يك لايه عملياتی ساده است كه وظيفه آن تعيين گيرنده پيام و انتقال فريم به مقصدش می‌باشد. نكته قابل توجه در اين همبندی آن است كه تجهيزات شبكه خارج از حوزه ESS تمام ايستگاه‌های سيـّار داخل ESS را صرفنظر از پويايی و تحركشان به صورت يك شبكه منفرد در سطح لايه MAC تلقی می‌كنند. به اين ترتيب پروتكل‌های رايج شبكه‌های كامپيوتری كوچكترين تأثيری از سيـّار بودن ايستگاه‌ها و رسانه بی‌سيم نمی‌پذيرند. جدول 2-1 همبندی‌های رايج در شبكه‌های بی‌سيم مبتنی بر 802.11 را به اختصار جمع بندی می‌كند.

 

802.11 Topologies

Independent Basic Service Set (IBSS)

("Ad Hoc" or "Peer to Peer")

Infrastructure

 

Basic Service Set (BSS)

 

Extended Service Set (ESS)

جدول 2-1- همبنديهای رايج در استاندارد 802.11

2-2- خدمات ايستگاهی

    بر اساس اين استاندارد خدمات خاصی در ايستگاه‌های كاری پياده‌سازی می‌شوند. در حقيقت تمام ايستگاه‌های كاری موجود در يك شبكه محلی مبتنی بر 802.11 و نيز نقاط دسترسی موظف هستند كه خدمات ايستگاهی را فراهم نمايند. با توجه به اينكه امنيت فيزيكی به منظور جلوگيری از دسترسی غير مجاز بر خلاف شبكه‌های سيمی، در شبكه‌های بی‌سيم قابل اعمال نيست استاندارد 802.11 خدمات هويت سنجی را به منظور كنترل دسترسی به شبكه تعريف می‌نمايد. سرويس هويت سنجی به ايستگاه كاری امكان می‌دهد كه ايستگاه ديگری را شناسايی نمايد. قبل از اثبات هويت ايستگاه كاری، آن ايستگاه مجاز نيست كه از شبكه بی‌سيم برای تبادل داده استفاده نمايد. در يك تقسيم بندی كلی 802.11 دو گونه خدمت هويت سنجی را تعريف می‌كند:

- Open System Authentication
- Shared Key Authentication

 

    روش اول، متد پيش فرض است و يك فرآيند دو مرحله‌ای است. در ابتدا ايستگاهی كه می‌خواهد توسط ايستگاه ديگر شناسايی و هويت سنجی شود يك فريم مديريتی هويت سنجی شامل شناسه ايستگاه فرستنده، ارسال می‌كند. ايستگاه گيرنده نيز فريمی در پاسخ می‌فرستد كه آيا فرستنده را می‌شناسد يا خير. روش دوم كمی پيچيده‌تر است و فرض می‌كند كه هر ايستگاه از طريق يك كانال مستقل و امن، يك كليد مشترك سّری دريافت كرده است. ايستگاه‌های كاری با استفاده از اين كليد مشترك و با بهره‌گيری از پروتكلی موسوم به WEP اقدام به هويت سنجی يكديگر می‌نمايند. يكی ديگر از خدمات ايستگاهی خاتمه ارتباط يا خاتمه هويت سنجی است. با استفاده از اين خدمت، دسترسی ايستگاهی كه سابقاً مجاز به استفاده از شبكه بوده است، قطع می‌گردد.

    در يك شبكه بی‌سيم، تمام ايستگاه‌های كاری و ساير تجهيزات قادر هستند ترافيك داده‌ای را "بشنوند" – در واقع ترافيك در بستر امواج مبادله می‌شود كه توسط تمام ايستگاه‌های كاری قابل دريافت است. اين ويژگی سطح امنيتی يك ارتباط بی‌سيم را تحت تأثير قرار می‌دهد. به همين دليل در استاندارد 802.11 پروتكلی موسوم به WEP تعبيه شده است كه برروی تمام فريم‌های داده و برخی فريم‌های مديريتی و هويت سنجی اعمال می‌شود. اين استاندارد در پی آن است تا با استفاده از اين الگوريتم سطح اختفاء وپوشش را معادل با شبكه‌های سيمی نمايد.

 

2-3-خدمات توزيع

    خدمات توزيع عملكرد لازم در همبندی‌های مبتنی بر سيستم توزيع را مهيا می‌سازد. معمولاً خدمات توزيع توسط نقطه دسترسی فراهم می‌شوند. خدمات توزيع در اين استاندارد عبارتند از:

- پيوستن به شبكه
- خروج از شبكه بی‌سيم
- پيوستن مجدد
- توزيع
- مجتمع سازی

 

    سرويس اول يك ارتباط منطقی ميان ايستگاه سيّار و نقطه دسترسی فراهم می‌كند. هر ايستگاه كاری قبل از ارسال داده می‌بايست با يك نقطه دسترسی برروی سيستم ميزبان مرتبط گردد. اين عضويت، به سيستم توزيع امكان می‌دهد كه فريم‌های ارسال شده به سمت ايستگاه سيّار را به درستی در اختيارش قرار دهد. خروج از شبكه بی‌سيم هنگامی بكار می‌رود كه بخواهيم اجباراً ارتباط ايستگاه سيّار را از نقطه دسترسی قطع كنيم و يا هنگامی كه ايستگاه سيّار بخواهد خاتمه نيازش به نقطه دسترسی را اعلام كند. سرويس پيوستن مجدد هنگامی مورد نياز است كه ايستگاه سيّار بخواهد با نقطه دسترسی ديگری تماس بگيرد. اين سرويس مشابه "پيوستن به شبكه بی‌سيم" است با اين تفاوت كه در اين سرويس ايستگاه سيّار نقطه دسترسی قبلی خود را به نقطه دسترسی جديدی اعلام می‌كند كه قصد دارد به آن متصل شود. پيوستن مجدد با توجه به تحرك و سيّار بودن ايستگاه كاری امری ضروری و اجتناب ناپذير است. اين اطلاع، (اعلام نقطه دسترسی قبلی) به نقطه دسترسی جديد كمك می‌كند كه با نقطه دسترسی قبلی تماس گرفته و فريم‌های بافر شده احتمالی را دريافت كند كه به مقصد اين ايستگاه سيّار فرستاده شده‌اند. با استفاده از سرويس توزيع فريم‌های لايه MAC به مقصد مورد نظرشان می‌رسند. مجتمع سازی سرويسی است كه شبكه محلی بی‌سيم را به ساير شبكه‌های محلی و يا يك يا چند شبكه محلی بی‌سيم ديگر متصل می‌كند. سرويس مجتمع سازی فريم‌های 802.11 را به فريم‌هايی ترجمه می‌كند كه بتوانند در ساير شبكه‌ها (به عنوان مثال 802.3) جاری شوند. اين عمل ترجمه دو طرفه است بدان معنی كه فريم‌های ساير شبكه‌ها نيز به فريم‌های 802.11 ترجمه شده و از طريق امواج در اختيار ايستگاه‌های كاری سيّار قرار می‌گيرند.

 

2-4- دسترسی به رسانه

    روش دسترسی به رسانه در اين استاندارد CSMA/CA است كه تاحدودی به روش دسترسی CSMA/CD شباهت دارد. در اين روش ايستگاه‌های كاری قبل از ارسال داده كانال راديويی را كنترل می‌كنند و در صورتی كه كانال آزاد باشد اقدام به ارسال می‌كنند. در صورتی كه كانال راديويی اشغال باشد با استفاده از الگوريتم خاصی به اندازه يك زمان تصادفی صبر كرده و مجدداً اقدام به كنترل كانال راديويی می‌كنند. در روش CSMA/CA ايستگاه فرستنده ابتدا كانال فركانسی را كنترل كرده و در صورتی كه رسانه به مدت خاصی موسوم به DIFS آزاد باشد اقدام به ارسال می‌كند. گيرنده فيلد كنترلی فريم يا همان CRC را چك می‌كند و سپس يك فريم تصديق می‌فرستد. دريافت تصديق به اين معنی است كه تصادمی بروز نكرده است. در صورتی كه فرستنده اين تصديق را دريافت نكند، مجدداً فريم را ارسال می‌كند. اين عمل تا زمانی ادامه می‌يابد كه فريم تصديق ارسالی از گيرنده توسط فرستنده دريافت شود يا تكرار ارسال فريم‌ها به تعداد آستان‌های مشخصی برسد كه پس از آن فرستنده فريم را دور می‌اندازد.

در شبكه‌های بی‌سيم بر خلاف اِتِرنت امكان شناسايی و آشكار سازی تصادم به دو علت وجود ندارد:

  1. پياده سازی مكانيزم آشكار سازی تصادم به روش ارسال راديويی دوطرفه نياز دارد كه با استفاده از آن ايستگاه سيّار بتواند در حين ارسال، سيگنال را دريافت كند كه اين امر باعث افزايش قابل توجه هزينه می‌شود.
  2. در يك شبكه بی‌سيم، بر خلاف شبكه‌های سيمی، نمی‌توان فرض كرد كه تمام ايستگاه‌های سيّار امواج يكديگر را دريافت می‌كنند. در واقع در محيط بی‌سيم حالاتی قابل تصور است كه به آنها نقاط پنهان می‌گوييم. در شكل زير ايستگاه‌های كاری "A" و "B" هر دو در محدوده تحت پوشش نقطه دسترسی هستند ولی در محدوده يكديگر قرار ندارند.

 

شكل 2-3- روزنه‌های پنهان

    برای غلبه بر اين مشكل، استاندارد 802.11 از تكنيكی موسوم به اجتناب از تصادم و مكانيزم تصديق استفاده می‌كند. همچنين با توجه به احتمال بروز روزنه‌های پنهان و نيز به منظور كاهش احتمال تصادم در اين استاندارد از روشی موسوم به شنود مجازی رسانه يا VCS استفاده می‌شود. در اين روش ايستگاه فرستنده ابتدا يك بسته كنترلی موسوم به تقاضای ارسال حاوی نشانی فرستنده، نشانی گيرنده، و زمان مورد نياز برای اشغال كانال راديويی را می‌فرستد. هنگامی كه گيرنده اين فريم را دريافت می‌كند، رسانه را كنترل می‌كند و در صورتی كه رسانه آزاد باشد فريم كنترلی CTS را به نشانی فرستنده ارسال می‌كند. تمام ايستگاه‌هايی كه فريم‌های كنترلی RTS/CTS را دريافت می‌كنند وضعيت كنترل رسانه خود موسوم به شاخصNAV را تنظيم می‌كنند. در صورتی كه ساير ايستگاه‌ها بخواهند فريمی را ارسال كنند علاوه بر كنترل فيزيكی رسانه (كانال راديويی) به پارامتر NAV خود مراجعه می‌كنند كه مرتباً به صورت پويا تغيير می‌كند. به اين ترتيب مشكل روزنه‌های پنهان حل شده و تصادم‌ها نيز به حداقل مقدار می‌رسند. شكل 2-4 زمان‌بندی RTS/CTS و وضعيت ساير ايستگاه‌ها را نشان می‌دهد.

 

 

شكل 2-4- زمان‌بندی RTS/CTS

2-5- لايه فيزيكی

    در اين استاندارد لايه فيزيكی سه عملكرد مشخص را انجام می‌دهد. اول آنكه رابطی برای تبادل فريم‌های لايه MAC جهت ارسال و دريافت داده‌ها فراهم می‌كند. دوم اينكه با استفاده از روش‌های تسهيم فريم‌های داده را ارسال می‌كند و در نهايت وضعيت رسانه (كانال راديويي) را در اختيار لايه بالاتر (MAC) قرار می‌دهد. سه تكنيك راديويی مورد استفاده در لايه فيزيكی اين استاندارد به شرح زير می‌باشند:

  •  استفاده از تكنيك راديويی DSSS
  •  استفاده از تكنيك راديويی FHSS
  •  استفاده از امواج راديويی مادون قرمز

 

    در اين استاندار لايه فيزيكی می‌تواند از امواج مادون قرمز نيز استفاده كند. در روش ارسال با استفاده از امواج مادون قرمز، اطلاعات باينری با نرخ 1 يا 2 مگابيت در ثانيه و به ترتيب با استفاده از مدولاسيون 16-PPM و 4-PPMمبادله می‌شوند.

 

2-5-1-ويژگی‌های سيگنال‌های طيف گسترده

    عبارت طيف گسترده به هر تكنيكی اطلاق می‌شود كه با استفاده از آن پهنای باند سيگنال ارسالی بسيار بزرگ‌تر از پهنای باند سيگنال اطلاعات باشد. يكی از سوالات مهمی كه با در نظر گرفتن اين تكنيك مطرح می‌شود آن است كه با توجه به نياز روز افزون به پهنای باند و اهميت آن به عنوان يك منبع با ارزش، چه دليلی برای گسترش طيف سيگنال و مصرف پهنای باند بيشتر وجود دارد. پاسخ به اين سوال در ويژگی‌های جالب توجه سيگنال‌های طيف گسترده نهفته است. اين ويژگی‌های عبارتند از:

- پايين بودن توان چگالی طيف به طوری كه سيگنال اطلاعات برای شنود غير مجاز و نيز در مقايسه با ساير امواج به شكل اعوجاج و پارازيت به نظر می‌رسد.

  •  مصونيت بالا در مقابل پارازيت و تداخل
  •  رسايی با تفكيك پذيری و دقت بالا
  •  امكان استفاده در CDMA

 

    مزايای فوق كميسيون FCC را بر آن داشت كه در سال 1985 مجوز استفاده از اين سيگنال‌ها را با محدوديت حداكثر توان يك وات در محدوده ISM صادر نمايد.

 

2-5-2-سيگنال‌های طيف گسترده با جهش فركانسی

    در يك سيستم مبتنی بر جهش فركانسی، فركانس سيگنال حامل به شكلی شبه تصادفی و تحت كنترل يك تركيب كننده تغيير می‌كند. شكل 2-5 اين تكنيك را در قالب يك نمودار نشان می‌دهد

 

PN-CODE= Pseudonoise code
شكل 2-5 - تكنيك
FHSS

    در اين شكل سيگنال اطلاعات با استفاده از يك تسهيم كننده ديجيتال و با استفاده از روش تسهيم FSK تلفيق می‌شود. فركانس سيگنال حامل نيز به شكل شبه تصادفی از محدوده فركانسی بزرگ‌تری در مقايسه با سيگنال اطلاعات انتخاب می‌شود. با توجه به اينكه فركانس‌های pn-code با استفاده از يك ثبات انتقالی همراه با پس خور ساخته می‌شوند، لذا دنباله فركانسی توليد شده توسط آن كاملا تصادفی نيست و به همين خاطر به اين دنباله، شبه تصادفی می‌گوييم.

 

شكل 2-6- تغيير فركانس سيگنال تسهيم شده به شكل شبه تصادفي

 

    بر اساسی مقررات FCC و سازمان‌های قانون گذاری، حداكثر زمان توقف در هر كانال فركانسی 400 ميلی ثانيه است كه برابر با حداقل 2.5 جهش فركانسی در هر ثانيه خواهد بود. در استاندارد 802.11 حداقل فركانس جهش در آمريكای شمالی و اروپا 6 مگاهرتز و در ژاپن 5 مگاهرتز می‌باشد.

 

2-5-3-سيگنال‌های طيف گسترده با توالی مستقيم

    اصل حاكم بر توالی مستقيم، پخش يك سيگنال برروی يك باند فركانسی بزرگتر از طريق تسهيم آن با يك امضاء يا كُد به گونه‌ای است كه نويز و تداخل را به حداقل برساند. برای پخش كردن سيگنال هر بيت واحد با يك كُد تسهيم می‌شود. در گيرنده نيز سيگنال اوليه با استفاده از همان كد بازسازی می‌گردد. در استاندارد 802.11 روش مدولاسيون مورد استفاده در سيستم‌های DSSS روش تسهيم DPSK است. در اين روش سيگنال اطلاعات به شكل تفاضلی تهسيم می‌شود. در نتيجه نيازی به فاز مرجع برای بازسازی سيگنال وجود ندارد.

    از آنجا كه در استاندارد 802.11 و سيستم DSSS از روش تسهيم DPSK استفاده می‌شود، داده‌های خام به صورت تفاضلی تسهيم شده و ارسال می‌شوند و در گيرنده نيز يك آشكار ساز تفاضلی سيگنال‌های داده را دريافت می‌كند. در نتيجه نيازی به فاز مرجع برای بازسازی سيگنال وجود ندارد. در روش تسهيم PSK فاز سيگنال حامل با توجه به الگوی بيتی سيگنال‌های داده تغيير می‌كند. به عنوان مثال در تكنيك QPSK دامنه سيگنال حامل ثابت است ولی فاز آن با توجه به بيت‌های داده تغيير می‌كند. جدول زير ايده مدولاسيون فاز را نشان می‌دهد.

 

Symbols

Bits

Phase Modulation

1

00

2

01

3

10

4

11

 

جدول 2-2- مدولاسيون فاز

 

    در الگوی مدولاسيون QPSK چهار فاز مختلف مورد استفاده قرار می‌گيرند و چهار نماد را پديد می‌آورند. واضح است كه در اين روش تسهيم، دامنه سيگنال ثابت است. در روش تسهيم تفاضلی سيگنال اطلاعات با توجه به ميزان اختلاف فاز و نه مقدار مطلق فاز تسهيم و مخابره می‌شوند. به عنوان مثال در روش pi/4-DQPSK، چهار مقدار تغيير فاز 3pi/4- ، 3pi/4، pi/4، و-pi/4 است. با توجه به اينكه در روش فوق چهار تغيير فاز به كار رفته است لذا هر نماد می‌تواند دو بيت را كُدگذاری نمايد.

 

بيتهای فرد

بيتهای زوج

اختلاف فاز

1

1

-3pi/4

0

1

3 pi/4

0

0

Pi/4

1

0

-pi/4

جدول 2-3- مدولاسيون تفاضلي

 

    در روش تسهيم طيف گسترده با توالی مستقيم مشابه تكنيك FH از يك كد شبه تصادفی برای پخش و گسترش سيگنال استفاده می‌شود. عبارت توالی مستقيم از آنجا به اين روش اطلاق شده است كه در آن سيگنال اطلاعات مستقيماً توسط يك دنباله از كدهای شبه تصادفی تسهيم می‌شود. در اين تكنيك نرخ بيتی شبه كُد تصادفی، نرخ تراشه ناميده می‌شود. در استاندارد 802.11 از كُدی موسوم به كُد باركر برای توليد كدها تراشه سيستم DSSS استفاده می‌شود. مهم‌ترين ويژگی كدهای باركر خاصيت غير تناوبی و غير تكراری آن است كه به واسطه آن يك فيلتر تطبيقی ديجيتال قادر است به راحتی محل كد باركر را در يك دنباله بيتی شناسايی كند.

    جدول زير فهرست كامل كدهای باركر را نشان می‌دهد. همانگونه كه در اين جدول مشاهده می‌شود كدهای باركر از 8 دنباله تشكيل شده است. در تكنيك DSSS كه در استاندارد 802.11 مورد استفاده قرار می‌گيرد، از كد باركر با طول 11 (N=11) استفاده می‌شود. اين كد به ازاء يك نماد، شش مرتبه تغيير فاز می‌دهد و اين بدان معنی است كه سيگنال حامل نيز به ازاء هر نماد 6 مرتبه تغيير فاز خواهد داد.

 

جدول 2-4- كدهای باركر

 

     لازم به يادآوری است كه كاهش پيچيدگی سيستم ناشی از تكنيك تسهيم تفاضلی DPSK به قيمت افزايش نرخ خطای بيتی به ازاء يك نرخ سيگنال به نويز ثابت و مشخص است.

شكل2-7- مدار مدولاسيون با استفاده از كدهای باركر

 

شكل 2-7 مدل منطقی مدولاسيون و پخش سيگنال اطلاعات با استفاده از كدهای باركر را نشان می‌دهد.

2-6-استفاده مجدد از فركانس

    يكی از نكات مهم در طراحی شبكه‌های بی‌سيم، طراحی شبكه سلولی به گونه‌ای است كه تداخل فركانسی را تا جای ممكن كاهش دهد. شكل 2-8 سه كانال DSSS در محدوده فركانسی ISM را نشان می‌دهد.

 

شكل 2-8- سه كانال فركانسی F3,F2,F1

    شكل 2-9 مفهوم استفاده مجدد از فركانس با استفاده از شبكه‌های مجاور فركانسی را نشان می‌دهد. در اين شكل مشاهده می‌شود كه با استفاده از يك طراحی شبكه سلولی خاص، تنها با استفاده از سه فركانس متمايز F3,F2,F1 امكان استفاده مجدد از فركانس فراهم شده است.

 

شكل 2-9- طراحی شبكه سلولي

 

    در اين طراحی به هريك از سلول‌های همسايه يك كانال متفاوت اختصاص داده شده است و به اين ترتيب تداخل فركانسی بين سلول‌های همسايه به حداقل رسيده است. اين تكنيك همان مفهومی است كه در شبكه تلفنی سلولی يا شبكه تلفن همراه به كار می‌رود. نكتهجالب ديگر آن است كه اين شبكه سلولی به راحتی قابل گسترش است. خوانندگان علاقمند می‌توانند دايره‌های جديد را در چهار جهت شبكه سلولی شكل فوق با فركانس‌های متمايز F1,F2,F3 ترسيم و گسترش دهند.

2-7- آنتن‌ها

   در يكی تقسيم بندی كلی آنتن‌های مورد استفاده در استاندارد IEEE 802.11 به دو دسته: تمام جهت و نقطه به نقطه تقسيم می‌شوند. واضح است كه آنتن‌های تمام جهته با توجه به آنكه نيازی به تنظيم ندارند، راحت‌تر مورد استفاده قرار می‌گيرند. اين آنتن‌ها در اغلب كارت‌های شبكه (كارت‌های دسترسي) و نيز نقاط دسترسی يا ايستگاه‌های پايه بكار می‌روند.

    اين آنتن‌ها در فواصل كوتاه قابل استفاده هستند و برای بهره گيری در فواصل طولانی‌تر به تقويت كننده‌های خارجی نياز دارند كه البته در بسياری موارد استفاده از اين تقويت كننده‌های خارجی ميسر و يا قانونی نيست. از سوی ديگر آنتن‌های نقطه به نقطه يا خطی در كاربردهای خارجی استفاده می‌شوند و به تنظيم دقيق نياز دارند. محدوده عملياتی رايج در آنتن‌های تمام جهته 45 متر و محدوده عملياتی آنتنهای نقطه به نقطه و توان بالا در حدود 40 كيلومتر است. در كاربردهايی كه استفاده از تقويت كننده بلا مانع است، اين محدوده عملياتی به شكل قابل توجهی افزايش يافته و تنها توسط خط ديد (مسير ديد) محدود می‌شود. از جمله عوامل مهمی كه محدوده عملياتی تجهيزات مبتنی بر IEEE 802.11 را تحت تأثير قرار می‌دهد محل نصب نقاط دسترسی يا ايستگاه پايه و نيز تداخل راديويی است. همانگونه كه پيشتر گفته شد، تجهيزات مبتنی بر اين استاندارد سعی می‌كنند كه با بالاترين نرخ ارسال داده كار كنند و در صورت نياز به سرعت‌های پايين‌تر برگردند.

 


نوشته شده در تاريخ شنبه نوزدهم آذر 1390 توسط جعفر
اين نوع ويروسها در قالب پيغامهاي فريب آميزي ، كاربران اينترنت را گول زده و به كام خود مي‌كشد. اين نوع ويروسها معمولاً به همراه يك نامه ضميمه شده از طريق پست الكترونيك وارد سيستم مي‌شوند. متن نامه مسلماً متن مشخصي نیست و تا حدودي به روحيات شخصي نويسنده ويروس بستگی دارد، پیغامها می توانند مضمونی تحدید آمیز یا محبت آمیز داشته باشند و یا در قالب هشداری ، مبنی بر شیوع یک ویروس جدید ئر اینترنت ، یا درخواستی در قبال یک مبلغ قابل توجه و یا هر موضوع وسوسه انگیز دیگر باشد . لازم به ذکر است كه همه اين نامه‌ها اصل نمي‌باشند يعني ممكن است بسیاری از آنها پيغام شخص سازنده ويروس نباشند بلكه شاید پيغام ويرايش شده يا تغيير یافته از يك كاربر معمولي و يا شخص ديگري باشد كه قبلا اين نامه‌ها را دريافت كرده و بدينوسيله ويروس را با پيغامي كاملاً جديد مجدداً ارسال مي‌كند.
نحوه تغيير پيغام و ارسال مجدد آن بسيار ساده بوده ، همين امر باعث گسترش سريع Hoax‌ها شده،‌ با يك دستور Forward مي‌توان ويروس و متن تغيير داده شده را براي شخص ديگري ارسال كرد. اما خود ويروس چه شكلي دارد؟ ويروسي كه در پشت اين پيغامهاي فريب آميز مخفي شده مي‌تواند به صورت يك بمب منطقي ، يك اسب تروا و يا يكي از فايلهاي سيستمي ويندوز باشد. شيوه‌اي كه ويروس Magistre-A از آن استفاده کرده و خود را منتشر مي‌كند.
نوشته شده در تاريخ شنبه نوزدهم آذر 1390 توسط جعفر

HIV حروف مخفف کلمات :Human : انسان : این ویروس فقط بر انسانها اثر گذار استImmuno-deficiency : نقص ایمنی :این ویروس باعث ایجاد نقص در دستگاه ایمنی بدن میگردد و مانع از فعالیت صحیح دفاعی بدن میشود.Virus :ویروس : این ارگانیسم یک ویروس است و مانند همهُ ویروسها توانایی تکثیر مستقل ندارد، این ویروس با ایجاد تغییراتی در سلولهای انسانی تکثیر و انتشار می یابد.

AIDS حروف مخفف کلمات :Aquired : اکتسابی : زیرا فرد باید آنرا اکتساب کند و این بیماری جزء بیماریهای ژنتیک نیست.Immune : ایمنی : بعلت اینکه بر سیستم ایمنی بدن اثر گذار است و کار سیستم ایمنی مبازه برای دفع میکرب، باکتری و ویروسها میباشد.Deficiency : نقصان : بعلت اینکه باعث ایجاد نقص در سیستم ایمنی بدن میشود و کار آنرا دچار اختلال میکند.Syndrom : نشانگان: بعلت اینکه شخص مبتلا به ایدز ممکن است دچار انواع متفاوت از نشانه‌های بیماریها و عفونتهای فرصت طلب شودتفاوت اچ آی وی (HIV) با ایدز (AIDS) چیست؟

اچ آی وی (HIV ) مخفف ویروس نقص ایمنی انسانی است. ویروسی است که سبب صدمه به دستگاه ایمنی بدن مي شود .دستگاه ایمنی عفونتها و بیماریها را دفع میکند. هنگامیکه فرد مبتلا به اچ آی وی (HIV ) میشود،ویروس به تدریج شروع به از بین بردن سیستم ایمنی میکند و به این ترتیب بدن نمیتواند حتی با بیماریهای جزئی مقابله کند و فرد مستعد ابتلا به انواع بیماریها میشود. وقتی که پیشرفت ویروس باعث ایجاد بیماریها در فرد گردد، وضعيتي به نام ایدز (AIDS) ايجاد میشود. در نتیجه، عوامل عفونی و بیماریهای دیگر فرصت مبتلا کردن انسان را پیدا‌ می کنند و موجب پیدایش علائم و نشانه‌های گوناگونی در بدن می‌شوند. برخی از این نشانه‌ها اولین بار در سال ۱۹۸۱ میلادی در افراد بالغ جوانی دیده شد که دچار نقص های ایمنی مادرزادی نبودند و این تعجب پزشکان را برانگیخته بود. به همین دلیل مجموعة این علائم را «نشانه‌های نقص ایمنی اکتسابی» یا «ایدز» نام نهادند، چون نمی‌توانستند آن را به بیماری مشخصی نسبت دهند و هنوز عامل آن شناخته نشده بود. انتقال خون و فراورده های آن اگر بدون اقدامات تشخیصی و ویروس زدایی انجام شود به احتمال بسیار زیاد موجب سرایت اچ.آی.وی. می‌شود، امری که در کشور ما نیز برای بیماران هموفیلی و تالاسمی رخ داده است. آیا کسی که خون اهداء می‌کند اچ.آی.وی -ایدز می‌گیرد؟اهدای خون خطری برای فرد اهداکننده ندارد و تنها دریافت کنندگان خون در معرض خطرند. آزمایش‌هایی روی خون اهدایی انجام می‌شود که اگر نشان دهد خون اهداء شده حاوی اچ.آی.وی است آن را به دیگران انتقال ندهند و البته اهداء کننده را مطلع خواهند کرد تا برای انجام آزمایش‌های تأییدی و مراقب‌های بعدی رجوع کند. البته با وجود انجام آزمایش های تشخیصی بر روی تمام نمونه های خون در حال حاضر، به دلیل منفی بودن نتیجه آزمایش در دوره پنجره ، توصیه می‌شود هر دریافت کننده خون و فراورده های آن برای آزمایش اچ.آی.وی. اقدام کند.راه دیگر تبادل خون استفاده از سرنگ و ابزارهای تزریق مشترک (مانند پمپ دست ساز) است که مصرف کنندگان مواد مخدر تزریقی به ناچار یا ناآگاهانه از آنها استفاده می‌کنند. آیا احتمال سرایت از راه پیوند اعضاء وجود دارد؟پیوند اعضا (کلیه، کبد، لوزالمعده و …) ممکن است باعث سرایت اچ.آی.وی و برخی ویروسهای دیگر بشود بنابراین قبل از پیوند باید از دهنده عضو با کسب رضایت آگاهانه آزمایشهای لازم به عمل آید.آیا در کارهای پزشکی امکان سرایت وجود دارد؟هرگونه عمل جراحی، اندوسکوپی، دیالیز با دستگاه، دندانپزشکی، ختنه، تزریقات، حجامت، و طب سوزنی که در آن شرایط سترون سازی کامل رعایت نشود ممکن است موجب سرایت اچ.آی.وی. و دیگر ویروسها از فرد مبتلا به دیگران شود. در این موارد لازم است تا حد امکان از وسايل سترون یک بار مصرف استفاده شود؛ ابزارهای مقاوم به حرارت‌(مثل برخی ابزارهای فلزی جراحی و دندانپزشکی) در اتوکلاو یا فور و ابزارهای غیرمصرفی نامقاوم (مثل آندوسکوپ) با مواد شیمیایی ضدعفونی شوند که این کارها باید برای هر بیمار انجام شود. البته با توجه به رعایت دقیق این احتیاطهای همه جانبه مواردی که ثابت شده باشد اچ.آی.وی. از مکانهایی مانند دندانپزشکی سرایت کرده باشد در تمام جهان انگشت شمار است.

آیا کارکنان بیمارستانها و درمانگاه ها در معرض خطراند؟

پزشکان و پرستارانی که با بیماران اچ.آی.وی. مثبت سر و کار دارند ممکن است در اثر تماس اتفاقی (فرو رفتن سوزن سرنگ یا تیغ جراحی) به اچ.آی.وی. مبتلا شوند. در ضمن احتمال سرایت از بیمار اچ.آی.وی. مثبت به پزشک بسیار بسیار بیشتر از احتمال سرایت از پزشک اچ.آی.وی. مثبت به بیماران است. در هر صورت با مصرف به موقع داروهای ضدویروسی این احتمال به شدت کم می‌شود. در مواقعی که فرو رفتن سوزن یا موارد مشابه رخ می‌دهد باید در عرض ۷۲ ساعت شروع به مصرف داروهای ضد ویروسی شود. این امر با مراجعه به کلینیک ها و بخش های تخصصی بیماریهای عفونی امکان پذیر است.آیا در آرایشگاه ها امکان سرایت وجود دارد؟ تاکنون در سراسر دنیا هیچ موردی سرایت از آرایشگر به مشتری یا برعکس اثبات نشده است. اگر در تراشیدن مو، خالکوبی، تاتو، سوراخ کردن گوش شرایط سترون سازی به طور کامل رعایت نشود ممکن است موجب سرایت اچ.آی.وی. و دیگر ویروسها از فرد مبتلا به دیگران شود. در این موارد لازم است مشابه اقدامات پزشکی از وسایل یک بار مصرف نو (مانند تیغ) برای هر فرد استفاده شود یا ابزارها به طور کامل سترون شوند. توصیه می‌شود هر فرد هنگام مراجعه به آرایشگاه ها وسایل شخصی خود را به همراه ببرد (تیغ، قیچی، شانه، حوله و …) این امر به ويژه برای پیشگیری از بیماریهای قارچی و انگلی مهم است. اپیلاسیون (کندن موها) ممکن است به پوست آسیب برساند و زخم های بسیار ریزی در محل کنده شدن موها ایجاد کند، بنابراین بهتر است برای آن از وسایل یک بار مصرف استفاده شود و ابزارهای الکترولیز استریل باشند. تماس جنسی هنگامی می تواند سبب سرایت اچ.آی.وی. شود که یک طرف دچار اچ.آی.وی-ایدز باشد (که شاید خودش هم از آن آگاه نباشد) و تبادل یا تماس با مایعات حاوی ویروس (خون، منی و ترشحات پیش از انزال، ترشحات تناسلی زن) رخ دهد. بنابراین تماس جنسی مرد با مرد، مرد با زن، زن با زن در این شرایط می تواند موجب سرایت شود. آيا درمان قطعي وجود دارد ؟خير. درماني که بتواند ويروس را از بدن فرد مبتلا حذف کند نداريم

خیر. درمانی که بتواند ویروس را از بدن فرد مبتلا حذف کند نداریم. روش مراقبت از افراد مبتلا به اچ آی وی (HIV) روشی است که به آن HAART میگویند که مخفف کلمات Highly Active Antiretroviral Therapy میباشد. (به مفهوم درمان ضد ویروسی بسیار مؤثر) که یک روش درمانی سخت است که مستلزم همکاری مداوم و فعال فرد بیمار می باشد.

برای بیشترین اثر گذاری داروهای ضد ویروسی باید روی برنامه زمانبندی دقیق و مشخص استفاده شود و در اغلب موارد بیمار باید به نوع غذا و زمان صرف آن توجه کند.

اگر دارو ها بصورت صحیح مصرف نشوند ، ویروس در برابر دارو یا داروهایی که ممکن است بعداً تجویز شود مقاوم میشود.

انواع مختلف داروهای ضد ویروس جهت درمان اچ آی وی وجود دارد و کار تمام آنها ایجاد اختلال در توانایی تکثیر ویروس میباشد که این عمل موجب کاهش انتشار ویروس در بدن شده و دورۀ زمانی را که ممکن است بیماری دیگری بروز نماید را افزایش میدهد و باعث کاهش انتقال ویروس از فرد مبتلا به دیگران میشود.

اغلب پزشکان به خاطر خاصیت مقاومت دارویی ویروس اچ آی وی ترکیبی از داروهای مختلف را برای کاهش میزان حجم ویروس در خون، تجویز میکنند.اچ آی وی (HIV ) چگونه منتقل میشود؟اچ آی وی (HIV ) از طریق تماس جنسی با فرد آلوده، از طریق استفاده مشترک از سرنگ یا سرسوزن (جهت تزریق مواد) یا به طور محدودتر از طریق تزریق خون یا فراورده های خونی آلوده گسترش می یابد. (و در کشورهایی که آزمایش اچ آی وی (HIV ) روی خون انجام میگیرد به طور خیلی نادر). همچنین نوزاد یا کودک زنی که مبتلا به اچ آی وی (HIV) میباشد ممکن است قبل یا هنگام زایمان یا از طریق تغذیه از شیر مادر به این ویروس آلوده شود.

کارکنان بخشهای بهداشت و درمان از طریق فرورفتن سوزن آلوده به خون حاوی ویروس به بدنشان یا بعد از ورود خون آلوده به زخم باز یا اعضاء مخاطی (بعنوان مثال چشم یا داخل بینی)، که مورد اخیر کمتر معمول است، به اچ آی وی (HIV) مبتلا شده اند.در آمریکا تنها یک مورد ابتلا بیمار توسط کارکنان بخش بهداشتی وجود دارد که مربوط به آلوده شدن شش نفر توسط یک دندانپزشک مبتلا به اچ آی وی (HIV ) بوده است.در آمریکا ، تحقیقات برروی ۲۲۰۰۰ بیمار تحت درمان ۶۳ پزشک، جراح و دندانپزشک مبتلا به اچ آی وی (HIV ) هیچ موردی از انتقال اچ آی وی (HIV ) از این طریق را گزارش نکرده است.

بعضی افراد از اینکه اچ آی وی (HIV ) از راههای دیگری منتقل شود ، نگرانند.هرچند که هیچ مدرک علمی دال بر صحت این نگرانیها تا کنون گزارش نشده است. اگر اچ آی وی (HIV ) از راههای دیگر منتقل میشد ( مثلا از طریق هوا،آب یا حشرات )، گستره موردهای گزارش شده ایدز (AIDS) بسیار متفاوت از وضعیت کنونی می بود. بعنوان نمونه اگر پشه ها عامل انتقال اچ آی وی (HIV ) بودند، تعداد بسیار بیشتری کودک و نوجوان مبتلا به ایدز میشدند.

دانشمندان و متخصصین پزشکی اتفاق نظر دارند که اچ آی وی (HIV ) به خوبی نمیتواند در محیط زندگی کند و در نتیجه امکان انتقال محیطی اچ آی وی (HIV ) محدود میباشد. اچ آی وی (HIV ) در مقدار و حجمهای متفاوت در خون، منی، ترشحات مهبلی، شیر مادر، بزاق، و اشک یافت شده است.

با وجودیکه اچ آی وی (HIV ) در میان افراد خانواده ساکن در یک خانه منتقل شده است ولی این شیوه انتقال بسیار نادر میباشد.احتمال میرود این انتقال از طریق تماس پوستی یا غشاء های مخاطی با خون آلوده صورت گرفته باشد.برای جلوگیری از چنین اتفاقات نادری، مراقبتهای لازم در تمام زمینه ها از جمله در منزل باید انجام گیرد تا از در معرض خطر قرار گرفتن افراد با خون افراد مبتلا به اچ آی وی (HIV ) یا افراد دارای ریسک ابتلا به اچ آی وی (HIV ) یا کسانی که ابتلا یا احتمال ابتلای ایشان نامشخص است جلوگیری بعمل آید.برای مثال هنگام تماس با خون یا دیگر مایعات بدن که ممکن است خون قابل مشاهده در آن دیده شود، نظیر ادرار، مدفوع، استفراغ. بریدگیها، زخمها یا ترکهای پوستی مراقبت کننده و بیمار باید با پانسمان پوشش داده شود.دستها و دیگر نقاط بدن باید پس از تماس با خون یا دیگر ترشحات بدن سریعا شسته شوند و سطحهایی که روی آنرا خون پوشانده باید به درستی ضد عفونی شوند.باید از کارهایی که احتمال تماس با خون در آن وجود دارد، نظیر استفاده از تیغ صورت تراشی یا مسواک مشترک، دوری شود.از سوزن و دیگر اشیا برنده در صورت ضرورت پزشکی استفاده شود.(غلاف سرسوزن را مجدد با دست روی آن قرار ندهید یا سر سوزن را از سرنگ جدا ننمایید.سرسوزن را با استفاده از ظرفهای مخصوص محافظ بدور ریخته و دور از دسترس کودکان و میهمانان قرار دهید.)

بوسه : تماسهای عادی از طریق بوسه با دهان بسته یا در اصطلاح بوسه عادی اچ آی وی (HIV) را انتقال نمیدهد.به خاطر احتمال تماس با خون هنگام “بوسه فرانسوی” یا بوسه با دهان باز، توصیه شده است که از انجام این عمل با فردی که وضعیت ابتلائش را نمی‌دانید دوری نمایید. هرچند گفته میشود احتمال ابتلا به اچ آی وی (HIV) از طریق بوسه با دهان باز بسیار ناچیز است. مرکز کنترل بیماریهای آمریکا (US CDC ) تنها یک مورد ابتلا به اچ آی وی (HIV) که ممکن است از طریق تماس با خون در حین بوسه با دهان باز باشد را گزارش کرده است.

بزاق، اشک و عرق : در بعضی از بیماران مبتلا به ایدز (AIDS) ،اچ آی وی (HIV) در بزاق و اشک به مقدار بسیار ناچیزی یافت شده است.درک این نکته مهم است که وجود مقدار بسیار ناچیز اچ آی وی (HIV ) در مایعات مترشحه بدن لزوما به مفهوم انتقال اچ آی وی (HIV) توسط این ترشحات نمیباشد. اچ آی وی (HIV) در عرق بدن افراد مبتلا یافت نشده و هرگز دیده نشده است که تماس با بزاق، اشک و عرق بدن فرد مبتلا باعث انقال اچ آی وی (HIV) شود.

 

فعالیتهایی که انتقال اچ آی وی (HIV ) را تسهیل میکنند :

* تماس جنسی بدون استفاده از کاندوم (کاپوت)* تماس جنسی در مواقع ابتلا به سایر بیماریهای آمیزشی* ورود مستقیم خون آلوده به ویروس از طریق سوزنهای تزریق مواد ، تزریق خون یا بعضی فراورده های خونی

آلوده، فرورفتن اتفاقی سوزن در سیستمهای خدمات بهداشتی* انتقال از مادر به نوزاد (قبل یا هنگام زایمان یا هنگام شیردهی)

* از طریق Tatoo، خالکوبی، سوراخ کردن گوش یا دیگر اعضا بدن ، ختنه، طب سوزنی با سوزنها با ابزارهای غیر استریل

شخص از طرق زیر به اچ آی وی (HIV ) مبتلا نمیشود :

* تماسهای روزمره با افراد مبتلا به اچ آی وی (مانند دست دادن )

* اهداء خون ( در صورت استریل بودن وسایل خونگیری )

* شنا کردن در استخر

* نشستن روی توالت فرنگی

* استفاده از رختخواب ، غذا یا ظروف غذاخوری فرد مبتلا.

* از طریق نیش پشه یا گازگرفتگی حیوانات

* از اشک یا بزاق

* استفاده صحیح از کاندوم هنگام تماس جنسی

* استفاده از استخر عمومی* عطسه و سرفه کردن چه کسانی ممکن است مبتلا شوند؟ کدام افراد با احتمال بيشتري در معرض رخدادهاي منجر به سرايت بيماري هستند؟

جوانانداشتن چند شريک جنسيشاغلان جنسيمصرف کنندگان موادزندانياندريافت کنندگان خون و فراورده‌هاي آنزنان و دخترانکارکنان بهداشتي-پزشکيمسافران حرفه‌اي

اگر آمیزش جنسی قبل از انزال متوقف شود آیا باز هم خطر دارد؟لازم به ذکر است در مقاربتها حتی اگر انزال (خروج منی از آلت مرد) هم رخ ندهد، امکان سرایت اچ.آی.وی وجود دارد. چون ترشحات پیش از انزال هم حاوی ویروس است.در صورت ارتباط جنسی با شخص مبتلا (مرد با زن / مرد با مرد)، احتمال مبتلا شدن کدام يک بيشتر است؟خطر انتقال ويروس اچ.آي.وی. در مردان همجنس گرا بیشتر و تقريبا دو برابر مردان دگرجنس گرا است. همچنین خطر دريافت ويروس در مردان همجنس گرا درافراد مفعول بيشتر است. احتمال انتقال آلودگی در هر بار آمیزش جنسی از مرد به زن (نزدیکی مهبلی) در حدود ۱/۱ درصد است و احتمال انتقال آلودگی از زن به مرد (نزدیکی مهبلی) در حدود ۰/۳ درصد می‌باشد (این ارقام احتمال آماری است). آیا حتی یک بار تماس جنسی هم ممکن است منجر به سرایت اچ.آی.وی شود؟ بلی با این که احتمال سرایت در یک رابطه جنسی بسیار کم است، هرگز صفر نیست و حتی مردانی وجود دارند که تنها با یک بار نزدیکی با زن اچ.آی.وی. مثبت مبتلا شده‌اند یا زنانی که با یک بار آمیزش با مردان اچ.آی.وی. مثبت دچار شده‌اند.در چه مواقعی احتمال سرایت از راه جنسی بیشتر می‌شود؟ اگر زخم یا عفونت تناسلی وجود داشته باشد، اگر تماس جنسی با خشونت یا اجبار باشد، اگر فردی شرکای جنسی متعدد داشته باشد و نیز در مقاربت خشک خطر سرایت بیشتر است. همچنین در آمیزش جنسی مقعدی (مقاربت از راه پشت) احتمال سرایت بیشتر از راه مهبلی است. ازدواج موقت (متعه، صیغه) چون معمولاً طرفین سابقه ازدواج های منجر به طلاق یا موقت متعدد با دیگر افراد هم دارند یک عامل گسترش بیماریهای مقاربتی و از جمله ایدز می تواند باشد.آیا جلق زدن (استمناء) ممکن است موجب ایدز شود؟جلق زدن به معنی استفاده از دست براي تحریک اندامهای جنسي است که معمولا براي رسيدن به اوج احساس جنسي (ارگاسم) بکار می‌رود و توسط خود فرد يا شريک جنسي او انجام مي شود. سرایت HIV در نتيجه جلق زدن تقریباً ناممکن است. آیا معاشقه (بدون آمیزش جنسی) باعث سرایت می‌شود؟اچ.آی.وی از راه تماس های سطحی (بوسیدن، در آغوش گرفتن، لمس بدن) که عشق بازی یا معاشقه خوانده می‌شود و کارهایی مثل غذا خوردن در ظروف مشترک، استفاده از حمام یا استخر مشترک انتقال نمی یابد. البته بوسة فرانسوی که با مکیدن لبها و زبان طرف مقابل انجام می شود ممکن است باعث سرایت اچ.آی.وی شود.تماس جنسی دهانی یعنی چه و آیا باعث سرایت می‌شود؟ورود آلت تناسلی مرد به دهان زن و مکیدن آن یا لیسیدن و مکیدن ناحیه تناسلی زن را تماس جنسی دهانی می‌گویند و به دلیل وجود ویروس در ترشحات جنسی و امکان زخم های بسیار کوچک در مخاط دهان و لثه ممکن است باعث سرایت اچ.آی.وی شود. پس مقاربت دهانی (مکیدن یا لیسیدن آلت تناسلی طرف مقابل چه زن چه مرد) نیز ممکن است منجر به سرایت بشودآیا تماس جنسی با تن فروشان جوان خطر دارد؟بلی. تن‌فروشان جوانتر و زیباتر چون مشتریان بیشتری دارند به احتمال بیشتری مبتلاء به بیماریهای مقاربتی و ایدز هستند.سرایت به فرزند

مادران باردار اگر مبتلا به اچ.آی.وی. باشند محتمل است که در دوران بارداری یا هنگام زایمان ویروس به فرزند آنان سرایت کند. همچنین شیردادن مادران اچ.آی.وی مثبت به فرزندانشان ممنوع است چون ویروس درون شیر نیز ترشح شده و منتقل می‌شود. انتقال در مراحل مختلف بارداری بدون درمانهای دارویی پیشگیرانه در ۲۵ تا ۴۰ درصد رخ می‌دهد. در صورتی که خانم‌های اچ.آی.وی. مثبت باردار بشوند لازم است داروهایی مصرف کنند که احتمال سرایت به فرزندشان را کم می‌کند. همچنین نوزاد متولد شده از این مادران باید مدتی داروی ضد اچ.آی.وی. بگیرد و شش هفته و ۱۸ ماه پس از تولد آزمایش اچ.آی.وی. بشود تا وضعیت ابتلایش مشخص گردد.به اين انتقال از والدین به فرزند (PTCT) و يا انتقال عمودی مي گويند. حدود %۷۰ موارد انتقال، هنگام زايمان، وقتي كه نوزاد در تماس با خون مادر قرار مي گيرد،‌ اتفاق مي افتد.داروهاي ضدویروسی مي توانند ميزان اين انتقال را به نصف كاهش دهند. زايمان با روش سزارين و نيز پرهيز از استفاده از روش هاي آسيب رسان (مانند انبرك هاي مورد استفاده در زايمان) مي توانند باعث كاهش انتقال شوند. اين انتقال مي تواند در طول بارداري و شيردهي نيز اتفاق بيافتد.

من باردار هستم ، آیا پزشک برای من آزمایش اچ.آی.وی درخواست می‌کند؟

در کشور ما انجام آزمایش برای تمام خانمهای باردار اجباری نیست و در اکثر مواقع پزشکان بدون اجازه شما آزمایش اچ.آی.وی را درخواست نمی‌کنند. بنابراین در مواردی که شما سوابقی از رفتارهای پرخطر خود یا همسرتان را به پزشک گفته باشید یا خود او در معاینه ابتلاء شما به اچ.آی.وی/ایدز را محتمل بداند با شما درباره انجام آزمایش اچ.آی.وی صحبت خواهد کرد.

فوائد انجام آزمایش اچ.آی.وی برای مادران باردار چیست؟

با دانستن وضعیت اچ.آی.وی شما و پزشکتان بهتر می‌توانید برای سلامت خود و جنین تصمیم گیری کنید و اگر مبتلا باشید بتوانید از یرایت بیماری به فرزندتان پیشگیری کنید. همچنین اقدامات مناسبی را انجام خواهید داد تا از سرایت به دیگران جلوگیری شود.

اگر با انجام آزمایش موافقت کنم چه خواهد شد؟

در این صورت پزشک باید قبل از آزمایش درباره نتایج و پی آمدهای دانستن وضعیت اچ.آی.وی به شما مشورت دهد چون ممکن است زندگی شما پس از آن دگرگون شود. اگر جواب آزمایش شما مثبت شود باید آزمایش دومی برای تأیید نتیجه انجام شود. پزشک در مورد بهترین راه های درمان به شما توصیه خواهد کرد. اگر نتیجه منفی باشد به شما در مورد راه های پیشگیری از اچ.آی.وی مشورت داده می‌شود.

اگر از انجام آزمایش خودداری کنم چه خواهد شد؟

اگر انجام آزمایش را نپذیرید پزشک به شما درباره راه های سرایت اچ.آی.وی و اهمیت پیشگیری از آن مشورت می‌دهد و توصیه خواهد کرد که برای برنامه ریزی صحیح درباره خود و فرزندتان آزمایش را انجام دهید.

آیا فرزندم را نیز آزمایش خواهند کرد؟

توصیه می‌شود تمام نوزادانی که از مادران اچ.آی.وی مثبت به دنیا می‌آیند آزمایش شوند. اما اگر وضعیت مادر نامشخص باشد بهتر است ابتدا آن را با آزمایش تعیین کنیم. معمولا بلافاصله پس از تولد و پس از ۶ هفته مصرف دارو از نوزادی که مادرش مبتلاء بوده است آزمایش به عمل می‌آورند.

آیا راهی برای جلوگیری از ابتلاء جنین مادران مبتلاء هست؟

بلی با استفاده از داروهای ضدویروسی می‌توان سلامت مادر را بهبود داد و به میزان زیادی از احتمال ابتلاء جنین کم کرد. توصیه می‌شود این مادران زایمان را به طریق سزارین انجام دهند تا احتمال سرایت به نوزاد کمتر شود. همچنین لازم است این مادران از دادن شیر خود به نوزاد پرهیز کنند.تعداد و نوع داروهای تجویزی ممکن است بر اساس مراحل حاملگی و شدت ابتلای مادر متفاوت باشد.

اگر زنی که مبتلاء است و داروهای ضد اچ.آی.وی می‌خورد باردار شود چه باید بکند؟

هرگز خودسرانه نباید داروهای ضد اچ.آی.وی را قطع کرد. اگر پزشک در سه ماه اول بارداری متوجه آن شود ممکن است از شما بخواهد داروهای خود را قطع کنید یا داروهای دیگری مصرف کنید تا احتمال ناهنجاریهای جنینی کم شود. اما پس از سه ماهگی ممکن است داروهای دیگری را به داروهای قبلی شما اضافه بکند تا خطر سرایت اچ.آی.وی به جنین کم شود.

آيا مادر اچ.آی.وی مثبت بايد به بارداري خود خاتمه دهد؟‌

گرفتن حق حیات جنین از نظر اخلاق پزشکی ممنوع است مگر موجب به خطر افتادن سلامت مادر یا جنین باشد. در مورد اچ.آی.وی با توجه به اینکه با داروهای موجود و پرهیز از شیردهی مادر مبتلاء می‌توان در بیش از ۷۰-۹۵ درصد از ابتلاء فرزند پیشگیری کرد لزومی به سقط جنین نیست. (به شرطی که مادر تحت درمان، حمایت و مراقب کافی در کلینیک بیماریهای رفتاری یا مراکز مشاوره مشابه باشد) پس از تولد در شش هفتگی و ۱۸ ماهگی آزمایش های اچ.آی.وی برای مشخص شدن وضعیت ابتلاء کودک انجام خواهد شد. در موارد استثنایی پس از تأیید پزشکی قانونی ممکن است اجازه ختم بارداری از راه سقط درمانی داده شود.

آیا مادران اچ.آی.وی مثبت می‌توانند به کودک خود شیر بدهند؟

اصولاً باید از این کار پرهیز شود. تحقيقات، خطر انتقال از شير مادر را حدود %۲۲-۱ برآورد مي‌كنند، و حدود %۳۰ در صورتيكه مادر حين شيردهي، مبتلا شده باشد.اگر زني از شير سينه اش استفاده نكند، به شيشة شير نياز دارد تا به كودك شير خشك دهد كه اين هزينة زيادي مي برد. علاوه بر آن، كودك اين زن بيشتر در معرض خطر مرگ، به علت اسهال و از دست دادن آب (كه همگي قوياً با استفاده از شير خشك و فقر مرتبط هستند) قرار مي گيرد تا ويروس HIV ، مگر اينكه او بتواند آب را بجوشاند يا استريليزه كند و امكانات مالي كافي در اختيار داشته باشد تا مطمئن شود كه ميزان كافي از شير خشك به كودك مي رسد.بسياري از زنان به علت ترس از بي آبرويي از شير ندادن به كودك پرهيز مي كنند و نيز اگر شير خشك تمام شود، ممكن است منجر به تغذية مخلوط كه به نظر مي رسد خطرسازترين عمل باشد، شود. به نظر مي رسد كه شروع زودهنگام تغذية مکمل مي تواند باعث التهاب رودة نوزاد و در نتيجه تسهيل انتقال HIV شود. بنابراین در موارد ناچاری تغذية انحصاري با شير مادر به مدت ۶ ماه (بدون اينكه حتي به كودك آب داده شود) و سپس از شير گرفتن آني و سريع كودك مفید است.آیا واكسنها آماده اند كه از راه برسند؟

تحقيق براي پيدا كردن واكسن HIV در ۱۰ سال گذشته دائماً در حال پيشرفت است. متأسفانه سرعت پيشرفت مجددي كه همه مردم بتوانند از آن سود ببرند نبوده است. حتي اگر تلاشها كنوني براي تسريع اقدامات و برنامه ها براي توليد واكسن موفقيت آميز باشند. شانس كمي است كه واكسيناسيون عليه HIV در مقياس وسيع تا پايان دهه در دسترس باشد.سازمان ملل در بیانیه خود خواهان موارد زیر برای مبارزه با ایدز شده است :تشويق افزايش سرمايه گذاري در تحقيق در مورد HIV و ايدز در سطح ملي، منطقه اي و بين المللي، علي الخصوص پيشبرد فنآوري هاي پيشگيري قابل اجرا و قابل انجام، مثل واكسيناسيون، ميكروب كش ها، و تشويق پيش بيني آمادگي برنامه هاي قانوني و تجاري براي تسهيل دسترسي به واكسن در هنگامي كه در دسترس قرار گيرد. (پاراگراف ۸۹ جلسه عمومي سازمان ملل راجع به HIV و ايدز ژوئن ۲۰۰۱ نيويورك.)چرا پيدا كردن واكسن HIV آنقدر مشكل است؟ سالانه ۴۰۰ تا ۵۰۰ ميليون دلار آمريكا صرف تحقيق روي واكسن HIV مي شود كه بيشتر آن صرف تحقيقات پايه مي گردد. موسساتي كه درگير تلاش جهاني براي توليد واكسن HIV هستند عبارتند از: (IAVI) موسسه بين المللي واكسن ايدز، موسسه كنترل پيشگيري بيماريهاي ايالات موسسه فرانسوي (ANRS) Agence Nationale depe cherbes surles IAA ، اتحاديه اروپا ( از طريق برنامه Eurovac) و شركتهاي مختلف فنآوري زيستي و دارويي. برنامه هيا كشوري واكسن AIDS در استراليا ، كانادا، ژاپن ، سوئد انگلستان، ايالات متحده آمريكا در حال انجامتد. كشورهاي با درآمد كم و متوسط (شامل برزيل، چين، كوبا هائيني، هند كينا، آفريقاي جنوبي، تايلند، ترينداد و توباكو و اوگاندا) نيز در برنامه هاي توليد واكسن و آزمايشات آن فعالانه در گيرند. WHO و UNAIDS فعالانه اين برنامه هاي كشوري واكسن AIDS را حمايت مي كنند.علي رغم تمام اين تلاشها، شكل خاص ويروس HIV پيدا كردن واكسن را مشكل و گران كرده، افتراق HIV از ساير بيماريهاي عفوني است كه ويروس مستقيماً به سلولهاي سفيد خون كه مجوز باش پاسخ ايمني بدن حمله مي كند و آنها را در كنترل عفونت پيشگيري بيماريها ناتوان مي سازد.واكسنهاي «معمول» بر پايه يك ميكرو ارگانسيم كامل (ويروس يا باكتري) كه كشته يا غير فعال شده قرار دارند كه در مورد ايدز كه مي تواند به عفونت منجر شود مطمئن نيستند. واكسنهاي آزمايشي HIV بنابراين شامل قسمتهايي از ويروس هستند، كه توليد واكسن را پيچيده تر مي كند.گوناگوني انواع HIV موجب پيچيدگي بيشتري است. گونه مختلف ويروس HIV شناخته شده در سراسر جهان توزيع دارد. محققين فعلاً نمي دانند كه آيا يك واكسن پوشش دهنده كلي امكان پذير است يا اينكه براي هر نوع واكسن ويژه لازم است. شايع ترين انواع HIV زير گونه هاي A و C هستند ، كه در مناطق مختلف آفريقا وجود دارد. اما اكثر واكنشهاي فعلي روي آن انجام مي شود تمامي ژنيتكي زير گونه B را پوشش مي دهند در كشورهاي پر درآمد غالب هستند.در آخر اينكه، واكسن HIV براي بخش خصوصي يك «سرمايه گذاري پر خطر و كم در آمد» است. تنها قسمتي بخاطر اين مسئله است كه بيشترين نياز بريا واكسن در بين كشورهاي كم درآمد است. يك مانع بزرگتر ـ لااقل در حال حاضر ـ دانش ناكافي از اينكه چگونه ويروس پاسخ طبيعي ايمني بدن را از بين مي برد و باالطبع دقيقاً پاسخ هاي ايمني خاصي كه براي پيشگيري و كنترل عفونت HIV لازمند ناشناخته است.در حال حرضر وضعیت تحقیقات در تولید واکسن در چه مرحله ای است؟توليد واكسن HIV يك پروسه سخت است. واكسنهاي آزمايشي ابتدا روي حيوانات تجربه مي شوند، بهترين كانديدها براي آزمايش روي انسان انتخاب مي شوند. آزمايش پس از آن روي داوطلبان سالم انجام مي شود. آزمايشات مرحله I زوي ۲۰ ـ ۴۰ داوطلب براي امتحان درست بودن واكسن در برانگيختن پاسخ اختصاصي ايمني HIV انجام مي شوند. آزمايشات مرحله II روي صدها داوطلب براي امتحان صحت و بررسي قدرت پاسخ ايمني انجام مي شوند. آزمايشات فاز III حدود ۴ سال طول مي كشند آزمايشات در اجتماع روي هزاران داوطلب را شامل مي شوند،‌كه گروهي از آنان واكسن دريافت مي كنند، در حاليه بقيه گروه كنترل هستند. اين آزمايشات ، در وراي پيچيگيهايي قانوني، علمي و اخلاقي حفاظت واكسن در برابر ايدز يا ايجاد ايدز با واكسن را بررسي مي كنند.نتايج تشريحي اولين آزمايشات فاز III روي يك منتخب روي gp۱۲۰ين خارجي HIV) در سال ۲۰۰۳ مشخص مي شوند. اولين كار آزمايي مرحله III روي ۵۴۰۰ داوطلب در ايالات متحده، كانادا و هلند از ۱۹۹۸ در جريان است و روي زير گونه B طراحي شده. دومين كار آزمايي مرحله III در ۱۹۹۹ در تايلند شروع شد و زيرگونه B و E كه در اين مناطق شايع است روي ۲۵۰۰ داوطلب انجام شد. برنامه ريزي براي شروع يك كارآزمايي فاز III ديگر در تايلند در سال ۲۰۰۳ انجام مي شود و واكسنهاي منتخب ديگري وارد كار آزمايي هاي فاز I و II مي شوند.در نايروبي در ژوئن ۲۰۰۰ دانشمندان دولتها و موسسات آفريقايي براي ايجاد يك واكسن آفريقايي گردهم آمدند. آنها مي خواهند حداقل يك كار آزمايي موثر تا سال ۲۰۰۷ داشته باشند.فراهم آوري واكسن: در حاليكه دسترسي به يك واكسن قابل مصرف سالها طول مي كشد. بحث نحوه اجراي آن زماني كه موجود آيد شروع شده است. معمولاً واكسنها هنگامي به كشورها متوسط و كم درآمد مي رسند كه هزينه هاي خود را در كشورهاي پر در آمد جبران كرده باشند. اين مسئله براي واكسن HIV كه نياز سرعت دسترسي و قابليت خريد دارد قابل قبول نيست. مكانيسم هاي كه دسترس به واكسن HIV را در كشور پرو كم درآمد به طور همزمان ممكن مي سازند خيلي قبل از توليد آن براي فراهم آوري براي افرادي كه به آن نياز دارند، لازم است.موسسات بين المللي واكسن ايدز و سايرين تغيير رويه هاي قابل توجهي در توليد، ثبت، قيمت گذاري، خريد و پخش نسبت به وضع فعلي پيشنهاد مي كنند. در ميان بقيه موارد احتياج به هماهنگ سازي مقررات كشوري و روش هاي بين المللي كه اجازه و مصرف واكسن را مديريت مي كنند. لازم است يك دغدغه مهم فنآوري،‌ ايجاد ظرفيت لازم توليد، حمايت آن با تخمين صحيح نياز به واكسن خاص است. بسياري از دغدغه هاي اطمينان از دسترس و قابل خريد بودن واكسنها مشابه آنهايي است كه مربوط به داروهاي ضد رترو ويروس بود. قيمتهاي متفاوت، و حمايت تجاري تقريباً كاملاً براي كشورهاي كم درآمد ضروريند. مشاوره تكنيكي و همكاري آژانسهاي بين المللي ضروري است. معماهاي سياسي نيز وجود دارند. از آنجا كه واكسيناسيون براي همه به سرعت قابل دسترسي نيست، سود و زيان ها براي مشخص ساختن محل تمركز اوليه بايد سنجيده شوند. سياستگذاران بايد تصميم نگيرد كه چه بكنند اگر واكسن اوليه كم اثر باشد يا اينكه عوارض جانبي قابل توجهي داشته باشند.WHO UNAIDS و IAVI در يك تحقيق براي تخمين نياز و مصرف احتمالي واكسنهاي پيشگيري براساس ۲ سناريو: يك واكسن كم / متوسط الاثر (تأثير ۳۰% يا ۵۰%) و يك واكسن موثر (۹۰% ـ ۸۰% تأثير) تشریک مساعي مي كنند. يك برنامه واكسيناسيون كه از واكسن كم / متوسط الاثر استفاده مي كند، نياز به مشاوره رفتار مثبت جدي دارد و نبايد اقدامات پيشگيري فعلي را بطئي كرد. و اينكه، زماني به نظر مي رسد كه بيشترين تأثير را داشته باشد كه واكسيناسيون در مردمي كه بيشتر در معرض HIV هستند انجام پذيرد. يك واكسن با تأثير بالا در قسمت بزرگتري از جامعه قابل توزيع است.اگرچه پيش بيني مصرف واكسن در نبود اطلاعات قيمت خود واكسن، نيازهاي توزيع ( مثل اينكه آيا واكشن به انبار سرد احتياج دارد، مصرف دهاني در مقابل مصرف تزريقي و غيره) مشكل است، مطالعه نتيجه گرفت كه مصرف احتمالي بسيار كمتر از نياز تخميني است. هم براي واكسنهاي متوسط / كم اثر و هم براي واكسنهاي با تأثير بالا.بدنامي منحصر به فرد HIVو ايدز مصرف واكسن را هنگامي كه در دسترس قرار گيرد تحت پوشش قرار مي دهند. تبعيضي كه جوامع در معرض عفونت ايدز در بر مي گيرد، جلوي مراجعه اشخاص براي واكسيناسيون مي گيرد. مخصوصاَ اگر برنامه ها تمركز روي افراد پر خطر براي ابتلا داشته باشند.هنگامي كه يك واكسن موثر HIV در دسترس قرار گيرد. جامعه جهاني و كشورهاي گرفتار تصميمات مهمي براي نحوه مصرف آن بايد اتخاذ كنند. سرمايه گذاري فوق العاده اي روي كنترل پيشگيري HIV و ايدز نياز خواهد بود.در نهايت اينكه اين سرمايه گذاري فوق العاده مي تواند منجر به بازگشت سرمايه بعد از چند سال در نتيجه كنترل همه گيري مي شود.


نوشته شده در تاريخ شنبه نوزدهم آذر 1390 توسط جعفر

بودجه و اعتبارات :

بودجه عبارت است از پيش بيني درآمدها و هزينه ها براي يک دوره مالي معين .بودجه توليد و فروش: اولين بودجه اي که هر موسسه تجاري اقدام به تهيه آن مي نمايد بودجه فروش مي باشد زيرا مبناي اصلي تهيه و تنظيم ساير بودجه هاست با پيش بيني مقدار فروش (متاثر از شرايط جغرافيايي ، فرهنگي ، اقتصادي ، وضعيت رقبا و ...) مقدار مورد نياز براي توليد محصول يا خدمات بدست مي آيد با پيش بيني مقدار توليد ، مقدار مواد مصرف شده ، دستمزد مستقيم و سربار پيش بيني مي شود با پيش بيني مواد مصرف شده با توجه به موجودي اول دوره و پيش بيني مقدار لازم براي پايان دوره ، مي توان مقدار خريد را پيش بيني کرد .بودجه نقدي : هدف از تنظيم بودجه نقدي تعيين ميزان وجه نقد با پيش بيني دريافتها و پرداختها طي دوره و مقدار مورد نياز براي پايان دوره مي باشد بطوريکه شرکت با کمبود نقدينگي يا تراکم بيش از نياز نقدينگي روبرو نشود .

بودجه قابل انعطاف : موسسات تجاري ( توليدي ، بازرگاني ، خدماتي ) بودجه هاي مورد نياز خود را ممکن است فقط با در نظر گرفتن ظرفيت عادي تهيه و تنظيم نمايند اين نوع بودجه ها ، بودجه ثابت ناميده مي شوند در اين نوع بودجه ها در صورت عدم تحقق ظرفيت توليد ، امکان مقايسه بودجه با عملکرد واقعي و محاسبه انحرافات مربوطه و تجزيه تحليل آنها به آساني ميسر نخواهد بود براي رفع اين مشکل توصيه مي شود موسسات بودجه تنظيمي خود را به جاي تهيه بر مبناي يک ظرفيت ، در ظرفيتهاي متفاوت تنظيم نمايند که به اين نوع بودجه بودجه قابل انعطاف گويند .

بودجه قابل انعطاف مي بايست حاوي هزينه هاي متغير و ثابت به تفکيک باشد و هزينه هاي نيمه متغير بايد با روشهاي خاص به ثابت و متغيير تفکيک شوند تا بتوان هزينه هاي واقعي را مقايسه و انحرافات مربوط را مقايسه و انحرافات مربوطه را محاسبه و مورد تجزيه و تحليل قرار داد .

بودجه سرمايه اي : طرح ريزي ، ارزيابي و کنترل مخارج سرمايه اي که بودجه بندي سرمايه اي ناميده مي شود عبارتست از فرايند طرح ريزي سرمايه گذاري مستمر ، تجديد سرمايه گذاري منابع واحد تجاري ، و هدايت و اعمال نظارت بر اينگونه سرماغيه گذاري ها و واضح است که اين سرمايه گذاري ها توسط بنگاه جهت کسب سود بوده و منافع آن بايد مشخص شود توجه داشته باشيم که اين مخارج سرمايه اي با هزينه هاي که در بودجه توليد و فروش پيش بيني مي شود متفاوت است .


واحد بودجه و اعتبارات :

اين واحد با هدف تهيه بودجه ، کنترل هزينه ها و درآمدهاي واقعي ، ارزيابي و تجزيه و تحليل آنها جهت برنامه ريزي مديريت فعاليت مي کند در اين واحد بودجه را به دو بخش جاري و سرمايه اي تقسيم نموده اند که مي توان گفت آنچه که به عنوان بودجه سرمايه اي طبقه بندي شده، عملا" از ديدگاه شرکت برق منطقه سرمايه اي محسوب مي شود نه شرکت توزيع برق مشهد ، از انجايي که شرکت توزيع برق مشهد بيشترين فعاليت خود را به عنوان پيمانکار برق منطقه انجام مي دهد بنا بر اين بودجه فروش عبارت است از انچه که برق منطقه از شرکت توزيع کار بخواهد اين محدوديت ها عملا" نحوه تنظيم بودجه با آنچه که بيان شد متفاوت مي سازد هر چند که بودجه در اينجا خيلي از نقشهاي بودجه در بازار رقابت ازاد و بنگاههاي صرفا" اقتصادي را ندارد با اين حال ابزار بسيار مهمي براي مديريت محسوب مي شود .

بودجه جاري بر اساس پيشنهاد واحدها و عملکرد گذشته و لحاظ تورم و نقدينگي و سياست هاي کلان مديريتي توسط دفتر برنامه ريزي تهيه مي شود براي تهيه بودجه سرمايه اي ابتدا در دفتر طرح و نظارت امور از اوايل برج 8 به بعد بر اساس نيازها و اولويت ها و با درخواست واحد بهره برداري و يا بر اساس گزارش 121 يا تقاضاي مردم و مطالعات انجام گرفته و ... انواع طرح هاي سرمايه اي

شامل توسعه و احداث ، روشنايي معابر ، اصلاح و بهينه سازي که در سال آينده بايد اجرا شود ، تهيه شده پس از تصويب مدير امور به دفتر طرح و نظارت و از آنجا به دفتر برنامه ريزي (بودجه و اعتبارات ) ارسال مي شود پس از برگذاري جلسه دفاعيه و تاييد مدير عامل بودجه پيشنهادي به برق منطقه خراسان ارسال مي شود برق منطقه با توجه به اعتبارات و ... آن را تعديل مي کند بودجه مصوب به امور مالي ابلاغ مي شود بودجه جاري در سيستم کنترل بودجه تعريف مي شود ، دفتر مهندسي بر اساس پروژه هاي مصوب ( پروژه هايي که براي آن اعتباردر نظر گرفته شده ) کتابچه نيازمندي کالا را تهيه و در اختيار واحد بازرگاني قرار مي دهد ، کتابچه اعتبارات سرمايه اي مصوب هر امور بر حسب رديف هاي مشخص در اختيار حسابداري تاسيسات جهت کنترل پروژه ها قرار مي گيرد .

پانچ قبوض

با دريافت گزارش کنتور نويسها در واحد درآمد و توسط رانير در واحد مالي 98 ثبت ذيل انجام مي گيرد :

بدهکاران ------------------

10 / درآمد عملياتي _ فروش برق خانگي ------------

20 / درآمد عملياتي _ فروش برق تجاري ------------

40 / درآمد عملياتي _ فروش برق صنعتي ------------

30 / درآمد عملياتي _ فروش برق کشاورزي -----------

بابت عوارض ------------------

تاخير قبوض/نگهداشت شبکه / آبونمان صدا و سيما------

مشترک با مراجعه به بانک وجه قبض برق مصرفي را پرداخت مي کند نامه رسان قبوض به همراه پرينت بانکي را روزانه از بانکها جمع آوري مي کند و به اين واحد تحويل مي دهد در اين واحد قبض ها اسکن شده و پانچ مي شود و مغايرت بانکي گرفته مي شود سپس بابت وجوه دريافتي از مشترک در واحد مالي 98 ثبت ذيل انجام مي گيرد:

بانک ---------------------------

بدهکاران -----------------------

بعضي از حسابهاي اصلي به شرح زير مي باشند:

حساب 101 اين حساب بابت اموال و تاسيسات در حال استفاده مي باشد .

حساب 108 مربوط به ذخيره استهلاک انباشته اموال و تاسيسات مي باشد .

حساب 153 اين حساب کار در جريان يعني همان پروژه هاي در دست اقدام مي باشد .

حساب 154 حساب موجودي کالاي تاسيسات و ساختماني يا به عبارتي حساب کالاي انبار مي باشد .

حساب 401 بابت ثبت هزينه هاي مالي و اداري و مشترکين از اين حساب استفاده مي شود

حساب 402 براي نگهداشت هزينه هاي تعميرات زميني و هوايي و گروههاي اجرايي بهره برداري بکار مي رود .

حساب 163 هزينه هاي پرسنل کارپردازي ، تدارکات و انبار را در خود جاي مي دهد

حساب 184 بابت هزينه هاي مرکز طرح و نظارت و حسابدار تاسيسات مي باشد .

مانده حساب 163و184 جذب ساير حسابها مي شود که سربار جذب شده مربوط به ترتيب در حساب 164 و 185 جمع مي شود . از اين حسابها استفاده ديگري نبايد بشود . براي جذب حساب 163 معمولا 3%کالاي مصرفي (خارج شده از انبار ) به حساب دستور کار قيد شده در حواله انبار منظور و حساب 164بستانکار مي شود و براي جذب حساب 184 معادل 10% هزينه عمليات هر پروژه به قيمت تمام شده پروژه (حساب 153 ) اضافه شده و حساب 185 بستانکار مي شود .

در صفحات بعد کدينگ کامل حسابهاي اصلي ، کدهاي محل و کدهاي طرح و برنامه را مي توانيد ملاحظه کنيد .

حسابدار مسئول :

تمام اسناد صادره قبل از اينکه براي مدير مالي ارسال شود توسط حسابدار مسئول کنترل مي شود معمولا" محاسبه کسورات و اضافات حقوق جهت ارسال به ستاد، و سند هاي مربوط به حسابداري قراردادها نيز توسط حسابدار مسئول تنظيم مي شود که ثبت هاي مربوط در ادامه ضمن توضيح گردش کار يک پروژه بيان خواهد شد .

سيستم تامين اعتبار و حسابدار هزينه :

براي خريد اموال غير اموالي و انباري متقاضي فرم درخواست خريد را پر نموده بعد از تاييد مسئول مربوطه فرم مذکور جهت درج دستور کار به حسابداري تاسيسات ارسال مي شود حسابدار تاسيسات دستور کار را پر نموده جهت تاميين اعتبار به حسابدار هزينه ارسال مي کند حسابدار هزينه بر حسب دستور کار مندرج و با استفاده از سيستم مکانيزه بخشي از اعتبار در نظر گرفته شده را به درخواست

مورد نظر تخصيص مي دهد و پس از درج رديف بودجه و تاييد ساير افراد ذيصلاح ، جهت خريد اقلام درخواستي فرم به کارپرداز تحويل داده مي شود ، عمليات فوق به " تامين اعتبار " مشهور بوده که به نظر مي رسد " تخصيص اعتبار" مناسب ترباشد . معمولا اکثر درخواست خريد ها ، قبل از تهيه و تحويل جنس به متقاضي وسط متقاضي قسمت دريافت تاييد مي شود که با اين مسئله برخورد نمي شود ، ضمنا" در صورتي که دستور کار اشتباه درج شده باشد هنگام تخصيص اعتبار ، سيستم بايد اشکال بگيرددر صورتي که در حال حاضر با دستور کار اشتباه تخصيص اعتبار ممکن مي باشد ولي بعدا" هنگام صدور سند ، سيستم به اين دستور کار ايراد مي گيرد . حسابدار هزينه مسئول صدور اسناد هزينه اي مختلف مانند سند هاي کارپردازي ، تنخواه اداري ، سند هاي درمان ، هزينه سوخت و متفرقه مي باشد خريد هاي بالاي يک ميليون ريال و يا خريد از اشخاصي که پيش بيني مي شود در

يک دوره سه ماهه بيشتر از يک ميليون ريال باشد ، در سيستم حسابداري خريد سند مي خورد در اين سيستم ريز اطلاعات خريد وارد مي شود بنابر اين تهيه گزارش خريد فصل که حد اکثر يکماه پس از پايان فصل بايد به حوزه آمار و اطلاعات دارايي ارسال شود به سهولت امکان پذير مي شود .

ضمنا" خريدهاي انباري جهت قيمت دار شدن شماره رسيد انبار نيز در سيستم خريد بايد ثبت گردد البته تا قبل از بيست و پنجم هر ماه زيرا بعد از آن حسابداري انبار اقدام به تهيه گردش انبار نموده قيمت دار شدن رسيد بعد از تهيه گردش انبار باعث اختلاف در اين گردش مي شود معمولا بايگاني اسناد و ارسال اصل اسناد به ستاد نيز توسط حسابدار هزينه صورت مي گيرد .

در صفحات بعد جدول کدهاي بودجه نشان داده شده اشت .

حسابدار جمع دار و سيستم اموال :

در ستاد اموال هر امور در سيستم اموال به حساب جمعدار آن امور گذاشته شده ووي در برابر آن اموال مسئول مي باشد ، در هر امور نيز جمعدار ، اموال تحويلي به هر شخص را با محل استقرار آن ثبت مي نمايد هر گونه جابه جايي بايد با حضور جمعدار صورت مجلس شده و او نيز بايد اين جابه جايي را در سيستم اموال ثبت نمايد از لحاظ اينکه مانده حساب اموال طبق دفاتر شرکت در اين سيستم به طور کامل ، بر حسب شماره اموال و محل استقرار ريز شده است کاربزرگي انجام گرفته ، اما اين سيستم متاسفانه جابه جايي اموال در مراکز مختلف و در نتيجه تخصيص هزينه استهلاک به نسبت کارکرد در هر واحد را نمي تواند جوابگو باشد .

به اين معني که به هنگام ثبت يک تحويل و تحول به جاي آنکه يک سند انتقالي که در بر گيرنده تاريخ انتقال، محل استقرار(مرکز هزينه ) و نام شخص تحويل گيرنده جديد را ثبت کنيم اطلاعات قبلي را پاک کرده و اطلاعات جديد را رونويسي مي کنيم .

ضمنا" درخواست خريد کالاي اموالي يا درخواست برگشت کالاي برگشت کالاي اموالي به انبار توسط حسابدار جمعدار در سيستم مديريت کالا صورت مي گيرد .

هنگام برگشت اموال به انبار اموال مستعمل به نرخ 70% بهاي استاندارد و اموال اسقاطي به نرخ 2% قيمت استاندارد ارزش گذاري شده وبا قيمت فوق ثبت ذيل در سند سند گردش انبار سند مي خورد :

154 / موجودي کالا ------------------------

101 / دارايي در حال استفاده ------------------

در پايان سال بابت مدت استفاده شده استهلاک محاسبه مي شود و ثبت زير سند مي

خورد :

403 /هزينه استهلاک ----------------------

108 / ذخيره استهلاک انباشته -------------------

و سپس مانده حسابهاي 101و108 مربوط به اموال کنار گذاشته شده فوق به 100/163 بسته مي شود .

روش قيمت گذاري فوق جالب به نظر نمي رسد بهتر است به اقل ارزش دفتري يا قيمت بازار قيمت گذاري شود ضمنا به حساب موجودي گذاشتن اموال کنار گذاشته شده باعث مي شود براي آن استهلاک نيز محاسبه نشود در حاليکه طبق قانون ماليات ها ي مستقيم ايران براي اين دارايي ها که در طول سال مالي به کار گرفته نمي شوند هزينه استهلاکي معادل 30% وضعيتي که به کار مي روند ، ميتوان محاسبه کرد ضمنا" طبق اين قانون استهلاک دارايي از تاريخ آماده براي بهره برداري محاسبه مي شود البته در مواردي که در خلال ماه آماده بهره برداري باشد

آن ماه در محاسبه استهلاک مد نظر قرار نمي گيرد . در توزيع برق مشهد به طبقات ذيل تقسيم مي شود :

کد طبقه

شرح طبقه

کد بودجه

کد محل

پلاک اموال

انديکس

کد فرعي

کد اصلي

1

لوازم و اثاثه اداري

391

101

2

وسائط نقليه

392

101

3

لوازم و تجهيزات انبار

393

101

4

تجهيزات کارگاهها

394

101

5

لوازم آزمايشگاهي

395

101

6

ماشين آلات

396

101

7

وسائل مخابراتي

397

101

8

لوازم متفرقه

398

101

9

حق الامتياز

301

101

10

ساختمان

390

101

13

زمين

389

101

حسابداري تاسيسات و گردش يک پروژه :

براي کنترل بيشتر تمام دستور کارهاي درخواست هاي دست نويس و درخواست هايي که از طريق سيستم مديريت کالا صورت مي گيرد توسط حسابدار تاسيسات کنترل و تاييد مي شود در ادامه من توضيح گردش کار يک پروژه نقش حسابدار تاسيسات بيشتر مشخص شده است . اداره بازرگاني بر اساس کتابچه نيازمندي کالا طبق آيين نامه معاملات اقدام به تهيه کالاي پروژه نموده و در اختيار انبار قرار مي دهد ؛ دفاتر طرح و نظارت امور ، پروژه هاي پيش بيني شده را آماده و پس از تاييد مدير امور اين پروژه ها به حسابداري تاسيسات جهت تخصيص اعتبار ارسال مي شود اينکه چرا در پروژه هايي کالاي برگشتي دارد ارزش کالاي برگشتي در اعتبار تخصيص داده شده موثر است؟

با تخصيص اعتبار اين شماره مالي به پروژه اختصاص مي يابد و پيمانکار براي پروژه انتخاب مي شود

اما هر پروژه به رديف هاي زير تقسيم شده است :

رديف200 : ساختمان پست

رديف 300 : پست 20 کيلو ولت هوايي

رديف 301 : پست 20کيلو ولت زميني

رديف 400 : شبکه 20 کيلو ولت هوايي

رديف 500 : شبکه فشار ضعيف هوايي

رديف 590 : لوازم اندازه گيري و تجهيزات مشترکين

رديف 600 : شبکه يا کانال زميني

رديف 700 : شبکه فشار ضعيف زميني

رديف 900 :شبکه روشنايي معابر زميني

رديف 901 : شبکه روستايي معابر هوايي

رديف 902 : ساختمان عمومي و اداري

پروژهها بر اساس طرح ها و برنامه ها نيز طبقه بندي مي شوند :

طرح(3) طرح نوسازي _طرح(4)روستايي _ طرح(5) استهلاکي _ طرح(6) اصلاح و بهينه سازي _ طرح (7) نيرو رساني _ طرح (8 ) توسعه روستايي _ برنامه (6) زميني _ برنامه (7) هوايي

هنگامي که در امور طبق آيين نامه معاملات ، پيمانکار بابت انجام کار مورد نظر انتخاب شد با وي قراردادبسته مي شود ، در قراردادهايي که شرکت توزيع خود ، بصورت پيماني براي برق منطقه انجام مي دهد ذکر شماره آن قرارداد جهت پيگيري مسائل بيمه و ... در قرارداد جديد ضروري است .

معمولا قرارداد در چهار نسخه تنظيم مي شود يک نسخه براي تامين اجتماعي جهت استعلام حق بيمه قرارداد، يک نسخه براي پيمانکار و يک نسخه براي شرکت تنظيم ميشود هنگامي که پيمانکار نسخ دارايي و تامين اجتماعي را به سازمانهاي مربوط تحويل و رسيد آنرا همراه 5% مبلغ کل قرارداد بصورت نقدي يا ضمانت نامه جهت حسن انجام کار تحويل حسابداري داد ، نسخه قرارداد پيمانکار به وي تحويل مي شود ، در صورتيکه پيمانکار شخصيت جديدي باشد ابتدا به ستاد اعلام شده تا براي وي در سيستم انديکس تعريف شود ، قراردادهاي جاري در اين موقع تامين اعتبار شده ، مشخصات قرارداد در سيستم قراردادها ثبت مي شود ، در قراردادهاي پروژه اي در صورتيکه کالا با شرکت باشد پيمانکار به ناظر مراجعه و ناظر با توجه به کالاي مورد نياز پروژه براي تحويل به پيمانکار درخواست کالا نموده اين درخواست به کارتابل حسابدار تاسيسات رفته ، پس از کنترل توسط

حسابدار از جهت اينکه ايا آن کالا در پروژه ديده شده و بر عهده شرکت مي باشد و آيا قبلا به پيمانکار تحويل نشده است .

پس از تاييد به کارتابل مدير امور رفته ، مدير امور امور گزارش موجودي انبار را در اختيار دارد در صورت وجود و با توجه به اولويت ها ، مدير امور درخواستها را تاييد کرده در خواست دوباره به کارتابل حسابدار تاسيسات وارد مي شود ، حسابدار تاسيسات حواله انبار را صادر و به پيمانکار داده ، پيمانکار با مراجعه به انبار جنس در خواستي را تحويل مي گيرد ، (البته بعضي کالاها براي امورها سهميه بندي شده که مدير پشتيباني يا ساير قسمت ها ي مسئول نيز درخواست را بايد تاييد کنند ) يک گزارش اساسي که براي حسابدار تاسيسات مفيد مي باشد .

گزارش مجموعه حواله هاي صادره بابت يک پروژه خاص مي باشد هر چند که گزارش مجموع خروجي ها ي انبار بابت يک پروژه هم اکنون تهيه مي شود اما بعضي حواله ها ممکن است به انبار ارائه نشده باشد ، که در حال حاضر حسابدار مجموع حواله ها را دستي حساب مي کند ، ضمنا با توجه به اينکه کالاي پروژه درسيستم طرح و نظارت موجود مي باشد کنترل درخواست با کالاي پروژه نيز مي تواند مکانيزه شود . اگر ناظر درخواست کالا بيش از آنچه که قبلا پيش بيني شده بنمايد ، بايد ابتدا متمم تهيه کند ، براي تحويل کالاي جمع آوري شده از خط و يا عودت کالا توسط پيمانکار به انبار نيز سيکل فوق بايد اجرا شود هنگامي که پروژه تکميل شد پيمانکار آنرا صورت وضعيت قطعي نموده ، اين صورت وضعيت بايد به امضاي پيمانکار ، ناظر پروژه ، نماينده بهره برداري و حسابدار تاسيسات برسد ، حسابدار تاسيسات کالاهاي مصرف شده از پيمانکار را دقيق همراه با محل مصرف (تيربه تير) از وي خواسته و خود اقدام به بازديد و شمارش مي کند تا اندازهاي که صحت آن برايش مسجل شودحسابدار تاسيسات مسئول کنترل مقداري کالاي مصرفي شده در پروژه بوده براي هر پروژه پرونده اي تهيه کرده و کاربرگ حسابرسي مقداري کالا را بر اساس اطلاعات جمع آموري کرده پر مي نمايد يک حسابدار تاسيسات در اين مورد دو کار بايد انجام دهد اولا کالاي مصرفي در پروژه نبايد بيشتر از کالايي که براي پروژه تامين اعتبار شده باشد، در صورت افزايش نياز به متمم و تخصيص اعتبار به اندازه افزايش مي باشد . دوما" کالاي بکار رفته در پروژه را با کالاي تحويل شده مقايسه مي کند در صورتي که پيمانکار کالا طلبکار شود براي وي حواله صادر مي شود و در صورتي که کالا بدهکارباشد بايد آنرا به انبار تحويل دهد ، در غير اينصورت دو برابر قيمت کالا بر اساس فهرست بها از مبلغ صورت وي کسر مي شود پس از انجام کارهاي فوق به پرونده پروژه فرم 101 الصاق شده به حسابداري تاسيسات ستاد جهت بررسي نهايي و بستن انديکس پروژه ارسال مي شود که پس از امضا فرم فوق به دفتر فني جهت تحويل پروژه به برق منطقه ابلاغ مي شود اما در امور صورت وضعيت پيمانکار بر اساس قيمت توافقي در قرار داد ريالي مي شود به هنگام ثبت هر صورت وضعيت از آن 5% حسن انجام کار ، 5% ماليات ، و حق بيمه طبق استعلام دريافتي از سازمان تامين اجتماعي کسر مي شود معمولا قرار دادهايي که کار توسط پيمانکار به تنهايي انجام گيرد . از شمول قانون تامين اجتماعي خارج بوده . براي قرار دادهايي که مبلغ پيمان شامل کالا بعلاوه عمليات هر دو باشد حق بيمه 7% مبلغ کل پيمان بعلاوه 1.9% آن مي باشد ، براي قراردادهايي که فقط شامل عمليات (دستمزد ) مي باشد حق بيمه آن 15% بعلاوه 1.9% مبلغ بدست آمده مي باشد براي کارهايي که به کمک ماشين انجام مي شود مبلغ فوق فرق مي کند به هر حال همانطور که در اين شرکت رعايت مي شود استعلام از تامين اجتماعي حتي براي قراردادهاي خارج از شمول بهترين راه حل براي جلوگيري از سوء تعبير و ايرادهاي آتي توسط حسابرسان تامين اجتماعي با توجه به سوابق آن سازمان مي باشد مبلغ کل قرار داد تا 25% مبلغ اوليه مي تواند تلورانس داشته باشد و بيشتر از آن به اخذ مجدد مجوز هاي مربوط نياز دارد ، حق بيمه و ماليات مکسوره از صورت وضعيت ها حد اکثر ظرف يک ماه از تاريخ صدور سند بايد پرداخت شود در غير اينصورت مشمول جريمه مي شود در شرکت معمولا همراه با سند صورت وضعيت ، چک بيمه و دارايي آماده شده و به پيمانکار جهت پرداخت به سازمانها ي مربوط تحويل مي شود . گاهي اوقات پيمانکاردر تحويل به موقع چک ها کوتاهي کرده اما پرينت حساب بيمه يا دارايي اين مطلب را نشان نمي دهد زيرا مبناي بدهکار شده اين حسابها تاريخ صدور چک نه تحويل آن به سازمان مي باشد ، به خصوص براي حساب دارايي که پيمانکار موظف به ارائه مفاصا نيست اين مساله بعدا" خود را نشان مي دهد براي رفع اين مشکل بايد يک حساب موقت را بدهکار و با دريافت رسيد از سازمان هاي مربوط به تاريخ رسيد ، سازمان مربوطه را بدهکار و حساب موقت را بستانکار نمود تا اگر تاخيري از اين بابت اتفاق افتاد ه براي شرکت روشن ، مقصر مشخص و بتوان خسارت وارده را جبران نمود. پايان قرارداد نيز بايد به بيمه و دارايي اعلام شود و در سيستم قراردادها نيز اطلاعات خواسته شده وارد شود با معرفي پيمانکار به تامين اجتماعي جهت اخذ مفاصا پيمانکار موظف است با آن سازمان تسويه کرده و برگه مفاصا حساب را به شرکت ارائه کند در غير اينصورت با درخواست تامين اجتماعي شرکت موظف است از مبلغ آخرين صورت وضعيت و سپرده حسن انجام قرارداد آنرا جبران نمايد ضمنا سپرده حسن انجام قرارداد نزد شرکت تا مدتي بعد از پايان قرارداد باقي مي ماند که اين مدت براي پروژه ها معمولا شش ماه مي باشد .

ثبت هاي مربوط به انتخاب پيمانکار و اجراي پروژه به شرح ذيل مي باشند :

1- فروش اسناد شرکت در مناقصه :

بانک -----------------------

ساير درآمد ها --------------------------

2- دريافت سپرده يا ضمانت نامه شرکت در مناقصه دريافت سپرده:

بانک -----------------------

حسابهاي پرداختني -----------------------

دريافت ضمانت نامه ثبتي ندارد .

3- اعلام برنده و آزاد سازي سپرده يا عودت ضمانت نامه

حسابهاي دريافتني -----------------

بانک ------------------------

4- دريافت سپرده يا ضمانت نامه حسن آنجام قرارداد از پيمانکار برنده :

بانک -------------------------

حسابهاي پرداختني ----------------------------

يا

حسابهاي انتظامي ----------------------

طرف حسابهاي انتظامي -----------------------

5- تاييد صورت وضعيت توسط پيمانکار و ناظر و الصاق فرم 101 توسط

حسابدار تاسيسات :

کاردرجريان برنامه _طرح /محل اجرا/شماره پرونده/انديکس پيمانکار/رديف

پروژه

ماليات(5%) --------------------

بيمه --------------------

حسن انجام کار (5%) -----------

حسابهاي پرداختني (الباقي) -------

6- ارسال صورت وضعيت به برق منطقه

پروژه هاي مختلف که اجرا مي شوند چنانکه قبلا بيان شد به رديف ها و طرح هاي مختلف تقسيم مي شوند ، هنگامي که يک پروژه تکميل و آماده تحويل به برق منطقه مي شود .

صورت وضعيت آن توسط قسمت مربوطه تنظيم مي شود صورت وضعيت قرارداد مربوط به بهره برداري توسط معاونت بهره برداري و ديسپاچينگ ، صورت وضعيت مشترکين توسط دفتر نظارت بر خدمات مشترکين و فروش ، صورتوضعيت مربوط به چاههاي کشاورزي توسط مجري طرح برقي کردن چاهها وصورت وضعيت مربوط به قراردادهاي توسعه و نوسازي و اصلاح و بهينه سازي توسط دفتر مهندسي طراحي و نظارت آماده مي شود (بعضي از واحدهاي فوق اکنون فعال نيستند ) هنگام ارسال اين صورت وضعيت ها به برق منطقه بر حسب نوع قرارداد (از کد طرح هر پروژه مشخص مي شود ) صورت وضعيت هاي طبقه بندي و با معين مربوط سند مي خورد حساب معين 141 براي قراردادهاي بهره برداري ، حساب 142 براي قرارداد مشترکين ، حساب 143 قرارداد توسعه و نوسازي (شامل روشنايي معابر) ، حساب 144 قرارداد توسعه روستايي ، حساب 145 قرارداد اصلاح و بهينه سازي (اين قرارداد مربوط به طرح 7 يعني خود ياري بوده و از انجائيکه وجه آن مستقيما" از متقاضي پروژه دريافت مي شود براي برق منطقه صورت وضعيت نمي شود ) ، حساب 146 قرارداد بهينه سازي مصرف انرژي ، حساب 147 قرارداد نيرو رساني ، حساب 148 قرارداد چاههاي کشاورزي، حساب 149 قرارداد طراحي و نظارت که قرارداد طراحي و نظارت جداگانه صورت وضعيت نمي شود

بلکه معادل 5 % هر صورت وضعيت که مربوط به برق منطقه مي باشد به جز صورت وضعيت قراردادها ي 141 و142 پس از تاييد به حساب 149/255 گذاشته مي شود .

با ارسال صورت وضعيت به برق منطقه ثبت ذيل صادر مي شود :

حساب انتظامي --------/10010/معين قرارداد/199

طرف حساب انتظامي --------10010/معين قرارداد/ 299

7- تاييد صورت وضعيت توسط دفتر فني طرح و نظارت برق منطقه :

اگر صورت وضعيت مربوط يه پروژه هاي توسعه و نوسازي يا اصلاح و بهينه سازي باشد بعد از حساب 255 از رديف پروژه و درآخر دستور کار کد طرح و برنامه آن قيد مي شود در غير اينصورت شماره قرارداد بعد از حساب 255 ثبت مي شود .

طرف ح انتظامي -------/10010/ معين قرارداد / 299

بدهکاران --------/ 10010/ معين قرارداد /145

حسابهاي انتظامي ----------/10010/معين قرارداد /299

صورت وضعيت تاييد شده ----/10010/ معين قرارداد/255

8- صدور سند توسط قسمت مالي برق منطقه و محاسبه کسورات

پيش دريافت ------------/10010/معين قرارداد / 250

دارايي -----------------------------/111 /145

بيمه ------------------------------/122/145

حسن انجام کار ----------------------------/012 / 145

بدهکاران ---------------/10010/معين قرارداد / 145

حسابدار درآمد :

با توجه به اينکه بيشتر مشتري ها و مشترکين شرکت با حسابدار درآمد سرو کار دارند جهت رفاه حال ايشان حسابدار درآمد در امور مشترکين مستقر شده و با مسئول امور مشترکين نيز ، بايد هماهنگ باشد .

حسابدار درآمد مسئول ثبت اسناد مرتبط با وجوه دريافتني از بابت وصل مجدد ،تبديل نام ، خسارت و... مي باشد . واحد مالي 98 مربوط به برق منطقه مي باشد وجوه دريافتي بابت حق انشعاب در اين سيستم سند مي خورد اما ساير موارد در سيستم مالي شرکت منعکس مي شود . بعضي از سند هاي مرتبط با درآمد به شرح ذيل مي باشد :

فروش حق انشعاب به مشتري به صورت نقد و اقساط :

اين سند متعلق به واحد مالي 98 مي باشد که بابت وجوه دريافتي از اين بابت در بانک ملي هر امور حسابي مخصوص باز شده که متقاضي وجه خود را به آن حساب واريز مي نمايد مانده اين حسابها هر ده روز به حساب 97666 منتقل مي شود .

بانک ---------------------------------------------/001/131

بدهکاران (در صورت فروش اقساطي )--------------/500/142

تکفاز 011

درآمد فروش انشعاب کيلوواتي031

سه فاز 041 /271

انشعاب موقت 081

تبديل آمپراژ 071

ولتاژ اوليه 061

کارمزد تقسيط (در صورت فروش اقساطي ---/419/400

دريافت از مشتري بابت لوازم اندازه گيري و ترانس و...:

طبق روش قديم در بانک ملي هر امور حساب مخصوصي بابت اين وجوه به نام شرکت توزيع افتتاح شده که متقاضي وجه خود را به آن حساب واريز مي نمايد مانده اين حساب هر 10روز به حساب 1444 شرکت توزيع در بانک ملي ستاد منتقل مي شود و امور حق برداشت از آن حساب را ندارند .

بانک --------------------------------/001 /131

پيش دريافت ------/ لوازم اندازه گيري 590/252

پيش دريافت ------/ ترانسفورماتورهوايي300/252

پيش دريافت -------/ترانسفورماتور زميني301/252

پيش دريافت -------/اشتباه واريزي 022/252

انتقال وجوه به حوزه ستادي با استفاده از حساب رابط

حساب رابط --------------------/083/.298

بانک ------------------------/001/131

دريافت از مشترک بابت هزينه وصل يا درآمد متفرقه

بانک --------------------------------/001/131

هزينه وصل 04/-----------------------/400

متفرقه 05/-----------------------/400

وصول خسارت 92/---------------------/421

در بانک ملي هر امور حساب مخصوصي بابت وجوه فوق به نام شرکت توزيع افتتاح شده که مشترک وجه خود را به آن حساب واريز مي نمايد مانده اين حساب نيز هر 10 روز به حساب 1401 شرکت توزيع در بانک ملي ستاد منتقل مي شود .

لغو اشتراک و جمع آوري لوازم اندازه گيري :

در صورتي که مشترک خواهان لغو اشتراک باشد به واحد مشترکين امور منطقه مربوطه مراجعه و فرم مخصوص را پر مي نمايد بابت لغو حق انشعاب 50% نرخ روز حق انشعاب پس از کسر بدهي مشترک از بابت برق مصرفي و... به مشترک پرداخت مي شود بابت لوازم اندازه گيري جمع آوري شده وجهي به مشترک پرداخت نمي شود مگر اينکه مشترک انشعاب موقت داشته باشد که در اينصورت پس از کسر مبلغي بابت استهلاک لوازم (به ازاء هر سال استفاده 10% مبلغ فيش واريزي کسر مي شود ) الباقي وجه به مشترک پرداخت مي شود به ازا مبلغ بابت لغو اشتراک ، در واحد مالي 98 از حساب فروش انشعاب سال جاري کسر و پس از کسر بدهي مشترک الباقي را به حساب بستانکاري شخص منظور مي نمايند :

درآمد فروش انشعاب --------------------/271

بدهکاري مشترک ------------------/142

سال ايجاد / --انديکس شخص /------/242

پرداخت بستانکاري از بابت حساب فوق بر عهده شرکت توزيع بوده و هنگامي که

شرکت توزيع وجه آنرا به مشترک پرداخت کرد در واحد 98 سند زير صادر مي

شود :

بستانکاري مشترک --------------------/242

رابط برق منطقه با توزيع مشهد ---------------

در امور در صورت انصراف متقاضي يا بابت لوازم اندازه گيري جمع آوري شده از

بابت انشعاب موقت و بابت لغو امتياز انشعاب با پرداخت وجه آن به مشترک ثبت

زير صادر مي شود :

پيش دريافت لوازم اندازه گيري -----------------------/252

بدهي برق منطقه بابت پرداختي به مشترک 11120/022/143

موجودي بانک ---------------------------/131

با دريافت وجه فوق از برق منطقه توسط ستاد در امور ثبت زير صادر مي شود :

رابط امور با ستاد -----------------/298

حساب برق منطقه ----------/11120/022/143

ودر ستاد حساب بانک بدهکار و رابط ستاد با امور بستانکار مي شود .

در ستاد با دريافت اعلاميه بانکي (ذکر شده در بخش فروش ) حسابهاي بانکي مربوط بدهکار و حساب رابط امور بستانکار مي شود ، معمولا 100%درآمدهاي متفرقه بعلاوه 25%پيش دريافت لوازم نيرورساني به عنوان تنخواه در اختيار امور قرار مي گيرد و35%حساب فوق به شرکت کنتورسازي و40%باقيمانده به اداره بازرگاني شرکت پرداخت مي شود .

در روش جديد مشترک در تمام بانک هاي ملي سطح شهر مي تواند وجوه خود را پرداخت نمايد و بانکها روزانه وجوه دريافتي از بابت نيرو رساني را به حساب 1413 نزد ستاد حواله نموده فيش هاي دريافتي از مشتري را پيوست مي نمايد در ستاد فيش ها به تفکيک امور سند مي خورد جاري 1413 ستاد بدهکار و روابط امور مربوط بستانکار مي شود . اين روش اشکالاتي به وجود آورده است از جمله اينکه تفکيک وجوه واريز شده به حساب 1413 ستاد بر حسب امورها ي مختلف کار دشواري است هر چند که فيش هاي واريزي مشتري ها پيوست وجوه حواله شده به حساب فوق بوده و فيشهاي امورهاي مختلف در آينده با رنگهاي متفاوت مشخص خواهد بود اما جمع آوري کامل اين فيش ها کار دشواري است ضمنا ممکن است بانکها به موقع دريافتي خود را به حساب 1413 حواله ننمايند و يا اشتباه حواله نمايند با توجه به اينکه مشتري به ستاد مراجه اي ندارد مغايرت گيري اين حسابها نياز به همکاري بانک ، مشتري ، حسابدار درآمد امور و حسابداري تاسيسات ستاد دارد . مي دانيم هدف از تغيير روش رفاه حال مشتري بوده يعني مشتري محدود به بانک مخصوص هر امور نباشد و بتواند فيش هاي خود را در هر يک از بانکهاي ملي سطح شهر پرداخت نمايد براي اينکه هم موضوع فوق رعايت شود و هم مشکلاتي که عنوان شد پيش نيايد در صورت توافق با بانک با مراجعه مشتري به هر بانک ملي ، وجه مورد نظر دريافت و مستقيما به جاري امور مربوطه حواله شود و اگر براي امور حساب سيبا افتتاح شود ، بحث حواله کردن در شعبي که حساب سيبا دارند مرتفع ولي ساير شعب بايد پول دريافتي را به حساب سيباي امور مربوطه حواله نمايند ساير مراحل مانند روش قديم مي باشد . شايد به نظر برسد که تعدد حسابها جهت حواله نمودن فيشها براي بانک ها زحمت اضافي ايجاد نمايد ولي آمار يک ماه گذشته نشان مي دهد که امکان مراجعه مشتري مربوط به امورهاي مختلف يک بانک در يک روز در حد صفر بوده يعني وجوه دريافتي روزانه هر بانک مربوط به امور برق محدوده همان بانک مي باشد به نظر مي رسد که به توافق رسيدن بابانکها جهت انجام اينکار کم هزينه تر باشد . ضمنا بهتر است فرمت فيشهاي جاري 1413 با فيشهاي جاري 95017 تفاوت داشته باشد تا بانکها هنگام حواله نمودن وجوه دريافتي طي فيشهاي فوق را اشتباها به يک حساب حواله ننمايند ، اشتباهي که هم اکنون ماهانه چندين بار به خاطر عدم دقت بانک اتفاق مي افتد .

در صفحه بعد کدهاي مورد عمل در حسابهاي درآمد مشخص شده اند .

دايره حقوق و دستمزد :

اين دايره مسئول تهيه و تنظيم ليست بانک جهت پرداخت حقوق کارکنان ، ليست حقوق و دستمزد جهت پيوست سند هزينه حقوق و ارائه به دارايي با ليست مجزاي ماليات مکسوره ، ليست بيمه جهت ارائه به بيمه ، تهيه و تنظيم ليست پرداخت هاي خارج از حقوق (مانند : پاداش ها ، بهره وري و... که جهت عدم تعلق ماليات در قالب مزاياي غير نقدي مانند : شارژ کارت ثمين صورت مي گيرد ) تهيه ليست پرداخت به کارکنان روزمزد و... مي باشد .

مراحل تهيه ليست حقوق و دستمزد به شرح زير مي باشد :

1- ابتدا گزارش کارکرد ماهيانه کارکنان از سيستم تايم کارت توسط مسئول

پرسنلي واحدها تهيه و پس از تاييد مدير امور واحد به حوزه ستادي ارسال مي گردد گزارشات ارسالي پس از تاييد مدير عامل و کنترل امور اداري به امور مالي ارسال مي شود ضمنا" در صورت انجام ماموريت ، گزارش آن نيز همراه با گزارش کارکرد جهت پرداخت در ليست حقوق ارسال مي شود .

2- گزارشات دريافتي از امور اداري به صورت پرينت و نيز ديسکت اطلاعاتمي باشد اين ديسکت حاوي آخرين تغييرات در احکام پرسنل ، و نيز احکام پرسنل جديد مي باشد که دايره حقوق اطلاعات ديسکت را با پرينت کارکرد و نسخه احکام جديد چک کرده در صورت عدم مغايرت فايلهاي مربوطه در سيستم حقوق و دستمزد کپي مي شود .

3- ورود اطلاعات اضافات و کسورات پرسنل شامل اضافات حقوق ، کسورات مانند اقساط وام همه ماهه توسط حسابداري واحدها در فرم هاي مخصوص تکميل و همراه مدارک مثبته به ستاد ارسال مي شود که پس از تاييد مميز جهت اعمال به اين واحد ارسال مي شود

4- پس از اينکه اطلاعات اوليه وارد شد اقدام به تهيه گزارشات مورد نياز نموده سپس به طور رندمي اقدام به کنترل و محاسبه موازي نموده پس از اطمينان از صحت محاسبات گزارشات نهايي مي شود با توجه به اينکه مراکز هزينه حقوق هر شخص در سيستم مشخص است فايل سند حقوق نيز توسط سيستم آماده مي شود .

از اشکالات برنامه حقوق و دستمزد تحت الراس بودن و ضريب امنيتي پايين و باز بودن برنامه مي توان نام برد به طوريکه امکان تغيير خواسته يا نا خواسته توسط کاربر در اطلاعات پايه وجود دارد . ضمنا" اطلاعات به طور مستقيم از تايم کارت توسط برنامه اخذ نمي شود در حالي که برنامه هاي امروزي اين مزيت را داشته و امکان دستبرد در کارکرد پرسنل وجود ندارد . ضمنا" در اين سيستم پرسنل به نظامهايي از قبيل کارمندي و کارگري و ... تقسيم شده است هم اکنون کارگر و کارمند هر دو تحت بيمه بازنشستگي تامين اجتماعي قرار داشته و قرارداد موقت دارند با اين حال براي کارمندان حق بيمه بيکاري سهم کارفرما پرداخت نمي شود .

در ادامه بعضي از قوانين اداره کار ، سازمان تامين اجتماعي ، دارايي و آيين نامه هاي شرکت مرتبط با نحوه محاسبه هزينه حقوق و دستمزد بيان مي شود .

دانستنيهاي محاسبات حقوق و مزايا :

حداقل دستمزد روزانه سال 83 مبلغ 35534 ريال

حقوق مبنا عبارت از مجموع حقوق پايه ، حق سرپرستي ، حق تخصص و تفاوت تطبيق مي باشد .

حق اولاد ماهانه به ازاي هر فرزند تا سقف دو فرزند سه برابر حداقل دستمزد روزانه مي باشد حق اولاد به نسبت کارکرد پرداخت مي شود اما براي ماههاي 29و30و31 روزه تغيير نمي کند .

کمک هزينه فوت يا ازدواج براي وابستگان درجه يک 120 برابر حداقل دستمزد بوده و هر نفر از هر کدام مزاياي فوق يکبار مي تواند استفاده کند .

هزينه بن کارگري براي افراد مجرد ماهانه مبلغ 6000 ريال و براي متاهلين ماهانه 10000ريال بوده که شرکت با پرداخت آن به اتحاديه امکان بن را دريافت و به پرسنل پرداخت مي کند .

حق مسکن ماهانه مبلغ 60000 ريال به نسبت کارکرد بوده که براي ماههاي 29 و30و31 مبلغ فوق تغيير نمي کند .

حق خواربار ماهانه مبلغ 800 ريال مي باشد

سقف مشمول بيمه روزانه مبلغ 166667 ريال مي باشد .

تمام حقوق و مزاياي پرسنل به جز مواردي که در ادامه بيان مي شود مشمول بيمه مي باشند .

پرداخت هايي که مشمول کسر حق بيمه نيست : باز خريد ايام مرخصي ، کمک هزينه اولاد تا سقف موظفي قانون کار ، هزينه سفر و فوق العاده ماموريت ، عيدي ، مابه التفاوت کمک هزينه مسکن و خواروبار در ايام بيماري ، حق شير ، پاداش نهضت سوادآموزي ، حق التضمين (کسر صندوق ) ، خسارت اخراج و مزاياي پايان کار ، پاداش افزايش توليد ، حق همسر جدول مالياتي سقف معافي ماليات ماهانه مبلغ 1750000 ريال بوده که براي ماههاي 29و30 و31 تغيير نمي کند . حقوق و مزاياي مشمول از مبلغ 1750000 ريال تا 5250000 ريال به نرخ 10% واز 5250000 تا 10083333 ريال به نرخ 20% و از 10083333 ريال تا 20000000 ريال به نرخ 25% ماليات محاسبه مي گردد ضمنا در اين شرکت تعديل حقوق ماهانه صورت مي گيرد يعني همواره در هر ماه حقوق و مزاياي مشمول ماليات با جمع مشمولهاي ماههاي قبل جمع شده و به نسبت ماههاي کارکرد دوباره مجموع مالياتي پرداختني محاسبه و پس از کسر مقدار پرداخت شده الباقي از حقوق شخص کسر مي شود به اين ترتيب که مشمول ماليات يک ماه شخص مبلغ زيادي شد ميانگين دريافتي هاي وي ملاک محاسبه قرار مي گيرد .

ضمنا" حق ماموريت و پاداش سنوات معاف از ماليات مي باشد .

حق ماموريت در صورتي که با خواب شبانه همراه باشد به ازاي هر روز 140% حقوق مبناي روزانه به شرط آنکه از 2.5 برابر حداقل دستمزد کمتر و از 4 برابر آن بيشتر نباشد و در صورتي که بدون توقف باشد حقوق مبنا روزانه پرداخت مي شود ضمنا" در صورتي که با وسيله شخصي ماموريت انجام گرفته باشد به ازاي هر کيلو متر مبلغ 40 ريال پرداخت مي شود .

اضافه کار نرخ يک ساعت کار معمولي از تقسيم حقوق مبناي ماهانه بر 220 ساعت بدست مي آيد و طبق ماده 59 قانون کار ارجاع کار اضافي با شرايط زير امکان دارد اولا موافقت کارگر و ثانيا پرداخت 40% اضافه بر دستمزد هر ساعت کار معمولي .

نوبتکاري ماده 56 قانون کار بيان مي کند کارگري که در طول ماه به طور نوبتي کار مي کند و نوبت کار وي در صبح و عصر واقع مي شود 10% و چنانچه نوبت ها در صبح و عصر و شب قرار گيرد ، 15% و در صورتي که نوبت ها به صبح و شب و عصر بي افتد 22.5% علاوه بر مزد به عنوان فوق العاده نوبت کاري دريافت خواهد کرد .

کار در شب طبق ماده 58 براي هر ساعت کار در شب تنها به کارگران غير نوبتي 35% اضافه بر مزد ساعت کار عادي تعلق مي گيرد .

حق کشيک حداکثر ساعت کشيک 240 ساعت مي باشد و مبلغ کشيک از تقسيم حقوق مبنا بر 720 ضربدر تعداد ساعات کشيک بدست مي آيد .

حق رانندگي امتياز امتياز رانندگي 3 يا 10 يا 15 مي باشد و به صورت زير محاسبه مي شود

مبلغ حق رانندگي = ضريب ريالي 315 * تعداد روز رانندگي * امتياز رانندگي باز خريد مرخصي طبق ماده 64 قانون کار مرخصي استحقاقي سالانه کارگران با استفاده از مزد و احتساب چهار روز جمعه ، يک ماه است ساير ايام تعطيل جز ايام مرخصي محسوب نخواهد شد براي کار کمتر از يک سال مرخصي مزبور به نسبت کار انجام يافته محاسبه خواهد شد طبق مواد 66 و 73 کارگر بيش از 9 روز مرخصي نمي توا ند ذخيره کند و در صورت ازدواج دائم يا فوت همسر يا والدين و فرزندان حق استفاده از سه روز مرخصي با مزد را خواهد داشت مبلغ باز خريد مرخصي با مزد را خواهد داشت مبلغ باز خريد مرخصي يک روز از تقسيم جمع حقوق و مزاياي کارگر طبق آخرين حکم کارگزيني بر 30 روز بدست مي آيد .

پاداش سنوات خدمت طبق ماده 24 در صورت خاتمه قرارداد کار ، کار معين يا مدت موقت ، کارفرما مکلف است به کارگري که مطابق قرارداد ، يک سال يا بيشتر ، به کار اشتغال داشته است براي هر سال سابقه ، اعم از متوالي يا متناوب بر اساس آخرين حقوق مبلغي معادل يک ماه حقوق به عنوان مزاياي پايان کار به وي پرداخت نمايد . اين مبلغ بر اساس حقوق مبنا محاسبه مي شود . ضمنا" طبق ماده 74 مدت مرخصي استعلاجي با تاييد سازمان تامين اجتماعي جز سوابق کار و بازنشستگي کارگران محسوب خواهد شد .

عيدي به هر شخص به ازاي يک سال کارکرد دو برابر حقوق مبنا عيدي تعلق مي گيرد البته تا سقف سه برابر حداقل حقوق تعيين شدهطبق بخشنامه اداره کار و به اشخاصي که کمتر از يک سال کارکرد دارند به نسبت کارکرد پرداخت مي شود .

کسورات بيمه به ازاي هر شخص 30% حقوق و مزايا مشمول بيمه ماهانه حق بيمه به تامين اجتماعي بايد پرداخت شود که از اين مبلغ 7% آن سهم بيمه شده 20% سهم کارفرما و 3% بيمه بيکاري است که آن نيز سهم کارفرما مي باشد ( اين مبالغ براي کارگران روزمزد توسط شرکت پرداخت مي شود ) البته براي کارمندان 3% بيمه بيکاري توسط شرکت هزينه نمي شود ضمنا" طبق توافقي که با تامين اجتماعي انجام شده از مجموع 27% و 30% حق بيمه کارمندان و کارگران قراردادي 1% حقوق و مزاياي مشمول بيمه در اختيار شرکت بوده که از اين محل پرداخت غرامت دستمزد ايام بيماري ، پرداخت کمک بارداري موضوع ماده 67 قانون تامين اجتماعي ، پرداخت هزينه مربوط به وسيله کمک پزشکي (پروتزواورتز) به بيمه شدگان و افراد خانواده آنان طبق تعرفه و ضوابط سازمان ، پرداخت کمک ازدواج بيمه شدگان موضوع ماده 58 قانون تامين اجتماعي توسط شرکت انجام مي گيرد و نيز طبق توافقي که صورت گرفته در ازاي پرداخت 7% مزاياي مشمول بيمه به بيمه ايران ، اين سازمان بيمه درمان را(80% هزينه صورت گرفته ) بر عهده گرفته و تامين اجتماعي نسبت به خدمات درماني پرسنل مسئوليتي ندارد . اين قرارداد هم اکنون در حال اتمام بوده و پرسنل شرکت خواهان تمديد آن مي باشند .

بيمه عمرو حادثه حق بيمه براي سرمايه بيمه عمر و حوادث مصوب کارکنان دولت براي شاغلين به ميزان 6750 ريال است که پرداخت 1125 ريال آن از محل اعتبارات شرکت و بقيه به ميزان 5625 ريال بر عهده بيمه مي باشد . حق بيمه عمر و حادثه تکميلي 1.92% حقوق و مزاياي مشمول بيمه تا سقف تعيين شده در مورد مشمولين قانون تامين اجتماعي مي باشد که از محل اعتبارات شرکت پرداخت مي شود .

غرامت دستمزد براي کارکنان متاهل به صورت زير محاسبه مي گردد :غرامت دستمزد = (-3 مدت استعلاجي )* 3.4 * ميانگين حقوق 90روز قبل از بيماري براي کارکنان مجرد در فرمول فوق ضريب 3.4 به 2.3 تبديل مي شود . ضمنا" حق بيمه عمر و حادثه و 7% حق بيمه سهم کارگر در ايام مرخصي استعلاجي توسط شرکت پرداخت مي شود .

صندوق رفاه طبق دستور العمل صندوق پس انداز رفاه کارکنان که با تصويب هيات مديره شرکت به اجرا گذاشته شده کارکنان عضو صندوق به شرکت اختيار داده همه ماهه 5% از حقوقشان کسر و معادل 7% حقوقشان که شرکت به آن اضافه مي نمايد به حساب صندوق واريز شود و از محل وجوه مذکور پرسنل مي توانند برابر ضوابط وام دريافت کنند ضمنا" هنگام پايان خدمت هر يک از کارکنان پس انداز مربوط به سهم عضو و کارفرما به اعضا پرداخت مي شود و در صورت ترک کار سهم عضو به طور کامل و در صدي از سهم کارفرما به نسبت کارکرد طبق دستورالعمل پرداخت خواهد شد . هم اکنون اين مبلغ همه ماهه به صندوق تعاوني اعتبار برق منطقه خراسان واريز مي شود که البته پرسنل شرکت خواهان تشکيل صندوق مستقل مي باشند .

سند گردش انبار :

سيستم حسابداري انبار مقدار فيزيکي گردش انبار را از سيستم مديريت کالا و ارزش ريالي رسيدهاي انبار را از برنامه حسابداري خريد مي گيرد ، در سيستم مديريت کالا براي کالاهاي وارد شده به انبار رسيد صادر مي شود ، سپس بر اساس اين رسيد و به تفکيک کالا وجه فاکتور در سيستم حسابداري خريد سند مي خورد ، در پايان ماه در سيستم حسابداري انبار قيمت ميانگين هر کالا محاسبه مي شود ، البته رسيد انبارهايي که هنوز در سيستم حسابداري خريد بابت آن سند صادر نشده و به عبارتي ريال آن مشخص نيست در گردش فوق لحاظ نمي شود بلکه بر اساس تاريخي که قيمت دار شده ، در محاسبه قيمت ميانگين بکار مي رود حواله هاي قطعي (خروج از انبار) که طي ماه صادر شده اند و دستور کار آن مشخص است ، در سيستم حسابداري انبار بر اساس قيمت ميانگين که ذکر شد ، ريالي مي شود و به همين ترتيب حواله برگشتي هاي کالاي نو ريالي مي شوند ، بر اساس اينکه حواله ها مربوط به چه اموري مي باشند ، براي هر امور و بر اساس دستور کار حواله ، سند گردش انبار ماهانه توسط سيستم تنظيم مي شود . در حال حاضر 3% مبلغ کالاي مصرف شده از حساب 163 (هزينه هاي انبار ) جذب حساب مشخص شده در دستور کار مي شود .

نحوه ريالي کردن حواله هاي برگشتي مستعمل و اسقاط به اين ترتيب مي باشد :الف) اگر حواله برگشتي مستعمل و مربوط به کالاي شرکت باشد از نرخ 70% قيمت ميانگين استفاده مي شود و حواله اسقاط برگشتي مربوط به شرکت با 2% قيمت ميانگين ريالي مي شود .

ب)حواله برگشتي مربوط به کالاي جمع آوري شده از خط که مربوط به برق منطقه مي باشد ، مستعمل آن با نرخ 70% فهرست بهاي سال برق منطقه و اسقاط آن با نرخ 18% فهرست بهاي برق منطقه ريالي مي شود که اين نرخ ها به علت غير واقعي بودن مورد مناقصه با برق منطقه مي باشد . به هر حال اين نرخ ها باعث مي شود که شناسايي زيان تا فروش اجناس اسقاطي به تعويق بيافتد يا هنگام مصرف کالاي مستعمل قيمت تمام شده پروژه تورمي شود . اين سوال پيش مي آيد که چرا شرکت توزيع قيمت گذاري را با ضرائب کارشناسي شده ي خود انجام نمي دهد ؟

ظاهرا" نظر حسابرسان اين است : از آنجاييکه شرکت هنگام تهيه صورت وضعيت براي برق منطقه قيمت کالاي برگشتي را طبق توافق کسر مي نمايد طبق اصل بهاي تمام شده ، ارزش کالا بايد به اين شناسايي شود که با توجه به اصل اقل بهاي تمام شده يا قيمت بازار بعيد به نظر مي رسد . اما اينکه چرا قيمت کالاي برگشتي از حساب 153 کسر مي شود و مستقيما" به حساب بستانکاري برق منطقه منظور نمي شود به خاطر مزاياي بيمه و ماليات آن مي باشد چرا که با کاهش درآمد (مبلغ صورت وضعيت تاييد شده ) کسورات آن نيز کاهش مي يابد هر چند اين تهاتر (کاهش درآمد و قيمت تمام شده ) از لحاظ حسابداري گمراه کننده مي باشد . مساله ديگر استفاده از روش ميانگين در قيمت گذاري کالاي برگشتي مي باشد اين روش اشکالاتي براي موارد ذيل به همراه دارد : هنگامي که جنس در اختيار تنخواه دار قرار گرفت با عودت جنس به انبار حساب او صفر نمي شود اين مسئله براي کالاي اماني مانند قرقره نيز مصداق دارد هنگام خريد کابل ، اين کابل همراه با قرقره وارد انبار مي شود ولي بعدا" قرقره آن براي فروشنده عودت مي شود ، ويا اينکه بابت پروژه اي با انديکس يک پيمانکار حواله صادر مي شود ، اگر به دلايلي قرار بر توقف پروژه باشد ، با عودت کالاها مانده حساب 153 صفر نمي شود ، بهتر است براي موارد فوق ترتيبي اتخاذ شود تا حسابدار انبار (طبق دستورالعمل ) خود مستقيما" اقدام به قيمت گذاري نمايد نه اينکه سيستم با يک نرخ غير قابل انعطاف

اينکار را انجام دهد يا بر اساس حواله صادره اوليه تعيين قيمت نمايد .


کدهاي فرعي و کدهاي بودجه مورد عمل در حساب 154 به شرح جدول زير مي باشد :

شرح حساب فرعي

کد بودجه

کد فرعي

کد اصلي

لوازم کارگاهي و آزمايشگاهي

85

54

154

تنخواه جنسي پرسنل شرکت

-

55

154

کالاهاي اموالي بغير از کامپيوتر و ابزار کار

81

56

154

ابزار کار اموالي و مصرفي

82

56

154

کامپيوتر و قطعات و دستگاههاي جانبي

83

56

154

خودروها و قطعات ولوازم يدکي

84

56

154

کالاهاي مصرفي برقي

85

56

154

گردش انباري (وارده و صادره)

86

56

154

کالاهاي مصرفي غير برقي

88

56

154


نوشته شده در تاريخ شنبه نوزدهم آذر 1390 توسط جعفر

مقدمه

حسابداري صنعت برق به معناي علمي و فراگير آن تحت عنوان "روش متحد الشکل حسابداري" در فروردين ماه 1346 از سوي وزارت نيرو تدوين و با استعانت و نظارت مستقيم کارشناسان مالي وزارت نيرو در شرکتها و سازمان هاي برق ايران که در کار توليد، انتقال و توزيع فعاليت دارند به مورد اجرا گذارده شد. در طي سالهايي که از اجراي اين روش حسابداري مي گذرد بر اثر تجارب حاصله پاره اي اضافات حذف، برخي مسائل ايضاح و برحسب اقتضاء نکات و دقايق چندي نيز به متن سابق الذکر افزوده گرديد و اينکه حاصل کار در شکل کنوني در دسترس حسابداران، حسابرسان و افرادي که به نحوي در شرکت هاي برق با موضوعات مالي سروکار دارند گذارده مي شود.

با اينکه حسابداري برق در اصول کلي و متنوع با ديگر رشته هاي حسابداري اعم از عمومي، بازرگاني و صنعتي داراي وجوه اشتراک مي باشد، با اين همه مسائل و نکاتي در اين روش وجود دارد که خاص حسابداري صنعت برق مي باشد.

نتيجه مطلوب که اين روش حسابداري در جستجوي آن است تحصيل گردد. باشد که اصحاب مالي و خبرگان اهل حساب در صنعت برق با الهام از انقلاب اسلامي و رهنمودهاي داهيانه رهبريت انقلاب و نيز کوشش در جهت ارتقاء کيفي وظائف محوله سهم خويش را در امر تحقق اهداف و آرمان هاي اقتصادي جامعه اسلامي ايران به نحو شايسته و بايسته ادا نمايند.

 


 

1- دفاتر و سوابق

شركت هاي برق دفاتر حسابداري خود را بايد به ترتيبي نگاهداري نمايند كه از جهت اطلاعات مربوط به هر حساب كامل و جامع باشد. كليه دفاتر حسابداري و ضمائم و مدارك مربوطه بايد به طرز صحيحي نگاهداري شده و در مواع مقتضي جهت رسيدگي در اختيار مقامات وزارت نيرو قرار داده شوند. امحاء اين مدارك و سوابق تنها با اجازه وزارت نيرو و رعايت قوانين موضوعه كشوري امكان پذير خواهد بود.

2- شماره گذاري حسابها

شماره كدهائي كه براي حسابها در نظر گرفته شده بايد جزئي از عنوان آن حسابها تلقي شده و در صورتهاي مالي، ترازهاي آزمايشي تراز نامه ها و صورتحساب هاي درآمد و هزينه كه توسط شركت هاي برق تنظيم و براي وزارت ارسال ميگردد قيد شود.

به منظور تسهيل در تشخيص حسابهاي سرمايه اي يا هزينه هاي عملياتي مربوطه شركت هاي برق مي توانند از سيستم شماره گذاري فرعي در دفاتر يا برنامه هاي كامپيوتري خود كه به طرز مناسبي ارقام و مبالغ حسابها را تفكيك و تشريح نمايد استفاده كنند.

جدول شماره گذاري حسابها

حسابهاي 100-199                           دارائي و ساير اقلام بدهكار

حسابهاي 200- 299                          بدهي و ساير اقلام بستانكار

حسابهاي 300-399                           تأسيسات

حسابهاي 400-439                           درآمد و هزينه

حسابهاي 440-469                           درآمد عمليات

حسابهاي 500-599                           هزينه هاي توليد، انتقال و توزيع

حسابهاي 900-949                           هزينه هاي مشتركين، فروش، اداري و عمومي

3- دوره حسابداري

حسابهاي شركت برق بايد به طور ماهانه تنظيم و نگاهداري شوند به طوري كه كليه عمليات و ارقام هر ماه در حسابهاي همان ماه منظور گردد سال اول مالي شركتهاي برق پايان اسفندهر سال بوده و در تاريخ مزبور حسابها بايد بسته شوند مگر آنكه وزارت نيرو ترتيب ديگري را مقرر كرده باشد.

4- پرسش و تفسير

به منظور هم آهنگي و رعايت يكسان اصول و موازين اين روش حسابداري هر نوع شبهه و ابهامي در مورد تعبير متن حسابها بروز نمايد بايد با نظر و صلاحديد وزارت نيرو مرتفع گردد.

5- متن حسابها

وجود يك قلم در يك حساب فقط موقعي منظور نمودن آنرا در حساب مربوطه ايجاب مي نمايد كه در متن آن حساب قلم مزبور يا مشابه آن تعيين شده باشد.

6- اقلام معوقه

كليه اقلام مربوط به عمليات سنوات قبل كه قبلاً به حسابها منظور نشده بايد بنا به مورد به حساب هاي 434 بستانكاري هاي متفرقه بمازاد با 435 بدهكاري هاي متفرقه بمازاد منظور گردند.


 

7- اقلام مميزي نشده

در صورت عدم تغاير با مقررات مالي و معاملاتي و ساير قوانين موضوعه هنگامي كه گزارش مالي شركت تهيه مي شود چنانچه داد و ستدي انجام شده باشد كه در حساب هاي مالي مؤثر باشد ولي مبلغ مورد داد و ستد را در موقع بستن حسابها در اختتام دوره حسابداري نتوان به طور دقيق تعيين نمود بايد برآورد آن مبلغ را در حسابهاي مربوطه منظور نمود. بديهي است برآورد نمودن اقلام جزئي كه تأثير قابل ملاحظه اي در حسابها نخواهد داشت ضروري نمي باشد.

8- توزيع حقوق و هزينه هاي كاركنان

هزينه هاي حقوق، دستمزد و مزاياي كاركنان مربوط به حسابهاي مختلف از قبيل نوسازي، تعمير و نگاهداري و عمليات بايد بر مبناي زمان واقعي صرف شده توزيع شود. چنانچه توزيع هزينه ها با اين ترتيب امكان نداشته باشد مي توان زمان صرف شده براي عمليات مشابه را مبناي توزيع اين قبيل هزينه ها قرار داد.

اطلاعات حسابداري لازم براي اين امر از قبيل گزارش اوقات كار بايد به ترتيبي تنظيم شود كه توزيع هزينه هاي كاركنان به حساب هاي مربوطه به سهولت امكان پذير باشد.

9- ذخيره هاي عملياتي

چنانچه وزارت نيرو مقرر دارد شركت هاي برق مي توانند به منظور تأمين بيمه اموال، صدمات و خسارات وارده، تعميرات عقب افتاده و غيره از ذخيره عملياتي استفاده نمايند. پيش بيني ميزان ذخيره هاي مزبور را نيز وزارت نيرو تعيين خواهد كرد.


 

10- مدارك و سوابق

شركت ها بايد مدارك، سوابق و اسناد مربوط به واحدهاي عملياتي حوزه فعاليت خود را به تفكيك و به طور جداگانه براي نيروگاه ها خطوط انتقال و شبكه توزيع از جهت قيمت تمام شده، افزايش هاي انجام گرفته، بركناري ها، هزينه هاي عمليات و تعمير و نگهداري نگاهداري نمايند.

تأسيسات برق

الف: اين حساب شامل قيمت تمام شده تأسيساتي خواهد بود كه در تملك سازمان يا شركت برق بوده و در عمليات بهره برداري مورد استفاده ميباشد و طول عمر خدمتي آن نيز بيش از يك سال از تاريخ بهره برداري است و طبق اصول و ضوابط ثبت گردد.

ب: بهاي افزايش ها و اصلاحات اموال استيجاري منظور در اين حساب بايد در كدهاي فرعي جداگانه كه قابل تميز و تفكيك از تأسيسات متعلق به شركت باشد ثبت گردد.

تأسيسات برق نگاهداري شده براي استفاده آتي

اين حساب شامل بهاي تأسيسات برق متعلق به شركت است كه تحت برنامه معيني جهت استفاده آتي نگاهداري مي شود. در ضمن حساب مزبور شامل تأسيسات تحويلي و خريداري شده كه به عللي پس از تاريخ تحويل و خريداري مورد بهره برداري قرار نگرفته و جهت استفاده آتي نگاهداري شده است مي گردد. همچنين تأسيساتي كه قبلاً توسط شركت موره بهره برداري قرار گرفته و بعداً از خدمت خارج شده ولي در نظر است كه در آينده مورد استفاده مجدد قرار گيرد در اين حساب منظور مي شود.


 

ذخيره استهلاک تأسيسات برق مشغول به کار

الف: اقلام مشروحه زير بايد در بستانکار اين حساب منظور شود:

1- مبالغي که در بدهکار حساب 403 هزينه استهلاک يا در حسابهاي تصفيه شده براي هزينه استهلاک جاري منظور شده است.

2- مبالغ دخيره استهلاک مربوط به تأسيسات خريداري شده که به عنوان واحدهاي عملياتي تحويل گرديده است.

ب: موقعي که يک واحد از تأسيسات مشغول به کار استهلاک پذير از رده خدمتي برکنار مي شود، قيمت دفتري واحد مذکور به علاوه هزينه برداشت مربوطه در بدهکار اين حساب منظور مي گردد و همچنين ارزش بازيافتني (قيمت اسقاط) يا ساير مبالغ قابل وصول از قبيل بيمه در بستانکار اين حساب ثبت مي شود. در موقع برکناري هزينه هاي برداشت و ارزش بازيافتي ابتدا در دستور کارهاي برکناري محاسبه و منظور مي شود. سپس پس از اتمام عمليات برکناري، توزيع هزينه هاي مزبور در کدهاي فرعي اين حساب بشرح مندرج در بند ذيل انجام مي گيرد.

در دفتر کل و ترازنامه تنظيمي يک رقم کلي و مرکب براي حساب ذخيره استهلاک تأسيسات برق در نظر گرفته مي شود. اما شرکتهاي برق موظفند جهت مقاصد تجزيه و تحليل، جزئيات سوابق کدهاي معين اين حساب را بر اساس انواع طبقات تأسيسات موجود 1 توليد بخاري 2) توليد گازي 3) توليد هيدروليک 4) توليد ديزلي 5) خطوط انتقال 6) شبکه توزيع 7) تأسيسات عمومي نگاهداري نمايند.

 

موقعي كه يك واحد عملياتي تأسيسات از حسابي به حساب ديگر از يك شركت برق به شركت برق ديگر و يا احياناً از يك حساب به حساب اموال غيربرقي انتقال مي يابد، نحوه محاسبه ذخيره استهلاك مربوطه بايد به طريقي كه در بند 11 دستورالعمل تأسيسات برق آمده است انجام گيرد.

شركتهاي برق مجازند فقط جهت مقاصدي كه در بالا شرح داده شد از ذخيره استهلاك استفاده نمايند. هر نوع انتقال قسمتي از اين حساب به مازاد يا استفاده از آن به طريقي، منوط به كسب مجوز از وزارت نيرو مي باشد.

سرمايه گذاريها و وامها

اين حساب شامل قيمت دفتري سرمايه گذاري و وامهاي اعطائي در ساير شرکتهاي تابع وزارت نيرو نظير ساتکاب و غيره و همچنين ساير شرکتها و سازمانهايي که به تشخيص مجمع عمومي وزارت نيرو ضروري نمايد خواهد بود.

 

دارائي هاي جاري

دارائي جاري عبارت است از وجوه نقدي، موجودي كالا، حسابهاي دريافتي و به طور كلي دارائي هايي است كه در شرايط عادي كار و در آينده نزديك به سهولت قابل تبديل به وجه نقد مي باشد.

صندوق

اين حساب شامل موجودي هاي بانكي و نيز وجوه نقدي در صندوق شركت به استثناي وجوه تنخواه گردان خواهد بود كه شركت مي تواند به طور جاري و روزمره از آن برداشت نمايد.


 

تنخواه گردان

اين حساب شامل پيش پرداخت وجوه نقدي خواهد بود که براي احتياجات خاص، به عنوان تنخواه گردان، در اختيار متصديان يا اشخاص مسئول گذارده مي شود.

نکته: به طور سهولت کنترل، وجود پرداخت شده به عنوان تنخواه گردان بايد مبلغي ثابت باشد.

اسناد دريافتني

اين حساب شامل قيمت دفتري كليه سفته ها و ساير اسناد دريافتني خواهد بود.

حسابهاي دريافتني مشتركين

اين حساب شامل مبالغ بدهي مشتركين در ازاء فروش برق به آنها خواهد بود.

ساير حسابهاي دريافتني

اين حساب شامل كليه مطالبات شركت از كاركنان و ساير اشخاص حقيقي و حقوقي به استثناي بدهي هاي ناشي از فروش برق به مشتركين خواهد بود.

پيش پرداخت هاي پيمانهاي خريد

اين حساب شامل پيش پرداختهاي مربوط به سفارش خريد کالا و ماشين آلات بر اساس پيمانهاي منعقده خواهد بود. پيش پرداختهاي مزبور تا زماني که کالا و ماشين آلات سفارش شده تحويل شرکت نگرديده در اين حساب نگاهداري خواهد شد. براي هر يک از پيمانهاي خريد مربوط به ساتکاب بايد حسابهاي فرعي جداگانه اي نگاهداري شود.

محاسبه و ثبت ارقام مربوط به مواد و مصالح بازيافتي به طريق ذيل خواهد بود.

1- در اين روش حسابداري ارزش لوازم و مصالح بازيافتي بر اساس قيمت صادره و در صورت عدم امكان بر مبناي برآورد تعيين خواهد شد.

2- لوازم اسقاط و غير قابل استفاده بايد بر مبناي مبلغ خالص تقريبي فروش در اين حساب منظور گردد- فروش منهاي هزينه فروش اختلاف بين مبلغ واقعي حاصل از فروش لوازم اسقاط يا مبلغ خالص تقريبي كه قبلاً در اين حساب ثبت گرديده در حساب 163 منظور و اصلاح خواهد شد.

هزينه هاي توزيع نشده انبار

الف: اين حساب شامل هزينه کار، نظارت و سرپرستي اداره امور انبارها و تدارکات بانضمام ساير هزينه هاي مربوط به خريد اجناس، انبارداري، نقل و انتقال و توزيع آنها خواهد بود.

ب: مانده اين حساب به نسبت اجناس صادره براي امور تأسيساتي عملياتي و تعمير و نگهداري در فواصل زماني معين سرشکن خواهد شد به طوري که در پايان سال مالي مانده حساب مزبور صفر شده باشد.

اقلامي که در اين حساب منظور مي گردد به شرح ذيل مي باشد:

1- بازرسي و آزمايش مصالح و اجناسي که اختصاص به يک قلم معين و مشخص نظير کنتورها نداشته باشد.

2- تخليه اجناس از وسائل نقليه و قرار دادن آنها در انبار.

3- نظارت و سرپرستي قسمتهاي تدارکات و انبارها تا حدي که مربوط به اداره اجناس در انبارها باشد.

4- تحويل جنس به متقاضي

5- صورت برداري از اجناس دريافت شده و اقلام موجودي توسط کارکنان انبارها به استثناي صورت برداري هايي که توسط کارکنان دوائر اداري و عمومي جهت مقاصد حسابرسي انجام مي گيرد.

6- فعاليتهاي مربوط به قسمت تدارکات در مورد بررسي اجناس مورد نياز تحقيق در مورد منابع عرضه و فروش، تجزيه و تحليل قيمتها، تهيه و ارسال سفارشات و ساير کارهايي که به نحوي مربوط به اداره اجناس در انبارها مي شود.

7- نگاهداري لوازم و تجهيزات انبارها

8- تنظيف محوطه انبارها و دفاتر انبارها

9- نگاهداري سوابق موجودي شامل ثبت اجناس وارده و صادره و نيز تنظيم صورت موجودي کالا

10- دريافت و مرتب کردن لوازم اسقاط در انبارها

11- ثبت اصلاحي مغايرات مربوط به صورت موجودي مصالح و ملزومات ثبت اصلاحي مذکور شامل مغايرات اقلام عمده (مثلاً ترانسفورماتور) که به هر حال بايد رديابي و معلوم شود نمي گردد.

12- وجوه دريافتي و ساير تخفيفات که عملاً قابل اختصاص به اقلام بخصوصي نمي باشد.

13- کرايه و هزينه حمل که قابل اختصاص به اقلام بخصوصي نمي باشد.

14- هزينه هاي روشنايي، برق و حرارت مرکزي مربوط به محوطه انبارها و دفاتر انبارها.

15- هزينه نظافت انبارها

16- ضايعات و خسارات


 

خسارات فوق العاده اموال

اين حساب شامل هزينه خسارات و ضايعات فوق العاده اي خواهد بود که به تأسيسات شرکت وارد و موجب خارج شدن آنها از رده خدمتي شده و ذخيره لازم نيز براي آنها پيش بيني نگرديده است. اين قبيل خسارات استثنائي که از حدود پيش بيني خارج بوده و جبران آنها از طريق بيمه يا ذخيره کافي مقدور نمي باشد بايد به طور سنواتي در بستانکار اين حساب و بدهکار حساب 407 استهلاک خسارات اموال منظور و مستهلاک گردد. تعيين سنوات مشمول استهلاک به عهده وزارت نيرو مي باشد.

سرمايه گذاري دولت

الف: اين حساب شامل وجوه و اعتباراتي كه دولت به منظور سرمايه گذاري در صنعت برق اختصاص مي دهد خواهد بود. سود و زيان سنواتي نبايد در اين حساب منظور گردد.

ب: موقعي كه شركت تأسيساتي را از شهرداري ها تحويل مي گيرد، ارزش مستهلك شده- قيمت اوليه منهاي استهلاك- تأسيسات مزبور به عنوان سرمايه گذاري در اين حساب منظور خواهد شد و متقابلاً ذخيره استهلاك مربوطه در حساب 108 و قيمت اوليه در حساب 101 ثبت مي گردد.

پ: اعتباراتي كه سازمان برنامه و بودجه به منظور اجراي طرح هاي مربوط به احداث و توسعه تأسيسات برق در اختيار شركت قرار مي دهد، ابتدا در حساب 250 منظور مي گردد و سپس بعد از تكميل طرح هاي مزبور به اين حساب منتقل و برگشت خواهد شد.

نكته: هر نوع كاهشي در ارقام مربوط به سرمايه گذاري بايد با موافقت مجمع عمومي شركت انجام گيرد.

وام ها و سپرده هاي ثابت دريافتي از مشتركين

اين حساب شامل مبالغ قابل استرداد وام هاي مشتركين كه تاريخ سررسيد آنها يكسال يا بيش از يكسال از تاريخ دريافت وام هاي مزبور باشد و همچنين سپرده هايي كه فقط در موقع قطع سرويس برق بازپرداخت مي شود خواهد بود.

بدهي به شركت ها و مؤسسات تابع وزارت نيرو

اين حساب شامل مبالغ بدهي به شركت هاي برق منطقه اي و شركت توانير و ساير شركتها و مؤسسات تابع وزارت نيرو خواهد بود كه ظرف يكسال يا كمتر قابل پرداخت مي باشد.

سپرده هاي تضميني مشترکين

اين حساب شامل وجوهي که مشترکين به طور موقت به منظور تعيين پرداخت صورت حساب هاي برق مصرفي نزد شرکت سپرده اند خواهد بود.

سپرده هاي ثابت يا درازمدت مشترکين بايد در حساب 222 وامها و سپرده هاي ثابت مشترکين منظور گردد.

اهدائي براي احداث و توسعه تأسيسات

اين حساب شامل كمك هاي اهدائي اعم از نقدي يا جنسي خواهد بود كه از طريق متقاضي به منظور برقراري انشعاب اعطا مي گردد. هزينه مقطوع انشعاب و نيز هزينه وسائل اندازه گيري به عنوان سهمي از كمك متقاضي در سرمايه گذاري برق در اين حساب منظور خواهد شد.

هر نوع برگشتي و انتقالي از اين حساب به حساب درآمد، مازاد حاصله يا هر حساب ديگري منوط به تصويب وزارت نيرو خواهد بود.

نكته: چنانچه به موجب مقررات، قسمتي از پيش پرداخت متقاضي انشعاب قابل استرداد باشد در اين صورت پيش پرداخت مزبور ابتدا در حساب 252 منظور و پس از برقراري انشعاب، مبلغ باقي مانده به بستانكار اين حساب برگشت خواهد شد.

درآمد هاي عملياتي شركت

درآمد عمليات

اين حساب شامل درآمدهاي حاصله از فروش برق بر اساس صورتحسابهاي تنظيمي برق مصرفي مشتركين خواهد بود.

هزينه فروش كالا، خدمات و كارهاي قراردادي

حسابهاي مزبور به ترتيب شامل كليه هزينه ها و درآمدهاي حاصله از فروش كالا، خدمات يا كارهاي قراردادي به انضمام هر نوع سود يا حق العملي كه مؤسسه طبق موافقت نامه هاي موضوعه به عنوان كارگزار بابت كارهاي قراردادي كه براي شخص ثالث انجام مي دهد نصيبش ميگردد و تمامي هزينه هاي ناشي از اين قبيل فعاليتها خواهد بود.

طبقه بندي تأسيسات برق از تاريخ اجراي سيستم حسابداري

جمع قيمت دفتري تأسيسات برق كه به وسيله مؤسسات سابق برق طبق روش معمول در دفاتر حساب مؤسسات مزبور ثبت گرديده از تاريخ اجراي اين سيستم حسابداري در حساب 103 تأسيسات برق در مرحله تجديد طبقه بندي نقل و منظور مي شود.

جمع قيمت دفتري تأسيسات طبقه بندي نشده از تاريخ اجراي اين سيستم حسابداري بايد بر اساس حسابهاي معين تأسيسات برق (301 الي 398) تجديد طبقه بندي شوند. قيمت تأسيسات طبقه بندي نشده بر اساس بررسي دفاتر و تجزيه و تحليل مدارك و سوابق موجود مؤسسه تعيين خواهد گرديد. چنانكه اسناد و سوابق مؤسسه كافي براي تعيين قيمت تمام شده تأسيسات برق نباشد، قيمت هاي مربوطه از تاريخ اجراي اين سيستم حسابداري بر اساس ارزيابي وضع عيني تأسيسات برق مشغول به كار موجود تعيين خواهد گرديد.

اجزاء تشکيل دهنده هزينه هاي ساختماني

اجزاء تشکيل دهنده هزينه هاي ساختماني احداث و توسعه تأسيسات برق که توسط شرکت انجام مي گيرد به قرار ذيل مي باشد:

1- هزينه مواد و مصالح

هزينه مواد و مصالح از طريق صدور حواله انبار جهت کارهاي ساختماني و تأسيسات مستقيماً در حساب دستورکارهاي مربوطه منظور مي شود.

حواله هاي مزبور بايستي با قيد شماره دستور کار مربوط مشخص گردد. هزينه هاي مواد و مصالح مشتمل است بر بهاي کالاي خريداري شده به علاوه عوارض گمرکي، هزينه بازرسي، هزينه بارگيري، هزينه حمل و تخليه تا مقصد تحويل به انبارهاي شرکت علاوه بر اين هزينه قابل احتساب ديگر هزينه ساخت کالا در کارگاه شرکت مي باشد. همچنين قسمتي از هزينه هاي تدارکات و انبار را بايد به هزينه مواد و مصالح صادره از انبار اضافه نمود. هزينه هاي مزبور بايستي به نسبت ارزش مواد و مصالح استفاده نشده برگشتي به انبار و يا به دستور کارهاي ديگر کاهش داده شود.

تبصره: ارزش ظروف و قرقره ها و اقلامي از اين قبيل را که جنبه بازيافتي دارد و مي توان در صورتي که دستور کارهاي آن قابل شناخت و تشخيص نباشد در بستانکار حساب 163 هزينه هاي توزيع نشده انبار منظور نمود.

هزينه پيمانكار

شامل هزينه هاي خدماتي است كه پيمانكار به موجب پيمان منعقده متعهد به انجام آن بوده و در حساب ساختماني شركت منظور مي گردد. موارد ذيل مشمول هزينه پيمانكاران نمي شود:

الف: كاركنان و افرادي كه در استخدام شركت بوده و حقوق و مزاياي آنها نيز از طرف شركت پرداخت مي گردد ولي در كارهاي پيماني مشاركت دارند.

ب: تجهيزات و مواد و مصالح مصرفي كه براي آنها رسيد انبار و حواله صادر ميگردد.

پ: موارد مشروحه تحت عنوان "ساير هزينه ها" مندرج در بند 8 ذيل ممكن است مشمول هزينه هاي پيمانكار گردد.

هنگاميكه تأسيسات برق، مركب از يك واحد عملياتي يا مجموع چند واحد بعد از تاريخ اجراي اين سيستم حسابداري از طريق خريد يا ترتيب ديگري تحويل گرفته مي شود، قيمت خريد به علاوه ساير هزينه هاي انجام شده قابل قبول مربوط به تأسيسات مورد تحويل، در حساب 103 تأسيسات در مرحله تجديد طبقه بندي منظور خواهد شد.

مهندسي، نظارت و امور اداري

هزينه هاي مهندسي، نظارت و امور ادراي قابل منظور در دستور کارهاي ساختماني عبارت است از هزينه حقوق و مخارج مهندسان، نقشه برداران، بازرسان، نقشه کش ها، رؤسا و کارمندان زيردست آنها و نيز تا ميزاني حقوق و هزينه هاي دستگاه مديريت و کارکنان امور اداري و عمومي، هزينه هاي مزبور ممکن است در حساب 184 منظور شده و سپس بر مبناي گزارش اوقات کار يا مطابق آنچه در بند 4 تحت عنوان "هزينه هاي عمومي ساختماني" مذکور است توزيع گردد.

تبصره: بند فوق شامل هزينه هاي "مهندسي و خدمات مشورتي" نيز مي گردد.

روش دستور كار و نحوه ثبت و نگاهداري كارتهاي اموال تأسيسات

الف: شركت هاي برق موظفند كه مشخصات فيزيكي تأسيسات حوزه فعاليت خود را طبق نقشه هاي مبسوط و ديگر سوابق مستدل كه نشان دهنده كيفيت سيستم عملياتي تأسيسات مزبور است نگاهداري نمايند.

ب: شركت هاي برق بايد مشخصات واحدهاي اموال هر يك از حسابهاي تفصيلي و معين تأسيسات را در كارتهاي اموال و تأسيسات دقيقاً به ثبت رسانده به طوري كه قيمت و مقدار و تعداد آنها به نحو كاملاً درستي نشان داده شده باشد.

محاسبه هزينه هاي افزايش ها و بركناري هاي واحدهاي اموال به طريق ذيل است:

1- موقعي كه يك واحد اموال به تأسيسات برق اضافه مي شود، قيمت آن به حساب تأسيسات برق مربوطه اضافه مي گردد مگر در مواردي كه اين قبيل واحدها در موقع تحويل و خريد تأسيسات برق يك واحد عملياتي را تشكيل دهد، در آنصورت به طريقي كه در دستورالعمل شماره 5 تأسيسات برق مذكور است محاسبه خواهد شد.

2- موقعي كه يك واحد اموال از خدمت تأسيسات برق بركنار مي شود اعم از اينكه واحد ديگري به جاي آن نصب شود يا نشود، قيمت دفتري آن به بستانكار حساب تأسيسات برق مربوطه به طريقي كه در بند (ث) ذيل تعيين شده منظور خواهد گرديد و متقابلاً حساب ذخيره استهلاك مربوطه نيز بدهكار خواهد شد. هزينه برداشت و ارزش بازيافتي واحد بركنار شده به ترتيب در بدهكار و بستانكار حساب ذخيره استهلاك مربوطه منظور مي شود.

انتقال اموال

در موردي كه اموالي از يك حساب تأسيسات برق به حساب ديگر، از يك شركت به شركت ديگر مانند شركت برق تهران به شركت توانير از يك قسمت عملياتي به قسمت عملياتي ديگر از حساب 101 تأسيسات برق مشغول به كار به حساب 105 تأسيسات برق نگاهداري شده براي استفاده آتي يا به حساب 121 اموال غيربرقي انتقال و برگشت داده شود يا بالعكس، اين عمل با برگشت دادن قيمت دفتري آنها از يك حساب به حساب ديگر، از يك شركت به شركت ديگر يا از يك قسمت عملياتي به قسمت عملياتي ديگر صورت مي گيرد. هر مبلغي كه در حسابهاي ذخيره استهلاك بابت تأسيسات مورد انتقال منظور شده بايد بر طبق تفكيك حسابهاي مزبور برگشت و انتقال داده شود.

تأسيسات انتقال و توزيع نيرو در اين سيستم حسابداري

الف: تأسيسات انتقال عبارت است:

1- کليه اراضي، ساختمان هاي دستگاه هاي تبديل و تجهيزاتي که از يک منبع اوليه توليد نيرو (مقصود نيروگاه يا نقطه تحويل نيرو در مورد برق خريداري شده مي باشد) به منظور تغيير ولتاژ يا فرکانس برق به کار گرفته شده تا عمل انتقال نيرو به نحو مؤثر و مفيد انجام يابد.

2- کليه اراضي، ساختمانها، خطوط، ايستگاه هاي تبديل و انتقال نيرو لوازم و دستگاه هاي فشار قوي و تجهيزات حفاظتي و کنترل آنها بين مرکز توليد يا نقطه تحويل يا نقطه تحويل تا نقطه ورود به مرکز شبکه توزيع نيرو.

3- کليه خطوط و تجهيزاتي که هدف اوليه آن بالا بردن، ادغام يا اتصال منابع نيرو با يکديگر باشد.

خريد تأسيسات برق

مرحله بعدي در توسعه و پيشرفت صنعت برق در ايران مبتني است بر فروش برق به مؤسسات صنعتي كه قبلاً برق مورد احتياج خود را رأساً توليد مي كرده اند.

قرارداد فروش نيروي برق به واحدهاي صنعتي كه جانشين توليد برق خصوصي آنها مي شود در بيشتر موارد ايجاب مي نمايد كه محرك هاي اوليه و مولدها و ساير تجهيزات برقي واحدهاي صنعتي مزبور خريداري شود.

دارائي هاي غيرمشهود

تصور نمي شود كه شركت هاي برق در ايران در مورد دارائي هاي غيرمشهود متحمل هزينه به مقداري شوند كه قابل توجيه براي طبقه بندي هزينه مزبور در حساب تأسيسات مشغول به كار باشد. لذا، در اين روش حسابداري، با توجه به شرايط خاص كار در شركتهاي برق، جهت هزينه دارائي هاي غيرمشهود تأسيسات برق مشغول به كار از قبيل هزينه هاي تأسيس، امتيازات و حق مخصوص، حق اختراع، اخذ پروانه و ساير حقوق ناشي از دارائي هاي غيرمشهود پيش بيني نشده است.

دستورالعمل درآمد عمليات

برحسب اين روش حسابداري طبقه بندي درآمدهاي عمليات بر اساس موارد دوگانه ذيل خواهد بود:

1- درآمدهاي حاصله از فروش برق

2- ساير درآمدهاي عملياتي برق

در اين روش حسابداري، درآمدهاي ناشي از فروش برق بر مبناي صورت حساب هاي مصرف برق مشتركين در هر سيكل حسابداري تعيين خواهد شد. مبالغ وصول شده از مشتركين بابت برق مصرفي ملاك تعيين درآمدها قرار نخواهد گرفت.

صورت حساب هاي مصرف برق بايد در هر سيكل حسابداري براي كليه مشتركين صادر و توزيع گردد. در مواردي كه قرائت كنتر مشترك در يك سيكل بنا به دلائلي امكان پذير مي باشد بايد صورتحساب مربوطه جهت برق مصرفي بر اساس برآورد تنظيم گردد.

آمار و سوابق مربوط به درآمدهاي حاصله از فروش برق و نيز مقدار كيلو وات ساعت برق فروخته شده در هر سيكل بايستي به نحوي نگهداري شود تا بدان وسيله امر مقايسه در مورد طبقات مختلف درآمدها امكان پذير گردد.

فروش برق

440- فروش برق خانگي

441- فروش برق تجاري

442- فروش برق صنعتي

443- فروش برق كشاورزي

فروش برق خانگي

اين حساب شامل مبلغ خالص صورتحسابهاي برقي مصرفي براي مقاصد خانگي خواهد بود.

اسناد و مدارك مربوطه بايد به نحوي نگهداري گردد كه مقدار كيلو وات ساعت برق فروش رفته و درآمد حاصله طبق هر تعرفه از جداول نرخ را معلوم نمايد.

تبصره: چنانچه برق تأمين شده جهت مصارف خانگي و تجارتي از طريق يك كنتور واحد به عمل آمده باشد كليه عوايد حاصله بايد در اين حساب يا در حساب 441- فروش برق تجارتي بر طبق نرخ مربوطه منظور گردد در صورتي كه نرخ برق خانگي و تجارتي يكي باشد طبقه بندي مزبور بايد برحسب بيشترين مصرفي براي هر يك از طبقات انجام گيرد.

فروش برق تجاري

اين حساب شامل مبلغ خالص صورتحساب هاي برق تحويلي به مشترکين تجارتي خواهد بود. سوابق مربوطه بايد به نحوي نگهداري گردد که مقدار کيلو وات ساعت برق فروش رفته و عوايد حاصله طبق هر تعرفه از جداول نرخ را نشان دهد.

فروش صنعتي

اين حساب شامل مبلغ خالص صورتحساب هاي برق مصرفي مشترکين صنعتي خواهد بود.

اسناد و مدارک مربوطه بايد به نحوي نگهداري گردد که مقدار کيلو وات ساعت برق فروش رفته و عوايد حاصله طبق هر تعرفه از جداول نرخ را نشان دهد.

فروش برق کشاورزي

اين حساب شامل مبلغ خالص صورتحسابهاي برق تحويلي به مشترکين براتي مصارف تلمبه هاي آبياري و امور کشاورزي خواهد بود.

 

ساير فروش هاي برق

اين حساب شامل درآمد هاي حاصله از انشعابات موقت و ساير سرويس هاي برقي كه در ساير حسابداري درآمد عمليات پيش بيني نشده خواهد بود. همچنين، اين حساب شامل درآمد تقريبي فروش برق در پايان دوره حسابداري ناشي از عدم قرائت كنتور و تهيه صورتحساب هاي مربوطه خواهد بود.

ساير هزينه هاي مربوط به تأمين نيروي برق

برق خريداري شده

الف: اين حساب شامل بهاي نيروي برق در محل تحويل است که شرکت براي بازفروش خريداري مي نمايد. همچنين مبادله انرژي بين شرکت برق با شرکت برق ديگر يا بين يک شرکت برق با يک واحد صنعتي به منظور تأمين برق ساعات پيک و غيرپيک طرفين که در اين مورد هزينه خالص انرژي مبادله شده اين حساب منظور خواهد شد. به علاوه اين حساب شامل ثبت هزينه خالص نيروي توليد شده جهت داد و ستدهايي که بر اساس قراردادهاي مجتمع انرژي POOLING يا مبادله نيرو در مواردي که بين اقلام بدهکار و بستانکار نيروي برق مبادله شده و غيره موازنه وجود دارد خواهد بود. خريد و فروش هاي مشخص و جداگانه نبايد به صرف اينکه اقلام بدهکار و بستانکار آنها در سند هزينه تنظيمي تلفيق گرديده به عنوان انرژي مبادله شده تلقي گردد.

ب: سوابق اين حساب بايد ديماند و هزينه هاي ديماند، کيلو ات ساعت و بهاي آن را براي هر قرارداد خريد و نيز اقلام بدهي و بستانکار هر يک از قراردادهاي مبادله نيرو را ماهانه نشان دهد. علاوه بر اين، سوابق مزبور بايستي ديماند و کيلو وات ساعت هر يک از محل هاي تحويل انرژي برق را نيز بطور ماهانه مشخص و تعيين نمايد.

هزينه هاي حساب مشتركين

عمليات

901- نظارت و سرپرستي

اين حساب شامل حقوق و دستمزد و هزينه هاي مربوط به نظارت عمومي و اداره قسمت نگهداري حسابهاي مشتركين و فعاليت هاي مربوط به وصول بهاي برق مصرفي خواهد بود. نظارت مستقيم بر عمليات بخصوص بايد به بدهكار حساب 902- هزينه هاي قرائت كنتور يا حساب 903- هزينه هاي نگاهداري حساب مشتركين و وصول بهاي برق منظور گردد. (به بند 1 دستورالعمل هزينه عمليات رجوع شود).

902- هزينه هاي قرائت كنتور

اين حساب شامل حقوق و دستمزد و مصالح مصرفي و ساير هزينه هاي مربوط به قرائت كنتور مشتركين و تعيين برق مصرفي خواهد بود كه به وسيله كنتور خوان انجام مي گيرد.

هزينه کار

1- تعويض و جمع آوري نمودارهاي کنتورها به منظور تعيين برق مصرفي و تهيه برگ تشخيص

2- بازرسي ساعتهاي کنترل، نظارت در مورد پلمپ کنتورها و غيره وقتي که اين عمل توسط کنتورخوان انجام مي گيرد و لزوماً جزئي از فعاليتهاي روزمره قرائت کنتور محسوب مي شود.

3- قرائت کنتورها به علاوه کنتورهاي ديماند و دريافت اطلاعات مربوط به بار برق جهت مقاصد تهيه برگ تشخيص به استثناي هزينه قرائت نخستين و آخرين چنانکه مربوط به عمليات جابجا کردن يا قرار دادن مجدد کنتور باشد، پلمپ کردن و قطع و وصل مجدد کنتور که در بدهکار حساب 586 هزينه هاي کنتور يا حساب 903 هزينه هاي نگاهداري حساب مشترکين وصول بهاي برق منظور مي گردد.

4- محاسبه برق صنعتي مشترک آرزوي دفتر يا برگ قرائت کنتور موقعي که اين کار توسط کنتورخوان انجام مي شود.

5- توزيع برگ تشخيص هاي برق توسط کنتورخوان.

مصالح و مخارج

6- کارت هاي هويت، السبه و غيره.

903- هزينه هاي نگهداري حساب مشتركين وصول بهاي برق

اين حساب شامل حقوق و دستمزد و مصالح مصرفي و ساير هزينه هاي مربوط به درخواست انشعاب، تنظيم صورتحساب و وصول بهاي برق و رسيدگي به شكايات خواهد بود.

هزينه کار

1- دريافت، تنظيم، ثبت و رسيدگي به درخواستهاي روزمره به منظور دادن انشعاب، قطع برق، انتقال يا آزمايش کنتور مشترک به استثناي هزينه انجام سفارشاتي که قابل تخصيص به بدهکار حساب بخصوصي مي باشد.

2- تحقيقات در مورد اعتبار مشترک و نگاهداري سوابق در اين خصوص به علاوه سوابق مربوط به حسابهاي سوخت شده.

3- دريافت، بازپرداخت و گرفتن سپرده از مشترک و نگاهداري سوابق سپرده ها، توسعه خط و ساير سوابق متفرقه.

4- رسيدگي به برق مصرفي از روي گزارشات کنتورخوان موقعي که اين رسيدگي جهت تنظيم اطلاعات برگ تشخيص ضروري باشد.

5- تهيه پليت هاي آدرس و چاپ آنها بر روي برگ تشخيص ها و نيز برگ اخطارها.

6- تهيه اطلاعات مربوط به برگ تشخيص

7- عمليات ماشين هاي محاسبه و تهيه برگ تشخيص

8- مطابقه ورسيدگي به سوابق برگ تشخيص، با مفاد قراردادها و جداول نرخ

9- آماده کردن برگ تشخيص ها براي ارسال و تحويل آنها به مشترکين به وسيله اشخاصي غير از مأموران قرائت کنتور

10- جمع آوري و وصول برق بها

11- تنظيم موازنه هاي برق بهاء، وصول سپرده ها و تهيه گزارشات وجوه نقدي

12- ثبت دريافتي ها و ساير اقلام بستانکار يا بدهکار حسابهاي مشترکين و نقل مانده هاي پرداخت نشده.

13- موازنه کردن حسابهاي مشترکين و حسابهاي کنترل

14- تهيه و ارسال اخطاريه ها و تنظيم گزارش هاي مربوط به حسابها و برگ تشخيص هاي پرداخت نشده.

15- آخرين قرائت کنتور حسابهاي برگ تشخيص هاي پرداخت نشده موقعي که به عنوان جزوي از کارهاي روزمره مأمور مربوطه انجام مي گردد.

16- قطع و وصل مجدد سرويس برق به علت عدم پرداخت صورتحساب برق مصرفي

17- دريافت، ثبت و رسيدگي به پرسش ها وشکايات و نيز درخواستهاي مشترکين جهت تحقيقات به علاوه تهيه سفارشات لازم به استثناي هزينه انجام سفارشاتي که قابل تخصيص در حسابهاي بخصوصي براي اين قبيل سفارشات مي باشد.

هزينه هاي متفرقه فروش

اين حساب شامل هزينه كار و مصالح مصرفي و ساير هزينه هاي مربوط به فعاليت هاي فروش خواهد بود كه در ساير حسابهاي هزينه فروش پيش بيني نشده است.

بيمه اموال

الف: اين حساب شامل وجوه پرداختي به شركت هاي بيمه يا مبلغ ذخيره شده توسط شركت برق جهت جبران خسارات وارده به اموال شركت برق خواهد بود. اين حساب همچنين شامل هزينه كار و مصالح مصرفي در مورد فعاليت هاي مربوط به بيمه اموال خواهد بود.

ب: مبالغ وصولي از شركت هاي بيمه بابت جبران خسارات وارده به اموال شركت برق در بستانكار حسابي منظور خواهد شد كه اموال مورد بيمه در بدهكار آن حساب ثبت شده باشد در مواردي كه اموال خسارت ديده از رده خدمتي بركنار مي شوند، مبالغ وصولي بابت جبران و خسارات وارده در بستانكار حساب ذخيره استهلاك مربوطه منظور خواهد شد.

تعمير و نگهداري تأسيسات عمومي

الف: اين حساب شامل هزينه كار و مصالح مصرفي و ساير هزينه هاي مربوط به تعمير و نگهداري اموالي خواهد بود كه در "امور حسابداري مشتركين" ، "اداره فروش" و "امور اداري" مورد استفاده بوده و قيمت دفتري آنها در حساب 390 ساختمان ها حساب 391 لوازم و اثاثيه اداري، حساب 397 وسائل مخابراتي و حساب 398 وسائل و لوازم متفرقه منظور گرديده است.

شرکت مهندسين مشاورهارزا در سال 1346 جهت طراحي و اجراي سيستم کد گذاري متحدالشکل فعاليت خود را آغاز ودر سال 1349 در برق منطقه تهران شروع به اجراي آن نمود اين شرکت کميته استاندارد کالاي برق را تشکيل داد اين کميته با استفاده از يک کدينگ نه رقمي با ساختار ذيل اقدام به کد گذاري اجناس نمود :


 

 

                                                   *         *            ****          *           **   

 

 


 

کد گروه اصلي                                              

 

 


 

کد گروه فرعي              

 

     

شماره مشخصات جنس

 

 


 

نوع مصرف و خريد  

 

 


 

رقم کنترل کننده       

 

                    کدينگ 9 رقمي هارزا

سيستم تاتا :

از سال 1350 کار طبقه بندي و کد گذاري کالاهاي انبار نيروگاها بر اساس  قراردادي به شرکت مشاورهاي تاتا از هندوستان واگذار شد و تا سال 57 در بعضي از نيروگاهها از جمله نيروگاه مشهد اين سيستم پياده شد و چون توسط شرکت تاتا انجام گرفته به سيستم تاتا مشهور شده است .

اين سيستم با استفاده از کدينگ ده رقمي و ساختار زير پياده شده است :

 

*           ***         **           **        **

 

 

 


 

کلاس اصلي                       

 

 


 

کلاس فرعي                      

 

 


 

کلاس فرعي فرعي              

 

 


 

                شماره شناسي

 

 


 

رقم کنترل کننده        

 

 

 

 

 


نوشته شده در تاريخ شنبه نوزدهم آذر 1390 توسط جعفر

گرافيك

 

 

 


فايل سر آيند   

توابع گرافيكي:

1- راه انداز گرافيكي

inttgraph(&draiver,&mode,"path");

 

2- نتيجه راه اندازي

graphresult();    èI    

 

3- پاك كردن

cleardevice(); 

 

4- ديدگاه

setviewport(i1,i2,i3,i4,i5);

 

5-پاك كردن ديدگاه

clearviewport();

 

6- بازگشت به شيوه متني

restorecrtmode();

 

7- پايان حالت گرافيكي

closegraph();

 

8- رنگ آميزي

setcolor(i);

 

9- رنگ گذاري

setbkcolor(i);

 

10- تعيينpattern

setfillattern(s,i);

 

11- شيوه رنگ آميزي

setfillstyle(i1,i2);

 

12- رنگ گرداني

setpallette(i1,i2);

 

13-نمايش يك نقطه

putpixel(i1,i2,i3);

 

14- رنگ برداري از يك نقطه

getpixel(i1,i2);  èi3

 

15- رنگ آميزي

floodfill(i1,i2,i);

 

16-رنگ برداري

getcolor();  èi

 

17- پس رنگ برداري

getbkcolor();  èi

 

18- رسم خط

line(x1,y1,x2,y2);

 

19- رسم خط از يك نقطه معين

lineto(x,y);

 

20- رسم خط نسبي

linerel(x,y);

 

21-رسم دايره

circile(x,y,R);

22- رسم كمان

arc(x,y,start,end,R);

23-برش دايره

pieslice(i1,i2,i3,i4,i5);

24- پر كردن بيضي

fillellipse(i1,i2,i3,i4,i5,i6);

25- رسم بيضي

ellipse(i1,i2,i3,i4,i5,i6);

26- تابع برش

sector(i1,i2,i3,i4,i5,o6);

27- رسم مستطيل

rectangle(i1,i2,i3,i4);

28- رسم ميله

bar(i1,i2,i3,i4);

29- رسم ميله سه بعدي

bar3d(i1,i2,i3,i4,i5,i6);

30- رسم چند ضلعي

drawpoly(d,p);

31- پر كردن چند ضلعي

fillpoly(I,p);

32- نمايش متن

outtext(s);

33- نمايش متن در نقطه معين

outtextxy(x,y,s);

34- نحوه نمايش متن

settextstyle(i1,i2,i3);

35- تعين نقطه پيش فرض

moveto(x,y);

36- تعيين نقطه پيش فرض به صورت نسبي

moverel(x,y);

1) تابع راه اندازي گرافيكي  initgraph(driver,mode,path);     

 

 

 

    اين تابع را براي راه اندازي سيستم گرافيكي به كار مي بريم

Driver  اشاره گري است از نوع صحيح كه نشان دهنده درايور كارت گرافيكي مربوط به نمايشگر مي باشد

Mode   اشاره گري از نوع صحيح است كه نشان دهنده شيوه نمايش مي باشد

شيوه نمايش ريزولويشن (توان جدا سازي) نمايشگر را نشان مي دهد

Path از نوع رشته اي بوده و مسير فهرستي كه پرونده گرداننده (driver) در آن قرار دارد را نشان مي دهد اين پرونده پسوند (.bgi) داشته و در مسير (..\tc\bgi) قرار دارد

مثال :                                    int driver=0,mode=0;

                  initgraph(&driver,&mode,c:\tc\bgi);

2) تابع نتيجه راه اندازي    graphresult();                   

                                         

        

 

اين تابع را پس از تابع هاي ديگر گرافيكي به كار مي بريم . اگر تابع هاي ديگر كار خود را بدون اشكال انجام دهند مقدار صفر وگر نه عددي غير صفر را بازگشت داده مي شود

3) تابع پاك كردن صفحه نمايش            cleardevice();    

           

 

 

 

اين تابع را براي پاك كردن صفحه نمايش به كار مي بريم

4) ديدگاه                     setviewport(i1,i2,i3,i4,i5);                

    

 

اين تابع براي ساختن ديدگاه (پنجره گرافيكي) به كار مي رود

 پارامترها :

              (i1.i2) مختصات گوشه چپ و بالا ي پنجره

             (i3,i4) مختصات گوشه راست و پايين پنجره

               (i5) اگر اين پارامتر صفر باشد ترسيمات از پنجره بيرون مي زنند و بيرون از پنجره نيز نمايش داده مي شوند ولي اگر اين پارامتر عددي غير صفر باشد ترسيمات فقط در داخل پنجره نمايش داده مي شوند

مثال :            setviewport(120,130,350,160,1);

5) تابع پاك كردن ديدگاه  clearviewport();                             

   

 

 

6)تابع بازگشت به شيوه متن  restorectmode();                     

اين تابع را براي پاك كردن ديدگاه و از بين بردن آن به كار مي بريم 

 

 

 

 

اين تابع نمايشگر را به شيوه متن باز مي گرداند

7) تابع پايان حالت گرافيكي closegraph();                    

         

 

اين تابع باعث پايان دادن به حالت گرافيكي شده و حافظه اشغال شده توسط حالت گرافيكي را آزاد  ميكند

8)تابع رنگ آميزي setcolor();                                             

                                                                                                                                         

 

 

اين تابع براي رنگ ترسيمات به كار مي رود

مثال: setcolor(RED);             or             setcolor(4);             

 

 

 

 

 

 

 

 

 

 

 

 

    

رنگ ها عبارتند از           

رنگ

شماره

رنگ

شماره

سياه

0

خاكستري تيره

8

آبي

1

نيلي فيروزه اي

9

سبز

2

سبز روشن

10

نيلي

3

آبي روشن

11

قرمز

4

نيلي روشن

12

بنفش

5

صورتي

13

قهوه اي

6

زرد

14

خاكستري روشن

7

سفيد

15

 

9) تعيين رنگ پس زمينه    setbkcolor(i);                                     

 


اين تابع براي رنگ پس زمينه به كار مي رود

مثال: setbkcolor(3);                                                                         

كه پس زمينه را به رنگ نيلي تغيير رنگ مي دهد

 

 

 

 

 

 

 

 

 

 

 

 

نمونه برنامه :

 

#include

#include

#include

#include

void main()

{

int gd=0,gm=0;

initgraph(&gd,gm,"c:\tc\bgi");

if(garphresult() != graok)

{

puts("\ngraphics initalation error ! ");

exit(1);

}

 cleardevice();

 setviewport(120,120,130,350,160,1);

outtext)"this is a view port");

getch();

clearviewport();

restorecrtmode();

printf("We are now in text mode\n");

closegraph();

getch();

}

 

 

 

 

 

 

 

10)تعيين pattern              setpattern(s,i);                                      

 


اين تابع را براي تعيين pattern  به كار مي بريم

Pattern   : به طرح و الگويي گفته مي شود كه آن را براي رنگ آميزي شكل ها به كار مي بريم

Pattern   مستطيلي 8*8 است كه هر بيت روشن باشد آن نقطه به رنگ تعيين شده در مي آيد

بيت هاي خاموش نيز به رنگ زمينه در مي آيد در اين تابع s  رشته اي است كه از نوع آرايه 8 بايتي مي باشد هر بايت يك سطر pattern  را شكل مي دهد

i:: نيز عددي صحيح است كه تعيين كننده رنگ pattern  مي باشد

تمرين : مي خواهيم يك طرح خانه را به صورت pattern  در آوريم

ابتدا ترسيم خود را در خانه هاي 8*8 پياده مي كنيم

مراحل:  

0

0

0

1

0

0

0

0

0

0

1

1

1

0

0

0

0

1

0

0

0

1

0

0

1

1

1

1

1

1

1

0

0

1

0

0

0

1

0

0

0

1

0

1

0

1

0

0

0

1

0

1

0

1

0

0

0

1

1

1

1

1

0

0

1-      رد خانه هاي پر شده با 1 و در خانه هاي خالي 0 مگذاريم

2-      در هر سطر يك عدد باينري داريم

3-      اعداد باينري را به  اعداد هگزا دسيمال تبديل مي كنيم

4-      اعداد به دست آمده رشته مورد نظر در تابع مي باشد كه به صورت زير استفاده مي شود

 

 

 

 

00001000=8

00011100=1c

00100010=22

01111111=7f

00100010=22

00101010=2a

00111110=3e

Setfillpattern("0*8,0*1c,0*22,0*7f,0*22,0*2a,0*3e",RED);

حال pattern با طرح خانه و رنگ قرمز توليد شده است

 

11) شيوه رنگ آميزي   setfillstyle(i1,i2);                                      

 

 

 

 


i1 طرح و i2 رنگ

اين تابع طرح و رنگ ، رنگ آميزي اشكال ترسيمي را مشخص مي كنند

12) رنگ گرداني    setpallatte(i1,i2);                                     

 

 

 

 


اين تابع را براي تغيير رنگ هاي نمودار در صفحه نمايش به كار مي بريم

 

13) نمايش يك نقطه putpixel(x,y,i);                                          

 

 

 


اين تابع براي نمايش يك نقطه در مختصات (x,y) و با رنگ i مي باشد

14) رنگ برداري از يك نقطه getpixel(x,y);                                       

 

 

 

 


اين تابع رنگ يك نقطه در مختصات (x,y) را بر مي گرداند

 

15) رنگ آميزي floodfill(i1,i2,i3);                                                 

 

 

 


با اين تابع مي توان درون يك شكل بسته را با رنگ i3 پر كرد

(i1,i2) مختصات درون شكل بسته اند

 

 

 16) رنگ برداري getcolor();                                                             

 

 


اين تابع رنگ پيش فرض و كنوني قلم برنامه را بر مي گرداند

 

17) پس رنگ برداريgetbkcolor();                                               

 

 

 

 


اين تابع رنگ پيش فرض ، پس زمينه نمايش را باز مي

گرداند

 

18) رسم خط line(x1,y1,x2,y2);                                                  

 

 


اين تابع از مختصات (x1,y1) به مختصات(x2,y2) خطي رسم مي كند

19) رسم خط از يك نقطه معيين line(x,y);                                        

 

 

 

 


اين تابع از مختصات فعلي به مختصات (x,y) خطي رسم ميكند

20) رسم خط نسبي linerel(x,y);                                                         

 

 

 

 


اين تابع از مختصات فعلي به اندازه x واحد در جهت x و yواحد در جهت y جلو رفته سپس اين دو نقطه را به هم وصل مي كند

 

21)  رسم دايره   circle(x,y,R);                                                         

 

 

 


(x,y) مختصات مركزدايره و R   شعاع دايره

22)رسم كمان arc(i1,i1,i3,i4,i5);                                                   

23) برش دايره pieslice(i1,i2,i3,i4,i5);                                             

 

 

 

 

 

 

 


(i1,i2) مركز ترسيم ، i3  شروع كمان بر حسب زاويه ، i4 انتهاي كمان بر حسب زاويه و i5 شعاع مي باشد

24) پر كردن بيضي fillellipse(i1,i2,i3,i4);                                         

 

 

 

 


براي پر كردن بيضي با pattern  استفاده مي شود

(i1,i2) مركز بيضي ، (i3) شعاع افقي ، (i4) شعاع عمودي

 

25) رسم بيضي ellipse(i1,i2,i3,i4,i5,i6);                                          

 

 

 

(i1,i2) مركز بيضي ، (i3,i4) نقطه آغاز و پايان ، (i5,i6) شعاع هاي عمودي و افقي

 

 

26) تابع برشsector(i1,i2,i3,i4,i5,i6);                                                  

 

 

 

 


اين تابع براي برش هاي بيضي شكل به كار ميرود پارامتر هاي آن همانند بيضي است يعني

(i1,i2) مختصات مركز بيضي (i3,i4) آغاز و پايان كمان برش و (i5,i6) شعاع هاي افقي و عمودي را نشان مي دهد

 

برنامه نمونه :

#include

#include

Void main()

{

Int driver=DETECT,mode=0,errorcode;

Clrscr();

Initgraph(&driver,&mode,"");

Errorcode=garpfresulte();

Cleardevice();

Setcolor(WHITE):
setbkcolor(BLACK);

Pieslice(200,200,180,340,60);

Sector(200,200,180,60,40);

Closegraph();

}

 

 

27) رسم مستطيل rectangle(i1,i2,i3,i4);                                    

 

 

 


اين تابع براي رسم مستطيل استفاده مي شود (i1,i2) مختصات گوشه بالا سمت چپ و

(i3,i4) مختصات گوشه پايين سمت راست

 

                                                                                        (i1,i2)

 

 

                                       (i3,i4)

  28) رسم ميله bar(i1,i2,i3,i4);                                                            

 

 


اين تابع براي رسم مستطيل تو پر استفاده مي شود پارامترها با rectangle يكسان است با اين تفاوت كه ميله رسم شده با pattern تنظيم شده و پر مي شود

 

 

29) رسم ميله سه بعدي   bar3d(i1,i2,i3,i4,i5,i6);                           

 


پارامترهاي (i1,i2,i3,i4) همانند تابع bar  بوده و i5 عمق ميله و i6 ارتفاع ميله مي باشد

 

30) كشيدن چند ضلعي drowpoly(d,p);                                       

 

 

 


اين تابع را براي رسم چند ضلعي استفاده مي كنيم

d : عدد صحيحي است كه تعداد نقطه ها را در خود نگه مي دارد

P : آرايه اي است كه در آن مختصات اين نقطه ها نگه داري مي شود

مثال:

Int p[8]={100,100,200,100,150,150,100,100};                     

Drawpoly(4,p);                                                                       

31) تابع پر كردن چند ضلعي fillpoly(I,p);                                    

 

 

 

 


اين تابع همانند تابع كشيدن چند ضلعي ، چند ضلعي رسم ميكند كه از بهم وصل كردن i نقطه ساخته مي شود مختصات نقطه ها در آرايه p قرار دارد

چند ضلعي به رنگ pattern تعيين شده و ترسيم مي شود

 

 

#include

#include

Void main()

{

   int gd=0,md=0;

   initgraph(&gd,&gm."");

   int p1[8]={ 100,100,300,100,200,200,100,100};

    int  p2[8]={150,120,250,120,200,170,150,120};

    clrscr();

     setcolor(WHITE);

      setbkcolor(BLACK);

      rectangle(100,100,300,200);

     getch();

      setfillstyle(4,3);

      bar(100,100,300,200);

      getch();

       setfillstyle(4,3);

       bar3d(210,270,200,15,1);

       getch();

       closegraph();

   }

برنامه نمونه:

 

 

 

 

 

 

 

 

 

 

 

 

32)نمايش متن     outtex(s);                                                               

 

 

 

 


اين تابع براي نمايش يك رشته در حالت گرافيكي بوده و پارامتر s رشته مي باشد

33)نمايش متن در نقطه اي معين oyttextxy(x,y,s);                                

 

 

 

 

 


اين تابع براي نمايش متن در نقطه مورد نظرمي باشد

(x,y) مختصات نقطه

S رشته مورد نظر

 

 

 

34) نحوه نمايش متن  settextstyle(font,vethor,size);                          

 

 


اين تابع پارامتر هاي زير را شامل مي شود

Font براي تعيين font چاپ مي باشد 9..1)

Vethor اگر صفر باشد متن به صورت افقي و اگر يك باشد به صورت عمودي نمايش داده مي شود

Size براي اندازه چاپ رشه مي باشد

مثال: settextstyle(1,0,5);                                            

Outtext("HELLO");                                               

 

35) تعيين نقطه پيش فرض  moveto(x,y);                                          

 

 

 


اين تابع را براي جا به جايي نقطه پيش فرض گرافيكي در صفحه نمايش به كار مي بريم

با اين تابع نقطه پيش فرض به نقطه اي مي رود كه مختصاتش (x,y) است

مثال: moveto(80,120);                                         

36)جا بجايي نسبي   moverel(x,y);                                                     

 

 

 

 


اين تابع نقطه پيش فرض گرافيكي را به اندازه x ستون و y سطر جا بجا مي كند اگر نقطه پيش فرض در نقطه (a,b) قرار داشته باشد اين تابع آن را به نقطه  (a+x,b+y) مي برد

مثال : moverel(,10);                                  

#include

#include

Void main()

{

int gd=0,gm=0;

initgraph(&gd,&gm,"");

setcolor(15);

setbkcolor(0);

cleardevice();

for(int  v=0;v<1;++v)  {

for( int  i=0;i<4;++i)   {

settextstyle(i,v,2);

outtextxy(150+i*30,100+i*50,"HELLO");

}

getch();

closegraph();

}

 

 

 


برنامه نمونه :

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

قسمت دوم

توابع پيشرفته ماوس

 

 

 

 

 

 

 

 


براي نصب درايو ماوس :

void installmouse(void)

{

asm {

mov ax,00

int 33H

}

}

براي نمايش اشاره گر ماوس

 

void showmouse(void)

{

asm {

 mov ax,01

 int 33H

}

}

براي مخفي كردن اشاره گر ماوس

void hidemouse(void)

{

asm {

mov ax,02

int 33H

}

}

 

 

برگرداندن مختصات x اشاره گر

int getxmouse(void)

{

char I;

asm {

 mov ax,05

int 33H

mov I,cx

}

return I;

}

برگرداندن مختصات y ماوس

int getymouse(void)

{

char I;

asm {

mov ax,05

int 33H

mov I,dx

}

return I;

}

برگرداندن كليد ماوس

int geteventmouse(void)

{

char I;

asm {

mov ax,05

int 33H

mov I,bx

}

return I;

}

 

 

اگر تابع عدد صفر برگرداند هيچ كليدي فشرده نشده و اگر يك برگرداند كليك و اگر دو برگرداند دبل كليك

 


نوشته شده در تاريخ شنبه نوزدهم آذر 1390 توسط جعفر

AI به دو مکتب فکري تقسيم مي شود:

  1. AI قراردادي (Coventional AI) : توسط رسمي سازي (formalism)، تحليل آماري، تعاريف و اثبات مشخص مي گردد (مثل يادگيري ماشين و سيستم هاي خبره).
  2. هوش محاسباتي: با ويژگي هاي غيررسمي، غيراحتمالي و اغلب با رويکردهاي آزمون و خطا شناخته مي شود. هوش محاسباتي به سه بخش اصلي تقسيم مي گردد:
    1. شبکه هاي عصبي
    2. سيستم هاي فازي
    3. محاسبه تکاملي

 

 

الگوريتم هاي تکاملي تکنيک پياده سازي مکانيزم هايي مانند توليد مجدد[1] ، جهش، ترکيب مجدد(ادغام)، انتخاب طبيعي (فرايندي که توسط آن افرادي داراي مشخصه هاي مطلوب با احتمال بيشتري براي توليد افراد بعدي به کار مي روند. پس مشخصه هاي مطلوب در نسل بعد عمومي تر مي شوند) و بقاي شايسته ترين است. ولي محاسبات تکاملي داراي مشخصه هاي زير مي باشند:

  • پيشروي، رشد يا توسعه تکراري
  • مبني بر جمعيت
  • جستجوي تصادفي هدايت شده
  • پردازش موازي
  • ملهم از زيست شناسي

 

محاسبات تکاملي اغلب شامل الگوريتم هاي بهينه سازي فرااکتشافي است مانند:

-          الگوريتم هاي تکاملي (شامل الگوريتم ژنتيک، برنامه نويسي تکاملي، استراتژي تکاملي، برنامه نويسي ژنتيک و سيستم هاي طبقه بندي کننده يادگير (Learning Classifier Systems) )

-          هوش گروهي[2] (شامل بهينه سازي گروه مورچگان و بهينه سازي گروه ذرات[3])

و تا حد کمتري شامل:

-          خودسازماندهي (نقشه هاي خودسازمانده ، گاز عصبي در حال رشد، يادگيري رقابتي)

-          تکامل تفاضلي (ديفرانسيلي)

-          زندگي مصنوعي

-          الگوريتم هاي فرهنگ

-          سيستم هاي ايمني مصنوعي

-          مدل تکاملي قابل يادگيري

 

هوش گروهي  (SI) يک تکنيک هوش مصنوعي مبني بر بررسي رفتار جمعي در سيستم هاي غير متمرکز و خودسازمانده است . اين واژه توسط Wang  و Beni در سال 1989 و در مبحث سيستم هاي رباتي سلولي[4] مطرح شد.

SI  معمولا از جمعيتي از عاملهاي ساده تشکيل شده که به طور محلي با يکديگر و محيطشان تعامل دارند. با اينکه ساختار کنترلي متمرکزي براي تحميل رفتار عاملها وجود ندارد، تعاملات محلي بين عاملها اغلب منجر به بروز يک رفتار سراسري مي گردد. مثال:گروه مورچگان، ازدحام پرندگان و دسته حيوانات.

 

سيستم هاي نمونه:

  • ACO: يک الگوريتم بهينه سازي فرااکتشافي است که مي تواند راه حلهاي تقريبي را براي مسايل بهينه سازي ترکيبي مشکل بيابد. در ACO، مورچه هاي مصنوعي با حرکت روي گراف مساله راه حلها را مي سازند و با تقليد از مورچه هاي حقيقي، روي گراف فرومون مصنوعي به جا مي گذارند، به نحوي که مورچه هاي مصنوعي آينده راه حلهاي بهتري بيابند. ACO مي تواند با موفقيت بر روي مسايل بهينه سازي زيادي اجرا شود. ؟؟؟؟؟؟؟؟؟ مسايل مناسب در مقاله Dorigo
  • بهينه سازي گروه ذرات: PSO الگوريتم بهينه سازي سراسري براي بحث در مورد مسايلي است که در آنها بهترين راه حل به صورت يک نقطه يا سطح در فضاي چندبعدي نشان داده مي شود. فرضيه ها در اين فضا رسم مي شوند و با يک سرعت اوليه و کانال ارتباطي بين ذرات شروع مي شوند. سپس ذرات در فضاي راه حل حرکت مي کنند و بعد از هر مهر زماني، براساس معيار شايستگي، مورد ارزيابي قرار مي گيرند. بعد از مدتي ذرات به طرف ذراتي که داراي مقادير شايستگي بهتر در گروه ارتباطي خودشان هستند، سرعت مي گيرند. مزيت اصلي اين رويکرد نسبت به ساير استراتژي هاي کمينه سازي مانند آنيلينگ شبيه سازي شده اين است که تعداد زياد افرادي که گروه ذرات را تشکيل مي دهند، تکنيکي بسيار ارتجاعي را براي مساله کمينه سازي محلي به کار مي برند.

ذرات داراي دو قابليت هستند : حافظه مربوط به بهترين موقعيت خود و دانش بهترين موقعيت گروه. افراد يک دسته موقعيتهاي خوب را با يکديگر مبادله مي کنند و موقعيت و سرعت خود را برمبناي اين موقعيتهاي خوب تنظيم مي سازند. اين ارتباط از دو طريق صورت مي گيرد:

v     بهترين سراسري که براي همه شناخته شده است.

v     بهترين هاي همسايه که هر ذره فقط با زيرمجموعه اي از دسته در مورد بهترين موقعيتها ارتباط دارد.

 

  • جستجوي پخشي احتمالي[5]: SDS يک جستجوي سراسري مبني بر عامل و تکنيک بهينه سازي است که براي مسايلي که تابع هدف مي تواند به چندين تابع جزئي مستقل تجزيه شود مناسب است. هر عامل يک فرضيه را نگهداري مي کند که به طور مکرر با يک تابع هدف جزئي که به طور تصادفي انتخاب مي شود ارزيابي مي شود که پارامترهاي آن با فرضيه فعلي عامل تعيين مي گردد. اطلاعات فرضيه ها از طريق ارتباط بين عاملي در جمعيت پخش مي گردد. برخلاف ارتباط stigmergetic  مورد استفاده در ACO، در SDS عاملها فرضيه ها را از طريق استراتژي ارتباطي يک به يک، مبادله مي کنند. SDS هم الگوريتم جستجو و هم Optimisation قدرتمند و موثري است که به خوبي به بيان رياضي توصيف مي گردد.

کاربرد تکنيکهاي مبني بر هوش گروهي : کنترل خودروهاي بدون سرنشين، نقشه برداري نجومي.

 

EP: اولين بار در 1960 توسط  Lawrence J.Fogel  براي تکامل شبيه سازي شده به عنوان يک فرايند يادگيري با هدف توليد هوش مصنوعي به کار رفت. Fogel ماشينهاي حالت متناهي را به عنوان پيشگويي کننده به کار برد و آنها را تکامل داد.

امروزه EP برخلاف ساير گويشها، گويشي از محاسبه تکاملي با ساختار (نمايش) غيرثابت است و به سختي از استراتژي هاي تکاملي شناخته مي شود.

عملگر تغيير اصلي در آن جهش است، اعضاي يک جمعيت به جاي اعضاي يک species به عنوان بخشي از species  خاص درنظر گرفته مي شوند، پس هر والد با استفاده از يک انتخاب بازمانده ( ) يک فرزند توليد مي کند.

 

برنامه نويسي ژنتيک(GP)

يک متدولوژي خودکار الهام گرفته شده از تکامل زيستي است براي يافتن برنامه هاي کامپيوتري که الگوريتمي تکاملي را براي بهينه کردن جمعيتي از برنامه هاي کامپيوتري برحسب چشم انداز شايستگي تعيين شده توسط توانايي برنامه براي انجام وظيفه محاسباتي داده شده به کار مي رود.

در ابتدا دستورات برنامه و مقادير داده در قالب ساختارهاي درختي سازماندهي مي شدند بنابراين از زبانهايي استفاده مي شد که به طور طبيعي داراي چنين ساختارهايي بودند مانند Lisp، اما امروزه برنامه­هاي کامپيوتري در GP مي توانند با زبانهاي متنوعي نوشته شوند.

 

الگوريتم ژنتيک از دانشنامه آزاد ويکي پديا

الگوريتم ژنتيک(Genetic Algorithm - GA) تکنيک جستجويي در علم رايانه براي يافتن راه‌حل تقريبي براي بهينه‌سازي و مسائل جستجو است. الگوريتم ژنتيک نوع خاصي از الگوريتمهاي تکامل است که از تکنيکهاي زيست‌شناسي فرگشتي مانند وراثت و جهش استفاده مي‌کند.

الگوريتمهاي ژنتيک معمولاً به عنوان يک شبيه‌ساز کامپيوتر که در آن جمعيت يک نمونهٔ انتزاعي (کروموزومها) از نامزدهاي راه‌حل يک مسأله بهينه‌سازي به راه حل بهتري منجر شود، پياده‌سازي مي‌شوند. به طور سنتي راه‌حلها به شکل رشته‌هايي از ۰ و ۱ بودند، اما امروزه به گونه‌هاي ديگري هم پياده‌سازي شده‌اند. فرضيه با جمعيتي کاملاً تصادفي منحصر بفرد آغاز مي‌شود و در نسلها ادامه مي‌يابد. در هر نسل گنجايش تمام جمعيت ارزيابي مي‌شود، چندين فرد منحصر در فرايندي تصادفي از نسل جاري انتخاب مي‌شوند (بر اساس شايستگيها) و براي شکل دادن نسل جديد، اصلاح مي‌شوند (کسر يا دوباره ترکيب مي‌شوند) و در تکرار بعدي الگوريتم به نسل جاري تبديل مي‌شود.

عملگرهاي يک الگوريتم ژنتيک

در هر مسئله قبل از آنکه بتوان الگوريتم ژنتيک را براي يافتن يک پاسخ به کار برد به دو عنصر نياز است: اول روشي براي ارائه يک جواب به شکلي که الگوريتم ژنتيک بتواند روي آن عمل کند لازم است. به شکل سنتي يک جواب به صورت يک رشته از بيتها، اعداد يا نويسه ها.نمايش داده مي‌شود.دوم روشي لازم است که بتواند کيفيت هر جواب پيشنهاد شده را با استفاده از توابع تناسب محاسبه نمايد. مثلاً اگر مسئله هر مقدار وزن ممکن را براي يک کوله پشتي مناسب بداند بدون اينکه کوله پشتي پاره شود، (مسئله کوله پشتي را ببينيد) يک روش براي ارائه پاسخ مي‌تواند به شکل رشته اي از بيتهاي ۰ و۱ در نظر گرفته شود, که ۱ يا ۰ بودن نشانه اضافه شدن يا نشدن وزن به کوله پشتي است.تناسب پاسخ، با تعيين وزن کل براي جواب پيشنهاد شده اندازه گيري مي‌شود.

الگوريتم ژنتيک : الگوريتم ژنتيک که به‌عنوان يکي از روشهاي تصادفي بهينه يابي شناخته شده, توسط جان هالند در سال ۱۹۶۷ ابداع شده‌است. بعدها اين روش با تلاشهاي گلدبرگ ۱۹۸۹, مکان خويش را يافته و امروزه نيز بواسطه تواناييهاي خويش , جاي مناسبي در ميان ديگر روشها دارد. روال بهينه يابي در الگوريتم ژنتيک براساس يک روند تصادفي- هدايت شده استوار مي‌باشد. اين روش , بر مبناي نظريه تکامل تدريجي و ايده‌هاي بنيادين داروين پايه گذاري شده‌است.در اين روش , ابتدا براي تعدادي ثابت که جمعيت ناميده مي‌شود مجموعه‌اي از پارامترهاي هدف بصورت اتفاقي توليد مي‌شود , پس از اجراي برنامه شبيه ساز عددي را که معرف انحراف معيار و يا برازش آن مجموعه از اطلاعات است را به آن عضو از جمعيت مذکور نسبت مي‌دهيم. اين عمل را براي تک تک اعضاي ايجاد شده تکرار مي‌کنيم , سپس با فراخواني عملگرهاي الگوريتم ژنتيک از جمله لقاح , جهش و انتخاب نسل بعد را شکل مي‌دهيم و اين روال تا ارضاي معيار همگرايي ادامه داده خواهد شد.


بصورت متداول سه معيار به‌عنوان معيار توقف شمرده مي‌شود: I. زمان اجراي الگوريتم II. تعداد نسلهايي که ايجاد مي‌شوند III. همگرايي معيار خطا

فنوتيپ : ( ويکي : گونه – ريخت، صفات وراثتي )

ژنوتيپ:( آريان پور : نوع معرف و نماينده يك جنس (ازموجودات داراي صفات مشابه ارثي).

در مبحث الگوريتمهاي ژنتيک ، افراد، ژنوتيپ[6] ناميده مي شوند، درحاليکه راه حلهاي کدشده توسط افراد، فنوتيپ[7] نام دارند( از مقاله Blum).

The genotype is the specific genetic makeup (the specific genome) of an individual, in the form of DNA. Together with the environmental variation that influences the individual, it codes for the phenotype of that individual. Non-hereditary mutations are not classically understood as representing the individuals' genotype.

 the genome of an organism is a complete DNA sequence of one set of chromosomes.

In biology the genome of an organism is its whole hereditary information and is encoded in the DNA. gene and chromosome

ژنوم به صورت DNA کد مي شود.

  1. one can know about genotype by observing DNA; one can know about phenotype by observing outward appearance of an organism).
  2. Genotype and phenotype are not always directly correlated. Some genes only express a given phenotype in certain environmental conditions. Conversely, some phenotypes could be the result of multiple genotypes.

The phenotype of an individual organism is either its total physical appearance and constitution or a specific manifestation of a trait, such as size, eye color, or behavior that varies between individuals.

Many phenotypes are determined by multiple genes and influenced by environmental factors.

The interaction between genotype and phenotype has often been conceptualized by the following relationship:

genotype + environment → phenotype

A slightly more nuanced version of the relationships is:

genotype + environment + random-variation → phenotype

 



[1]  Reproduction

[2]  Swarm Intelligence

[3]  Particle Swarm Optimization

[4]  Cellular Robotic Systems

[5]  Stochastic Diffusion Search

[6] Genotypes

[7] Phenotypes


نوشته شده در تاريخ شنبه نوزدهم آذر 1390 توسط جعفر

مقدمه

در دنیای بشدت رقابتی امروز، اطلاعات بعنوان یکی از فاکتورهای تولیدی مهم پدیدار شده است. در نتیجه تلاش برای استخراج اطلاعات از داده ها توجه بسیاری از افراد دخیل در صنعت اطلاعات و حوزه های وابسته را به خود جلب نموده است.
حجم بالای داده های دائما در حال رشد در همه حوزه ها و نیز تنوع آنها به شکل داده متنی، اعداد، گرافیکها، نقشه ها، عکسها،  تصاویر ماهواره ای و عکسهای گرفته شده با اشعه ایکس نمایانگر پیچیدگی کار تبدیل داده ها به اطلاعات است. علاوه بر این، تفاوت وسیع در فرآیندهای تولید داده مثل روش آنالوگ مبتنی بر کاغذ و روش دیجیتالی مبتنی بر کامپیوتر، مزید بر علت شده است. استراتژیها و فنون متعددی برای گردآوری، ذخیره، سازماندهی و مدیریت کارآمد داده های موجود و رسیدن به نتایج معنی دار بکار گرفته شده اند. بعلاوه، عملکرد مناسب ابرداده که داده ای درباره داده است در عمل عالی بنظر میرسد.
 
پیشرفتهای حاصله در علم اطلاع رسانی و تکنولوژی اطلاعات، فنون و ابزارهای جدیدی برای غلبه بر رشد مستمر و تنوع بانکهای اطلاعاتی تامین می کنند. این پیشرفتها هم در بعد سخت افزاری و هم نرم افزاری حاصل شده اند. ریزپردازنده های سریع، ابزارهای ذخیره داده های انبوه پیوسته و غیر پیوسته، اسکنرها، چاپگرها و دیگر ابزارهای جانبی نمایانگر پیشرفتهای حوزه سخت افزار هستند. پیشرفتهای حاصل در نظامهای مدیریت بانک اطلاعات در طی چهار دهه گذشته نمایانگر تلاشهای بخش نرم افزاری است. این تلاشها در بخش نرم افزار را میتوان بعنوان یک حرکت پیشرونده از ایجاد یک بانک اطلاعات ساده تا شبکه ها و بانکهای اطلاعاتی رابطه ای و سلسله مراتبی برای پاسخگویی به نیاز روزافزون سازماندهی و بازیابی اطلاعات ملاحظه نمود. بدین منظور در هر دوره، نظامهای مدیریت بانک اطلاعاتی مناسب سازگار با نرم افزار سیستم عامل و سخت افزار رایج گسترش یافته اند. در این رابطه میتوان از محصولاتی مانند، Dbase-IV, Unify, Sybase, Oracle  و غیره نام برد.
 
داده کاوی یکی از پیشرفتهای اخیر در راستای فن آوریهای مدیریت داده هاست. داده کاوی مجموعه ای از فنون است که به شخص امکان میدهد تا ورای داده پردازی معمولی حرکت کند و به استخراج اطلاعاتی که در انبوه داده ها مخفی و یا پنهان است کمک می کند. انگیزه برای گسترش داده کاوی بطور عمده از دنیای تجارت در دهه 1990 پدید آمد. مثلا داده کاوی در حوزه بازاریابی، بدلیل پیوستگی غیرقابل انتظاری که بین پروفایل یک مشتری و الگوی خرید او ایجاد میکند اهمیتی خاص دارد.
  
تحلیل رکوردهای حجیم نگهداری سخت افزارهای صنعتی، داده های هواشناسی و دیدن کانالهای تلوزیونی از دیگر کاربردهای آن است. در حوزه مدیریت کتابخانه کاربرد داده کاوی بعنوان فرایند ماخذ کاوی نامگذاری شده است. این مقاله به کاربردهای داده کاوی در مدیریت کتابخانه ها و موسسات آموزشی می پردازد. در ابتدا به چند سیستم سازماندهی داده ها که ارتباط نزدیکی به داده کاوی دارند می پردازد؛ سپس عناصر داده ای توصیف میشوند و درپایان چگونگی بکارگیری داده کاوی در کتابخانه ها و موسسات آموزشی مورد بحث قرار گرفته و مسائل عملی مرتبط در نظر گرفته می شوند.

مديريت ذخيره سازی و دستيابی اطلاعات

داده های اطلاعاتی(Data) به عنوان يکی از منابع حياتی سازمان شناخته می شود و بسياری از سازمان ها با اطلاعات و دانش سازمانی خود مانند ساير دارايی های ارزشمندشان برخورد می کنند .
 نکته: داده اطلاعاتی (Data) به اطلاعات خام سازمان اتلاق می‌شود و اطلاعات (Information) به داده‌های پردازش شده. همچنين داده های پردازش شده پس از طبقه بندی و آناليز به دانش سازمان (Knowledge) تبديل می گردند.

حال تصور نماييد، دسترسی به اطلاعات (Information) در شرايطی که داده‌ها به روش نامناسبی نگهداری شوند و يا روش ضابطه مندی جهت دستيابی به آنها وجود نداشته باشد تا چه حد مشکل است . برای رسيدن به يک سيستم اطلاعاتی مناسب، داده‌ها می بايست به صورتی منطقی طبقه بندی و ذخيره شوند تا استفاده از آن ها ساده‌تر بوده، با کارايی بيشتری تحليل شوند و سريعتر مورد استفاده قرار گيرند و در نتيجه مديريت بهتری بر آن ها اعمال شود. در اين راستا مجموعه خدمات زير در زمينه مديريت بانک های اطلاعاتی توسط اين شرکت ارايه می‌شود :

ساختار بانک اطلاعاتی سازمان:
داده های سازمان ها در انواع بانک های اطلاعاتی و با ساختارهای متنوعی ذخيره می‌گردند . طراحی و سازماندهی اين ساختارها، بکارگيری و انتقال به بانک‌های اطلاعاتی پيشرفته و بهينه سازی آن ها يکی خدماتی است که توسط درسا رسانه هوشمند ارايه می شود .

 

داده کاوی (Data Mining):

کاوش‌های ماشینی در داده‌ها یا داده‌کاوی (Data mining) را باید یکی از سامانه‌های هوشمند (Intelligent systems) دانست. سامانه‌های هوشمند زیر شاخه‌ایست بزرگ و پر‌کاربرد از یادگیری ماشینی که خود زمینه‌ای‌ست در هوش مصنوعی. زمینه علمی جدید و پهناور یادگیری ماشینی (که "کاوش‌های ماشینی در داده‌ها" بخشی ست بزرگ از زیر شاخه سامانه‌های هوشمند آن ست)، به واقع همان امتداد و استمرار دانش کهن و همه جا گیر آمار است در جهت ماشینی کردن یادگیری، تعلّم، و سرانجام، دانش.
داده کاوی به عنوان مهمترين کاربرد Data Warehouse یاانباره های داده شناخته می شود . به وسيله داده کاوی داده های موجود مورد تحليل قرار می گيرند تا روندهای احتمالی، ارتباط‌هاي غير محسوس و الگو های مخفی داده ها از بين انبوه داده ها، شناسايی شوند .
در اين فرايند از الگوريتم های پيچيده رياضی و آماری استفاده می شود تا داده ها تبديل به دانش سازمان شوند.


امروزه با حجم عظيمي از داده ها روبرو هستيم. براي استفاده از آنها به ابزارهاي كشف دانش نياز داريم. داده كاوي به عنوان يك توانايي پيشرفته در تحليل داده و كشف دانش مورد استفاده قرار مي گيرد. داده كاوي در علوم (ستاره شناسي،...)‌در تجارت (تبليغات، مديريت ارتباط با مشتري،...) در وب (موتورهاي جستجو،...) در مسايل دولتي (فعاليتهاي ضد تروريستي،...) كاربرد دارد. عبارت داده كاوي شباهت به استخراج زغال سنگ و طلا دارد. داده كاوي نيز اطلاعات را كه در انبارهاي داده مدفون شده است، استخراج مي كند.
در واقع هـــــدف از داده كاوي ايجاد مدل هايي براي تصميم گيري است. اين مدلها رفتارهاي آينده را براساس تحليلهاي گذشته پيش بيني مي كنند. به كاربردن داده كاوي به عنوان اهرمي براي آماده سازي داده ها و تكميل قابليتهاي انباره داده (DATA WAREHOUSE) ، بهترين موقعيت را براي به دست آوردن برتريهاي رقابتي ايجاد مي كند.
سيستم هاي بانك داده (DATA BASE) ، نقشي كليدي در سيستم هاي مديريت و انبار داده، بازي مي كنند. يك سيستم بانك داده، شامل فايل هاي بانك داده و سيستم هاي مديريت بانك داده است.
اغلب تجارت ها به تصميم گيريهاي استراتژيك و يا اتخاذ خط مشي هاي جديد براي خدمت رساني بهتر به مشتريان نياز دارند. به عنوان مثال فروشگاهها آرايش مغازه خود را براي ايجاد ميل بيشتر به خريد مجدداً طراحي مي كنند و يا خطوط هواپيمايي تسهيلات خاصي را براي مشتريان جهت پروازهاي مكرر آنها در نظر مي گيرند. اين دو مثال به داده هايي در مورد رفتار مصرفي گذشته مشتريان براي تعيين الگوهايي به وسيله داده كاوي، نياز دارد. براساس اين الگوها تصميمـــات لازم اتخاذ مي شود. در واقع ابزار داده كــــاوي، داده را مي گيرد و يك تصوير از واقعيت به شكل مدل مي سازد، اين مدل روابط موجود در داده ها را شرح مي دهد.

از نظر فرايندي فعاليتهاي داده كاوي به سه طبقه بندي عمومي تقسيم مي شوند:

اكتشاف : فرايند جستجو در يك بانك داده براي يافتن الگوهاي پنهان، بدون داشتن يك فرضيه از پيش تعيين شده درباره اينكه اين الگو ممكن است چه باشد.

مانند تحليلهايي كه برحسب كالاهاي خريداري شده صورت مي گيرد، اينگونه تحليلهاي سبدي نشانگر موارديست كه مشتري تمايل به خريد آنها دارند. اين اطلاعات مي تواند به بهبود موجودي، استراتژي طراحي، آرايش فروشگاه و تبليغات منجر گردد.

مدل پيش بيني : فرايندي كه الگوهاي كشف شــده از بانك داده را مي گيرد و آنها را براي پيش بيني آينده به كار مي برد.

مانند پيش بيني فروش در خرده فروشي، الگوهاي كشف شده براي فروش به آنها كمك مي كند تا تصميماتي را در رابطه با موجودي اتخاذ كنند.

تحليلهاي دادگاهي : به فرايند به كارگيري الگوهاي استخراج شده براي يافتن عوامــل داده اي نامعقول و متناقض مربوط مي شود.
مانند شناسايي و تشخيص كلاهبرداري در موسسات مالي. كلاهبرداري به ميزان زيادي پرهزينه و زيان آور است، بانكها مي توانند با تحليل دادوستدهاي جعلي گذشته الگوهايي را براي تشخيص و كشف كلاهبرداري به دست آورند.

 از نمایی دیگر، داده كاوي ، بعنوان روشي در استخراج دانش از متون، يكي از موضوعات مهم در گستره اي از اعمال مديريت اطلاعات است. در اين ميان آنچه از اهميت فوق العاده اي برخوردار است ارايه راه‌كارهايي براي مواجه با اين حجم عظيم اطلاعاتي و استفاده بهينه از اطلاعات در جهت خلق دانش، توليد سينرجي و در نهايت افزايش خرد جمعي است.
در سالهاي اخير اهميت متون به عنوان منابع با پتانسيل اطلاعاتي بسيار بالا به نحو گسترده‌اي مورد توجه قرار گرفته به طوري كه كشف دانش از متون به عنوان يكي از مهمترين فعاليتهاي محققين حوزه هوش مصنوعي و فناوري اطلاعات قرار گرفته است. تحقيقات بسياري صورت گرفته اما محدوده فعاليت بقدري گسترده است كه نيازمند توجه بيشتري مي‌باشد.
امروزه محققان به اين مسئله معترفند كه با وجود انجام تحقيقات بي وقفه در زمينه كاري خود، نمي‌توانند همزمان با پيشرفت دانش، معلومات خود را به روز نگاه دارند. بعنوان مثال بانك اطلاعاتي Medline در حال حاضر حاوي 10 ميليون چكيده مقاله است و هر هفته بين هفت تا هشت هزار چكيده مقاله به اين بانك اطلاعاتي افزوده مي‌شود. در اين بين شايد همه مقالات مربوط به يك دانش خاص نباشند، اما تعداد مقالات تخصصي كه در حوزه تحقيق يك دانش خاص قرار مي‌گيرد به اندازه اي است كه يك نفر نمي‌تواند ادعا كند همه آنها را مطالعه كرده است بعلاوه نقش مطالعات عميق و گسترده و استخراج ايده ها و دانش جديد از مطالب مطالعه شده بر كسي پوشيده نيست.
در اين ميان اينترنت بعنوان بزرگترين منبع اطلاعاتي همگاني، تشكيل يافته از صد ها ميليون صفحه اطلاعات است كه به جهت همگاني بودن آن و نبود آينده‌نگري كافي در زمان تشكيل و رشد آن ، متحمل نگاهداري اطلاعات نويسندگان، محققان ، انديشمندان و غيره به همان نحوي كه آنها مي نوشتند گرديد. نبود يك استاندارد همه جانبه و دقيق در تنظيم متون و قرار گيري اين مجموعه عظيم بصورتي غير ساختيافته و يا بعضاً نيمه ساختيافته، جامعه اطلاعاتي را دچار نوعي سردر گمي و مشكل در دستيابي به اطلاعات مورد نياز كرده بطوري‌كه براي يافتن مطالب مورد نظر خود متحمل هزينه هاي زماني بسياري مي‌گردند. محققان به ارايه راه كارهايي براي ساخت يافته كردن اطلاعات نمودند و با ارايه زبانهاي نشانه گذاري استاندارد نظير XML تا حد زيادي جلوي اين از هم پاشيدگي اطلاعاتي را گرفتند اما آنچه همچنان باقي است وجود بسياري از متون غير ساخت‌يافته مي‌باشد؛ در همين راستا ارايه ابزاهايي كه با بررسي متون بتوانند تحليلي روي آنها انجام دهند منجر به شكل گيري زمينه‌اي جديد در هوش مصنوعي و فناوري اطلاعات گرديده كه به يادگيري متن معروف است.
اين حوزه تمام فعاليتهايي كه به نوعي به دنبال كسب دانش از متن هستند را شامل مي‌گردد. آناليز داده هاي متني توسط تكنيكهاي يادگيري ماشين، بازيابي اطلاعات هوشمند، پردازش زبان طبيعي يا روشهاي مرتبط ديگر همگي در زمره مقوله يادگيري متن قرار مي‌گيرند. يكي از روشهايي كه ذكر گرديد، استفاده از تكنيكهاي يادگيري ماشين در زمينه پردازش متن است، مسئله قابل تامل اين است كه اين تكنيكها در ابتدا در مورد داده هاي ساخت‌يافته به كار گرفته شدند و علمي به نام داده كاوي را بوجود آوردند. داده هاي ساخت‌يافته به داده هايي اطلاق مي‌گردد كه بطور كاملاً مستقل از همديگر ولي يكسان از لحاظ ساختاري در يك محل گردآوري شده اند. انواع بانكهاي اطلاعاتي را مي‌توان نمونه هايي از اين دسته اطلاعات نام برد. در اينصورت مسئله داده كاوي عبارت از كسب اطلاعات و دانش از اين مجموعه ساخت يافته. اما در مورد متون كه عمدتاً غير ساخت يافته يا نيمه ساخت يافته هستند ابتدا بايد توسط روشهايي ، آنها را ساختارمند نمود و سپس از اين روشها براي استخراج اطلاعات و دانش از آنها استفاده كرد. به هر حال استفاده از داده كاوي در مورد متن خود شاخه اي ديگر را در علوم هوش مصنوعي بوجود آورد به نام متن كاوي . از جمله فعاليتهاي بسيار مهم در اين زمينه، طبقه بندي (دسته بندي) متن مي‌باشد.
طبقه بندي متن، يعني انتساب اسناد متني بر اساس محتوي به يك يا چند طبقه از قبل تعيين شده، يكي از مهمترين مسايل در متن كاوي است؛ مرتب كردن بلادرنگ نامه هاي الكترونيكي يا فايلها در سلسله مراتبي از پوشه ها، تشخيص موضوع متن، جستجوي ساختيافته و/ يا پيدا كردن اسنادي كه در راستاي علايق كاربر ميباشد، از جمله كاربردهاي مبحث طبقه بندي (دسته بندي-كلاسه بندي ) متن است. در بسياري از موارد ، افراد حرفه اي آموزش ديده، براي طبقه بندي متون جديد به كار گرفته مي‌شوند. اين فرآيند بسيار زمان بر و پر هزينه است و لذا كاربرد خود را محدود مي‌سازد، به همين منظور علاقه روزافزوني به توسعه فناوري هايي در دسته بندي خودكار متن ابراز ميشود.
در هر حال در جوامع اطلاعاتي امروزي آنچه از اهميت روزافزوني برخوردار است، اطلاعات و تبادل آن است و در اين راستا به توسعه فناوري هاي مرتبط پرداخته مي‌شود، اما يك مرحله كاملاٌ جديد تر و كاملاً مورد توجه جوامع فرا صنعتي، خلق دانش جديد از اطلاعات قبلي است كه اين جوامع آنرا كليد موفقيت خود در آينده دانسته و به سختي در اين زمينه فعاليت مي‌نمايند. بر ما است تا ضمن ارتقاي فناوري اطلاعات در كشور و ايجاد زير ساختهاي لازمه در اسرع وقت، به اينگونه مسائل جدي‌تر كه در زمره Information High Technology قرار مي‌گيرند، بپردازيم.

 

پیشرفت در تکنولوژیهای داده پردازی
سازمانهای بزرگ و چند- مکانه مثل بانکها، دفاتر هواپیمایی و فروشگاههای زنجیره ای با حجم زیادی از داده ها که ناشی از عملکرد روزانه آنهاست روبرو هستند. بطور سنتی چنین داده هایی به دو دسته تقسیم شده اند:
 1. رکوردهای اصلی
 2.  رکوردهای عملیاتی   
  فرض بر این است که رکوردهای اصلی حاوی اطلاعات پایه هستند که معمولا چندان تغییر نمی کنند در حالیکه رکوردهای عملیاتی با توجه به طبیعت عملیات تجاری حتی بطور ساعتی تغییر خواهند کرد.   
سیستمهای مدیریت پایگاه داده مناسب برای پیوند دادن این دو مجموعه اطلاعاتی  و تهیه گزارشهای استاندارد جهت کنترل فعالیتها گسترش یافتند.  سیستم اطلاعات مدیریت رایج برای پشتیبانی عملیات و سرویس دهی به چند کاربر در سطوح مختلف سازمان مبتنی بر این نظریه است.
بمنظور کمک به تصمیم گیری راهبردی، نظریه تاسیس بانک اطلاعات رکوردهای اصلی به نظریه سازماندهی دیتا مارت و انبار داده ها تغییر یافت.  استخراج اطلاعات از رکوردهای عملیاتی یا پایگاههای اطلاعات عملیاتی و سازماندهی آن برای تحلیل استاندارد یا زمانی فلسفه اولیه و اصولی چنین پیشرفتهایی است. گرچه، دیتا مارت و انبار داده ها از نظر هدف و ساختار با هم متفاوتند.
 
دیتامارت

دیتا مارت اغلب کوچک است و بر یک موضوع یا دپارتمان خاص متمرکز است. بنابراین پاسخگوی یک نیاز داخلی است. طرح بانک اطلاعات برای یک دیتامارت حول ساختار اتصال ستاره ای ساخته شده است که بهینه برای نیازهای کاربران دپارتمان است. دیتامارت معمولا با ابزارهای کامپیوتری که انعطاف پذیری تحلیل را تامین میکنند اما ممکن است برای سازماندهی حجم بالای داده ها مناسب نباشند؛ نیرومند میشود. رکوردهای ذخیره شده در دیتامارتها بخوبی نمایه شده اند.
یک دیتامارت در صورتیکه داده ها را از منابع داده ای بسیار سازماندهی شده مثل انبار داده ها بگیرد؛ دیتامارت وابسته  نامیده میشود. مسلما دیتامارتهای وابسته از لحاظ ساختاری و معماری منطقی هستند. منبع دیتامارتهای وابسته تکنولوژِی بانک اطلاعات دپارتمانی است. دیتامارتهای مستقل ثابت نیستندو از لحاظ معماری بسیار با هم متفاوتند. این مساله هنگام یکپارچه سازی دیتامارتهای مستقل، مشکل ایجاد میکند. بنابراین با یکپارچه سازی ساده دیتامارتها یک انبار داده ایجاد نخواهد شد.
دیتامارت اساسا برای اهداف تاکتیکی طراحی شده است و هدفش تامین یک نیازتجاری فوری است.


انبار داده ها
یک انبار داده کاملا " متفاوت از دیتامارت است. سازماندهی انبارهای داده بگونه ایست که کلیه موضوعات حول فعالیتهای کاری سازمان را می پوشاند. انبار داده نمایانگر یک تسهیلات مرکزی است.
برخلاف دیتامارت که در آن داده ها به شکل خلاصه تر و متراکم تر وجود دارند، یک انبار داده ، داده ها را در یک سطح نامتراکم ذخیره می کند. ساختار داده ها در یک انبار داده یک ساختار لزوما" هنجار شده است. بدین معنی که ساختار و محتوای داده ها در انبار داده منعکس کننده ویژگیهای دپارتمانهای عضو نیست. داده ها در انبار داده از نظر حجم و شکل کاملا" متفاوت از داده ها در دیتامارت هستند. دیتامارت ممکن است شامل حجم زیادی از داده های قدیمی و گذشته نگر باشد. داده ها در انبار داده اغلب بصورت نسبتا" سبک نمایه میشوند. (به بیان دیگر در عمق کمتر).
انبار داده برای اهداف برنامه ریزی بلندمدت و راهبردی طراحی میشوند. در نتیجه انبار داده برخلاف سیستم عملیات که کاربرمدار است متمرکز بر اقلام است. ساختار یک انبارداده مشخصات زیر را نشان میدهد:
 
وابستگی به زمان:
رکوردها بر اساس یک برچسب زمانی نگهداری میشوند. وابستگی زمانی حاصل در ایجاد صفحات زمانی مفید است که درک ترتیب زمانی وقایع را تسهیل میکند.
 
غیر فرار بودن:
رکوردهای داده در انبار داده ها هرگز بطور مستقیم روزآمد نمیشوند. برای هر تغییری در ابتدا داده های عملیاتی روزآمد میشوند و سپس بگونه ای مقتضی به انبار داده منتقل میشوند. این مساله ثبات داده ها را برای استفاده های وسیعتر تضمین میکند.
 
تمرکز موضوعی:
 داده ها از بانکهای اطلاعاتی عملیاتی بصورت گزینشی به انبار داده منتقل میشوند. این استراتژی به ایجاد یک انبار داده بر اساس یک مطلب یا موضوع خاص کمک میکند و بنابراین کاوش انبار داده ها برای  پرس و جوهای موضوعی با سرعت بیشتری انجام میشود.
 
یکپارچگی:
داده ها بگونه ای کامل سازماندهی شده اند تا با حذف موارد تکراری و چند عنوانه  یکپارچگی رکوردها حفظ شود ؛ به ایجاد ارجاع های متقابل کارآمد بین رکوردها کمک نموده و ارجاع دهی را تسهیل نماید.
 
واضح است که انبار داده اساسا" برای  پرس و جوهای پشتیبان تصمیم گیری ساخته شده است. بر این اساس سازماندهی وعملیات انبار داده چنان طراحی شده اند تا نیازهای اطلاعاتی روزمره یا معمولی را پاسخگو باشند. بدلیل حجم بسیار بالای چنین پایگاه اطلاعاتی یک سیستم کامپیوتری پیشرفته برای عملیات انبارسازی داده ها لازم است. همچنین یک بانک اطلاعات مجزا شامل ابرداده که مشخصه هایی نظیر نوع، فرمت، مکان و پدیدآورندگان داده های ذخیره شده در یک انبار داده ها را توصیف میکند نیز برای کمک به کاربران و مدیران داده ها ساخته میشود. مشخص شد که انبار داده  بدلیل اندازه و تنوعش، اگر مبتکرانه پردازش شود میتواند به تولید اطلاعاتی منجر شود که در وهله اول آشکار نیستند. با انتخاب متناسب داده ها، بکار گرفتن فنون مختلف غربال کردن و تفسیر زمینه ای ، داده ذخیره شده میتوانست منجر به کشف الگوها یا رابطه هایی شود که بینش نویی به تصمیم گیرنده دهد. این مساله نظریه توسعه عملیات داده کاوی را به موازات معدن کاوی بروز داد. ذکر این نکته لازم است که داده کاوی در اصل لزوما" نیاز به سازماندهی یک انبار داده ندارد. حال به داده کاوی می پردازیم.
 
عناصر داده کاوی
 توصیف و کمک به پیش بینی دو کارکرد اصلی داده کاوی هستند. تحلیل داده مربوط به مشخصه های انتخابی متغیرها؛ از گذاشته و حال، و درک الگو مثالی از تحلیل توصیفی است. برآورد ارزش آینده یک متغیر و طرح ریزی کردن روند مثالی از توانایی پیشگویانه داده کاوی است.
برای عملی شدن هریک از دو کارکرد فوق الذکر داده کاوی، چند گام ابتدایی اما مهم باید اجرا شوند که از این قرارند:
  1. انتخاب داده ها
2. پاک سازی داد ها 
3. غنی سازی داده ها
 4. کد گذاری داده ها
 با دارا بودن هدف کلی در مطالعه، انتخاب مجموعه داده های اصلی برای تحلیل، اولین ضرورت است. رکوردهای لازم میتواند از انبار داده ها و یا بانک اطلاعاتی عملیاتی استخراج شود. این رکوردهای داده جمع آوری شده؛ اغلب از آنچه آلودگی داده ها نامگذاری شده است رنج می برند و بنابراین لازم است پاکسازی شوند تا از یکدستی فرمت (شکلی) آنها اطمینان حاصل شود، موارد تکراری حذف شده و کنترل سازگاری دامنه بعمل آید. ممکن است داده های گردآوری شده از جنبه های خاصی ناقص یا ناکافی باشند. در این صورت داده های مشخصی باید گردآوری شوند تا بانک اطلاعات اصلی را تکمیل کنند. منابع مناسب برای این منظور باید شناسایی شوند. این فرایند مرحله غنی سازی داده ها را تکمیل میکند. یک سیستم کدگذاری مناسب معمولا" جهت انتقال داده ها به فرم ساختار-بندی شده جدید؛ متناسب برای عملیات داده کاوی تعبیه میشود .
 
فنون داده کاوی
 ممکن است متوجه شده باشید که فنون داده کاوی یک گروه نامتجانس را شکل میدهند چرا که هر تکنیکی که بتواند بینش جدیدی از داده ها را استخراج کند میتواند داده کاوی به حساب آید. برخی از ابزارهای رایج بکار گرفته شده تحت عنوان داده کاوی عبارتند از:  
ابزارهای پرس و جو: ابزارهای متداول زبان پرس و جوی ساختاربندی شده در ابتدا برای انجام تحلیلهای اولیه بکار گرفته شدند که می تواند مسیرهایی برای تفحص بیشتر نشان دهد. 
فنون آماری: مشخصات اصلی داده ها لازمست با کاربرد انواع مختلفی از تحلیلهای آماری شامل جدول بندی ساده و متقاطع داده ها و محاسبه پارامترهای آماری مهم بدست آید. 
مصور سازی: با نمایش داده ها در قالب نمودارها و عکسها مانند نمودار پراکندگی؛ گروه بندی داده ها در خوشه های متناسب تسهیل میشود. استنباط عمیق تر ممکن است با بکارگیری تکنیکهای گرافیکی پیشرفته حاصل شود.
پردازش تحلیلی پیوسته: از آنجا که مجموعه داده ها ممکن است روابط چندین بعدی داشته باشند، روشهای متعددی برای ترکیب کردن آنها وجود دارد. ابزارهای پردازش تحلیلی پیوسته به ذخیره چنین ترکیباتی کمک میکند و ابزارهای ابتدا-انتهای پیوسته برای انجام  پرس و جو ایجاد میکند. اما این ابزارها هیچ دانش جدیدی ایجاد نمی کنند.
 
یادگیری مبتنی بر مورد: این تکنیک مشخصات گروههای داده ها را تحلیل میکند و به پیش بینی هر نهاد  واقع شده در همسایگی شان کمک میکند. الگوریتمهایی که استراتژی یادگیری تعاملی را  برای کاوش در یک فضای چندین بعدی بکار میگیرند برای این منظور مفیدند.
 
درختان تصمیم گیری: این تکنیک بخشهای مختلف فهرست پاسخهای موفق داده شده مربوط به یک پرس و جو را بازیابی می کند و به این ترتیب به ارزیابی صحیح گزینه های مختلف کمک میکند.
 
قوانین وابستگی: اغلب مشاهده میشود که یک وابستگی نزدیک (مثبت یا منفی) بین مجموعه ای از داده های معین وجود دارد. بنابراین قوانین رسمی وابستگی برای تولید الگوهای جدید ساخته و بکار گرفته میشوند.
 
شبکه های عصبی : این یک الگوریتم یادگیری ماشینی است که عملکرد خودش را بر اساس کاربرد و ارزیابی نتایج بهبود می بخشد.
 
الگوریتم ژنتیکی: این هم تکنیک مفید دیگری برای پیش بینی هدف است. به این ترتیب که با یک گروه یا خوشه شروع میشود و رشدش در آینده را با حضور در برخی مراحل فرایند محاسبه احتمال جهش تصادفی؛ همانطور که در تکامل طبیعی فرض میشود  طرح ریزی می نماید. این تکنیک به چند روش میتواند عملی شود. و ترکیب غیرقابل انتظار یا نادری را از عواملی که در حال وقوع بوده و مسیر منحنی طراحی داده ها را تغییر میدهند؛ منعکس میکند.
 
گام نهایی فرایند داده کاوی، گزارش دادن است. گزارش شامل تحلیل نتایج و کاربردهای پروژه، درصورت بکارگیری آنها، است . و متن مناسب، جداول و گرافیکها را در خود جای می دهد. بیشتر اوقات گزارش دهی یک فرایند تعاملی است که تصمیم گیرنده با داده ها در پایانه کامپیوتری بازی میکند و فرم چاپی برخی نتایج واسطه محتمل را برای عملیات فوری بدست می آورد.
داده کاوی در تولید چهار نوع دانش ذیل مفید است:
- دانش سطحی (کاربردهای (SQL
- دانش چند وجهی (کاربردهای (OALP
- دانش نهان (تشخیص الگو و کاربردهای الگوریتم یادگیری ماشینی)
- دانش عمیق (کاربردهای الگوریتم بهینه سازی داخلی)
 
نرم افزار
از آنجا که داده کاوی با بانکهای اطلاعاتی بزرگ سروکار دارد، به گونه ای ایده ال با تکنولوژی خدمت گیر-خدمت گر بکار میرود. کاربردهای عمومی داده کاوی بیشتر شامل تقسیم کردن داده ها در خوشه های مقتضی، کدگذاریهای مناسب، کاوش برای الگوها و طراحی کردن با استفاده از فنون آماری و الگوریتمهای ژنتیکی است. تعداد زیادی از بسته های نرم افزاری واجد این جنبه های ابزارهای داده کاوی با درجات متفاوتی از جامعیت در دسترس هستند. برای مثال بسته های نرم افزاری که منحصرا" برای کاربردهای OLAP در دسترس هستند عبارتند از: Oracle OLAP, DB2 OLAP Server, CleverPath OLAP . نرم افزارهای آماری عمومی مثل SPSS, SAS, STATISTICA با امکاناتی برای داده کاوی و بسته های نرم افزاری اختصاصی داده کاوی مثل Weka, Insightful Miner3, Text Mining Software, Enterprise Data Mining software, PolyAnalyst 4.6  مفید هستند.

کاربردهای داده کاوی

داده کاوی کاربردهای مختلفی دارد که اهم کاربردهای آن:

۱- كشف تقلب (كلاهبرداري) و آناليز ريسك
 كشف تقلب كارتهاي اعتباري
 كشف پولشويي
 ريسك پرداخت وام

۲- خــرده فروشي (تكفروشي)
 فروش و تبليغ
 كوپن


3-آناليز بازار استوك
۴- تشخيص جرائم .
۵- پيش بيني سيل.
۶- ارتباطات راه دور
۷- تشخيص طبي و درمان.
۸- آناليز داده DNA و زيست پزشكي(Biomedical).
 چه ژنهايي با ژنهاي ديگر همزمان رخ ميدهند.
 ترتيب عمليات ژنتيكي در مراحل بيماري چيست.


۹- وب كاوي Web Mining
 ارتباط بين صفحات گوناگون چيست.
 مشخصات صفحه وب چيست.
 توزيع اطلاعات در وب چگونه است.

 

برای آشنایی بیشتر با داده کاوی چند کاربرد مهم و کاربردی آن را مورد مطالعه قرار می دهیم:

 داده کاوی  و کاربرد آن در کسب و کار هوشمند بانک

با رشد فزاینده حجم داده‌ها در سیستمهای متنوع کسب و کار، و همچنین نیاز روز افزون جهت دستیابی به اطلاعات ارزشمند و معرفت از این داده‌های خام، داده کاوی به عنوان روشی مهم و پرکاربرد برای استخراج اطلاعات و ارضاء این نیاز مطرح شده است. در واقع داده کاوی(Data Mining) بخشی از فرایند استخراج معرفت(Knowledge Discovery) است که در آن الگوهای مفید و ضمنی در پایگاه داده ها جستجو می‌شوند. در این میان با افزایش کاربرد سیستمهای اطلاعات جغرافیایی، پایگاه‌های بزرگی از داده‌های متنوع جغرافیایی در دسترس قرارگرفته‌اند که کمک شایانی به انجام تحلیل‌های کامل‌تر و دقیق‌تر می‌نمایند.داده کاوی روی داده‌هایی که دارای یک یا چند ویژگی مکانی، فضایی و یا جغرافیایی باشند، داده کاوی فضایی(Spatial Data Mining) نامیده می‌شود و خروجی آن اطلاعات و معرفتی است که دارای خصوصیات فضایی و جغرافیایی، مانند مکان، جهت، فاصله، شکل هندسی و مانند آن می باشد. هدف از این پروژه بررسی و اجرای یک روش داده کاوی پیشرفته روی داده‌های فضايي موجود در بانک ملت ایران می‌باشد که با داده‌های مختلف بانکی از قبیل مکان شعب، شاخصهای بانکی مانند درآمد، سود، هزینه، تعداد کارکنان، میزان مراجعه و مانند آن تلفیق خواهند شد. بدین معنی که بعد از انجام مراحل لازم جهت آماده سازی داده‌ها -با ملاحضات لازم به دلیل فضایی بودن آنها- برای عملیات داده کاوی، شامل پردازش و پاکسازی داده‌ها(Data Processing and Cleaning) و ساخت انبار داده‌ها(Data warehousing)، و همچنین در نظر گرفتن روشهای دسترسی به داده‌های فضایی(Spatial Data Access) ، الگوریتمی برای استخراج قوانین وابستگی(Association Rule Mining) توسعه و پیاده سازی خواهد شد و از آن برای کشف روابط موجود ما بین مقادیر مختلف فضايي و جغرافیایی مانند ترکیب جمعیتی، کاربری‌های منطقه، وضعیت سنی، درآمد، تحصیلات، موقعیت رقبا، شبکه معابر و مانند آن از یک طرف و شاخصهای بانکی شعب مانند سود، هزینه، درآمد، کارایی و مانند آن از طرفی دیگر استفاده خواهد شد. دانش استخراج شده از این فرایند، در تصمیم گیریی های مختلف مدیران در حوزه مدیریت شعب، مانند مکانیابی، توسعه، تلفیق و تنظیم شعب، کاربرد و اهمیت بالایی خواهد داشت.

داده كاوي درمديريت ارتباط بامشتري

داده كاوي يكي از عناصر مديريت ارتباط با مشتري است و مي تواند به حركت شركتها به سمت مشتري محوري كمك كند.

داده هاي خام از منابع مختلفي جمع آوري مي شوند و از طريق استخراج، ترجمه و فرايندهاي فراخواني به انبار داده اين مديريت وارد مي شوند. در بخش مهيـــاسازي داده، داده ها از انبار خارج شده و به صورت يك فرمت مناسب براي داده كاوي در مي آيند.
بخش كشف الگو شامل چهار لايه است:
1 - سوالهاي تجاري مانند توصيف مشتري،2 - كاربردها مانند امتيازدهي، پيش گويي،3 - روشها مانند سري هاي زماني، طبقه بندي،4 - الگوريتم ها.
در اين بخش روشهاي داده كاوي با كاربرد مخصوص خود براي پاسخ به سوالهاي تجاري كه به ذهن مي رسند، الگوريتم هايي را استخراج مي كنند و از اين الگوريتم ها براي ساخت الگو استفاده مي شود.
در بخش تجزيه و تحليل الگو، الگوها به يك دانش مفيد و قابل استفاده تبديل مي شوند و پس از بهبود آنها، الگوهايي كه كارا محسوب مي شوند در يك سيستم اجرايي به كار گرفته خواهند شد.

رابطه مشتري با زمان تغيير مي كند و چنانچه تجارت و مشتري درباره يكديگر بيشتر بدانند اين رابطه تكامل و رشد مي يابد. چرخه زندگي مشتري چارچوب خوبي براي به كارگيري داده كاوي در مديريت ارتباط با مشتري فراهم مي كند. در بخش ورودي داده كاوي، چرخه زندگي مشتري مي گويد چه اطلاعاتي در دسترس است و در بخش خروجي آن، چرخه زندگي مي گويد چه چيزي احتمالاً جالب توجه است و چه تصميماتي بايد گرفته شود. داده كاوي مي تواند سودآوري مشتري هاي بالقوه را كه مي توانند به مشتريان بالفعل تبديل شوند، پيش بيني كند و اينكه تا چه مدت به صورت مشتريان وفادار خواهند ماند و چگونه احتمالاً ما را ترك خواهند كرد.
بعضي از مشتريان مرتباً مراجعاتشان را به شركتها براي كسب مزيتهايي كه طي رقابت ميان آنها به وجود مي آيد، تغيير مي دهند. در اين صورت شركتها مي توانند هدفشان را روي مشترياني متمركز كنند كه سودآوري بيشتري دارند.
بنابراين مي توان از طريق داده كاوي ارزش مشتريان را تعيين، رفتار آينده آنها را پيش بيني و تصميمات آگاهانه اي را در اين رابطه اتخاذ كرد.

کاربردهای داده کاوی در کتابخانه ها و محیط های دانشگاهی
داده کاوی در ابتدا از حوزه تجارت برخاست اما کاربردهای آن در سایر حوزه هائی که به گردآوری حجم وسیعی از داده هائی می پردازند که دستخوش تغییرات پویا نیز می گردند؛ مفید شناخته شد. بخشهایی مثل بانکداری، تجارت الکترونیک، تجارت سهام، بیمارستان و هتل از این نمونه اند.
انتظار میرود که استفاده از داده کاوی در بخش آموزش بطور عام امکانهای جدید بسیاری ارائه دهد. برخی کاربردهای داده کاوی در کتابخانه ها و قسمت اداری آموزش در ذیل مورد بحث قرار گرفته اند.
عملیات کتابداری بطور کلی شامل مدیریت مدارک، ارائه خدمات و امور اداره و نگهداری است. هر کدام از این کارکردها با انواع مختلفی از داده ها سروکار دارد و بطور جداگانه پردازش میشود. اگرچه، انجام تحلیل ترکیبی براین مجموعه های داده  نیز میتواند افق تازه ای را بگشاید که به طرح خدمات جدید و تحول رویه ها و عملیات جاری کمک نماید. جدول یک برخی از کاربردهای ممکن داده کاوی را که میتواند در کتابداری مفید باشد ارائه میکند.


جدول یک- کاربردهای داده کاوی در کتابخانه ها

کاربرد متصور

بانک اطلاعاتی 

برای تعیین نقاط قوت و ضعف مجموعه

گردآوری منابع

برای ایجاد رابطه بین خواننده، منابع کتابخانه و زمان مشخصی از سال

استفاده از مجموعه

برای تحلیل سفارشهای پاسخ داده شده و سفارشهای دریافت شده

امانت بین کتابخانه ای

برای پیش بینی روند بازگشت منابع

داده های بخش امانت

برای نشان دادن منابع مالی بکار گرفته شده

داده های هزینه


 داده کاوی میتواند برای پاسخ دادن به یک سوال خاص مربوط به کتابخانه و نیز برای کشف روندهای عمومی که به تصمیم گیری کمک میکنند، استفاده شود . برای مثال سوال میتواند چنین باشد: امکان اینکه امانت گیرندگان منابع را یک هفته بعد از تاریخ عودت برگردانند تا نامه های یادآوری کمتری فرستاده شود چقدر است؟ یا میزان اشتراک مورد انتظار برای نشریات بین المللی انتخاب شده برای سال آینده چقدر است؟ درک الگوی استفاده کلی مجلات الکترونیکی یا تحلیل درخواستهای  اعضا  برای میکروفیلمها طی 5 سال گذشته نیز همگی مثالهایی از کشف روندهای عمومی اند. دامنه تحلیل استنادی هم میتواند با استفاده از داده کاوی گسترش داده شود.
در ارتباط با کتابخانه ها، وب کاوی حوزه دیگری از علاقمندی است. وب کاوی شامل محتوا کاوی وب، ساختار کاوی وب و استفاده کاوی وب با توجه به یک موضوع خاص است که در طراحی خدمات جدید مبتنی بر وب کمک خواهد کرد.
مدیریت موسسات دانشگاهی
اداره موسسات دانشگاهی کار پیچیده ای است. در این موسسات دائما" نیاز به درآمدزایی و خود- کارآمدی و کاهش وابستگی به بودجه دولتی احساس میشود. این مساله کنترل دائمی جنبه های مختلف هر فعالیت و پروژه را می طلبد. بانکهای اطلاعاتی برای چنین موسساتی  مربوط به دانشجویان، دانشکده، اساتید و کارمندان، تعداد رشته ها و چند مورد دیگر است . ارزیابی تقاضا و وضعیت عرضه نقش مهمی بازی میکند. مرور بانکهای اطلاعاتی نمونه در جدول 2 نمایانگر کاربردهای بالقوه داده کاویست.


جدول 2- کاربردهای داده کاوی در موسسات دانشگاهی

کاربرد متصور

بانک اطلاعاتی

برای درک رابطه های جمعیت شناختی، اقتصادی و اجتماعی

ثبت نام دانشگاهی

برای ایجاد رابطه بین عوامل اقتصادی-اجتماعی و نمرات اخذ شده

کارایی دانشگاهی

برای تعیین میزان مفید بودن سیستم با استناد به نمرات امتحان

بانک سوالات

برای ارزیابی همکاری دانشکده با توجه به میزان استفاده از کتابخانه

همکاری فکری

برای پیدا کردن تأثیر انتشارات در تقاضا برای رشته ها

انتشارات

برای تحلیل سوالات دریافت شده در وب سایت دانشگاه و کمک به ایجاد رشته های جدید دانشگاهی

بازدید از وب سایت

 


کاربرد داده کاوی در دانشگاه ملی سنگاپور قابل ملاحظه است. در این دانشگاه از ابزارهای داده کاوی برای شناسایی و دسته بندی دانشجویانی که به کلاسهای پیش نیاز برای واحد درسی ارائه شده نیاز داشتند استفاده شد.  (Kurian and John, 2005)
علاوه بر آن، مسائلی مانند اختصاص بهتر منابع و نیروی انسانی، مدیریت روابط دانشجو و به تصویر کشیدن رفتار گروههای مختلف میتواند بوسیله ابزارهای داده کاوی انجام شود.
 
محدودیت ها
کاربرد داده کاوی با چند عامل محدود شده است. اولین مورد به سخت افزار و نرم افزار لازم و موقعیت بانک اطلاعاتی مربوط میشود . برای مثال در هند، داده های غیر مجتمع که برای کاربردهای داده کاوی لازم است ممکن است به فرم دیجیتالی در دسترس نباشد. در دسترس بودن نیروی انسانی ماهر در داده کاوی نیز مسأله مهم دیگری است. محرمانه بودن رکوردهای مراجعان ممکن است در نتیجه پردازش داده های مبتنی بر داده کاوی آسیب پذیر شود. کتابداران و مؤسسات آموزشی باید این مسأله را در نظر داشته باشند؛ چرا که در غیر اینصورت ممکن است گرفتار شکایات قانونی گردند.
محدودیت دیگراز ضعف ذاتی نهفته  در ابزارهای نظری ناشی میگردد. ابزارهایی مانند یادگیری ماشینی و الگوریتمهای ژنتیکی بکار گرفته شده در  فعالیتهای داده کاوی به مفاهیم وفنون منطق و آمار بستگی دارد. در این حد نتایج به روش مکانیکی تولید شده و بنابراین به یک بررسی دقیق نیاز دارند. اعتبار الگوهای بدست آمده به این طریق؛ باید آزمایش شود. چرا که که در بسیاری موارد روابط علل و معلول مشتق شده؛ از برخی استدلالات غلط ذیل رنج میبرند.

 

داده کاوی آماری و مدیریت بهینه وب سایت ها

هر سایت اینترنتی بر اساس حجم فعالیت خود برای نگهداری به افراد مختلفی که آشنا به امور فنی و اجرایی باشند نیاز دارد. مدیر سایت به عنوان شخصی که تنظیم کننده و هماهنگ کننده تمام این افراد است باید برای هر کدام از بخش‌های سایت از قبیل گرافیک، محتوا، امور فنی، بازاریابی و... برنامه‌های مختلفی را تهیه و برای اجرا در اختیار همکاران خود قرار دهد. این برنامه ها می توانند شامل برنامه های روزانه، هفتگی و ماهانه باشند. تمامی این برنامه ها در راستای یک هدف کلی و نهایی به انجام می رسند و آن هم بالا رفتن کارایی اقتصادی سایت است.

سایت ها زمانی می توانند خود را در سطح اقتصادی اطمینان بخشی قرار دهند که از بازدیدکنندگان و کاربران و قابل توجهی برخوردار باشند. برای این کار مدیر سایت سعی می کند مطالعه و تحقیق گسترده ای بر روی عوامل و ابزارهای افزایش دهنده تعداد کاربران سایت انجام دهد و از این طریق در واقع به مطالعه شرایط و موقعیت خود در بازار مجازی اینترنت می پردازد. به عنوان مثال وی در مورد رنگ های به کار رفته در سایت، لوگو و سایر قطعات گرافیکی سایت، متن های به کار رفته و بسیاری دیگر از مسائل مرتبط با سایت به بررسی و مطالعه می پردازد.

یکی از روش ها و راهکارهایی که کمک بسیار زیادی برای بهتر شدن فرآیند مدیریت وب سایت ها می کند استفاده از گزارش ها و تحلیل های آماری است. مدیران سایت ها و مدیران بازایابی شرکت ها با استفاده از گزارش های به دست آمده از فعالیت سایت اینترنتی می‌توانند شناخت خوبی از موقعیت و تاثیر فعالیت های خود پیدا کنند و از این طریق نقاط ضعف و قوت سایت را به راحتی شناسایی و برای حل و تقویت آنها تغییرات لازم را  در سایت اعمال نمایند و به برنامه های آینده و حتی استراتژی های سایت جهت ببخشند.

گزیده مطالب

تعـــــريف
۱- كاوش دانش بالقوه مفيد از مقدار معتنابهي داده را داده كاوي گويند.
۲- اصطلاحات ديگر:
 كشف دانش موجود در پايگاه هاي داده (Knowledge Discovery in Databases-- KDD )- هر چند كه داده ورزي مرحله اي از KDD است.
 استخراج دانش --> Knowledge Extraction
 درو اطلاعات (برداشت اطلاعات) --> Information Harvesting
 و ...

 

داده كاوي در مقابل استخراج دانش از پايگاه داده
 
Data Mining vs. Knowledge Discovery in Databases

1- KDD فرآيند يافتن اطلاعات و الگوهاي مفيد از داده را گويند.
۲- DM بهره گيري از الگوريتمهايي براي يافتن اطلاعات مفيد در فرآيند KDD است.
۳- فرآيند KDD عبارت است از:
 پاكسازي و يكپاچه سازي داده (پيش پردازش داده)
 ايجاد يك مخزن داده مشترك براي تمام منابع٬ مانند انبار داده (data warehouse).
 داده كاوي
 بصري سازي (visualization) نتايج توليد شده.
--مرحله پيش پردازش غالباً يكي از مراحل زمان بر و در عين حال بسيار مهم در كسب نتيجه مطلوب ميباشد. تلاشهاي زيادي صورت گرفته و در حال حاضر نيز انجام ميگيرد تا كارايي الگوريتمهاي اين قسمت بالا رود.
--از ديگر بخشهايي كه فعاليت زيادي را به خود معطوف ساخته بخش بصري سازي است تا بتوان نتايج را در قالبهاي گرافيكي مشاهده كرده و مقايسه نمود.

 

داده کاوی در مقابل پايگاه داده
 
Data Mining vs database

۱- كاربر پايگاه داده ميداند دنبال چه چيزي است.
۲- اما كاربر داده كاوي ممكن است بداند و ممكن است نداند در جستجوي چيست.
۳- پاسخ پايگاه داده به سوال ۱۰۰٪ دقيق است٬ اگر داده صحيح باشد.
۴- اما تلاش داده كاوي اين است كه تا حد ممكن پاسخ دقيق بدست آورد.

۵- داده پايگاه داده همانطور كه ذخيره ميشود بازيابي نيز ميگردد.
۶- اما داده در داده كاوي٬قبل از توليد نتايج نياز به (تا حدي) تميز (clean) شدن دارد.
۷- نتايج پايگاه داده زير مجموعه اي از داده است.
۸- نتايج داده كاوي تجزيه و تحليل و آناليز داده است.
۹- معنا دار بودن نتايج آنقدر كه در داده كاوي اهميت داشته و جزء اصلي ترين مسايل آن مطرح ميگردد٬ در پايگاه داده مورد توجه نيست.
به عبارت ساده پايگاه داده تنها ذخيره و بازيابي داده است اما داده كاوي آناليزي است كه روي اين داده ها صورت ميپذيرد تا بتواند قوانيني از آن استخراج نمايد يا پيش بيني صورت دهد

 

ابزارهای تجاری داده کاوی
DM Commercial Tools
در مورد ابزارهاي موجود براي داده كاوي بايد به اين نكات توجه داشت كه:
مدل/معماري مشتركي بين آنها موجود نمي باشد.
 به منابع داده گوناگون و نه لزوماً همه گونه منبعي دسترسي دارند.
 از يك يا بيشتر الگوريتم DM پشتيباني مينمايد.
 ممكن است از تمام انواع داده پشتيباني كند يا نكند.
 قابليتهاي مختلف اما نه تمام آنها را پشتيباني مينمايد.
 وابسته به بستر كاري
 هر كاربردي ممكن است با يك ابزار كار كند و با ابزار ديگر كار نكند.

 

ابزارهای تجاری برای داده کاوی

Darwin (Oracle Corp.)
MineSet (Silicon Graphics Inc. - SGI)
Intelligent Miner (IBM Corp)
Enterprise Miner (SAS Institute Inc.)
Clementine (SPSS Inc – Integral Solutions)
DMMiner (DBMiner Technology Inc.)
BrainMaker (California Scientific Software)
CART (Salford Systems)
MARS (Salford Systems)
Scenario (Cognos Inc.)
Web Analyst (Megaputer Intelligence Inc.)
SurfAid Analysis (IBM corp)
Visualizer Workstation (Computer Science Innovations, Inc)

 

 

منابع اطلاعاتی مورد استفاده

منابع اطلاعاتی گوناگونی را ميتوان در زمينه داده کاوی بکار برد که عبارتند از:

---> پایگاه داده های رابطه ای
---> انبارهای داده
---> فایلها
---> وب
--->پایگاه های داده شیءگرا
---> چند رسانه ای

 

انبار داده

--->بسياری از سازمانها داده های خود را از مخازن داده همگن و ناهمگن در يک مجموعه داده عمومی به نام انبار داده جمع آوری و ذخيره مينمايند.(Data Warehouse)

--->انبار داده شامل داده های فعلی و قبلی است كه برای برنامه ريزی و پيش بينی در سيستمهای پشتيبان تصميمگيری (Decision Support System) استفاده خواهد گرديد.

--->پايگاه های داده سنتی پايگاه هايی عملياتی هستند كه داده های روزانه را در خود ذخيره مينمايند.

--->star -schema, Snow-Flakes و Galaxy مدلهای رايج در انبارهای داده هستند.

---> برای افزايش كارايی در DW تكنيكهای مختلفی مانند خلاصه كردن و denormalization استفاده ميگردد.

پای نوشته‌

Data mining را گاهی به "داده کاوی" ترجمه کرده‌اند که از چندین نظر نامناسب است: (الف) Data کلمه‌ای‌ست جمع (با مفرد Datum) که به واژهء مفرد "داده" نسبت داده شده (ب) ترکیب "داده کاوی" با روح، و خلق و خوی عمومی زبان فارسی ناسازگار و بیگانه است، چرا که در فارسی باید مفاهیم را با آرامی و به نرمی بیان نمود. درست است که "داده کاوی" همان تندی و شتاب Data mining را با خود دارد، ولی، اینگونه سرعت‌ها و تند‌گوئی‌ها در بیان مفاهیم، فقط به زبانهای غربی اختصاص دارد.

 

مراجع و ماخذ

دانشنامه آزاد ویکی پدیا

ماهنامه عملی آموزشی تدبیر شماره 156

Hamshahri Newspaper

Barbara Mento and Brendan Rapple, SPEC Kit 274: Data mining and data warehousing, Association of Research Libraries, Washington, DC (2003, July)

http://www.infotechera.com/

http://www.ece.ut.ac.ir/dbrg/index.htm

http://www.irandoc.ac.ir/index.htm

                     http://www.arts.uci.edu/dobrain/gems.980415b.htm


نوشته شده در تاريخ شنبه نوزدهم آذر 1390 توسط جعفر

2.1 Classification

Data mine tools have to infer a model from the database, and in the case of supervised learning this requires the user to define one or more classes. The database contains one or more attributes that denote the class of a tuple and these are known as predicted attributes whereas the remaining attributes are called predicting attributes. A combination of values for the predicted attributes defines a class.

When learning classification rules the system has to find the rules that predict the class from the predicting attributes so firstly the user has to define conditions for each class, the data mine system then constructs descriptions for the classes. Basically the system should given a case or tuple with certain known attribute values be able to predict what class this case belongs to.

Once classes are defined the system should infer rules that govern the classification therefore the system should be able to find the description of each class. The descriptions should only refer to the predicting attributes of the training set so that the positive examples should satisfy the description and none of the negative. A rule said to be correct if its description covers all the positive examples and none of the negative examples of a class.

A rule is generally presented as, if the left hand side (LHS) then the right hand side (RHS), so that in all instances where LHS is true then RHS is also true, are very probable. The categories of rules are:

  • exact rule - permits no exceptions so each object of LHS must be an element of RHS
  • strong rule - allows some exceptions, but the exceptions have a given limit
  • probablistic rule - relates the conditional probability P(RHS|LHS) to the probability P(RHS)

Other types of rules are classification rules where LHS is a sufficient condition to classify objects as belonging to the concept referred to in the RHS.

2.2 Associations

Given a collection of items and a set of records, each of which contain some number of items from the given collection, an association function is an operation against this set of records which return affinities or patterns that exist among the collection of items. These patterns can be expressed by rules such as "72% of all the records that contain items A, B and C also contain items D and E." The specific percentage of occurrences (in this case 72) is called the confidence factor of the rule. Also, in this rule, A,B and C are said to be on an opposite side of the rule to D and E. Associations can involve any number of items on either side of the rule.

A typical application, identified by IBM, that can be built using an association function is Market Basket Analysis. This is where a retailer run an association operator over the point of sales transaction log, which contains among other information, transaction identifiers and product identifiers. The set of products identifiers listed under the same transaction identifier constitutes a record. The output of the association function is, in this case, a list of product affinities. Thus, by invoking an association function, the market basket analysis application can determine affinities such as "20% of the time that a specific brand toaster is sold, customers also buy a set of kitchen gloves and matching cover sets."

Another example of the use of associations is the analysis of the claim forms submitted by patients to a medical insurance company. Every claim form contains a set of medical procedures that were performed on a given patient during one visit. By defining the set of items to be the collection of all medical procedures that can be performed on a patient and the records to correspond to each claim form, the application can find, using the association function, relationships among medical procedures that are often performed together.

2.3 Sequential/Temporal patterns

Sequential/temporal pattern functions analyse a collection of records over a period of time for example to identify trends. Where the identity of a customer who made a purchase is known an analysis can be made of the collection of related records of the same structure (i.e. consisting of a number of items drawn from a given collection of items). The records are related by the identity of the customer who did the repeated purchases. Such a situation is typical of a direct mail application where for example a catalogue merchant has the information, for each customer, of the sets of products that the customer buys in every purchase order. A sequential pattern function will analyse such collections of related records and will detect frequently occurring patterns of products bought over time. A sequential pattern operator could also be used to discover for example the set of purchases that frequently precedes the purchase of a microwave oven.

Sequential pattern mining functions are quite powerful and can be used to detect the set of customers associated with some frequent buying patterns. Use of these functions on for example a set of insurance claims can lead to the identification of frequently occurring sequences of medical procedures applied to patients which can help identify good medical practices as well as to potentially detect some medical insurance fraud.

2.4 Clustering/Segmentation

Clustering and segmentation are the processes of creating a partition so that all the members of each set of the partition are similar according to some metric. A cluster is a set of objects grouped together because of their similarity or proximity. Objects are often decomposed into an exhaustive and/or mutually exclusive set of clusters.

Clustering according to similarity is a very powerful technique, the key to it being to translate some intuitive measure of similarity into a quantitative measure. When learning is unsupervised then the system has to discover its own classes i.e. the system clusters the data in the database. The system has to discover subsets of related objects in the training set and then it has to find descriptions that describe each of these subsets.

There are a number of approachs for forming clusters. One approach is to form rules which dictate membership in the same group based on the level of similarity between members. Another approach is to build set functions that measure some property of partitions as functions of some parameter of the partition.

2.4.1 IBM - Market Basket Analysis example

IBM have used segmentation techniques in their Market Basket Analysis on POS transactions where they separate a set of untagged input records into reasonable groups according to product revenue by market basket i.e. the market baskets were segmented based on the number and type of products in the individual baskets.

Each segment reports total revenue and number of baskets and using a neural network 275,000 transaction records were divided into 16 segments. The following types of analysis were also available, revenue by segment, baskets by segment, average revenue by segment etc.

3 Data Mining Techniques


3.1 Cluster Analysis

In an unsupervised learning environment the system has to discover its own classes and one way in which it does this is to cluster the data in the database as shown in the following diagram. The first step is to discover subsets of related objects and then find descriptions e.eg D1, D2, D3 etc. which describe each of these subsets.

Figure 5: Discovering clusters and descriptions in a database

Clustering and segmentation basically partition the database so that each partition or group is similar according to some criteria or metric. Clustering according to similarity is a concept which appears in many disciplines. If a measure of similarity is available there are a number of techniques for forming clusters. Membership of groups can be based on the level of similarity between members and from this the rules of membership can be defined. Another approach is to build set functions that measure some property of partitions ie groups or subsets as functions of some parameter of the partition. This latter approach achieves what is known as optimal partitioning.

Many data mining applications make use of clustering according to similarity for example to segment a client/customer base. Clustering according to optimization of set functions is used in data analysis e.g. when setting insurance tariffs the customers can be segmented according to a number of parameters and the optimal tariff segmentation achieved.

Clustering/segmentation in databases are the processes of separating a data set into components that reflect a consistent pattern of behaviour. Once the patterns have been established they can then be used to "deconstruct" data into more understandable subsets and also they provide sub-groups of a population for further analysis or action which is important when dealing with very large databases. For example a database could be used for profile generation for target marketing where previous response to mailing campaigns can be used to generate a profile of people who responded and this can be used to predict response and filter mailing lists to achieve the best response.

3.2 Induction

A database is a store of information but more important is the information which can be inferred from it. There are two main inference techniques available ie deduction and induction.

  • Deduction is a technique to infer information that is a logical consequence of the information in the database e.g. the join operator applied to two relational tables where the first concerns employees and departments and the second departments and managers infers a relation between employee and managers.
  • Induction has been described earlier as the technique to infer information that is generalised from the database as in the example mentioned above to infer that each employee has a manager. This is higher level information or knowledge in that it is a general statement about objects in the database. The database is searched for patterns or regularities.

Induction has been used in the following ways within data mining.

3.2.1 decision trees

Decision trees are simple knowledge representation and they classify examples to a finite number of classes, the nodes are labelled with attribute names, the edges are labelled with possible values for this attribute and the leaves labelled with different classes. Objects are classified by following a path down the tree, by taking the edges, corresponding to the values of the attributes in an object.

The following is an example of objects that describe the weather at a given time. The objects contain information on the outlook, humidity etc. Some objects are positive examples denote by P and others are negative i.e. N. Classification is in this case the construction of a tree structure, illustrated in the following diagram, which can be used to classify all the objects correctly.

Figure 6:

Decision tree structure

3.2.2 rule induction

A data mine system has to infer a model from the database that is it may define classes such that the database contains one or more attributes that denote the class of a tuple ie the predicted attributes while the remaining attributes are the predicting attributes. Class can then be defined by condition on the attributes. When the classes are defined the system should be able to infer the rules that govern classification, in other words the system should find the description of each class.

Production rules have been widely used to represent knowledge in expert systems and they have the advantage of being easily interpreted by human experts because of their modularity i.e. a single rule can be understood in isolation and doesn't need reference to other rules. The propositional like structure of such rules has been described earlier but can summed up as if-then rules.

3.3 Neural networks

Neural networks are an approach to computing that involves developing mathematical structures with the ability to learn. The methods are the result of academic investigations to model nervous system learning. Neural networks have the remarkable ability to derive meaning from complicated or imprecise data and can be used to extract patterns and detect trends that are too complex to be noticed by either humans or other computer techniques. A trained neural network can be thought of as an "expert" in the category of information it has been given to analyse. This expert can then be used to provide projections given new situations of interest and answer "what if" questions.

Neural networks have broad applicability to real world business problems and have already been successfully applied in many industries. Since neural networks are best at identifying patterns or trends in data, they are well suited for prediction or forecasting needs including:

  • sales forecasting
  • industrial process control
  • customer research
  • data validation
  • risk management
  • target marketing etc.

Neural networks use a set of processing elements (or nodes) analogous to neurons in the brain. These processing elements are interconnected in a network that can then identify patterns in data once it is exposed to the data, i.e the network learns from experience just as people do. This distinguishes neural networks from traditional computing programs, that simply follow instructions in a fixed sequential order.

The structure of a neural network looks something like the following:

Figure 7: Structure of a neural network

The bottom layer represents the input layer, in this case with 5 inputs labels X1 through X5. In the middle is something called the hidden layer, with a variable number of nodes. It is the hidden layer that performs much of the work of the network. The output layer in this case has two nodes, Z1 and Z2 representing output values we are trying to determine from the inputs. For example, predict sales (output) based on past sales, price and season (input).

Each node in the hidden layer is fully connected to the inputs which means that what is learned in a hidden node is based on all the inputs taken together. Statisticians maintain that the network can pick up the interdependencies in the model. The following diagram provides some detail into what goes on inside a hidden node.

Figure 8: Inside a Node

Simply speaking a weighted sum is performed: X1 times W1 plus X2 times W2 on through X5 and W5. This weighted sum is performed for each hidden node and each output node and is how interactions are represented in the network.

The issue of where the network get the weights from is important but suffice to say that the network learns to reduce error in it's prediction of events already known (ie, past history).

The problems of using neural networks have been summed by Arun Swami of Silicon Graphics Computer Systems. Neural networks have been used successfully for classification but suffer somewhat in that the resulting network is viewed as a black box and no explanation of the results is given. This lack of explanation inhibits confidence, acceptance and application of results. He also notes as a problem the fact that neural networks suffered from long learning times which become worse as the volume of data grows.

The Clementine User Guide has the following simple diagram to summarise a neural net trained to identify the risk of cancer from a number of factors.

Figure 9:

Example Neural network from Clementine User Guide

3.4 On-line Analytical processing

A major issue in information processing is how to process larger and larger databases, containing increasingly complex data, without sacrificing response time. The client/server architecture gives organizations the opportunity to deploy specialized servers which are optimized for handling specific data management problems. Until recently, organizations have tried to target relational database management systems (RDBMSs) for the complete spectrum of database applications. It is however apparent that there are major categories of database applications which are not suitably serviced by relational database systems. Oracle, for example, has built a totally new Media Server for handling multimedia applications. Sybase uses an object-oriented DBMS (OODBMS) in its Gain Momentum product which is designed to handle complex data such as images and audio. Another category of applications is that of on-line analytical processing (OLAP). OLAP was a term coined by E F Codd (1993) and was defined by him as;

the dynamic synthesis, analysis and consolidation of large volumes of multidimensional data

Codd has developed rules or requirements for an OLAP system;

  • multidimensional conceptual view
  • transparency
  • accessibility
  • consistent reporting performance
  • client/server architecture
  • generic dimensionality
  • dynamic sparse matrix handling
  • multi-user support
  • unrestricted cross dimensional operations
  • intuitative data manipulation
  • flexible reporting
  • unlimited dimensions and aggregation levels

An alternative definition of OLAP has been supplied by Nigel Pendse who unlike Codd does not mix technology prescriptions with application requirements. Pendse defines OLAP as, Fast Analysis of Shared Multidimensional Information which means;

Fast in that users should get a response in seconds and so doesn't lose their chain of thought;

Analysis in that the system can provide analysis functions in an intuitative manner and that the functions should supply business logic and statistical analysis relevant to the users application;

Shared from the point of view of supporting multiple users concurrently;

Multidimensional as a main requirement so that the system supplies a multidimensional conceptual view of the data including support for multiple hierarchies;

Information is the data and the derived information required by the user application.

One question is what is multidimensional data and when does it become OLAP? It is essentially a way to build associations between dissimilar pieces of information using predefined business rules about the information you are using. Kirk Cruikshank of Arbor Software has identified three components to OLAP, in an issue of UNIX News on data warehousing;

  • A multidimensional database must be able to express complex business calculations very easily. The data must be referenced and mathematics defined. In a relational system there is no relation between line items which makes it very difficult to express business mathematics.
  • Intuitative navigation in order to `roam around' data which requires mining hierarchies.
  • Instant response i.e. the need to give the user the information as quick as possible.

Dimensional databases are not without problem as they are not suited to storing all types of data such as lists for example customer addresses and purchase orders etc. Relational systems are also superior in security, backup and replication services as these tend not to be available at the same level in dimensional systems. The advantages of a dimensional system are the freedom they offer in that the user is free to explore the data and receive the type of report they want without being restricted to a set format.

3.4.1 OLAP Example

An example OLAP database may be comprised of sales data which has been aggregated by region, product type, and sales channel. A typical OLAP query might access a multi-gigabyte/multi-year sales database in order to find all product sales in each region for each product type. After reviewing the results, an analyst might further refine the query to find sales volume for each sales channel within region/product classifications. As a last step the analyst might want to perform year-to-year or quarter-to-quarter comparisons for each sales channel. This whole process must be carried out on-line with rapid response time so that the analysis process is undisturbed. OLAP queries can be characterized as on-line transactions which:

  • Access very large amounts of data, e.g. several years of sales data.
  • Analyse the relationships between many types of business elements e.g. sales, products, regions, channels.
  • Involve aggregated data e.g. sales volumes, budgeted dollars and dollars spent.
  • Compare aggregated data over hierarchical time periods e.g. monthly, quarterly, yearly.
  • Present data in different perspectives e.g. sales by region vs. sales by channels by product within each region.
  • Involve complex calculations between data elements e.g. expected profit as calculated as a function of sales revenue for each type of sales channel in a particular region.
  • Are able to respond quickly to user requests so that users can pursue an analytical thought process without being stymied by the system.

3.4.2 Comparison of OLAP and OLTP

OLAP applications are quite different from On-line Transaction Processing (OLTP) applications which consist of a large number of relatively simple transactions. The transactions usually retrieve and update a small number of records that are contained in several distinct tables. The relationships between the tables are generally simple.

A typical customer order entry OLTP transaction might retrieve all of the data relating to a specific customer and then insert a new order for the customer. Information is selected from the customer, customer order, and detail line tables. Each row in each table contains a customer identification number which is used to relate the rows from the different tables. The relationships between the records are simple and only a few records are actually retrieved or updated by a single transaction.

The difference between OLAP and OLTP has been summarised as, OLTP servers handle mission-critical production data accessed through simple queries; while OLAP servers handle management-critical data accessed through an iterative analytical investigation. Both OLAP and OLTP, have specialized requirements and therefore require special optimized servers for the two types of processing.

OLAP database servers use multidimensional structures to store data and relationships between data. Multidimensional structures can be best visualized as cubes of data, and cubes within cubes of data. Each side of the cube is considered a dimension.

Each dimension represents a different category such as product type, region, sales channel, and time. Each cell within the multidimensional structure contains aggregated data relating elements along each of the dimensions. For example, a single cell may contain the total sales for a given product in a region for a specific sales channel in a single month. Multidimensional databases are a compact and easy to understand vehicle for visualizing and manipulating data elements that have many inter relationships.

OLAP database servers support common analytical operations including: consolidation, drill-down, and "slicing and dicing".

  • Consolidation - involves the aggregation of data such as simple roll-ups or complex expressions involving inter-related data. For example, sales offices can be rolled-up to districts and districts rolled-up to regions.
  • Drill-Down - OLAP data servers can also go in the reverse direction and automatically display detail data which comprises consolidated data. This is called drill-downs. Consolidation and drill-down are an inherent property of OLAP servers.
  • "Slicing and Dicing" - Slicing and dicing refers to the ability to look at the database from different viewpoints. One slice of the sales database might show all sales of product type within regions. Another slice might show all sales by sales channel within each product type. Slicing and dicing is often performed along a time axis in order to analyse trends and find patterns.

OLAP servers have the means for storing multidimensional data in a compressed form. This is accomplished by dynamically selecting physical storage arrangements and compression techniques that maximize space utilization. Dense data (i.e., data exists for a high percentage of dimension cells) are stored separately from sparse data (i.e., a significant percentage of cells are empty). For example, a given sales channel may only sell a few products, so the cells that relate sales channels to products will be mostly empty and therefore sparse. By optimizing space utilization, OLAP servers can minimize physical storage requirements, thus making it possible to analyse exceptionally large amounts of data. It also makes it possible to load more data into computer memory which helps to significantly improve performance by minimizing physical disk I/O.

In conclusion OLAP servers logically organize data in multiple dimensions which allows users to quickly and easily analyse complex data relationships. The database itself is physically organized in such a way that related data can be rapidly retrieved across multiple dimensions. OLAP servers are very efficient when storing and processing multidimensional data. RDBMSs have been developed and optimized to handle OLTP applications. Relational database designs concentrate on reliability and transaction processing speed, instead of decision support need. The different types of server can therefore benefit a broad range of data management applications.

3.5 Data Visualisation

Data visualisation makes it possible for the analyst to gain a deeper, more intuitive understanding of the data and as such can work well along side data mining. Data mining allows the analyst to focus on certain patterns and trends and explore in-depth using visualisation. On its own data visualisation can be overwhelmed by the volume of data in a database but in conjunction with data mining can help with exploration.

4 Siftware - past and present developments


This section outlines the historic background or the evolution of database systems in terms of parallel processing and data mining with reference to the part played by some of the main vendors and their successes.

4.1 New architectures

The best of the best commercial database packages are now available for massively parallel processors including IBM DB2, INFORMIX-OnLine XPS, ORACLE7 RDBMS and SYBASE System 10. This evolution, however, has not been an easy road for the pioneers.

HPCwire by Michael Erbschloe, contributing editor Oct. 6, 1995

The evolution described by Michael Erbschloe is detailed and expanded on in the following sections.

4.1.1 Obstacles

What were the problems at the start?

  • the typical scientific user knew nothing of commercial business applications and gave little attention or credence to the adaptation of high performance computers to business environments.
  • the business database programmers, who, although well versed in database management and applications, knew nothing of massively parallel principles.

The solution was for database software producers to create easy-to-use tools and form strategic relationships with hardware manufacturers and consulting firms.

4.1.2 The key

The key is the retooling database software to maspar environments. Parallel processors can easily assign small, independent transactions to different processors. With more processors, more transactions can be executed without reducing throughput. This same concept applies to executing multiple independent SQL statements. A set of SQL statements can be broken up and allocated to different processors to increase speed.

Multiple data streams allow several operations to proceed simultaneously. A customer table, for example, can be spread across multiple disks, and independent threads can search each subset of the customer data. As data is partitioned into multiple subsets performance is increased. I/O subsystems then just feed data from the disks to the appropriate threads or streams.

An essential part of designing a database for parallel processing is the partitioning scheme. Because large databases are indexed, independent indexes must also be partitioned to maximize performance. There are five partitioning methods used to accomplish this:

1. Hashing, where data is assigned to disks based on a hash key

2. Round-robin partitioning, which assigns a row to partitions in sequence.

3. Allocating rows to nodes based on ranges of values.

4. Schema partitioning (Sybase Navigation Server), which lets you tie tables to specific partitions.

5. User-defined roles (Informix).

4.1.3 Oracle was first

Oracle was the first to market parallel database packages with their flagship product, ORACLE7 RDBMS having been installed at over 100 user sites. Oracle began beta support for the IBM SP platform in July 1994.

Ease of use is an important factor in the success of any commercial application and by design the Oracle Parallel Server hides the complexities of data layout from the users. Users who wish to add disks or processor nodes can do so without complex data reorganization and application re-partitioning. In addition, Oracle Parallel Server software uses the same SQL interface as the Oracle7 database. Since no new commands or extensions to existing commands are needed, previously developed tools and applications will run unchanged.

The Oracle Parallel Server technology performs both the parallelization and optimization automatically, eliminating the need to re-educate application developers and end users. It is also easy for user organizations to deploy because it eliminates many traditional implementation burdens.

Reference - http://www.oracle.com.

4.1.4 Red Brick has a strong showing

Red Brick Systems, based in Los Gatos, Calif., specializes in software products used for fast and accurate business decisions where large client/server databases, usually tens to hundreds of gigabytes in size with hundreds of millions of records, are the norm. These applications require historical context, but timely analysis of complex data relationships for both consolidated and detailed business information.

Red Brick Warehouse VPT, (Very large data warehouse support, Parallel query processing, Time based data management), is a DBMS tuned for data warehouse applications. It employs specialized indexing techniques which are designed to facilitate data warehousing. The join accelerator STARjoin uses a special index to multiple tables that participate in a join. With its parallel capability it can run applications that can handle up to 500 GB or more of data It is a parallel database product that significantly improves the organization, availability, administration, and performance of data warehouse applications.

Unlike RDBMS products optimized for on-line transaction processing, Red Brick Warehouse VPT allows business management applications to be developed and deployed quickly;

  • to query very large databases of information gathered from disparate sources;
  • to provide the best access to both consolidated and detailed business information;
  • and to simply run fast.

Red Brick's server-based relational engine is accessible by several popular front-end client application environments which support Microsoft ODBC, Sybase Open Client, and Information Builders, Inc. EDA/SQL interfaces.

Reference - http://www.redbrick.com.

4.1.5 IBM is still the largest

IBM is the world's largest producer of database management software. Eighty percent of the FORTUNE 500, including the top 100 companies, rely on DB2 database solutions to manage data on mainframes, minicomputers, RISC workstations and personal computers. The availability of the new DB2 Parallel Edition, extends the functionality and reliability of the DB2 to IBM's high-performance parallel systems SP2. With DB2 Parallel Edition running on the SP2, users can access very large databases, process huge amount of data, and perform complex queries in minutes.

DB2 Parallel Edition is packaged with the SP2 running AIX and a set of services to help users speed their transactions and quickly and easily derive the benefits of parallel computing. The turnkey solution, called POWERquery, provides a relatively cost-effective, large-scale decision support.

DB2 Parallel Edition is a member of the IBM DB2 family of databases, therefore users do not have to rewrite any applications or retrain their staffs. To a user, the database appears to be a single database server, only faster. It is faster because all functions are performed in parallel, including data and index scans, index creation, backup and restore, joins, inserts, updates and deletes.

Reference - http://www.ibm.com.

4.1.6 INFORMIX is online with 8.0

Informix has been supporting SMP with Informix Parallel Data Query (PDQ) as part of its Dynamic Scalable Architecture (DSA) and through DSA/XMP by extending PDQ functions to work in loosely coupled parallel environments, including clusters. Online 8.0 is the latest high-performance, scalable database server based on Informix's industry-leading DSA. OnLine XPS extends DSA to loosely coupled, shared-nothing computing architectures including clusters of symmetric multiprocessing (SMP) systems and (MPP) systems.

One key to Informix's success on SMP is a joint development agreement with Sequent Computer Systems (Beaverton, Ore. that resulted in a rebuild of the core of Informix OnLine to a multithreaded system with small-grained, lightweight threads. Virtual processors are pooled and the DBMS allocates them dynamically to CPUs, based on processing requirements. OnLine XPS' high availability, systems management based on the Tivoli Management Environment (TME), data partitioning, enhanced parallel SQL operations, and other features are designed to simplify and economize VLDB applications. OnLine XPS also offers a significant improvement in performance for mission-critical, data-intensive tasks associated with data warehousing, decision support, imaging, document management and workflow, and other VLDB operational environments.

Although Informix databases, such as OnLine XPS and INFORMIX-OnLine Dynamic Server, are at the heart of data warehousing solutions, other products and services must integrate with the databases to ensure a successful data warehouse implementation, a critical component of a data warehouse architecture is online analytical processing (OLAP).

Informix delivers relational multidimensional capabilities through strategic partnerships with Information Advantage, MicroStrategy, and Stanford Technology Group. Informix also has proven partnerships with technology providers, such as Business Objects, Coopers & Lybrand, Evolutionary Technologies, KPMG, Price Waterhouse, Prism, and SHL Systemhouse, to provide capabilities such as data modelling, data extraction, data access, multidimensional analysis, and systems integration.

Reference - http://www.informix.com.

4.1.7 Sybase and System 10

Sybase has improved multithreading with System 10 which has been designed to handle interquery and transaction parallelizing on SMP computers with very large, heavyweight threads. Up to 64 processors can be utilized as SQL servers configured into a single system image. This was accomplished in part by the use of the Sybase Navigation server which takes advantage of parallel computers. Parallelism is achieved by an SQL Server on a processor and control servers, which manages parallel operations. Sybase's Navigation Server partitions data by hashing, ranges, or schema partitioning. Reports indicate that the partitioning scheme and keys chosen impact parallel performance.

Sybase IQ was delivered to 24 beta customers in July, providing predictable interactive access to large amounts of data directly in the warehouse. While offering up to 100-fold query performance improvement over standard relational databases, Sybase IQ slashes warehouse query costs by orders of magnitude, requiring up to 80 percent less disk, up to 98 percent less I/O, and utilizing existing hardware, according to Sybase.

An optional extension for the SYBASE SQL Server, SYBASE IQ includes patent-pending Bit-Wise indexing that allows significantly more data to be processed in each instruction, resulting in up to thousands of times faster performance without adding hardware. Beyond simple bit maps, Bit-Wise indexing makes it possible to index every field in the database --including character and numeric fields not supported by other bit-map indexing schemes -- in less than the size of the raw data, substantially reducing disk costs. SYBASE IQ indexes provide a complete map of the data, eliminating table scans and directly accessing just the information required, reducing I/O by up to 98 percent and resulting in fast, predictable answers to any query.

Reference - http://www.sybase.com.

4.1.8 Information Harvester

Information Harvester software on the Convex Exemplar offers market researchers in retail, insurance, financial and telecommunications firms the ability to analyse large data sets in a short time.

The flexibility of the Information Harvesting induction algorithm enables it to adapt to any system. The data can be in the form of numbers, dates, codes, categories, text or any combination thereof. Information Harvester is designed to handle faulty, missing and noisy data. Large variations in the values of an individual field do not hamper the analysis. Information Harvester claims unique abilities to recognize and ignore irrelevant data fields when searching for patterns. In full-scale parallel-processing versions, Information Harvester can handle millions of rows and thousands of variables.

The Exemplar series, based on HP's high performance PA-RISC processors, is the first supercomputer-class family of systems to track the price/performance development cycle of the desktop. They are being used for a range of applications including automotive, tire and aircraft design, petroleum research and exploration, seismic processing, and university, scientific and biomedical research.

Reference - http://www.convex.com

4.2 Vendors and Applications

This section examines some of the major vendors of siftware with supporting case studies.

4.2.1 Information Harvesting Inc

The problem of deriving meaningful information from enormous amounts of complex data is being handled by the data mining software produced by Information Harvesting Inc. (IH), founded in 1994 and based in Cambridge, Mass. It makes use of conventional statistical analysis techniques by building upon a proprietary tree-based learning algorithm similar to CART, ID3 and Chaid that generates expert-system-like rules from datasets, initially presented in forms such as numbers, dates, categories, codes, or any combination.

The proprietary Information Harvesting algorithm operates by creating a set of bins for each field in the data, with groups of values within a field ultimately determining the rules. According to the distribution of values the algorithm delineates bin boundaries via fuzzy logic to determine where a given value falls within a bin and thus how the values may be grouped.

A binary tree then generates rules from the data. At the uppermost node the algorithm analyses all data rows, and at each lower level subsets created by the node above are analysed. Each node arrives at a set of rules categorizing the data reviewed at that level. Each rule may include multiple variables (combined with ANDs) or multiple clauses (combined with ORs) and derives from the way variables fall into various bins. A prediction can be based on one or more rules.

Rule quality, the amount of error for each rule, and importance, how often each rule is used for making predictions, are also assessed by the software. This avoids the effect of simply memorizing historical data or misunderstanding the relevance of a given rule. Design rows are used to extract the rules per se, but test rows are utilized to determine the rules level of accuracy.

In addition, the program is set to optimize results by running over the same datasets again and again while adjusting the internal parameters for the best result. Optimization can be achieved with either a rapid hill-climbing algorithm or completely with a modified genetic algorithm.

The data mining modules are written in ANSI C and thus can be ported to a wide range of platforms: on client/server architecture (where the application uses TCP/IP), parallel processing machines, or mainframe supercomputers.

Two examples of companies using the software are:

Healthcare - Michael Reese Medical Associates (MRMA) employed data mining software from Information Harvesting and Vantage Point as a tool for gaining advantage in contract negotiations. The 28-doctor group had to predict trends in type, price, location, and use of service, since they must negotiate with insurance companies to provide certain services at a set monthly fee, doctors must accurately predict their per member/per month cost to break even or make a profit. Normally physicians could only make an intuitive estimate roughly based on after-the-fact evaluations of prior estimates when determining this critical figure whereas data mining offered a new approach.

Finance - The Philadelphia Police and Fire Federal Credit Union (PFFCU) used data mining to maximize their membership base by cultivating multiple relationships (e.g. consumer loans, annuities, credit cards, etc.) with members. Because the membership base is extremely homogeneous (police and fire dept. employees and their families), data had to be deeply drilled to identify segmented groups. Used in conjunction with software such as InterGlobal Financial Systems' Credit Analyzer, Information Harvester identified members most and least profitable to the organization as well as those who would make attractive loan candidates. Data mining often led PFFCU to accurate but counter-intuitive results. For example, members who had filed for bankruptcy were more inclined to clear debts with the Credit Union than outside lenders. Thus, PFFCU identified members with imperfect credit histories but a strong tendency to pay, whereas these individuals would be ignored by large conventional lenders.

4.2.2 Red Brick

Red Brick have a number of cases to present in support of the use of their data mining technology, two of which are H.E.B. of San Antonio, and Hewlett-Packard.

H.E.B.- Category management in retailing

H.E.B. of San Antonio, Texas (sales of approx. $4.5 billion, 225 stores, 50,000 employees) was able to bring a category management application from design to roll out in under nine months because it kept the requirements simple and had database support from Red Brick and server support from Hewlett-Packard Company.

Previously, the marketing information department would take ad hoc requests for information from users, write a program to extract the information, and return the information to the user a week or so later - not timely enough for most business decisions and in some cases not what the user really wanted in the first place.

The organizational change to category management was implemented in 1990. The category manager is characterized as the "CEO" of the category with profit and loss responsibilities, final decision over which products to buy and which to delete, and where the products are to be located on the shelves. The category manager also decides which stores get which products. Although H.E.B. stores are only within the state of Texas, it is a diverse market where some stores near Mexico are 98% Hispanic while suburban Dallas stores may be only 2% Hispanic. The change to category management centralized all merchandising and marketing decisions, removing these decisions from the stores.

As category managers built up their negotiating skills, technical skills, and partnering skills over three years, the need for more timely decision-support information grew. An enterprise-wide survey of users to determine requirements took until September 1993. The company then benchmarked three database management systems - Red Brick, Teradata and Time Machine - and picked Red Brick. The group leased the hardware, a Hewlett-Packard 9000 model T500 (2-processor, with 768M of RAM, and 100GB of disk space--the system now has 200 GB). For a user interface, the company contracted for a custom graphical front-end based on Windows. Also, a COBOL programmer was used to write data extraction programs to take P.O.S. data from the mainframe, format the data properly, and transfer the data to the Red Brick database.

The model was delivered in March 1994 and the application has been up and running without problems since then. The company maintains two years of data by week, by item (257,000 UPCs), by store. This is about 400 million detail records. Summary files are only maintained by time and total company, which can be an advantage.

The goal was to have all queries answered in 4 seconds, but some trends reports with large groups of items over long time periods take 30 - 40 seconds. The users are not always technically oriented, so the design intentionally aimed for simplicity. The system is ad hoc to the extent that the user can specify time, place, and product.

H.E.B. feels that category managers are now making fact-based decisions to determine which products to put in which stores, how much product to send to a store, and the proper product mix. Historically, buyers usually were promoted from the stores and had considerable product knowledge whereas now category managers are coming from other operational areas such as finance and human resources. This is possible because the system give people with limited product knowledge the equivalent of years experience.

Hewlett-Packard: "Discovering" Data To Manage Worldwide Support

Hewlett-Packard, a premier, global provider of hardware systems is known for manufacturing high quality products but to maintain its reputation they depended on delivering service and support through and after product delivery.

The Worldwide Customer Support Organization (WCSO) within Hewlett-Packard is responsible for providing support services to its hardware and software customers. For several years, WCSO has used a data warehouse of financial, account, product, and service contract information to support decision making. WCSO Information Management is responsible for developing and supporting this data warehouse.

Until 1994, WCSO Information Management supported business information queries with a data warehouse architecture based on two HP3000/Allbase systems and an IBM DB2 system. This was a first attempt at collecting, integrating, and storing data related to customer support for decision-making purposes. As they increasingly relied upon the data warehouse, they began to demand better performance, additional data coverage, and more timely data availability.

The warehouse architecture did not keep pace with the increased requirements from WCSO users. Users wanted to get information quickly. Both load and query performance were directly impacted as more data was added. It was to decided to investigate other warehouse alternatives with the aim of finding a new data warehouse that would significantly improve load/query performance, be more cost effective, and support large amounts of data without sacrificing performance. To help select the best combination of hardware and software for the new warehouse, benchmarks were conducted using Red Brick and two other RDBMS products. They did not look at Oracle or Sybase because they were promoting OLTP data functionality and weren't focused upon data warehousing.

Benchmarks included tests simulating some of HP's most demanding user queries, testing the load times for tables in the five to eight million row range. Tests also were conducted to verify that performance did not degrade as data was added into the warehouse. "The Red Brick product performed head and shoulders above the rest," recalls Ryan Uda, Program Manager for WCSO's Information Management Program. Benchmark results showed Red Brick loading data in one hour against ten hours for other systems. Red Brick's query performance was consistently five to ten times faster. Red Brick returned consistently superior performance results even when large amounts of data were added to the warehouse.

HP chose to use Red Brick software on an HP9000 and the project began with the consolidation of the existing three databases into a single data warehouse named "Discovery." This downsizing provided significant cost savings and increased resource efficiencies in managing and supporting the warehouse environment. Today, Discovery supports approximately 250 marketing, finance, and administration users in the Americas, Europe, and Asia-Pacific regions. They pull query results into their desktop report writers, load information into worksheets, or use the data to feed Executive Information Systems. User satisfaction has risen dramatically due to Discovery's vastly improved performance and remodelled business views.

4.2.3 Oracle

For large scale data mining, Oracle on the SP2 offers customers robust functionality and excellent performance. Data spread across multiple SP2 processor nodes is treated as a single image affording exceptionally fast access to very large databases. Oracle Parallel Query allows multiple users to submit complex queries at the same time. Individual complex queries can be broken down and processed across several processing nodes simultaneously. Execution time can be reduced from overnight to hours or minutes, enabling organizations to make better business decisions faster.

Oracle offers products that help customers create, administer and use their data warehouse. Oracle has a large suite of connectivity products that provide transparent access to many popular mainframe databases. Through the use of these products, customers can move data from legacy mainframe applications into the data warehouse on the SP2.

Some of the examples of their technology at work are as follows:

John Alden Insurance based in Miami, Fla., is using Oracle Parallel Query on the SP2 to mine healthcare information and they have seen orders-of-magnitude improvements in response time for typical business queries.

ShopKo Stores, a $2 billion, Wisconsin-based mass merchandise chain which operates 128 stores throughout the Midwest and Northeast, chose the SP2 to meet their current and projected needs for both data mining and mission-critical merchandising applications.

Pacific Bell and U.S. West, both telecommunications providers, have are using the Oracle Warehouse to improve their ability to track customers and identify new service needs. The solutions are based on the Oracle Warehouse, introduced in June, 1995.

  • Pacific Bell's data warehouse provides a common set of summarized and compressed information to base decision support systems. The first system is designed to analyse product profitability, and similar decision support systems are in development for marketing, capital investment and procurement, and two additional financial systems.
  • U.S. West has implemented a warehousing system to analyse intra-area code calling data from its three operating companies. Running Oracle7 Release 7.2 on a 9-CPU symmetric multiprocessing system from Pyramid, US West's initial centralized architecture supports use by 20 executives and marketing specialists. The next phase will deliver warehouse access to more than 400 service representatives, which will ultimately be expanded up to 4,500 service representatives.

4.2.4 Informix - Data Warehousing

As a major player in the field of data mining Informix have a number of success stories to quote some of which are:

Informix and Associated Grocers (retail example)

Associated Grocers, one of the leading cooperative grocery wholesalers in the northwest United States, with revenues of $1.2 billion, is replacing its traditional mainframe environment with a three-tiered client/server architecture based on Informix database technology. The new system's advanced applications have cut order-fulfilment times in half, reduced inventory carrying costs, and enabled the company to offer its 350 independent grocers greater selection at a lower cost. The details are -

  • Hardware: Hewlett-Packard, IBM, AT&T GIS
  • Partners: Micro Focus and Lawson Associates
  • Applications: Inventory management, post billing, radio frequency, POS scanning, and data warehousing
  • Key Informix Products: INFORMIX-OnLine Dynamic Server

In 1991, Associated Grocers embarked on a phased transition from its mainframe-based information system to open systems. The company initially used IBM RS/6000 hardware, and has since included Hewlett-Packard and NCR. In evaluating relational database management systems, Associated Grocers developed a checklist of requirements including education/training, scalability, technical support, solid customer references, and future product direction.

After selecting Informix as its company wide database standard, Associated Grocers then assembled the rest of its system architecture using a three tier model. On tier one, the "client" presentation layer, graphical user interfaces are developed using Microsoft(R) Windows(TM) and Visual Basic(TM). Tier two, based on Hewlett-Packard hardware, runs Micro Focus COBOL applications on top of the OEC Developer Package from Open Environment Corporation. This helps Associated Grocers develop DCE-compliant applications. The third layer, the data layer, is the INFORMIX-OnLine database.

Associated Grocers' pilot Informix-based application provides real-time inventory information for its deli warehouse. In the past, merchandise was received manually, and pertinent product information was later keyed into Associated Grocers' financial system. In contrast, the new system recognizes merchandise right at the receiving dock. Hand-held radio frequency devices allow merchandise to be immediately scanned into the Informix database. Product is assigned to a warehouse location and its expiration date is noted. When orders are filled, products with the earliest expiration dates are shipped first.

An extension to the deli warehouse system is a new post billing system, which is the ability to separate physical and financial inventory. Previously, merchandise could not be released for sale until the financial systems had been updated, which typically occurred over night. The new Informix-based system allows for immediate sale and distribution of recently received merchandise.

A third Informix-based application enables Associated Grocers to economically sell unique items-slow moving merchandise which is ordered monthly versus daily. Rather than incurring the high cost to warehouse these items, Associated Grocers created a direct link to outside speciality warehouses to supply the needed items on demand. Independent stores simply order the merchandise from Associated Grocers. The order goes into Associated Grocers' billing system then gets transmitted to the speciality warehouse, which immediately ships the merchandise to Associated Grocers. The speciality items are loaded onto Associated Grocers' delivery trucks and delivered along with the rest of an independent store's order.

Host Marriott (retail example)

Host Marriott has revenues of $1.1 billion and is a leading provider of food, beverage, and merchandise concession outlets located at airports, travel plazas, and toll roads throughout the United States. The company is streamlining its information systems to develop better cost controls and more effectively manage operations. To accomplish this, Host Marriott selected Informix database technology as its strategic IS foundation, which includes the development of a data warehouse using INFORMIX-OnLine Dynamic Server(TM) and INFORMIX-NewEra(TM). The new system will deliver valuable information throughout the organization, from field operators to corporate analysts. Details of the solution are:

  • Hardware: IBM, Hewlett-Packard
  • Applications: Sales and marketing, inventory management, labor productivity, and data warehousing
  • Informix Products: INFORMIX-OnLine Dynamic Server, INFORMIX-NewEra, INFORMIX-ESQL/C

The company split into two separate companies; Host Marriott and Marriott International, and as the company grew more diverse, so did its computer systems. Unique and more advanced information systems were coupled with inadequate ones. As a result, financial consolidation was primarily done manually, with sales information from each outlet keyed into individual computer systems every night. The information was then sent to Host Marriotts corporate office, where it was posted to the mainframe accounting system, which had no analysis capabilities. Any analysis had to be completed via a second system, proving to be a labor-intensive and slow process.

In an effort to streamline operations and improve system flexibility, Host Marriott is replacing its manually-intensive system with a series of new client/server-based applications using Informix development tools and relational database products running on an IBM RS/6000 and Hewlett-Packard Vectra PCs.

The first of Host Marriotts new Informix-based applications automates its sales and marketing functions. It was developed using INFORMIX-HyperScript(R) Tools--a visual programming environment used to create client/server applications for Windows(TM), UNIX(R), and Macintosh(R) systems, and INFORMIX-ESQL/C--a database application development tool which is used to embed SQL statements directly into C code. Instead of waiting for individual end-of-day reports, the system automatically polls sales data from the point-of-sale terminals at each outlet and consolidates it in the INFORMIX-SE relational database.

This information is used to consolidate and speed up end-of-day reporting, analyse sales, and monitor regulatory compliance. It has reduced a 10 hour process to less than one hour, and enables corporate and concession management to perform the kind of in-depth analysis that allows them to fine tune their product mix, reduce administrative overhead, and ultimately increase profit margins.

Focus is now on a data warehouse to leverage its existing businesses and generate new growth opportunities in the future. The data warehouse is a separate database that Host Marriott is designing explicitly for its data-intensive, decision-support applications. Building a data warehouse will allow them to optimize query times and eliminate impact on the company's production systems. The warehouse is being developed with INFORMIX-NewEra, an open, graphical, object-oriented development environment especially suited for creating enterprise wide client/server database applications.

The foundation of Host Marriotts data warehouse will be INFORMIX-OnLine Dynamic Server, which takes advantage of multiprocessing hardware to perform multiple database functions in parallel. The data warehouse will help the company determine which brands will succeed in which market. It will also help Host Marriott develop more proprietary brands, and deliver better products and services at lower cost.

By pooling sales data, market research, customer satisfaction ratings, etc., Host Marriott will be able to perform detailed analysis in order to eliminate unnecessary costs from operations, and fully leverage new business opportunities. Relying on Informix products and services is enabling Host Marriott to make the important shift from simple data processing to strategic business analysis.

4.2.5 Sybase

There is a lot of interest and activity in data warehousing, recent surveys show that more than 70 percent of Fortune 1000 companies have Data Warehousing projects budgeted or underway at an average cost of $3 million and a typical development time of 6 to 18 months (Meta Group Inc.).

Conventional warehousing applications today extract basic business data from operational systems, edit or transform it in some fashion to ensure its accuracy and clarity, and move it by means of transformation products, custom programming, or "sneaker net" to the newly deployed analytical database system. This extract, edit, load, query, extract, edit, load, query system might be acceptable if business life were very simple and relatively static but that is not the case, new data and data structures are added, changes are made to existing data, and even whole new databases are added.

Sybase Warehouse WORKS

Sybase Warehouse WORKS was designed around four key functions in data warehousing:

  • Assembling data from multiple sources
  • Transforming data for a consistent and understandable view of the business
  • Distributing data to where it is needed by business users
  • Providing high-speed access to the data for those business users

The Sybase Warehouse WORKS Alliance Program provides a complete, open, and integrated solution for organizations building and deploying data warehouse solutions. The program addresses the entire range of technology requirements for data warehouse development, including data transformation, data distribution, and interactive data access. The alliance partners have made commitments to adopt the Warehouse WORKS architecture and APIs, as well as to work closely with Sybase in marketing and sales programs.

4.2.6 SG Overview

The advances in data analysis realized through breakthroughs in data warehousing are now being extended by new solutions for data mining. Sophisticated tools for 3D visualization, coupled with data mining software developed by Silicon Graphics, make it possible to bring out patterns and trends in the data that may not have been realized using traditional SQL techniques. These "nuggets" of information can then be brought to the attention of the end user, yielding bottom-line results.

Using fly-through techniques, you can navigate your models on consumer purchasing and channel velocity to follow trends and observe patterns. In response to what you see, you can interact directly with the data, using visual computing to factor critical "what-if" scenarios into your models. By making it possible to go through many such iterations without resorting to over-burdened IS staff for analytical assistance, you can eliminate days - even months - from the review process.

4.2.7 IBM Overview

IBM provides a number of decision support tools to give users a powerful but easy-to-use interface to the data warehouse. IBM Information Warehouse Solutions offer the choice of decision support tools that best meet the needs of the end users in keeping with their commitment to provide open systems implementations.

IBM has announced, a Customer Partnership Program, to work with selected customers to gain experience and validate the applicability of the data mining technology. This offers customers the advantage of IBM's powerful new data mining technology to analyse their data looking for key patterns and associations. Visa and IBM announced an agreement on 30 May 1995 signalling their intention to work together. This will change the way in which Visa and its member banks exchange information worldwide. The proposed structure will facilitate the timely delivery of information and critical decision support tools directly to member financial institutions' desktops worldwide.

IBM Visualizer provides a powerful and comprehensive set of ready to use building blocks and development tools that can support a wide range of end-user requirements for query, report writing, data analysis, chart/graph making, business planning and multimedia database. As a workstation based product, Visualizer is object-oriented and that makes it easy to plug-in additional functions such as those mentioned. And, Visualizer can access databases such as Oracle and Sybase as well as the DB2 family.

There are a number of other decision support products available from IBM based on the platform, operating environment and database with which you need to work. For example, the IBM Application System (AS) provides a client/server architecture and the widest range of decision support functions available for the MVS and VM environments. AS has become the decision support server of choice in these environments because of its capability to access many different data sources. IBM Query Management Facility (QMF) provides query, reporting and graphics functions in the MVS, VM, and CICS environments. The Data Interpretation System (DIS) is an object-oriented set of tools that enable end users to access, analyse and present information with little technical assistance. It is a LAN-based client/server architecture that enables access to IBM and non-IBM relational databases as well as host applications in the MVS and VM environment. These and other products are available from IBM to provide the functions and capabilities needed for a variety of implementation alternatives.


نوشته شده در تاريخ شنبه نوزدهم آذر 1390 توسط جعفر

1 Data mining


1.1 What is data mining?

The past two decades has seen a dramatic increase in the amount of information or data being stored in electronic format. This accumulation of data has taken place at an explosive rate. It has been estimated that the amount of information in the world doubles every 20 months and the size and number of databases are increasing even faster. The increase in use of electronic data gathering devices such as point-of-sale or remote sensing devices has contributed to this explosion of available data. Figure 1 from the Red Brick company illustrates the data explosion.

Figure 1: The Growing Base of Data

Data storage became easier as the availability of large amounts of computing power at low cost ie the cost of processing power and storage is falling, made data cheap. There was also the introduction of new machine learning methods for knowledge representation based on logic programming etc. in addition to traditional statistical analysis of data. The new methods tend to be computationally intensive hence a demand for more processing power.

Having concentrated so much attention on the accumulation of data the problem was what to do with this valuable resource? It was recognised that information is at the heart of business operations and that decision-makers could make use of the data stored to gain valuable insight into the business. Database Management systems gave access to the data stored but this was only a small part of what could be gained from the data. Traditional on-line transaction processing systems, OLTPs, are good at putting data into databases quickly, safely and efficiently but are not good at delivering meaningful analysis in return. Analysing data can provide further knowledge about a business by going beyond the data explicitly stored to derive knowledge about the business. This is where Data Mining or Knowledge Discovery in Databases (KDD) has obvious benefits for any enterprise.

The term data mining has been stretched beyond its limits to apply to any form of data analysis. Some of the numerous definitions of Data Mining, or Knowledge Discovery in Databases are:

Data Mining, or Knowledge Discovery in Databases (KDD) as it is also known, is the nontrivial extraction of implicit, previously unknown, and potentially useful information from data. This encompasses a number of different technical approaches, such as clustering, data summarization, learning classification rules, finding dependency net works, analysing changes, and detecting anomalies.

William J Frawley, Gregory Piatetsky-Shapiro and Christopher J Matheus

Data mining is the search for relationships and global patterns that exist in large databases but are `hidden' among the vast amount of data, such as a relationship between patient data and their medical diagnosis. These relationships represent valuable knowledge about the database and the objects in the database and, if the database is a faithful mirror, of the real world registered by the database.

Marcel Holshemier & Arno Siebes (1994)

The analogy with the mining process is described as:

Data mining refers to "using a variety of techniques to identify nuggets of information or decision-making knowledge in bodies of data, and extracting these in such a way that they can be put to use in the areas such as decision support, prediction, forecasting and estimation. The data is often voluminous, but as it stands of low value as no direct use can be made of it; it is the hidden information in the data that is useful"

Clementine User Guide, a data mining toolkit

Basically data mining is concerned with the analysis of data and the use of software techniques for finding patterns and regularities in sets of data. It is the computer which is responsible for finding the patterns by identifying the underlying rules and features in the data. The idea is that it is possible to strike gold in unexpected places as the data mining software extracts patterns not previously discernable or so obvious that no-one has noticed them before.

Data mining analysis tends to work from the data up and the best techniques are those developed with an orientation towards large volumes of data, making use of as much of the collected data as possible to arrive at reliable conclusions and decisions. The analysis process starts with a set of data, uses a methodology to develop an optimal representation of the structure of the data during which time knowledge is acquired. Once knowledge has been acquired this can be extended to larger sets of data working on the assumption that the larger data set has a structure similar to the sample data. Again this is analogous to a mining operation where large amounts of low grade materials are sifted through in order to find something of value.

The following diagram summarises the some of the stages/processes identified in data mining and knowledge discovery by Usama Fayyad & Evangelos Simoudis, two of leading exponents of this area.


The phases depicted start with the raw data and finish with the extracted knowledge which was acquired as a result of the following stages:

  • Selection - selecting or segmenting the data according to some criteria e.g. all those people who own a car, in this way subsets of the data can be determined.
  • Preprocessing - this is the data cleansing stage where certain information is removed which is deemed unnecessary and may slow down queries for example unnecessary to note the sex of a patient when studying pregnancy. Also the data is reconfigured to ensure a consistent format as there is a possibility of inconsistent formats because the data is drawn from several sources e.g. sex may recorded as f or m and also as 1 or 0.
  • Transformation - the data is not merely transferred across but transformed in that overlays may added such as the demographic overlays commonly used in market research. The data is made useable and navigable.
  • Data mining - this stage is concerned with the extraction of patterns from the data. A pattern can be defined as given a set of facts(data) F, a language L, and some measure of certainty C a pattern is a statement S in L that describes relationships among a subset Fs of F with a certainty c such that S is simpler in some sense than the enumeration of all the facts in Fs.
  • Interpretation and evaluation - the patterns identified by the system are interpreted into knowledge which can then be used to support human decision-making e.g. prediction and classification tasks, summarizing the contents of a database or explaining observed phenomena.

1.2 Data mining background

Data mining research has drawn on a number of other fields such as inductive learning, machine learning and statistics etc.

1.2.1 Inductive learning

Induction is the inference of information from data and inductive learning is the model building process where the environment i.e. database is analysed with a view to finding patterns. Similar objects are grouped in classes and rules formulated whereby it is possible to predict the class of unseen objects. This process of classification identifies classes such that each class has a unique pattern of values which forms the class description. The nature of the environment is dynamic hence the model must be adaptive i.e. should be able learn.

Generally it is only possible to use a small number of properties to characterise objects so we make abstractions in that objects which satisfy the same subset of properties are mapped to the same internal representation.

Inductive learning where the system infers knowledge itself from observing its environment has two main strategies:

  • supervised learning - this is learning from examples where a teacher helps the system construct a model by defining classes and supplying examples of each class. The system has to find a description of each class i.e. the common properties in the examples. Once the description has been formulated the description and the class form a classification rule which can be used to predict the class of previously unseen objects. This is similar to discriminate analysis as in statistics.
  • unsupervised learning - this is learning from observation and discovery. The data mine system is supplied with objects but no classes are defined so it has to observe the examples and recognise patterns (i.e. class description) by itself. This system results in a set of class descriptions, one for each class discovered in the environment. Again this similar to cluster analysis as in statistics.

Induction is therefore the extraction of patterns. The quality of the model produced by inductive learning methods is such that the model could be used to predict the outcome of future situations in other words not only for states encountered but rather for unseen states that could occur. The problem is that most environments have different states, i.e. changes within, and it is not always possible to verify a model by checking it for all possible situations.

Given a set of examples the system can construct multiple models some of which will be simpler than others. The simpler models are more likely to be correct if we adhere to Ockhams razor, which states that if there are multiple explanations for a particular phenomena it makes sense to choose the simplest because it is more likely to capture the nature of the phenomenon.

1.2.2 Statistics

Statistics has a solid theoretical foundation but the results from statistics can be overwhelming and difficult to interpret as they require user guidance as to where and how to analyse the data. Data mining however allows the expert's knowledge of the data and the advanced analysis techniques of the computer to work together.

Statistical analysis systems such as SAS and SPSS have been used by analysts to detect unusual patterns and explain patterns using statistical models such as linear models. Statistics have a role to play and data mining will not replace such analyses but rather they can act upon more directed analyses based on the results of data mining. For example statistical induction is something like the average rate of failure of machines.

1.2.3 Machine Learning

Machine learning is the automation of a learning process and learning is tantamount to the construction of rules based on observations of environmental states and transitions. This is a broad field which includes not only learning from examples, but also reinforcement learning, learning with teacher, etc. A learning algorithm takes the data set and its accompanying information as input and returns a statement e.g. a concept representing the results of learning as output. Machine learning examines previous examples and their outcomes and learns how to reproduce these and make generalisations about new cases.

Generally a machine learning system does not use single observations of its environment but an entire finite set called the training set at once. This set contains examples i.e. observations coded in some machine readable form. The training set is finite hence not all concepts can be learned exactly.

1.2.4 Differences between Data Mining and Machine Learning

Knowledge Discovery in Databases (KDD) or Data Mining, and the part of Machine Learning (ML) dealing with learning from examples overlap in the algorithms used and the problems addressed.

The main differences are:

  • KDD is concerned with finding understandable knowledge, while ML is concerned with improving performance of an agent. So training a neural network to balance a pole is part of ML, but not of KDD. However, there are efforts to extract knowledge from neural networks which are very relevant for KDD.
  • KDD is concerned with very large, real-world databases, while ML typically (but not always) looks at smaller data sets. So efficiency questions are much more important for KDD.
  • ML is a broader field which includes not only learning from examples, but also reinforcement learning, learning with teacher, etc.

KDD is that part of ML which is concerned with finding understandable knowledge in large sets of real-world examples. When integrating machine learning techniques into database systems to implement KDD some of the databases require:

  • more efficient learning algorithms because realistic databases are normally very large and noisy. It is usual that the database is often designed for purposes different from data mining and so properties or attributes that would simplify the learning task are not present nor can they be requested from the real world. Databases are usually contaminated by errors so the data mining algorithm has to cope with noise whereas ML has laboratory type examples i.e. as near perfect as possible.
  • more expressive representations for both data, e.g. tuples in relational databases, which represent instances of a problem domain, and knowledge, e.g. rules in a rule-based system, which can be used to solve users' problems in the domain, and the semantic information contained in the relational schemata.

Practical KDD systems are expected to include three interconnected phases

  • Translation of standard database information into a form suitable for use by learning facilities;
  • Using machine learning techniques to produce knowledge bases from databases; and
  • Interpreting the knowledge produced to solve users' problems and/or reduce data spaces. Data spaces being the number of examples.

1.3 Data Mining Models

IBM have identified two types of model or modes of operation which may be used to unearth information of interest to the user.

1.3.1 Verification Model

The verification model takes an hypothesis from the user and tests the validity of it against the data. The emphasis is with the user who is responsible for formulating the hypothesis and issuing the query on the data to affirm or negate the hypothesis.

In a marketing division for example with a limited budget for a mailing campaign to launch a new product it is important to identify the section of the population most likely to buy the new product. The user formulates an hypothesis to identify potential customers and the characteristics they share. Historical data about customer purchase and demographic information can then be queried to reveal comparable purchases and the characteristics shared by those purchasers which in turn can be used to target a mailing campaign. The whole operation can be refined by `drilling down' so that the hypothesis reduces the `set' returned each time until the required limit is reached.

The problem with this model is the fact that no new information is created in the retrieval process but rather the queries will always return records to verify or negate the hypothesis. The search process here is iterative in that the output is reviewed, a new set of questions or hypothesis formulated to refine the search and the whole process repeated. The user is discovering the facts about the data using a variety of techniques such as queries, multidimensional analysis and visualization to guide the exploration of the data being inspected.

1.3.2 Discovery Model

The discovery model differs in its emphasis in that it is the system automatically discovering important information hidden in the data. The data is sifted in search of frequently occurring patterns, trends and generalisations about the data without intervention or guidance from the user. The discovery or data mining tools aim to reveal a large number of facts about the data in as short a time as possible.

An example of such a model is a bank database which is mined to discover the many groups of customers to target for a mailing campaign. The data is searched with no hypothesis in mind other than for the system to group the customers according to the common characteristics found.

1.4 Data Warehousing

Data mining potential can be enhanced if the appropriate data has been collected and stored in a data warehouse. A data warehouse is a relational database management system (RDMS) designed specifically to meet the needs of transaction processing systems. It can be loosely defined as any centralised data repository which can be queried for business benefit but this will be more clearly defined later. Data warehousing is a new powerful technique making it possible to extract archived operational data and overcome inconsistencies between different legacy data formats. As well as integrating data throughout an enterprise, regardless of location, format, or communication requirements it is possible to incorporate additional or expert information. It is,

the logical link between what the managers see in their decision support EIS applications and the company's operational activities

John McIntyre of SAS Institute Inc

In other words the data warehouse provides data that is already transformed and summarized, therefore making it an appropriate environment for more efficient DSS and EIS applications.

1.4.1 Characteristics of a data warehouse

According to Bill Inmon, author of Building the Data Warehouse and the guru who is widely considered to be the originator of the data warehousing concept, there are generally four characteristics that describe a data warehouse:

  • subject-oriented: data are organized according to subject instead of application e.g. an insurance company using a data warehouse would organize their data by customer, premium, and claim, instead of by different products (auto, life, etc.). The data organized by subject contain only the information necessary for decision support processing.
  • integrated: When data resides in many separate applications in the operational environment, encoding of data is often inconsistent. For instance, in one application, gender might be coded as "m" and "f" in another by 0 and 1. When data are moved from the operational environment into the data warehouse, they assume a consistent coding convention e.g. gender data is transformed to "m" and "f".
  • time-variant: The data warehouse contains a place for storing data that are five to 10 years old, or older, to be used for comparisons, trends, and forecasting. These data are not updated.
  • non-volatile: Data are not updated or changed in any way once they enter the data warehouse, but are only loaded and accessed.

1.4.2 Processes in data warehousing

The first phase in data warehousing is to "insulate" your current operational information, ie to preserve the security and integrity of mission-critical OLTP applications, while giving you access to the broadest possible base of data. The resulting database or data warehouse may consume hundreds of gigabytes - or even terabytes - of disk space, what is required then are efficient techniques for storing and retrieving massive amounts of information. Increasingly, large organizations have found that only parallel processing systems offer sufficient bandwidth.

The data warehouse thus retrieves data from a variety of heterogeneous operational databases. The data is then transformed and delivered to the data warehouse/store based on a selected model (or mapping definition). The data transformation and movement processes are executed whenever an update to the warehouse data is required so there should some form of automation to manage and execute these functions. The information that describes the model and definition of the source data elements is called "metadata". The metadata is the means by which the end-user finds and understands the data in the warehouse and is an important part of the warehouse. The metadata should at the very least contain;

  • the structure of the data;
  • the algorithm used for summarization;
  • and the mapping from the operational environment to the data warehouse.

Data cleansing is an important aspect of creating an efficient data warehouse in that it is the removal of certain aspects of operational data, such as low-level transaction information, which slow down the query times. The cleansing stage has to be as dynamic as possible to accommodate all types of queries even those which may require low-level information. Data should be extracted from production sources at regular intervals and pooled centrally but the cleansing process has to remove duplication and reconcile differences between various styles of data collection.

Once the data has been cleaned it is then transferred to the data warehouse which typically is a large database on a high performance box either SMP, Symmetric Multi-Processing or MPP, Massively Parallel Processing. Number-crunching power is another important aspect of data warehousing because of the complexity involved in processing ad hoc queries and because of the vast quantities of data that the organisation want to use in the warehouse. A data warehouse can be used in different ways for example it can be used as a central store against which the queries are run or it can be used to like a data mart. Data marts which are small warehouses can be established to provide subsets of the main store and summarised information depending on the requirements of a specific group/department. The central store approach generally uses very simple data structures with very little assumptions about the relationships between data whereas marts often use multidimensional databases which can speed up query processing as they can have data structures which are reflect the most likely questions.

Many vendors have products that provide one or more of the above described data warehouse functions. However, it can take a significant amount of work and specialized programming to provide the interoperability needed between products from multiple vendors to enable them to perform the required data warehouse processes. A typical implementation usually involves a mixture of products from a variety of suppliers.

Another approach to data warehousing is Parsaye's Sandwich Paradigm put forward by Dr. Kamran Parsaye, CEO of Information Discovery, Hermosa Beach, CA. This paradigm or philosophy encourages acceptance of the probability that the first iteration of a data-warehousing effort will require considerable revision. The Sandwich Paradigm advocates the following approach:

  • pre-mine the data to determine what formats and data are needed to support a data-mining application;
  • build a prototype mini-data warehouse i.e the meat of the sandwich, with most of the features envisaged for the end product;
  • revise the strategies as necessary;
  • build the final warehouse.

1.4.3 Data warehousing and OLTP systems

A database which is built for on line transaction processing, OLTP, is generally regarded as unsuitable for data warehousing as they have been designed with a different set of needs in mind ie maximising transaction capacity and typically having hundreds of tables in order not to lock out users etc. Data warehouses are interested in query processing as opposed to transaction processing.

OLTP systems cannot be repositories of facts and historical data for business analysis. They cannot quickly answer ad hoc queries and rapid retrieval is almost impossible. The data is inconsistent and changing, duplicate entries exist, entries can be missing and there is an absence of historical data which is necessary to analyse trends. Basically OLTP offers large amounts of raw data which is not easily understood. The data warehouse offers the potential to retrieve and analyse information quickly and easily. Data warehouses do have similarities with OLTP as shown in the table below.

The data warehouse serves a different purpose from that of OLTP systems by allowing business analysis queries to be answered as opposed to "simple aggregations" such as `what is the current account balance for this customer?' Typical data warehouse queries include such things as `which product line sells best in middle-America and how does this correlate to demographic data?'

1.4.4 The Data Warehouse model

Data warehousing is the process of extracting and transforming operational data into informational data and loading it into a central data store or warehouse. Once the data is loaded it is accessible via desktop query and analysis tools by the decision makers.

The data warehouse model is illustrated in the following diagram.

Figure 2: A data warehouse model

The data within the actual warehouse itself has a distinct structure with the emphasis on different levels of summarization as shown in the figure below.

Figure 3: The structure of data inside the data warehouse

The current detail data is central in importance as it:

  • reflects the most recent happenings, which are usually the most interesting;
  • it is voluminous as it is stored at the lowest level of granularity;
  • it is always (almost) stored on disk storage which is fast to access but expensive and complex to manage.

Older detail data is stored on some form of mass storage, it is infrequently accessed and stored at a level detail consistent with current detailed data.

Lightly summarized data is data distilled from the low level of detail found at the current detailed level and generally is stored on disk storage. When building the data warehouse have to consider what unit of time is summarization done over and also the contents or what attributes the summarized data will contain.

Highly summarized data is compact and easily accessible and can even be found outside the warehouse.

Metadata is the final component of the data warehouse and is really of a different dimension in that it is not the same as data drawn from the operational environment but is used as:

  • a directory to help the DSS analyst locate the contents of the data warehouse,
  • a guide to the mapping of data as the data is transformed from the operational environment to the data warehouse environment,
  • a guide to the algorithms used for summarization between the current detailed data and the lightly summarized data and the lightly summarized data and the highly summarized data, etc.

The basic structure has been described but Bill Inmon fills in the details to make the example come alive as shown in the following diagram.

Figure 4: An example of levels of summarization of data inside the data warehouse

The diagram assumes the year is 1993 hence the current detail data is 1992-93. Generally sales data doesn't reach the current level of detail for 24 hours as it waits until it is no longer available to the operational system i.e. it takes 24 hours for it to get to the data warehouse. Sales details are summarized weekly by subproduct and region to produce the lightly summarized detail. Weekly sales are then summarized again to produce the highly summarized data.

1.4.5 Problems with data warehousing

One of the problems with data mining software has been the rush of companies to jump on the band wagon as

these companies have slapped `data warehouse' labels on traditional transaction-processing products, and co-opted the lexicon of the industry in order to be considered players in this fast-growing category.

Chris Erickson, president and CEO of Red Brick (HPCwire, Oct. 13, 1995)

Red Brick Systems have established a criteria for a relational database management system (RDBMS) suitable for data warehousing, and documented 10 specialized requirements for an RDBMS to qualify as a relational data warehouse server, this criteria is listed in the next section.

According to Red Brick, the requirements for data warehouse RDBMSs begin with the loading and preparation of data for query and analysis. If a product fails to meet the criteria at this stage, the rest of the system will be inaccurate, unreliable and unavailable.

1.4.6 Criteria for a data warehouse

The criteria for data warehouse RDBMSs are as follows:

  • Load Performance - Data warehouses require incremental loading of new data on a periodic basis within narrow time windows; performance of the load process should be measured in hundreds of millions of rows and gigabytes per hour and must not artificially constrain the volume of data required by the business.
  • Load Processing - Many steps must be taken to load new or updated data into the data warehouse including data conversions, filtering, reformatting, integrity checks, physical storage, indexing, and metadata update. These steps must be executed as a single, seamless unit of work.
  • Data Quality Management - The shift to fact-based management demands the highest data quality. The warehouse must ensure local consistency, global consistency, and referential integrity despite "dirty" sources and massive database size. While loading and preparation are necessary steps, they are not sufficient. Query throughput is the measure of success for a data warehouse application. As more questions are answered, analysts are catalysed to ask more creative and insightful questions.
  • Query Performance - Fact-based management and ad-hoc analysis must not be slowed or inhibited by the performance of the data warehouse RDBMS; large, complex queries for key business operations must complete in seconds not days.
  • Terabyte Scalability - Data warehouse sizes are growing at astonishing rates. Today these range from a few to hundreds of gigabytes, and terabyte-sized data warehouses are a near-term reality. The RDBMS must not have any architectural limitations. It must support modular and parallel management. It must support continued availability in the event of a point failure, and must provide a fundamentally different mechanism for recovery. It must support near-line mass storage devices such as optical disk and Hierarchical Storage Management devices. Lastly, query performance must not be dependent on the size of the database, but rather on the complexity of the query.
  • Mass User Scalability - Access to warehouse data must no longer be limited to the elite few. The RDBMS server must support hundreds, even thousands, of concurrent users while maintaining acceptable query performance.
  • Networked Data Warehouse - Data warehouses rarely exist in isolation. Multiple data warehouse systems cooperate in a larger network of data warehouses. The server must include tools that coordinate the movement of subsets of data between warehouses. Users must be able to look at and work with multiple warehouses from a single client workstation. Warehouse managers have to manage and administer a network of warehouses from a single physical location.
  • Warehouse Administration - The very large scale and time-cyclic nature of the data warehouse demands administrative ease and flexibility. The RDBMS must provide controls for implementing resource limits, chargeback accounting to allocate costs back to users, and query prioritization to address the needs of different user classes and activities. The RDBMS must also provide for workload tracking and tuning so system resources may be optimized for maximum performance and throughput. "The most visible and measurable value of implementing a data warehouse is evidenced in the uninhibited, creative access to data it provides the end user.
  • Integrated Dimensional Analysis - The power of multidimensional views is widely accepted, and dimensional support must be inherent in the warehouse RDBMS to provide the highest performance for relational OLAP tools. The RDBMS must support fast, easy creation of precomputed summaries common in large data warehouses. It also should provide the maintenance tools to automate the creation of these precomputed aggregates. Dynamic calculation of aggregates should be consistent with the interactive performance needs.
  • Advanced Query Functionality - End users require advanced analytic calculations, sequential and comparative analysis, and consistent access to detailed and summarized data. Using SQL in a client/server point-and-click tool environment may sometimes be impractical or even impossible. The RDBMS must provide a complete set of analytic operations including core sequential and statistical operations.

1.5 Data mining problems/issues

Data mining systems rely on databases to supply the raw data for input and this raises problems in that databases tend be dynamic, incomplete, noisy, and large. Other problems arise as a result of the adequacy and relevance of the information stored.

1.5.1 Limited Information

A database is often designed for purposes different from data mining and sometimes the properties or attributes that would simplify the learning task are not present nor can they be requested from the real world. Inconclusive data causes problems because if some attributes essential to knowledge about the application domain are not present in the data it may be impossible to discover significant knowledge about a given domain. For example cannot diagnose malaria from a patient database if that database does not contain the patients red blood cell count.

1.5.2 Noise and missing values

Databases are usually contaminated by errors so it cannot be assumed that the data they contain is entirely correct. Attributes which rely on subjective or measurement judgements can give rise to errors such that some examples may even be mis-classified. Error in either the values of attributes or class information are known as noise. Obviously where possible it is desirable to eliminate noise from the classification information as this affects the overall accuracy of the generated rules.

Missing data can be treated by discovery systems in a number of ways such as;

  • simply disregard missing values
  • omit the corresponding records
  • infer missing values from known values
  • treat missing data as a special value to be included additionally in the attribute domain
  • or average over the missing values using Bayesian techniques.

Noisy data in the sense of being imprecise is characteristic of all data collection and typically fit a regular statistical distribution such as Gaussian while wrong values are data entry errors. Statistical methods can treat problems of noisy data, and separate different types of noise.

1.5.3 Uncertainty

Uncertainty refers to the severity of the error and the degree of noise in the data. Data precision is an important consideration in a discovery system.

1.5.4 Size, updates, and irrelevant fields

Databases tend to be large and dynamic in that their contents are ever-changing as information is added, modified or removed. The problem with this from the data mining perspective is how to ensure that the rules are up-to-date and consistent with the most current information. Also the learning system has to be time-sensitive as some data values vary over time and the discovery system is affected by the `timeliness' of the data.

Another issue is the relevance or irrelevance of the fields in the database to the current focus of discovery for example post codes are fundamental to any studies trying to establish a geographical connection to an item of interest such as the sales of a product.

1.6 Potential Applications

Data mining has many and varied fields of application some of which are listed below.

1.6.1 Retail/Marketing

  • Identify buying patterns from customers
  • Find associations among customer demographic characteristics
  • Predict response to mailing campaigns
  • Market basket analysis

1.6.2 Banking

  • Detect patterns of fraudulent credit card use
  • Identify `loyal' customers
  • Predict customers likely to change their credit card affiliation
  • Determine credit card spending by customer groups
  • Find hidden correlations between different financial indicators
  • Identify stock trading rules from historical market data

1.6.3 Insurance and Health Care

  • Claims analysis - i.e which medical procedures are claimed together
  • Predict which customers will buy new policies
  • Identify behaviour patterns of risky customers
  • Identify fraudulent behaviour

1.6.4 Transportation

  • Determine the distribution schedules among outlets
  • Analyse loading patterns

1.6.5 Medicine

  • Characterise patient behaviour to predict office visits
  • Identify successful medical therapies for different illnesses

2 Data Mining Functions


Data mining methods may be classified by the function they perform or according to the class of application they can be used in. Some of the main techniques used in data mining are described in this section.  


نوشته شده در تاريخ شنبه نوزدهم آذر 1390 توسط جعفر

·       مقدمه

معرفی دادهکاوی و دلايل پيدايش آن

تعاريف داده کاوي

جايگاه دادهکاوی در علوم کامپيوتر

 

·       طبقه بندی روش های داده کاوی

1. داده کاوی توصیفی یا توصیف کننده

2. داده کاوی پیشگویانه

·           مراحل و اجزای يک فرآيند دادهکاوی

1. بیان مسئله و فرموله کردن فرضیه

2. انتخاب و جمع آوری داده ها

3. تبديل و پیش پردازش  داده ها

4. برآورد مدل یا کاوش در داده ها

5. تفسير نتيجه یا تفسیر مدل و رسیدن به نتایج

·       آماده سازی داده ها

1. مدل استاندارد داده ها

2. دو وظیفه اصلی در آماده سازی داده ها

·       تبدیل و تغییر وضعیت داده های خام

1. نرمال سازی

     1-1 مقیاس دهی اعشاری

     2-1 نرمال سازی حداقل-حداکثر

     3-1 نرمال سازی انحراف معیار

2. یکنواخت سازی داده ها

3. تفاضل ها و نسبت ها

·         مفهوم داده های از دست رفته و راه حل جبران داده های از دست رفته

·       مفهوم و روش های تشخیص داده های نامنطبق

1. روش های آماری 2. تشخیص داده های نامنطیق برمبنای فاصله 3. روش ها و تکنیک های برمبنای انحراف

·       کاهش داده ها

1.      اعمال اصلی در فرایند کاهش داده ها

2.      یافته های حاصل از کاهش داده ها

         2-1 کاهش زمان محاسبه.

        2-2 افزایش یادگیری در دقت پیشگویانه/توصیفی.

        2-3 سادگی در ارائه مدل داده کاوی.

·         روش های نمونه گیری برای نمونه های بزرگ

1. نمونه گیری سیستمی.

2. نمونه گیری تصادفی.

3. نمونه گیری لایه ای.

4. نمونه گیری معکوس.     

 

مقدمه

امروزه با گسترش سيستم هاي پايگاهي و حجم بالاي داده ها ي ذخيره شده در اين سيستم ها، نياز به ابزاري است تا بتوان داده هاي ذخيره شده پردازش کرد و اطلاعات حاصل از اين پردازش را در اختيار کاربران قرار داد.

با استفاده ار پرسش هاي ساده درSQL  و ابزارهاي گوناگون گزارش گيري معمولي، مي توان اطلاعاتي را در اختيار کاربران قرار داد تا بتوانند به نتيجه گيري در مورد داده ها و روابط منطقي ميان آنها بپردازند اما وقتي که حجم داده ها بالا باشد، کاربران هر چقدرحرفه ای و با تجربه باشند نمي توانند الگوهاي مفيد را در ميان حجم انبوه داده ها تشخيص دهند و يا اگر قادر به اين کار هم با شند، هزينه عمليات از نظر نيروي انساني و مالي بسيار بالا است.

 

بنابراین میشود گفت که درحال حاضر یک تغییر الگو از مدل سازی و تحلیل های کلاسیک برپایه اصول اولیه به مدل های درحال پیشرفت و تحلیل های مربوط بطور مستقیم از داده ها وجود دارد.

داده کاوي يکي از مهمترين اين روشها است که به وسيله آن الگوهاي مفيد در داده ها با حداقل دخالت کاربران شناخته مي شوند و اطلاعاتي را در اختيار کاربران و تحليل گران قرار مي دهند تا براساس آنها تصميمات مهم و حياتي در سازمانها اتخاذ شوند.

 

 

تعاريف داده کاوي

در متون آکادميک تعاريف گوناگوني براي داده کاوي ارائه شده اند. در برخي از اين تعاريف داده کاوي در حد ابزاري که کاربران را قادر به ارتباط مستقيم با حجم عظيم داده ها مي سازد معرفي گرديده است و در برخي ديگر، تعاريف دقيقتر که درآنها به کاوش در داده ها توجه مي شود موجود است.

برخي از اين تعاريف عبارتند از :

1.      داده کاوي عبارت است از فرايند استخراج اطلاعات معتبر، از پيش ناشناخته، قابل فهم و قابل اعتماد از پايگاه داده هاي بزرگ و استفاده از آن در تصميم گيري در فعاليت هاي تجاري مهم.

2.      فرايند نيم خودکار تجزيه و تحليل پايگاه داده هاي بزرگ به منظور يافتن الگوهاي مفيد اطلاق مي شود.

3.      داده کاوي يعني فرایند جستجو در يک پايگاه داده ها براي يافتن الگوهايي ميان داده ها.

4.      داده کاوي يعني تجزيه و تحليل مجموعه داده هاي قابل مشاهده براي يافتن روابط مطمئن بين داده ها.

5.      داده کاوي يعني استخراج دانش کلان ، قابل استناد و جديد از پايگاه داده ها ي بزرگ.

 

نکته:  همانگونه که در تعاريف گوناگون داده کاوي مشاهده مي شود، تقريبا در تمامي تعاريف به مفاهيمي چون استخراج دانش ، تحليل و يافتن الگوي بين داده ها اشاره شده است.

 

" داده کاوي فرآيندي است که طي آن با استفاده از ابزار های  تحليل داده به دنبال کشف الگوها و ارتباطات ميان داده هاي موجود که ممکن است منجر به استخراج اطلاعات جديدي از پايگاه داده گردند، مي باشد."

 

 

در داده کاوي از بخشي از به نام تحليل اکتشافي داده ها استفاده مي شود که در آن بر کشف اطلاعات نهفته و ناشناخته از درون حجم انبوه داده ها تاکيد مي شودبنابراين مي توان گفت در داده کاوي تئوريهاي پايگاه داده ها، هوش مصنوعي، يادگيري ماشين وعلم آمار را در هم مي آميزند تا زمينه کاربردي فراهم شود.

بايد توجه داشت که اصطلاح داده کاوي زماني به کار برده مي شود که با حجم بزرگي از داده ها در حد گیگابایت يا ترابايت، مواجه باشيم که از این نظر یکی از بزرگترین بازارهای هدف، انبارجامع داده ها، مراکز داده وسیستم های پشتیبانی تصمیم برای بدست آوردن تخصص هایی در صنایعی مثل شبکه های توزیع مویرگی، تولیدف مخابرات، بیمه و... می باشد.

 

نکته: در تعاریفی که از داده کاوی ارائه شد به اصطلاح "فرایند" اشاره شد. حتی در بعضی محیط های حرفه ای این نظر وجود دادرد که داده کاوی شامل انتخاب و بکارگیری ابزارهای مبتنی بر کامپیوتر برای حل مسائل فعلی و بدست آوردن یک راه حل بطور اتوماتیک و خودکار میباشد.

برای اموزش داده کاوی، باید بر مفاهیم و روش های اعمال شده برخلاف همه جاذبه های ابزارهای مبتنی بر کامپیوتر که امور رابا جزئیات ودستورات با فرمت های خاصی باید به خیلی از سوالات از جمله چگونگی طراحی واستفاده از فرایندها را پاسخ داد به جای بیان جزئیات عملی ابزار مختلف داده کاوی تکیه نمود.

 

 

طبقه بندی روش های داده کاوی:

  1. داده کاوی توصیفی یا توصیف کننده که اطلاعات جدید وغیربدیهی رابراساس مجموعه داده های موجود ارائه می دهد.

در این روش توصیف، هدف کلی بدست اوردن یک شناخت از سیستم های تجزیه و تحلیل شده توسط الگوها و روابط بین داده هایData Warehouse ها که تحت عناوینی مثل کشف الگوی ترتیبی، کشف قانون وابستگی و خوشه بندی هستند، می باشد.

 

  1. داده کاوی پیش گویانه مدلی از سیستم را ارائه می دهد که شامل بکارگیری متغییرها و فیلدهادرData Warehouseها جهت پیشگویی مقادیر ناشناخته می باشد. در این طیف)پیش گویانه( هدف کلی داده کاوی ایجاد مدلی است که بعنوان یک برنامه بنوان از آن برای طبقه بندی و تشخیص و کشف خطا استفاده کرد.

 

مراحل فرايند کشف دانش از پايگاه داده ها

فرايند کشف دانش از پايگاه داده ها شامل پنج مرحله است که عبارتند از:

1.      درک قلمرو یا بیان مسئله و فرموله کردن فرضیه

2.      انتخاب و جمع آوری داده ها

3.      تبديل داده ها

4.      کاوش در داده ها

5.      تفسير نتيجه یا تفسیر مدل و رسیدن به نتایج

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

بیان مسئله و فرموله کردن فرضیه:

در ابتداي امر پيش زمينه كشف دانش، فهم درست داده و مساله مي باشد. بدون اين فهم درست هيچ الگوريتمي صرف نظر از خبره بودن آن نمي تواند نتيجه مطمئني براي شما حاصل نمايد و داده را جهت كاوش آماده نموده يا نتايج را به طور صحيح تفسير نمود. براي استفاده بهتر از داده كاوي بايد يك بيان واضح از هدف داشت. در این مرحله انچه نیاز است  ترکیبی از تخصص یک زمینه کاربردی و یک مدل داده کاوی است و شاید بتوان گفت یک تقابل نزدیک سر یک مسئله واحد و چندین فرضیه فرموله شده بین متخصصین داده کاوی و متخصصین کاربردی میباشد.

  1. انتخاب و جمع آوری داده ها:

این مرحله درارتباط با چگونگی تولید و جمع آوری داده ها است.

بطور کلی، دو امکان وجود دارد:

 روش آزمون طراحی: زمانی است که فرایند تولید داده ها تحت کنترل یک متخصص کاربردی)مدل ساز سیستم(  باشد.

روش دیداری: امکان دوم زمانی مطرح است که متخصص قادر به تولید فرآیند نیست یعنی تولید داده  بصورت تصادفی در نظر گرفته شود.

پس از اینکه داده ها جمع اوری شدند یا در فرایند جمع اوری داده ها تا اندازه ای قرار گرفتند، توزیع نمونه گیری کاملا نامعلوم است.(یعنی  داده هایی که بعدا برای تست و بکارگیری آن مدل بکار می روند از چند نمونه مشابه استفاده می شوند.)

نکته: براي فرايند داده کاوي داده ها ي مورد نياز موجود در انبار داده ها بايد انتخاب شوند. درک این مطلب که برای ارزیابی یک مدل که بعدا برای تست و بکارگیری آن مدل بکار می رود، موفقیت آمیز باشد، بسیار مهم است در غیر اینصورت نتایج درستی حاصل نمی گردد.

مثلا انبار داده ها شامل انواع مختلف و گوناگوني از داده ها است به عنوان مثال در يک پايگاه داده هاي مربوط به سيستم فروشگاهي، اطلاعاتي در مورد خريد مشتريان، خصوصيات آماري آنها،dispatcher ها (توزیع کنندگان)، مشتریان، حسابداري و ... وجود دارند که همه آنها در داده کاوي مورد نياز نيستند.

 

  1. پیش پردازش ها یا تبديل داده ها

زمانی که که داده هاي مورد نياز از پایگاه داده های موجود در انبار داده ها "جمع اوری" شدند و داده هاي مورد کاوش مشخص گرديدند، معمولا به تبديلات خاصي روي داده ها نياز است که شامل حداقل دو مرحله متداول می باشد:

1. آشکارسازی ( حذف) داده های غیرعادی:

داده های غیرعادی یا غیر معمول درحقیقت داده های نتیجه سنجش خطاها، کدنویسی و ثبت خطاها است. دراینجا باید یا 1. داده های غیرعادی  را تشخیص داد و خذف کرد ویا 2. باید روش های قوی مدل سازی رابگونه ای توسعه داد که نسبت به این نوع داده ها غیر حساس باشند.

 

2. ویژگی های مقیاس بندی، رمزگذاری و انتخاب:

در تبدیل داده ها توصیه میشود که داده ها را جهت تحلیل و بررسی مقیاس بندی و ورمزگذاری کرد. مثلا یک مشخصه با دامنه [0,1] ودیگری با دامنه [-100,1000] دارای ارزش مشابهی در تکنیک های اعلام شده نیستند. که در صورت نادیده گرفتن همین تفاوت در دامنه داده ها، روی نتایج نهایی داده کاوی تاثیر خواهند گذاشت.

 

  1. برآورد مدل یا کاوش در داده ها

در این مرحله داده هاي تبديل شده با استفاده از تکنيکها و عملياتهاي داده کاوي مورد کاوش قرار مي گيرند تا الگوهاي مورد نظر کشف شوند. یا به عبارتی دیگه، انتخاب و پیاده سازی تکنیک های داده کاوی در این مرحله صورت میگیرد. لبته این فرایند خیلی روشن و واضح نیست زیرا هنگام پیاده سازی ممکن است که مبتنی بر چندین مدل در یک فرآيند تكراريباشد. ( این مدل ها بطور کامل تر در مباحث مربوط به مفاهیم انواع دسته بندی،درختان تصمیم و قوانین تصمیم، شبکه های عصبی، انواع الگوریتم ها و ...پیاده سازی می شوند)

 

 

 

 

 

 

 

 

 

                                                          يك شبكه عصبي با يك لايه پنهان

 

  1. تفسير نتيجه یا تفسیر مدل و رسیدن به نتایج

اطلاعات استخراج شده با توجه به هدف کاربر تجزيه و تحليل شده و بهترين نتايج باید در تصمیم گیری کاربر موثر مي باشند. هدف از اين مرحله تنها ارائه نتيجه (بصورت منطقي و يا نموداري) نيست، بلکه پالايش اطلاعات ارايه شده به کاربر نيز از اهداف مهم اين مرحله است .

 

هشدار:  اگرچه تاکید بر مراحل 3و4 فرایند داده کاوی بیشتر است اما باید به این نکته توجه داشت که اینها فقط دو مرحله از یک فرایند پیچیده هستند. همه فرایند داده کاوی و تک تک مراحل بطور مجزا بسیار تکرار پذیر هستند.

هشدار : باید توجه داشت که بدون توجه به صحت و درستی مراحل 5گانه داده کاوی، ممکن است که مدل و داده حاصل انچنان معتبر نباشد.

***************************

آماده سازی داده ها

 

مدل استاندارد داده ها:

 

 

نمایش جدولی یک مجموعه داده ها

 

مدل استاندارد داده های ساخت یافته که حاوی فیلدهایی با مقادیر عددی می باشند برای داده کاوی دارای حالات مختلفی می باشند. در داده کاوی جهت نمایش اشیای ذخیره شده "خصیصه" یا "ویژگی" و جهت نمایش رکوردهای سطرها، از اصطلاح "نمونه" یا حالت" استفاده می شود. در آماده سازی داده ها گاهی اوقات  فقط به عنوان یک مرحله از فرایند داده کاوی  تلقی می شود.

 

در اماده سازی داده ها دو وظیفه داریم:

  1. ساماندهی داده ها به یک شکل استاندارد که برای پردازش بوسیله تکنیک های داده کاوی آماده شوند( یک شکل استاندارد، یک جدول رابطه ای است).
  2. آماده سازی مجموعه داده هایی که به بهترین عملکرد داده کاوی منجر شود.

 

تبدیل و تغییر وضعیت داده های خام

برای تبدیل یا تغییر وضعیت داده های خام ما باید از چند روش یا تکنیک تغییر داده ها (البته بسته به نوع داده ها) یکی را انتخاب کنیم.

 

1. نرمال سازی

هدف از نرمالسازی حذف افزونگی داده و باقی نگهداشتن وابستگی بين داده های مرتبط از طریق ایجاد رابطه ستون های غير کليدی در هر جدول کليد است. اين فرآيند اغلب باعث ايجاد جداول بيشتر می شود ولی از این طريق اندازه پايگاه داده را کاهش داده و بهبود کارائی داده را تضمين می کند.

با توجه به وضعيت ممکن است داده ها از چند پايگاه داده نرمال شده استخراج شوند و در يک انبار داده غير نرمال قرار گيرد. اين روش برای مخزن داده  Data warehouse استاندارد خوبی است.

 

 

1.1 مقیاس دهی اعشاری. مقیاس دهی اعشار نقطه اعشاری را انتقال می دهد اما بیشترین مقادیر اصلی را حفظ می کند. مقیاس کلی و انتخابی، مقادیر را در دامنه -1تا1 برقرار میکند.

معادله فوق به ازای کوچکترین مقدار k با این فرض که (|V'(i)|)<1 باشد، تعریف شده است.

 

1.2 نرمال سازی حداقل-حداکثر. محاسبه خودکار مقادیر حداقل و حداکثر نیازمند جست جوی بیشتر در میان داده ها می باشد که ارزیابی و براورد از این مقادیر ممکن است که موجب انباشتگی مقادیر نرمال شده گردد. (10و20و30) که حاصل در بازه[1,0] بدست می آید.

1.3 نرمال سازی انحراف معیار. نرمال سازی به روش انحراف معیار در اغلب موارد با اندازه گیری فاصله بین بازه ها بخوبی کار میکند.

برای یک مورد i، مقدار مشخص با استفاده از معادله زیر تبدیل می شود:برای مجموعه V={1,2,3}، باشد Sd(V)=1،mean(V)=2 می باشد و مجموعه مقادیر نرمال شده V'={-1,0,1} خواهد بود.

 

            

 

 

 

2. یکنواخت سازی داده ها یک خصیصه عددی مانندy  ممکن است که بر روی مقادیر مختلفی بصورت متفاوت عمل کند این نکته را نیز باید درنظر داشت که برای بسیاری از تکنیک های داده کاوی تفاوتی بین این مقادیر با اهمیت نیستند که ممکن است با تغییر در آنها موجب کاهش ان شوند. با این وجود گاهی مواقع با یکنواخت کردن مقادیر معتبر، منجر به کاهش پیچیدگی نتایج حاصله گردد.

 

. برای مثال یکی از روش های یکنواخت سازی داده ها، گرد کردن مقادیز با دقت معین است فرضا برای مجموعه مقادیر معین } {0.93,1.01,3.02,2.99,5.03,5.01,4.98 مقادیر هموارشده برابر خواهدشد {1.0,1.0,3.0,3.0,5.0,5.0,5.0}. البته الگوریتم های هموار کننده همیشه به این سادگی نیستند.

 

3. تفاضل ها و نسبت ها

تغییرات کوچک روی مشخصه ها می توانند بهبود معنی داری را در کارایی کاوش داده ها ایجاد کند. اثرات این تبدیلات کوچک در مشخصه های ورودی/خروجی بویژه در تشخیص و کشف خطا در روش های پیش بینی کننده دادده کاوی مهم هستند.

 

 برای مثال ممکن است هدف کنترل های لازم برای فرایند تولید ورسیدن به حالت مطلوب و بهینه باشد.اما بجای نرمال سازی انحراف معیار مشخصه خروجی s(t+1)، شاید با یک حرکت نسبی از مقدار فعلی، مقدارs(t+1)-s(t) در نظر گرفته شود.  ویا با بکارگیری s(t+1)/s(t)  بعنوان خروجی فرایند داده  کاوی موجب بهبود کارایی کل داده کاوی شود.

 

 

 

داده های از دست رفته

در بسیاری از کاربردهای دنیای واقعی کاوش داده ها، حتی با وجود مقدار داده های حجیم و فضای ذخیره سازی مناسب، ممکن است در نمونه های موجود، مقادیری از داده ها از دست رفته(گمشده) باشند. در بعضی روش های داده کاوی ،مقادیر از دست رفته داده ها و فرایند داده ای مناسب برای رسیدن به نتیجه نهایی را می پذیرند (البته این نوع داده کاوی ها بیشتر برای تعداد مقادیر کوچک از دست رفته مصداق دارد)

 اما مشکل از آنجا آغاز میشود که برای مجموعه داده های بزرگ نمی توان از مقادیر از دست رفته چشم پوشی کرد. یک راه حل برای جایگذینی خودکار مقادیر از دست رفته با مقادیر ثابت عبارت است از:

 

1.      جایگزینی تمام مقادیر از دست رفته با یک تک مقدار ثابت سراسری

2.      جایگزینی یک مقدار از دست رفته با متوسط مشخصه آن.

3.      جایگزینی یک مقدار از دست رفته با متوسط مشخصه آن برای یک گروه مشخص.

 

نکته ای که باید به آن توجه کرد این است که در همه روش های بالا اشکال در این است که مقدار جایگزین شده مقدار درست و واقعی آن نیست که در این حالت به مقادیر نزدیک به مقدار از دست داده شده، یک کلاس همگن یا کلاس مصنوعی گفته می شود.

 

تحلیل داده های نامنطبق

در مجموعه داده های بزرگ، به نمونه هایی که از رفتار کلی مدل داده ای تبعیت نمی کنند و بطور کلی متفاوت یا ناهماهنگ با مجموعه باقیانده داده ها هستند، داده های نامنطبق نامیده می شوند.

داده های نامنطبق می توانند توسط خطای اندازه گیری ایجاد شونده یا نتیجه نوع داده ای درونی باشند.

 

برای مثال اگر سن فردی در پایگاه داده -1باشد، مقدار فوق قطعاغلط با یک مقدار پیش فرض فیلد "سن ثبت نشده" می تواند در برنامه مشخص گردد. ونمونه های دیگری که ممکن است براثر خطای باشند...

 

و اما راه حل بسیار از الگوریتم های کاوش داده ها سعی در کاهش وبعضا حذف داده های نامنطبق در مراحل پیش پردازش دارند.

نکته در اینجا تحلیلگران داده کاوی باید در الگوریتم های پیش پردازنده بیش از حذف خودکار داده های نامنطبق، بر جنبه های آشکارسازی داده های نامنطبق تاکید کنند.

روش های آماری یکی از ساده ترین راه ها برای تشخیص وکشف داده های نامنطبق روش های آماری است.

بافرض اینکه توزیع مقادیر داده ای انجام شوند، یافتن پارامترهای آماری اساسی مثل مقدار متوسط و انحراف معیار لازم می شوند. براساس همین مقادیر و تعداد داده های نامنطبق، ایجاد مقدار استانه به عنوان یک تابع آماری بوجود می آید.

مثال: مجموعه داده های مشخصه ای مثل سن، با مقدار 20:

Age={3,56,23,39,156,52,41,22,9,28,439,31,55,45,37}

=39.9  میانگین

=  45.65 انحراف معیار

انحراف معیار 2* میانگین = مقدار آستانه یا فاصله

 

همه داده هایی که خارج از بازه [-54.1,131.2] قرار دارند داده های نامنطبق هستند. که با شناخت ویژگی های مشخصه (سن همیشه بزرگتر از صفر) ممکن است که باعث کاهش بیشتر بازه گردد[0,131]. در مثال ما مقدار داده های نامنطبق در پایه شاخص معین، 67- و139و156 می باشند.

 

تشخیص داده های نامنطیق برمبنای فاصله روشی دیگر است که محدودیت های ابعادداده ها در روش اماری را ندارد.

 

روش ها و تکنیک های برمبنای انحراف سومین کلاس از روش های تشخیص داده های نامنطبق، دراصل شبیه سازی روشی است که می توان نمونه های غیر طبیعی را از یک مجموعه نمونه های مشابه دیگر تشخیص داد.

این روش ها ویژگی های اساسی مجموعه نمونه ها را تعین و نمونه های متفاوت از این ویژگی ها منحرف می شوند و به تبع آن داده های منطبق آشکار میشوند. البته باید توجه داشت که تعین ویژگی های مجموعه نمونه ها بسیار پیچیده  و گاهی ترکیبی از انتخاب طرح های کلی تر می باشند.

 

********************************

کاهش داده ها

مقدمه

برای مجموعه داده های کوچک یا متوسط، در مراحل پیش پردازشی (که شامل آشکارسازی وحذف داده های غیرعادی و ویژگی های مقیاس بندی، رمزگذاری و انتخاب) در مورد داده ها معمولا کافی بودند. اما برای مجموعه داده های چند بعدی و خیلی بزرگ، قبل از بکاربردن تکنیک های داده کاوی نیاز به یک مرحله اضافی یعنی کاهش داده داریم.

نکته: موضوع اصلی برای ساده سازی کاهش ابعاد داده ها می باشد.( این به این معنی است که اگه خود الگوریتم ها و روش های کاهش داده پیچیده بشوند، ازهدف اصلی کاهش ابعاد داده در داده های بزرگ دورمیشویم.)

 

برای شروع باید یادآوری کرد که 3بعد اصلی مجموعه داده های پیش پردازش شده شامل:

  1. ستون ها( ویژگی ها (Features
  2. ردیف ها یا سطرها( مواردیا نمونه ها(Samples  
  3. مقادیر ویژگی ها(Features Value)  

 

و به تبع آنها 3 عمل اصلی در فرایند کاهش داده ها عبارتند از:

  1. حذف یک سطر
  2. کاهش تعداد مقادیر در یک ستون
  3. حذف یک ستون

پاسخ به این سوال که با انجام فعالیت های کاهش داده ها چه بدست می آوریم و چه از دست میدهیم! ویا اصلا اگر کاهش داده ها را انجام ندهیم چه اتفاقی می افتد.

 

  1. کاهش زمان محاسبه. واضح است که داده های ساده تر حاصل از کاهش داده ها منجر به کاهش زمان برای داده کاوی می شود.
  2. افزایش یادگیری در دقت پیشگویانه/توصیفی. یکی از مهمترین معیارهایی که برای مدل های داده کاوی که با دو شیوه اصلی داده کاوی بدست می آیند  است افزایش یادگیری در دقت پیشگویانه/توصیفی است که با خلاصه سازی داده ها و تعمیم آن به به مدل داده کاوی است. یا بعبارتی دیگر داده های غیرمرتبط  و زائد، کار یادگیری راسخت تر و نتایج ناخواسته داده کاوی را حاصل می شود.
  3. سادگی در ارائه مدل داده کاوی. کاهش داده باعث سادگی مدل داده کاوی و به تبع آن موجب کاهش زمان میشود.

 

کاهش موارد

پس از کسب نتایج حاصل از کاهش ویژگی های جدولی محموعه داده ها، مهمترین بخش در مجموعه داده های اولیه، تعداد نمونه ها می باشد. البته نمونه این فاز در ابعاد داده ای کوچک از طریق کاهش مورد داده های نامنطبق بدست می آمد.

 

در زیر برخی روش های نمونه گیری برای نمونه های بزرگ عبارتند از:

  • نمونه گیری سیستمی. ساده ترین روش نمنه گیرری است. مثلا اگر بخواهیم 50% از یک مجموعه داده را در انتخاب کنیم، هر نمونه دیگری را در یک بانک اطلاعاتی داشته باشیم.
  • نمونه گیری تصادفی. روشی که در آن هر نمونه از مجموعه داده های اولیه، برای انتخاب شدن در زیر مجموعه شانس برابری دارد. بطوری که هیچ نمونه ای دوبار انتخاب نمیشود.
  • نمونه گیری لایه ای. تکنیکی که در آن کل مجموعه داده ها به لایه هایی که همپوشانی ندارند  مستقل هستند تقسیم و نمونه گیری هر لایه انجام می شود.
  • نمونه گیری معکوس. زمانی که فراوانی یک ویژگی در یک مجموعه داده کم باشد، از زیرمجموعه کوچکتر آغاز وتازمان برآورده شدن شروط لازم ویژگی ها ادامه می یابد.

 

نکته: بای
نوشته شده در تاريخ شنبه نوزدهم آذر 1390 توسط جعفر

تفاوت‌هاي شبكه‌هاي عصبي با روش‌هاي محاسباتي متداول و سيستم‌هاي خبره گفتيم كه شبكه‌هاي عصبي روش متفاوتي براي پردازش و آناليز اطلاعات ارائه مي‌دهند. اما نبايد اين گونه استنباط شود كه شبكه‌هاي عصبي مي‌توانند براي حل تمام مسائل محاسباتي مورد استفاده واقع شوند. روش‌هاي محاسباتي متداول همچنان براي حل گروه مشخصي از مسائل مانند امور حسابداري، انبارداري و محاسبات عددي مبتني بر فرمول‌هاي مشخص، بهترين گزينه محسوب مي‌شوند. جدول 1، تفاوت‌هاي بنيادي دو روش محاسباتي را نشان مي‌دهد. مشخصه روش محاسباتي متداول
)شامل سيستم‌هاي خبره( شبكه‌هاي عصبي مصنوعي روش پردازش ترتيبي موازي توابع منطقي  (left brained) estault (right brained) روش فراگيري به كمك قواعد (didactically) با مثال (Socratically) كاربرد حسابداري، واژه پردازي، رياضيات، ارتباطات ديجيتال پردازش حسگرها، تشخيص گفتار، نوشتار، الگو تلاش‌هايي كه براي اجرايي كردن سيستم‌هاي خبره به كار گرفته شده‌اند، با مشكلات مشتركي مواجه بوده‌اند. با افزايش سطح پيچيدگي سيستم‌ها، منابع كامپيوتري مورد نياز سيستم به شدت افزايش مي‌يابند و سيستم با كندي بيش از حد روبرو مي‌شود. در حقيقت تجربه نشان داده است كه در وضعيت فعلي، سيستم‌هاي خبره تنها مي‌توانند در مواقعي مفيد واقع شوند كه هدف محدود و مشخصي تعيين شده باشد.                                                                  شبكه‌هاي عصبي در مسيري گام برمي‌دارند كه ابزارها توانايي فراگيري و برنامه‌ريزي خود را داشته باشند. ساختارشبكه‌هاي عصبي به گونه‌اي است كه قابليت حل مسئله را بدون كمك فرد متخصص و برنامه‌ريزي خارجي داشته باشند. شبكه‌هاي عصبي قادر به يافتن الگوهايي در اطلاعات هستند كه هيچ‌كس، هيچ‌گاه از وجود آنها اطلاع نداشته است.  درحالي‌كه سيستم‌هاي خبره در عمل به موفقيت‌هاي بسياري دست يافته‌اند، شبكه‌هاي عصبي در كاربردهايي همچون ديد مصنوعي، تشخيص و توليد پيوسته گفتار، فراگيري ماشيني و نظاير آن با مشكلاتي روبرو بوده‌اند.  در حال حاضر شبكه‌هاي عصبي كاملاً وابسته به سرعت پردازنده سيستم اجرا كننده هستند. کاربردهای شبکه های عصبی :       سیستم آنالیز ریسک       کنترل هواپیما بدون خلبان       ردیابی انحراف هواپیما       شبیه سازی مسیر       سیستم راهنمایی اتوماتیک اتومبیل       سیستمهای بازرسی کیفیت       آنالیز کیفیت جوشکاری       پیش بینی کیفیت       آنالیز کیفیت کامپیوتر       آنالیز عملیاتهای آسیاب       آنالیز طراحی محصول شیمیایی       آنالیز نگهداری ماشین       پیشنهاد پروژه       مدیریت و برنامه ریزی       کنترل سیستم فرایند شیمیایی و دینامیکی       طراحی اعضای مصنوعی       بهینه سازی زمان پیوند اعضا       کاهش هزینه بیمارستان       بهبود کیفیت بیمارستان       آزمایش اتاق اورژانس       اکتشاف روغن و گاز       کنترل مسیر در دستگاههای خودکار , ربات , جراثقال       سیستمهای بصری       تشخیص صدا       اختصار سخن       کلاسه بندی صوتی       آنالیز بازار       سیستمهای مشاوره ای محاسبه هزینه موجودی       اختصار اطلاعات و تصاویر       خدمات اطلاعاتی اتوماتیک       مترجم لحظه ای زبان       سیستمهای پردازش وجه مشتری       سیستمهای تشخیص ترمز کامیون       زمانبندی وسیله نقلیه       سیستمهای مسیریابی       کلاسه بندی نمودارهای مشتری/بازار       تشخیص دارو       بازبینی امضا       تخمین ریسک وام       شناسایی طیفی       ارزیابی سرمایه       کلاسه بندی انواع سلولها , میکروبها و نمونه ها       پیش بینی فروشهای آینده       پیش بینی نیازهای محصول       پیش بینی وضعیت بازار       پیش بینی شاخصهای اقتصادی       پیش بینی ملزومات انرژی       پیش بینی واکنشهای دارویی       پیش بینی بازتاب محصولات شیمیایی       پیش بینی هوا       پیش بینی محصول       پیش بینی ریسک محیطی       پیش بینی جداول داوری       مدل کردن کنترل فرآیند       آنالیز فعالیت گارانتی       بازرسی اسناد       تشخیص هدف       تشخیص چهره       انواع جدید سنسورها       دستگاه کاشف زیر دریایی بوسیله امواج صوتی , رادار       پردازش سیگنالهای تصویری شامل مقایسه اطلاعات       پیگیری هدف       هدایت جنگ افزارها       تعیین قیمت وضعیت فعلی       جلوگیری از پارازیت       شناسایی تصویر /سیگنال       چیدمان یک مدار کامل       بینایی ماشین       مدل کردن غیر خطی       ترکیب صدا       کنترل فرآیند ساخت       آنالیز مالی       پیش بینی فرآیندهای تولید       ارزیابی بکارگیری یک سیاست       بهینه سازی محصول       تشخیص ماشین و فرآیند       مدل کردن کنترل سیستمها        مدل کردن ساختارهای شیمیایی       مدل کردن سیستمهای دینامیکی       مدل کردن سیگنال تراکم       مدل کردن قالبسازی پلاستیکی       مدیریت قراردادهای سهام       مدیریت وجوه بیمه       مدیریت سهام       تصویب چک بانکی       اکتشاف تقلب در کارت اعتباری       ثبت نسیه       بازبینی امضا از چکها       پیش بینی ارزش نسیه       مدیریت ریسک رهن       تشخیص حروف و اعداد       تشخیص بیماری 4-3 آشنایی با الگوریتم ژنتیک الگوریتم ژنتیک که بعنوان یکی از روشهای تصادفی بهینه یابی شناخته شده,  توسط جان هالند در سال 1967 ابداع شده است. بعدها این روش با تلاشهای گلدبرگ 1989, مکان خویش را یافته و امروزه نیز  بواسطه توانایی های خویش , جای مناسبی در میان دیگر روشها دارد. روال بهینه یابی در الگوریتم ژنتیک  براساس یک روند تصادفی- هدایت شده استوار می باشد. این روش , بر مبنای نظریه تکامل تدریجی و ایده های بنیادین داروین پایه گذاری شده است.در این روش , ابتدا برای  تعدادی ثابت که جمعیت نامیده می شود مجموعه ای از پارامترهای هدف بصورت اتفاقی تولید می شود , پس از اجرای برنامه شبیه ساز عددی را که معرف انحراف معیار و یا برازش آن مجموعه از اطلاعات است را به آن عضو از جمعیت مذکور نسبت می دهیم . این عمل را برای تک تک اعضای ایجاد شده تکرار می کنیم , سپس با فراخوانی عملگرهای الگوریتم ژنتیک از جمله لقاح , جهش و انتخاب نسل بعد را شکل می دهیم و این روال تا ارضای معیار همگرایی ادامه داده خواهد شد. شكل 4-1: فرایند عملیاتی بصورت متداول سه معیار بعنوان معیار توقف شمرده می شود:                             I.      زمان اجرای الگوریتم                           II.      تعداد نسلهایی که ایجاد می شوند                        III.      همگرایی معیار خطا کاربرد های الگوریتم ژنتیک :       روندیابی هیدرولوژیکی رواناب جاری در شبکه رودخانه خشک       کمک در حل مسایل تصمیم گیری چند معیاره       بهینه سازی چند هدفه در مدیریت منابع آبی الگوریتم مورچگان : سیستم مورچه CE یک سیستم  هوشمند پر ازدحام (مانند کندوی زنبوران) است و رفتار کاوش آذوقه مورچگان را تقلید می کند که شامل تعداد زیادی عامل با رفتارهای ساده است که بطور غیر مستقیم و غیر همزمان با هم ارتباط برقرار می کنند . همه عاملها مأموریت جستجوی مسیرهای حلقه ای و گزارش کیفیت مسیر  که بوسیله مفهوم " عملکرد مسیر " تعریف می شود , را دارند. کاربردهای الگوریتم مورچگان :       ایجاد و نگهداری اتصال مسیرهای اولیه و پشتیبانی از هم گسیخته .       حل مسایل مربوط به پیدا کردن و نگهداری مسیرهای مجازی در یک شبکه ارتباطات با تغییر شرایط.       ساختار اتوماتیک سایتهای پرتال در وب .       استفاده در مسیریاب های نرم افزاری و عاملهای موبایل ( مثال زیر ) .مثال : شكل4-2 : مورچگان بین منبع غذا و لانه یک مسیر را حفظ می کنند شكل 4-3: مسیر مورچگان نکات کلی :       لانه مورچه در کامپیوتر میزبان است.       مورچگان عاملهای موبایل هستند.       هدف : جلوگیری از بکارگیری اتصالات متراکم .       پاکتهای داده در هر مسیریاب , مسیریابی می شوند.   شكل 3-3: مسیر یاب مسیریاب :       پاکتهای داده با کلیک مسیریابی می شوند.       کد مورچه در Java VM  اجرا می شود.       دو زیر سیستم اطلاعاتشان مورد نیازشان را با هم رد و بدل  می کنند.   شكل 3-4: میزبانان میزبانان :       مورچگان و تست ترافیک تولید می شوند .       آمار نرخ پاکتها برای هر اتصال .   شكل 3-5: تست انطباق تست انطباق :         تمام اتصالات بین مسیریابها دارای ظرفیت 50 پاکت در ثانیه اند.       ابتدا , دو اتصال بدون ترافیک ایجاد می شود.       پس از مدتی , اتصال 1 شروع به فرستادن ترافیک  CBR تقویت شده با نرخ 40 پاکت در ثانیه می کند. شكل3-6: اتصال نتیجه اتصال 2 :       در ابتدا , کوتاهترین مسیر ترجیح داده می شود.       ترافیک ناشی از اتصال 1 منجر به افزایش هزینه می شود.       اکنون مسیر دیگری کمترین هزینه را خواهد داشت.       سیستم به مسیر منتخب سویچ می کند. ارزیابی :      این الگوریتم برای پیاده سازی مسیریابهای نرم افزاری و عاملهای موبایل موجه است.                 عملکرد محدود است.                 پیاده سازی بر پایه سیستم عامل موبایل است.                 برای اجرای سیستم در شبکه بزرگتر , عملکرد باید بهبود یابد.  آشنایی با الگوریتم ژنتیک الگوریتم ژنتیک (Genetic Algorithm - GA) تکنیک جستجویی در علم رایانه برای یافتن راه‌حل تقریبی برای بهینه‌سازی و مسائل جستجو است. الگوریتم ژنتیک نوع خاصی از الگوریتمهای تکامل است که از تکنیکهای زیست‌شناسی فرگشتی مانند وراثت و جهش استفاده می‌کند. در واقع الگوریتم‌های ژنتیک از اصول انتخاب طبیعی داروین برای یافتن فرمول بهینه جهت پیش‌بینی یا تطبیق الگو استفاده می‌کنند.الگوریتم‌های ژنتیک اغلب گزینه خوبی برای تکنیک‌های پیش‌بینی بر مبنای رگرسیون هستند. مختصراً گفته می شود که الگوریتم ژنتیک (GA) یک تکنیک برنامه‌نویسی است که از تکامل ژنتیکی به عنوان یک الگوی حل مسئله استفاده می‌کند.مسئله‌ای که باید حل شود ورودی است و راه‌حلها طبق یک الگو کد گذاری می شوند که تابع fitness نام دارد هر راه حل کاندید را ارزیابی می‌کند که اکثر آنها به صورت تصادفی انتخاب می‌شوند. کلاً این الگوریتم‌ها از بخش های زیر تشکیل می شوند : تابع برازش - نمایش – انتخاب – تغییر مقدمه هنگامی که لغت تنازع بقا به کار می‌رود اغلب بار ارزشی منفی آن به ذهن می‌آید. شاید همزمان قانون جنگل به ذهن برسد و حکم بقای قوی‌ترها! البته همیشه هم قوی‌ترین‌ها برنده نبوده‌اند. مثلاً دایناسورها با وجود جثه عظیم و قوی‌تر بودن در طی روندی کاملاً طبیعی بازیِ بقا و ادامه نسل را واگذار کردند در حالی که موجوداتی بسیار ضعیف‌تر از آنها حیات خویش را ادامه دادند. ظاهراً طبیعت، بهترین‌ها را تنها بر اساس هیکل انتخاب نمی‌کند! در واقع درست‌تر آنست که بگوییم طبیعت مناسب ترین‌ها (Fittest) را انتخاب می‌کند نه بهترین‌ها. قانون انتخاب طبیعی بدین صورت است که تنها گونه‌هایی از یک جمعیت ادامه نسل می‌دهند که بهترین خصوصیات را داشته باشند و آنهایی که این خصوصیات را نداشته باشند به تدریج و در طی زمان از بین می‌روند. مثلا فرض کنید گونه خاصی از افراد، هوش بیشتری از بقیه افرادِ یک جامعه یا کولونی دارند. در شرایط کاملاً طبیعی، این افراد پیشرفت بهتری خواهند کرد و رفاه نسبتاً بالاتری خواهند داشت و این رفاه، خود باعث طول عمر بیشتر و باروری بهتر خواهد بود (توجه کنید شرایط، طبیعیست نه در یک جامعه سطح بالا با ملاحظات امروزی؛ یعنی طول عمر بیشتر در این جامعه نمونه با زاد و ولد بیشتر همراه است). حال اگر این خصوصیت (هوش) ارثی باشد بالطبع در نسل بعدی همان جامعه تعداد افراد باهوش به دلیل زاد و ولد بیشترِ این‌گونه افراد، بیشتر خواهد بود. اگر همین روند را ادامه دهید خواهید دید که در طی نسل‌های متوالی دائماً جامعه نمونه ما باهوش و باهوش‌تر می‌شود. بدین ترتیب یک مکانیزم ساده طبیعی توانسته است در طی چند نسل عملاً افراد کم هوش را از جامعه حذف کند علاوه بر اینکه میزان هوش متوسط جامعه نیز دائماً در حال افزایش است. بدین ترتیب می‌توان دید که طبیعت با بهره‌گیری از یک روش بسیار ساده (حذف تدریجی گونه‌های نامناسب و در عین حال تکثیر بالاتر گونه‌های بهینه)، توانسته است دائماً هر نسل را از لحاظ خصوصیات مختلف ارتقاء بخشد. البته آنچه در بالا ذکر شد به تنهایی توصیف کننده آنچه واقعاً در قالب تکامل در طبیعت اتفاق می‌افتد نیست. بهینه‌سازی و تکامل تدریجی به خودی خود نمی‌تواند طبیعت را در دسترسی به بهترین نمونه‌ها یاری دهد. اجازه دهید تا این مسأله را با یک مثال شرح دهیم: پس از اختراع اتومبیل به تدریج و در طی سال‌ها اتومبیل‌های بهتری با سرعت‌های بالاتر و قابلیت‌های بیشتر نسبت به نمونه‌های اولیه تولید شدند. طبیعیست که این نمونه‌های متأخر حاصل تلاش مهندسان طراح جهت بهینه‌سازی طراحی‌های قبلی بوده‌اند. اما دقت کنید که بهینه‌سازی یک اتومبیل، تنها یک "اتومبیل بهتر" را نتیجه می‌دهد. اما آیا می‌توان گفت اختراع هواپیما نتیجه همین تلاش بوده است؟ یا فرضاً می‌توان گفت فضا‌پیماها حاصل بهینه‌سازی طرح اولیه هواپیماها بوده‌اند؟ پاسخ اینست که گرچه اختراع هواپیما قطعاً تحت تأثیر دستاورهای صنعت اتومبیل بوده است؛ اما به‌هیچ وجه نمی‌توان گفت که هواپیما صرفاً حاصل بهینه‌سازی اتومبیل و یا فضا‌پیما حاصل بهینه‌سازی هواپیماست. در طبیعت هم عیناً همین روند حکم‌فرماست. گونه‌های متکامل‌تری وجود دارند که نمی‌توان گفت صرفاً حاصل تکامل تدریجی گونه قبلی هستند. در این میان آنچه شاید بتواند تا حدودی ما را در فهم این مسأله یاری کند مفهومیست به نام تصادف یا جهش. به عبارتی طرح هواپیما نسبت به طرح اتومبیل یک جهش بود و نه یک حرکت تدریجی. در طبیعت نیز به همین گونه‌است. در هر نسل جدید بعضی از خصوصیات به صورتی کاملاً تصادفی تغییر می‌یابند سپس بر اثر تکامل تدریجی که پیشتر توضیح دادیم در صورتی که این خصوصیت تصادفی شرایط طبیعت را ارضا کند حفظ می‌شود در غیر این‌صورت به شکل اتوماتیک از چرخه طبیعت حذف می‌گردد. در واقع می‌توان تکامل طبیعی را به این‌صورت خلاصه کرد: جست‌وجوی کورکورانه (تصادف یا Blind Search) + بقای قوی‌تر.حال ببینیم که رابطه تکامل طبیعی با روش‌های هوش مصنوعی چیست. هدف اصلی روش‌های هوشمندِ به کار گرفته شده در هوش مصنوعی، یافتن پاسخ بهینه مسائل مهندسی است. بعنوان مثال اینکه چگونه یک موتور را طراحی کنیم تا بهترین بازدهی را داشته باشد یا چگونه بازوهای یک ربات را متحرک کنیم تا کوتاه‌ترین مسیر را تا مقصد طی کند (دقت کنید که در صورت وجود مانع یافتن کوتاه‌ترین مسیر دیگر به سادگی کشیدن یک خط راست بین مبدأ و مقصد نیست) همگی مسائل بهینه‌سازی هستند.روش‌های کلاسیک ریاضیات دارای دو اشکال اساسی هستند. اغلب این روش‌ها نقطه بهینه محلی (Local Optima) را بعنوان نقطه بهینه کلی در نظر می‌گیرند و نیز هر یک از این روش‌ها تنها برای مسأله خاصی کاربرد دارند. این دو نکته را با مثال‌های ساده‌ای روشن می‌کنیم.   شكل3-6: بهینه محلی و بهینه کلی به شکل زیر توجه کنید. این منحنی دارای دو نقطه ماکزیمم می‌باشد. که یکی از آنها تنها ماکزیمم محلی است. حال اگر از روش‌های بهینه‌سازی ریاضی استفاده کنیم مجبوریم تا در یک بازه بسیار کوچک مقدار ماکزیمم تابع را بیابیم. مثلاً از نقطه 1 شروع کنیم و تابع را ماکزیمم کنیم. بدیهی است اگر از نقطه 1 شروع کنیم تنها به مقدار ماکزیمم محلی دست خواهیم یافت و الگوریتم ما پس از آن متوقف خواهد شد. اما در روش‌های هوشمند، به ویژه الگوریتم ژنتیک بدلیل خصلت تصادفی آنها حتی اگر هم از نقطه 1 شروع کنیم باز ممکن است در میان راه نقطه A به صورت تصادفی انتخاب شود که در این صورت ما شانس دست‌یابی به نقطه بهینه کلی (Global Optima) را خواهیم داشت. در مورد نکته دوم باید بگوییم که روش‌های ریاضی بهینه‌سازی اغلب منجر به یک فرمول یا دستورالعمل خاص برای حل هر مسئله می‌شوند. در حالی که روش‌های هوشمند دستورالعمل‌هایی هستند که به صورت کلی می‌توانند در حل هر مسئله‌ای به کار گرفته شوند. این نکته را پس از آشنایی با خود الگوریتم بیشتر و بهتر خواهید دید. الگوریتم ژنتیک چیست؟ الگوریتم‌های ژنتیک از اصول انتخاب طبیعی داروین برای یافتن فرمول بهینه جهت پیش‌بینی یا تطبیق الگو استفاده می‌کنند.الگوریتم‌های ژنتیک اغلب گزینه خوبی برای تکنیک‌های پیش‌بینی بر مبنای رگرسیون هستند. برای مثال اگر بخواهیم نوسانات قیمت نفت را با استفاده از عوامل خارجی و ارزش رگرسیون خطی ساده مدل کنیم،این فرمول را تولید خواهیم کرد : قیمت نفت در زمان t = ضریب 1 نرخ بهره در زمان t + ضریب 2 نرخ بیکاری در زمان t + ثابت 1 . سپس از یک معیار برای پیدا کردن بهترین مجموعه ضرایب و ثابت‌ها جهت مدل کردن قیمت نفت استفاده خواهیم کرد. در این روش 2 نکته اساسی وجود دارد. اول این که روش خطی است و مسئله دوم این است که ما به جای اینکه در میان "فضای پارامترها" جستجو کنیم، پارامترهای مورد استفاده را مشخص کرده‌ایم. با استفاده از الگوریتم‌های ژنتیک ما یک ابر فرمول یا طرح، تنظیم می‌کنیم که چیزی شبیه "قیمت نفت در زمان t تابعی از حداکثر 4 متغیر است" را بیان می‌کند. سپس داده‌هایی برای گروهی از متغیرهای مختلف، شاید در حدود 20 متغیر فراهم خواهیم کرد. سپس الگوریتم ژنتیک اجرا خواهد شد که بهترین تابع و متغیرها را مورد جستجو قرار می‌دهد. روش کار الگوریتم ژنتیک به طور فریبنده‌ای ساده، خیلی قابل درک و به طور قابل ملاحظه‌ای روشی است که ما معتقدیم حیوانات آنگونه تکامل یافته‌اند. هر فرمولی که از طرح داده شده بالا تبعیت کند فردی از جمعیت فرمول‌های ممکن تلقی می‌شود. متغیر‌هایی که هر فرمول داده‌شده را مشخص می‌کنند به عنوان یکسری از اعداد نشان داده‌شده‌اند که معادل [دی ان ای|دی.ان.ای (DNA) آن فرد را تشکیل می دهند. موتور الگوریتم ژنتیک یک جمعیت اولیه از فرمول ایجاد می‌کند. هر فرد در برابر مجموعه‌ای از داده‌ها‌ی مورد آزمایش قرار می‌گیرند و مناسبترین آنها (شاید 10 درصد از مناسبترین‌ها) باقی می‌مانند؛ بقیه کنار گذاشته می‌شوند. مناسبترین افراد با هم جفتگیری (جابجایی عناصر دی ان ای) و تغییر (تغییر تصادفی عناصر دی ان ای) کرده‌اند. مشاهده می‌شود که با گذشت از میان تعداد زیادی از نسلها، الگوریتم ژنتیک به سمت ایجاد فرمول‌هایی که دقیقتر هستند، میل می‌کنند. در حالی که شبکه‌های عصبی هم غیر‌خطی و غیر‌پارامتریک هستند، جذابیت زیاد الگوریتم‌های ژنتیک این است نتایج نهایی قابل ملاحظه‌ترند. فرمول نهایی برای کاربر انسانی قابل مشاهده خواهد بود، و برای ارائه سطح اطمینان نتایج می‌توان تکنیک‌های آماری متعارف را بر روی این فرمول‌ها اعمال کرد. فناوری الگوریتم‌های ژنتیک همواره در حال بهبود است و برای مثال با مطرح کردن معادله ویروس‌ها که در کنار فرمول‌ها و برای نقض کردن فرمول‌ها‌ی ضعیف تولید می‌شوند و در نتیجه جمعیت را کلاً قویتر می‌سازند. مختصراً گفته می‌شود که الگوریتم ژنتیک (یا GA) یک تکنیک برنامه‌نویسی است که از تکامل ژنتیکی به عنوان یک الگوی حل مسئله استفاده می‌کند. مسئله‌ای که باید حل شود ورودی است و راه حلها طبق یک الگو کد‌گذاری می‌شوند که تابع fitness نام دارد و هر راه حل کاندید را ارزیابی می‌کند که اکثر آنها به صورت تصادفی انتخاب می‌شوند. الگوریتم ژنتیک (GA) یک تکنیک جستجو در علم رایانه برای یافتن راه حل بهینه و مسائل جستجو است. الگوریتم‌های ژنتیک یکی از انواع الگوریتم‌های تکاملی‌اند که از علم زیست‌شناسی مثل وراثت، جهش، [انتخاب ناگهانی(زیست‌شناسی) انتخاب ناگهانی، انتخاب طبیعی و ترکیب الهام گرفته شده. عموماً راه‌حلها به صورت 2 تایی 0 و 1 نشان داده می‌شوند، ولی روشهای نمایش دیگری هم وجود دارد. تکامل از یک مجموعه کاملاً تصادفی از موجودیت‌ها شروع می‌شود و در نسلهای بعدی تکرار می‌شود. در هر نسل، مناسبترین‌ها انتخاب می‌شوند نه بهترین‌ها. یک راه‌حل برای مسئله مورد نظر، با یک لیست از پارامترها نشان داده می‌شود که به آنها کروموزوم یا ژنوم می‌گویند. کروموزوم‌ها عموماً به صورت یک رشته ساده از داده‌‌ها نمایش داده می‌شوند، البته انواع ساختمان داده‌های دیگر هم می‌توانند مورد استفاده قرار گیرند. در ابتدا چندین مشخصه به صورت تصادفی برای ایجاد نسل اول تولید می‌شوند. در طول هر نسل، هر مشخصه ارزیابی می‌شود وارزش تناسب (fitness) توسط تابع تناسب اندازه‌گیری می‌شود. گام بعدی ایجاد دومین نسل از جامعه است که بر پایه فرآیندهای انتخاب، تولید از روی مشخصه‌های انتخاب شده با عملگرهای ژنتیکی است: اتصال کروموزوم‌ها به سر یکدیگر و تغییر. برای هر فرد، یک جفت والد انتخاب می‌شود. انتخاب‌ها به گونه‌ای‌اند که مناسبترین عناصر انتخاب شوند تا حتی ضعیفترین عناصر هم شانس انتخاب داشته باشند تا از نزدیک شدن به جواب محلی جلوگیری شود. چندین الگوی انتخاب وجود دارد: چرخ منگنه‌دار(رولت)، انتخاب مسابقه‌ای (Tournament) ،... . معمولاً الگوریتم‌های ژنتیک یک عدد احتمال اتصال دارد که بین 0.6 و 1 است که احتمال به وجود آمدن فرزند را نشان  می‌دهد. ارگانیسم‌ها با این احتمال دوباره با هم ترکیب می‌شوند. اتصال 2 کروموزوم فرزند ایجاد می‌کند، که به نسل بعدی اضافه می‌شوند. این کارها انجام می‌‌شوند تا این که کاندیدهای مناسبی برای جواب، در نسل بعدی پیدا شوند. مرحله بعدی تغییر دادن فرزندان جدید است. الگوریتم‌های ژنتیک یک احتمال تغییر کوچک و ثابت دارند که معمولاً درجه‌ای در حدود 0.01 یا کمتر دارد. بر اساس این احتمال، کروموزوم‌های فرزند به طور تصادفی تغییر می‌کنند یا جهش می‌یابند، مخصوصاً با جهش بیت‌ها در کروموزوم ساختمان داده ‌مان. این فرآیند باعث به وجود آمدن نسل جدیدی از کروموزوم‌ها‌یی می‌شود، که با نسل قبلی متفاوت است. کل فرآیند برای نسل بعدی هم تکرار می‌شود، جفت‌ها برای ترکیب انتخاب می‌شوند، جمعیت نسل سوم به وجود می‌آیند و .... این فرآیند تکرار می‌شود تا این که به آخرین مرحله برسیم. شرایط خاتمه الگوریتم‌های ژنتیک عبارتند از: ·         به تعداد ثابتی از نسل‌ها برسیم. ·         بودجه اختصاص داده‌شده تمام شود(زمان محاسبه/پول). ·         یک فرد(فرزند تولید شده) پیدا شود که مینیمم (کمترین) ملاک را برآورده کند. ·         بیشترین درجه برازش فرزندان حاصل شود یا دیگر نتایج بهتری حاصل نشود. ·         بازرسی دستی. ·         ترکیبهای بالا. روش های نمایش قبل از این که یک الگوریتم ژنتیک برای یک مسئله اجرا شود، یک روش برای کد کردن ژنوم‌ها به زبان کامپیوتر باید به کار رود. یکی از روش‌های معمول کد کردن به صورت رشته‌های باینری است: رشته‌های 0و1. یک راه حل مشابه دیگر کدکردن راه حل‌ها در آرایه‌ای از اعداد صحیح یا اعشاری است، که دوباره هر جایگاه یک جنبه از ویژگی‌ها را نشان می دهد. این راه حل در مقایسه با قبلی پیچیده‌تر و مشکل‌تر است. مثلاً این روش توسط استفان کرمر، برای حدس ساختار 3 بعدی یک پروتئین موجود در آمینو اسید‌ها استفاده شد. الگوریتم‌های ژنتیکی که برای آموزش شبکه‌های عصبی استفاده می شوند، از این روش بهره می گیرند. سومین روش برای نمایش صفات در یک GA یک رشته از حروف است، که هر حرف دوباره نمایش دهنده یک خصوصیت از راه حل است. خاصیت هر ‌3تای این روش‌ها این است که آنها تعریف سازنده‌ایی را که تغییرات تصادفی در آنها ایجاد می‌کنند را آسان می‌کنند: 0 را به 1 وبرعکس، اضافه یا کم کردن ارزش یک عدد یا تبدیل یک حرف به حرف دیگر.   توضیحات بالا در شکل قابل مشاهده است یک روش دیگر که توسط John Koza توسعه یافت، برنامه‌نویسی ژنتیک (genetic programming) است. که برنامه‌ها را به عنوان شاخه‌های داده در ساختار درخت نشان می‌دهد. در این روش تغییرات تصادفی می‌توانند با عوض کردن عملگرها یا تغییر دادن ارزش یک گره داده شده در درخت، یا عوض کردن یک زیر درخت با دیگری به وجود آیند. عملگرهای یک الگوریتم ژنتیک در هر مسئله قبل از آنکه بتوان الگوریتم ژنتیک را برای یافتن یک پاسخ به کار برد به دو عنصر نیاز است:در ابتدا روشی برای ارائه یک جواب به شکلی که الگوریتم ژنتیک بتواند روی آن عمل کند لازم است. در روش سنتی یک جواب به صورت یک رشته از بیتها، اعداد یا نویسها نمایش داده می‌شود.دومین جزء اساسی الگوریتم ژنتیک روشی است که بتواند کیفیت هر جواب پیشنهاد شده را با استفاده از توابع تناسب محاسبه نماید. مثلاً اگر مسئله هر مقدار وزن ممکن را برای یک کوله پشتی مناسب بداند بدون اینکه کوله پشتی پاره شود، (مسئله کوله پشتی را ببینید) یک روش برای ارائه پاسخ می‌تواند به شکل رشته ای از بیتهای ۰ و۱ در نظر گرفته شود, که ۱ یا ۰ بودن نشانه اضافه شدن یا نشدن وزن به کوله پشتی است.تناسب پاسخ، با تعیین وزن کل برای جواب پیشنهاد شده اندازه گیری می‌شود. ایده اصلی دهه هفتاد میلادی دانشمندی از دانشگاه میشیگان به نام جان هلند ایده استفاده از الگوریتم ژنتیک را در بهینه‌سازی‌های مهندسی مطرح کرد. ایده اساسی این الگوریتم انتقال خصوصیات موروثی توسط ژن‌هاست. فرض کنید مجموعه خصوصیات انسان توسط کروموزوم‌های او به نسل بعدی منتقل می‌شوند. هر ژن در این کروموزوم‌ها نماینده یک خصوصیت است. بعنوان مثال ژن 1 می‌تواند رنگ چشم باشد، ژن 2 طول قد، ژن 3 رنگ مو و الی آخر. حال اگر این کروموزوم به تمامی، به نسل بعد انتقال یابد، تمامی خصوصیات نسل بعدی شبیه به خصوصیات نسل قبل خواهد بود. بدیهیست که در عمل چنین اتفاقی رخ نمی‌دهد. در واقع بصورت همزمان دو اتفاق برای کروموزوم‌ها می‌افتد. اتفاق اول موتاسیون (Mutation) است. موتاسیون به این صورت است که بعضی ژن‌ها بصورت کاملاً تصادفی تغییر می‌کنند. البته تعداد این گونه ژن‌ها بسیار کم می‌باشد اما در هر حال این تغییر تصادفی همانگونه که پیشتر دیدیم بسیار مهم است. مثلاً ژن رنگ چشم می‌تواند بصورت تصادفی باعث شود تا در نسل بعدی یک نفر دارای چشمان سبز باشد. در حالی که تمامی نسل قبل دارای چشم قهوه‌ای بوده‌اند. علاوه بر موتاسیون اتفاق دیگری که می‌افتد و البته این اتفاق به تعداد بسیار بیشتری نسبت به موتاسیون رخ می‌دهد چسبیدن ابتدای یک کروموزوم به انتهای یک کروموزوم دیگر است. این مسأله با نام Crossover شناخته می‌شود. این همان چیزیست که مثلاً باعث می‌شود تا فرزند تعدادی از خصوصیات پدر و تعدادی از خصوصیات مادر را با هم به ارث ببرد و از شبیه شدن تام فرزند به تنها یکی از والدین جلوگیری می‌کند. 4-4 کاربردهای داده کاوی در کتابخانه ها و موسسات دانشگاهی   کتابخانه ها و موسسات آموزشی با مشکل مدیریت کارآمد بار سنگین داده ها که دائما نیز در حال افزایش است روبرو می باشند. نرم افزارهای کامپیوتری بکار گرفته شده برای این منظور، غالبا فقط برای  پرس و جوهای معمولی و پشتیبانی از مسائل مدیریتی و برنامه ریزی کوتاه مدت اداری جوابگو هستند. در حالیکه در عمق درون این حجم داده ها، الگوها و روابط بسیار جالبی میان پارامترهای مختلف بصورت پنهان باقی میماند. داده کاوی یکی از پیشرفتهای اخیر در حوزه کامپیوتر برای اکتشاف عمیق داده هاست. داده کاوی از اطلاعات پنهانی که برای برنامه ریزیهای استراتژیک و طولانی مدت میتواند حیاتی باشد پرده برداری میکند. تبیین مشخصه های اساسی فراینده داده کاوی و کشف کاربردهای ممکن آن در کتابداری و موسسات دانشگاهی اهداف اصلی این مقاله را شکل میدهند.در دنیای بشدت رقابتی امروز، اطلاعات بعنوان یکی از فاکتورهای تولیدی مهم پدیدار شده است. در نتیجه تلاش برای استخراج اطلاعات از داده ها توجه بسیاری از افراد دخیل در صنعت اطلاعات و حوزه های وابسته را به خود جلب نموده است. حجم بالای داده های دائما در حال رشد در همه حوزه ها و نیز تنوع آنها به شکل داده متنی، اعداد، گرافیکها، نقشه ها، عکسها،  تصاویر ماهواره ای و عکسهای گرفته شده با اشعه ایکس نمایانگر پیچیدگی کار تبدیل داده ها به اطلاعات است. علاوه بر این، تفاوت وسیع در فرآیندهای تولید داده مثل روش آنالوگ مبتنی بر کاغذ و روش دیجیتالی مبتنی بر کامپیوتر، مزید بر علت شده است. استراتژیها و فنون متعددی برای گردآوری، ذخیره، سازماندهی و مدیریت کارآمد داده های موجود و رسیدن به نتایج معنی دار بکار گرفته شده اند. بعلاوه، عملکرد مناسب ابرداده[1] که داده ای درباره داده است در عمل عالی بنظر میرسد.  پیشرفتهای حاصله در علم اطلاع رسانی و تکنولوژی اطلاعات، فنون و ابزارهای جدیدی برای غلبه بر رشد مستمر و تنوع بانکهای اطلاعاتی تامین می کنند. این پیشرفتها هم در بعد سخت افزاری و هم نرم افزاری حاصل شده اند. ریزپردازنده های سریع، ابزارهای ذخیره داده های انبوه پیوسته و غیر پیوسته، اسکنرها، چاپگرها و دیگر ابزارهای جانبی نمایانگر پیشرفتهای حوزه سخت افزار هستند. پیشرفتهای حاصل در نظامهای مدیریت بانک اطلاعات در طی چهار دهه گذشته نمایانگر تلاشهای بخش نرم افزاری است. این تلاشها در بخش نرم افزار را میتوان بعنوان یک حرکت پیشرونده از ایجاد یک بانک اطلاعات ساده تا شبکه ها و بانکهای اطلاعاتی رابطه ای و سلسله مراتبی برای پاسخگویی به نیاز روزافزون سازماندهی و بازیابی اطلاعات ملاحظه نمود. بدین منظور در هر دوره، نظامهای مدیریت بانک اطلاعاتی مناسب سازگار با نرم افزار سیستم عامل و سخت افزار رایج گسترش یافته اند. در این رابطه میتوان از محصولاتی مانند، Dbase-IV, Unify, Sybase, Oracle  و غیره نام برد.  داده کاوی یکی از پیشرفتهای اخیر در راستای فن آوریهای مدیریت داده هاست. داده کاوی مجموعه ای از فنون است که به شخص امکان میدهد تا ورای داده پردازی معمولی حرکت کند و به استخراج اطلاعاتی که در انبوه داده ها مخفی و یا پنهان است کمک می کند. انگیزه برای گسترش داده کاوی بطور عمده از دنیای تجارت در دهه 1990 پدید آمد. مثلا داده کاوی در حوزه بازاریابی، بدلیل پیوستگی غیرقابل انتظاری که بین پروفایل یک مشتری و الگوی خرید او ایجاد میکند اهمیتی خاص دارد. (Barry and Linoff, 1997) تحلیل رکوردهای حجیم نگهداری سخت افزارهای صنعتی، داده های هواشناسی و دیدن کانالهای تلوزیونی از دیگر کاربردهای آن است. در حوزه مدیریت کتابخانه کاربرد داده کاوی بعنوان فرایند ماخذ کاوی نامگذاری شده است. این مقاله به کاربردهای داده کاوی در مدیریت کتابخانه ها و موسسات آموزشی می پردازد. در ابتدا به چند سیستم سازماندهی داده ها که ارتباط نزدیکی به داده کاوی دارند می پردازد؛ سپس عناصر داده ای توصیف میشوند و درپایان چگونگی بکارگیری داده کاوی در کتابخانه ها و موسسات آموزشی مورد بحث قرار گرفته و مسائل عملی مرتبط در نظر گرفته میشوند.پیشرفت در تکنولوژیهای داده پردازی سازمانهای بزرگ و چند- مکانه مثل بانکها، دفاتر هواپیمایی و فروشگاههای زنجیره ای با حجم زیادی از داده ها که ناشی از عملکرد روزانه آنهاست روبرو هستند. بطور سنتی چنین داده هایی به دو دسته تقسیم شده اند: 1.       رکوردهای اصلی 2.  رکوردهای عملیاتی    فرض بر این است که رکوردهای اصلی حاوی اطلاعات پایه هستند که معمولا چندان تغییر نمی کنند در حالیکه رکوردهای عملیاتی با توجه به طبیعت عملیات تجاری حتی بطور ساعتی تغییر خواهند کرد. سیستمهای مدیریت پایگاه داده مناسب برای پیوند دادن این دو مجموعه اطلاعاتی  و تهیه گزارشهای استاندارد جهت کنترل فعالیتها گسترش یافتند.  سیستم اطلاعات مدیریت رایج برای پشتیبانی عملیات و سرویس دهی به چند کاربر در سطوح مختلف سازمان مبتنی بر این نظریه است. بمنظور کمک به تصمیم گیری راهبردی، نظریه تاسیس بانک اطلاعات رکوردهای اصلی به نظریه سازماندهی دیتا مارت و انبار داده ها تغییر یافت.  استخراج اطلاعات از رکوردهای عملیاتی یا پایگاههای اطلاعات عملیاتی و سازماندهی آن برای تحلیل استاندارد یا زمانی فلسفه اولیه و اصولی چنین پیشرفتهایی است. گرچه، دیتا مارت و انبار داده ها از نظر هدف و ساختار با هم متفاوتند. (Inmon, 1998)دیتامارتدیتا مارت اغلب کوچک است و بر یک موضوع یا دپارتمان خاص متمرکز است. بنابراین پاسخگوی یک نیاز داخلی است. طرح بانک اطلاعات برای یک دیتامارت حول ساختار اتصال ستاره ای ساخته شده است که بهینه برای نیازهای کاربران دپارتمان است. دیتامارت معمولا با ابزارهای کامپیوتری که انعطاف پذیری تحلیل را تامین میکنند اما ممکن است برای سازماندهی حجم بالای داده ها مناسب نباشند؛ نیرومند میشود. رکوردهای ذخیره شده در دیتامارتها بخوبی نمایه شده اند. یک دیتامارت در صورتیکه داده ها را از منابع داده ای بسیار سازماندهی شده مثل انبار داده ها بگیرد؛ دیتامارت وابسته  نامیده میشود. مسلما دیتامارتهای وابسته از لحاظ ساختاری و معماری منطقی هستند. منبع دیتامارتهای وابسته تکنولوژِی بانک اطلاعات دپارتمانی است. دیتامارتهای مستقل ثابت نیستندو از لحاظ معماری بسیار با هم متفاوتند. این مساله هنگام یکپارچه سازی دیتامارتهای مستقل، مشکل ایجاد میکند. بنابراین با یکپارچه سازی ساده دیتامارتها یک انبار داده ایجاد نخواهد شد. دیتامارت اساسا برای اهداف تاکتیکی طراحی شده است و هدفش تامین یک نیازتجاری فوری است.  انبار داده ها یک انبار داده کاملا " متفاوت از دیتامارت است. سازماندهی انبارهای داده بگونه ایست که کلیه موضوعات حول فعالیتهای کاری سازمان را می پوشاند. انبار داده نمایانگر یک تسهیلات مرکزی است. برخلاف دیتامارت که در آن داده ها به شکل خلاصه تر و متراکم تر وجود دارند، یک انبار داده ، داده ها را در یک سطح نامتراکم ذخیره می کند. ساختار داده ها در یک انبار داده یک ساختار لزوما" هنجار شده است. بدین معنی که ساختار و محتوای داده ها در انبار داده منعکس کننده ویژگیهای دپارتمانهای عضو نیست. داده ها در انبار داده از نظر حجم و شکل کاملا" متفاوت از داده ها در دیتامارت هستند. دیتامارت ممکن است شامل حجم زیادی از داده های قدیمی و گذشته نگر باشد. داده ها در انبار داده اغلب بصورت نسبتا" سبک نمایه میشوند. (به بیان دیگر در عمق کمتر).انبار داده برای اهداف برنامه ریزی بلندمدت و راهبردی طراحی میشوند. در نتیجه انبار داده برخلاف سیستم عملیات که کاربرمدار است متمرکز بر اقلام است. ساختار یک انبارداده مشخصات زیر را نشان میدهد: وابستگی به زمان: رکوردها بر اساس یک برچسب زمانی نگهداری میشوند. وابستگی زمانی حاصل در ایجاد صفحات زمانی مفید است که درک ترتیب زمانی وقایع را تسهیل میکند. غیر فرار بودن: رکوردهای داده در انبار داده ها هرگز بطور مستقیم روزآمد نمیشوند. برای هر تغییری در ابتدا داده های عملیاتی روزآمد میشوند و سپس بگونه ای مقتضی به انبار داده منتقل میشوند. این مساله ثبات داده ها را برای استفاده های وسیعتر تضمین میکند.  تمرکز موضوعی:  داده ها از بانکهای اطلاعاتی عملیاتی بصورت گزینشی به انبار داده منتقل میشوند. این استراتژی به ایجاد یک انبار داده بر اساس یک مطلب یا موضوع خاص کمک میکند و بنابراین کاوش انبار داده ها برای  پرس و جوهای موضوعی با سرعت بیشتری انجام میشود.  یکپارچگی:داده ها بگونه ای کامل سازماندهی شده اند تا با حذف موارد تکراری و چند عنوانه  یکپارچگی رکوردها حفظ شود ؛ به ایجاد ارجاع های متقابل کارآمد بین رکوردها کمک نموده و ارجاع دهی را تسهیل نماید.  واضح است که انبار داده اساسا" برای  پرس و جوهای پشتیبان تصمیم گیری ساخته شده است. بر این اساس سازماندهی وعملیات انبار داده چنان طراحی شده اند تا نیازهای اطلاعاتی روزمره یا معمولی را پاسخگو باشند. بدلیل حجم بسیار بالای چنین پایگاه اطلاعاتی یک سیستم کامپیوتری پیشرفته برای عملیات انبارسازی داده ها لازم است. همچنین یک بانک اطلاعات مجزا شامل ابرداده که مشخصه هایی نظیر نوع، فرمت، مکان و پدیدآورندگان داده های ذخیره شده در یک انبار داده ها را توصیف میکند نیز برای کمک به کاربران و مدیران داده ها ساخته میشود. مشخص شد که انبار داده  بدلیل اندازه و تنوعش، اگر مبتکرانه پردازش شود میتواند به تولید اطلاعاتی منجر شود که در وهله اول آشکار نیستند. با انتخاب متناسب داده ها، بکار گرفتن فنون مختلف غربال کردن و تفسیر زمینه ای [10]، داده ذخیره شده میتوانست منجر به کشف الگوها یا رابطه هایی شود که بینش نویی به تصمیم گیرنده دهد. این مساله نظریه توسعه عملیات داده کاوی را به موازات معدن کاوی بروز داد. ذکر این نکته لازم است که داده کاوی در اصل لزوما" نیاز به سازماندهی یک انبار داده ندارد. حال به داده کاوی می پردازیم.  عناصر داده کاوی  توصیف و کمک به پیش بینی دو کارکرد اصلی داده کاوی هستند. تحلیل داده مربوط به مشخصه های انتخابی متغیرها؛ از گذاشته و حال، و درک الگو مثالی از تحلیل توصیفی است. برآورد ارزش آینده یک متغیر و طرح ریزی کردن روند مثالی از توانایی پیشگویانه داده کاوی است.  برای عملی شدن هریک از دو کارکرد فوق الذکر داده کاوی، چند گام ابتدایی اما مهم باید اجرا شوند که از این قرارند: 1. انتخاب داده ها 2. پاک سازی داد ها  3. غنی سازی داده ها 4. کد گذاری داده ها  با دارا بودن هدف کلی در مطالعه، انتخاب مجموعه داده های اصلی برای تحلیل، اولین ضرورت است. رکوردهای لازم میتواند از انبار داده ها و یا بانک اطلاعاتی عملیاتی استخراج شود. این رکوردهای داده جمع آوری شده؛ اغلب از آنچه آلودگی داده ها نامگذاری شده است رنج می برند و بنابراین لازم است پاکسازی شوند تا از یکدستی فرمت (شکلی) آنها اطمینان حاصل شود، موارد تکراری حذف شده و کنترل سازگاری دامنه بعمل آید. ممکن است داده های گردآوری شده از جنبه های خاصی ناقص یا ناکافی باشند. در این صورت داده های مشخصی باید گردآوری شوند تا بانک اطلاعات اصلی را تکمیل کنند. منابع مناسب برای این منظور باید شناسایی شوند. این فرایند مرحله غنی سازی داده ها را تکمیل میکند. یک سیستم کدگذاری مناسب معمولا" جهت انتقال داده ها به فرم ساختار-بندی شده جدید؛ متناسب برای عملیات داده کاوی تعبیه میشود.  فنون داده کاوی ممکن است متوجه شده باشید که فنون داده کاوی یک گروه نامتجانس را شکل میدهند چرا که هر تکنیکی که بتواند بینش جدیدی از داده ها را استخراج کند میتواند داده کاوی به حساب آید. برخی از ابزارهای رایج بکار گرفته شده تحت عنوان داده کاوی عبارتند از:  (Adriaans and Zantinge, 2003) ابزارهای پرس و جو: ابزارهای متداول زبان پرس و جوی ساختاربندی شده در ابتدا برای انجام تحلیلهای اولیه بکار گرفته شدند که می تواند مسیرهایی برای تفحص بیشتر نشان دهد.  فنون آماری: مشخصات اصلی داده ها لازمست با کاربرد انواع مختلفی از تحلیلهای آماری شامل جدول بندی ساده و متقاطع داده ها و محاسبه پارامترهای آماری مهم بدست آید. مصور سازی: با نمایش داده ها در قالب نمودارها و عکسها مانند نمودار پراکندگی؛ گروه بندی داده ها در خوشه های متناسب تسهیل میشود. استنباط عمیق تر ممکن است با بکارگیری تکنیکهای گرافیکی پیشرفته حاصل شود.پردازش تحلیلی پیوسته: از آنجا که مجموعه داده ها ممکن است روابط چندین بعدی داشته باشند، روشهای متعددی برای ترکیب کردن آنها وجود دارد. ابزارهای پردازش تحلیلی پیوسته به ذخیره چنین ترکیباتی کمک میکند و ابزارهای ابتدا- انتهای پیوسته برای انجام  پرس و جو ایجاد میکند. اما این ابزارها هیچ دانش جدیدی ایجاد نمی کنند.  یادگیری مبتنی بر مورد: این تکنیک مشخصات گروههای داده ها را تحلیل میکند و به پیش بینی هر نهاد  واقع شده در همسایگی شان کمک میکند. الگوریتمهایی که استراتژی یادگیری تعاملی را  برای کاوش در یک فضای چندین بعدی بکار میگیرند برای این منظور مفیدند.   درختان تصمیم گیری: این تکنیک بخشهای مختلف فهرست پاسخهای موفق داده شده مربوط به یک پرس و جو را بازیابی می کند و به این ترتیب به ارزیابی صحیح گزینه های مختلف کمک میکند. قوانین وابستگی: اغلب مشاهده میشود که یک وابستگی نزدیک (مثبت یا منفی) بین مجموعه ای از داده های معین وجود دارد. بنابراین قوانین رسمی وابستگی برای تولید الگوهای جدید ساخته و بکار گرفته میشوند. شبکه های عصبی: این یک الگوریتم یادگیری ماشینی است که عملکرد خودش را بر اساس کاربرد و ارزیابی نتایج بهبود می بخشد. الگوریتم ژنتیکی: این هم تکنیک مفید دیگری برای پیش بینی هدف است. به این ترتیب که با یک گروه یا خوشه شروع میشود و رشدش در آینده را با حضور در برخی مراحل فرایند محاسبه احتمال جهش تصادفی؛ همانطور که در تکامل طبیعی فرض میشود  طرح ریزی می نماید. این تکنیک به چند روش میتواند عملی شود. و ترکیب غیرقابل انتظار یا نادری را از عواملی که در حال وقوع بوده و مسیر منحنی طراحی داده ها را تغییر میدهند؛ منعکس میکند.گام نهایی فرایند داده کاوی، گزارش دادن است. گزارش شامل تحلیل نتایج و کاربردهای پروژه، درصورت بکارگیری آنها، است . و متن مناسب، جداول و گرافیکها را در خود جای می دهد. بیشتر اوقات گزارش دهی یک فرایند تعاملی است که تصمیم گیرنده با داده ها در پایانه کامپیوتری بازی میکند و فرم چاپی برخی نتایج واسطه محتمل را برای عملیات فوری بدست می آورد. داده کاوی در تولید چهار نوع دانش ذیل مفید است: (Fayyad et al., 1996) - دانش سطحی کاربردهای (SQL) - دانش چند وجهی کاربردهای (OALP) - دانش نهان (تشخیص الگو و کاربردهای الگوریتم یادگیری ماشینی) - دانش عمیق (کاربردهای الگوریتم بهینه سازی داخلی) نرم افزار: از آنجا که داده کاوی با بانکهای اطلاعاتی بزرگ سروکار دارد، به گونه ای ایده ال با تکنولوژی خدمت گیر-خدمت گر[17] بکار میرود. کاربردهای عمومی داده کاوی بیشتر شامل تقسیم کردن داده ها در خوشه های مقتضی، کدگذاریهای مناسب، کاوش برای الگوها و طراحی کردن با استفاده از فنون آماری و الگوریتمهای ژنتیکی است. تعداد زیادی از بسته های نرم افزاری واجد این جنبه های ابزارهای داده کاوی با درجات متفاوتی از جامعیت در دسترس هستند. برای مثال بسته های نرم افزاری که منحصرا" برای کاربردهای OLAP در دسترس هستند عبارتند از: Oracle OLAP, DB2 OLAP Server, CleverPath OLAP . نرم افزارهای آماری عمومی مثل SPSS, SAS, STATISTICA با امکاناتی برای داده کاوی و بسته های نرم افزاری اختصاصی داده کاوی مثل Weka, Insightful Miner3, Text Mining Software, Enterprise Data Mining software, PolyAnalyst 4.6  مفید هستند. کاربردهای داده کاوی در کتابخانه ها و محیط های دانشگاهی داده کاوی در ابتدا از حوزه تجارت برخاست اما کاربردهای آن در سایر حوزه هائی که به گردآوری حجم وسیعی از داده هائی می پردازند که دستخوش تغییرات پویا نیز می گردند؛ مفید شناخته شد. بخشهایی مثل بانکداری، تجارت الکترونیک، تجارت سهام، بیمارستان و هتل از این نمونه اند.  انتظار میرود که استفاده از داده کاوی در بخش آموزش بطور عام امکانهای جدید بسیاری ارائه دهد. برخی کاربردهای داده کاوی در کتابخانه ها و قسمت اداری آموزش در ذیل مورد بحث قرار گرفته اند.  مدیریت و خدمات کتابخانه عملیات کتابداری بطور کلی شامل مدیریت مدارک، ارائه خدمات و امور اداره و نگهداری است. هر کدام از این کارکردها با انواع مختلفی از داده ها سروکار دارد و بطور جداگانه پردازش میشود. اگرچه، انجام تحلیل ترکیبی براین مجموعه های داده  نیز میتواند افق تازه ای را بگشاید که به طرح خدمات جدید و تحول رویه ها و عملیات جاری کمک نماید. جدول یک برخی از کاربردهای ممکن داده کاوی را که میتواند در کتابداری مفید باشد ارائه میکند. جدول یک- کاربردهای داده کاوی در کتابخانه ها کاربرد متصور بانک اطلاعاتی برای تعیین نقاط قوت و ضعف مجموعه گردآوری منابع برای ایجاد رابطه بین خواننده، منابع کتابخانه و زمان مشخصی از سال استفاده از مجموعه برای تحلیل سفارشهای پاسخ داده شده و سفارشهای دریافت شده امانت بین کتابخانه ای برای پیش بینی روند بازگشت منابع داده های بخش امانت برای نشان دادن منابع مالی بکار گرفته شده داده های هزینه  داده کاوی میتواند برای پاسخ دادن به یک سوال خاص مربوط به کتابخانه و نیز برای کشف روندهای عمومی که به تصمیم گیری کمک میکنند، استفاده شود . برای مثال سوال میتواند چنین باشد: امکان اینکه امانت گیرندگان منابع را یک هفته بعد از تاریخ عودت برگردانند تا نامه های یادآوری کمتری فرستاده شود چقدر است؟ یا میزان اشتراک مورد انتظار برای نشریات بین المللی انتخاب شده برای سال آینده چقدر است؟ درک الگوی استفاده کلی مجلات الکترونیکی یا تحلیل درخواستهای  اعضا  برای میکروفیلمها طی 5 سال گذشته نیز همگی مثالهایی از کشف روندهای عمومی اند. دامنه تحلیل استنادی هم میتواند با استفاده از داده کاوی گسترش داده شود.در ارتباط با کتابخانه ها، وب کاوی حوزه دیگری از علاقمندی است. وب کاوی شامل محتوا کاوی وب، ساختار کاوی وب و استفاده کاوی وب با توجه به یک موضوع خاص است که در طراحی خدمات جدید مبتنی بر وب کمک خواهد کرد. مدیریت موسسات دانشگاهی اداره موسسات دانشگاهی کار پیچیده ای است. در این موسسات دائما" نیاز به درآمدزایی و خود- کارآمدی و کاهش وابستگی به بودجه دولتی احساس میشود. این مساله کنترل دائمی جنبه های مختلف هر فعالیت و پروژه را می طلبد. بانکهای اطلاعاتی برای چنین موسساتی  مربوط به دانشجویان، دانشکده، اساتید و کارمندان، تعداد رشته ها و چند مورد دیگر است . ارزیابی تقاضا و وضعیت عرضه نقش مهمی بازی میکند. مرور بانکهای اطلاعاتی نمونه در جدول 2 نمایانگر کاربردهای بالقوه داده کاویست. جدول 2- کاربردهای داده کاوی در موسسات دانشگاهی کاربرد متصور بانک اطلاعاتی برای درک رابطه های جمعیت شناختی، اقتصادی و اجتماعی ثبت نام دانشگاهی برای ایجاد رابطه بین عوامل اقتصادی-اجتماعی و نمرات اخذ شده کارایی دانشگاهی برای تعیین میزان مفید بودن سیستم با استناد به نمرات امتحان بانک سوالات برای ارزیابی همکاری دانشکده با توجه به میزان استفاده از کتابخانه همکاری فکری برای پیدا کردن تأثیر انتشارات در تقاضا برای رشته ها انتشارات برای تحلیل سوالات دریافت شده در وب سایت دانشگاه و کمک به ایجاد رشته های جدید دانشگاهی بازدید از وب سایت    کاربرد داده کاوی در دانشگاه ملی سنگاپور قابل ملاحظه است. در این دانشگاه از ابزارهای داده کاوی برای شناسایی و دسته بندی دانشجویانی که به کلاسهای پیش نیاز برای واحد درسی ارائه شده نیاز داشتند استفاده شد.  (Kurian and John, 2005) علاوه بر آن، مسائلی مانند اختصاص بهتر منابع و نیروی انسانی، مدیریت روابط دانشجو و به تصویر کشیدن رفتار گروههای مختلف میتواند بوسیله ابزارهای داده کاوی انجام شود.  محدودیت ها کاربرد داده کاوی با چند عامل محدود شده است. اولین مورد به سخت افزار و نرم افزار لازم و موقعیت بانک اطلاعاتی مربوط میشود . برای مثال در هند، داده های غیر مجتمع که برای کاربردهای داده کاوی لازم است ممکن است به فرم دیجیتالی در دسترس نباشد. در دسترس بودن نیروی انسانی ماهر در داده کاوی نیز مسأله مهم دیگری است. محرمانه بودن رکوردهای مراجعان ممکن است در نتیجه پردازش داده های مبتنی بر داده کاوی آسیب پذیر شود. کتابداران و مؤسسات آموزشی باید این مسأله را در نظر داشته باشند؛ چرا که در غیر اینصورت ممکن است گرفتار شکایات قانونی گردند. محدودیت دیگراز ضعف ذاتی نهفته  در ابزارهای نظری ناشی میگردد. ابزارهایی مانند یادگیری ماشینی و الگوریتمهای ژنتیکی بکار گرفته شده در  فعالیتهای داده کاوی به مفاهیم وفنون منطق و آمار بستگی دارد. در این حد نتایج به روش مکانیکی تولید شده و بنابراین به یک بررسی دقیق نیاز دارند. اعتبار الگوهای بدست آمده به این طریق؛ باید آزمایش شود. چرا که که در بسیاری موارد روابط علل و معلول مشتق شده؛ از برخی استدلالات غلط ذیل رنجمیبرند. (Cannavo, 2003)  ●  علت دور مثلا" امکانات ضعیف خوابگاه باعث می شود دانشجویان نمرات پایینی کسب نمایند ●  علت مجرد مثلا" بودجه محدود بر بازدهی پژوهشی دانشکده تأثیر می گذارد ●  علائم در نظر گرفته شده برای این عوامل مثلا" مجموعه کتابخانه ممکن است افزایش نیابد چون تعداد خوانندگان مرتبا" کاهش می یابد. ●  سفسطه دسته بندی مثلا" مدرسان حقوق بسیار بالا دریافت می کنند و کل حقوقشان بالغ بر میلیونها میشود. ● سفسطه ترکیب مثلا" اگر هر مدرس در دانشکده شایسته و واجد صلاحیت باشد کل دانشکده عملکرد بهتری خواهد داشت. ● سوگیری در انتخاب نمونه مثلا"استناد به یافته های یک پیمایش نمونه گیری شده از دانشجویان یک دانشکده که از خانواده های ثروتمند هستند و مخارج روزانه در خوابگاه برای هر دانشجو 100 دلار است. از آنجایی که مطالعه الگوها و استخراج روابط میان رکوردها مستلزم کاربرد منطق قیاسی و استقرایی است فرد باید مراقب اشتباهاتی که عموما" رخ میدهد باشد. برای مثال بحثهای قیاسی یا استقرایی، تا زمانیکه وضعیت درست بودن فرضیه آزمایش نشود چیزی درباره درست یا غلط بودن نتایجشان نمی گویند. طبیعتا، نتایج تولید شده ماشینی ممکن است از چنین نقایصی رنج ببرند. تذکرات نهایی  بکارگیری تکنولوژی اطلاعات توسط هر سازمان در عمل یک فرایند هموار نیست. کتابخانه یا مؤسسه دانشگاهی از این قضیه استثنا نیست. اما، تجربه نشان میدهد که یک برنامه نظام مند میتواند ظهور و نگهداری تکنولوژی اطلاعات در محیط کتابخانه را تسهیل کند. (Patkar and Iyer, 1990; Patkar, 2000, 2004) حتی کاربرد تکنولوژی های پیشرفته پردازش اطلاعات مثل سیستمهای خبره و سیستم اطلاعات جغرافیایی (جی.آی.اس) در کتابخانه گزارش شده  است. (Myers, 1992; Patkar, 1999)  با این پیش زمینه ، کاربرد داده کاوی بوسیله کتابخانه ها و موسسات دانشگاهی ، به شرط آماده سازی مناسب، بطور قابل توجهی عملی است. برای دانشگاهها، کالجها، مدارس و موسسات آموزش از راه دور که بانکهای اطلاعاتی عظیمی دارند، ابزارهای داده کاوی میتواند الگوها و روابطی را که خیلی عیان نیستند آشکار کند. این نتایج ممکن است به طراحی دوباره  فرایندها و رویه های مرتبط منجر شود. تحلیلهای پشتیبانی شده توسط داده کاوی در کل موسسات و محیط ها میتواند مسائل متنوع مدیریت آموزشی؛ از جمله درک بهتر مشخصه های اقتصادی اجتماعی دانشجویان، مندرجات رشته ها و آموزش و پرورش و ساختار هزینه را  مخاطب قرار دهد. آنچه لازم است اینست که فراتر از عملکرد داده پردازی استاندارد قدم برداریم مخصوصا" کتابخانه ها و موسسات دانشگاهی که با انواع مختلفی از بانکهای اطلاعاتی سروکار دارند و به سطوح معقولی از کامپیوتری کردن و دیجیتالی کردن داده ها دست یافته اند. در یک نظر، ابزارهای داده کاوی نمایانگر پیشرفت در زنجیره تکنولوژی اطلاعات هستند. داده کاوی همچنین میتواند بعنوان بخشی از فرایند بزرگتر کشف دانش در بانکهای اطلاعاتی در محیط های مختلف در نظر گرفته شود. البته نباید چنین پنداشت که ابزارهایی مثل داده کاوی نیاز به مداخله انسانی را کاهش خواهدداد. همچنانکه در بالا نشان داده شد، ارزیابی و تعدیل نتایج بدست آمده بوسیله چنین ابزارهای خودکاری؛ به آزمایش نیاز دارد تا در برابر کاربردهای غلط محافظت شود. انتظار میرود داده کاوی در گسترش سازمان خودیادگیرنده مشارکت کند.  کشف انتخابهای نوین با بهره گیری از داده کاوی اطمینان بخش بهترین کاربرد ممکن منابع موجود است. داده کاوی ماهیت چرخه مانند دارد. برای اینکه در پی کشف الگوها، سوالات بیشتری پدید خواهند آمد که دور بعدی فرایند را شکل میدهند. بهره برداری از تکنولوژیهای پیشرفته مثل داده کاوی مطمئنا" برای متخصصان کتابداری و مدیران موسسات آموزشی یک چالش دائمی خواهد بود ؛ چرا که آنها خلاقیت طلبند و برای نوآوری تلاش می کنند. 4-5 فرآيند تصميم گيري و سياستگذاري کلان فرآيند تصميم گيري و سياستگذاري کلان را مي توان به صورت سيستمي از داده ها ، ستاده ها و پردازشهاي دروني بيان نمود . داده ها شامل  اطلاعاتي درباره ارزشهاي حاکم بر جامعه ، انتظارات و توقعات ، مسائل و محدوديتها و امکانات موجود در جامعه و ستاده ها تصميمات و سياستها مي باشند. جهت روشن تر شدن مطلب به توضيح مختصرمراحل اصلي سيستم مذکور در ذيل مي پردازيم : 1-    تشخيص و تبيين مشکل عمومي : يکي از مراحل اساسي در تصميم گيري و سياستگذاري کلان ، تشخيص و تبيين مشکل عمومي است. مشکل عمومي يک نياز ، کمبود ، محدوديت يا نارضايتي قابل تشخيص در جامعه است، مشکل عمومي بايد جنبه عمومي داشته باشد و تنها بر يک فرد خاص تاثيرنگذارد. مشکلات فردي زماني جنبه عمومي پيدا مي کنند و به صورت مساله اي در جامعه عنوان مي شود، تصميم گيرنده را به فکر چاره جويي مي اندازد و تصميم گيرنده  سعي مي کند که به طريقي مشکل را رفع کند يا دست کم از شدت آن بکاهد. نکته اي که بايد بدان توجه کرد اين است که اصولا ارايه مشکل و مطرح ساختن آن خود هنري است که برخي افراد، گروهها و سازمانها در آن مهارت بيشتري دارند و همچنين نزديکي و چگونگي ارتباط کساني که از مشکل رنج مي برند با تصميم گيرندگان و سياست گذاران ، در انعکاس مشکل موثر ست. وضعيت ، موقعيت و ميزان قدرت افرادي که مشکل به آنها مربوط مي شود نيز در انتقال مشکل تاثير مي گذارد. اهميت و حساسيت مشکل از نظر ارزشها و سنتهاي حاکم بر جامعه نيز، بر انتقال و مطرح شدن آن تاثير دارد ، ارزشها مي توانند به مشکل حساسيت بخشيده  و توجه تصميم گيرندگان را به طرف آن جلب نمايند و يا بر عکس ممکن است ارزشها موجب ناديده گرفتن يک مشکل شود. انتقال مشکل ممکن است به طور مستقيم با ارائه خود مشکل صورت گيرد، يا به طور غير مستقيم و از طريق ايجاد واقعه يا وقايعي که مشکل را به صورت حادي در جامعه مطرح نمايد و نظر همگان را به خود جلب کند. بدين جهت بايد در مرحله تشخيص مشکل مکانيسمهايي پيش بيني شوند که تصميم گيرندگان و سياستگذاران به کمک آنها از مشکلات و مسايل جامعه آگاه شوند و در مورد آن ، فعالانه اقدام نمايند. 2-    تنظيم گزينه هاي ممکن : مسلما گزينه هاي مختلفي براي حل مشکل وجود دارد . گزينه هاي ممکن عبارت از اقدامات و عملياتي هستند که مي توانند راه حل مشکل مي باشند.براي يافتن گزينه هاي ممکن بايستي عوامل شکل دهنده و به وجود آورنده مشکل شناخته شود و روابط بين آنها کشف گردد. در اين حالت با تغيير در مجموعه اي که مشکل را به وجود آورده و اصلاح آن مي توان به راه حلهايي دست يافت. وارد ساختن عوامل مثبت يا حذف عوامل مخل و جابجايي و تغيير در آنها ، همه مي توانند راه حلهايي باشد که در فهرست تصميم گيرنده قرار مي گيرد . تصميم گيرنده در فرآيند تصميم گيري و سياستگذاري کلان سعي دارد تا آنجا که ممکن است به تصميمات (گزينه هاي) بيشتري دست يابد، زيرا هرچه راه حلهاي يافته شده بيشتر و متنوع تر باشد ، امکان اخذ تصميم مطلوب تري وجود دارد. 3-    پيش بيني نتايج گزينه هاي ممکن : پس از مرحله تنظيم گزينه هاي ممکن بايد به پيش بيني نتايج حاصل از گزينه هاي ممکن پرداخت و نتايج حاصل از هريک را معين ساخت . هر گزينه داراي نتايج مختلفي است که ممکن است يکجا يا در دوره هاي مختلف ظاهر شود. به عنوان مثال تصميمات آموزشي  داراي يک رشته نتايج زودرس و يک سلسله نتايج ديگر مي باشد که در ميان مدت و دراز مدت حاصل مي شود، تصميم گيرنده بايد کوشش کند تا هر يک از اين نتايج را ارزيابي کند. خطري که در اين مرحله وجود دارد آن است که تصميم گيرنده به علت پيچيدگيهاي سنجشهاي کيفي و سنجش نتايج آتي ، ممکن است آنها را ناديده گرفته و ارزيابيهاي خود را متوجه نتايج زودرس و کمي نمايد . نکته ديگر اين است که يک تصميم يا سياست ممکن است هم نتايج مثبت و هم نتايج منفي در بر داشته باشد که تصميم گيرنده يا سياستگذار بايد مجموع نتايج را مد نظر قرار دهد. روش تجزيه و تحليل هزينه سود ، چهارچوب ساده اي براي ارزيابي تصميمات است ، در اين روش ضمن تعيين هزينه و سود هر گزينه تصميم  ، گزينه اي که سود آن از هزينه اش بيشتر است انتخاب مي گردد. البته استفاده از روش تجزيه و تحليل هزينه و سود در انتخاب تصميم و سياست  کار پيچيده و دشواري است زيرا همواره نمي توان هزينه و سود را در قالب معيارهاي کمي خلاصه کرد و احتمال وقوع نتايج نيز هميشه قطعيت ندارد ، علاوه بر آن مسائل و موضوعات بخش عمومي را کمتر مي توان با عدد و رقم به صورت هزينه و سود نشان داد . در ارزيابي گزينه هاي ممکن مي توان از گروههاي مباحثه و مناظره متخصصين  استفاده کرد . گروههاي مذکور نقاط مثبت و منفي تصميم را مطرح کرده و به مناظره درباره آنها مي پردازندو با توجه به مباحثات اين گروهها مي توان گزينه تصميم را ارزيابي کرد و نقاط قوت و ضعف آن را در مقايسه با ساير گزينه هاي تصميم دريافت. 4-    انتخاب گزينه تصميم مطلوب و قانوني ساختن آن : پس از آنکه نتايج حاصل از هر گزينه تصميم مورد ارزيابي قرار گرفت ، مي توان از طريق مقايسه بهترين راه را انتخاب و به عنوان تصميم مطلوب ارايه کرد . پس از مقايسه و انتخاب ،  تصميم مورد نظر بايد مشروعيت يافته و به تاييد يا تصويب مرجع يا مقام معيني در جامعه برسد. 5-    اجرا و ارزيابي تصميم يا سياست عمومي در عمل :  پس از آنکه تصميم يا سياست جنبه رسمي پيدا کرد ، بايد در اجرا نيز مورد ارزيابي قرار گيرد و نقاط قوت و ضعف آن در عمل شناخته شود . تصميم گيرنده يا سياستگذار بايستي تصميم يا سياست تصويب شده را پيگيري کند و نتايج حاصل از آن را مورد ارزيابي قرار دهد. مرحله ارزيابي پس از اجرا ، داراي اهميت بسياري است و نه تنها تصميم بلکه فرآيند تصميم گيري را مورد ارزيابي قرار مي دهد . هدف اصلي در ارزيابي بعد از اجرا تعيين ميزان موثر بودن تصميم يا سياست در رفع مشکل عمومي است ، همچنين مي توان از طريق سيستم بودجه بندي  تصميمات و سياستها را کنترل و ارزيابي نمود . در پايان پس از ارزيابي تصميمات و سياستها و بررسي نتايج آن در عمل  ، اگر تصميم خالي از عيب و نقص باشد  تصميم گيرنده دستور اجرا يا ادامه آن را صادر مي کند و در غير اين صورت به بررسي آن مي پردازد و تصميم اصلاحي تنظيم مي کند.   تفاوت‌هاي شبكه‌هاي عصبي با روش‌هاي محاسباتي متداول و سيستم‌هاي خبره گفتيم كه شبكه‌هاي عصبي روش متفاوتي براي پردازش و آناليز اطلاعات ارائه مي‌دهند. اما نبايد اين گونه استنباط شود كه شبكه‌هاي عصبي مي‌توانند براي حل تمام مسائل محاسباتي مورد استفاده واقع شوند. روش‌هاي محاسباتي متداول همچنان براي حل گروه مشخصي از مسائل مانند امور حسابداري، انبارداري و محاسبات عددي مبتني بر فرمول‌هاي مشخص، بهترين گزينه محسوب مي‌شوند. جدول 1، تفاوت‌هاي بنيادي دو روش محاسباتي را نشان مي‌دهد. مشخصه روش محاسباتي متداول)شامل سيستم‌هاي خبره( شبكه‌هاي عصبي مصنوعي روش پردازش ترتيبي موازي توابع منطقي  (left brained) estault (right brained) روش فراگيري به كمك قواعد (didactically) با مثال (Socratically) كاربرد حسابداري، واژه پردازي، رياضيات، ارتباطات ديجيتال پردازش حسگرها، تشخيص گفتار، نوشتار، الگو تلاش‌هايي كه براي اجرايي كردن سيستم‌هاي خبره به كار گرفته شده‌اند، با مشكلات مشتركي مواجه بوده‌اند. با افزايش سطح پيچيدگي سيستم‌ها، منابع كامپيوتري مورد نياز سيستم به شدت افزايش مي‌يابند و سيستم با كندي بيش از حد روبرو مي‌شود. در حقيقت تجربه نشان داده است كه در وضعيت فعلي، سيستم‌هاي خبره تنها مي‌توانند در مواقعي مفيد واقع شوند كه هدف محدود و مشخصي تعيين شده باشد.                                                                  شبكه‌هاي عصبي در مسيري گام برمي‌دارند كه ابزارها توانايي فراگيري و برنامه‌ريزي خود را داشته باشند. ساختارشبكه‌هاي عصبي به گونه‌اي است كه قابليت حل مسئله را بدون كمك فرد متخصص و برنامه‌ريزي خارجي داشته باشند. شبكه‌هاي عصبي قادر به يافتن الگوهايي در اطلاعات هستند كه هيچ‌كس، هيچ‌گاه از وجود آنها اطلاع نداشته است.  درحالي‌كه سيستم‌هاي خبره در عمل به موفقيت‌هاي بسياري دست يافته‌اند، شبكه‌هاي عصبي در كاربردهايي همچون ديد مصنوعي، تشخيص و توليد پيوسته گفتار، فراگيري ماشيني و نظاير آن با مشكلاتي روبرو بوده‌اند.  در حال حاضر شبكه‌هاي عصبي كاملاً وابسته به سرعت پردازنده سيستم اجرا كننده هستند. کاربردهای شبکه های عصبی :       سیستم آنالیز ریسک       کنترل هواپیما بدون خلبان       ردیابی انحراف هواپیما       شبیه سازی مسیر       سیستم راهنمایی اتوماتیک اتومبیل       سیستمهای بازرسی کیفیت       آنالیز کیفیت جوشکاری       پیش بینی کیفیت       آنالیز کیفیت کامپیوتر       آنالیز عملیاتهای آسیاب       آنالیز طراحی محصول شیمیایی       آنالیز نگهداری ماشین       پیشنهاد پروژه       مدیریت و برنامه ریزی       کنترل سیستم فرایند شیمیایی و دینامیکی       طراحی اعضای مصنوعی       بهینه سازی زمان پیوند اعضا       کاهش هزینه بیمارستان       بهبود کیفیت بیمارستان       آزمایش اتاق اورژانس       اکتشاف روغن و گاز       کنترل مسیر در دستگاههای خودکار , ربات , جراثقال       سیستمهای بصری       تشخیص صدا       اختصار سخن       کلاسه بندی صوتی       آنالیز بازار       سیستمهای مشاوره ای محاسبه هزینه موجودی       اختصار اطلاعات و تصاویر       خدمات اطلاعاتی اتوماتیک       مترجم لحظه ای زبان       سیستمهای پردازش وجه مشتری       سیستمهای تشخیص ترمز کامیون       زمانبندی وسیله نقلیه       سیستمهای مسیریابی       کلاسه بندی نمودارهای مشتری/بازار       تشخیص دارو       بازبینی امضا       تخمین ریسک وام       شناسایی طیفی       ارزیابی سرمایه       کلاسه بندی انواع سلولها , میکروبها و نمونه ها       پیش بینی فروشهای آینده       پیش بینی نیازهای محصول       پیش بینی وضعیت بازار       پیش بینی شاخصهای اقتصادی       پیش بینی ملزومات انرژی       پیش بینی واکنشهای دارویی       پیش بینی بازتاب محصولات شیمیایی       پیش بینی هوا       پیش بینی محصول       پیش بینی ریسک محیطی       پیش بینی جداول داوری       مدل کردن کنترل فرآیند       آنالیز فعالیت گارانتی       بازرسی اسناد       تشخیص هدف       تشخیص چهره       انواع جدید سنسورها       دستگاه کاشف زیر دریایی بوسیله امواج صوتی , رادار       پردازش سیگنالهای تصویری شامل مقایسه اطلاعات       پیگیری هدف       هدایت جنگ افزارها       تعیین قیمت وضعیت فعلی       جلوگیری از پارازیت       شناسایی تصویر /سیگنال       چیدمان یک مدار کامل       بینایی ماشین       مدل کردن غیر خطی       ترکیب صدا       کنترل فرآیند ساخت       آنالیز مالی       پیش بینی فرآیندهای تولید       ارزیابی بکارگیری یک سیاست       بهینه سازی محصول       تشخیص ماشین و فرآیند       مدل کردن کنترل سیستمها        مدل کردن ساختارهای شیمیایی       مدل کردن سیستمهای دینامیکی       مدل کردن سیگنال تراکم       مدل کردن قالبسازی پلاستیکی       مدیریت قراردادهای سهام       مدیریت وجوه بیمه       مدیریت سهام       تصویب چک بانکی       اکتشاف تقلب در کارت اعتباری       ثبت نسیه       بازبینی امضا از چکها       پیش بینی ارزش نسیه       مدیریت ریسک رهن       تشخیص حروف و اعداد       تشخیص بیماری 4-3 آشنایی با الگوریتم ژنتیک الگوریتم ژنتیک که بعنوان یکی از روشهای تصادفی بهینه یابی شناخته شده,  توسط جان هالند در سال 1967 ابداع شده است. بعدها این روش با تلاشهای گلدبرگ 1989, مکان خویش را یافته و امروزه نیز  بواسطه توانایی های خویش , جای مناسبی در میان دیگر روشها دارد. روال بهینه یابی در الگوریتم ژنتیک  براساس یک روند تصادفی- هدایت شده استوار می باشد. این روش , بر مبنای نظریه تکامل تدریجی و ایده های بنیادین داروین پایه گذاری شده است.در این روش , ابتدا برای  تعدادی ثابت که جمعیت نامیده می شود مجموعه ای از پارامترهای هدف بصورت اتفاقی تولید می شود , پس از اجرای برنامه شبیه ساز عددی را که معرف انحراف معیار و یا برازش آن مجموعه از اطلاعات است را به آن عضو از جمعیت مذکور نسبت می دهیم . این عمل را برای تک تک اعضای ایجاد شده تکرار می کنیم , سپس با فراخوانی عملگرهای الگوریتم ژنتیک از جمله لقاح , جهش و انتخاب نسل بعد را شکل می دهیم و این روال تا ارضای معیار همگرایی ادامه داده خواهد شد. شكل 4-1: فرایند عملیاتی بصورت متداول سه معیار بعنوان معیار توقف شمرده می شود:                             I.      زمان اجرای الگوریتم                           II.      تعداد نسلهایی که ایجاد می شوند                        III.      همگرایی معیار خطا کاربرد های الگوریتم ژنتیک :       روندیابی هیدرولوژیکی رواناب جاری در شبکه رودخانه خشک       کمک در حل مسایل تصمیم گیری چند معیاره       بهینه سازی چند هدفه در مدیریت منابع آبی    
نوشته شده در تاريخ شنبه نوزدهم آذر 1390 توسط جعفر

تفاوت‌هاي شبكه‌هاي عصبي با روش‌هاي محاسباتي متداول و سيستم‌هاي خبره گفتيم كه شبكه‌هاي عصبي روش متفاوتي براي پردازش و آناليز اطلاعات ارائه مي‌دهند. اما نبايد اين گونه استنباط شود كه شبكه‌هاي عصبي مي‌توانند براي حل تمام مسائل محاسباتي مورد استفاده واقع شوند. روش‌هاي محاسباتي متداول همچنان براي حل گروه مشخصي از مسائل مانند امور حسابداري، انبارداري و محاسبات عددي مبتني بر فرمول‌هاي مشخص، بهترين گزينه محسوب مي‌شوند. جدول 1، تفاوت‌هاي بنيادي دو روش محاسباتي را نشان مي‌دهد. مشخصه روش محاسباتي متداول
)شامل سيستم‌هاي خبره( شبكه‌هاي عصبي مصنوعي روش پردازش ترتيبي موازي توابع منطقي  (left brained) estault (right brained) روش فراگيري به كمك قواعد (didactically) با مثال (Socratically) كاربرد حسابداري، واژه پردازي، رياضيات، ارتباطات ديجيتال پردازش حسگرها، تشخيص گفتار، نوشتار، الگو تلاش‌هايي كه براي اجرايي كردن سيستم‌هاي خبره به كار گرفته شده‌اند، با مشكلات مشتركي مواجه بوده‌اند. با افزايش سطح پيچيدگي سيستم‌ها، منابع كامپيوتري مورد نياز سيستم به شدت افزايش مي‌يابند و سيستم با كندي بيش از حد روبرو مي‌شود. در حقيقت تجربه نشان داده است كه در وضعيت فعلي، سيستم‌هاي خبره تنها مي‌توانند در مواقعي مفيد واقع شوند كه هدف محدود و مشخصي تعيين شده باشد.                                                                  شبكه‌هاي عصبي در مسيري گام برمي‌دارند كه ابزارها توانايي فراگيري و برنامه‌ريزي خود را داشته باشند. ساختارشبكه‌هاي عصبي به گونه‌اي است كه قابليت حل مسئله را بدون كمك فرد متخصص و برنامه‌ريزي خارجي داشته باشند. شبكه‌هاي عصبي قادر به يافتن الگوهايي در اطلاعات هستند كه هيچ‌كس، هيچ‌گاه از وجود آنها اطلاع نداشته است.  درحالي‌كه سيستم‌هاي خبره در عمل به موفقيت‌هاي بسياري دست يافته‌اند، شبكه‌هاي عصبي در كاربردهايي همچون ديد مصنوعي، تشخيص و توليد پيوسته گفتار، فراگيري ماشيني و نظاير آن با مشكلاتي روبرو بوده‌اند.  در حال حاضر شبكه‌هاي عصبي كاملاً وابسته به سرعت پردازنده سيستم اجرا كننده هستند. کاربردهای شبکه های عصبی :       سیستم آنالیز ریسک       کنترل هواپیما بدون خلبان       ردیابی انحراف هواپیما       شبیه سازی مسیر       سیستم راهنمایی اتوماتیک اتومبیل       سیستمهای بازرسی کیفیت       آنالیز کیفیت جوشکاری       پیش بینی کیفیت       آنالیز کیفیت کامپیوتر       آنالیز عملیاتهای آسیاب       آنالیز طراحی محصول شیمیایی       آنالیز نگهداری ماشین       پیشنهاد پروژه       مدیریت و برنامه ریزی       کنترل سیستم فرایند شیمیایی و دینامیکی       طراحی اعضای مصنوعی       بهینه سازی زمان پیوند اعضا       کاهش هزینه بیمارستان       بهبود کیفیت بیمارستان       آزمایش اتاق اورژانس       اکتشاف روغن و گاز       کنترل مسیر در دستگاههای خودکار , ربات , جراثقال       سیستمهای بصری       تشخیص صدا       اختصار سخن       کلاسه بندی صوتی       آنالیز بازار       سیستمهای مشاوره ای محاسبه هزینه موجودی       اختصار اطلاعات و تصاویر       خدمات اطلاعاتی اتوماتیک       مترجم لحظه ای زبان       سیستمهای پردازش وجه مشتری       سیستمهای تشخیص ترمز کامیون       زمانبندی وسیله نقلیه       سیستمهای مسیریابی       کلاسه بندی نمودارهای مشتری/بازار       تشخیص دارو       بازبینی امضا       تخمین ریسک وام       شناسایی طیفی       ارزیابی سرمایه       کلاسه بندی انواع سلولها , میکروبها و نمونه ها       پیش بینی فروشهای آینده       پیش بینی نیازهای محصول       پیش بینی وضعیت بازار       پیش بینی شاخصهای اقتصادی       پیش بینی ملزومات انرژی       پیش بینی واکنشهای دارویی       پیش بینی بازتاب محصولات شیمیایی       پیش بینی هوا       پیش بینی محصول       پیش بینی ریسک محیطی       پیش بینی جداول داوری       مدل کردن کنترل فرآیند       آنالیز فعالیت گارانتی       بازرسی اسناد       تشخیص هدف       تشخیص چهره       انواع جدید سنسورها       دستگاه کاشف زیر دریایی بوسیله امواج صوتی , رادار       پردازش سیگنالهای تصویری شامل مقایسه اطلاعات       پیگیری هدف       هدایت جنگ افزارها       تعیین قیمت وضعیت فعلی       جلوگیری از پارازیت       شناسایی تصویر /سیگنال       چیدمان یک مدار کامل       بینایی ماشین       مدل کردن غیر خطی       ترکیب صدا       کنترل فرآیند ساخت       آنالیز مالی       پیش بینی فرآیندهای تولید       ارزیابی بکارگیری یک سیاست       بهینه سازی محصول       تشخیص ماشین و فرآیند       مدل کردن کنترل سیستمها        مدل کردن ساختارهای شیمیایی       مدل کردن سیستمهای دینامیکی       مدل کردن سیگنال تراکم       مدل کردن قالبسازی پلاستیکی       مدیریت قراردادهای سهام       مدیریت وجوه بیمه       مدیریت سهام       تصویب چک بانکی       اکتشاف تقلب در کارت اعتباری       ثبت نسیه       بازبینی امضا از چکها       پیش بینی ارزش نسیه       مدیریت ریسک رهن       تشخیص حروف و اعداد       تشخیص بیماری 4-3 آشنایی با الگوریتم ژنتیک الگوریتم ژنتیک که بعنوان یکی از روشهای تصادفی بهینه یابی شناخته شده,  توسط جان هالند در سال 1967 ابداع شده است. بعدها این روش با تلاشهای گلدبرگ 1989, مکان خویش را یافته و امروزه نیز  بواسطه توانایی های خویش , جای مناسبی در میان دیگر روشها دارد. روال بهینه یابی در الگوریتم ژنتیک  براساس یک روند تصادفی- هدایت شده استوار می باشد. این روش , بر مبنای نظریه تکامل تدریجی و ایده های بنیادین داروین پایه گذاری شده است.در این روش , ابتدا برای  تعدادی ثابت که جمعیت نامیده می شود مجموعه ای از پارامترهای هدف بصورت اتفاقی تولید می شود , پس از اجرای برنامه شبیه ساز عددی را که معرف انحراف معیار و یا برازش آن مجموعه از اطلاعات است را به آن عضو از جمعیت مذکور نسبت می دهیم . این عمل را برای تک تک اعضای ایجاد شده تکرار می کنیم , سپس با فراخوانی عملگرهای الگوریتم ژنتیک از جمله لقاح , جهش و انتخاب نسل بعد را شکل می دهیم و این روال تا ارضای معیار همگرایی ادامه داده خواهد شد. شكل 4-1: فرایند عملیاتی بصورت متداول سه معیار بعنوان معیار توقف شمرده می شود:                             I.      زمان اجرای الگوریتم                           II.      تعداد نسلهایی که ایجاد می شوند                        III.      همگرایی معیار خطا کاربرد های الگوریتم ژنتیک :       روندیابی هیدرولوژیکی رواناب جاری در شبکه رودخانه خشک       کمک در حل مسایل تصمیم گیری چند معیاره       بهینه سازی چند هدفه در مدیریت منابع آبی الگوریتم مورچگان : سیستم مورچه CE یک سیستم  هوشمند پر ازدحام (مانند کندوی زنبوران) است و رفتار کاوش آذوقه مورچگان را تقلید می کند که شامل تعداد زیادی عامل با رفتارهای ساده است که بطور غیر مستقیم و غیر همزمان با هم ارتباط برقرار می کنند . همه عاملها مأموریت جستجوی مسیرهای حلقه ای و گزارش کیفیت مسیر  که بوسیله مفهوم " عملکرد مسیر " تعریف می شود , را دارند. کاربردهای الگوریتم مورچگان :       ایجاد و نگهداری اتصال مسیرهای اولیه و پشتیبانی از هم گسیخته .       حل مسایل مربوط به پیدا کردن و نگهداری مسیرهای مجازی در یک شبکه ارتباطات با تغییر شرایط.       ساختار اتوماتیک سایتهای پرتال در وب .       استفاده در مسیریاب های نرم افزاری و عاملهای موبایل ( مثال زیر ) .مثال : شكل4-2 : مورچگان بین منبع غذا و لانه یک مسیر را حفظ می کنند شكل 4-3: مسیر مورچگان نکات کلی :       لانه مورچه در کامپیوتر میزبان است.       مورچگان عاملهای موبایل هستند.       هدف : جلوگیری از بکارگیری اتصالات متراکم .       پاکتهای داده در هر مسیریاب , مسیریابی می شوند.   شكل 3-3: مسیر یاب مسیریاب :       پاکتهای داده با کلیک مسیریابی می شوند.       کد مورچه در Java VM  اجرا می شود.       دو زیر سیستم اطلاعاتشان مورد نیازشان را با هم رد و بدل  می کنند.   شكل 3-4: میزبانان میزبانان :       مورچگان و تست ترافیک تولید می شوند .       آمار نرخ پاکتها برای هر اتصال .   شكل 3-5: تست انطباق تست انطباق :         تمام اتصالات بین مسیریابها دارای ظرفیت 50 پاکت در ثانیه اند.       ابتدا , دو اتصال بدون ترافیک ایجاد می شود.       پس از مدتی , اتصال 1 شروع به فرستادن ترافیک  CBR تقویت شده با نرخ 40 پاکت در ثانیه می کند. شكل3-6: اتصال نتیجه اتصال 2 :       در ابتدا , کوتاهترین مسیر ترجیح داده می شود.       ترافیک ناشی از اتصال 1 منجر به افزایش هزینه می شود.       اکنون مسیر دیگری کمترین هزینه را خواهد داشت.       سیستم به مسیر منتخب سویچ می کند. ارزیابی :      این الگوریتم برای پیاده سازی مسیریابهای نرم افزاری و عاملهای موبایل موجه است.                 عملکرد محدود است.                 پیاده سازی بر پایه سیستم عامل موبایل است.                 برای اجرای سیستم در شبکه بزرگتر , عملکرد باید بهبود یابد.  آشنایی با الگوریتم ژنتیک الگوریتم ژنتیک (Genetic Algorithm - GA) تکنیک جستجویی در علم رایانه برای یافتن راه‌حل تقریبی برای بهینه‌سازی و مسائل جستجو است. الگوریتم ژنتیک نوع خاصی از الگوریتمهای تکامل است که از تکنیکهای زیست‌شناسی فرگشتی مانند وراثت و جهش استفاده می‌کند. در واقع الگوریتم‌های ژنتیک از اصول انتخاب طبیعی داروین برای یافتن فرمول بهینه جهت پیش‌بینی یا تطبیق الگو استفاده می‌کنند.الگوریتم‌های ژنتیک اغلب گزینه خوبی برای تکنیک‌های پیش‌بینی بر مبنای رگرسیون هستند. مختصراً گفته می شود که الگوریتم ژنتیک (GA) یک تکنیک برنامه‌نویسی است که از تکامل ژنتیکی به عنوان یک الگوی حل مسئله استفاده می‌کند.مسئله‌ای که باید حل شود ورودی است و راه‌حلها طبق یک الگو کد گذاری می شوند که تابع fitness نام دارد هر راه حل کاندید را ارزیابی می‌کند که اکثر آنها به صورت تصادفی انتخاب می‌شوند. کلاً این الگوریتم‌ها از بخش های زیر تشکیل می شوند : تابع برازش - نمایش – انتخاب – تغییر مقدمه هنگامی که لغت تنازع بقا به کار می‌رود اغلب بار ارزشی منفی آن به ذهن می‌آید. شاید همزمان قانون جنگل به ذهن برسد و حکم بقای قوی‌ترها! البته همیشه هم قوی‌ترین‌ها برنده نبوده‌اند. مثلاً دایناسورها با وجود جثه عظیم و قوی‌تر بودن در طی روندی کاملاً طبیعی بازیِ بقا و ادامه نسل را واگذار کردند در حالی که موجوداتی بسیار ضعیف‌تر از آنها حیات خویش را ادامه دادند. ظاهراً طبیعت، بهترین‌ها را تنها بر اساس هیکل انتخاب نمی‌کند! در واقع درست‌تر آنست که بگوییم طبیعت مناسب ترین‌ها (Fittest) را انتخاب می‌کند نه بهترین‌ها. قانون انتخاب طبیعی بدین صورت است که تنها گونه‌هایی از یک جمعیت ادامه نسل می‌دهند که بهترین خصوصیات را داشته باشند و آنهایی که این خصوصیات را نداشته باشند به تدریج و در طی زمان از بین می‌روند. مثلا فرض کنید گونه خاصی از افراد، هوش بیشتری از بقیه افرادِ یک جامعه یا کولونی دارند. در شرایط کاملاً طبیعی، این افراد پیشرفت بهتری خواهند کرد و رفاه نسبتاً بالاتری خواهند داشت و این رفاه، خود باعث طول عمر بیشتر و باروری بهتر خواهد بود (توجه کنید شرایط، طبیعیست نه در یک جامعه سطح بالا با ملاحظات امروزی؛ یعنی طول عمر بیشتر در این جامعه نمونه با زاد و ولد بیشتر همراه است). حال اگر این خصوصیت (هوش) ارثی باشد بالطبع در نسل بعدی همان جامعه تعداد افراد باهوش به دلیل زاد و ولد بیشترِ این‌گونه افراد، بیشتر خواهد بود. اگر همین روند را ادامه دهید خواهید دید که در طی نسل‌های متوالی دائماً جامعه نمونه ما باهوش و باهوش‌تر می‌شود. بدین ترتیب یک مکانیزم ساده طبیعی توانسته است در طی چند نسل عملاً افراد کم هوش را از جامعه حذف کند علاوه بر اینکه میزان هوش متوسط جامعه نیز دائماً در حال افزایش است. بدین ترتیب می‌توان دید که طبیعت با بهره‌گیری از یک روش بسیار ساده (حذف تدریجی گونه‌های نامناسب و در عین حال تکثیر بالاتر گونه‌های بهینه)، توانسته است دائماً هر نسل را از لحاظ خصوصیات مختلف ارتقاء بخشد. البته آنچه در بالا ذکر شد به تنهایی توصیف کننده آنچه واقعاً در قالب تکامل در طبیعت اتفاق می‌افتد نیست. بهینه‌سازی و تکامل تدریجی به خودی خود نمی‌تواند طبیعت را در دسترسی به بهترین نمونه‌ها یاری دهد. اجازه دهید تا این مسأله را با یک مثال شرح دهیم: پس از اختراع اتومبیل به تدریج و در طی سال‌ها اتومبیل‌های بهتری با سرعت‌های بالاتر و قابلیت‌های بیشتر نسبت به نمونه‌های اولیه تولید شدند. طبیعیست که این نمونه‌های متأخر حاصل تلاش مهندسان طراح جهت بهینه‌سازی طراحی‌های قبلی بوده‌اند. اما دقت کنید که بهینه‌سازی یک اتومبیل، تنها یک "اتومبیل بهتر" را نتیجه می‌دهد. اما آیا می‌توان گفت اختراع هواپیما نتیجه همین تلاش بوده است؟ یا فرضاً می‌توان گفت فضا‌پیماها حاصل بهینه‌سازی طرح اولیه هواپیماها بوده‌اند؟ پاسخ اینست که گرچه اختراع هواپیما قطعاً تحت تأثیر دستاورهای صنعت اتومبیل بوده است؛ اما به‌هیچ وجه نمی‌توان گفت که هواپیما صرفاً حاصل بهینه‌سازی اتومبیل و یا فضا‌پیما حاصل بهینه‌سازی هواپیماست. در طبیعت هم عیناً همین روند حکم‌فرماست. گونه‌های متکامل‌تری وجود دارند که نمی‌توان گفت صرفاً حاصل تکامل تدریجی گونه قبلی هستند. در این میان آنچه شاید بتواند تا حدودی ما را در فهم این مسأله یاری کند مفهومیست به نام تصادف یا جهش. به عبارتی طرح هواپیما نسبت به طرح اتومبیل یک جهش بود و نه یک حرکت تدریجی. در طبیعت نیز به همین گونه‌است. در هر نسل جدید بعضی از خصوصیات به صورتی کاملاً تصادفی تغییر می‌یابند سپس بر اثر تکامل تدریجی که پیشتر توضیح دادیم در صورتی که این خصوصیت تصادفی شرایط طبیعت را ارضا کند حفظ می‌شود در غیر این‌صورت به شکل اتوماتیک از چرخه طبیعت حذف می‌گردد. در واقع می‌توان تکامل طبیعی را به این‌صورت خلاصه کرد: جست‌وجوی کورکورانه (تصادف یا Blind Search) + بقای قوی‌تر.حال ببینیم که رابطه تکامل طبیعی با روش‌های هوش مصنوعی چیست. هدف اصلی روش‌های هوشمندِ به کار گرفته شده در هوش مصنوعی، یافتن پاسخ بهینه مسائل مهندسی است. بعنوان مثال اینکه چگونه یک موتور را طراحی کنیم تا بهترین بازدهی را داشته باشد یا چگونه بازوهای یک ربات را متحرک کنیم تا کوتاه‌ترین مسیر را تا مقصد طی کند (دقت کنید که در صورت وجود مانع یافتن کوتاه‌ترین مسیر دیگر به سادگی کشیدن یک خط راست بین مبدأ و مقصد نیست) همگی مسائل بهینه‌سازی هستند.روش‌های کلاسیک ریاضیات دارای دو اشکال اساسی هستند. اغلب این روش‌ها نقطه بهینه محلی (Local Optima) را بعنوان نقطه بهینه کلی در نظر می‌گیرند و نیز هر یک از این روش‌ها تنها برای مسأله خاصی کاربرد دارند. این دو نکته را با مثال‌های ساده‌ای روشن می‌کنیم.   شكل3-6: بهینه محلی و بهینه کلی به شکل زیر توجه کنید. این منحنی دارای دو نقطه ماکزیمم می‌باشد. که یکی از آنها تنها ماکزیمم محلی است. حال اگر از روش‌های بهینه‌سازی ریاضی استفاده کنیم مجبوریم تا در یک بازه بسیار کوچک مقدار ماکزیمم تابع را بیابیم. مثلاً از نقطه 1 شروع کنیم و تابع را ماکزیمم کنیم. بدیهی است اگر از نقطه 1 شروع کنیم تنها به مقدار ماکزیمم محلی دست خواهیم یافت و الگوریتم ما پس از آن متوقف خواهد شد. اما در روش‌های هوشمند، به ویژه الگوریتم ژنتیک بدلیل خصلت تصادفی آنها حتی اگر هم از نقطه 1 شروع کنیم باز ممکن است در میان راه نقطه A به صورت تصادفی انتخاب شود که در این صورت ما شانس دست‌یابی به نقطه بهینه کلی (Global Optima) را خواهیم داشت. در مورد نکته دوم باید بگوییم که روش‌های ریاضی بهینه‌سازی اغلب منجر به یک فرمول یا دستورالعمل خاص برای حل هر مسئله می‌شوند. در حالی که روش‌های هوشمند دستورالعمل‌هایی هستند که به صورت کلی می‌توانند در حل هر مسئله‌ای به کار گرفته شوند. این نکته را پس از آشنایی با خود الگوریتم بیشتر و بهتر خواهید دید. الگوریتم ژنتیک چیست؟ الگوریتم‌های ژنتیک از اصول انتخاب طبیعی داروین برای یافتن فرمول بهینه جهت پیش‌بینی یا تطبیق الگو استفاده می‌کنند.الگوریتم‌های ژنتیک اغلب گزینه خوبی برای تکنیک‌های پیش‌بینی بر مبنای رگرسیون هستند. برای مثال اگر بخواهیم نوسانات قیمت نفت را با استفاده از عوامل خارجی و ارزش رگرسیون خطی ساده مدل کنیم،این فرمول را تولید خواهیم کرد : قیمت نفت در زمان t = ضریب 1 نرخ بهره در زمان t + ضریب 2 نرخ بیکاری در زمان t + ثابت 1 . سپس از یک معیار برای پیدا کردن بهترین مجموعه ضرایب و ثابت‌ها جهت مدل کردن قیمت نفت استفاده خواهیم کرد. در این روش 2 نکته اساسی وجود دارد. اول این که روش خطی است و مسئله دوم این است که ما به جای اینکه در میان "فضای پارامترها" جستجو کنیم، پارامترهای مورد استفاده را مشخص کرده‌ایم. با استفاده از الگوریتم‌های ژنتیک ما یک ابر فرمول یا طرح، تنظیم می‌کنیم که چیزی شبیه "قیمت نفت در زمان t تابعی از حداکثر 4 متغیر است" را بیان می‌کند. سپس داده‌هایی برای گروهی از متغیرهای مختلف، شاید در حدود 20 متغیر فراهم خواهیم کرد. سپس الگوریتم ژنتیک اجرا خواهد شد که بهترین تابع و متغیرها را مورد جستجو قرار می‌دهد. روش کار الگوریتم ژنتیک به طور فریبنده‌ای ساده، خیلی قابل درک و به طور قابل ملاحظه‌ای روشی است که ما معتقدیم حیوانات آنگونه تکامل یافته‌اند. هر فرمولی که از طرح داده شده بالا تبعیت کند فردی از جمعیت فرمول‌های ممکن تلقی می‌شود. متغیر‌هایی که هر فرمول داده‌شده را مشخص می‌کنند به عنوان یکسری از اعداد نشان داده‌شده‌اند که معادل [دی ان ای|دی.ان.ای (DNA) آن فرد را تشکیل می دهند. موتور الگوریتم ژنتیک یک جمعیت اولیه از فرمول ایجاد می‌کند. هر فرد در برابر مجموعه‌ای از داده‌ها‌ی مورد آزمایش قرار می‌گیرند و مناسبترین آنها (شاید 10 درصد از مناسبترین‌ها) باقی می‌مانند؛ بقیه کنار گذاشته می‌شوند. مناسبترین افراد با هم جفتگیری (جابجایی عناصر دی ان ای) و تغییر (تغییر تصادفی عناصر دی ان ای) کرده‌اند. مشاهده می‌شود که با گذشت از میان تعداد زیادی از نسلها، الگوریتم ژنتیک به سمت ایجاد فرمول‌هایی که دقیقتر هستند، میل می‌کنند. در حالی که شبکه‌های عصبی هم غیر‌خطی و غیر‌پارامتریک هستند، جذابیت زیاد الگوریتم‌های ژنتیک این است نتایج نهایی قابل ملاحظه‌ترند. فرمول نهایی برای کاربر انسانی قابل مشاهده خواهد بود، و برای ارائه سطح اطمینان نتایج می‌توان تکنیک‌های آماری متعارف را بر روی این فرمول‌ها اعمال کرد. فناوری الگوریتم‌های ژنتیک همواره در حال بهبود است و برای مثال با مطرح کردن معادله ویروس‌ها که در کنار فرمول‌ها و برای نقض کردن فرمول‌ها‌ی ضعیف تولید می‌شوند و در نتیجه جمعیت را کلاً قویتر می‌سازند. مختصراً گفته می‌شود که الگوریتم ژنتیک (یا GA) یک تکنیک برنامه‌نویسی است که از تکامل ژنتیکی به عنوان یک الگوی حل مسئله استفاده می‌کند. مسئله‌ای که باید حل شود ورودی است و راه حلها طبق یک الگو کد‌گذاری می‌شوند که تابع fitness نام دارد و هر راه حل کاندید را ارزیابی می‌کند که اکثر آنها به صورت تصادفی انتخاب می‌شوند. الگوریتم ژنتیک (GA) یک تکنیک جستجو در علم رایانه برای یافتن راه حل بهینه و مسائل جستجو است. الگوریتم‌های ژنتیک یکی از انواع الگوریتم‌های تکاملی‌اند که از علم زیست‌شناسی مثل وراثت، جهش، [انتخاب ناگهانی(زیست‌شناسی) انتخاب ناگهانی، انتخاب طبیعی و ترکیب الهام گرفته شده. عموماً راه‌حلها به صورت 2 تایی 0 و 1 نشان داده می‌شوند، ولی روشهای نمایش دیگری هم وجود دارد. تکامل از یک مجموعه کاملاً تصادفی از موجودیت‌ها شروع می‌شود و در نسلهای بعدی تکرار می‌شود. در هر نسل، مناسبترین‌ها انتخاب می‌شوند نه بهترین‌ها. یک راه‌حل برای مسئله مورد نظر، با یک لیست از پارامترها نشان داده می‌شود که به آنها کروموزوم یا ژنوم می‌گویند. کروموزوم‌ها عموماً به صورت یک رشته ساده از داده‌‌ها نمایش داده می‌شوند، البته انواع ساختمان داده‌های دیگر هم می‌توانند مورد استفاده قرار گیرند. در ابتدا چندین مشخصه به صورت تصادفی برای ایجاد نسل اول تولید می‌شوند. در طول هر نسل، هر مشخصه ارزیابی می‌شود وارزش تناسب (fitness) توسط تابع تناسب اندازه‌گیری می‌شود. گام بعدی ایجاد دومین نسل از جامعه است که بر پایه فرآیندهای انتخاب، تولید از روی مشخصه‌های انتخاب شده با عملگرهای ژنتیکی است: اتصال کروموزوم‌ها به سر یکدیگر و تغییر. برای هر فرد، یک جفت والد انتخاب می‌شود. انتخاب‌ها به گونه‌ای‌اند که مناسبترین عناصر انتخاب شوند تا حتی ضعیفترین عناصر هم شانس انتخاب داشته باشند تا از نزدیک شدن به جواب محلی جلوگیری شود. چندین الگوی انتخاب وجود دارد: چرخ منگنه‌دار(رولت)، انتخاب مسابقه‌ای (Tournament) ،... . معمولاً الگوریتم‌های ژنتیک یک عدد احتمال اتصال دارد که بین 0.6 و 1 است که احتمال به وجود آمدن فرزند را نشان  می‌دهد. ارگانیسم‌ها با این احتمال دوباره با هم ترکیب می‌شوند. اتصال 2 کروموزوم فرزند ایجاد می‌کند، که به نسل بعدی اضافه می‌شوند. این کارها انجام می‌‌شوند تا این که کاندیدهای مناسبی برای جواب، در نسل بعدی پیدا شوند. مرحله بعدی تغییر دادن فرزندان جدید است. الگوریتم‌های ژنتیک یک احتمال تغییر کوچک و ثابت دارند که معمولاً درجه‌ای در حدود 0.01 یا کمتر دارد. بر اساس این احتمال، کروموزوم‌های فرزند به طور تصادفی تغییر می‌کنند یا جهش می‌یابند، مخصوصاً با جهش بیت‌ها در کروموزوم ساختمان داده ‌مان. این فرآیند باعث به وجود آمدن نسل جدیدی از کروموزوم‌ها‌یی می‌شود، که با نسل قبلی متفاوت است. کل فرآیند برای نسل بعدی هم تکرار می‌شود، جفت‌ها برای ترکیب انتخاب می‌شوند، جمعیت نسل سوم به وجود می‌آیند و .... این فرآیند تکرار می‌شود تا این که به آخرین مرحله برسیم. شرایط خاتمه الگوریتم‌های ژنتیک عبارتند از: ·         به تعداد ثابتی از نسل‌ها برسیم. ·         بودجه اختصاص داده‌شده تمام شود(زمان محاسبه/پول). ·         یک فرد(فرزند تولید شده) پیدا شود که مینیمم (کمترین) ملاک را برآورده کند. ·         بیشترین درجه برازش فرزندان حاصل شود یا دیگر نتایج بهتری حاصل نشود. ·         بازرسی دستی. ·         ترکیبهای بالا. روش های نمایش قبل از این که یک الگوریتم ژنتیک برای یک مسئله اجرا شود، یک روش برای کد کردن ژنوم‌ها به زبان کامپیوتر باید به کار رود. یکی از روش‌های معمول کد کردن به صورت رشته‌های باینری است: رشته‌های 0و1. یک راه حل مشابه دیگر کدکردن راه حل‌ها در آرایه‌ای از اعداد صحیح یا اعشاری است، که دوباره هر جایگاه یک جنبه از ویژگی‌ها را نشان می دهد. این راه حل در مقایسه با قبلی پیچیده‌تر و مشکل‌تر است. مثلاً این روش توسط استفان کرمر، برای حدس ساختار 3 بعدی یک پروتئین موجود در آمینو اسید‌ها استفاده شد. الگوریتم‌های ژنتیکی که برای آموزش شبکه‌های عصبی استفاده می شوند، از این روش بهره می گیرند. سومین روش برای نمایش صفات در یک GA یک رشته از حروف است، که هر حرف دوباره نمایش دهنده یک خصوصیت از راه حل است. خاصیت هر ‌3تای این روش‌ها این است که آنها تعریف سازنده‌ایی را که تغییرات تصادفی در آنها ایجاد می‌کنند را آسان می‌کنند: 0 را به 1 وبرعکس، اضافه یا کم کردن ارزش یک عدد یا تبدیل یک حرف به حرف دیگر.   توضیحات بالا در شکل قابل مشاهده است یک روش دیگر که توسط John Koza توسعه یافت، برنامه‌نویسی ژنتیک (genetic programming) است. که برنامه‌ها را به عنوان شاخه‌های داده در ساختار درخت نشان می‌دهد. در این روش تغییرات تصادفی می‌توانند با عوض کردن عملگرها یا تغییر دادن ارزش یک گره داده شده در درخت، یا عوض کردن یک زیر درخت با دیگری به وجود آیند. عملگرهای یک الگوریتم ژنتیک در هر مسئله قبل از آنکه بتوان الگوریتم ژنتیک را برای یافتن یک پاسخ به کار برد به دو عنصر نیاز است:در ابتدا روشی برای ارائه یک جواب به شکلی که الگوریتم ژنتیک بتواند روی آن عمل کند لازم است. در روش سنتی یک جواب به صورت یک رشته از بیتها، اعداد یا نویسها نمایش داده می‌شود.دومین جزء اساسی الگوریتم ژنتیک روشی است که بتواند کیفیت هر جواب پیشنهاد شده را با استفاده از توابع تناسب محاسبه نماید. مثلاً اگر مسئله هر مقدار وزن ممکن را برای یک کوله پشتی مناسب بداند بدون اینکه کوله پشتی پاره شود، (مسئله کوله پشتی را ببینید) یک روش برای ارائه پاسخ می‌تواند به شکل رشته ای از بیتهای ۰ و۱ در نظر گرفته شود, که ۱ یا ۰ بودن نشانه اضافه شدن یا نشدن وزن به کوله پشتی است.تناسب پاسخ، با تعیین وزن کل برای جواب پیشنهاد شده اندازه گیری می‌شود. ایده اصلی دهه هفتاد میلادی دانشمندی از دانشگاه میشیگان به نام جان هلند ایده استفاده از الگوریتم ژنتیک را در بهینه‌سازی‌های مهندسی مطرح کرد. ایده اساسی این الگوریتم انتقال خصوصیات موروثی توسط ژن‌هاست. فرض کنید مجموعه خصوصیات انسان توسط کروموزوم‌های او به نسل بعدی منتقل می‌شوند. هر ژن در این کروموزوم‌ها نماینده یک خصوصیت است. بعنوان مثال ژن 1 می‌تواند رنگ چشم باشد، ژن 2 طول قد، ژن 3 رنگ مو و الی آخر. حال اگر این کروموزوم به تمامی، به نسل بعد انتقال یابد، تمامی خصوصیات نسل بعدی شبیه به خصوصیات نسل قبل خواهد بود. بدیهیست که در عمل چنین اتفاقی رخ نمی‌دهد. در واقع بصورت همزمان دو اتفاق برای کروموزوم‌ها می‌افتد. اتفاق اول موتاسیون (Mutation) است. موتاسیون به این صورت است که بعضی ژن‌ها بصورت کاملاً تصادفی تغییر می‌کنند. البته تعداد این گونه ژن‌ها بسیار کم می‌باشد اما در هر حال این تغییر تصادفی همانگونه که پیشتر دیدیم بسیار مهم است. مثلاً ژن رنگ چشم می‌تواند بصورت تصادفی باعث شود تا در نسل بعدی یک نفر دارای چشمان سبز باشد. در حالی که تمامی نسل قبل دارای چشم قهوه‌ای بوده‌اند. علاوه بر موتاسیون اتفاق دیگری که می‌افتد و البته این اتفاق به تعداد بسیار بیشتری نسبت به موتاسیون رخ می‌دهد چسبیدن ابتدای یک کروموزوم به انتهای یک کروموزوم دیگر است. این مسأله با نام Crossover شناخته می‌شود. این همان چیزیست که مثلاً باعث می‌شود تا فرزند تعدادی از خصوصیات پدر و تعدادی از خصوصیات مادر را با هم به ارث ببرد و از شبیه شدن تام فرزند به تنها یکی از والدین جلوگیری می‌کند. 4-4 کاربردهای داده کاوی در کتابخانه ها و موسسات دانشگاهی   کتابخانه ها و موسسات آموزشی با مشکل مدیریت کارآمد بار سنگین داده ها که دائما نیز در حال افزایش است روبرو می باشند. نرم افزارهای کامپیوتری بکار گرفته شده برای این منظور، غالبا فقط برای  پرس و جوهای معمولی و پشتیبانی از مسائل مدیریتی و برنامه ریزی کوتاه مدت اداری جوابگو هستند. در حالیکه در عمق درون این حجم داده ها، الگوها و روابط بسیار جالبی میان پارامترهای مختلف بصورت پنهان باقی میماند. داده کاوی یکی از پیشرفتهای اخیر در حوزه کامپیوتر برای اکتشاف عمیق داده هاست. داده کاوی از اطلاعات پنهانی که برای برنامه ریزیهای استراتژیک و طولانی مدت میتواند حیاتی باشد پرده برداری میکند. تبیین مشخصه های اساسی فراینده داده کاوی و کشف کاربردهای ممکن آن در کتابداری و موسسات دانشگاهی اهداف اصلی این مقاله را شکل میدهند.در دنیای بشدت رقابتی امروز، اطلاعات بعنوان یکی از فاکتورهای تولیدی مهم پدیدار شده است. در نتیجه تلاش برای استخراج اطلاعات از داده ها توجه بسیاری از افراد دخیل در صنعت اطلاعات و حوزه های وابسته را به خود جلب نموده است. حجم بالای داده های دائما در حال رشد در همه حوزه ها و نیز تنوع آنها به شکل داده متنی، اعداد، گرافیکها، نقشه ها، عکسها،  تصاویر ماهواره ای و عکسهای گرفته شده با اشعه ایکس نمایانگر پیچیدگی کار تبدیل داده ها به اطلاعات است. علاوه بر این، تفاوت وسیع در فرآیندهای تولید داده مثل روش آنالوگ مبتنی بر کاغذ و روش دیجیتالی مبتنی بر کامپیوتر، مزید بر علت شده است. استراتژیها و فنون متعددی برای گردآوری، ذخیره، سازماندهی و مدیریت کارآمد داده های موجود و رسیدن به نتایج معنی دار بکار گرفته شده اند. بعلاوه، عملکرد مناسب ابرداده[1] که داده ای درباره داده است در عمل عالی بنظر میرسد.  پیشرفتهای حاصله در علم اطلاع رسانی و تکنولوژی اطلاعات، فنون و ابزارهای جدیدی برای غلبه بر رشد مستمر و تنوع بانکهای اطلاعاتی تامین می کنند. این پیشرفتها هم در بعد سخت افزاری و هم نرم افزاری حاصل شده اند. ریزپردازنده های سریع، ابزارهای ذخیره داده های انبوه پیوسته و غیر پیوسته، اسکنرها، چاپگرها و دیگر ابزارهای جانبی نمایانگر پیشرفتهای حوزه سخت افزار هستند. پیشرفتهای حاصل در نظامهای مدیریت بانک اطلاعات در طی چهار دهه گذشته نمایانگر تلاشهای بخش نرم افزاری است. این تلاشها در بخش نرم افزار را میتوان بعنوان یک حرکت پیشرونده از ایجاد یک بانک اطلاعات ساده تا شبکه ها و بانکهای اطلاعاتی رابطه ای و سلسله مراتبی برای پاسخگویی به نیاز روزافزون سازماندهی و بازیابی اطلاعات ملاحظه نمود. بدین منظور در هر دوره، نظامهای مدیریت بانک اطلاعاتی مناسب سازگار با نرم افزار سیستم عامل و سخت افزار رایج گسترش یافته اند. در این رابطه میتوان از محصولاتی مانند، Dbase-IV, Unify, Sybase, Oracle  و غیره نام برد.  داده کاوی یکی از پیشرفتهای اخیر در راستای فن آوریهای مدیریت داده هاست. داده کاوی مجموعه ای از فنون است که به شخص امکان میدهد تا ورای داده پردازی معمولی حرکت کند و به استخراج اطلاعاتی که در انبوه داده ها مخفی و یا پنهان است کمک می کند. انگیزه برای گسترش داده کاوی بطور عمده از دنیای تجارت در دهه 1990 پدید آمد. مثلا داده کاوی در حوزه بازاریابی، بدلیل پیوستگی غیرقابل انتظاری که بین پروفایل یک مشتری و الگوی خرید او ایجاد میکند اهمیتی خاص دارد. (Barry and Linoff, 1997) تحلیل رکوردهای حجیم نگهداری سخت افزارهای صنعتی، داده های هواشناسی و دیدن کانالهای تلوزیونی از دیگر کاربردهای آن است. در حوزه مدیریت کتابخانه کاربرد داده کاوی بعنوان فرایند ماخذ کاوی نامگذاری شده است. این مقاله به کاربردهای داده کاوی در مدیریت کتابخانه ها و موسسات آموزشی می پردازد. در ابتدا به چند سیستم سازماندهی داده ها که ارتباط نزدیکی به داده کاوی دارند می پردازد؛ سپس عناصر داده ای توصیف میشوند و درپایان چگونگی بکارگیری داده کاوی در کتابخانه ها و موسسات آموزشی مورد بحث قرار گرفته و مسائل عملی مرتبط در نظر گرفته میشوند.پیشرفت در تکنولوژیهای داده پردازی سازمانهای بزرگ و چند- مکانه مثل بانکها، دفاتر هواپیمایی و فروشگاههای زنجیره ای با حجم زیادی از داده ها که ناشی از عملکرد روزانه آنهاست روبرو هستند. بطور سنتی چنین داده هایی به دو دسته تقسیم شده اند: 1.       رکوردهای اصلی 2.  رکوردهای عملیاتی    فرض بر این است که رکوردهای اصلی حاوی اطلاعات پایه هستند که معمولا چندان تغییر نمی کنند در حالیکه رکوردهای عملیاتی با توجه به طبیعت عملیات تجاری حتی بطور ساعتی تغییر خواهند کرد. سیستمهای مدیریت پایگاه داده مناسب برای پیوند دادن این دو مجموعه اطلاعاتی  و تهیه گزارشهای استاندارد جهت کنترل فعالیتها گسترش یافتند.  سیستم اطلاعات مدیریت رایج برای پشتیبانی عملیات و سرویس دهی به چند کاربر در سطوح مختلف سازمان مبتنی بر این نظریه است. بمنظور کمک به تصمیم گیری راهبردی، نظریه تاسیس بانک اطلاعات رکوردهای اصلی به نظریه سازماندهی دیتا مارت و انبار داده ها تغییر یافت.  استخراج اطلاعات از رکوردهای عملیاتی یا پایگاههای اطلاعات عملیاتی و سازماندهی آن برای تحلیل استاندارد یا زمانی فلسفه اولیه و اصولی چنین پیشرفتهایی است. گرچه، دیتا مارت و انبار داده ها از نظر هدف و ساختار با هم متفاوتند. (Inmon, 1998)دیتامارتدیتا مارت اغلب کوچک است و بر یک موضوع یا دپارتمان خاص متمرکز است. بنابراین پاسخگوی یک نیاز داخلی است. طرح بانک اطلاعات برای یک دیتامارت حول ساختار اتصال ستاره ای ساخته شده است که بهینه برای نیازهای کاربران دپارتمان است. دیتامارت معمولا با ابزارهای کامپیوتری که انعطاف پذیری تحلیل را تامین میکنند اما ممکن است برای سازماندهی حجم بالای داده ها مناسب نباشند؛ نیرومند میشود. رکوردهای ذخیره شده در دیتامارتها بخوبی نمایه شده اند. یک دیتامارت در صورتیکه داده ها را از منابع داده ای بسیار سازماندهی شده مثل انبار داده ها بگیرد؛ دیتامارت وابسته  نامیده میشود. مسلما دیتامارتهای وابسته از لحاظ ساختاری و معماری منطقی هستند. منبع دیتامارتهای وابسته تکنولوژِی بانک اطلاعات دپارتمانی است. دیتامارتهای مستقل ثابت نیستندو از لحاظ معماری بسیار با هم متفاوتند. این مساله هنگام یکپارچه سازی دیتامارتهای مستقل، مشکل ایجاد میکند. بنابراین با یکپارچه سازی ساده دیتامارتها یک انبار داده ایجاد نخواهد شد. دیتامارت اساسا برای اهداف تاکتیکی طراحی شده است و هدفش تامین یک نیازتجاری فوری است.  انبار داده ها یک انبار داده کاملا " متفاوت از دیتامارت است. سازماندهی انبارهای داده بگونه ایست که کلیه موضوعات حول فعالیتهای کاری سازمان را می پوشاند. انبار داده نمایانگر یک تسهیلات مرکزی است. برخلاف دیتامارت که در آن داده ها به شکل خلاصه تر و متراکم تر وجود دارند، یک انبار داده ، داده ها را در یک سطح نامتراکم ذخیره می کند. ساختار داده ها در یک انبار داده یک ساختار لزوما" هنجار شده است. بدین معنی که ساختار و محتوای داده ها در انبار داده منعکس کننده ویژگیهای دپارتمانهای عضو نیست. داده ها در انبار داده از نظر حجم و شکل کاملا" متفاوت از داده ها در دیتامارت هستند. دیتامارت ممکن است شامل حجم زیادی از داده های قدیمی و گذشته نگر باشد. داده ها در انبار داده اغلب بصورت نسبتا" سبک نمایه میشوند. (به بیان دیگر در عمق کمتر).انبار داده برای اهداف برنامه ریزی بلندمدت و راهبردی طراحی میشوند. در نتیجه انبار داده برخلاف سیستم عملیات که کاربرمدار است متمرکز بر اقلام است. ساختار یک انبارداده مشخصات زیر را نشان میدهد: وابستگی به زمان: رکوردها بر اساس یک برچسب زمانی نگهداری میشوند. وابستگی زمانی حاصل در ایجاد صفحات زمانی مفید است که درک ترتیب زمانی وقایع را تسهیل میکند. غیر فرار بودن: رکوردهای داده در انبار داده ها هرگز بطور مستقیم روزآمد نمیشوند. برای هر تغییری در ابتدا داده های عملیاتی روزآمد میشوند و سپس بگونه ای مقتضی به انبار داده منتقل میشوند. این مساله ثبات داده ها را برای استفاده های وسیعتر تضمین میکند.  تمرکز موضوعی:  داده ها از بانکهای اطلاعاتی عملیاتی بصورت گزینشی به انبار داده منتقل میشوند. این استراتژی به ایجاد یک انبار داده بر اساس یک مطلب یا موضوع خاص کمک میکند و بنابراین کاوش انبار داده ها برای  پرس و جوهای موضوعی با سرعت بیشتری انجام میشود.  یکپارچگی:داده ها بگونه ای کامل سازماندهی شده اند تا با حذف موارد تکراری و چند عنوانه  یکپارچگی رکوردها حفظ شود ؛ به ایجاد ارجاع های متقابل کارآمد بین رکوردها کمک نموده و ارجاع دهی را تسهیل نماید.  واضح است که انبار داده اساسا" برای  پرس و جوهای پشتیبان تصمیم گیری ساخته شده است. بر این اساس سازماندهی وعملیات انبار داده چنان طراحی شده اند تا نیازهای اطلاعاتی روزمره یا معمولی را پاسخگو باشند. بدلیل حجم بسیار بالای چنین پایگاه اطلاعاتی یک سیستم کامپیوتری پیشرفته برای عملیات انبارسازی داده ها لازم است. همچنین یک بانک اطلاعات مجزا شامل ابرداده که مشخصه هایی نظیر نوع، فرمت، مکان و پدیدآورندگان داده های ذخیره شده در یک انبار داده ها را توصیف میکند نیز برای کمک به کاربران و مدیران داده ها ساخته میشود. مشخص شد که انبار داده  بدلیل اندازه و تنوعش، اگر مبتکرانه پردازش شود میتواند به تولید اطلاعاتی منجر شود که در وهله اول آشکار نیستند. با انتخاب متناسب داده ها، بکار گرفتن فنون مختلف غربال کردن و تفسیر زمینه ای [10]، داده ذخیره شده میتوانست منجر به کشف الگوها یا رابطه هایی شود که بینش نویی به تصمیم گیرنده دهد. این مساله نظریه توسعه عملیات داده کاوی را به موازات معدن کاوی بروز داد. ذکر این نکته لازم است که داده کاوی در اصل لزوما" نیاز به سازماندهی یک انبار داده ندارد. حال به داده کاوی می پردازیم.  عناصر داده کاوی  توصیف و کمک به پیش بینی دو کارکرد اصلی داده کاوی هستند. تحلیل داده مربوط به مشخصه های انتخابی متغیرها؛ از گذاشته و حال، و درک الگو مثالی از تحلیل توصیفی است. برآورد ارزش آینده یک متغیر و طرح ریزی کردن روند مثالی از توانایی پیشگویانه داده کاوی است.  برای عملی شدن هریک از دو کارکرد فوق الذکر داده کاوی، چند گام ابتدایی اما مهم باید اجرا شوند که از این قرارند: 1. انتخاب داده ها 2. پاک سازی داد ها  3. غنی سازی داده ها 4. کد گذاری داده ها  با دارا بودن هدف کلی در مطالعه، انتخاب مجموعه داده های اصلی برای تحلیل، اولین ضرورت است. رکوردهای لازم میتواند از انبار داده ها و یا بانک اطلاعاتی عملیاتی استخراج شود. این رکوردهای داده جمع آوری شده؛ اغلب از آنچه آلودگی داده ها نامگذاری شده است رنج می برند و بنابراین لازم است پاکسازی شوند تا از یکدستی فرمت (شکلی) آنها اطمینان حاصل شود، موارد تکراری حذف شده و کنترل سازگاری دامنه بعمل آید. ممکن است داده های گردآوری شده از جنبه های خاصی ناقص یا ناکافی باشند. در این صورت داده های مشخصی باید گردآوری شوند تا بانک اطلاعات اصلی را تکمیل کنند. منابع مناسب برای این منظور باید شناسایی شوند. این فرایند مرحله غنی سازی داده ها را تکمیل میکند. یک سیستم کدگذاری مناسب معمولا" جهت انتقال داده ها به فرم ساختار-بندی شده جدید؛ متناسب برای عملیات داده کاوی تعبیه میشود.  فنون داده کاوی ممکن است متوجه شده باشید که فنون داده کاوی یک گروه نامتجانس را شکل میدهند چرا که هر تکنیکی که بتواند بینش جدیدی از داده ها را استخراج کند میتواند داده کاوی به حساب آید. برخی از ابزارهای رایج بکار گرفته شده تحت عنوان داده کاوی عبارتند از:  (Adriaans and Zantinge, 2003) ابزارهای پرس و جو: ابزارهای متداول زبان پرس و جوی ساختاربندی شده در ابتدا برای انجام تحلیلهای اولیه بکار گرفته شدند که می تواند مسیرهایی برای تفحص بیشتر نشان دهد.  فنون آماری: مشخصات اصلی داده ها لازمست با کاربرد انواع مختلفی از تحلیلهای آماری شامل جدول بندی ساده و متقاطع داده ها و محاسبه پارامترهای آماری مهم بدست آید. مصور سازی: با نمایش داده ها در قالب نمودارها و عکسها مانند نمودار پراکندگی؛ گروه بندی داده ها در خوشه های متناسب تسهیل میشود. استنباط عمیق تر ممکن است با بکارگیری تکنیکهای گرافیکی پیشرفته حاصل شود.پردازش تحلیلی پیوسته: از آنجا که مجموعه داده ها ممکن است روابط چندین بعدی داشته باشند، روشهای متعددی برای ترکیب کردن آنها وجود دارد. ابزارهای پردازش تحلیلی پیوسته به ذخیره چنین ترکیباتی کمک میکند و ابزارهای ابتدا- انتهای پیوسته برای انجام  پرس و جو ایجاد میکند. اما این ابزارها هیچ دانش جدیدی ایجاد نمی کنند.  یادگیری مبتنی بر مورد: این تکنیک مشخصات گروههای داده ها را تحلیل میکند و به پیش بینی هر نهاد  واقع شده در همسایگی شان کمک میکند. الگوریتمهایی که استراتژی یادگیری تعاملی را  برای کاوش در یک فضای چندین بعدی بکار میگیرند برای این منظور مفیدند.   درختان تصمیم گیری: این تکنیک بخشهای مختلف فهرست پاسخهای موفق داده شده مربوط به یک پرس و جو را بازیابی می کند و به این ترتیب به ارزیابی صحیح گزینه های مختلف کمک میکند. قوانین وابستگی: اغلب مشاهده میشود که یک وابستگی نزدیک (مثبت یا منفی) بین مجموعه ای از داده های معین وجود دارد. بنابراین قوانین رسمی وابستگی برای تولید الگوهای جدید ساخته و بکار گرفته میشوند. شبکه های عصبی: این یک الگوریتم یادگیری ماشینی است که عملکرد خودش را بر اساس کاربرد و ارزیابی نتایج بهبود می بخشد. الگوریتم ژنتیکی: این هم تکنیک مفید دیگری برای پیش بینی هدف است. به این ترتیب که با یک گروه یا خوشه شروع میشود و رشدش در آینده را با حضور در برخی مراحل فرایند محاسبه احتمال جهش تصادفی؛ همانطور که در تکامل طبیعی فرض میشود  طرح ریزی می نماید. این تکنیک به چند روش میتواند عملی شود. و ترکیب غیرقابل انتظار یا نادری را از عواملی که در حال وقوع بوده و مسیر منحنی طراحی داده ها را تغییر میدهند؛ منعکس میکند.گام نهایی فرایند داده کاوی، گزارش دادن است. گزارش شامل تحلیل نتایج و کاربردهای پروژه، درصورت بکارگیری آنها، است . و متن مناسب، جداول و گرافیکها را در خود جای می دهد. بیشتر اوقات گزارش دهی یک فرایند تعاملی است که تصمیم گیرنده با داده ها در پایانه کامپیوتری بازی میکند و فرم چاپی برخی نتایج واسطه محتمل را برای عملیات فوری بدست می آورد. داده کاوی در تولید چهار نوع دانش ذیل مفید است: (Fayyad et al., 1996) - دانش سطحی کاربردهای (SQL) - دانش چند وجهی کاربردهای (OALP) - دانش نهان (تشخیص الگو و کاربردهای الگوریتم یادگیری ماشینی) - دانش عمیق (کاربردهای الگوریتم بهینه سازی داخلی) نرم افزار: از آنجا که داده کاوی با بانکهای اطلاعاتی بزرگ سروکار دارد، به گونه ای ایده ال با تکنولوژی خدمت گیر-خدمت گر[17] بکار میرود. کاربردهای عمومی داده کاوی بیشتر شامل تقسیم کردن داده ها در خوشه های مقتضی، کدگذاریهای مناسب، کاوش برای الگوها و طراحی کردن با استفاده از فنون آماری و الگوریتمهای ژنتیکی است. تعداد زیادی از بسته های نرم افزاری واجد این جنبه های ابزارهای داده کاوی با درجات متفاوتی از جامعیت در دسترس هستند. برای مثال بسته های نرم افزاری که منحصرا" برای کاربردهای OLAP در دسترس هستند عبارتند از: Oracle OLAP, DB2 OLAP Server, CleverPath OLAP . نرم افزارهای آماری عمومی مثل SPSS, SAS, STATISTICA با امکاناتی برای داده کاوی و بسته های نرم افزاری اختصاصی داده کاوی مثل Weka, Insightful Miner3, Text Mining Software, Enterprise Data Mining software, PolyAnalyst 4.6  مفید هستند. کاربردهای داده کاوی در کتابخانه ها و محیط های دانشگاهی داده کاوی در ابتدا از حوزه تجارت برخاست اما کاربردهای آن در سایر حوزه هائی که به گردآوری حجم وسیعی از داده هائی می پردازند که دستخوش تغییرات پویا نیز می گردند؛ مفید شناخته شد. بخشهایی مثل بانکداری، تجارت الکترونیک، تجارت سهام، بیمارستان و هتل از این نمونه اند.  انتظار میرود که استفاده از داده کاوی در بخش آموزش بطور عام امکانهای جدید بسیاری ارائه دهد. برخی کاربردهای داده کاوی در کتابخانه ها و قسمت اداری آموزش در ذیل مورد بحث قرار گرفته اند.  مدیریت و خدمات کتابخانه عملیات کتابداری بطور کلی شامل مدیریت مدارک، ارائه خدمات و امور اداره و نگهداری است. هر کدام از این کارکردها با انواع مختلفی از داده ها سروکار دارد و بطور جداگانه پردازش میشود. اگرچه، انجام تحلیل ترکیبی براین مجموعه های داده  نیز میتواند افق تازه ای را بگشاید که به طرح خدمات جدید و تحول رویه ها و عملیات جاری کمک نماید. جدول یک برخی از کاربردهای ممکن داده کاوی را که میتواند در کتابداری مفید باشد ارائه میکند. جدول یک- کاربردهای داده کاوی در کتابخانه ها کاربرد متصور بانک اطلاعاتی برای تعیین نقاط قوت و ضعف مجموعه گردآوری منابع برای ایجاد رابطه بین خواننده، منابع کتابخانه و زمان مشخصی از سال استفاده از مجموعه برای تحلیل سفارشهای پاسخ داده شده و سفارشهای دریافت شده امانت بین کتابخانه ای برای پیش بینی روند بازگشت منابع داده های بخش امانت برای نشان دادن منابع مالی بکار گرفته شده داده های هزینه  داده کاوی میتواند برای پاسخ دادن به یک سوال خاص مربوط به کتابخانه و نیز برای کشف روندهای عمومی که به تصمیم گیری کمک میکنند، استفاده شود . برای مثال سوال میتواند چنین باشد: امکان اینکه امانت گیرندگان منابع را یک هفته بعد از تاریخ عودت برگردانند تا نامه های یادآوری کمتری فرستاده شود چقدر است؟ یا میزان اشتراک مورد انتظار برای نشریات بین المللی انتخاب شده برای سال آینده چقدر است؟ درک الگوی استفاده کلی مجلات الکترونیکی یا تحلیل درخواستهای  اعضا  برای میکروفیلمها طی 5 سال گذشته نیز همگی مثالهایی از کشف روندهای عمومی اند. دامنه تحلیل استنادی هم میتواند با استفاده از داده کاوی گسترش داده شود.در ارتباط با کتابخانه ها، وب کاوی حوزه دیگری از علاقمندی است. وب کاوی شامل محتوا کاوی وب، ساختار کاوی وب و استفاده کاوی وب با توجه به یک موضوع خاص است که در طراحی خدمات جدید مبتنی بر وب کمک خواهد کرد. مدیریت موسسات دانشگاهی اداره موسسات دانشگاهی کار پیچیده ای است. در این موسسات دائما" نیاز به درآمدزایی و خود- کارآمدی و کاهش وابستگی به بودجه دولتی احساس میشود. این مساله کنترل دائمی جنبه های مختلف هر فعالیت و پروژه را می طلبد. بانکهای اطلاعاتی برای چنین موسساتی  مربوط به دانشجویان، دانشکده، اساتید و کارمندان، تعداد رشته ها و چند مورد دیگر است . ارزیابی تقاضا و وضعیت عرضه نقش مهمی بازی میکند. مرور بانکهای اطلاعاتی نمونه در جدول 2 نمایانگر کاربردهای بالقوه داده کاویست. جدول 2- کاربردهای داده کاوی در موسسات دانشگاهی کاربرد متصور بانک اطلاعاتی برای درک رابطه های جمعیت شناختی، اقتصادی و اجتماعی ثبت نام دانشگاهی برای ایجاد رابطه بین عوامل اقتصادی-اجتماعی و نمرات اخذ شده کارایی دانشگاهی برای تعیین میزان مفید بودن سیستم با استناد به نمرات امتحان بانک سوالات برای ارزیابی همکاری دانشکده با توجه به میزان استفاده از کتابخانه همکاری فکری برای پیدا کردن تأثیر انتشارات در تقاضا برای رشته ها انتشارات برای تحلیل سوالات دریافت شده در وب سایت دانشگاه و کمک به ایجاد رشته های جدید دانشگاهی بازدید از وب سایت    کاربرد داده کاوی در دانشگاه ملی سنگاپور قابل ملاحظه است. در این دانشگاه از ابزارهای داده کاوی برای شناسایی و دسته بندی دانشجویانی که به کلاسهای پیش نیاز برای واحد درسی ارائه شده نیاز داشتند استفاده شد.  (Kurian and John, 2005) علاوه بر آن، مسائلی مانند اختصاص بهتر منابع و نیروی انسانی، مدیریت روابط دانشجو و به تصویر کشیدن رفتار گروههای مختلف میتواند بوسیله ابزارهای داده کاوی انجام شود.  محدودیت ها کاربرد داده کاوی با چند عامل محدود شده است. اولین مورد به سخت افزار و نرم افزار لازم و موقعیت بانک اطلاعاتی مربوط میشود . برای مثال در هند، داده های غیر مجتمع که برای کاربردهای داده کاوی لازم است ممکن است به فرم دیجیتالی در دسترس نباشد. در دسترس بودن نیروی انسانی ماهر در داده کاوی نیز مسأله مهم دیگری است. محرمانه بودن رکوردهای مراجعان ممکن است در نتیجه پردازش داده های مبتنی بر داده کاوی آسیب پذیر شود. کتابداران و مؤسسات آموزشی باید این مسأله را در نظر داشته باشند؛ چرا که در غیر اینصورت ممکن است گرفتار شکایات قانونی گردند. محدودیت دیگراز ضعف ذاتی نهفته  در ابزارهای نظری ناشی میگردد. ابزارهایی مانند یادگیری ماشینی و الگوریتمهای ژنتیکی بکار گرفته شده در  فعالیتهای داده کاوی به مفاهیم وفنون منطق و آمار بستگی دارد. در این حد نتایج به روش مکانیکی تولید شده و بنابراین به یک بررسی دقیق نیاز دارند. اعتبار الگوهای بدست آمده به این طریق؛ باید آزمایش شود. چرا که که در بسیاری موارد روابط علل و معلول مشتق شده؛ از برخی استدلالات غلط ذیل رنجمیبرند. (Cannavo, 2003)  ●  علت دور مثلا" امکانات ضعیف خوابگاه باعث می شود دانشجویان نمرات پایینی کسب نمایند ●  علت مجرد مثلا" بودجه محدود بر بازدهی پژوهشی دانشکده تأثیر می گذارد ●  علائم در نظر گرفته شده برای این عوامل مثلا" مجموعه کتابخانه ممکن است افزایش نیابد چون تعداد خوانندگان مرتبا" کاهش می یابد. ●  سفسطه دسته بندی مثلا" مدرسان حقوق بسیار بالا دریافت می کنند و کل حقوقشان بالغ بر میلیونها میشود. ● سفسطه ترکیب مثلا" اگر هر مدرس در دانشکده شایسته و واجد صلاحیت باشد کل دانشکده عملکرد بهتری خواهد داشت. ● سوگیری در انتخاب نمونه مثلا"استناد به یافته های یک پیمایش نمونه گیری شده از دانشجویان یک دانشکده که از خانواده های ثروتمند هستند و مخارج روزانه در خوابگاه برای هر دانشجو 100 دلار است. از آنجایی که مطالعه الگوها و استخراج روابط میان رکوردها مستلزم کاربرد منطق قیاسی و استقرایی است فرد باید مراقب اشتباهاتی که عموما" رخ میدهد باشد. برای مثال بحثهای قیاسی یا استقرایی، تا زمانیکه وضعیت درست بودن فرضیه آزمایش نشود چیزی درباره درست یا غلط بودن نتایجشان نمی گویند. طبیعتا، نتایج تولید شده ماشینی ممکن است از چنین نقایصی رنج ببرند. تذکرات نهایی  بکارگیری تکنولوژی اطلاعات توسط هر سازمان در عمل یک فرایند هموار نیست. کتابخانه یا مؤسسه دانشگاهی از این قضیه استثنا نیست. اما، تجربه نشان میدهد که یک برنامه نظام مند میتواند ظهور و نگهداری تکنولوژی اطلاعات در محیط کتابخانه را تسهیل کند. (Patkar and Iyer, 1990; Patkar, 2000, 2004) حتی کاربرد تکنولوژی های پیشرفته پردازش اطلاعات مثل سیستمهای خبره و سیستم اطلاعات جغرافیایی (جی.آی.اس) در کتابخانه گزارش شده  است. (Myers, 1992; Patkar, 1999)  با این پیش زمینه ، کاربرد داده کاوی بوسیله کتابخانه ها و موسسات دانشگاهی ، به شرط آماده سازی مناسب، بطور قابل توجهی عملی است. برای دانشگاهها، کالجها، مدارس و موسسات آموزش از راه دور که بانکهای اطلاعاتی عظیمی دارند، ابزارهای داده کاوی میتواند الگوها و روابطی را که خیلی عیان نیستند آشکار کند. این نتایج ممکن است به طراحی دوباره  فرایندها و رویه های مرتبط منجر شود. تحلیلهای پشتیبانی شده توسط داده کاوی در کل موسسات و محیط ها میتواند مسائل متنوع مدیریت آموزشی؛ از جمله درک بهتر مشخصه های اقتصادی اجتماعی دانشجویان، مندرجات رشته ها و آموزش و پرورش و ساختار هزینه را  مخاطب قرار دهد. آنچه لازم است اینست که فراتر از عملکرد داده پردازی استاندارد قدم برداریم مخصوصا" کتابخانه ها و موسسات دانشگاهی که با انواع مختلفی از بانکهای اطلاعاتی سروکار دارند و به سطوح معقولی از کامپیوتری کردن و دیجیتالی کردن داده ها دست یافته اند. در یک نظر، ابزارهای داده کاوی نمایانگر پیشرفت در زنجیره تکنولوژی اطلاعات هستند. داده کاوی همچنین میتواند بعنوان بخشی از فرایند بزرگتر کشف دانش در بانکهای اطلاعاتی در محیط های مختلف در نظر گرفته شود. البته نباید چنین پنداشت که ابزارهایی مثل داده کاوی نیاز به مداخله انسانی را کاهش خواهدداد. همچنانکه در بالا نشان داده شد، ارزیابی و تعدیل نتایج بدست آمده بوسیله چنین ابزارهای خودکاری؛ به آزمایش نیاز دارد تا در برابر کاربردهای غلط محافظت شود. انتظار میرود داده کاوی در گسترش سازمان خودیادگیرنده مشارکت کند.  کشف انتخابهای نوین با بهره گیری از داده کاوی اطمینان بخش بهترین کاربرد ممکن منابع موجود است. داده کاوی ماهیت چرخه مانند دارد. برای اینکه در پی کشف الگوها، سوالات بیشتری پدید خواهند آمد که دور بعدی فرایند را شکل میدهند. بهره برداری از تکنولوژیهای پیشرفته مثل داده کاوی مطمئنا" برای متخصصان کتابداری و مدیران موسسات آموزشی یک چالش دائمی خواهد بود ؛ چرا که آنها خلاقیت طلبند و برای نوآوری تلاش می کنند. 4-5 فرآيند تصميم گيري و سياستگذاري کلان فرآيند تصميم گيري و سياستگذاري کلان را مي توان به صورت سيستمي از داده ها ، ستاده ها و پردازشهاي دروني بيان نمود . داده ها شامل  اطلاعاتي درباره ارزشهاي حاکم بر جامعه ، انتظارات و توقعات ، مسائل و محدوديتها و امکانات موجود در جامعه و ستاده ها تصميمات و سياستها مي باشند. جهت روشن تر شدن مطلب به توضيح مختصرمراحل اصلي سيستم مذکور در ذيل مي پردازيم : 1-    تشخيص و تبيين مشکل عمومي : يکي از مراحل اساسي در تصميم گيري و سياستگذاري کلان ، تشخيص و تبيين مشکل عمومي است. مشکل عمومي يک نياز ، کمبود ، محدوديت يا نارضايتي قابل تشخيص در جامعه است، مشکل عمومي بايد جنبه عمومي داشته باشد و تنها بر يک فرد خاص تاثيرنگذارد. مشکلات فردي زماني جنبه عمومي پيدا مي کنند و به صورت مساله اي در جامعه عنوان مي شود، تصميم گيرنده را به فکر چاره جويي مي اندازد و تصميم گيرنده  سعي مي کند که به طريقي مشکل را رفع کند يا دست کم از شدت آن بکاهد. نکته اي که بايد بدان توجه کرد اين است که اصولا ارايه مشکل و مطرح ساختن آن خود هنري است که برخي افراد، گروهها و سازمانها در آن مهارت بيشتري دارند و همچنين نزديکي و چگونگي ارتباط کساني که از مشکل رنج مي برند با تصميم گيرندگان و سياست گذاران ، در انعکاس مشکل موثر ست. وضعيت ، موقعيت و ميزان قدرت افرادي که مشکل به آنها مربوط مي شود نيز در انتقال مشکل تاثير مي گذارد. اهميت و حساسيت مشکل از نظر ارزشها و سنتهاي حاکم بر جامعه نيز، بر انتقال و مطرح شدن آن تاثير دارد ، ارزشها مي توانند به مشکل حساسيت بخشيده  و توجه تصميم گيرندگان را به طرف آن جلب نمايند و يا بر عکس ممکن است ارزشها موجب ناديده گرفتن يک مشکل شود. انتقال مشکل ممکن است به طور مستقيم با ارائه خود مشکل صورت گيرد، يا به طور غير مستقيم و از طريق ايجاد واقعه يا وقايعي که مشکل را به صورت حادي در جامعه مطرح نمايد و نظر همگان را به خود جلب کند. بدين جهت بايد در مرحله تشخيص مشکل مکانيسمهايي پيش بيني شوند که تصميم گيرندگان و سياستگذاران به کمک آنها از مشکلات و مسايل جامعه آگاه شوند و در مورد آن ، فعالانه اقدام نمايند. 2-    تنظيم گزينه هاي ممکن : مسلما گزينه هاي مختلفي براي حل مشکل وجود دارد . گزينه هاي ممکن عبارت از اقدامات و عملياتي هستند که مي توانند راه حل مشکل مي باشند.براي يافتن گزينه هاي ممکن بايستي عوامل شکل دهنده و به وجود آورنده مشکل شناخته شود و روابط بين آنها کشف گردد. در اين حالت با تغيير در مجموعه اي که مشکل را به وجود آورده و اصلاح آن مي توان به راه حلهايي دست يافت. وارد ساختن عوامل مثبت يا حذف عوامل مخل و جابجايي و تغيير در آنها ، همه مي توانند راه حلهايي باشد که در فهرست تصميم گيرنده قرار مي گيرد . تصميم گيرنده در فرآيند تصميم گيري و سياستگذاري کلان سعي دارد تا آنجا که ممکن است به تصميمات (گزينه هاي) بيشتري دست يابد، زيرا هرچه راه حلهاي يافته شده بيشتر و متنوع تر باشد ، امکان اخذ تصميم مطلوب تري وجود دارد. 3-    پيش بيني نتايج گزينه هاي ممکن : پس از مرحله تنظيم گزينه هاي ممکن بايد به پيش بيني نتايج حاصل از گزينه هاي ممکن پرداخت و نتايج حاصل از هريک را معين ساخت . هر گزينه داراي نتايج مختلفي است که ممکن است يکجا يا در دوره هاي مختلف ظاهر شود. به عنوان مثال تصميمات آموزشي  داراي يک رشته نتايج زودرس و يک سلسله نتايج ديگر مي باشد که در ميان مدت و دراز مدت حاصل مي شود، تصميم گيرنده بايد کوشش کند تا هر يک از اين نتايج را ارزيابي کند. خطري که در اين مرحله وجود دارد آن است که تصميم گيرنده به علت پيچيدگيهاي سنجشهاي کيفي و سنجش نتايج آتي ، ممکن است آنها را ناديده گرفته و ارزيابيهاي خود را متوجه نتايج زودرس و کمي نمايد . نکته ديگر اين است که يک تصميم يا سياست ممکن است هم نتايج مثبت و هم نتايج منفي در بر داشته باشد که تصميم گيرنده يا سياستگذار بايد مجموع نتايج را مد نظر قرار دهد. روش تجزيه و تحليل هزينه سود ، چهارچوب ساده اي براي ارزيابي تصميمات است ، در اين روش ضمن تعيين هزينه و سود هر گزينه تصميم  ، گزينه اي که سود آن از هزينه اش بيشتر است انتخاب مي گردد. البته استفاده از روش تجزيه و تحليل هزينه و سود در انتخاب تصميم و سياست  کار پيچيده و دشواري است زيرا همواره نمي توان هزينه و سود را در قالب معيارهاي کمي خلاصه کرد و احتمال وقوع نتايج نيز هميشه قطعيت ندارد ، علاوه بر آن مسائل و موضوعات بخش عمومي را کمتر مي توان با عدد و رقم به صورت هزينه و سود نشان داد . در ارزيابي گزينه هاي ممکن مي توان از گروههاي مباحثه و مناظره متخصصين  استفاده کرد . گروههاي مذکور نقاط مثبت و منفي تصميم را مطرح کرده و به مناظره درباره آنها مي پردازندو با توجه به مباحثات اين گروهها مي توان گزينه تصميم را ارزيابي کرد و نقاط قوت و ضعف آن را در مقايسه با ساير گزينه هاي تصميم دريافت. 4-    انتخاب گزينه تصميم مطلوب و قانوني ساختن آن : پس از آنکه نتايج حاصل از هر گزينه تصميم مورد ارزيابي قرار گرفت ، مي توان از طريق مقايسه بهترين راه را انتخاب و به عنوان تصميم مطلوب ارايه کرد . پس از مقايسه و انتخاب ،  تصميم مورد نظر بايد مشروعيت يافته و به تاييد يا تصويب مرجع يا مقام معيني در جامعه برسد. 5-    اجرا و ارزيابي تصميم يا سياست عمومي در عمل :  پس از آنکه تصميم يا سياست جنبه رسمي پيدا کرد ، بايد در اجرا نيز مورد ارزيابي قرار گيرد و نقاط قوت و ضعف آن در عمل شناخته شود . تصميم گيرنده يا سياستگذار بايستي تصميم يا سياست تصويب شده را پيگيري کند و نتايج حاصل از آن را مورد ارزيابي قرار دهد. مرحله ارزيابي پس از اجرا ، داراي اهميت بسياري است و نه تنها تصميم بلکه فرآيند تصميم گيري را مورد ارزيابي قرار مي دهد . هدف اصلي در ارزيابي بعد از اجرا تعيين ميزان موثر بودن تصميم يا سياست در رفع مشکل عمومي است ، همچنين مي توان از طريق سيستم بودجه بندي  تصميمات و سياستها را کنترل و ارزيابي نمود . در پايان پس از ارزيابي تصميمات و سياستها و بررسي نتايج آن در عمل  ، اگر تصميم خالي از عيب و نقص باشد  تصميم گيرنده دستور اجرا يا ادامه آن را صادر مي کند و در غير اين صورت به بررسي آن مي پردازد و تصميم اصلاحي تنظيم مي کند.   تفاوت‌هاي شبكه‌هاي عصبي با روش‌هاي محاسباتي متداول و سيستم‌هاي خبره گفتيم كه شبكه‌هاي عصبي روش متفاوتي براي پردازش و آناليز اطلاعات ارائه مي‌دهند. اما نبايد اين گونه استنباط شود كه شبكه‌هاي عصبي مي‌توانند براي حل تمام مسائل محاسباتي مورد استفاده واقع شوند. روش‌هاي محاسباتي متداول همچنان براي حل گروه مشخصي از مسائل مانند امور حسابداري، انبارداري و محاسبات عددي مبتني بر فرمول‌هاي مشخص، بهترين گزينه محسوب مي‌شوند. جدول 1، تفاوت‌هاي بنيادي دو روش محاسباتي را نشان مي‌دهد. مشخصه روش محاسباتي متداول)شامل سيستم‌هاي خبره( شبكه‌هاي عصبي مصنوعي روش پردازش ترتيبي موازي توابع منطقي  (left brained) estault (right brained) روش فراگيري به كمك قواعد (didactically) با مثال (Socratically) كاربرد حسابداري، واژه پردازي، رياضيات، ارتباطات ديجيتال پردازش حسگرها، تشخيص گفتار، نوشتار، الگو تلاش‌هايي كه براي اجرايي كردن سيستم‌هاي خبره به كار گرفته شده‌اند، با مشكلات مشتركي مواجه بوده‌اند. با افزايش سطح پيچيدگي سيستم‌ها، منابع كامپيوتري مورد نياز سيستم به شدت افزايش مي‌يابند و سيستم با كندي بيش از حد روبرو مي‌شود. در حقيقت تجربه نشان داده است كه در وضعيت فعلي، سيستم‌هاي خبره تنها مي‌توانند در مواقعي مفيد واقع شوند كه هدف محدود و مشخصي تعيين شده باشد.                                                                  شبكه‌هاي عصبي در مسيري گام برمي‌دارند كه ابزارها توانايي فراگيري و برنامه‌ريزي خود را داشته باشند. ساختارشبكه‌هاي عصبي به گونه‌اي است كه قابليت حل مسئله را بدون كمك فرد متخصص و برنامه‌ريزي خارجي داشته باشند. شبكه‌هاي عصبي قادر به يافتن الگوهايي در اطلاعات هستند كه هيچ‌كس، هيچ‌گاه از وجود آنها اطلاع نداشته است.  درحالي‌كه سيستم‌هاي خبره در عمل به موفقيت‌هاي بسياري دست يافته‌اند، شبكه‌هاي عصبي در كاربردهايي همچون ديد مصنوعي، تشخيص و توليد پيوسته گفتار، فراگيري ماشيني و نظاير آن با مشكلاتي روبرو بوده‌اند.  در حال حاضر شبكه‌هاي عصبي كاملاً وابسته به سرعت پردازنده سيستم اجرا كننده هستند. کاربردهای شبکه های عصبی :       سیستم آنالیز ریسک       کنترل هواپیما بدون خلبان       ردیابی انحراف هواپیما       شبیه سازی مسیر       سیستم راهنمایی اتوماتیک اتومبیل       سیستمهای بازرسی کیفیت       آنالیز کیفیت جوشکاری       پیش بینی کیفیت       آنالیز کیفیت کامپیوتر       آنالیز عملیاتهای آسیاب       آنالیز طراحی محصول شیمیایی       آنالیز نگهداری ماشین       پیشنهاد پروژه       مدیریت و برنامه ریزی       کنترل سیستم فرایند شیمیایی و دینامیکی       طراحی اعضای مصنوعی       بهینه سازی زمان پیوند اعضا       کاهش هزینه بیمارستان       بهبود کیفیت بیمارستان       آزمایش اتاق اورژانس       اکتشاف روغن و گاز       کنترل مسیر در دستگاههای خودکار , ربات , جراثقال       سیستمهای بصری       تشخیص صدا       اختصار سخن       کلاسه بندی صوتی       آنالیز بازار       سیستمهای مشاوره ای محاسبه هزینه موجودی       اختصار اطلاعات و تصاویر       خدمات اطلاعاتی اتوماتیک       مترجم لحظه ای زبان       سیستمهای پردازش وجه مشتری       سیستمهای تشخیص ترمز کامیون       زمانبندی وسیله نقلیه       سیستمهای مسیریابی       کلاسه بندی نمودارهای مشتری/بازار       تشخیص دارو       بازبینی امضا       تخمین ریسک وام       شناسایی طیفی       ارزیابی سرمایه       کلاسه بندی انواع سلولها , میکروبها و نمونه ها       پیش بینی فروشهای آینده       پیش بینی نیازهای محصول       پیش بینی وضعیت بازار       پیش بینی شاخصهای اقتصادی       پیش بینی ملزومات انرژی       پیش بینی واکنشهای دارویی       پیش بینی بازتاب محصولات شیمیایی       پیش بینی هوا       پیش بینی محصول       پیش بینی ریسک محیطی       پیش بینی جداول داوری       مدل کردن کنترل فرآیند       آنالیز فعالیت گارانتی       بازرسی اسناد       تشخیص هدف       تشخیص چهره       انواع جدید سنسورها       دستگاه کاشف زیر دریایی بوسیله امواج صوتی , رادار       پردازش سیگنالهای تصویری شامل مقایسه اطلاعات       پیگیری هدف       هدایت جنگ افزارها       تعیین قیمت وضعیت فعلی       جلوگیری از پارازیت       شناسایی تصویر /سیگنال       چیدمان یک مدار کامل       بینایی ماشین       مدل کردن غیر خطی       ترکیب صدا       کنترل فرآیند ساخت       آنالیز مالی       پیش بینی فرآیندهای تولید       ارزیابی بکارگیری یک سیاست       بهینه سازی محصول       تشخیص ماشین و فرآیند       مدل کردن کنترل سیستمها        مدل کردن ساختارهای شیمیایی       مدل کردن سیستمهای دینامیکی       مدل کردن سیگنال تراکم       مدل کردن قالبسازی پلاستیکی       مدیریت قراردادهای سهام       مدیریت وجوه بیمه       مدیریت سهام       تصویب چک بانکی       اکتشاف تقلب در کارت اعتباری       ثبت نسیه       بازبینی امضا از چکها       پیش بینی ارزش نسیه       مدیریت ریسک رهن       تشخیص حروف و اعداد       تشخیص بیماری 4-3 آشنایی با الگوریتم ژنتیک الگوریتم ژنتیک که بعنوان یکی از روشهای تصادفی بهینه یابی شناخته شده,  توسط جان هالند در سال 1967 ابداع شده است. بعدها این روش با تلاشهای گلدبرگ 1989, مکان خویش را یافته و امروزه نیز  بواسطه توانایی های خویش , جای مناسبی در میان دیگر روشها دارد. روال بهینه یابی در الگوریتم ژنتیک  براساس یک روند تصادفی- هدایت شده استوار می باشد. این روش , بر مبنای نظریه تکامل تدریجی و ایده های بنیادین داروین پایه گذاری شده است.در این روش , ابتدا برای  تعدادی ثابت که جمعیت نامیده می شود مجموعه ای از پارامترهای هدف بصورت اتفاقی تولید می شود , پس از اجرای برنامه شبیه ساز عددی را که معرف انحراف معیار و یا برازش آن مجموعه از اطلاعات است را به آن عضو از جمعیت مذکور نسبت می دهیم . این عمل را برای تک تک اعضای ایجاد شده تکرار می کنیم , سپس با فراخوانی عملگرهای الگوریتم ژنتیک از جمله لقاح , جهش و انتخاب نسل بعد را شکل می دهیم و این روال تا ارضای معیار همگرایی ادامه داده خواهد شد. شكل 4-1: فرایند عملیاتی بصورت متداول سه معیار بعنوان معیار توقف شمرده می شود:                             I.      زمان اجرای الگوریتم                           II.      تعداد نسلهایی که ایجاد می شوند                        III.      همگرایی معیار خطا کاربرد های الگوریتم ژنتیک :       روندیابی هیدرولوژیکی رواناب جاری در شبکه رودخانه خشک       کمک در حل مسایل تصمیم گیری چند معیاره       بهینه سازی چند هدفه در مدیریت منابع آبی    
نوشته شده در تاريخ شنبه نوزدهم آذر 1390 توسط جعفر

 

3-2-7  تحلیل تفکیکی

این روش از قدیمی ترین روش های ریاضی وار گروه بندی داده ها می باشد که  برای اولین بار در سال 1936 توسط فیشر استفاده گردید. روش کار بدین صورت است که داده ها را مانند داده های چند بعدی بررسی کرده و بین داده ها مرزهایی ایجاد می کنند (برای داده ها دو بعدی خط جدا کننده، برای داده های سه بعدی سطح جدا کننده و ..) که این مرزها مشخص کننده کلاس های مختلف می باشند و بعد برای مشخص کردن کلاس مربوط به داده های جدید فقط باید محل قرارگیری آن را مشخص کنیم.

این روش از ساده ترین و قابل رشدترین روش های کلاس بندی می باشد که در گذشته بسیار استفاده می شد.

این روش به سه دلیل محبوبیت خود را از دست داد :اول اینکه این روش فرض می کند همه متغیرهای پیش بینی به صورت نرمال توزیع شده اند که در بسیاری از موارد صحت ندارد . دوم اینکه داده هایی که به صورت عددی نمی باشند مثل رنگها در این روش قابل استفاده نمی باشند. سوم اینکه در این روش فرض می شود که مرزهای جدا کننده داده ها به صورت اشکال هندسی خطی مثل خط یا سطح می باشند حال اینکه این فرض همیشه صحت ندارد.

نسخه های اخیر تحلیل تفکیکی بعضی از این مشکلات را رفع کرده اند به این طریق اجازه می دهند مرزهای جدا کننده بیشتر از درجه 2 نیز باشند که باعث بهبود کارایی و حساسیت در بسیاری از موارد می گردد.

3-2-8 مدل افزودنی کلی (GAM)

این روش ها در واقع بسطی بر روش های رگرسیون خطی و رگرسیون منطقی می باشند. به این دلیل به این روش افزودنی می گویند که فرض می کنیم می توانیم مدل را به صورت مجموع چند تابع غیر خطی ( هر تابع برای یک متغیر پیش بینی کننده) بنویسیم. GAM می تواند هم به منظور رگرسیون و هم به منظور کلاس بندی داده ها استفاده گردد. این ویژگی غیر خطی بودن توابع باعث می شود که این روش نسبت به روشهای رگرسیون خطی بهتر باشد .

3-2-9 Boosting

در این روش ها مبنی کار این است که الگوریتم پیش بینی را چندین بار و هر بار با داده های آموزشی متفاوت (که با توجه به اجرای قبلی انتخاب می شوند) اجرا کنیم و در نهایت آن جوابی که بیشتر تکرار شده را انتخاب کنیم. این روش اگر چه وقت گیر است ولی جواب های  آن مطمئن تر خواهند بود. این روش اولین بار در سال 1996 استفاده شد و در این روزها با توجه به افزایش قدرت محاسباتی کامپیوترها بر مقبولیت آن افزوده گشته است.

 

 

 

 

 

 

 

 

 

فصل چهارم

4-1 سلسله مراتب انتخابها

هدف داده­کاوی توليد دانش جديدی است که کاربر بتواند از آن استفاده کند. اين هدف با ساخت مدلی از دنیای واقع براساس داده­های جمع­آوری شده از منابع متفاوت بدست می­آيد. نتيجه ساخت اين مدل توصيفی از الگوها و روابط داده­هاست که می­توان آنرا برای پيش­بينی استفاده کرد. سلسه انتخاب­هايی که قبل از آغاز بايد انجام شود به اين شرح است :

·         هدف تجاری

·         نوع پيش­بینی

·         نوع مدل

·         الگوريتم

·         محصول

در بالاترين سطح هدف تجاری قرار دارد: هف نهايی از کاوش داده­ها چيست؟

برای مثال، جستجوی الگوها در داده­ها ممکن است برای حفظ مشتری­های خوب باشد، که ممکن است مدلی برای سودبخشی مشتری­ها و مدل دومی برای شناسايی مشتری­هايی که ممکن از دست دهيم می­سازيم. اطلاع از اهداف و نيازهای سازمان ما را در فرموله کردن هدف سازمان ياری می­رساند.

مرحله بعدی تصميم­گيری درباره نوع پيش­بينی مناسب است:

(1) Classification : پيش­بينی اينکه يک مورد در کدام گروه يا رده قرار می­گيرد.

(2) Regression : پيش­بينی اينکه يک متغير عددی چه مقداری خواهد داشت.

مرحله بعدی انتخاب نوع مدل است: يک شبکه عصبی برای انجام regression و يک درخت تصميم برای classification. همچنين روشهای مرسوم آماری برای مانند logisti regression، discriminant analysis، و يا مدلهای خطی عمومی وجود دارد.

الگوريتم­های بسياری برای ساخت مدلها وجود دارد. می­توان يک شبکه عصبی را با backpropagation، يا توابع radial bias ساخت. برای درخت تصميم، می­توان از ميان CART، C5.0، Quest و يا CHAID انتخاب کرد.

هنگام انتخاب يک محصول داده­کاوی، بايد آگاه بود که معمولا پياده­سازيهای متفاوتی از يک الگوريتم دارند. اين تفاوت­های پياده­سازی می­تواند بر ويژگيهای عملياتی مانند استفاده از حافظه و ذخيره داده و همچنين ويژگيهای کارايی مانند سرعت و دقت اثر گذارند.

  در مدلهای پيشگويانه، مقادير يا رده­هايی که ما پيش­بينی می­کنيم متغيرهای پاسخ، وابسته، يا هدف ناميده می­شوند. مقاديری که برای پيش­بينی استفاده می­شوند متغيرهای مستقل يا پيش­بينی­کننده ناميده می­شوند.

مدلهای پيشگويانه با استفاده از داده­هايی که مقادير متغيرهای پاسخ برای آنها از قبل دانسته شده است ساخته يا آموزش داده می­شوند. اين نحوه آموزش supervised learning ناميده می­شود، زيرا که مقادير محاسبه شده يا تخمين­زده شده با نتايج معلومی مقايسه می­شوند.( در مقابل، تکنيک­های توصيفی مانند clustering، unsupervised learning ناميده می­شوند زيرا که هيچ نتيجه از پيش معلومی برای راهنمایی الگوريتم وجود ندارد.)

کاربرد  علم آمار در داده کاوی

مقدمه و مقایسه

آمار شاخه ای از علم ریاضی است که به جمع آوری توضیح و تفسیر داده ها می پردازد. این مبحث به گونه ای است که روزانه کاربرد زیادی دارد. در مقایسه این عام با data mining قدمت بیشتری دارد و جزء ورشهای کلاسیک داده کاوی محسوب می شود،وجه اشتراک تکنیکهای آماری وdata mining بیشتر درتخمین وپیش بینی است. البته از آزمونهای آماری در ارزیابی نتایج داده کاوی نیزاستفاده می شود. درکل ا گر تخمین و پیش بینی جزء وظایف Data Mining در نظر گرفته شوند،تحلیل های آماری،Data Mining را بیش از یک قرن اجرا کرده است.به عقیده بعضی DM ابتدا ازآمار و تحلیل های آماری تحلیل شروع شد. می توان تحلیل های آماری از قبیل فاصله اطمینان،رگرسیون و... را مقدمه و پیش زمینه  DMرا دانست که بتدریج در زمینه های دیگر ومتد های دیگررشد و توسعه پیدا کرد. پس در واقع متدهای آماری جزو روشهای کلاسیک و قدیمی DM محسوب می شوند.در جایی اینگونه بحث می شود که با تعریف دقیق ، آماریا تکنیکهای آماری جزء داده کاوی(data mining) نیستند.این روشها خیلی قبل تر از Data Mining استفاده می شدند.با این وجود، تکنیکها آماری توسط داده ها بکار برده می شوند و برای کشف موضوعات و ساختن مدلهای پیشگویانه مورد استفاده قرار می گیرند.

همانگونه که واضح و مشخص است با گذشت زمان علم نیز پیشرفت می کند،هر چه به جلوتر می رویم روشهای جدید تر و بهترمورد استفاده قرار می گیرد،علم امروز نسبت به دیروز جدیدتر است.روشهای جدید علمی در پی کشف محدودیتهای روشهای قدیمی ایجاد می شود،و از آنجایی که روشهای آماری جزء روشهای قدیمی DataMining

محسوب می شوند،از این قاعده کلی که دارای محدودیت هستند مستثنی نیستند.داشتن فرض اولیه در مورد داده ها، یکی از این موارد است.در اینجا به تشریح بیشتر تفاوتهای بین مباحث و متدهای آماری و دیگر متدهای داده کاوی که در کتابهای مختلف بحث شده است می پردازیم.

تکنیکهای داده کاوی و تکنیکهای آماری در مباحثی چون تعریف مقدار هدف برای پیش گویی،ارزشیابی خوب و داده های دقیق (تمیز)(clean data) خوب عمل می کنند،همچنین این موارد در جاهای یکسان برای انواع یکسا نی از مسايل (پیش گویی ،کلاس بندی و کشف)استفاده می شوند، بنابراین تفاوت این دو چیست؟چرا ماآنچنان که علاقه مند بکاربردن روشهای دا ده کاوی هستیم علاقه مند روشهای آماری نیستیم؟ برای جواب این سوال چندین دلیل وجود دارد اول اینکه روشها ی کلاسیک داده کاوی از قبیل شبکه های عصبی،تکنیک نزدیک ترین همسایه روشهای قوی تری برای داده های واقعی به ما می دهند و همچنین استفاده از آنها برای کاربرانی که تجربه کمتری دارند راحت تر است و بهتر می توانند از آن استفاده کنند.دلیل دیگر اینکه بخاطر اینکه معمولاُ داده ها اطلاعات زیادی در اختیار ما نمی گذارند،این روشها با اطلاعات کمتر بهتر می توانند کار کنند وهمچنین اینکه برای داده ها وسیع کابرد دارند.

 در جایی دیگر اینگونه بیان شده که داده ها ی جمع آوری شده نوعاُ خیلی از فرضهای قدیمی آماری را در نظر نمی گیرند،از قبیل اینکه مشخصه ها باید مستقل باشند،تعیین توزیع داده ها،داشتن کمترین همپوشانی در فضا و زمان اغلب داده ها هم پوشانی زیاد می دارند،تخلف کردن از هرکدام از فرضها می توان مشکلات بزرگی ایجاد کند،زمانی که یک کاربر(تصمیم گیرنده) سعی می کند که نتیجه ای را بدست آورد. داده های جمع آوری شده بطورکلی تنها مجموعه ای از مشاهدات چندی بعد است بدون توجه به اینکه چگونه جمع آوری شده اند.

در جایی پایه و اساس Data mining به دو مقوله آمار و هوش مصنوعی تقسیم شده است که روشهای مصنوعی به عنوان روشهای یادگیری ماشین در نظر گرفته می شوند.فرق اساسی بین روشهای آماری و روشهای یادگیری ماشین  (machine learning) بر اساس فرضها و یا طبیعت داده هایی که پردازش می شوند.بعنوان یک قانون کلی فرضها تکنیکهای آماری بر این اساس است که توزیع داده ها مشخص است که بیشتر موارد فرض بر این است که توزیع نرمال است و در نهایت درستی یا نادرستی نتایج نهایی به درست بودن فرض اولیه وابسته است.در مقابل روشهای یادگیری یادگیری ماشین از هیچ فرض در مورد داده ها استفاده نمی کند و همین مورد باعث تفاوتهایی بین این دو روش می شود.

به هر حال ذکر این نکته ضروری به نظر می رسد که بسیاری از روشهای یادگیری ماشین برای ساخت مدل dataset از حداقل چند استنتاج آماری استفاده می کنندکه این مساله بطور خاص در شبکه عصبی دیده می شود.

بطور کلی روشهای آماری روش های قدیمی تری هستند که به حالت های احتمالی مربوط می شوند.Data mining جایگاه جدید تری دارد که به هوش مصنوعی یادگیری ماشین سیستمهای اطلاعات مدیریت (MIS) و متدلوژی Database مربوط می شود.

روشهای آماری بیشتر زمانی که تعداد دادهها کمتر است و اطلاعات بیشتری در مورد داده ها می توان بدست آورد استفاده می شوند به عبارت دیگر این روشها با مجموعه داده ها ی کوچک تر سر و کار دارند همچنین به کاربران ابزارهای بیشتری برای امتحان کردن داده ها با دقت بیشتر فهمیدن ارتباطات بین داده ها می دهد. بر خلاف روشهایی از قبیل شبکه عصبی که فرآیند مبهمی دارد. پس به طور کلی این روش در محدوده مشخصی از داده های ورودی بکار می رود.بکار بردن این روشها مجموعه داده های مجموعه داده های زیاد احتمال خطا در این روشها را زیاد می کند.چون در داده ها احتمالnoise  و خطا بیشتر می شود و نیز روشهای آماری معمولابه حذف  noiseمی پردازند، بنابراین خطای محاسبات در این حالت زیاد می شود.

در بعضی از روشهای آماری نیازداریم که توزیع داده ها را بدانیم. اگر بتوان به آن دسترسی پیدا کرده با بکار بردن روش آماری می توان به نتایج خوبی رسید.

روشهای آماری چون پایه ریاضی دارندنتایج دقیق تری نسبت به دیگر روشها ی  Data miningاریه می دهند ولی استفاده از روابط ریاضی نیازمند داشتن اطلا عات بیشتری در مورد داده ها است.

مزیت دیگر روشهای آماری در تعبیر و تفسیر داده ها است.هر چند روشهای آماری به خاطر داشتن ساختار ریاضی تفسیر سخت تری دارند ولی دقت نتیجه گیری و تعبیر خروجی ها در این روش بهتر است بطور کلی روشهای آماری زمانی که تفسیر داده ها توسط روشهای دیگر مشکل است بسیار مفید هستند.

تفاوتهای کلی روشهای آماری و دیگر روشهای Data Mining  در جدول اريه شده است.

دیگر روشهای Data mining

روشهای آماری

بدون فرض اولیه

داشتن فرض اولیه

در انواع مختلفی از داده ها کاربرد دارند نه فقط داده های عددی

تنها برای داده های  عددی کاربرد دارند

در محدوده وسیع تری از داده ها

در محدوده کوچکی از داده ها

Data mining به دادهای درست clean data بستگي دارند

حذفnoise ها ، داده های نامشخص و فیلتر کردن dirty data

استفاده از شبكه عصبي

روشهای رگرسیون و استفاده از معادلات

استفاده ازData visualization

استفاده از چارتهای دو بعدی و سه بعدی

استفاده از روشهای یادگیری ماشین و هوش مصنوعی

استفاده از روابط ریاضی

در یادگیری غیر نظارتی کاربرد بیشتر دارد

در  descriptive statisticalوcluster analysis   کاربرد دارد.

 

همچنین می توان گفت که در DM داده ها اغلب بر اساس همپوشانی نمونه هاست،نسبت به اینکه بر اساس احتمال داده ها باشد.همپوشانی نمونه ها برای آشنایی همه انواع پایه ها برای تخمین پا را مترها مشهور است. وهمچنین اغلب استنتاج های آماری نتایج ممکن است مشارکتی باشد تا اینکه سببی باشند. 

تکنیکهای ماشین را به سادگی می توان تفسیر کرد .مثلاَُ روش شبکه عصبی بر اساس یک مدل ساده بر اساس مغز انسان استوار است.یعنی همان ساختار مغز انسان را اجرا می کنند ولی خروجی های بسیاری از روشهای آماری ساختار ریاضی دارند،مثلاَُ یک معادله است که تعبیر و تفسیر آن مشکل تر است.در مورد روش های آماری بایداین مطلب را گفت بدون توجه به اینکه مدل کاربردی،مدل آماری است یا خیر،تستهای آماری می تواند برای تحلیل نتایج مفید باشد.

با ارايه توضیحات داده شده درباره های تفاوتهای روشهای آماری و دیگر روشهای DM در ادامه به کابردهای روش روشهای آماری و بحثهای مشترک آمار وDM  می پردازیم .

كاربردهاي روشهاي آماري :

Data  mining   معمولا  وظايف يا به  عبارت بهتر استراتژهاي  زير را  در  داده ها بكار  مي برد:

- توضيح و تفسير (description)

- تخمينestimation)  )

- پيش بينيprediction)  )

- كلاس بنديclassification) )

- خوشه سازي  (clustering) 

- وابسته سازي وايجاد رابطه (association)

در جدول زير  استراتژي ها  و روشهاي هر استراتژي مشخص شده است:

روشها

استراتژيها

تحليل  داده ها

توضيح  وتفسير

تحليل هاي آماري

تخمين

تحليل هاي آماري

پيش بيني

الگوريتم نزديك ترين همسايه

كلاس بندي

درخت  تصميم

كلاس بندي

شبكه هاي عصبي

كلاس بندي

خوشه سازي  k-mean

خوشه سازي

شبكه هاي kohonen

خوشه سازي

وابسته سازي  و ايجاد رابطه

رابطه سازي

 

البته بايد  گفت كه روشهاي data mining  تنها  به يك استراتژي خاص محدود  نمي شوندو  نتايج  يك را همپوشاني بين روشها نشان  مي دهد. براي مثال درخت تصميم ممكن است كه دركلاس بندي تخمين وپيش بيني كاربرد داشته باشد. بنابراين اين جدول را نبايد به عنوان تعريف تعريف تقسيم بندي از وظايف در نظرگرفته   شود‏‎ بلكه به عنوان يك خروجي از آنچه كه ما به عنوان وظايف data minig  آشنايي پيدا كرديم در نظر گرفته مي شود.

همانگونه كه ازجدول پيداست روشهاي آماري  در مباحث تخمين وپيش بيني كاربرد دارند. در تحليل آماري تخمين وپيش بيني عناصري از استنباطهاي آماري هستند.استنباطهاي آماري شامل روشهايي براي تخمين وتست فرضيات درباره جمعيتي از ويژگيها براساس اطلاعات حاصل از نمونه است .يك  جمعيت شامل مجموعه اي از عناصر از قبيل افراد ايتم ياداده ها يي كه دريك مطالعه خاص آمده است. بنابراين در اينجا به توضيح اين  دواستراتژي مي پردازيم.

1- تخمين :

در تخمین به دنبال این هستیم  که مقدار یک مشخصه خروجی مجهول را تعیین کنیم،مشخصه خروجی در مسا یل تخمین بیشتر عددی هستند تا قیاسی بنابراین مواردی که بصورت قیاسی هستند باید به حالت عددی تبدیل شوند.مثلا موارد بلی،خیر به 0 و1 تبدیل می شود.  

 تكنيكهاي نظارتيDM  قادرند یکی از دو نوع مسایل کلاس بندی یا تخمین را حل کنند، نه اینکه هر دو را.یعنی اینکه تکنیکی که کار تخمین را ا نجام می دهد، کلا س بندی نمی کند.

روشهاي آماري مورد استفاده دراين مورد بطوركلي شامل تخمين نقطه و فا صله اطمينان ميباشد. تحليل هاي آماري تخمين وتحليل هاي يك متغيره و...از اين جمله  مي باشند.

در توضيح  اينكه چرا به سراغ تخمين مي رويم بايد گفت كه مقدار واقعي پارامترها براي ما ناشناخته است.مثلا مقدار واقعي ميانگين يك جامعه مشخص نيست.داده ها ممكن است كه بطور رضايت بخشي جمع آوري نشده باشد‏ يا به  عبارتي warehouse نشده باشد. به همين دليل تحليل گران از تخمين استفاده ميكنند.

در خيلي از موارد تعيين  ميانگين   مجموعه اي از داده ها براي ما مهم است.مثلا ميانگين نمرات درسي يك كلاس،ميانگين تعداد نفراتي كه در يك روز به بانك مراجعه مي كنند،متوسط مقدار پولي كه افراد دريك  شعبه خاص از بانك واريز مي كنند وموارد  اينچنيني.

2- پيش بيني ) Prediction ( :

هدف از انجام پیش بینی تعیین ترکیب خروجی با استفاده از رفتار موجود می باشد. یعنی در واقع رسیدن به یک نتیجه بوسیله اطلاعات موجود از داده ها. مشخصه های خروجی در این روش هم می توانند عددی باشند وهم قیاسی. این استراتژی در بین استراتژی های data mining از اهمییت خاصی بر خوردار است، و مفهوم کلی تری را نسبت به موارد دیگر دارد.خیلی از تکنیکهای نظارتی  data mining كه براي كلاس بندي و تخمين مناسب هستند در واقع كار پیش بيني انجام مي دهند.

آنچه از كتابهاي آماري وdata minig  تحت عنوان پيش بيني برمي آيد رگرسيون و مباحث  مر بوط به آن است .در واقع در اكثر اين كتابها هدف اصلي از انجام تحليل هاي آماري براي داده  كاوي، رگرسيون  داده  هاست واين بعنوان وظيفه اصلي متد هاي آماري معرفي مي شود.

اهداف تحليل  رگرسيون:

با انجام رگرسيون مي خواهيم اهداف زيررا دنبال كنيم:

1-  بدست آوردن رفتار متغييرy توسط متغيير x ،يعني اينكه متغيرy  با تغيير  xدر نمونه ها چه رفتاري را از خود نشان مي دهد.مثلا در نمونه اي اين رفتار خطي  است يا اينكه شكل منحني خواهد داشت.

 2- پيش بيني  بر اساس دادهها  براي نمونه هاي آينده،كه هدف اصلي در داده كاوي از طريق متدهاي آماري است.مثلا از روي اطلاعاتي مثل داشتن كارت اعتباري يك فرد جديد،نوع جنسيت او،سن فرد،ميزان درآمد ساليانه او بتوان حدس زد كه اين فرد از بيمه عمر استفاده مي كند يا خير. ويا اينكه با داشتن اطلاعات در مورد داشتن يا نداشتن كارت اعتباري و  بيمه عمر، سن فردبتوان جنسيت فرد را تعيين كرد.

3- استنباط استنتاجي يا تحليل حساسيت، تعيين اينكه اگرx   به اندازه خاصي تعيير كندy  تا چه اندازه تغيير خواهد كرد.هدف از فهميدن اينكه چگونه تغييرات y  تابعي ازx  است. بايد توجه داشت كه نوع تغييرات مدل گرسيوني خاصي را مي دهد.

متغييرهاي رفتاري مشخصه هايي را ارايه ميكنندكه تبحروتجربه خاصي دارنديا اينكه قابليت آن نبحر را دارند.مثلا مقدار دز دارو كه براي بيمار استفاده مي شود در تجربه پزشكي .همچينين متغييرهاي كنترل ديگر ويژگي  ها در يك محيط آزمايشي را اندازه ميگيرند،از قبيل وزن بيمار كه قبل از رفتار اندازه گيري مي شود.

اگر ما براي يكي از متغيير هاي رفتاري، كنترل انجام دهيم، رگرسيون ما احتمالا استنباط هاي استنتاجي را درست حدس ميزند.و اگر ما علاقه مند به هر دو مورد پيش بيني انتخاب سهم وتخمين اثرات علتها باشيم  تايید هر دومورد را بعنوان متغييرهاي خروجي كه همپوشاني دارند در نظر مي گيريم.

روشهاي مختلف رگرسيون براي داده كاوي وجود دارد .رگرسيون  خطي بيشترين كاربردرا دارد وهمچنين مشتقات آن حايزاهمييت است.يك نمونه از آن مشتقات آن رگرسيون  خطي سلسله  مراتبي يا رگرسيون چند سطحي است. اين روش يكي از ابزارهاي تحليل دادههاي پيچيده از قبيل افزايش فر كانس در تحقيقات مقداري را شامل مي شود.مدلهاي رگرسيون چند سطحي براي حالتهايي كه همپوشاني در سطوح مختلف وجود دارد مفيد است. براي مثال اطلاعات آموزشي ممكن است اطلاعاتي از قبيل اطلاعات فردي دانش آموزان (نام، نام خانوادگي و در كل پيش زمينه خانوادگي)،اطلاعات سطح  كلاس از قبيل ويژگي هاي معلم وهمچينين اطلاعات درباره مدرسه همانند سياست آموزشي و... باشد. حالت ديگر مد لهاي چند سطحي ،تحليل  دادههاي بدست آمده از نمونه هاي خوشه بندي شده است. يك خانواده از مدلهاي رگرسيون، به عنوان متغييرهاي شاخص بري رتبه بندي يا خوشه بندي است علاوه بر اينكه همپوشاني را اندازه مي گيرد. با نمونه خوشه بندي  شده مدلسازي چند سطحي براي توسعه نمونه هايي كه داخل خوشه نيستند،لازم است.

در روش رگرسيون چند سطحي  يا سلسله مراتبي محدوديتي براي تعداد سطوح تغيير كه مي تواند انجام شود،وجود نداردروشهاي بيزي در تخمين پارامترهاي مجهول كمك مي كند،هرچند كه محاسبات  پيچيده اي دارد.ساده ترين توسعه از رگرسيون همپوشاني مجموعه اي از متغيرهاي شاخص براي كلاس بندي نمونه هاي آموزشي يا رتبه بندي وخوشه بندي درنمونه هاي داده  شده است.همچنين به عنوان  توسعه رگرسيون خطي  در  نظر گرفته مي شود،كه در ادامه به توضيح آن مي پردازيم.

1- رگرسیون خطیLinear regression) )

 یکی از هدفهای اصلی بسیاری از پژوهشهای آماری ا یجاد وابستگی هایی است تا پیش بینی یک یا چند متغیر را بر حسب سایرین ممکن می سازد.مثلاَُ مطالعاتی انجام می شودتا فروشهای بالقوهُ یک محصول جدید را بر حسب قیمت آن،وزن یک بیماررا بر حسب تعداد هفته هایی که پرهیز داشته است،پیش بینی کند.

در عمل مسایل متعددی وجود دارند که در آن ها مجموعه ای از داده ها زوج شده بر آن دلالت می کند که رگرسیون خطی است و در آن توزیع توأم متغیرهای تصادفی تحت بررسی رانمی دانیم اما با این حال می خواهیم که ضرایب رگرسیون را برآ ورد کنیم.

روش رگرسیون خطی یک تکنیک یادگیری نظارتی است که به وسیله آ ن می خواهیم تغییرات یک متغیر وابسته بوسیلهُ ترکیب خطی از یک یا چند متغیرمستقل مدل کنیم .حالت کلی معادله آن به این صورت است :

                   (1)                                       f(x1+x2+…+xn)=a1x1+a2 x2+…+an xn+b

کهx  ها متغیر مستقل و  aهاو b ضرایب ثابت هستند وf(x1.x1…xn) متغیر وابسته می باشند.حالت ساده این معادله بصورت    (2) y=ax+b   است که در اینجا  yمتغیر وابسته است به حالت ساده شده معادله 1(یعنی معادله2) shope-intercept fromمی گویند.

4-2 نگاه عمیق تر به شبکه عصبی

شبكه‌هاي عصبي را مي‌توان با اغماض زياد، مدل‌هاي الكترونيكي از ساختار عصبي مغز انسان ناميد. مكانيسم فراگيري و آموزش مغز اساساً بر تجربه استوار است. مدل‌هاي الكترونيكي شبكه‌هاي عصبي طبيعي نيز بر اساس همين الگو بنا شده‌اند و روش برخورد چنين مدل‌هايي با مسائل، با روش‌هاي محاسباتي كه به‌طور معمول توسط سيستم‌هاي كامپيوتري در پيش گرفته شده‌اند، تفاوت دارد. مي‌دانيم كه حتي ساده‌ترين مغز‌هاي جانوري هم قادر به حل مسائلي هستند كه اگر نگوييم كه كامپيوترهاي امروزي از حل آنها عاجز هستند، حداقل در حل آنها دچار مشكل مي‌شوند. به عنوان مثال، مسائل مختلف شناسايي الگو، نمونه‌اي از مواردي هستند كه روش‌هاي معمول محاسباتي براي حل آنها به نتيجه مطلوب نمي‌رسند. درحالي‌كه مغز ساده‌ترين جانوران به‌راحتي از عهده چنين مسائلي بر مي‌آيد. تصور عموم كارشناسان IT بر آن است كه مدل‌هاي جديد محاسباتي كه بر اساس شبكه‌هاي عصبي بنا مي‌شوند، جهش بعدي صنعت IT را شكل مي‌دهند. تحقيقات در اين زمينه نشان داده است كه مغز، اطلاعات را همانند الگو‌ها (pattern) ذخيره مي‌كند. فرآيند ذخيره‌سازي اطلاعات به‌صورت الگو و تجزيه و تحليل آن الگو‌، اساس روش نوين محاسباتي را تشكيل مي‌دهند. اين حوزه از دانش محاسباتي (computation) به هيچ وجه از روش‌هاي برنامه‌نويسي سنتي استفاده نمي‌كند و به‌جاي آن از شبكه‌هاي بزرگي كه به‌صورت موازي آرايش شده‌اند و تعليم يافته‌اند، بهره مي‌جويد.

یک شبکه عصبی مصنوعی (Artificial Neural Network (ANN))  ایده ای است برای پردازش اطلاعات که از سیستم عصبی زیستی الهام گرفته شده و مانند مغز به پردازش اطلاعات می پردازد . عنصر کلیدی این ایده ، ساختار جدید سیستم پردازش اطلاعات است. این سیستم از شمار زیادی عناصر پردازشی فوق العاده بهم پیوسته تشکیل شده(neurons)که برای حل یک مسأله با هم هماهنگ عمل می کند.ANN ها ،نظیر انسانها ، با مثال یاد می گیرند . یک ANN برای انجام وظیفه ای مشخص  ، مانند شناسایی الگو ها و دسته بندی اطلاعات ، در طول یک پروسه یاد گیری ، تنظیم می شود . در سیستم های زیستی  یاد گیری  با تنظیماتی در اتصالات سیناپسی که بین اعصاب قرار دارد همراه است  این  روش ANN ها هم می باشد.

سابقه تاریخی

به نظر می آید شبیه سازی های شبکه عصبی  یکی از پیشرفت های اخیر باشد . اگرچه این  موضوع پیش از ظهور  کامپیوتر ها بنیان گذاری شده  و  حداقل یک مانع بزرگ تاریخی  و  چندین دوره مختلف را پشت سر گذاشته است.

خیلی از پیشرفت های مهم با تقلید ها وشبه سازی های   ساده  و ارزان کامپیوتری  بدست آمده است. در پی یک دوره ابتدائی اشتیاق و فعالیت در این زمینه ، یک دوره ی بی میلی و بدنامی راهم پشت سر گذاشته است . در طول این دوره سرمایه گذاری و پشتیبانی حرفه ای از این موضوع در پایین ترین حد خود بود ، پیشرفت های  مهمی به نسبت تحقیقات محدود در این زمینه صورت گرفت . که بدین وسیله  پیشگامان قادر شدند تا به گسترش تکنولوژی متقاعد کننده ای بپردازند که خیلی برجسته تر از محدودیت هایی بود که توسط Minsky و Papert شناسانده  شد. Minsky و Papert ،کتابی را در سال 1969 منتشر کردند که در آن عقیده عمومی را جع به   میزان محرومیت  شبکه های عصبی را در میان محققان معین کرده بود و بدین صورت این عقیده بدون تجزیه و تحلیل های بیشتر پذیرفته شد. هم اکنون ، زمینه تحقیق شبکه های عصبی  از تجدید حیات علایق و متناطر با آن افزایش سرمایه گذاری لذت می برد .

اولین سلول عصبی مصنوعی در سال 1943 بوسیله یک neurophysiologist به نلمWarren  McCulloch ویک منطق دان به نام Walter Pits ساخته شد . اما محدودیتهای تکنولوژی  در آن زمان اجازه کار بیشتر به آنها نداد.

شبکه های عصبی در مقابل کامپیوتر های معمولی

شبکه های عصبی نسبت به کامپیوتر های معمولی مسیر متفاوتی را برای حل مسئله طی می کنند. کامپیوتر های معمولی یک مسیر الگوریتمی را استفاده می کنند به این معنی که کامپیوتر یک مجموعه از دستور العمل ها را به قصد حل مسئله پی می گیرد. بدون اینکه، قدم های مخصوصی که کامپیوتر نیاز به طی کردن دارد، شناخته شده باشند کامپیوتر قادر به حل مسئله نیست. این حقیقت قابلیت حل مسئله ی کامپیوتر های معمولی را  به مسائلی ،محدود می کند که ما قادر به درک آنها هستیم  و می دانیم چگونه حل میشوند. اما  اگر کامپیوتر ها می توانستند کار هایی را انجام دهند که ما دقیقا نمیدانیم چگونه انجام دهیم ،  خیلی  پر فایده تر بودند.

شبکه های عصبی اطلاعات را به روشی مشابه با کاری که مغز انسان انجام می دهد پردازش می کنند. آنها از تعداد زیادی از عناصر پردازشی(سلول عصبی) که فوق العاده بهم پیوسته اند تشکیل شده  است که این عناصر به صورت مواز ی باهم برای حل یک مسئله مشخص کار می کنند .شبکه های عصبی با مثال کار می کنند و نمی توان آنها را برای انجام یک وظیفه خاص برنامه ریزی کرد مثال ها می بایست با دقت انتخاب شوند در غیر این صورت زمان سودمند، تلف می شود و یا حتی بدتر از این شبکه ممکن است نا درست کار کند. امتیاز شبکه عصبی این است که خودش  کشف می کند که چگونه مسئله را حل کند ، عملکرد آن غیر قابل پیش گویی است.

از طرف دیگر ، کامپیوتر های معمولی از یک مسیر مشخص برای حل یک مسئله استفاده می کنند . راه حلی که مسئله از آن طریق حل می  شود  باید از قبل شناخته  شود و به صورت دستورات  کوتاه و غیر مبهمی شرح داده شود. این دستورات سپس به زبا ن های برنامه نویسی سطح بالا برگردانده می شود و بعد از آن به کدهایی که کامپیوتر قادر به درک آنها است تبدیل می شود. به طور کلی این ماشین ها قابل پیش گویی هستند و اگر چیزی به خطا انجام شود به یک اشتباه سخت افزاری یا نرم افزاری بر می گردد.

شبکه های عصبی و کامپیوتر های معمولی با هم در حال رقابت نیستند بلکه کامل کننده یکدیگرند . وظایفی وجود دارد که بیشتر مناسب روش های الگوریتمی هستند نظیر عملیات محاسباتی و وظایفی نیز وجود دارد که بیشتر مناسب شبکه های عصبی هستند . حتی فراتر از این ، مسائلی وجود دارد که نیازمند به سیستمی است که از تر کیب هر دو روش بدست می آید (بطور معمول کامپیوتر های معمولی برای نظارت بر شبکه های عصبی به کار گرفته می شوند ) به این قصد که بیشترین کارایی بدست آید.

شبکه های عصبی معجزه نمی کنند اما اگر خردمندانه به کار گرفته شوند نتایج شگفت آوری را خلق میکنند.

چرا از شبکه های عصبی استفاده می کنیم؟

شبکه های عصبی ، با قابلیت قابل توجه  در استنتاج معانی از داده های پیچیده یا مبهم ، برای استخراج الگوها و شناسایی روشهایی که آگاهی از آنها برای انسان و دیگر تکنیک های کامپیوتری بسیار  پیچیده و دشوار است  به کار گرفته می شوند. یک شبکه عصبی تربیت یافته می تواند به عنوان یک متخصص در مقوله اطلاعاتی ای که برای تجزیه تحلیل به آن داده شده به حساب آید.از این متخصص می توان  برای بر آورد وضعیت های دخواه جدید و جواب سؤال های " چه می شد اگر "  استفاده کرد.

مزیتهای دیگر آن شامل موارد زیر می شود :

1.       یادگیری انطباق پذیر: قابلیت یاد گیری نحوه انجام وظایف بر پایه اطلاعات داده شده برای تمرین وتجربه های مقدماتی .

2.       سازماندهی توسط خود: یک ANN می تواند سازماندهی یا ارائه اش را ، برای اطلا عاتی  که در طول دوره یادگیری در یافت می کند، خودش ایجاد کند.

3.       عملکرد بهنگام (Real time ) : محاسبات  ANN  می تواند بصورت موازی انجام شود، و سخت افزارهای مخصوصی طراحی و  ساخته شده است که می تواند از این قابلیت استفاده کند.

4.       تحمل اشتباه بدون ایجاد وقفه در هنگام کد گذاری اطلاعات : خرابی جزئی یک شبکه منجر به تنزل کارایی متناظر با آن می شود اگر چه تعدادی از قابلیت های شبکه ممکن است حتی با خسارت بزرگی هم باقی بماند.


نوشته شده در تاريخ شنبه نوزدهم آذر 1390 توسط جعفر

 

2-2 مراحل کشف دانش

کشف دانش دارای مراحل تکراری زير است:

1- پاکسازی داده ها[1] (از بين بردن نويز و ناسازگاری داده ها).

2- يکپارچه سازی داده ها[2] (چندين منبع داده ترکيب می شوند).

3- انتخاب داده ها[3] (داده های مرتبط با آناليزازپايگاه داده بازيابی می شوند).

4- تبديل کردن داده ها[4] (تبديل داده ها به فرمی که مناسب برای داده کاوی باشد مثل خلاصه سازی[5] و همسان سازی[6]

5-داده کاوی (فرايند اصلی که روالهای هوشمند برای استخراج الگوها از داده ها به کار گرفته مي شوند.)

6-ارزيابی الگو[7] (برای مشخص کردن الگوهای صحيح و مورد نظربه وسيله معيارهای اندازه گيری)

7-ارائه دانش[8] (يعنی نمايش بصری، تکنيکهای بازنمايي دانش برای ارائه دانش کشف شده به کاربر استفاده می شود).

 

شکل2-2: سير تکاملی صنعت پايگاه داده

هر مرحله داده کاوی بايد با کاربر يا پايگاه دانش تعامل داشته باشد. الگوهای کشف شده به کاربر ارائه می شوند و در صورت خواست او به عنوان دانش به پايگاه دانش اضافه می شوند. توجه شود که بر طبق اين ديدگاه داده کاوی تنها يک مرحله از کل فرآيند است، البته به عنوان يک مرحله اساسی که الگوهای مخفی را آشکار می سازد. با توجه به مطالب عنوان شده، دراينجا تعريفی از داده کاوی ارائه می دهيم:

"داده کاوی عبارتست از فرآيند يافتن دانش از مقادير عظيم داده های ذخيره شده در پايگاه داده، انباره داده ويا ديگر مخازن اطلاعات".

بر اساس اين ديدگاه يک سيستم داده کاوی به طور نمونه دارای اجزاء اصلی زير است که شکل1-3 بيانگر معماری سيستم است.

شکل2-3: معماری يک نمونه سيستم داده کاوی

1- پايگاه داده، انباره داده يا ديگر مخازن اطلاعات: که از مجموعه ای از پايگاه داده ها، انباره داده، صفحه گسترده[9]، يا ديگر انواع مخازن اطلاعات. پاکسازی داده ها و تکنيکهای يکپارچه سازی روی اين داده ها انجام می شود.

2- سرويس دهنده پايگاه داده يا انباره داده: که مسئول بازيابی داده های مرتبط بر اساس نوع درخواست داده کاوی کاربر می باشد.

3- پايگاه دانش: اين پايگاه از دانش زمينه[10] تشکيل شده تا به جستجو کمک کند، يا برای ارزيابی الگوهای يافته شده از آن استفاده می شود.

4- موتور داده کاوی[11] : اين موتور جزء اصلی از سيستم داده کاوی است و به طور ايده آل شامل مجموعه ای از پيمانه[12] هايی نظير توصيف[13]، تداعی[14]، کلاس بندی[15]، آناليزخوشه ها[16]، و آناليز تکامل وانحراف[17]، است.

5- پيمانه ارزيابی الگو[18] : اين جزء معيارهای جذابيت[19] را به کار می بندد و با پيمانهء داده کاوی تعامل می کند بدينصورت که تمرکز آن بر جستجو بين الگوهای جذاب می باشد، و از يک حد آستانه جذابيت استفاده می کند تا الگوهای کشف شده را ارزيابی کند.

6- واسط کاربرگرافيکی[20] : اين پيمانه بين کاربر و سيستم داده کاوی ارتباط برقرار می کند، به کاربر اجازه می دهد تا با سيستم داده کاوی از طريق پرس وجو[21] ارتباط برقرار کند، اين جزء به کاربر اجازه می دهد تا شمای پايگاه داده يا انباره داده را مرور کرده، الگوهای يافته شده را ارزيابی کرده و الگوها را در فرمهای بصری گوناگون بازنمايی کند.

با انجام فرآيند داده کاوی، دانش، ارتباط يا اطلاعات سطح بالا از پايگاه داده استخراج می شود و قابل مرور از ديدگاههای مختلف خواهد بود. دانش کشف شده در سيستم های تصميم يار، کنترل فرآيند، مديريت اطلاعات و پردازش پرس وجو[22] قابل استفاده خواهد بود .

 

بنابراين داده کاوی به عنوان يکی از شاخه های پيشرو در صنعت اطلاعات مورد توجه قرار گرفته و به عنوان يکی از نويد بخش ترين زمينه های توسعه بين رشته ای در صنعت اطلاعات است.

2-3 جایگاه داده کاوی در میان علوم مختلف

ریشه های داده کاوی در میان سه خانواده از علوم، قابل پیگیری می باشد. مهمترین این خانواده ها، آمار کلاسیک[23] می باشد. بدون آمار، هیچ داده کاوی وجود نخواهد داشت، بطوریکه آمار، اساس اغلب تکنولوژی هایی می باشد که داده کاوی بر روی آنها بنا می شود. آمار کلاسیک مفاهیمی مانند تحلیل رگرسیون، توزیع استاندارد، انحراف استاندارد، واریانس، تحلیل خوشه، و فاصله های اطمینان را که همه این موارد برای مطالعه داده و ارتباط بین داده ها می باشد، را در بر می گیرد. مطمئنا تحلیل آماری کلاسیک نقش اساسی در تکنیکهای داده کاوی ایفا می کند.

دومین خانواده ای که داده کاوی به آن تعلق دارد هوش مصنوعی[24] می باشد. هوش مصنوعی که بر پایه روشهای ابتکاری می باشد و با آمار ضدیت دارد، تلاش دارد تا فرایندی مانند فکر انسان، را برای حل مسائل آماری بکار بندد. چون این رویکرد نیاز به توان محاسباتی بالایی دارد، تا اوایل دهه 1980 عملی نشد. هوش مصنوعی کاربردهای کمی را در حوزه های علمی و حکومتی پیدا کرد، اما نیاز به استفاده از کامپیوترهای بزرگ با عث شد همه افراد نتوانند از تکنیکهای ارائه شده استفاده کنند.

سومین خانواده داده کاوی، یادگیری ماشین[25] می باشد، که به مفهوم دقیقتر، اجتماع آمار و هوش مصنوعی می باشد. درحالیکه هوش مصنوعی نتوانست موفقیت تجاری کسب کند، یادگیری ماشین در بسیاری از موارد جایگزین آن گردید. از یادگیری ماشین به عنوان تحول هوش مصنوعی یاد شد، چون مخلوطی از روشهای ابتکاری هوش مصنوعی به همراه تحلیل آماری پیشرفته می باشد. یادگیری ماشین اجازه می دهد تا برنامه های کامپیوتری در مورد داده ای که آنها مطالعه می کنند، مانند برنامه هایی که تصمیمهای متفاوتی بر مبنای کیفیت داده مطالعه شده می گیرند، یادگیری داشته باشند و برای مفاهیم پایه ای آن از آمار استفاده می کنند و از الگوریتمها و روشهای ابتکاری هوش مصنوعی را برای رسیدن به هدف بهره می گیرند.

داده کاوی در بسیاری از جهات، سازگاری تکنیکهای یادگیری ماشین با کاربردهای تجاری است. بهترین توصیف از داده کاوی بوسیله اجتماع آمار، هوش مصنوعی و یادگیری ماشین بدست می آید. این تکنیکها سپس با کمک یکدیگر، برای مطالعه داده و پیدا کردن الگوهای نهفته در آنها استفاده می شوند. بعضی از کاربردهای داده کاوی به شرح زیر است:

 

·      کاربردهای معمول تجاری: از قبیل تحلیل و مدیریت بازار، تحلیل سبد بازار، بازاریابی هدف، فهم رفتار مشتری، تحلیل و مدیریت ریسک

·      مدیریت و کشف فریب : کشف فریب تلفنی، کشف فریبهای بیمه ای و اتومبیل، کشف حقه های کارت اعتباری، کشف تراکنشهای مشکوک مالی (پولشویی)

·      متن کاوی[26] : پالایش متن (نامه های الکترونیکی، گروههای خبری و غیره)

·      پزشکی: کشف ارتباط علامت و بیماری، تحلیل آرایه های DNA ، تصاویر پزشکی

·      ورزش: آمارهای ورزشی

·      وب کاوی[27] : پیشنهاد صفحات مرتبط، بهبود ماشینهای جستجوگر یا شخصی سازی حرکت در وب سایت

2-4 داده کاوی چه کارهایی نمی تواند انجام دهد؟

داده کاوی فقط یک ابزار است و نه یک عصای جادویی. داده کاوی به این معنی نیست که شما راحت به کناری بنشینید و ابزارهای داده کاوی همه کار را  انجام دهد.

داده کاوی نیاز به شناخت داده ها و ابزارهای تحلیل و افراد خبره در این زمینه ها  را از بین نمی برد.

داده کاوی فقط به تحلیلگران برای پیدا کردن الگوها و روابط بین داده ها کمک می کند و در این مورد نیز روابطی که یافته می شود باید به وسیله داده های واقعی دوباره بررسی و تست گردد.

2-5 داده کاوی و انبار داده ها

معمولا داده هایی که در داده کاوی مورد استفاده قرار می گیرند از یک انبار داده استخراج می گردند و در یک پایگاه داده[28] یا مرکز داده ای[29] ویژه برای داده کاوی قرار می گیرند.

اگر داده های انتخابی جزیی از انبار داده ها باشند بسیار مفید است چون بسیاری از اعمالی که برای ساختن انباره داده ها انجام می گیرد با اعمال مقدماتی داده کاوی مشترک است و در نتیجه نیاز به انجام مجدد این اعمال وجود ندارد ، از جمله این اعمال پاکسازی داده ها می باشد.

پایگاه داده مربوط به داده کاوی می تواند جزیی از سیستم انبار داده ها باشد و یا می تواند یک پایگاه داده جدا باشد.

شكل 2-4 : داده ها از انباره داه ها استخراج می گردند

ولی با این حال وجود انباره داده ها برای انجام داده کاوی شرط لازم نیست و بدون آن هم اگر داده ها دریک یا چندین پایگاه داده باشند می توان داده کاوی را انجام دهیم و بدین منظور فقط کافیست داده ها را در یک پایگاه داده جمع آوری کنیم و اعمال جامعیت داده ها و پاکسازی داده ها را روی آن انجام دهیم. این پایگاه داده جدید مثل یک مرکز داده ای عمل می کند.

شكل 2-5 : داده ها از چند پایگاه داده استخراج شده اند

 

2-6 داده کاوی و OLAP

بسیاری فکر می کنند که داده کاوی و OLAP دو چیز مشابه هستند در این بخش سعی می کنیم این مسئله را بررسی کنیم و همانطور که خواهیم دید این دو ابزار های کاملا متفاوت می باشند که می توانند همدیگر را تکمیل کنند.

OLAP   جزیی از ابزارهای تصمیم گیری[30] می باشد. سیستم های سنتی گزارش گیری و پایگاه داده ای آنچه را که در پایگاه داده بود توضیح می دادند حال آنکه در OLAP هدف بررسی دلیل صحت یک فرضیه است.

بدین معنی که کاربر فرضیه ای در مورد داده ها و روابط بین آنها ارائه می کند و سپس به وسیله ابزار OLAP با انجام چند Query صحت آن فرضیه را بررسی می کند.

اما این روش برای هنگامی که داده ها بسیار حجیم بوده و تعداد پارامترها زیاد باشد نمیتواند مفید باشد چون حدس روابط بین داده ها کار سخت و بررسی صحت آن بسیار زمانبر خواهد بود.

تفاوت داده کاوی با OLAP در این است که داده کاوی برخلاف OLAP برای بررسی صحت یک الگوی فرضی استفاده نمی شود بلکه خود سعی می کند این الگوها را کشف کند.

درنتیجه داده کاوی و OLAP می توانند همدیگر را تکمیل کنند و تحلیل گر می تواند به وسیله ابزار OLAP یک سری اطلاعات کسب کند که در مرحله داده کاوی می تواند مفید باشد و همچنین الگوها و روابط کشف شده در مرحله داده کاوی می تواند درست نباشد که با اعمال تغییرات در آنها می توان به وسیله OLAP  بیشتر  بررسی شوند.

2-7 کاربرد یادگیری ماشین و آمار در داده کاوی

داده کاوی از پیشرفت هایی که در زمینه هوش مصنوعی و آمار رخ می دهد بهره می گیرد . هر دو این زمینه ها در مسائل شناسایی الگو و طبقه بندی داده ها کار می کنند و بالتبع در داده کاوی استفاده مستقیم خواهند داشت. و هر دو گروه در شناخت و استفاده از شبکه های عصبی و درخت های تصمیم گیری فعال می باشند.

داده کاوی جانشین تکنیک های آماری سابق نمی باشد بلکه وارث آنها بوده و در واقع تغییر و گسترش تکنیک های سابق برای متناسب ساز ی آنها با  حجم داده ها و مسائل امروزی می باشد. تکنیک های کلاسیک برای داده های محدود و مسائل ساده مناسب بوده اند حال آنکه با پیچیده شدن مسائل و رشد روزافزون داده ها نیاز به تغییر آنها کاملا طبیعی است.به عبارت دیگر داده کاوی ترکیب تکنیک های کلاسیک با الگوریتم های جدید مثل شبکه های عصبی و درخت تصمیم گیری می باشد.

مهمترین نکته این است که داده کاوی راهکاری است برای مسائل تجاری امروز به کمک تکنیک های آماری و هوش مصنوعی برای افراد حرفه ای که قصد دارند یک مدل پیش بینی ایجاد نمایند. 

2-8 توصیف داده ها در داده کاوی

2-8-1 خلاصه سازی و به تصویر در آوردن داده ها

قبل از اینکه بتوان روی مجموعه ای از  داده ها ،داده کاوی انجام بدهیم و یک مدل پیش بینی مناسب ابجاد کنیم ، باید بتوان داده ها را به خوبی شناخت که برا ی شروع این کار می توان از پارامترهایی مثل میانگین , انحراف معیار و.... استفاده کنیم.

ابزارهای تصویرسازی داده ها و گراف سازی برای شناخت داده ها بسیار مفید می باشند و نقش آنها در آماده سازی داده ها بسیار مفید و غیر قابل انکار است ، مثلا با استفاده از این ابزار می توان توزیع مقادیر مختلف داده ها را در یک نمودار مشاهده کرد و میزان داده های دارای خطا را به طور تقریبی حدس زد.

مهمترین مشکل این ابزار این است که معمولا تحلیل ها دارای تعداد زیادی پارامتر هستند که به هم مربوطند و باید رابطه این پارامترها را که چند بعدی می باشد در دو بعد نمایش دهند که این کار اگر هم عملی باشد برای استفاده از آنها نیاز به افراد خبره می باشد.

2-8-2 خوشه بندی

هدف از خوشه بندی این است که داده های موجود را به چند گروه  تقسیم  کنند و در این تقسیم بندی داده های گروه های مختلف باید حداکثر تفاوت ممکن را به هم داشته باشند و داده های موجود در یک گروه باید بسیار به هم شبیه باشند .

برخلاف کلاس بندی (که در ادامه خواهیم دید) در خوشه بندی ، گروه ها از قبل مشخص نمی باشند و همچنین معلوم نیست که بر حسب کدام خصوصیات گروه بندی صورت می گیرد. درنتیجه پس از انجام خوشه بندی  باید یک فرد خبره خوشه های ایجاد شده را تفسیر کند و در بعضی مواقع لازم است که پس از بررسی خوشه ها بعضی از پارامترهایی که در خوشه بندی در نظر گرفته شده اند ولی بی ربط بوده یا اهمیت چندانی ندارند حذف شده و جریان خوشه بندی از اول صورت گیرد.  

پس از اینکه داده ها به چند گروه منطقی و توجیه پذیر تقسیم شدند از این تقسیم بندی می توان برای کسب اطلاعات در مورد داده ها یا تقسیم داده ها جدید استفاده کنیم.

از مهمترین الگوریتم هایی که برای خوشه بندی استفاده می شوند می توان Kohnen و الگوریتم      K-Means را نام برد.

2-8-3 تحلیل لینک

تحلیل داده ها یکی از روش های توصیف داده هاست که به کمک آن داده ها را بررسی کرده و روابط بین مقادیر موجود در بانک اطلاعاتی را کشف می کنیم.از مهمترین راههای تحلیل لینک کشف وابستگی[31] و کشف ترتیب[32] می باشد.

منظور از کشف وابستگی یافتن قوانینی در مورد مورادی است که با هم اتفاق می افتند مثلا اجناسی که در یک فروشگاه احتمال خرید همزمان آنها زیاد است.

کشف ترتیب نیر بسیار مشابه می باشد ولی پارامتر زمان نیز در آن دخیل می باشد.

وابستگی ها به صورت A>B  نمایش داده می شوند که به A مقدم و به B موخر یا نتیجه گفته می شود.مثلا اگر یک قانون به صورت زیر داشته باشیم :

" اگر افراد چکش بخرند آنگاه آنها میخ خواهند خرید"

در این قانون مقدم خرید چکش و نتیجه خرید میخ می باشد.

 

 

 

فصل سوم

3-1 مدل های پیش بینی داده ها

3-1-1 Classification

در مسائل classification هدف شناسايی ويژگيهايی است که گروهی را که هر مورد به آن تعلق دارد را نشان دهند. از اين الگو می­توان هم برای فهم داده­های موجود و هم پيش­بينی نحوه رفتار  مواد جديد استفاده کرد.

داده­کاوی مدلهای classification را با بررسی داده­های دسته­بندی شده قبلی ايجاد می­کند و يک الگوی پيش­بينی کننده را بصورت استقرايی می­يابند. اين موارد موجود ممکن است از يک پايگاه داده تاريخی آمده باشند.

3-1-2 Regression

Regression از مقادير موجود برای پيش­بينی مقادير ديگر استفاده می­کند. در ساده­ترين فرم، regression از تکنيک­های آماری استاندارد مانند linear Regression استفاده می­کند. متاسفانه، بسياری مسائل دنيای واقع تصويرخطی ساده­ای از مقادير قبلی نيستند. بناراين تکنيک­های پيچيده­تری(Logistic Regression، درخت­های تصميم، يا شبکه­های عصبی) ممکن است برای پيش­بينی مورد نياز باشند.

انواع مدل يکسانی را می­توان هم برای regression و هم برای classification استفاده کرد. برای مثال الگوريتم درخت تصميم CART را می­توان هم برای ساخت درخت­های classification و هم درختهای regression استفاده کرد. شبکه­های عصبی را نيز می­توان برای هر دو مورد استفاده کرد.

3-1-3 Time Series

پيش­بينی های Time Series مقادير ناشناخته آينده را براساس يک سری از پيش­بينی گرهای متغير با زمان پيش­بينی می­کنند. و مانند regression، از نتايج دانسته شده برای راهنمايی پيش­بينی خود استفاده می­کنند. مدلها بايد خصوصيات متمايز زمان را در نظر گيرند و بويژه سلسله­مراتب دوره­ها را.

3-2 مدل ها و الگوریتم های داده کاوی

در این بخش قصد داریم مهمترین الگوریتم ها و مدل های داده کاوی را بررسی کنیم. بسیاری از محصولات تجاری داده کاوی از مجموعه از این الگوریتم ها استفاده می کنند و معمولا هر کدام آنها در یک بخش خاص قدرت دارند وبرای استفاده از یکی از آنها باید بررسی های لازم در جهت انتخاب متناسب ترین محصول توسط گروه متخصص در نظر گرفته شود.

نکته مهم دیگر این است که در بین این الگوریتم ها و مدل ها ، بهترین وجود ندارد و با توجه به داده ها و کارایی مورد نظر باید مدل انتخاب گردد.

3-2-1 شبکه های عصبی

شبکه های عصبی از پرکاربردترین و عملی ترین روش های مدل سازی مسائل پیچیده و بزرگ که شامل صدها متغیر هستند می باشد. شبکه های عصبی می توانند برای مسائل کلاس بندی (که خروجی یک کلاس است) یا مسائل رگرسیون (که خروجی یک مقدار عددی است) استفاده شوند.

هر شبکه عصبی شامل یک لایه ورودی[33] می باشد که هر گره در این لایه معادل یکی از متغیرهای پیش بینی می باشد. گره های موجود در لایه میانی وصل می شوند به تعدادی گره در لایه نهان[34].  هر گره ورودی به همه گره های لایه نهان وصل می شود.

گره های موجود در لایه نهان می توانند به گره های یک لایه نهان دیگر وصل شوند  یا می توانند به لایه خروجی[35] وصل شوند.

لایه خروجی شامل یک یا چند متغیر خروجی می باشد.

شکل 3-1: شبکه عصبی با یک لایه نهان

هر لایه که بین نود های X,Y می باشد دارای یک وزن است که با Wx,y  نمایش داده می شود. این وزن ها در محاسبات لایه های میانی استفاده می شوند و طرز استفاده آنها به این صورت است که هر نود در لایه های میانی (لایه های غیر از لایه اول) دارای چند ورودی از چند یال مختف می باشدکه همانطور که گفته شد هر کدام یک وزن خاص دارند.

هر نود لایه میانی میزان هر ورودی را در وزن یال مربوطه آن ضرب می کند و حاصل این ضرب ها را با هم جمع می کند و سپس یک تابع از پیش تعیین شده (تابع فعال سازی) روی این حاصل اعمال می کند و نتیجه را به عنوان خروجی به نودهای لایه بعد می دهد.

وزن یال ها پارامترهای ناشناخته ای هستند که توسط تابع آموزش[36] و داده های آموزشی که به سیستم داده می شود تعیین می گردند.

تعداد گره ها و تعداد لایه های نهان و نحوه وصل شدن گره ها به یکدیگر معماری (توپولوژی) شبکه عصبی را مشخص می کند. کاربر یا نرم افزاری که شبکه عصبی را طراحی می کند باید تعداد نودها ، تعداد لایه های نهان ، تابع فعال سازی و محدودیت های مربوط به وزن یال ها را مشخص کند.

 

شكل 1-2 : Wx,y وزن یال بین X و Y است

از مهمترین انواع شبکه های عصبی Feed-Forward Backpropagation  می باشد که در اینجا به اختصار آنرا توضیح می دهیم.

Feed-Forward :  به معنی این است که مقدار پارامتر خروجی براساس پارامترهای ورودی و یک سری وزن های اولیه تعیین می گردد.  مقادیر ورودی با هم ترکیب شده و در لایه های نهان استفاده می شوند و مقادیر این لایه های نهان نیز برای محاسبه مقادیر خروجی ترکیب می شوند.

Backpropagation : خطای خروجی با مقایسه مقدار خروجی با مقدار مد نظر در داده های آزمایشی محاسبه می گردد و این مقدار برای تصحیح شبکه و تغییر وزن یال ها استفاده می گردد و از گره خروجی شروع شده و به عقب محاسبات ادامه می یابد.

این عمل برای هر رکورد موجود در بانک اطلاعاتی تکرار می گردد.

به هر بار اجرای این الگوریتم برای تمام داده های موجود در بانک یک دوره[37] گفته می شود. این دوره ها آنقدر ادامه می یابد که دیگر مقدار خطا تغییر نکند.

از آنجایی که تعداد پارامترها در شبکه های عصبی زیاد می باشد محاسبات این شبکه ها می تواند وقت گیر باشد. ولی اگر این شبکه ها به مدت کافی اجرا گردند معمولا موفقیت آمیز خواهند بود. مشکل دیگری که ممکن است به وجود بیاید Overfitting  می باشد و آن بدین صورت است که که شبکه فقط روی داده ها آموزشی خوب کار می کند و برای سایر مجموعه داده ها مناسب نمی باشد. برای رفع این مشکل ما باید بدانیم چه زمانی آموزش شبکه را متوقف کنیم.یکی از راه ها این است که شبکه را علاوه بر داده های آزمایشی روی داده های تست نیز مرتبا اجرا کنیم و جریان تغییر خطا را در آنها بررسی کنیم.اگر در این داده ها به جایی رسیدیم که میزان خطا رو به افزایش بود حتی اگر خطا در داده های آزمایشی همچنان رو به کاهش باشد آموزش را متوقف کنیم.

از آنجایی که پارامترهای شبکه های عصبی زیاد است یک خروجی خاص می تواند با مجموعه های مختلفی از مقادیر پارامترها ایجاد گردد درنتیجه این پارامترها مثل وزن یالها قابل تفسیر نبوده و معنی خاصی نمی دهند .

یکی از مهمترین فواید شبکه های عصبی قابلیت اجرای آنها روی کامپیوترهای موازی می باشد.

3-2-2 Decision Trees

درخت­های تصميم روشی برای نمايش يک سری از قوانين هستند که منتهی به يک رده يا مقدار می­شوند. برای مثال، می­خواهيم متقاضيان وام را به دارندگان ريسک اعتبار خوب و بد تقسيم کنيم. شکل  يک درخت تصميم را که اين مسئله را حل می­کد نشان می­دهد و همه مؤلفه­های اساسی يک يک درخت تصميم در آن نشان داده شده است : نود تصميم، شاخه­ها و برگ­ها.

شكل 3-3 : درخت تصمیم گیری

براساس الگوريتم، ممکن است دو يا تعداد بيشتری شاخه داشته باشد. برای مثال، CART درختانی با تنها دو شاخه در هر نود ايجاد می­کند. هر شاخه منجر به نود تصميم ديگر يا يک نود برگ می­شود. با پيمايش يک درخت تصميم از ريشه به پايين به يک مورد يک رده يا مقدار نسبت می­دهيم. هر نود از داده­های يک مورد برای تصميم­گيری درباره آن انشعاب استفاده می­کند.

درخت­های تصميم از طريق جداسازی متوالی داده­ها به گروه­های مجزا ساخته می­شوند و هدف در اين فرآيند افزايش فاصله بين گروه­ها در هر جداسازی است.

يکی از تفاوت­ها بين متد­های ساخت درخت تصميم اينستکه اين فاصله چگونه اندازه­گيری می­شود. درخت­های تصميمی که برای پيش­بينی متغيرهای دسته­ای استفاده می­شوند، درخت­های classification ناميده می­شوند زيرا نمونه­ها را در دسته­ها يا رده­ها قرار می­دهند. درخت­های تصميمی که برای پيش­بينی متغيرهای پيوسته استفاده می­شوند درخت­های regression ناميده می­شوند.

هر مسير در درخت تصميم تا يک برگ معمولا قابل فهم است. از اين لحاظ يک درخت تصميم می­تواند پيش­بينی­های خود را توضيح دهد، که يک مزيت مهم است. با اين حال اين وضوح ممکن است گمراه­کننده باشد. برای مثال، جداسازی های سخت در درخت­های تصميم دقتی را نشان می­دهند که کمتر در واقعيت نمود دارند. (چرا بايد کسی که حقوق او 400001 است از نظر ريسک اعتبار خوب باشد درحاليکه کسی که حقوقش 40000 است بد باشد. بعلاوه، از آنجاکه چندين درخت می­توانند داده­های مشابه­ای را با دقت مشابه نشان دهند، چه تفسيری ممکن است از قوانين شود؟

درخت­های تصميم تعداد دفعات کمی از داده­ها گذر می­کنند(برای هر سطح درخت حداکثر يک مرتبه) و با متغيرهای پيش­بينی­کننده زياد بخوبی کار می­کنند. درنتيجه، مدلها بسرعت ساخته می­شوند، که آنها را برای مجموعه­داده های بسيار مناسب می­سازد. اگر به درخت اجازه دهيم بدون محدوديت رشد کند زمان ساخت بيشتری صرف می­­شود که غيرهوشمندانه است، اما مسئله مهمتر اينستکه با داده­ها overfit می­شوند. اندازه درخت­ها را می­توان از طريق قوانين توقف کنترل کرد. يک قانون معمول توقف محدود کردن عمق رشد درخت است.

راه ديگر برای توقف هرس کردن درخت است. درخت می­تواند تا اندازه نهايی گسترش يابد، سپس با استفاده از روش­های اکتشافی توکار يا با مداخله کاربر، درخت به کوچکترين اندازه­ای که دقت در آن از دست نرود کاهش می­يابد.

يک اشکال معمول درخت­های تصميم اينستکه آنها تقسيم­کردن را براساس يک الگوريتم حريصانه انجام می­دهند که در آن تصميم­گيری اينکه براساس کدام متغير تقسيم انجام شود، اثرات اين تقسيم در تقسيم­های آينده را درنظر نمی­گيرد.

بعلاوه الگوريتم­هايی که برای تقسيم استفاده می­شوند، معمولا تک­متغيری هستند: يعنی تنها يک متغير را در هر زمان در نظر می­گيرند. درحاليکه اين يکی از دلايل ساخت سري مدل است، تشخيص رابطه بين متغيرهای پيش­بينی کننده را سخت­تر می­کند.

3-2-3 Multivariate Adaptive Regression Splines(MARS)

در ميانه­های دهه 80 يکی از مخترعين CART ، Jerome H. Friedman، متدی را برای برطرف­کردن اين کاستی­ها توسعه داد.

کاستی­های اساسی که او قصد برطرف­ کردن آنها را داشت عبارتند از :

·         پيش­بينی ­های غيرپيوسته ( تقسيم سخت)

·         وابستگی همه تقسيم­ها به تقسيم­های قبلی

به اين دليل او الگوريتم MARS را توسعه داد. ايده اصلی MARS نسبتا ساده است، درحاليکه خود الگوريتم نسبتا پيچيده است. بسيار ساده ايده عبارت است از :

·         جايگزينی انشعاب­های غيرپيوسته با گذر های پيوسته که توسط يک جفت از خط­های مستقيم مدل می­شوند. در انتهای فرآيند ساخت مدل، خطوط مستقيم در هر نود با يک تابع بسيار هموار که spline ناميده می­شود جايگزين می­شوند.

·         عدم نياز به اينکه تقسيم­های جديد وابسته به تقسيم­های قديمی باشند.

متأسفانه اين به معنی اينست که MARS ساختار درختی CART را ندارد و نمی­تواند قوانينی را ايجاد کند. از طرف ديگر، MARS به صورت خودکار مهم­ترين متغيرهای پيش­بينی کننده و همچنين تعامل ميان آنها را می­يابد. MARS همچنين وابستگی ميان پاسخ و هر پيش­بينی کننده را معين می­کند. نتيجه ابزار رگرسيون اتوماتيک، خودکار و step-wise است.

MARS، مانند بيشتر الگوريتم­های شبکه­های عصبی و درخت تصميم، تمايل به overfit شدن برای داده­های آموزش­دهنده دارد. که می­توان آنرا به دو طريق درست کرد. اول اينکه، cross validation بصورت دستی انجام شود و الگوريتم برای توليد پيش­بينی خوب روی مجوعه تست تنظيم شود. دوم اينکه، پارامترهای تنظيم متفاوتی در خود الگوريتم وجود دارد که cross validation درونی را هدايت می­کند.

3-2-4 Induction Rule

استنتاج قوانين متدی برای توليد مجموعه­ای از قوانين است که موارد را دسته­بندی می­کند. اگرچه درخت­های تصميم می­توانند مجموعه­ای از قوانين را ايجاد کند، متدهای استنتاج قوانين مجموعه­ای از قوانين مستقل را ايجاد می­کند. که لزوما يک درخت را ايجاد نمی­کنند. از آنجا که استنتاج­گر قوانين اجباری به تقسيم در هر سطح ندارد، و می­تواند به آينده بنگرد، قادر است الگوهای متفاوت و گاها بهتری برای رده­بندی بيابد. برخلاف درختان، قوانين ايجاد شده ممکن است همه موارد ممکن را نپوشاند. همچني« برخلاف درختان، قوانين ممکن است در پيش­بينی متعارض باشند، که در هر مورد بايد قانونی را برای دنبال کردن انتخاب کرد. يک روش برای حل اين تعارضات انتصاب يک ميزان اطمينان به هر قانون است و استفاده از قانونی است که ميزان اطمينان بالاتری دارد.

3-2-5 (MBR) Earest Neibour and Memory-Based Reansoning -K

هنگام تلاش برای حل مسائل جديد، افراد معمولا به راه­حل های مسائل مشابه که قبلا حل شده­اند مراجعه می­کنند. K-Nearest Neighbour(k-NN) يک تکنيک دسته­بندی است که از نسخه­ای از اين متد استفاده می­کند. در اين روش تصميم­گيری اينکه يک مورد جديد در کدام دسته قرار گيرد با بررسی تعدادی (k) از شبيه­ترين موارد يا همسايه­ها انجام می­شود. تعداد موارد برای هر کلاس شمرده می­شوند، و مورد جديد به دسته­ای که تعداد بيشتری از همسايه­ها به آن تعلق دارند نسبت داده می­شود.

شكل 3-4 : محدوده همسایگی (بیستر همسایه ها در دسته X قرار گرفته اند)

اولين مورد برای بکاربردن K-NN يافتن معياری برای فاصله بين صفات در داده­ها و محاسبه آن است. در حاليکه اين عمل برای داده­های عددی آسان است، متغيرهای دسته­ای نياز به برخورد خاصی دارند. هنگامیکه فاصله بين مواد مختلف را توانستيم اندازه گيريم، می­توانيم از مجموعه مواردی که قبلا دسته­بندی شده­اند را بعنوان پايه دسته­بندی موارد جديد استفاده کنيم، فاصله همسايگی را تعيين کنيم، و تعيين کينم که خود همسايه­ها را چگونه بشماريم.

K-NN بار محاسباتی زيادی را روی کامپيوتر قرار می­دهد زيرا زمان محاسبه بصورت فاکتوريلی از تمام نقاط افزايش می­يابد. درحاليکه بکابردن درخت تصميم يا شبکه عصبی برای يک مورد جديد فرايند سريعی است، K-NN نياز به محاسبه جديدی برای هر مورد جديد دارد. برای افزايش سرعت K-NN معمولا تمام داده­ها در حافظه نگه­داری می­شوند.

فهم مدلهای K-NN هنگاميکه تعداد متغيرهای پيش­بينی کننده کم است بسيار ساده است. آنها همچنين برای ساخت مدلهای شامل انواع داده غير استاندارد هستند، مانند متن بسيار مفيدند. تنها نياز برای انواع داده جديد وجود معيار مناسب است. 

3-2-6 رگرسیون منطقی

رگرسیون منطقی یک حالت عمومی تر از رگرسیون خطی می باشد.قبلا این روش برای پیش بینی مقادیر باینری یا متغیرهای دارای چند مقدار گسسته (کلاس) استفاده می شد. از آنجایی که مقادیر مورد نظر برای پیش بینی مقادیر گسسته می باشند نمی توان آنرا به روش رگرسیون خطی مدلسازی کرد برای این منظور این متغیرهای گسسته را به روشی تبدیل به متغیر عددی و پیوسته می کنیم وبرای این منظور مقدار لگاریتم احتمال متغیر مربوطه را در نظر می گیریم و برای این منظور احتمال پیشامد را بدین صورت در نظر می گیریم :

احتمال اتفاق نیفتادن پیشامد/ احتمال اتفاق افتادن پیشامد

و تفسیر این نسبت مانند تفسیری است که در بسیاری از مکالمات روزمره در مورد مسابقات یا شرط بندی ها یه موارد مشابه به کار می رود .مثلا وقتی می گوییم شانس بردن یک تیم در مسابقه 3 به 1 است در واقع از همین نسبت استفاده کرده و معنی آن این است که احتمال برد آن تیم 75% است.

وقتی که ما موفق شدیم لگاریتم احتمال مورد نظر را بدست آوریم با اعمال لگاریتم معکوس می توان نسبت مورد نظر و از روی آن کلاس مورد نظر را مشخص نمود.



[1] Data cleaning

[2] Data integration

[3] Data selection

[4] Data  transformation

[5] Summary

[6] Aggregation

[7] Pattern  evaluation

[8] Knowledge presentation

[9] Spread sheets

[10] Domain knowledge

[11] Data mining engine

[12] Module

[13] Characterization

[14] Association

[15] Classification

[16] Cluster analysis

[17] Evolution and deviation analysis

[18] Pattern evaluation module

[19] Interesting measures

[20] Graphical User Interface (GUI)

[21] Query

[22] Query processing

[23] Classic Statistics

[24] Artificial Intelligence

[25] Machine Learning

[26] Text Mining

[27] Web Mining

[28] Database

[29] Data mart

[30] Decision Support Tools

[31] Association discovery

[32] Sequence discovery

[33] Input Layer

[34]  Hidden Layer

[35]  Output Layer

[36] Training Method

[37] Epoch


نوشته شده در تاريخ شنبه نوزدهم آذر 1390 توسط جعفر

 

 

 

 

                 

 

دانشگاه جامع علمي کاربردي

واحد 26

 

موضوع پايان نامه

( Data Mining) داده کاوی

جهت دريافت درجه کارداني در

رشته فناوري ا طلاعات( IT )

 

استاد راهنما : آقاي مهندس عادل دشتي

 

دانشجو : سید علی معظم موسوی

 

سال: بهار 1389

 

 

 

 

چكيده:

داده کاوی، استخراج اطلاعات و دانش و کشف الگوهای پنهان از یک پایگاه داده های بسیار بزرگ، کاربردهای زیادی در کسب و کارهای امروزی پیدا کرده است. استفاده از تکنیک های داده کاوی در سازمان ها منتج به تعداد زیادی قانون و الگو می شود که با توجه به محدودیت در منابع و بودجه، پیاده سازی همه ی آنها امکان پذیر نمی باشد. می توان گفت که ارزیابی و رتبه بندی قوانین وابستگی کاری مهم و چالش برانگیز است. با استفاده از از تكنيك ناپارامتريك تحليل پوششي داده ها به ارائه چارچوبي براي ارزيابي و اولويت بندي قوانين وابستگي مي پردازيم. در اين تحقيق ابتدا مدلي براي شناسايي كاراترين واحد تصميم گيري در حالت بازده متغير به مقياس ارائه مي شود. پس از آن، با استفاده اين مدل، متدي نوين جهت رتبه بندي واحدهاي تصميم گيري ارائه مي شود. سپس با استفاده از مدل و متد پيشنهادي، چارچوبي نوين جهت رتبه بندي قوانين وابستگي داده كاوي توسعه داده مي شود. در انتها، با پياده سازي چارچوب پيشنهادي براي اولويت بندي قوانين وابستگي داده كاوي در بانك كشاورزي كاربردپذيري چارچوب پيشنهادي نشان داده مي شود.

كلمات كليدي:

فناوری اطلاعات (IT) ، الگوهای پنهان ، داده کاوی(Data Mining) تکنیک های داده کاوی، قوانین داده کاوی

 

 

                                     

 

 

 

 

 

فهرست مطالب

عنوان                                                                                                                                                                          صفحه

مقدمه ای بر داده‌کاوی                                                                                                                                                      1

فصل اول                                                                                                                                                                             3

1-1 مسئله اصلي تحقيق                                                                                                                                                3

1-2 تشريح و بيان موضوع                                                                                                                                              3

1-3 ضرورت انجام تحقيق                                                                                                                                              5

1-4 اهداف اساسي انجام تحقيق                                                                                                                                   5

فصل دوم                                                                                                                                                                            6

2-1 چه چيزی سبب پيدايش داده کاوی شده است؟                                                                                                 6

2-2  مراحل کشف دانش                                                                                                             8

2-3  جایگاه داده کاوی در میان علوم مختلف                                                                               12

2-4 داده کاوی چه کارهایی نمی تواند انجام دهد؟                                                                                                  14

2-5 داده کاوی و انبار داده ها                                                                                                                                      14

2-6 داده کاوی و OLAP                                                                                                                                             16

2-7 کاربرد یادگیری ماشین و آمار در داده کاوی                                                                                                     17

2-8 توصیف داده ها در داده کاوی                                                                                                                              17

2-8-1 خلاصه سازی و به تصویر در آوردن داده ها                                                                                                 17

2-8-2 خوشه بندی                                                                                                                 18

2-8-3 تحلیل لینک                                                                                                                19

فصل سوم                                                                                                                                                                        20

3-1 مدل های پیش بینی داده ها                                                                                                                                20

3-1-1 Classification                                                                                                                                              20

3-1-2 Regression                                                                                                               20

3-1-3 Time Series                                                                                                                                                  21

3-2 مدل ها و الگوریتم های داده کاوی                                                                                        21

3-2-1 شبکه های عصبی                                                                                                                                            21

3-2-2 Decision Trees                                                                                                                                           25

3-2-3 Multivariate Adaptive Regression Splines(MARS)                                                           27

3-2-4 Induction Rule                                                                                                                                           28

3-2-5 (MBR) Earest Neibour and Memory-Based Reansoning -K                                       29

3-2-6 رگرسیون منطقی                                                                                                                                             30

3-2-7  تحلیل تفکیکی                                                                                                                                               31

3-2-8 مدل افزودنی کلی (GAM)                                                                                                                           31

3-2-9 Boosting                                                                                                                                                         32

فصل چهارم                                                                                                                                                                     33

4-1 سلسله مراتب انتخابها                                                                                                                                          33

4-2 نگاه عمیق تر به شبکه عصبی                                                                                                                             45

4-3 آشنایی با الگوریتم ژنتیک                                                                                                                                   55

4-4 کاربردهای داده کاوی در کتابخانه ها و موسسات دانشگاهی                                                                         73

4-5 فرآيند تصميم گيري و سياستگذاري کلان                                                                                                       87

نتیجه گیری

فهرست منابع و مراجع

 

 

 

 

 

 

 

 

 

 

فهرست  تصاویر

عنوان                                                                                                                                                                          صفحه

شكل 2-1 : داده کاوی به عنوان يک مرحله از فرآيند کشف دانش                                                                          6

شكل 2-2 : سير تکاملی صنعت پايگاه داده                                                                                                                9

شكل 2-3 : معماری يک نمونه سيستم داده کاوی                                                                                                   10

شكل 2-4 : داده ها از انباره داه ها استخراج می گردند                                                                    16

شكل 2-5 : داده ها از چند پایگاه داده استخراج شده اند                                                                                      15

شکل 3-1: شبکه عصبی با یک لایه نهان                                                                                                                 22

شكل 3-2 : Wx,y وزن یال بین X و Y است                                                                                                           23

شكل 3-3 : درخت تصمیم گیری                                                                                                                                 25

شكل 3-4 : محدوده همسایگی (بیستر همسایه ها در دسته X قرار گرفته اند)                                                 29

شكل 4-1: فرایند عملیاتی                                                                                                                                          56

شكل4-2 : مورچگان بین منبع غذا و لانه یک مسیر