مفاهیم آماری درعلوم GIS
مفاهیم آماری در علوم GIS
در این نوشته به بررسی تعاریف آماری و مفاهیم کاربرد آمار در علوم محیطی و جغرافیایی می پردازیم. در علوم مکانی که با پدیده هایی مکانی و مکانهای سطح سیاره زمین سروکار دارند ما نیازمند تحلیل ترکیبی و بین رشته ای از تمام علوم هستیم. در این مقاله مفاهیم آماری مانند جامعه، نمونه، توزیع نرمال، آمارهای پارامتریک و ناپارامتریک در علوم GIS مورد بحث قرار گرفت. لازم به ذکر است که در علوم اطلاعات جغرافیایی تحلیل های آماری عمدتا یا روی اطلاعات استخراج شده از پردازش های نرم افزاری انجام می شود یا بطور خودکار داخل خود این نرم افزارها انجام میشود. برای آزمون فرضیات معمولا این تحلیل ها از اطلاعات مکانی دریافت و در برنامه هایی مانند SPSS تحلیل می شود. همچنین برخی از تحلیل ها در برنامه هایی مانند اکسل انجام می گیرد. در ادامه به تعاریف و روش های کار این تحلیلها در برنامه های GIS پرداخته ایم.
آزمون های آماری پارامتریک و ناپارامتریک
تفاوت آمار پارامتریک و ناپارامتریک
تعاریف آماری
در این قسمت بعضی از مهمترین اصطلاحات و مفاهیم آماری را که در علوم مکانی کاربرد فراوانی دارند را مورد بررسی قرار داده ایم.
گروه آماری:
یک متغیر می تواند به لحاظ بررسی یک ویژگی خاص در یک گروه و یا دو گروه و یا بیشتر مورد بررسی قرار گیرد. دو گروه می تواند وابسته و یا مستقل باشد. دو گروه وابسته است اگر ویژگی یک مجموعه افراد قبل و بعد از وقوع یک عامل سنجیده شود. مثلا میزان رضایت شغلی کارکنان قبل و بعد از پرداخت پاداش و همچنین اگر در مطالعات تجربی افراد از نظر برخی ویژگی ها در یک گروه با گروه دیگر همسان شود.
مفهوم جامعه آماری در علوم مربوط به GIS به کل عوارض در یک پهنه جغرافیایی مشخص گفته می شود. در مفهوم جمعیت یا جامعه آماری باید یه برخی اصطلاحات ویژه توجه شود. در علوم GIS ما با داده ها و اطلاعات کیفی و کمی سروکار داریم که تحلیل هرکدام متفاوت است. مثلا نمایش قومیت های مختلف روی نقشه یک متغیر کیفی است. نمایش شیب زمین در بطور لایه های رستری (Raster) نشان دهنده یک کمیت یا متغیر کمی است. درحالیکه شکل مقعر یا محدب بودن دامنه های کوهستان ها یک متغیر کیفی است که می تواند در چند پهنه با رنگ های مشخص نمایش داده شود. ارتفاع روستاهای از سطح دریا یک متغیر کمی است که برای هر روستا یک عدد مشخص دارد. به همین ترتیب مثلا کلاس های زمین شناسی متغیر کیفی است. اما درجه سختی سازندها به درصد یا با ضرایب فازی یک متغیر کمی است. کاربری زمین یکی متغیر کیفی و درجه آسیب پذیری کاربری ها یا درجه سازگاری آنها نسبت به مخاطرات می تواند یک متغیر کمی باشد. چون به هر کاربری یک وزن یا ارزش داده شده است پس هر کاربری با کاربری های دیگر قابل مقایسه است. اما اسم کاربری ها نمی تواند صرفا آنها را قابل سنجش در یک طیف کمتر یا بیشتر نماید که می شود یک متغیر کیفی با خاصیت اسمی. لازم به ذکر است که اولویت بندی کلاس های زمین شناسی یا کاربری نسبت به هم یک متغیر ترتیبی است.
لازم به ذکر از که نمونه ها در تحلیل های آماری جغرافیایی در Attribute Table لایه های وکتوری هر کدام در یک ردیف قرار می گیرند. مثلا اگر ما 15 نمونه برداشت کنیم در یک لایه وکتوری 15 ردیف خواهیم داشت. همچنین اگر ما 5 کلاس داشته باشیم در یک لایه وکتوری تمام ردیف ها باید در یک ستون با نام class در یک کلاس 1 تا 5 اختصاص پیدا کنند. لایه های رستری که پهنه بندی می شوند معمولا بصورت متغیر ترتیبی در کلاس های مشخص قرار می گیرند.
حجم نمونه:
در رابطه با حجم نمونه نیز باید تاکید کرد که تعداد حجم نمونه نباید کمتر از ۵۰ مورد باشد و ترجیحا حجم نمونه را به بیش از ۱۰۰ مورد افزایش داد. به عنوان قاعده کلی تعداد نمونه باید حدود چهار یا پنج برابر تعداد متغیرهای مورد استفاده باشد. در مباحث نمونه گیری در علوم GIS ما با انواع روش های نمونه گیری تصادفی و طبقه بندی شده یا خوشه ای سروکار داریم. مثلا انتخاب یک تعداد نمونه های معیین بطور تصادفی از هر استان یک نمونه گیری تصادفی خوشه ای است. مثلا از هر استان بطور تصادفی پنج نقطه یا اطلاعات جمعیتی پنج شهرستان را انتخاب کنیم. اما اگر از کل نقشه یا پلیگون کل کشور پنج نقطه را تصادفی انتخاب کنیم دیگر خوشه ای نمی شود.
انتخاب چند نقطه از یک زمین برای برداشت خاک و آزمایش درصد فلزات سنگین یک نمونه گیری تصادفی است.
در این روش ما با جامعه های موجود، جامعه های فرضی و جامعه های در دسترس سروکارداریم. مثلا کل سنگ های استان مازندران یک جامعه موجود است. اما چون همه سنگها در دسترس نیستند نمی توانیم آن را جامعه در دسترس بدانیم. جامعه فرضی جامعه ای است که وجود خارجی ندارد و فقط در ذهن ما است. اگر جامعه ای وجود خارجی داشته باشد و بتوانیم آن را روی نقشه یا روی سطح سیاره زمین نشان بدهیم می شود جامعه موجود. پس وجود خارجی داشتن جامعه لازم موجود بودن جامعه است. از آنجایی که تمام افراد جامعه موجود را نمی توانیم یک به یک مشاهد کنیم همه آنها در دسترس نیستند. آنهایی را که می توانیم در میدان یک به یک مشاهده و بررسی کنیم می شود در دسترس. مثلا، درجه شوری یا PH خاک در بیست نقطه مشخص در عمق 40 سانتیمتری از سطح زمین در شهرستان بهشهر می شود یک نمونه در دسترس چون حدود آن کاملا مشخص و قابل دسترسی است. مثلا آمارهای دما یا بارش هوا در سه ایستگاه گلوگاه، تیرتاش، و گرگان از سال 1390 تا 1400 می شود یک نمونه در دسترس. اما آمار های هواشناسی همین سه ایستگاه از ابتدای پیدایش زمین تا به امروز هر چند جامعه موجود است ولی قابل دسترس نیست.
متغیر های اسمی همانطور که گفتیم در علوم GIS متغیرهایی هستند که نسبت بهم برتری نداشته باشند. مانند انواع سازندهای زمین شناسی یا انواع کاربری ها یا انواع تیپ های خاک
متغیرهای ترتیبی در علوم GIS عبارتند از متغیرهایی که نسبت بهم برتری دارند ولی فاصله آنها و اختلاف آنها مشخص نیست. مثلا کلاس بندی ها، مانند کلاس های شیب 0 تا 10 درجه، کلاس شیب 10 تا 20 درجه و کلاس 20 درجه و بیشتر . در اینجا کلاس های شیب متغیر ترتیبی است. چون کلاس دو که شیب 10 تا 20 است بالاتر از کلاس یک است. برای مطالعه بیشتر درباره تهیه نقشه شیب به مقاله “شیب و نقشه شیب” مراجعه کنید.
متغیر فاصله ای نیز متغیرهایی هستند که اختللاف آنها مشخص است. در علوم GIS متغیرهایی مانند ارتفاع از سطح دریا، شیب به درجه ، بارش به میلیمتر و تعداد جمعیت استان خوزستان و غیره متغیرهای فاصله ای یا نسبت هستند.
توزیع نرمال:
یکی از مهمترین توزیع ها در نظریه احتمال است و کاربردهای بسیاری در علوم دارد. فرمول این توزیع بر حسب دو پارامتر امید ریاضی و واریانس بیان می شود. منحنی رفتار این تابع تا حد زیادی شبیه به زنگ های کلیسا می باشد. این منحنی دارای خواص بسیار جالبی است برای مثال نسبت به محور عمودی متقارن است، نیمی از مساحت زیر منحنی بالای مقدار متوسط و نیمه دیگر در پایین مقدار متوسط قرار دارد و اینکه هرچه از طرفین به مرکز مختصات نزدیک می شویم احتمال وقوع بیشتر می شود. سطح زیر منحنی نرمال برای مقادیر متفاوت میانگین و واریانس فراگیری این رفتار آنقدر زیاد است که دانشمندان اغلب برای مدل کردن متغیرهای تصادفی که با رفتار آنها آشنایی ندارند، از این تابع استفاده می کنند. توزیع نرمال یکی دیگر از مفاهیم آماری در علوم GIS است که نقش مهمی در تصمیم گیری های تحلیل آماری ایفا می کند.
توزیع نرمال چند ویژگی دارد.
یک متقارن است یعنی مثلا نصف شیب منطقه بزرگتر از میانگین و نصف آن کمتر از میانگین است.
بالاترین ارتفاع ، میانگین میانه و مد یکسان دارد. مثلا عدد جمعیت متوسط با عدد جمعیت میانه و مد در یک شهرستان یکی است.
حدود انتهایی آن بی نهایت است و هرگز محور ایکس را قطع نمی کند.
نقطه عطف منحنی جایی است که چارک ها و دهک های مشخص دارد.
مساحت زیر منحنی همیشه کمتر از یک است. این مفهوم به این معنی است که هرگز احتمال صد در صد نداریم.
در علوم GIS منحنی نرمال نشان دهنده پراکنش تمام پیکسل های یک رستر است یا تمام اعداد داخل Attribute Table در یک ستون مشخص یک هیستوگرام نرمال را شکل می دهد. اگر یک ستون را روی هیزتوگرام رسم کنیم می توانید اختلاف آن را با منحنی نرمال مقایسه کنیم.
برای مطالعه بیشتر در خصوص مفاهیم آماری در علوم GIS مراجعه شود به پژوهش تحلیل مخاطرات دکتر نظام محله منتشر شده در سال 1396 در دانشگاه تهران .
آزمون های آماری پارامتریک و ناپارامتریک
در این قسمت به بررسی آمارهای پارامتریک و ناپارامتریک و همچنین تفاوت های آنها می پردازیم. در این قسمت توضیح دادیم که هر کدام از این آمارها در علوم جغرافیایی در چه زمان هایی کاربرد دارند. عموما لایه های پلیگونی وکتوری که ترتیب پارامترها در آنها مشخص نباشد باید از طریق آزمون های ناپارامتریک تحلیل شوند. اطلاعاتی که از جداول اطلاعات توصیفی لایه ها یا رستر ها دریافت شود در صورتی که بیشتر از ده مورد یا عارضه مکانی را شامل شود و از توزیع نرمال برخوردار باشد با توجه به شرایط آزمون های پارامتریک می توانیم با آزمون های رگرسونی آنها را تحلیل کنیم.
آمار پارامتریک
آمار پارامتریک مستلزم پیش فرض هائی در مورد جامعه ای که از آن نمونه گیری صورت گرفته می باشد. به عنوان مهمترین پیش فرض در آمار پارامترک فرض می شود که توزیع جامعه نرمال است. فنون آمار پارامتریک شدیداً تحت تاثیر مقیاس سنجش متغیرها و توزیع آماری جامعه است. اگر متغیرها از نوع اسمی و ترتیبی باشد حتما از روشهای ناپارامتریک استفاده می شود. در علوم جغرافیایی اگر بخواهیم چند پهنه را باهم مقایسه کنیم با آمار ناپارامتریک سروکار داریم. اگر بخواهیم متغیرهای اسمی ایستگاه های هواشناسی یا زمین لرزه ها را تحلیل کنیم می توانیم از آمار پارامتریک استفاده کنیم.
آمار ناپارامتریک
آمار ناپارامتریک مستلزم هیچگونه فرضی در مورد توزیع نیست. به همین خاطر بسیاری از تحقیقات علوم انسانی که با مقیاس های کیفی سنجیده شده و فاقد توزیع نرمال هستند از شاخصهای آمار ناپارامتریک استفاده می کنند.
اگر متغیرها از نوع فاصله ای و نسبی باشند در صورتیکه فرض شود توزیع آماری جامعه نرمال یا بهنجار است از روشهای پارامتریک استفاده می شود در غیراینصورت از روشهای ناپارامتریک استفاده می شود.
در تحلیل نتایج پهنه بندی های می توانیم از آمارهای ناپارامتریک و آزمون های آماری کروسکال والیس یا آزمون یومان ویتنی استفاده کنیم.
در تحلیل های متغیرهای فاصله ای با پراکنش مناسب می توانیم از آزمون های رگرسیون یا همبستیگی های پیرسون استفاده کنیم.
تفاوت آمار پارامتریک و ناپارامتریک
آمار پارامتریک مستلزم پیش فرض هائی در مورد جامعه ای که از آن نمونه گیری صورت گرفته می باشد. به عنوان مهمترین پیش فرض در آمار پارامترک فرض می شود که توزیع جامعه نرمال است اما آمار ناپارامتریک مستلزم هیچگونه فرضی در مورد توزیع نیست. به همین خاطر بسیاری از تحقیقات علوم انسانی که با مقیاس های کیفی سنجیده شده و فاقد توزیع نرمال هستند از شاخصهای آمار ناپارامتریک استفاده می کنند.
نتیجه گیری
از مهمترین دیتاها و اطلاعات مورد استفاده در علوم مکانی می توان به بخش داده های GIS وبسایت فوری اموز مراجعه کرد.
نویسنده: دکتر محمدعلی نظام محله
دیدگاه خود را ثبت کنید
تمایل دارید در گفتگوها شرکت کنید؟در گفتگو ها شرکت کنید.