معرفی زمین آمار (Geostatistic)
زمین آمار مجموعه ای از اصول آماری و آماره ها است که برای تحلیل و پیش بینی ارزشهای مربوط به پدیده های فضایی یا فضایی-زمانی مورد استفاده قرار میگیرد.
بسیاری از ابزارهای زمین آمار مجموعه ای از روش هاست که برای براورد ارزش های مکان هایی توسعه یافت که نمونه ای برای آنجا وجود ندارد که همراه با ارزیابی عدم قطعیت این برآورداست. از آنجایی که نمونه گیری از تمامی نقاط یک منطقه بسیار دشوار و غیرممکن است این ابزار برای تصمیم گیری ضروری است.
زمین آمار مختصات فضایی داده ها را در تحلیل آماری بکار میگیرد. این روشها میتوانند پیش بینی ارایه دهند و عدم قطعیت پیش بینی ها را نیز مشخص کنند.
مهمترین کاربردهای زمین آمار عبارتند از:
- در صنعت معدن: برای کمی کردن پراکنش منابع معدنی و ارزیابی اقتصادی پروژه
- در علوم محیطی: برای تخمین میزان آلودگی و تهدید آن برای سلامت انسانی
- در علوم خاک: برای تخمین سطح موادمغذی خاک و ارتباط آن با بازدهی محصولات
- در هواشناسی: برای پیش بینی دما، بارش و سایر متغیرهای مربوطه
- در سلامت عمومی: پیش بینی سطح آلودگی و ارتباط آنها و شیوع بیماری ها
- در علوم شهری: برآورد شرایط آلودگی هوا و پراکنش صدا یا بوهای نامطبوع
این روش ها در بسیاری از علوم دیگر کاربرد دارند.
روش ها و مدلهای زیادی برای پردازش های زمین آمار وجود دارد. این بستگی به شما دارد که چه مدلی استفاده کنید که با نیازهای شما سازگار باشد و اطلاعات مورد نیاز برای تصمیم گیری شما را فراهم کند. انتخاب مدل بستگی دارد به درک شما از پدیده موردنظر، داده های موجود، و چیزی که میخواهید نمایش دهید.
فرایند تحلیل زمین آماری
(معرفی جریان کاری، ساختن یک لایه زمین آماری سریع، سلکت کردن چند نقطه بعد ویزارد، ساختن دوباره و معرفی اصطلاحات در طور ساختن لایه اولیه ، بررسی کلی)
جریان کاری زمین آمار: اولین مرحله در زمین آمار بررسی داده ها است.
گام اول در این مرحله با طبقه بندی و یا رنگبندی ویژگی های مهم داده ها را بررسی میکنیم. برخی ویژگیهای داده ها مانند این موارد است: افزایش زیاد در ارزش نمونه ها از شمال به جنوب (اصلاح داده ها با تحلیل روند)، مقادیر کم و زیاد بدون ترتیب کنارهم قراردارند و همبستگی فضایی ندارند (اصلاح با ساختار فضایی و مطابقت با منحنی نرمال)، محدوده هایی که تراکم نمونه در آنجا بیشتر است (رفع نمونه گیری ترجیحی).
گام دوم ساختن مدل زمین آماری است. در اینجا ما اصلاحات را روی داده ها اعمال میکنیم.
سپس ایجاد ساختار فضایی است که با سمیواریوگرام اینکار را انجام میدهیم. نهایتا، محدوده اعمال روش را مشخص میکنیم که از داده های چه پهنه هایی برای درونیابی استفاده شود.
افزونه تحلیلگر زمین آماری: این ابزارها بطورکامل در ArcGIS تلفیق شده اند و خروجی آنها می تواند بعدا پردازش های دیگر مانند مدلسازی و درمحیط پایتون مورد استفاده قرارگیرد.
ابزارهای این تحلیلگر سه دسته هستند:
1: ابزارهای تحلیل اکتشافی داده های فضایی
2: ویزارد زمین آماری برای تولید و ارزیابی لایه های درونیابی
3: مجموعه ای از ابزارهای پردازش زمینی برای کار با خروجی مدلها
اعتبارسنجی متقاطع (cross validation): صحت مدل درونیابی را ارزیابی میکند. هربار یک نقطه را کنار میگذارد و با استفاده از ارزش سایر نقاط مقدار آن مکان را پیش بینی میکند. این برای تمام نقاط انجام میشود. این تکنیک برای ارزیابی عملکرد مدل درونیابی است که جفت از ارزشهای معلوم و پیش بینی شده را ارزیابی میکند.
روش قطعی (deterministic methods): این روش از نقاط اندازه گیری شده سطوحی ایجاد میکند که یا براساس اندازه شباهت هستند و یا براساس هموار بودن. این روش خطای اندازه گیری را بررسی نمیکند.
لایه زمین آماری: تحلیلگر زمین آماری لایه سطحی تولید می کند. میشود ارزش پارامترها را تغییرداد. انواع لایه های دیگر تولید کرد. و به رستر و وکتور تبدیل کرد.
روش های زمین آماری: این روش ها با مدل های آماری خود همبستگی هم سطح پیش بینی و هم خطای مدل را بدست می دهند.
درونیابی: فرایندی است که از ارزش های نقاط معلوم استفاده میکند تا ارزشهای مکان های نمونه گیری نشده را پیش بینی کند. از این روش های درونیابی بسته به فرضیات خودمان، داده ها، و قابلیت های آنها استفاده میکنیم.
کرنل: یک تابع وزنی است. در این تابع برای پیش بینی یک نقطه وزن های بیشتر به نمونه هایی داده میشود که نزدیکتر به آن نقطه هستند و نقاط دورتر وزن کمتری میگیرند.
کریجینگ: مجموعه ای از مدل های درونیابی است براساس نیمه-تغییرپذیری یا سمی واریوگرام مربوط به خود همبستگی فضایی.
جستجوی همسایگی (Search neighborhood): یک زیرمجموعه ای از داده ها برای پیش بینی اززش های مکان های نامعلوم بکار میروند. و برای پیش بینی مرکز یک دایره یک شعاعی بعنوان جستجوی همسایگی تعیین میشود که فقط از نمونه های داخل این محدوده برای پیش بینی استفاده می شود.
سمی واریوگرام (semivariogram): نصف میانگین مربع واریانس است. تابعی است که اختلاف یا واریانس نمونه ها را در فاصله های مختلف توصیف میکند. معمولا سمی واریوگرام در فواصل کم واریانس پایین دارد و در فواصل زیاد و دور از هم واریانس بزرگتری دارد. این امر نشان دهنده خودهمبستگی فضایی داده ها است. تابعی که روی نقاط نمونه برروی گراف برازش داده می شود مدل سمیواریوگرام است.

نمودار روش محاسبه سمیواریوگرام
رابطه ریاضی محاسبه آن بصورت زیر است.

فرمول سمیواریوگرام
سمیواریوگرام تابع عدم مشابهت است.
خودهمبستگی فضایی: پدیده های طبیعی معمولا خودهمبستگی دارند. نقاط نزدیک هم نسبت به نقاط دورتر شباهت بیشتر به همدیگر دارند.
ترانسفورمیشن: زمانی بکار می رود که برای تغییر شکل توزیع از تابعی استفاده میکنیم.
اعتبار سنجی (validation): این روش مشابه روش اعتبار سنجی متقاطع است با این تفاوت که به جای یک مجموعه داده، داده ها را به دو گروه آموزشی و آزمایشی مجزا تقسیم میکند تا عملکرد مدل را ارزیابی کند.
تحلیل اکتشافی دیتا
(بررسی تک تک ابزارهای اکتشافی، توضیح منحنی نرمال و روش های آماری، بررسی روند انیزوتروپی و ایزوتروپی)
قبل از درونیابی نیاز است که تحلیلی اکتشافی از داده ها داشته باشیم. دو دلیل دارد:
یک؛ داشتن دیدی از داده ها دو؛ انتخاب روش مناسب
معرفی ابزار تحلیل اکتشافی. توضیح توزیع نرمال (schema) ، خطای Root-Mean-Square همان انحراف معیار است فرمول انحراف معیار.
میانگین حسابی مرکز توزیع است. در حالت نرمال 50 درصد داده ها کمتر از میانه است. و 25درصد کمتر از چارک اول و 75 درصد کمتر از چارک سوم است.
انحراف معیار پراکنش در اطراف میانگین است.
چولگی (skewness) برای توزیع متقارن صفر است. مثبت به سمت داده های بزرگتر است و منفی به سمت داده های کوچکتر
پخی (kurtosis) ، ضریب پخی برای توزیع نرمال برابر با سه 3 است. برای توزیع های پخ تر از نرمال بزرگتر از سه و و باریکتراز نرمال کمتر از سه است.
تبدیل باکس-کاکس: زمانی که قسمتی از منطقه نمونه بیشتری برداشت شده و در قسمت دیگر کمتر ، از این تبدیل استفاده می شود. واریانس را یکدست میکند.
تبدیل لگاریتمی : برای نمونه هایی است که چولگی بالایی دارند.
تبدیل آرک سین : زمانی که ارزش های Z بین صفر و یک باشند. یا درصد باشند.
در نمودار زیر انواع روش های درونیابی مشاهده می شود.

انواع مدل های درونیابی زمین آماری
ایجاد لایه های قطعی
(مراحل ساختن لایه های زمین آماری از طریق ویزارد، و انتخاب تک تک روش ها، تشریح خصوصیات هر روش در حین ساختن لایه، تشریح پارامترهای هر مدل،)
روش درونیابی قطعی در مواردی مناسب است که یک: خطای اندازه گیری نمونه ها کوچک باشد و دو: تغییرات مکانی کم باشد.
ایجاد لایه های زمین آماری
(مراحل ساختن لایه های زمین آماری از طریق ویزارد، و انتخاب تک تک روش ها، معرفی انواع روش کریجینگ ، تشریح خصوصیات هر روش در حین ساختن لایه، تشریح پارامترهای هر مدل، توضیح خطار RMS، و پارامترها)
انواع روش های درونیابی
روش درونیابی چندجمله ای جهانی (GPI): در این روش ما یک سطح را روی یک پهنه ناهموار (ناهمواری از نظر ارتفاع یا از نظر دما یا هر متغیردیگر) برازش میدهیم. برازش این سطح براساس تابع ریاضی چند جمله ای است که اگر چندجمله ای درجه یک باشد بصورت خط مستقیم می شود با شیبی مشخص. اما اگر چند جمله ای درجه دوم باشد وجود مثلا یک دره را نیز در آن سطح در نظر میگیرد. هرچه تعداد درجه چند جمله ای بیشتر باشد یعنی خمش های بیشتری در آن سطح درونیابی ایجاد میکنیم که بهتر با واقعیت زمین همخوانی دارد.
موارد استفاده GPI:
الف: برازش دادن یک سطح روی نقاط نمونه ای که به آرامی تغییر میکنند مانند آلودگی در یک منطقه صنعتی. دما
ب: ارزیابی و ازبین بردن اثرات روندهایی در مقیاس جهانی با عنوان تحلیل سطح روند مانندجهت باد
ج: بسیار برای محدوده های مرزی مناسب هستند
روش درونیابی چندجمله ای محلی (LPI): درحالیکه روش چندجمله ای جهانی یک معادله چندجمله ای را بر تمام یک سطح برازش میدهد، روش چندجمله ای محلی از چندین معادله چندجمله ای برای اینکار استفاده میکند که هر کدام برای یک محدوده از منطقه استفاده میشوند. منطقه به چند پهنه تقسیم می شود و برای درونیابی هر کدام یک تابع چندجمله ای با درجات متفاوت برای درونیابی استفاه می شود.
در این روش انتهای یک سطح برازش در مرکز سطح برازش دیگر قرار میگیرد.
این روش دو ابزار برای سنجش صحت دارد: خطای معیار پیش بینی که خطای ارزش پیش بینی شده رابرای هر مکان از سطح منطقه بدست می دهد. دوم، رقم شرط فضایی که میزان ثبات یا بی ثباتی معادلات پیش بینی کننده را برای هر مکان معین ارزیابی میکنند. هرچه رقم شرط بزرگتر باشد کمترین تغییردر ضرایب، تغییری بزرگ در نتیجه ایجاد می کند.
موارد کاربرد: برای جاهایی که تغییرپذیری ها در محدوده های کمی انجام می شود این روش مناسب است. به عبارتی، در فواصل کم تغییرات ارزشها زیاد است.
روش جهانی از همه نقاط نمونه برای درونیابی یک نقطه مجهول استفاده میکند. اما روش محلی فقط از نقاط نمونه همسایه و نزدیک برای اینکار استفاده میکند.
فاصله معکوس وزندار (IDW): این روش براین فرض استوار است که چیزهایی که نزدیک همدیگر هستند شباهت بیشتر به هم دارند تا چیزهایی که دور ازهم قراردارند. برای پیش بینی یک مکان اندازه گیری نشده از ارزش های اطراف آن استفاده میکند. در این روش نقاط نمونه نزدیکتر در پیش بینی یک نقطه با ارزش نامعلوم تاثیر (وزن بیشتر) بیشتری دارند. فرض IDW این است که هر نقطه اندازه گیری شده تاثیری محلی دارد که این تاثیر با افزایش فاصله کاهش می یابد.
این روش با یک توان کار میکند که هرچه این توان کمتر باشه تخصیص وزن با افزایش فاصله کمتر تاثیر دارد. اگراین توان صفر باشد عملا با افزایش فاصله کاهش وزن نداریم و همه وزن ها یکی هستند. هرچه این توان بیشتر باشد تنها نقاط نمونه نزدیک به مکان پیش بینی در برآورد لحاظ می شوند. این توان بطور پیش فرض دو (2) است. یک منحنی با نقاط نمونه برازش میشود و منحنی که توان آن کمترین خطای (RMSE) را دارد بعنوان ارزش توان بهینه انتخاب می شود. فاصله معکوس یعنی اینکه کاهش فاصله = افزایش وزن ، رابطه معکوس بین وزن و فاصله
فرمول
Z()=∑wzi که دراینجا وزن ضربدر ارزش نقطه نمونه می شود و مجموع اینها می شود ارزش نقطه پیش بینی یا تخمینی.
بهترین توان برای IDW حداقل RMSPE در روی منحنی است. افزایش این توان تاثیر فاصله را در درونیابی بیشتر میکند.
لایه تولیدی با این روش بستگی زیادی به دو پارامتر جستجوی همسایگی و توان دارد. این روش خطای استاندارد را بدست نمیدهد.
توابع شعاع مبنا (RBF): توابع با مبنای شعاعی مجموعه ای تکنیک های درونیابی هستند و نوع خاصی از اسپیلاین هستند. این روش در مقایسه با IDW کمی تعمیم دارد و قله هاو دره ها را نیز ایجاد میکند.
موارد کاربرد: این روش معمولا برای سطوحی با تغییرات آرام مانند ارتفاع استفاده می شود. در مواردی که ارزش های سطحی در فواصل کوتاه تغییر می کنند این روش مناسب نیست. در مواردی که درباره صحت داده های نمونه برای اندازه گیری مطمن نیستید این روش مناسب نیست. روش اسپیلاین نیز با فاصله از نقطه نمونه تغییر میکند.
محاسبه این روش مثل این است که در هر نقطه نمونه مخروطی وارونه داریم و سطح نهایی برای مکان های نامعلوم از مجموع سطوح مخروط ها و وزن هرمخروط که براساس فاصله تا نقطه پیش بینی است، بدست می آید.
درونیابی پخش (Diffusion Interpolation): این روش براساس معادله گرما است که چگونه گرما و ذرات با زمان در یک سطح همجنس پخش می شوند. پیش بینی (برآورد) ایجاد شده با این روش از موانع به آرامی عبور میکند. این روش مشابه دورنیابی کرنل است بطوریکه کرنل گوسین باشد. در این روش میتوان از رستر هزینه استفاده کرد در صورت نبود رستر هزینه فاصله ایوکلیدین بین مرکز رسترها استفاده می شود.
درونیابی کرنل (kernel): این روش نوعی درونیابی چند جمله ای محلی درجه اول است که با استفاده از ضرایب رگرسیونی از بی ثباتی در محاسبات جلوگیری میکند. کرنل زمانی که درجه اول باشد نتایج بهتری بدست می دهد. کرنل می تواند موانع و مرز های مطلق را درنظربگیرد و یا بدون درنظرگرفتن آنها عمل کند.
کرنل براساس توابعی از جمله توابع نمایی، گوسی، و درجه چهار و پنج عمل میکند.
کریجینگ (Kriging)
کریجینگ معمولی (OK): این روش براساس مدل زیراست.
Z(s) = µ + ε(s),
که در این مدل میو میانگین ثابت نامشخص (براوردشده) است و ای فاصله نقطه نمونه تا میانگین.
بنظرمیرسد که این روش برای داده هایی مناسب باشد که دارای روند هستند.
فرمول کریجینگ مشابه IDW است اما در کریجینگ مقدار عدد وزن علاوه بر فاصله به ساختار فضایی نیز وابسته است.
روند یعنی اینکه هرچه نقاط نمونه به دریا نزدیک میشود ارزش آنها کم می شود و این ربطی با تغییرات فاصله از هم ندارد.
پارامتر nugget آستانه تغییرات است. پارامتر Sill یعنی سقف تغییرات یعنی جایی که دیگر با افزایش اختلاف فاصله واریانس ها تغییر نمیکند و منحنی حالت خط افقی و هموار میگیرد.
کریجینگ ساده (SK): این روش مشابه کریجینگ معمولی است با این تفاوت که میانگین ثابت مشخص است و ما عدد میانگین را میدانیم.
کریجینگ جهانی (UK): در این روش معادله زیر فرض شده است.
Z(s) = µ(s) + ε(s),
که در اینجا میواس تابعی قطعی است و براساس معادله چندجمله ای بدست میاید. ای اس اختلاف نقاط نمونه تا منحنی معادله چندجمله ای است. در این روش اگر ما این چندجمله ای را از داده های اصلی کم کنید، خطای ای اس را بدست میاوریم. در اینجا ما از مختصات فضایی بعنوان متغیرهای رگرسیون استفاده میکنیم.
کریجینگ شاخص (Indicator kriging): این روش مشابه کریجینگ معمولی است ولی برای داده های باینری (دودویی) استفاده می شود یعنی داده ای که فقط صفرویک دارد. صفرویک میتواند از آستانه ها تولید شود. آستانه محدوده حفاظت شده (حفاظت شده 1 و حفاظت نشده 0). تفسیر نقشه پیش بینی این است که چه جاهایی از حدآستانه تجاوز کرده اند. در این روش میتوان چندین استانه را بصورت متغیرهای جداگانه استفاده کرد بصورت کوکریجینگ.
کریجینگ احتمالی (Probability kriging): این روش از دو ثابت میانگین نامشخص استفاده میکند و یک متغیردودویی است که براساس شاخص آستانه تولید میشود. این روش برای بهتر شدن از کوکریجینگ استفاده میکند.
کریجینگ جداسازنده (Disjunctive kriging): در اینجا میتوان از یک تابع اختیاری استفاده کرد.
شبیه سازی زمین آماری: تعریف شبیه سازی بطورکلی فرایند تکرار واقعیت بوسیله یک مدل است. در زمین آماری شبیه سازی شناسایی یک تابع سطحی که خصوصیات آماری مشابه داده های نمونه آن دارد (عمدتا از طریق سمیواریوگرام).
شبیه سازی زمین آماری گوسی (GGS): برای داده های پیوسته مناسب است و فرض آن این است که داده ها توزیع نرمال (گوسی) دارند.
روش GGS از این نظر به کریجینگ برتری دارد که کریجیمگ براساس میانگین محلی داده هااست ولی روش شبیه سازی زمین آماری گوسی بدون ازدست دادن برخی داده ها بهتر تغییرپذیری محلی را به نمایش می گذارد.