گزارش کارگاه «علم داده‌ها و چالش‌های پیاده‌سازی آن در کسب‌وکارهای مختلف»

تریگر
کارگاه «توسعه حمل و نقل …
۲۷ بهمن ۱۳۹۵
تریگر
گزارش کارگاه «توسعه‌ی حمل‌ونقل با نقش میانجی تکنولوژی و ارزش‌آفرینی مالی»
۹ اسفند ۱۳۹۵

زمان و مکان برگزاری: چهارشنبه ۲۷ بهمن‌ماه؛ سالن اجتماعات مجتمع خدمات فناوری

این کارگاه توسط دکتر مهدی نصیری، مدیر واحد علم داده‌های شرکت آریا همراه سامانه، ارائه شد.

ابتدای برای بیان لزوم پرداختن به موضوع داده‌ها به آمارهایی اشاره شد. به‌عنوان مثال از سال ۱۹۵۰ تا ۱۹۷۰ کل حجم دیتاها دو برابر شده است اما بعد از سال ۱۹۹۰ هر دو سال یک‌بار، حجم اطلاعات دو برابر شد و ۹۰% دیتاهای هر شرکت مربوط به دو سال اخیر است و ۱۰% مربوط به قبل از آن می‌باشد. سال ۲۰۱۴ در هر ۱٫۲ سال یک‌بار حجم دیتاها دو برابر شد و هر دو دقیقه، ۳ وب‌سایت ایجادشده است. داده‌های سازمان‌ها به‌صورت نمایی رشد می‌کنند و خطی نیستند که همین مورد بستری را برای تحلیل و بررسی فراهم می‌کند. از طرفی به‌اندازه‌ی کافی متخصص در این حیطه وجود ندارد اما رقابت در این حوزه بسیار شدید است.

ایشان بحث را با سؤالی در مورد تعداد چوب‌کبریت‌ها شروع کردند و در ابتدا مقدمه‌ای از هوش تجاری (Bi) گفتند و سپس خلاصه‌ای از کارهایی که به‌وسیله‌ی دیتا می‌توان انجام داد را مرور کردند.

هوش تجاری بستر و فرآیندی است که از منابع اطلاعاتی مختلف در یک سازمان، اطلاعات گوناگونی را دریافت و همه‌ی آن‌ها را تجمیع می‌کند و گزارش جمع شده را ارائه‌ می‌دهد. ما اطلاعات را در محیط واسطی ETL (extract transform load) پیاده‌سازی می‌کنیم بعد از پیاده‌سازی داده‌ها، به پاک‌سازی داده‌ها می‌پردازیم و در نهایت آن را در یک پایگاه تحلیلی داده به‌صورت خلاصه‌شده و بر اساس سؤال‌هایی که می‌خواهیم به آن برسیم، ذخیره می‌کنیم. بعد از پیاده‌سازی، از موتور گزارش تحلیلی پیچیده استفاده می‌کنیم تا گزارش‌هایی را که در نظر داریم با سرعت‌بالا به آن از انبار داده دسترسی داشته باشیم را بیابیم.

در مکعب‌های تحلیلی به‌راحتی می‌توان با اطلاعات بر اساس زمان و جغرافیای خاص به عدد موردنظر دست‌یافت.

photo_2017-02-19_10-56-07

در مبحث بعدی چالش‌هایی که ممکن است در یک بیزینس باشد، بررسی شد. چالش‌ها برای افرادی که در حوزه‌ی هوش تجاری فعالیت می‌کنند و مدیرانی که قصد دارند از این اطلاعات استفاده کنند، مطرح است. یکی از این چالش‌ها مربوط به تیم‌هایی است که در این حوزه فعالیت می‌کنند اما بعضی‌اوقات افرادی در حیطه‌ی پیاده‌سازی فعالیت می‌کنند ولی کارهای تحلیل، طراحی و برنامه‌ریزی اولیه را انجام نمی‌دهند وقتی آن‌ها مستقیماً به سراغ تحلیل می‌روند ریسک کار را بالا می‌برند و مشکلات زیادی ایجاد می‌کنند. بعضی از شرکت‌ها قیمت را به‌اندازه‌ی ۴۰% ارائه می‌دهند و فقط روی قسمت آخر که طراحی داشبورد است وقت می‌گذارند درحالی‌که کمتر از ۳۰% پروژه قسمت طراحی و تنظیم داشبورد است. اگر انباره، داده‌ای موضوعی باشد با مکعب تحلیلی و سپس با مدیریت داده‌ای، زیرساخت‌های اجمالی ایجاد می‌شود. هر چیزی را که بتوان برای آن دیتا ایجاد کرد می‌توان تحلیل نمود؛ بنابراین، اولین چالش این است که ممکن هست رقیب قسمتی از کار را به‌صورت ناقص انجام دهد که این موضوع در حین کار مشخص می‌شود که آن در حجم داده‌های زیاد عمل نمی‌کند.

مزیت‌های استفاده از BI انعطاف‌پذیری بالا، سرعت در پاسخگویی به نیازها، مقایسه‌ی چندبعدی، نگاه سرویس و … است. شروع‌کننده‌های این حوزه افرادی بودند که دانشی درباره‌ی این بحث نداشتند. این امر از معایب آن کار به شمار می‌آمد. بااین‌حال ابزاری به‌عنوان سیستم BI فروخته می‌شد.

وقتی یک پروژه قابل‌استفاده‌ باشد، موفق است و اگر به هر دلیلی کنار گذاشته‌ شود، شکست‌خورده است.

در ادامه به مواردی که برخی از شرکت‌ها از این اطلاعات استفاده نمی‌کنند و این روش مورد توجه نبوده‌است، اشاره شد.

سپس علم داده‌ها (data science) که دانش استخراجی برای پردازش داده است، مورد بحث قرار گرفت. در هنگام پردازش داده در بعضی موارد سؤال‌ها را می‌دانیم و به دنبال پاسخ می‌گردیم اما در برخی موارد سؤال‌ها را نمی‌دانیم و پیش‌بینی می‌کنیم که در این حالت می‌توان از داده‌کاوی (data mining) استفاده کرد. داده‌کاوی ابزاری برای کشف دانش پنهان است که وقتی حجم دیتا زیاد باشد می‌توان از آن استفاده کرد.

راهکار بعدی بازیابی داده است که اطلاعات را با یک پارامتر خاص جدا می‌کنیم سپس فرآیندهایی را که نیاز است، روی دیتا انجام می‌دهیم تا به اطلاعات دقیق برسیم. داده‌کاوی به این شکل است که یک سری داده‌ی خام داریم و بررسی می‌کنیم که به چه دانشی می‌توان رسید.

photo_2017-02-19_10-55-46

موضوع بعدی که به آن پرداخته شد چالش‌هایی بود که در برابر انجام تحلیل داده‌ای وجود دارد که این موارد شامل: دامنه‌ی ابعاد داده، پیچیدگی و همگن بودن داده، کیفیت داده، توزیع داده، محرمانگی داده و … است که مهم‌ترین آن‌ها در نظرسنجی‌ها کثیف بودن داده‌ها (چالشی‌ترین موضوع)، ارائه‌ی داده‌کاوی و کاربرد آن به دیگران (جزء ۴ چالش اول) و سخت بودن دسترسی به داده‌ها (جزء ۳ چالش اول) بودند.

به‌طور خاص چالش‌هایی که در کشور ایران وجود دارد از دو جهت دانشمند داده و کارفرما بررسی شد. از این موارد برای دانشمند داده می‌توان به کمبود خبره، رقابت منفی (قیمت، تخریب و …)، عدم تخصیص مناسب (مثلاً بی ای مقابل مه داده) و … است. برای کارفرمایان عدم تعریف مناسب (تفاوت آمار یا تفاوت بین هوش تجاری و مه داده)، دید ابزار در مقابل راه‌حل، اصرار درون‌سازمانی و … می‌باشد.

بحث انتهایی در مورد ویژگی‌های کلان داده‌ها و نحوه‌ی برخورد با آن‌ها بود. کلان داده‌ها سه ویژگی تنوع بالا، نرخ رشد بالا و حجم بالا را دارند که همین نحوه‌ی برخورد با آن‌ها را متفاوت می‌کند.

درنهایت به پرسش‌وپاسخ پرداخته شد که حاضران نکات ابهام و مواردی که با آن درگیر بودند را مطرح کردند.

ادی بر ایده‌پردازی و پرهیز از کپی کردن نمونه‌های خارجی شد.

گزارش کامل کارگاه را می توانید از لینک زیر دریافت نمایید.

دانلود

دانلود

نویسنده گزارش: فائزه زمانی

ویراستار: یاسمن حسینی

 

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *