دیتا چیست؟ سوال سادهی که به آن جوابهای متفاوتی ارائه میشوند. عبارتی که معمولاً آنرا جدید و محصول تکنالوژی میدانند. درحالیکه، دیتا و فعالیتهای مرتبط با آن، به قرنها پیش برمیگردد.

💡 خلاصه و به زبان ساده: به هر آنچه که قابل شمارش و اندازهگیری باشد، دیتا گفته میشود. دیتا میتواند در قالبها و فارمتهای مختلف؛ از جمله، عدد، متن، تصویر، ویدیو و صدا ذخیره شود.
با شنیدن کلمه دیتا، خصوصاً برای ما غیر انگلیسی زبانها، چنین برداشت میشود که با لغت جدیدی روبرو استیم. لغتی که محصول تکنالوژی است و در دههای اخیر بهوجود آمده است. این اما درست نیست!
مرتبط: دو هدف اصلی جمعآوری، ذخیره و استفاده از دیتا توسط دولتها، سازمانها و بزنسها
دیتا، به انگلیسی data، از کلمه لاتین datum، به معنی «چیزی دادهشده»، گرفته شده است.
سابقهی استفاده از کلمه دیتا (data) در زبان انگلیسی به نزدیک به سه قرن پیش، سال ۱۸۴۰ میلادی بر میگردد.
نیم قرن بعد از آن، اما این لغت با معنای خاصتر استفاده شده است؛ حقایق و معلومات عددی که بعداً بتوان به آن ارجاع کرد.
به تعقیب آن، حدود نیم قرن بعدتر (دهه ۴۰ قرن ۲۰)، این واژه راهِ خود را به حوزه کمپیوتر باز کرد.
در این حوزه، دیتا برای توصیف معلومات خام استفاده میشد؛ نوعِ معلومات که توسط کمپیوتر قابل پروسس باشد.

استفاده از دیتا در حوزه کمیپوتر به دهه ۴۰ قرن ۲۰ میلادی (۱۹۴۰s) بر میگردد.
© Photo: Colossus Mark 1, ۱۹۴۴
از حدود ۶۰ سال پیش به این سو، لغت دیتا برای تعریف هر نوع معلومات و اطلاعات خام استفاده میشود؛ با همین معنی و مفهومِ که ما امروز میشناسیم.
در زبان فارسی (ایران) کلمه «داده» را مترادف این لغت در نظر گرفتند؛ اما در افغانستان، بیشتر از همان کلمه انگلیسی دیتا (Data) استفاده میکنند.
دیتا به زبان ساده
برای درک مفهوم لغت دیتا (data) به این جملات توجه کنید:
- دیتا نشان میدهد قیمت دالر در مقابل افغانی رو به کاهش است.
- دانشمند درباره الگوهای تغییرات اقلیمی دیتا جمعآوری کردهاند.
- موبایلهای جدید دیتا را با سرعت بیشتر پروسس میکند.
- دیتا در دیتابیس ذخیره و نگهداری میشود.
- سازمان ملل درباره بررسی وضعیت بشری از سراسر افغانستان دیتا جمعآوری میکند.
- دیتای مکتوبهای درج شده در کتاب وارده، صاده مکتب در سه ماه اخیر.
رویدادها، ارقام و معلومات خام دیتا است؛ معلوماتی که هنوز برای اهداف خاص تحلیل نشدهاند.
به شکل دقیقتر، هرچیزی قابل شمارش / حساب کردن را میتوان در جمع دیتا دستهبندی نمود. مثل ارقام و اعداد، لغات، تصاویر، صدا و غیره.
با این تعریف، تعداد شاگران یک صنف دیتا است. رنگ آبی، تصویر یک پلنگ و صدای یک شیر. درجه حرارت یک اتاق نیز دیتا است.
تعریف علمی دیتا
براساس تعریف Microsoft در Coursera، دیتا مجموعه از حقایق، توضیحات و مشاهدات میباشد که برای تصمیمگیری استفاده میشود.
دیتا میتواند ساختاریافته (Structured)، نیمهساختاریافته (Semi-structured) و یا ناساختاریافته (Unstructured) باشند.
هرگاه دیتا به شکل جدول، در قالب ستون و سطر، ذخیره شده باشد، دیتای ساختاریافته گفته شود. دیتای ساختاریافته در دیتابیسهای رابطهیی (Relational database) ذخیره میشود.

دیتای که در قالب جدولهای Excel ذخیره میشود، نمونهی خوبی از دیتای ساختاریافته است.
© Image by rawpixel.com on Freepik
دیتای نیمهساختاریافته با اینکه از یک ساختار نسبی برخوردار است، اما در قالب جدول ذخیره نمیشود. به عنوان نمونهی از این نوع دیتا، میتوان از JavaScript Object Notation یا JSON نام برد.
متون (اسناد، کتب، مقالات و …)، تصاویر، فایلهای صوتی، ویدیوها سیاهههای طبی، دیتای سنسورها از جمله دیتای غیرساختاریافته گفته میشود.
این نوع دیتا از مدل و شیمای خاص و از پیشتعیینشده بهره نمیبرد.
تعریف دیتا در دیتا ساینس
در علم دیتا (Data Science)، دیتا به مجموعه مشاهدات و سنجشها گفته میشود که به واسطهی آن میتوان درباره جمعیتها و پدیدهها نتیجهگیری کرد.
دیتا میتواند کمی باشد یا کیفی؛ با امکان جمعآوری از منابع مختلف. مثل سرویها، امتحانات/تجربیات و شبکههای اجتماعی.
در دیتا ساینس، دیتا معمولاً به دیتای خام و غیر پروسسشده گفته میشود؛ دیتای که ممکن هنوز پالایش نشده، ساختار ندارد و ممکن دارای خطاهای (Errors) زیاد باشد.
دیتای خام ممکن دارای خطاهای زیاد و بدون ساختار خاص باشد.
© Photo: Image by wayhomestudio on Freepik

تعریف دیتا در دیتا ساینس با سایر حوزهها کمی متفاوت است. به مثالهای ذیل توجه کنید:
- تعداد کلیکها در یک وبسایت
- تغییر قیمتها در بازار مالی در انتروال زمانی ویژه
- تعداد افرادی که به مریضی خاص مبتلا شدهاند
- جوابهای پاسخدهندهها به یک سروی
دیتا در دیتاساینس با هدف نتیجهگیری درباره جمعیتها و پدیدهها استفاده میشود. بعضی از ویژگیهای دیتا در دیتاساینس قرار ذیلاند:
- حجم (Volume): مقدار دیتا به شکل مداوم در حال افزایش است.
- تنوع (Variety): تنوع دیتا، شامل انواع دیتای ساختاریافته، نیمهساختاریافته و ناساختاریافته، پیوسته در حال گسترش است.
- سرعت (Velocity): با ظهور دیتا استریمینگ لحظهیی سرعت تولید دیتا به شکل قابلتوجه افزایش یافته است.
- موثق بودن (Veracity): موثق بودن دیتا، به دلیل افزایش نویز و خطاها، بیشتر در معرض توجه قرار گرفته است.
با توجه توضیحات فوق، ویژگیهای دیتا در دیتاساینس را میتوانید با عبارت «۴V» به ذهن بسپارید.
دیجتل، تکثیر و پروسس
دیتا را میتوان به شکلِ دیگر نیز تعریف کرد: معلومات حقیقی و واقعی در فارمت دیجیتل که قابلیت پروسس و تکثیر را داشته باشد.
در این تعریف سه لغت کلیدی وجود دارند: دیحیتل (digital)، پروسس/پردازش (process) و تکثیر (transmit).
معلومات زمانی در قالب/فارمت دیجیتل قابل توصیف است که قابل تبدیل به اعداد باینری (binary)، یعنی (۰۱) باشد. این معمولترین روش برای ارائه دیتا توسط کمپیوترها و دیگر وسایل دیجیتلی است.
ویژگی دیگر دیتا تکثیرپذیری آن است – بدین معنی که آنرا بتوان توسط رسانهها و اتصالهای مختلف، مانند لَین، بیسیم و فایبر نوری میان وسایل دیجیتلی انتقال داد.
لغت کلیدی سوم پروسس/پردازش (process) است. پروسس دیتا به دستکاریپذیری آن گفته میشود. به این معنا که قابلیت ترتیبشدن (sort) کرد، غربال (filter) و تحلیل (analyze) را داشته باشد.
دیدگاهتان را بنویسید