تجسم داده ها توسط بن فرای

آخرین مطالب

امکانات وب

تجسم داده ها توسط بن فرای

با یک آزمایش 10 روزه رایگان از اوریلی ، به تجسم داده ها و 60K+ عناوین دیگر دسترسی پیدا کنید.

همچنین رویدادهای زنده ، دوره هایی که توسط نقش شغلی و موارد دیگر تنظیم شده اند وجود دارد.

فصل 1. هفت مرحله از تجسم داده ها

بیشترین ارزش یک تصویر زمانی است که ما را وادار می کند تا آنچه را که هرگز انتظار نداشتیم ببینیم متوجه شویم.

- جان توکی

مسیرهایی که میلیون ها بازدید کننده از طریق یک وب سایت طی می کنند چیست؟چگونه حروف 3. 1 میلیارد A ، C ، G و T از ژنوم انسان با آنهایی که از شامپانزه یا موش مقایسه می شوند ، مقایسه می شود؟از چند صد هزار پرونده در دیسک سخت رایانه ، کدام یک بیشترین فضای را به خود اختصاص می دهند و چند بار از آنها استفاده می کنید؟با استفاده از روشهای مربوط به زمینه های علوم کامپیوتر ، آمار ، داده های کاوی ، طراحی گرافیک و تجسم ، می توانیم به روشی معنی دار پاسخ دهیم که پاسخ ها را نیز در دسترس دیگران قرار می دهد.

تمام سؤالات قبلی شامل مقدار زیادی از داده ها است که به دست آوردن درک "تصویر بزرگ" از معنای آن بسیار دشوار است. این مشکل بیشتر توسط ماهیت تغییر مداوم داده ها پیچیده می شود ، که می تواند ناشی از اضافه شدن اطلاعات جدید یا اطلاعات قدیمی تر به طور مداوم تصفیه شود. این داده ها به ابزارهای جدید مبتنی بر نرم افزار نیاز دارند و پیچیدگی آن نیاز به بررسی بیشتر دارد. هر زمان که داده ها را تجزیه و تحلیل می کنیم ، هدف ما برجسته کردن ویژگی های آن به ترتیب اهمیت آنها ، آشکار کردن الگوهای و همزمان ویژگی هایی است که در ابعاد مختلف وجود دارد.

این کتاب به شما نشان می دهد که چگونه می توانید از داده ها به عنوان منبعی استفاده کنید که در غیر این صورت ممکن است هرگز به آن ضربه بزنید. شما اصول تجسم اساسی را یاد خواهید گرفت ، نحوه انتخاب نوع مناسب برای اهداف خود و نحوه ارائه ویژگی های تعاملی که کاربران را بارها و بارها به سایت شما می رساند. شما همچنین یاد می گیرید که در پردازش برنامه ریزی کنید ، یک محیط ساده اما قدرتمند که به شما امکان می دهد تکنیک های موجود در این کتاب را به سرعت انجام دهید. شما می توانید یک مبنای مناسب برای طراحی رابط ها در اطراف مجموعه داده های بزرگ پیدا کنید ، اما حتی اگر به سایر ابزارهای تجسم بروید ، روش های تفکر ارائه شده در اینجا به شما خدمت می کنند تا زمانی که انسان همچنان به پردازش اطلاعات به همان روشی که می پردازند ، پردازش کنندهمیشه انجام شده است

چرا نمایش داده ها نیاز به برنامه ریزی دارند

هر مجموعه از داده ها نیازهای ویژه ای دارند و هدفی که از آن استفاده می کنید از مجموعه داده ها به اندازه خود داده ها تأثیر می گذارد. ده ها ابزار سریع برای توسعه گرافیک به صورت کوکی برش در برنامه های اداری ، در وب و جاهای دیگر وجود دارد ، اما مجموعه داده های پیچیده ای که برای برنامه های کاربردی تخصصی استفاده می شود ، نیاز به درمان منحصر به فرد دارند. در طول این کتاب ، ما بحث خواهیم کرد که چگونه ویژگی های یک مجموعه داده به تعیین نوع تجسم استفاده می کنید.

اطلاعات بیش از حد

وقتی اصطلاح "اضافه بار اطلاعات" را می شنوید ، احتمالاً دقیقاً می دانید معنی آن چیست زیرا این چیزی است که شما روزانه با آن سر و کار دارید. در کتاب ریچارد سائول ورمن اضطراب اطلاعاتی (دوبله) ، او توضیح می دهد که چگونه نیویورک تایمز به طور متوسط یکشنبه اطلاعات بیشتری را نسبت به یک شخص رنسانس در کل عمر خود به خود اختصاص داده است.

اما این یک زمان هیجان انگیز است. با قیمت 300 دلار ، می توانید یک کامپیوتر کالایی خریداری کنید که هزاران بار قدرت محاسباتی بیشتری نسبت به اولین رایانه هایی که برای جدول بندی سرشماری ایالات متحده استفاده می شود ، داشته باشد. قابلیت ماشینهای مدرن حیرت انگیز است. انجام تجزیه و تحلیل داده های پیشرفته دیگر نیازی به آزمایشگاه تحقیقاتی ، فقط یک دستگاه ارزان و برخی از کد ها ندارد. به مجموعه داده های پیچیده می توان دسترسی ، کاوش و تجزیه و تحلیل توسط مردم را به گونه ای که در گذشته به سادگی امکان پذیر نبود ، مورد بررسی قرار گیرد.

10 سال گذشته همچنین تغییرات چشمگیری در قابلیت های گرافیکی دستگاه های متوسط ایجاد کرده است. سخت افزار گرافیکی با رده بالا 2D و 3D با استفاده از صنعت بازی ، دیگر نیازی به ماشین های اختصاصی از فروشندگان خاص ندارد ، اما در عوض می تواند به عنوان یک کارت اضافی 100 دلاری خریداری شود و تجهیزات استاندارد برای هر دستگاهی است که 700 دلار یا بیشتر هزینه دارد. در صورت عدم استفاده از بازی ، این کارت ها می توانند مدل های بسیار پیچیده ای را با هزاران شکل ارائه دهند و می توانند به سرعت به سرعت انجام دهند تا انیمیشن صاف و تعاملی ارائه دهند. و این قیمت ها فقط با چند سال کاهش می یابد ، گرافیک های شتاب تجهیزات استاندارد در رایانه کالاهای فوق الذکر خواهند بود.

جمع آوری داده ها

ما در جمع آوری داده ها بهتر و بهتر می شویم ، اما آنچه را که می توانیم با آن انجام دهیم تاخیر می کنیم. بیشتر نمونه های این کتاب از منابع داده آزاد در دسترس در اینترنت تهیه شده است. بسیاری از داده ها در آنجا وجود دارد ، اما از بیشترین پتانسیل خود استفاده نمی شود زیرا به همان اندازه قابل تجسم نیست.(اطلاعات بیشتر در مورد این را می توان در فصل 9 یافت ، که مکان هایی برای یافتن داده ها و نحوه بازیابی آن را در بر می گیرد.)

با تمام داده هایی که جمع آوری کرده ایم ، ما هنوز پاسخ های رضایت بخش زیادی در مورد نوع سؤالاتی که با آنها شروع کردیم ، نداریم. این بزرگترین چالش دوران غنی از اطلاعات ما است: چگونه می توان به این سؤالات سریع پاسخ داد ، اگر بلافاصله نباشد؟ما در اندازه گیری و ضبط چیزها بسیار خوب هستیم ، چرا ما از روشهای درک و برقراری ارتباط این اطلاعات استفاده نکرده ایم؟

فکر کردن در مورد داده ها

ما همچنین در مورد خود اطلاعات بسیار پیشرفته بسیار کمی انجام می دهیم. هنگامی که AOL مجموعه ای از داده ها را منتشر کرد که حاوی نمایش داده های جستجو میلیون ها کاربر است که برای محافظت از معصومین "تصادفی" شده اند ، به زودی مقالاتی در مورد چگونگی شناسایی افراد توسط و خجالت کشیدن در مورد عادات جستجوی آنها ظاهر شد. حتی اگر ما بتوانیم این نوع اطلاعات را جمع آوری کنیم ، ما اغلب نمی دانیم معنی آن چیست. آیا این مسئله مهم بود یا به سادگی چند کاربر AOL را شرمنده کرد؟به همین ترتیب ، هنگامی که میلیون ها سوابق داده های شخصی به طور غیرقانونی از بین می روند یا به آن دسترسی پیدا می کنند ، این به چه معنی است؟با توجه به اینکه تعداد کمی از افراد به داده ها می پردازند ، درک ما کاملاً باریک باقی مانده است ، و به مواردی مانند "شماره کارت اعتباری من ممکن است سرقت شود" یا "آیا من اهمیتی می دهم اگر کسی ببیند من چه چیزی را جستجو می کنم؟"

داده ها هرگز یکسان باقی نمی مانند

ما ممکن است عادت داشته باشیم که به عنوان مقادیر ثابت برای تجزیه و تحلیل در مورد داده ها فکر کنیم ، اما داده ها یک هدف در حال حرکت هستند. چگونه می توانیم نمایش داده هایی را ایجاد کنیم که هر ثانیه ، ساعت یا هفته با مقادیر جدید تنظیم می شوند؟این یک ضرورت است زیرا بیشتر داده ها از دنیای واقعی ناشی می شوند ، جایی که هیچ مطلق وجود ندارد. تغییر دما ، قطار دیر اجرا می شود ، یا راه اندازی محصول باعث می شود الگوی ترافیک در یک وب سایت به طرز چشمگیری تغییر کند.

چه اتفاقی می افتد که همه چیز شروع به حرکت کند؟چگونه با داده های "زنده" ارتباط برقرار کنیم؟چگونه می توانیم داده ها را با گذشت زمان تغییر دهیم؟ما ممکن است از انیمیشن برای بازگرداندن تکامل یک مجموعه داده یا تعامل استفاده کنیم تا کنترل کنیم که چه مدت زمانی را جستجو می کنیم. چگونه می توانیم برای این شرایط کد بنویسیم؟

سؤال چیه؟

از آنجا که ماشین ها ظرفیت زیادی را که می توانیم با آن ایجاد کنیم (از طریق اندازه گیری و نمونه برداری) و ذخیره داده ها به شدت افزایش داده اند ، جدا کردن داده ها از دلیل اصلی جمع آوری آن آسان تر می شود. این منجر به یک وضعیت بسیار مکرر می شود: نزدیک شدن به مشکلات تجسم با این سؤال ، "چگونه می توانیم داده های زیادی را درک کنیم؟"

در مقابل، به نقشه‌های مترو فکر کنید، که از شکل پیچیده شهر انتزاعی شده و بر هدف سوار تمرکز دارد: رسیدن از یک مکان به مکان دیگر. محدود کردن جزئیات هر شکل، پیچ و شکل جغرافیایی این مجموعه داده های پیچیده را برای پاسخ به سؤال سوارکار کاهش می دهد: "چگونه از نقطه A به نقطه B برسم؟"

هری بک در دهه 1930، زمانی که نقشه متروی لندن را دوباره طراحی کرد، قالبی را ابداع کرد که امروزه معمولاً برای نقشه های مترو استفاده می شود. این نقشه با الهام از چیدمان بردهای مدار، سیستم پیچیده لوله را به یک سری خطوط عمودی، افقی و 45 درجه مورب ساده کرد. در حالی که سعی می شود تا حد امکان از طرح فیزیکی نسبی حفظ شود، نقشه فقط اتصالات بین ایستگاه ها را نشان می دهد، زیرا این تنها اطلاعاتی است که سوارکاران برای تصمیم گیری در مسیر خود استفاده می کنند.

هنگام شروع یک پروژه تجسم، معمول است که روی تمام داده هایی که تاکنون جمع آوری شده است تمرکز کنید. مقدار اطلاعات ممکن است بسیار زیاد باشد - مردم دوست دارند درباره اینکه چند گیگابایت داده جمع آوری کرده اند و مشکل تجسم آنها چقدر سخت است به خود ببالند. اما تجسم اطلاعات عالی هرگز از نقطه نظر مجموعه داده ها شروع نمی شود. با سوالات شروع می شودچرا داده ها جمع آوری شد، چه چیز جالبی در مورد آن است و چه داستان هایی می تواند بگوید؟

مهمترین بخش درک داده ها، شناسایی سؤالی است که می خواهید به آن پاسخ دهید. به جای فکر کردن در مورد داده‌های جمع‌آوری‌شده، به نحوه استفاده از آن‌ها فکر کنید و نسبت به آنچه که جمع‌آوری شده است کار کنید. شما داده ها را جمع آوری می کنید زیرا می خواهید چیزی در مورد آن بدانید. اگر واقعاً نمی دانید چرا آن را جمع آوری می کنید، فقط آن را احتکار می کنید. گفتن جملاتی مانند «می‌خواهم بدانم در آن چیست» یا «می‌خواهم بدانم معنی آن چیست» آسان است. مطمئنا، اما چه معنی دارد؟

هرچه بتوانید سوال خود را دقیق تر بیان کنید، نتیجه بصری دقیق تر و واضح تر خواهد بود. هنگامی که سؤالات دامنه وسیعی دارند، مانند وظایف «تحلیل داده‌های اکتشافی»، پاسخ‌ها به خودی خود گسترده هستند و اغلب به سمت کسانی که خودشان به داده‌ها مسلط هستند، تنظیم می‌شود. جان توکی، که اصطلاح تحلیل داده های اکتشافی را ابداع کرد، گفت: «... تصاویر مبتنی بر اکتشاف داده‌ها باید پیام‌های خود را به ما تحمیل کنند.»[1] بسیاری از مشکلات داده‌ای برچسب «اکتشافی» می‌زنند، زیرا داده‌های جمع‌آوری‌شده بسیار زیاد است، حتی اگر هدف اصلی پاسخ به یک سؤال خاص یا دستیابی به نتایج خاص باشد.

یکی از مهمترین (و حداقل فنی) مهارت در درک داده ها ، پرسیدن سؤالات خوب است. یک سؤال مناسب علاقه ای به داده ها به اشتراک می گذارد ، سعی می کند آن را به دیگران منتقل کنید و به جای ریاضی گرا ، کنجکاوی گرا است. تجسم داده ها دقیقاً مانند هر نوع ارتباطی دیگر است: موفقیت با توانایی مخاطبان شما برای انتخاب و هیجان از بینش شما تعریف می شود.

مسلماً ، شما ممکن است مجموعه ای از داده های غنی داشته باشید که می خواهید با تعریف نکردن سؤال خود ، دسترسی انعطاف پذیر را ارائه دهید. حتی در این صورت ، هدف شما باید برجسته کردن یافته های کلیدی باشد. در زمینه تجسم تمایل به وام گرفتن از حوزه آمار و جدا کردن مشکلات به اکتشافی و نمایشگاه وجود دارد ، اما برای اهداف این کتاب ، این تمایز مفید نیست. از روشها و فرآیند برای هر دو استفاده می شود.

به طور خلاصه ، یک تجسم مناسب نوعی روایت است و پاسخ روشنی به یک سؤال بدون جزئیات بیرونی ارائه می دهد. با تمرکز بر روی هدف اصلی سؤال ، می توانید چنین جزئیات را از بین ببرید زیرا این سؤال معیار آنچه را که هست و لازم نیست ارائه می دهد.

ترکیبی از بسیاری از رشته ها

با توجه به پیچیدگی داده ها ، استفاده از آن برای ارائه یک راه حل معنی دار ، نیاز به بینش از زمینه های متنوع دارد: آمار ، داده کاوی ، طراحی گرافیک و تجسم اطلاعات. با این حال ، هر زمینه در انزوا از سایرین تکامل یافته است.

بنابراین ، طراحی بصری - زمینه نقشه برداری از داده ها به یک شکل بصری - به طور معمول نحوه رسیدگی به هزاران یا ده ها هزار مورد از داده ها را مورد بررسی قرار نمی دهد. تکنیک های داده کاوی دارای چنین قابلیت هایی هستند ، اما از وسایل تعامل با داده ها جدا می شوند. تجسم اطلاعات مبتنی بر نرم افزار ، بلوک های ساختمانی را برای تعامل و نمایش انواع مختلف داده های انتزاعی اضافه می کند ، اما به طور معمول این روش ها اصول زیبایی شناسی طراحی بصری را به جای اینکه قدرت خود را به عنوان یک کمک لازم برای برقراری ارتباط مؤثر در آغوش بگیرند ، کم ارزش می کنند. شخصی که به یک مشکل نمایندگی داده نزدیک می شود (مانند یک دانشمند که سعی در تجسم نتایج یک مطالعه شامل چند هزار قطعه داده ژنتیکی دارد) اغلب انتخاب نمایندگی را دشوار می کند و حتی نمی داند چه ابزاری برای استفاده یا کتاب برای خواندنبرای شروع.

روند

ما باید این زمینه ها را به عنوان بخش هایی از یک فرآیند واحد آشتی دهیم. طراحان گرافیک می توانند علوم رایانه لازم برای تجسم را بیاموزند ، و آمارشناسان می توانند با درک اصول طراحی بصری در پشت نمایش داده ها ، داده های خود را به طور مؤثرتری ارتباط دهند. خود روشها جدید نیستند ، اما انزوا آنها در زمینه های فردی مانع از استفاده از آنها در کنار هم شده است. در این کتاب ، ما از فرایندی استفاده می کنیم که رشته های فردی را بر هم می کند و تمرکز و توجه را در مورد چگونگی درک داده ها به جای دیدگاه و ابزارهای هر زمینه شخصی قرار می دهد.

روند درک داده ها با مجموعه ای از اعداد و یک سؤال آغاز می شود. مراحل زیر مسیری را برای پاسخ تشکیل می دهد:

بدست آوردن

داده ها را بدست آورید ، چه از یک پرونده در دیسک یا منبع از طریق شبکه.

برخی از ساختار را برای معنی داده ها تهیه کنید و آن را به دسته بندی ها سفارش دهید.

همه داده های مورد علاقه را حذف کنید.

روشهای مربوط به آمار یا داده کاوی را به عنوان راهی برای تشخیص الگوهای یا قرار دادن داده ها در متن ریاضی اعمال کنید.

یک مدل بصری اساسی مانند نمودار نوار ، لیست یا درخت را انتخاب کنید.

بازنمایی اصلی را بهبود بخشید تا آن را واضح تر و بصری جذاب تر کند.

روش هایی را برای دستکاری داده ها یا کنترل آنچه که ویژگی های قابل مشاهده است اضافه کنید.

البته ، این مراحل را نمی توان به طرز برده ای دنبال کرد. شما می توانید انتظار داشته باشید که آنها در یک زمان یا زمان دیگری در پروژه هایی که توسعه می دهید درگیر شوند ، اما گاهی اوقات چهار از هفت نفر خواهد بود و در بعضی اوقات همه آنها.

بخشی از مشکل رویکردهای فردی برای مقابله با داده ها این است که جدایی زمینه ها منجر به افراد مختلفی می شود که هر یک بخش جدا شده از مشکل را حل می کنند. وقتی این اتفاق بیفتد ، در هر انتقال چیزی از بین می رود - مانند "بازی تلفنی" که در آن هر مرحله از فرآیند جنبه های سؤال اولیه مورد نظر را کاهش می دهد. قالب اولیه داده ها (تعیین شده توسط نحوه دستیابی و تجزیه آن) اغلب نحوه در نظر گرفتن فیلتر یا معدن را هدایت می کند. روش آماری مورد استفاده برای جمع آوری اطلاعات مفید از داده ها ممکن است ارائه اولیه را هدایت کند. به عبارت دیگر ، بازنمایی نهایی به جای پاسخ به سوال اولیه ، نتایج روش آماری را منعکس می کند.

به طور مشابه، یک طراح گرافیک که در مرحله بعدی وارد می شود، اغلب به جای تمرکز بر روی سوال اولیه، به مشکلات خاص با بازنمایی ارائه شده توسط مراحل قبلی پاسخ می دهد. مرحله تجسم ممکن است یک ابزار متقاعد کننده و تعاملی برای مشاهده داده های فیلتر شده از مراحل قبلی اضافه کند، اما نمایشگر انعطاف ناپذیر است زیرا مراحل اولیه فرآیند پنهان هستند. علاوه بر این، متخصصان هر یک از زمینه‌هایی که معمولاً با مشکلات داده سروکار دارند، اغلب در مورد نحوه عبور از مجموعه گسترده‌تر روش‌ها و رسیدن به پاسخ نامشخص هستند.

این کتاب کل مسیر از داده ها تا درک را پوشش می دهد: تبدیل مجموعه ای از اعداد خام به چیزی منسجم و مفید. داده های مورد بررسی ممکن است اعداد، لیست ها یا روابط بین چندین موجودیت باشد.

باید در نظر داشت که اصطلاح تجسم اغلب برای توصیف هنر انتقال یک رابطه فیزیکی استفاده می شود، مانند نقشه مترو که در ابتدای این فصل ذکر شد. این یک نوع تجزیه و تحلیل و مهارت متفاوت از تجسم اطلاعات است، که در آن داده ها عمدتاً عددی یا نمادین هستند (به عنوان مثال، A، C، G، و T - حروف کد ژنتیکی - و حاشیه نویسی اضافی در مورد آنها). تمرکز اصلی این کتاب تجسم اطلاعات است: به عنوان مثال، یک سری اعداد که دما را در یک پیش‌بینی آب و هوا توصیف می‌کنند نه شکل پوشش ابری که در آن نقش دارد.

یک مثال

برای نشان دادن هفت مرحله ذکر شده در بخش قبل، و چگونگی کمک به تجسم اطلاعات موثر، بیایید ببینیم که چگونه می توان این فرآیند را برای درک یک مجموعه داده ساده به کار برد. در این مورد، سیستم شماره گذاری کد پستی را که سرویس پستی ایالات متحده استفاده می کند، می گیریم. این برنامه به خصوص پیشرفته نیست، اما یک اسکلت برای نحوه عملکرد این فرآیند ارائه می دهد.(فصل 6 شامل اجرای کامل پروژه است.)

سؤال چیه؟

تمام مشکلات داده با یک سوال شروع می شود و با یک ساختار روایی پایان می یابد که پاسخ روشنی را ارائه می دهد. پروژه ZipDecode (که در بخش 6 توضیح داده شده است) از علاقه شخصی به رابطه سیستم شماره گذاری کد پستی با مناطق جغرافیایی تهیه شده است. من در بوستون زندگی می کردم ، می دانستم که اعداد با یک مکان صفر مشخص شده در ساحل شرقی شروع می شوند. با گذراندن وقت در سانفرانسیسکو ، می دانستم که شماره های اولیه برای ساحل غربی همه نود بودند. من در میشیگان بزرگ شدم ، جایی که تمام کدهای ما چهار پیش فرض بودند. اما رقم دوم چه نوع منطقه ای را مشخص می کند؟یا سوم؟

برنامه تمام شده در ابتدا در چند ساعت به عنوان روشی سریع برای گرفتن آنچه ممکن است یک مجموعه داده خسته کننده (لیست طولانی از کدهای زیپ ، شهرها و عرض های و طول و طول آنها) در نظر گرفته شود ساخته شد و چیزی را برای مخاطبان وب ایجاد کرد که توضیح دادچگونه کدهای مربوط به جغرافیا آنها.

بدست آوردن

مرحله کسب شامل به دست آوردن داده ها است. مانند بسیاری از مراحل دیگر ، این می تواند بسیار پیچیده باشد (یعنی تلاش برای جمع آوری داده های مفید از یک سیستم بزرگ) یا بسیار ساده (خواندن یک فایل متنی به راحتی در دسترس).

نسخه ای از لیست کد پستی را می توان در وب سایت دفتر سرشماری ایالات متحده یافت ، زیرا اغلب برای برنامه نویسی جغرافیایی داده های آماری استفاده می شود. لیست یک پرونده آزادانه در دسترس با تقریباً 42000 خط است که یکی برای هر یک از کدها است که بخش کوچکی از آن در شکل 1-1 نشان داده شده است.

Zip codes in the format provided by the U.S. Census Bureau

شکل 1-1. کدهای زیپ در قالب ارائه شده توسط دفتر سرشماری ایالات متحده

کسب مربوط به نحوه بارگیری کاربر داده های شما و همچنین نحوه به دست آوردن داده ها در وهله اول است. اگر پروژه نهایی از طریق اینترنت توزیع شود ، همانطور که برنامه را طراحی می کنید ، باید زمان لازم برای بارگیری داده ها را در مرورگر در نظر بگیرید. و از آنجا که داده های بارگیری شده به مرورگر احتمالاً بخشی از مجموعه داده های بزرگتر حتی بزرگتر در سرور است ، ممکن است شما برای تسهیل بازیابی زیر مجموعه های مشترک ، داده های موجود در سرور را ساختار دهید.

تجزیه کردن

پس از به دست آوردن داده ها ، باید تجزیه شود - در قالب ای که هر قسمت از داده ها را با استفاده در نظر گرفته شده خود نشان می دهد ، تجزیه شود. هر خط از پرونده باید در امتداد قسمتهای جداگانه آن شکسته شود. در این حالت ، باید در هر شخصیت برگه محدود شود. سپس ، هر قطعه از داده ها باید به یک قالب مفید تبدیل شوند. شکل 1-2 طرح هر خط را در لیست سرشماری نشان می دهد ، که باید آن را بفهمیم تا آن را تجزیه کنیم و از آنچه می خواهیم خارج شویم.

Structure of acquired data

شکل 1-2. ساختار داده های اکتسابی

هر قسمت به عنوان یک نوع داده که ما در یک برنامه تبدیل از آن استفاده خواهیم کرد ، فرمت می شود:

رشته

مجموعه ای از شخصیت ها که یک کلمه یا یک جمله را تشکیل می دهند. در اینجا ، نام شهر یا شهر به عنوان یک رشته تعیین شده است. از آنجا که کدهای زیپ خود به اندازه یک سری از رقم ها تعداد زیادی ندارند (اگر تعداد آنها باشند ، کد 02139 به صورت 2139 ذخیره می شود ، که یک چیز مشابه نیست) ، آنها نیز ممکن است رشته ها در نظر گرفته شوند.

تعدادی با نقاط اعشاری (برای عرض جغرافیایی و طول های هر مکان استفاده می شود). این نام برای نقطه شناور کوتاه است ، از برنامه نویسی نامگذاری که نحوه ذخیره اعداد در حافظه رایانه را توصیف می کند.

یک حرف یا نماد دیگر. در این مجموعه داده ، یک کاراکتر گاهی دفاتر پست ویژه را تعیین می کند.

یک عدد بدون بخش کسری ، و از این رو هیچ نقطه اعشاری (به عنوان مثال ، 14 ، 0 یا 237).

داده ها (معمولاً یک عدد صحیح یا رشته ای) که در یک جدول دیگر از داده ها به مکانی می پردازد. در این حالت ، نقشه های شاخص کدهای شماره را به نام ها و اختصارات دو رقمی کشورها شماره گذاری می کنند. این در پایگاه داده ها متداول است ، جایی که از چنین شاخصی به عنوان نشانگر به جدول دیگری استفاده می شود ، گاهی اوقات به عنوان راهی برای جمع آوری داده ها بیشتر (به عنوان مثال ، یک کد دو رقمی نیاز به ذخیره کمتری نسبت به نام کامل دولت یا قلمرو دارد).

با اتمام این مرحله ، داده ها با موفقیت برچسب گذاری می شوند و در نتیجه برای برنامه ای که به نوعی آن را دستکاری یا نشان می دهد مفیدتر است.

فیلتر کردن

مرحله بعدی شامل فیلتر کردن داده ها برای حذف بخش هایی است که به استفاده ما مربوط نمی شوند. در این مثال ، به خاطر ساده نگه داشتن آن ، ما روی 48 ایالت مبهم تمرکز خواهیم کرد ، بنابراین سوابق شهرها و شهرهایی که جزئی از آن ایالت ها نیستند - آلاسکا ، هاوایی و سرزمین هایی مانند پورتوریک و-حذف شده. پروژه دیگر می تواند به کار ریاضی قابل توجهی نیاز داشته باشد تا داده ها را در یک مدل ریاضی قرار دهد یا آن را عادی کند (آن را به دامنه قابل قبولی از اعداد تبدیل کنید).

مال خودم

این مرحله شامل ریاضیات ، آمار و داده کاوی است. داده ها در این حالت فقط یک درمان ساده را دریافت می کنند: برنامه باید حداقل و حداکثر مقادیر عرض جغرافیایی و طول جغرافیایی را با استفاده از داده ها (همانطور که در شکل 1-3 نشان داده شده است) مشخص کند تا بتواند در یک صفحه نمایش در یک صفحه ارائه شودمقیاس مناسببیشتر اوقات ، این مرحله به مراتب پیچیده تر از یک جفت عملیات ریاضی ساده خواهد بود.

Mining the data: just compare values to find the minimum and maximum

شکل 1-3. استخراج داده ها: فقط مقادیر را مقایسه کنید تا حداقل و حداکثر پیدا کنید

نماینده

این مرحله شکل اولیه ای را که مجموعه ای از داده ها به خود می گیرند مشخص می کند. برخی از مجموعه های داده به صورت لیست نشان داده می شوند، برخی دیگر مانند درختان ساختار یافته اند و غیره. در این حالت، هر کد پستی دارای یک طول و عرض جغرافیایی است، بنابراین کدها را می توان به صورت یک نمودار دو بعدی ترسیم کرد که حداقل و حداکثر مقادیر برای طول و عرض جغرافیایی برای شروع و پایان مقیاس در هر بعد استفاده می شود. این در شکل 1-4 نشان داده شده است.

Basic visual representation of zip code data

شکل 1-4. نمایش تصویری اولیه داده های کد پستی

مرحله Represent یک پایه اصلی است که مهم ترین تصمیم را در یک پروژه تجسم نشان می دهد و می تواند شما را وادار کند در مراحل قبلی تجدید نظر کنید. نحوه انتخاب شما برای نمایش داده ها می تواند بر گام اول (چه داده هایی که به دست می آورید) و مرحله سوم (چه قطعات خاصی را استخراج می کنید) تأثیر بگذارد.

پالودن

در این مرحله، از روش‌های طراحی گرافیکی برای شفاف‌تر کردن بیشتر نمایش با جلب توجه بیشتر به داده‌های خاص (ایجاد سلسله مراتب) یا با تغییر ویژگی‌هایی (مانند رنگ) که به خوانایی کمک می‌کنند، استفاده می‌شود.

سلسله مراتب در شکل 1-5 ایجاد می شود، برای مثال، با رنگ آمیزی پس زمینه خاکستری عمیق و نمایش نقاط انتخاب شده (همه کدها با چهار شروع می شوند) به رنگ سفید و نقاط انتخاب نشده به رنگ زرد متوسط.

Using color to refine the representation

شکل 1-5. استفاده از رنگ برای اصلاح نمایش

تعامل داشتن

مرحله بعدی فرآیند تعامل را اضافه می کند و به کاربر اجازه می دهد داده ها را کنترل یا کاوش کند. تعامل ممکن است مواردی مانند انتخاب زیرمجموعه ای از داده ها یا تغییر دیدگاه را پوشش دهد. به عنوان مثال دیگری از مرحله ای که بر بخش قبلی فرآیند تأثیر می گذارد، این مرحله می تواند بر مرحله پالایش نیز تأثیر بگذارد، زیرا تغییر در دیدگاه ممکن است نیاز به طراحی متفاوت داده ها داشته باشد.

در پروژه Zipdecode، با تایپ یک عدد، تمام کدهای پستی که با آن شماره شروع می شوند انتخاب می شوند. شکل 1-6 و شکل 1-7 تمام کدهای پستی را نشان می دهد که به ترتیب با صفر و نه شروع می شوند.

The user can alter the display through choices (zip codes starting with 0)

شکل 1-6. کاربر می تواند نمایشگر را از طریق انتخاب ها تغییر دهد (کدهای پستی که با 0 شروع می شوند)

The user can alter the display through choices (zip codes starting with 9)

شکل 1-7. کاربر می تواند نمایشگر را از طریق انتخاب ها تغییر دهد (کدهای پستی که با 9 شروع می شوند)

یکی دیگر از بهبودهای تعامل کاربر (در اینجا نشان داده نشده است) کاربران را قادر می سازد تا صفحه نمایش را به صورت جانبی طی کرده و از چندین پیشوند عبور کنند. پس از تایپ بخشی یا تمام کد پستی، نگه داشتن کلید Shift به کاربران این امکان را می دهد که آخرین شماره تایپ شده را بدون زدن کلید Delete برای پشتیبان گیری جایگزین کنند.

تایپ کردن یک شکل بسیار ساده از تعامل است ، اما به کاربر این امکان را می دهد تا به سرعت درک طرح سیستم کد پستی را بدست آورد. فقط کافی است این نمونه را با دشواری استنباط همان اطلاعات از یک جدول کدهای زیپ و نام های شهر در تضاد کنید.

بیننده می تواند به تایپ ارقام ادامه دهد تا منطقه تحت پوشش هر مجموعه بعدی از پیشوندها را مشاهده کند. شکل 1-8 منطقه برجسته شده توسط دو رقم 02 را نشان می دهد ، شکل 1-9 سه رقم 021 را نشان می دهد ، و شکل 1-10 چهار رقم 0213 را نشان می دهد. سرانجام ، شکل 1-11 با ورود به یک زیپ کامل چه چیزی را نشان می دهدکد ، 02139 - نام شهر روی صفحه نمایش ظاهر می شود.

Honing in with two digits (02)

شکل 1-8. Honing in با دو رقم (02)

Honing in with three digits (021)

شکل 1-9. Honing in با سه رقم (021)

علاوه بر این ، کاربران می توانند یک ویژگی "بزرگنمایی" را فعال کنند که آنها را به هر رقم بعدی نزدیک تر کند ، جزئیات بیشتری را در اطراف منطقه آشکار می کند و نرخ ثابت جزئیات را در هر سطح نشان می دهد. از آنجا که ما یک نقشه را به عنوان نمایندگی انتخاب کرده ایم ، می توانیم جزئیات بیشتری از مرزهای ایالتی و ایالت یا سایر ویژگی های جغرافیایی اضافه کنیم تا به بینندگان کمک کنیم تا فضای "داده" از نقاط کد پستی را با آنچه در مورد محیط محلی می دانند مرتبط کنند.

Honing in further with four digits (0213)

شکل 1-10. در ادامه با چهار رقم (0213)

Honing in even further with the full zip code (02139)

شکل 1-11. با استفاده از کد پستی کامل (02139)

تکرار و ترکیب

شکل 1-12 مراحل مربوط به نظم را نشان می دهد و نشان می دهد که چگونه تصمیمات بعدی معمولاً در مراحل اولیه تأمل می کنند. هر مرحله از فرآیند به دلیل چگونگی تأثیرگذاری مراحل بر یکدیگر ، به طور غیرقابل توصیف پیوند می یابد. به عنوان مثال در برنامه ZipDecode:

نیاز به یک نمایش جمع و جور روی صفحه ، من را به این امر سوق داد تا داده ها را فقط 48 ایالت متناقض شامل کنم.
مرحله نمایندگی بر دستیابی به آن تأثیر گذاشت زیرا بعد از اینکه برنامه را توسعه دادم ، آن را اصلاح کردم تا بتواند داده هایی را که از طریق اتصال اینترنتی آهسته به مرورگر بارگیری شده است ، نشان دهد. تغییر من در ساختار داده ها اجازه می دهد تا نقاط به آرامی ظاهر شوند ، زیرا برای اولین بار از پرونده داده خوانده می شوند و از خود داده ها به عنوان "نوار پیشرفت" استفاده می کنند.
تعامل با تایپ اعداد پی در پی به معنای این بود که رنگ ها در مرحله پالایش بصری اصلاح می شوند تا یک انتقال آهسته را نشان دهند زیرا نقاط موجود در صفحه نمایش اضافه یا حذف می شوند. این به کاربر کمک می کند تا با جلوگیری از بروزرسانی های روی صفحه نمایش بیش از حد ، زمینه را حفظ کند.

Interactions between the seven stages

شکل 1-12. تعامل بین هفت مرحله

ارتباطات بین مراحل موجود در این فرآیند اهمیت فرد یا تیم را در پرداختن به پروژه به طور کلی نشان می دهد. این امر خلاف تمایل مشترک برای پروژه های سبک مونتاژ است ، جایی که برنامه نویسان بخش های فنی مانند دستیابی و تجزیه داده ها را اداره می کنند و طراحان بصری برای انتخاب رنگ ها و تایپ ها باقی مانده اند. در تقاطع این زمینه ها مجموعه ای جالب تر از خواص وجود دارد که قدرت آنها را در ترکیب نشان می دهد.

هنگام دستیابی به داده ها ، در نظر بگیرید که چگونه می تواند تغییر کند ، چه به صورت پراکنده (مانند یک بار در ماه) یا به طور مداوم. این مفهوم طراحی گرافیکی را که به طور سنتی در حل یک مشکل خاص برای یک مجموعه داده خاص متمرکز شده است ، گسترش می دهد و در عوض این مسئله را در نظر می گیرد که چگونه می توان نوع خاصی از داده ها را که ممکن است در آینده به روز شود ، اداره کند.

در مرحله فیلتر ، داده ها می توانند در زمان واقعی ، مانند برنامه ZipDecode فیلتر شوند. در حین پالایش بصری ، تغییرات در طراحی می تواند در کل سیستم اعمال شود. به عنوان مثال ، یک تغییر رنگ می تواند به طور خودکار برای هزاران عنصر که به آن نیاز دارند اعمال شود ، بلکه مجبور به ایجاد چنین اصلاح خسته کننده ای با دست می شود. این قدرت یک رویکرد محاسباتی است ، جایی که فرآیندهای خسته کننده از طریق اتوماسیون به حداقل می رسند.

اصول

من این مقدمه کلی برای تجسم را با بیان برخی از روشهای تفکر در مورد داده ها و بازنمایی آن که سالها و بسیاری از پروژه های متنوع به من خدمت کرده است ، به پایان می رسانم. آنها ممکن است در ابتدا انتزاعی به نظر برسند ، یا از اهمیت جزئی برای شغلی که با آن روبرو هستید ، اما من از شما می خواهم که هنگام تمرین تجسم ، آنها را برگردانید و مجدداً بازخوانی کنید. آنها فقط ممکن است در کارهای بعدی به شما کمک کنند.

هر پروژه نیازهای منحصر به فردی دارد

یک تجسم باید خصوصیات منحصر به فرد مجموعه داده هایی را که نشان می دهد منتقل کند. این کتاب نگران ارائه تعداد انگشت شماری از "تجسم" های آماده است که می تواند به هر مجموعه داده وصل شود. تجسم های آماده می تواند به تولید سریع از مجموعه داده های شما کمک کند ، اما آنها کالاهای غیر انعطاف پذیر هستند که می توانند در نرم افزار بسته بندی شده اجرا شوند. هر نمودار نوار یا نقشه پراکندگی ساخته شده با اکسل مانند نمودار نوار یا نقشه پراکندگی ساخته شده با اکسل خواهد بود. راه حل های بسته بندی شده فقط می توانند پاسخ های بسته بندی شده را ارائه دهند ، مانند یک اسباب بازی رشته ای که محدود به تعداد انگشت شماری از عبارات کنسرو شده است ، مانند "فروش نشان می دهد در هر یک از پنج سال گذشته افزایش اندکی نشان می دهد!"هر مشکلی بی نظیر است ، بنابراین برای حل مسئله از آن منحصر به فرد سرمایه گذاری کنید.

فصل های این کتاب به جای انواع نمایش ، بر اساس انواع داده ها تقسیم می شوند. به عبارت دیگر ، ما نمی گوییم ، "در اینجا چگونه می توان یک نمودار نوار را ساخت ، اما" در اینجا چندین روش برای نشان دادن همبستگی وجود دارد. "این یک روش قدرتمندتر به شما می دهد تا در مورد به حداکثر رساندن آنچه می توان در مورد داده های مورد نظر گفت.

من اغلب از کتابخانه ای از ابزارها خواسته می شود که به طور خودکار نمایش های جذاب از هر مجموعه داده داده شده را ایجاد کند. اما اگر هر مجموعه داده متفاوت باشد ، نقطه تجسم این است که جنبه جذاب داده ها را در معرض دید قرار داده و آن را مشهود کند. اگرچه ابزارهای نمایشی به راحتی در دسترس هستند ، نقاط شروع مفیدی هستند ، اما باید در طی یک مطالعه عمیق از کار سفارشی شوند.

داده ها اغلب در قالب عمومی ذخیره می شوند. به عنوان مثال ، بانکهای اطلاعاتی مورد استفاده برای حاشیه نویسی از داده های ژنومی ممکن است از لیست های عظیمی از موقعیت های شروع و توقف تشکیل شود ، اما این لیست ها بسته به وضعیت مورد استفاده در اهمیت متفاوت هستند. ما کتاب ها را به عنوان توالی های انتزاعی از کلمات مشاهده نمی کنیم ، اما وقتی صحبت از اطلاعات می شود ، ما اغلب با عظمت اطلاعات و انتزاع های سطح پایین که برای ذخیره آن استفاده می شود ، مورد استفاده قرار می گیریم. مگر اینکه از فکر کردن در مورد پایگاه داده ها دست بردارید ، همه چیز شبیه یک جدول است - میلیون های ردیف و ستون برای ذخیره ، پرس و جو و مشاهده.

در این کتاب ، ما از مجموعه کوچکی از کلاسهای یاور ساده به عنوان نقاط شروع استفاده می کنیم. غالباً ، ما وب را به عنوان یک بستر تحویل هدف قرار خواهیم داد ، بنابراین کلاس ها به گونه ای طراحی شده اند که حداقل زمان را برای بارگیری و نمایش بگذارند. اما من همچنین در مورد نسخه های قوی تر ابزارهای مشابه که می توانند برای کارهای عمیق تر استفاده شوند ، بحث خواهم کرد.

این کتاب با هدف کمک به شما در یادگیری درک داده ها به عنوان ابزاری برای تصمیم گیری در مورد انسان-نحوه تغییر آن ، نحوه استفاده از آن و چگونگی یافتن موارد منحصر به فرد در مورد مجموعه داده های شما است. ما بسیاری از روشهای استاندارد تجسم را پوشش خواهیم داد و پیش زمینه لازم را برای تصمیم گیری در مورد اینکه چه نوع نمایندگی برای داده های شما مناسب است ، به شما ارائه می دهیم. برای هر نمایندگی ، ما نکات مثبت و منفی آن را در نظر می گیریم و روی سفارشی کردن آن تمرکز می کنیم تا به بهترین شکل ممکن با آنچه می خواهید در مورد مجموعه داده های خود را بیان کنید مناسب باشد.

از بوفه همه چیز بخورید

غالباً ، جزئیات کمتری در واقع اطلاعات بیشتری را منتقل می کنند زیرا گنجاندن جزئیات بیش از حد خاص باعث می شود بیننده آنچه را که مهمترین آن است را از دست بدهد یا از تصویر کاملاً چشم پوشی کند ، زیرا خیلی پیچیده است. هر چقدر هم که ممکن است از داده های کم استفاده کنید ، هر چقدر هم که به نظر می رسد با ارزش است.

نقشه آب و هوا را در نظر بگیرید ، با نوارهای خمیده درجه حرارت در سراسر کشور. طراحان از دادن لبه دقیق به هر باند خودداری می کنند (به ویژه به این دلیل که داده ها اغلب فازی است). در عوض ، آنها الگوی گسترده تری را در داده ها منتقل می کنند.

نقشه های مترو جزئیات جاده های سطحی را به نمایش می گذارد زیرا جزئیات اضافی پیچیدگی بیشتری را به نقشه می بخشد. قبل از ایجاد نقشه ها به سبک بک ، به نظر می رسید که دانستن مکان های خیابانی برای پیمایش در مترو ضروری است. در عوض ، ایستگاه های فردی به عنوان نقطه راه برای یافتن جهت استفاده می شوند. جزئیات مهم این است که مقصد هدف شما در نزدیکی یک ایستگاه خاص است. دستورالعمل ها را می توان از نظر چند نوبت آخر پس از خروج از ایستگاه انجام داد ، یا می توانید با نقشه ارسال شده در ایستگاه مشورت کنید که منطقه فوری را در زیر زمین توصیف می کند.

جمع آوری داده ها آسان است ، و برخی از افراد با جمع آوری داده ها یا داده های پیچیده تر در مقادیر انبوه مورد توجه قرار می گیرند. اما داده های بیشتر به طور ضمنی بهتر نیستند ، و اغلب برای سردرگمی اوضاع خدمت می کنند. فقط به این دلیل که می توان اندازه گیری کرد به این معنی نیست که باید. شاید ساده ساختن کارها ارزش لاف زدن داشته باشد ، اما ایجاد ظروف پیچیده نیست. کمترین مقدار داده را پیدا کنید که هنوز هم می تواند چیزی معنی دار در مورد محتوای مجموعه داده ها منتقل کند. همانطور که با نقشه زیرزمینی بک ، تمرکز روی این سوال به تعریف حداقل نیازها کمک می کند.

همین امر در مورد بسیاری از "ابعاد" که در مجموعه داده ها یافت می شود ، نیز وجود دارد. آمار ترافیک وب سایت ابعاد زیادی دارد: آدرس IP ، تاریخ ، زمان روز ، صفحه بازدید شده ، صفحه قبلی بازدید شده ، کد نتیجه ، مرورگر ، نوع دستگاه و غیره. در حالی که ممکن است هر یک از این موارد به نوبه خود مورد بررسی قرار گیرد ، آنها به سؤالات متمایز مربوط می شوند. فقط تعداد معدودی از متغیرها برای پاسخ به یک سؤال معمولی لازم است ، مانند "چند نفر در طول سه ماه گذشته از صفحه X بازدید کرده اند و چگونه هر ماه این رقم تغییر کرده است؟"از تلاش برای نشان دادن یک فضای چند بعدی سنگین که بیش از حد نقاط اطلاعات را ترسیم می کند ، خودداری کنید.

مخاطبان خود را بشناسید

سرانجام ، مخاطبان شما کیست؟اهداف آنها هنگام نزدیک شدن به تجسم چیست؟آنها برای یادگیری چه ایستاده اند؟مگر اینکه در دسترس مخاطبان شما باشد ، چرا این کار را می کنید؟ساده و واضح ساختن چیزها به معنای فرض این نیست که کاربران شما احمق هستند و رابط کاربری آنها را "گنگ می زنند".

مخاطبان شما به چه روشی از این قطعه استفاده می کنند؟یک برنامه نقشه برداری که در دستگاه تلفن همراه استفاده می شود باید با مجموعه ای کاملاً متفاوت از معیارهای استفاده شده در رایانه رومیزی طراحی شود. اگرچه هر دو برنامه از نقشه ها استفاده می کنند ، اما ارتباط چندانی با یکدیگر ندارند. تمرکز برنامه دسک تاپ ممکن است پیدا کردن مکان ها و نقشه های چاپی باشد ، در حالی که تمرکز نسخه موبایل به طور فعال از مسیرهای یک مکان خاص پیروی می کند.

رو به جلو

در این فصل ، ما روند حمله به مشکلات مدرن متداول داشتن داده های بیش از حد و داشتن داده هایی را که تغییر می کند ، پوشش دادیم. در فصل بعد ، ما در مورد پردازش ، ابزار نرم افزاری که برای رسیدگی به مجموعه داده ها در این کتاب استفاده می شود ، بحث خواهیم کرد.

[1] * توکی ، جان وایلدر. تجزیه و تحلیل داده های اکتشافی. Reading ، MA: Addison-Wesley ، 1977.

اکنون داده ها را با پلت فرم یادگیری O'Reilly دریافت کنید.

اعضای O'Reilly کتاب ، رویدادهای زنده ، دوره هایی را که توسط نقش شغلی و موارد دیگر از O'Reilly و نزدیک به 200 ناشر برتر استفاده می شود ، تجربه می کنند.< Span> مخاطبان شما از چه راهی استفاده می کنند؟یک برنامه نقشه برداری که در دستگاه تلفن همراه استفاده می شود باید با مجموعه ای کاملاً متفاوت از معیارهای استفاده شده در رایانه رومیزی طراحی شود. اگرچه هر دو برنامه از نقشه ها استفاده می کنند ، اما ارتباط چندانی با یکدیگر ندارند. تمرکز برنامه دسک تاپ ممکن است پیدا کردن مکان ها و نقشه های چاپی باشد ، در حالی که تمرکز نسخه موبایل به طور فعال از مسیرهای یک مکان خاص پیروی می کند.

آموزش استراتژی معاملاتی...

ما را در سایت آموزش استراتژی معاملاتی دنبال می کنید

برچسب : نویسنده : ملیحه نصیری بازدید : 37 تاريخ : چهارشنبه 15 شهريور 1402 ساعت: 0:38

تجسم داده ها توسط بن فرای

آخرین مطالب

امکانات وب