پیش بینی اشتغال غیرقانونی ایالات متحده با استفاده از داده های جایگزین Riwi Corp.

ساخت وبلاگ

اعلامیه ماهانه Nonfarm Payroll (NFP) توسط دفتر آمار کار ایالات متحده (BLS) یکی از شاخص های اقتصادی که از نزدیکترین آنها دیده می شود ، برای اقتصاددانان و سرمایه گذاران به طور یکسان است.(هنگامی که من یک کلاس را در یک شرکت تجاری مشهور مشهور تدریس می کردم ، معامله گران ناگهان صبح جمعه درست قبل از ساعت 8:30 صبح از کلاس خود به میز کار خود فرار کردند.) به طور طبیعی ، در گذشته تلاش های زیادی انجام شداین تعداد را پیش بینی کنید ، از استفاده از سایر شاخص های کلان اقتصادی مانند گسترش اعتبار تا استفاده از احساسات توییتر به عنوان ویژگی های پیش بینی. در این مقاله ، من در مورد تحقیقات انجام شده توسط Radu Ciobanu و من با استفاده از داده های بررسی مداوم منحصر به فرد و اختصاصی ارائه شده توسط Riwi Corp. برای پیش بینی این شماره مهم گزارش خواهم داد.

RIWI یک ارائه دهنده داده های جایگزین است که نظرسنجی های آنلاین و نظارت بر اندازه گیری خطر را در همه کشورهای جهان به طور ناشناس انجام می دهد ، بدون آنکه اطلاعات شخصی را شناسایی کند یا مشوق هایی را برای پاسخ دهندگان فراهم کند. فناوری ریوی بیش از 1. 5 میلیارد پاسخ در سطح جهان جمع آوری و تجزیه و تحلیل کرده است. از نظر انتقادی ، در نظرسنجی های خود ، آنها می توانند به بخشی از جمعیت که معمولاً پنهان است برسند: سه چهارم از پاسخ دهندگان آنها در سراسر جهان در ماه گذشته به هیچ گونه نظرسنجی پاسخ نداده اند. نظرسنجی های آنها در تلاش است تا بدون تعصب معمول نسبت به صدای بلند رسانه های اجتماعی ، نماینده جمعیت عمومی آنلاین باشد. این در داده های پیش بینی کننده برای بازارهای مالی مهم است ، جایی که جدا کردن سر و صدا از سیگنال بسیار مهم است.

بازار مالی به طور عمده به تعجب واکنش نشان می دهد ، یعنی تفاوت بین شماره NFP واقعی اعلام شده و اجماع وال استریت. این تعجب نه تنها می تواند به بازارهای مالی ایالات متحده بلکه بازارهای بین المللی نیز منتقل شود. مورد در مورد: من تماشا کردم که شاخص DAX آلمان هفته گذشته (6 دسامبر 2019) به دلیل تعجب بسیار مثبت (اضافه کردن 266K شغل به جای اجماع وال استریت 183K) به شدت بالاتر حرکت کرد. بنابراین تعجب آور همان چیزی است که ما می خواهیم پیش بینی کنیم. ما پیش بینی این علامت تعجب را با استفاده از یادگیری ماشین با نمره RIWI به عنوان تنها ویژگی در مقابل تعدادی از معیارهای دیگر که شامل نمره RIWI نیست ، مقایسه کردیم و دریافتیم که نمره RIWI دقت پیش بینی بالاتری را نسبت به سایر معیارهای دیگر در طول صلیب ایجاد می کند. آزمون اعتبار سنجی. ما همچنین قدر و نشانه تعجب NFP را پیش بینی کردیم. از جمله نمره RIWI به عنوان یکی از ویژگی ها به کوچکترین خطای میانگین مربع با اعتبار متوسط (MSE) به طور متوسط نسبت به موارد دیگر دست یافت. نتایج محدود خارج از نمونه نشان می دهد که نمره RIWI همچنان برای پیش بینی های علامت و بزرگی قدرت قابل توجهی دارد.

داده ها

تعداد ماهانه NFP تاریخی توسط BLS به صورت فصلی تنظیم شد. این شماره ها در اولین جمعه هر ماه ، ساعت 8:30 صبح ET منتشر شد (به جز برخی از تعطیلات ملی که یک روز قبل آزاد می شوند یا یک هفته به تأخیر می افتند.) برای محاسبه تعجب ، ما اجماع وال استریت را کم می کنیمروز قبل از اعلامیه از شماره NFP واقعی.

داده های RIWI بر اساس نظرسنجی های آنلاین آنها از مصرف کنندگان آمریکایی ساخته شده و از دو مجموعه داده تشکیل شده است. اولین مورد مورخ دسامبر 2013 - اکتبر 2017 و مورد دوم تاریخ سپتامبر 2018 - سپتامبر 2019 است. مجموعه داده های قبلی براساس پاسخ بله/خیر به سوال نظرسنجی زیر است: 'آیا بیش از 35 ساعت در هفته کار می کنید؟مجموعه داده دوم بر اساس چندین سؤال نظرسنجی مربوط به نظرات مربوط به شرکتهای آمریکایی یا محصولات ، همراه با پیشینه شخصی پاسخ دهندگان ، مانند وضعیت اشتغال آنها (تمام وقت/پاره وقت/دانش آموز/بازنشسته) ، وضعیت تأهل و غیره است. به منظور ادغام دو مجموعه داده ، ما پاسخ دهندگان را می دانیم که آنها "تمام وقت" یا "پاره وقت" را معادل "کار بیش از 35 ساعت در هفته" کار می کنند. اگر بخواهیم فقط پاسخ دهندگان "تمام وقت" را حساب کنیم ، یک شکست ساختاری قابل توجه در سری زمانی بین دو دوره زمانی مشاهده می شود ، همانطور که در شکل 1 در زیر مشاهده می شود.

شکل 1: نمره ماهانه RIWI وزنی ، بدون تنظیم فصلی ، از جمله فقط پاسخ دهندگان "تمام وقت" ، برای دسامبر 2013-اکتبر 2017 و سپتامبر 2018-Sep 2019.

اگر هر دو پاسخ دهندگان "تمام وقت" و "پاره وقت" را درج کنیم ، شکل 2 را در زیر به دست می آوریم ، که به وضوح آن شکستگی ساختاری را ندارد.

شکل 2: نمره ماهانه RIWI وزنی ، بدون تنظیم فصلی ، از جمله پاسخ دهندگان "تمام وقت + پاره وقت" ، برای دسامبر 2013-اکتبر 2017 و سپتامبر 2018-Sep 2019.

RIWI برای تغییر داده ها برای هر پاسخ دهنده وزن فراهم می کند تا بتواند جمعیتی از جمعیت عمومی ایالات متحده را منعکس کند ، از این رو صفت "وزنی" در زیرنویس های شکل. توجه داشته باشید که این نظرسنجی به گونه ای انجام شده است که هر یک از پاسخ دهنده ها می توانند به عقب برگردند و پاسخ های خود را تغییر دهند اما به عنوان بیش از یک نمونه در مجموعه داده ها ظاهر نمی شوند. به منظور استخراج نمره خلاصه قبل از اعلام NFP هر ماه ، ما میانگین ماهانه محصول وزن پاسخ دهندگان و شاخص (0 یا 1) را محاسبه می کنیم که آیا پاسخ دهنده فردی در حال کار کامل یا پاره وقت است. میانگین ماهانه در همان ماه محاسبه می شود که تعداد NFP اندازه گیری می کند. ما این را "نمره ریوی" می نامیم. از آنجا که داده های NFP به صورت فصلی تنظیم می شدند ، ما باید همین کار را با اختلاف ماهانه نمره RIWI انجام دهیم. ما از همان تنظیماتی که BLS استفاده می کند استفاده می کنیم: x12-arima. اما برای اهداف مقایسه ، ما تنظیم فصلی را در شکل 1 و 2 اعمال نکردیم.

مدلهای طبقه بندی

از مدل های طبقه بندی ما برای پیش بینی اینکه آیا علامت NFP Surprisewas مثبت یا منفی (هیچ شگفتی صفر در داده ها وجود ندارد.) از این مدل ها در مورد داده ها در دسامبر 2013 - اکتبر 2017 ("مجموعه قطار") آموزش داده شدند ، جایی که صلیب آموزش داده شد. آزمایش اعتبار سنجی نیز صورت گرفت. آزمایش خارج از نمونه در داده های سپتامبر 2018-OCT 2019 ("مجموعه آزمایش") انجام شد. همانطور که در بالا ذکر شد ، سؤالات بررسی RIWI مجموعه آزمون تا حدودی با سوالات مجموعه قطار متفاوت بود. بنابراین نتیجه مجموعه آزمون یک آزمایش مشترک است که آیا مدل طبقه بندی از نمونه کار می کند و آیا تفاوت جزئی در داده های RIWI دقت پیش بینی را به میزان قابل توجهی تخریب می کند.

برای ارائه مقایسه معیار در برابر نمره RIWI ، ما همچنین چندین ویژگی استاندارد دیگر را مورد مطالعه قرار دادیم که برخی از آنها برای پیش بینی های NFP مفید بودند:

  • غافلگیر کننده NFP 1 ماهه قبلی
  • تعجب NFP 12 ماهه قبلی
  • Bloomberg Barclays ایالات متحده با بازده عالی شرکت میانگین گزینه تنظیم گسترش (A. K. A. گسترش اعتبار)
  • فهرست احساسات مصرف کننده (دانشگاه میشیگان)

Bloomberg Barclays ایالات متحده با بازده بالا با عملکرد متوسط گزینه تنظیم شده ، تفاوت (گسترش) بین یک شاخص گسترش تعدیل شده گزینه محاسبه شده از کلیه اوراق بهادار شرکت با بازده بالا و منحنی خزانه داری ایالات متحده را نشان می دهد. یک شاخص گسترش تعدیل شده گزینه با استفاده از گزینه های تنظیم شده اوراق قرضه تشکیل شده ، که وزن آن با سرمایه بازار است ، محاسبه می شود. در آنچه در زیر می آید ، ما به Bloomberg Barclays US ایالات متحده با عنوان شاخص پخش بالا با بازده عالی شرکت به عنوان ویژگی "گسترش اعتبار" اشاره خواهیم کرد.

از آنجا که یادگیری ماشین فقط می تواند با ویژگی های ثابت انجام شود ، ما از اختلافات ماهانه در نمره RIWI و سایر ویژگی ها استفاده خواهیم کرد.

مدل های معیار که ما آزمایش کردیم عبارتند از:

  1. رگرسیون لجستیک* در تعجب قبلی.
  2. مدل Trend-Following علامت بعدی (تعجب) = علامت (تعجب قبلی) را پیش بینی می کند.
  3. مدل Contrarian علامت بعدی (تعجب) =-علامت (تعجب قبلی) را پیش بینی می کند.
  4. رگرسیون لجستیک در گسترش اعتبار.
  5. رگرسیون لجستیک در مورد شاخص احساسات مصرف کننده.

*همه رگرسیون لجستیک L2 تنظیم شد.

در اینجا نتایج ، در مقایسه با استفاده از جنگل تصادفی در نمره RIWI به تنهایی وجود دارد:

مدل MLامکاناتدقت CV (در نمونه)دقت خارج از نمونه
الگویسورپرایز 1 ماهه0. 460. 66
logreg (ریج)گسترش اعتبار0. 520. 51
logreg (ریج)سورپرایز 1 ماهه0. 530. 50
logreg (ریج)شاخص احساسات مصرف کننده0. 530. 50
جنگل تصادفیهمه ویژگی ها0. 530. 58
مدل زیرسورپرایز 1 ماهه0. 540. 33
جنگل تصادفیامتیاز ریوی به تنهایی0. 63 +/- 0. 030. 58 +/- 0. 04

جدول 1: معیارهای طبقه بندی و سایر ویژگی ها

بر اساس دقت پیش بینی شده بر روی داده های اعتبار سنجی متقاطع ، بهترین مدل یادگیری ماشین یکی است که از نمره RIWI به عنوان تنها ویژگی استفاده می کند. این مدل طبقه بندی کننده جنگل تصادفی را به نمره RIWI برای پیش بینی علامت (NFP Surprise) اعمال کرد. این یک دقت متوسط معتبر (CV) 63 ٪ +/- 0. 03 (با استفاده از 10 برابر اعتبار متقابل در دسامبر 2013-داده های اکتبر 2017) و دقت 58. 3 ٪ +/- 0. 04 خارج از نمونه را بدست آورد. از آنجا که داده های خارج از نمونه فقط از 12 نقطه داده تشکیل شده است ، ما مشاهده می کنیم که آیا طبقه بندی کننده جنگل تصادفی روی داده های آموزش بیش از حد است ، و اینکه آیا داده های کمی متفاوت RIWI بر پیش بینی ها تأثیر می گذارد ، اما به عنوان یک مقایسه عادلانه ازمدل های مختلفاز آنجا که دقت پیش بینی کننده در داده های خارج از نمونه به طور قابل توجهی بدتر نمی شود ، نتیجه می گیریم که هیچ احتمالی بیش از حد وجود ندارد ، و داده های جدید RIWI با آنچه که ما آموزش داده ایم تفاوت معنی داری ندارد. ما همچنین برای همه ویژگی ها از جمله نمره RIWI ، جنگل تصادفی را اعمال کرده ایم و CV پایین تر (53 ٪) و خارج از نمونه (58 ٪) را نسبت به استفاده از نمره RIWI به تنهایی مشاهده کردیم.

مدلهای رگرسیون

از مدل های رگرسیون ما برای پیش بینی تعجب واقعی NFP (علامت + بزرگی) استفاده شد. داده های قطار در مقابل آزمون مانند مدل های طبقه بندی مشابه بودند و ویژگی های مجموعه نیز یکسان بودند.

برای ارائه مقایسه معیار در برابر نمره RIWI ، ما مدل های زیر را مطالعه کردیم:

  1. ARMA (2،1) مدل* که از شگفتی های گذشته NFP استفاده می کند.
  2. مدل پیروی از روند ، تعجب بعدی را پیش بینی می کند = (تعجب قبلی).
  3. مدل Contrarian تعجب بعدی را پیش بینی می کند =-(تعجب قبلی).

*تاخیر و ضرایب بر اساس به حداقل رساندن AIC در مجموعه قطار بهینه سازی شدند.

در اینجا نتایج ، در مقایسه با استفاده از جنگل تصادفی در نمره RIWI به تنهایی وجود دارد:

روش MLامکاناتCV MSE (در نمونه)MSE خارج از نمونه
مدل زیرسورپرایز 1 ماهه6788. 6019575. 16
الگویسورپرایز 1 ماهه5941. 789652. 16
ARMA (2،1)سورپرایز 1 ماهه3317. 477192. 9
رگرسیون خطی (خط الراس)Prev 1Mth Surprise +Prev 12mth Surprise3310. 667302. 94
جنگل تصادفیامتیاز ریوی3280. 137208. 01
جنگل تصادفیگسترش اعتبار3257. 517227. 63
جنگل تصادفیشاخص احساسات مصرف کننده3251. 487231. 74
جنگل تصادفیهمه ویژگی ها3251. 187268. 75
جنگل تصادفینمره riwi + سورپرایز 1Mth + Prev 12mth Surprise3249. 35 +/- 707269. 20 +/- 134

جدول 2: معیارهای رگرسیون

بر اساس میانگین خطای مربع (MSE) از شگفتی های پیش بینی شده در داده های اعتبار سنجی متقاطع ، بهترین مدل یادگیری ماشین چیزی است که شامل نمره RIWI به عنوان یک ویژگی است. این طبقه بندی کننده جنگلی تصادفی را در نمره RIWI ، شگفتی های قبلی 1 ماه و 12 ماهه به منظور پیش بینی تعجب واقعی NFP اعمال کرد. این یک MSE معتبر متقاطع 3249. 35 +/- 70 و 7269. 2 +/- 134 دقت خارج از نمونه به دست آورد. این حاشیه از همه معیارها در اعتبارسنجی متقابل بهتر است. مانند سایر معیارهای دیگر ، از جمله مدل متضاد که نیازی به آموزش ندارد ، MSE خارج از نمونه نسبت به CV MSE به میزان قابل توجهی افزایش یافته است. اما دوباره ، از آنجا که داده های خارج از نمونه فقط از 12 نقطه داده تشکیل شده است ، ما آن را به عنوان مقایسه عادلانه ای از مدل های مختلف نمی بینیم. ما همچنین برای همه ویژگی ها از جمله نمره RIWI ، جنگل تصادفی را اعمال کردیم و CV MSE تا حدودی بالاتر (و از این رو یک مدل بدتر) از استفاده از نمره RIWI به تنهایی یافتیم ، اما تفاوت در محدوده خطا است.

نتیجه گیری و کار آینده

با استفاده از تکنیک اعتبار سنجی متقاطع در داده های RIWI از دسامبر 2013 - اکتبر 2017 ، دریافتیم که نمره RIWI (پس از وزن گیری ، تنظیم فصلی و تمایز) ، از سایر معیارهای دیگر در دقت پیش بینی برای نشانه شگفتی های NFP استفاده کرده است. ما همچنین دریافتیم که نمره مشابه RIWI ، اگر با شاخص های دیگر تکمیل شود ، همچنین یا بهتر از سایر معیارهای دیگر عمل کرده است. در حالی که چنین تسلط مطلق باید در یک تست طولانی از نمونه تأیید شود ، ما معتقدیم پتانسیل بسیار خوبی برای استفاده از نمره RIWI برای پیش بینی شماره مهم حقوق و دستمزد غیرقانونی وجود دارد.

اما فراتر از پیش بینی شگفتی های NFP ، داده های ریوی این امکان را دارند که یک سنج دقیق تر از وضعیت اشتغال واقعی ایالات متحده و در نتیجه رشد اقتصادی نسبت به شماره NFP باشد."اقتصاد گیگ" کارگرانی بیشتری را به کار می برد که داده های آنها به راحتی راه خود را برای شمارش رسمی BLS پیدا نمی کند.(در اینجا مقاله ای در مورد اینکه چرا تلاش BLS برای شمارش این کارگران یک شکست بوده است. این گزارش بانک کانادا همچنین نتیجه گرفته است که تعداد رسمی کارگران حرکتی را تحت تأثیر قرار می دهد.) کارگران بدون مدارک در NFP حساب نمی شوند اما آنها به اقتصاد کمک می کنندبشربراساس این گزارش وال استریت ژورنال ، حتی فعالیت های غیرقانونی می تواند بیش از 1 ٪ به تولید ناخالص داخلی ایالات متحده نیز داشته باشد. در مقابل ، روش بررسی Riwi در این مقاله توسط محققان هاروارد در میان دیگران به عنوان روش ارجح برای جمع آوری داده ها در مورد جمعیت های سخت قابل دسترسی ذکر شده است. می توان یک محقق بلندپرواز را با استفاده از داده های RIWI تصور کرد تا به طور مستقیم رشد تولید ناخالص داخلی را پیش بینی کند و به نتایج بهتری نسبت به استفاده از شاخص های اقتصادی سنتی مانند NFP دست یابد.

تصدیق

ما از جیسون چو ، رئیس عملیات داده در RIWI ، برای ارائه داده های اختصاصی شرکت برای اهداف ارزیابی ما تشکر می کنیم.

*توجه داشته باشید که نسخه PDF این مقاله را می توان از www. epchan. com بارگیری کرد.

ارسال شده در: وبلاگ

جستجو کردن

پستهای اخیر

  • استفاده از هوش مصنوعی اصلاحی در معاملات روزانه فصلی فارکس در تاریخ 2 مارس 2023
  • بهینه سازی نمونه کارها مشروط: استفاده از یادگیری ماشین برای تطبیق تخصیص سرمایه با رژیم های بازار 30 سپتامبر 2022
  • سقوط Zillow ارائه می دهد: تقصیر AI نیست! 22 ژوئیه 2022
  • AI اصلاحی چیست؟9 ژوئن 2022
  • 800+ ویژگی های رمزنگاری جدید 25 ژانویه 2022
آموزش استراتژی معاملاتی...
ما را در سایت آموزش استراتژی معاملاتی دنبال می کنید

برچسب : نویسنده : ملیحه نصیری بازدید : 31 تاريخ : سه شنبه 14 شهريور 1402 ساعت: 23:26