Hjem databaser Bruke algoritmer for å forutsi valg: en prat med trekke linzer

Bruke algoritmer for å forutsi valg: en prat med trekke linzer

Anonim

Drew vil presentere på Big Data Innovation Summit, 30. og 31. januar i Las Vegas: http://analytics.theiegroup.com/bigdata-lasvegas, sammen med foredragsholdere fra Obama for America, Best Buy, LinkedIn, The New York Times, Nokia, Bitly, Barnes & Nobles, Walmart Labs og mange flere.


Registreringslink: http://bit.ly/Zs3wms


Dette intervjuet ble utført av George Hill og publisert i Big Data Innovation Magazine.


Hva slags reaksjon har det vært på spådommene dine?


De fleste av reaksjonene har fokusert på forskjellen i nøyaktighet mellom de av oss som studerte meningsmålingene, og "magefølelse" spådommer fra populære forståsegpåere og kommentatorer. På valgdagen stilte dataanalytikere som meg, Nate Silver (New York Times FiveThirtyEight-bloggen), Simon Jackman (Stanford University og Huffington Post) og Sam Wang (Princeton Election Consortium) alle Obamas muligheter for gjenvalg på over 90%, og forutså riktig 332 valg stemmer for Obama som det mest sannsynlige utfallet. I mellomtiden sa pundits som Karl Rove, George Will og Steve Forbes at Romney skulle vinne - og i noen tilfeller, enkelt. Dette har ført til snakk om en "seier for kvantene" som jeg er håpefull vil gjennomføre til fremtidige valg.


Hvordan vurderer du algoritmen som brukes i spådommene dine?


Min prognosemodell estimerte resultatene av statenes stemme og den endelige valgstemmingen, hver dag av kampanjen, som starter i juni. Jeg ønsket at vurderingen av disse prognosene skulle være så rettferdig og objektiv som mulig - og ikke forlate meg noe vingrom hvis de tok feil. Så omtrent en måned før valget la jeg ut på nettstedet mitt et sett med åtte evalueringskriterier jeg ville bruke når resultatene ble kjent. Som det viste seg, fungerte modellen perfekt. Den spådde i løpet av sommeren at Obama ville vinne alle sine stater i 2008 minus Indiana og North Carolina, og knapt raste seg fra den spådommen selv etter at støtten til Obama sank oppover i september, og deretter dyppet etter den første presidentdebatten.


Mengden data som er brukt i hele denne kampanjen både av uavhengige analytikere og kampanjeteam har vært enorm, hva slags implikasjoner har dette for databruk i 2016?


Kampanjen i 2012 beviste at flere, forskjellige kilder til kvantitativ informasjon kunne styres, klareres og brukes vellykket mot en rekke mål. Vi utenforstående klarte å forutsi valgresultatet langt på forhånd. Inne i kampanjene var det enorme fremskritt i valg av målretting, opinionssporing, innsamling og valgdeltakelse. Nå som vi vet at disse metodene kan fungere, tror jeg det ikke kommer tilbake. Jeg forventer at reportere og kampanjekommentatorer vil ta undersøkelsessammenslutningen mye mer alvorlig i 2016. Og selv om Obama og demokratene for øyeblikket ser ut til å ha en fordel i kampanjeteknologi, ville jeg bli overrasket om republikanerne ikke raskt kom seg opp.


Tror du at suksessen med denne datadrevne kampanjen har gjort at kampanjeledere nå må være både analytiker og strateg?


Kampanjeansvarlige trenger kanskje ikke være analytikere selv, men de bør ha en større forståelse for hvordan data og teknologi kan utnyttes til deres fordel. Kampanjer har alltid brukt undersøkelsesundersøkelser for å formulere strategi og måle velgereens holdning. Men nå er det en rekke andre kraftige verktøy tilgjengelig: nettsteder med sosiale nettverk, velgerdatabaser, mobile smarttelefoner og e-postmarkedsføring, for bare å nevne noen. Og det er i tillegg til de nylige fremskrittene innen avstemningsmetodologier og statistisk meningsmodellering. Det skjer mye innovasjon i amerikansk kampanjepolitikk akkurat nå.


Du klarte å forutsi valgresultatet 6 måneder på forhånd, hva tror du er den realistiske maksimale tidsrammen for å forutsi et resultat nøyaktig ved hjelp av analyseteknikkene dine?


Om fire-fem måneder er omtrent så langt tilbake som vitenskapen lar oss gå akkurat nå; og til og med presser det litt. Før det er meningsmålingene bare ikke tilstrekkelig informative om det endelige resultatet: For mange mennesker er enten usikre eller har ikke begynt å ta hensyn til kampanjen. De historiske økonomiske og politiske faktorene som har vist seg å korrelere med valgresultatet, begynner også å miste sin forutsigelsesmakt når vi har gått utover det 4-5 måneders spekteret. Heldigvis gir det fremdeles kampanjene god tid til å planlegge strategi og ta beslutninger om hvordan de skal fordele ressursene sine.

Bruke algoritmer for å forutsi valg: en prat med trekke linzer