Foghlaim dhomhain: an teorainn dheiridh do phróiseáil comharthaí agus anailís ar shraitheanna ama?

Dia daoibh! Baineann daoine úsáid as foghlaim dhomhain beagnach le haghaidh gach rud sa lá atá inniu ann, agus is iad na réimsí feidhmchlár “is gnéasaí” fís ríomhaire, próiseáil teanga nádúrtha, anailís urlabhra agus fuaime, córais athmhúnlaithe agus anailísíocht thuarthach. Ach tá réimse amháin ann freisin a ndéantar dearmad go héagórach air i dtéarmaí foghlaim meaisín - próiseáil comharthaí (agus, ar ndóigh, anailís ar shraitheanna ama). San alt seo, ba mhaith liom roinnt réimsí a thaispeáint ina bhfuil comharthaí nó sraitheanna ama ríthábhachtach, tar éis dom athbhreithniú gairid a dhéanamh ar chur chuige clasaiceach agus bogfaidh mé ar aghaidh chuig mo thaithí le foghlaim dhomhain a chur i bhfeidhm le haghaidh anailíse biosignal i Mawi Solutions agus le haghaidh trádála algartamaigh. Thug mé cúpla caint cheana féin ar an ábhar seo in Barcelona agus Lviv, ach ba mhaith liom na hábhair a dhéanamh rud beag níos inrochtana.

Táim cinnte, ní amháin go mbainfidh daoine atá ag obair le sonraí sraitheanna ama leas as an alt seo. Foghlaimeoidh speisialtóirí fís ríomhaire cé chomh cosúil agus atá a gcuid saineolais fearainn le próiseáil comharthaí, gheobhaidh daoine NLP roinnt léargas ar shamhaltú seicheamhach agus is féidir le daoine gairmiúla eile beir leat beir leat freisin. Bain taitneamh as!

Foinsí comharthaí agus sraitheanna ama

Ar an gcéad dul síos, is foinsí comharthaí iad an Domhan phláinéid agus na comhlachtaí spáis timpeall air - tomhaiseann muid méid agus déine spotaí gréine, athruithe teochta i réigiúin éagsúla, luas na gaoithe, luas astaróideach agus a lán rudaí eile:

Comharthaí ón Domhan agus ón spás: spotaí gréine, teocht, luas na gaoithe

Ar ndóigh, is iad na samplaí is coitianta de shraitheanna ama na cinn a bhaineann le gnó agus airgeadas: praghsanna stoic agus gach díorthach féideartha, díolacháin i ngnólachtaí móra agus beaga, déantúsaíocht, gníomhaíocht láithreáin ghréasáin, táirgeadh fuinnimh, tosca polaitiúla agus socheolaíochta agus go leor eile:

Comharthaí ó ghnólachtaí: BTC / USD, sampla réamhaisnéise díolacháin, sampla déantúsaíochta

Ní féidir linn dearmad a dhéanamh freisin faoi dhaoine mar fhoinse iontach biosignals: gníomhaíocht inchinne (EEG), gníomhaíocht croí (ECG), teannas muscle (EMG), sonraí ó wearables cosúil le cuisle, gníomhaíocht bunaithe ar luasghéaraithe, codladh, innéacsanna struis - iad seo go léir tá an-tóir ar chomharthaí ríthábhachtacha inniu agus caithfear anailís a dhéanamh orthu:

Comharthaí uainn: EEG, ECG, EMG

Cinnte, tá samplaí eile ann freisin cosúil le sonraí ó na feithiclí, ach tá súil agam go bhfeicfidh tú raon an-mhór feidhmchlár cheana féin. Tá baint an-daingean agam go pearsanta le hanailís bhithignéiseach, go háirithe, cardagrafaíocht - táim freagrach as ML i mBanna Mawi - cuideachta a d’fhorbair ár gcairtagraf iniompartha grád leighis féin a thomhaiseann an chéad ECG luaidhe.

Banna MAWI cardiograph iniompartha

Is í an chuid is fuaire ná go léiríonn sonraí ECG ní amháin staid do chroí mar atá sé - is féidir leat staid mhothúchánach agus leibhéal struis, staid choirp, codlatacht agus fuinneamh, tionchar alcóil nó tobac a chaitheamh ar do chroí agus a lán rudaí eile . Má tá taighde á dhéanamh agat agus go gcaithfidh tú sonraí bithleighis a bhailiú chun anailís bhreise a dhéanamh ar do hipitéisí (fiú na cinn is craiceáilte), sheolamar ardán chun an próiseas bailithe agus anailíse sonraí a dhaonlathú. Seiceáil é:

Cur chuige clasaiceach

An chothromóid do shamhail SARMA (p, q) (P, Q)

Roimh fhoghlaim meaisín agus ré na foghlama domhain, bhí daoine ag cruthú samhlacha agus cuir chuige matamaiticiúla le haghaidh anailíse ar shraitheanna ama agus ar chomharthaí. Seo achoimre ar na cinn is tábhachtaí díobh:

  • Anailís fearainn ama: baineann sé seo go léir le “féachaint” ar an gcaoi a bhforbraíonn sraitheanna ama le himeacht ama. Féadann sé anailís a dhéanamh ar leithead, airde na gcéimeanna ama, gnéithe staidrimh agus tréithe “amhairc” eile.
  • Anailís fearainn minicíochta: is fearr a léirítear a lán comharthaí ní amháin mar a athraíonn an t-athrú le himeacht ama, ach na haimpléisí atá acu ann agus an chaoi a n-athraíonn siad. Is é anailís Fourier agus tonnfhaid a théann leat.
  • Anailís ar na comharsana is gaire: uaireanta ní gá dúinn ach dhá chomhartha a chur i gcomparáid nó fad eatarthu a thomhas agus ní féidir linn é seo a dhéanamh le méadrachtaí rialta mar Eoiclídeach, mar is féidir le comharthaí a bheith ar fhaid éagsúla agus tá coincheap na cosúlachta rud beag difriúil freisin. Sampla iontach de mhéadrachtaí do shraitheanna ama le warping dinimiciúil ama.
  • (S) samhlacha AR (I) MA (X): an teaghlach samhlacha matamaitice a bhfuil an-tóir orthu bunaithe ar fhéin-spleáchas líneach taobh istigh de shraith ama (autocorrelation) atá in ann luaineachtaí sa todhchaí a mhíniú.
  • Dianscaoileadh: cur chuige tábhachtach eile maidir le tuar ná sraith ama a dhianscaoileadh ina chodanna loighciúla ar féidir iad a achoimriú nó a iolrú chun an tsraith ama tosaigh a fháil: cuid treochta, cuid séasúrach, agus iarmharacha.
  • Dinimic neamhlíneach: déanaimid dearmad i gcónaí faoi chothromóidí difreálacha (gnáth, páirteach, stochastic agus eile) mar uirlis chun córais dhinimiciúla a shamhaltú ar comharthaí iad nó sraitheanna ama i ndáiríre. Tá sé sách neamhchoinbhinsiúnach inniu, ach is féidir le gnéithe ó DEanna a bheith an-úsáideach do…
  • Foghlaim meaisín: is féidir le gach rud thuas gnéithe a fháil d’aon samhail foghlama meaisín atá againn. Ach in 2018 nílimid ag iarraidh brath ar mhúnlaí agus gné matamaitice atá claonta ag an duine. Ba mhaith linn go ndéanfaí é dúinn le AI, ar foghlaim domhain é inniu.

Foghlaim dhomhain

Comhdháil TCE, 2014

Tá foghlaim domhain éasca. Ó thaobh praiticiúil de, ní gá duit ach sraitheanna a chruachadh sa chreat is fearr leat agus a bheith cúramach faoi ró-fheistiú. Ach tá gach rud rud beag níos casta ná sin. Ceithre bliana ó shin smaoinigh taighde iontach an bhfuil na sraitheanna cruachta seo ar an gceann is fearr nach féidir linn a dhéanamh le haghaidh AI ginearálta ar ndóigh, ach ar a laghad maidir le próiseáil na gcomharthaí? Ceithre bliana ina dhiaidh sin b’fhéidir go mbeadh freagra againn: is uirlisí thar a bheith cumhachtach iad líonraí neural do na fearainn go léir a léirigh mé in ailt roimhe seo, bhuaigh siad comórtais Kaggle cosúil le réamhaisnéis díolacháin agus réamhaisnéis tráchta gréasáin, sáraíonn siad cruinneas an duine in anailís biosignals, déanann siad trádáil níos fearr ná sinne. freisin. Sa chuid seo, ba mhaith liom labhairt faoi phríomhchur chuige foghlama domhain a thugann torthaí den scoth agus an fáth a n-oibríonn siad chomh maith.

Líonta neural athfhillteach

Is é an chéad rud a thagann chun cuimhne nuair a labhraímid faoi aon anailís seicheamh le líonraí neural (ó shraith ama go teanga) ná an líonra neural athfhillteach. Cruthaíodh é go háirithe le haghaidh seichimh a bhfuil an cumas acu a staid fholaithe a choinneáil agus spleáchais a fhoghlaim le himeacht ama, tá sé Turing iomlán agus tá sé in ann déileáil le seichimh ar aon fhaid. Ach mar a léiríodh i dtaighde le déanaí, is ar éigean a bhainimid úsáid as na buntáistí seo go praiticiúil. Ina theannta sin, bíonn fadhbanna iomadúla againn nach mbeidh ar a gcumas oibriú le seichimh ró-fhada (agus sin an méid atá againn le próiseáil comharthaí a shruthlú leis an ráta samplála ardmhinicíochta, m.sh. 500–100 Hz), le haghaidh tuilleadh sonraí féach ar an léamh liostáil i gconclúidí an ailt seo. Ó mo thaithí phearsanta, ní bhíonn líonta athfhillteach go maith ach amháin nuair a dhéileálfaimid le seichimh an-ghearr (10–100 céim ama) le hathróga iolracha ar gach céim ama (is féidir iad a bheith ina sraitheanna ama ilbhliantúla nó leabú focal). I ngach cás eile is fearr dúinn dul leis an gcéad cheann eile:

Líonta néaróg chomhréireacha

Tá CNNanna iontach maith maidir le fís ríomhaire, toisc go bhfuil siad in ann na sonraí is fearr (patrúin áitiúla) a ghabháil in íomhánna nó fiú sonraí toirtmhéadracha 3D. Cén fáth nach gcuirimid i bhfeidhm iad le haghaidh sonraí 1D níos simplí fós? Agus cinnte ba cheart dúinn é seo a dhéanamh, ag cur san áireamh, nach mór dúinn go léir a dhéanamh - ailtireacht foghlama domhain úrscothach a fháil mar ResNet nó DenseNet agus cinn 1D a chur in ionad rúin 2D (gan aon magadh!). Taispeánann siad feidhmíocht iontach, tá siad gasta, is féidir iad a bharrfheabhsú go comhthreomhar, oibríonn siad go maith maidir le haicmiú agus aischéimniú, ós rud é gurb é an teaglaim de na patrúin áitiúla go léir sa tsraith ama a shainmhíníonn iad. Rinne mé tagarmharcáil orthu go leor uaireanta agus is fearr iad ná RNNanna den chuid is mó. Ní féidir liom a chur leis ach go bhfuil dhá phríomhlíne agam i láthair na huaire nuair a bhím ag obair le comharthaí: aischéimniú loighisticice agus 2–3 shraith CNN.

CNN + RNN

CNN-LSTM sa sampla cód

Rudaí a mbeifeá ag súil leo is ea RNNanna agus CNNanna, ach déanaimis machnamh ar mhúnlaí níos suimiúla. Tá patrúin áitiúla go maith, ach cad a tharlaíonn má thugaimid spleáchas ama ar na patrúin seo fós (ach nach é RNNanna ar chomhartha amh an rogha is fearr)? Ba cheart dúinn cuimhneamh, go bhfuil líonta réabhlóideacha go maith i laghdú toise ag baint úsáide as teicnící comhthiomsaithe éagsúla agus thar na huiríll laghdaithe seo is féidir linn líonta neural athfhillteach a reáchtáil cheana féin agus is é a “bhrí fhisiciúil” ná “spleáchas idir patrúin áitiúla a sheiceáil le himeacht ama”, rud a bhfuil cinnte an tuiscint do roinnt iarratas. An léiriú amhairc ar an gcoincheap a fheiceann tú thuas.

Líonta neural autoregressive

Léaráid GIF cáiliúil WaveNet

Cad a tharlaíonn má theastaíonn uainn deacrachtaí gan ghá a bhaineann le líonraí athfhillteach athfhillteach a sheachaint? An bhfuil bealach ann chun spleáchas a aithris ar bhealach éigin ó na céimeanna N deireanacha agus an bhfuil an N seo sách mór? Seo an áit a bhfuil WaveNet agus ailtireachtaí cosúla ag teacht isteach sa chluiche. Níos ginearálta is féidir linn samhlacha beatha uathoibríocha a ghlaoch orthu a shamhaltaíonn céimeanna N deireanacha ag úsáid rúin mhaolaithe. Is féidir leat a sheiceáil cén fáth go bhfuil siad chomh maith sin maidir le samhaltú seicheamhach sna naisc ag deireadh an ailt seo, ach ba mhaith liom a chur leis freisin gur bhain an treocht maidir le hathrú ó líonraí athfhillteach athfhillteach go samhlacha beathaithe (uathrialacha) ní amháin le haitheantas cainte nó anailís ar shraitheanna ama, ach NLP freisin (féach ailtireacht Transformer le Google)

Braisliú

https://arxiv.org/pdf/1802.01059.pdf

Seachas aicmiú agus aischéimniú ag baint úsáide as RNNanna / CNNanna / samhlacha Uathrialacha tá suim againn freisin sraitheanna ama a bhraisliú i ngrúpaí bríocha. Is féidir linn é seo a dhéanamh ag baint úsáide as teaglaim de achair shonracha le haghaidh sraitheanna ama (mar a luaitear DTW thuas) agus halgartaim braislithe méadrach-bhunaithe mar K-Means, ach tá sé sách mall agus ní an cur chuige is fearr is féidir. Ba mhaith linn rud éigin a bheith againn a fhéadfaidh oibriú le comharthaí de fhaid éagsúla, ach i bhfad níos éifeachtaí. Ar ndóigh, is féidir linn a iarraidh ar líonraí neural spás leabaithe a sholáthar dúinn ina ndéanfaimid braisliú, mar shampla, le autoencoders. Tar éis dúinn braislí a dhéanamh ar chomharthaí sa spás sin nó ar autoencoder méadaithe le tascanna cúnta mar a dhéantar sa taighde seo.

Brath aimhrialtachta

https://blogs.technet.microsoft.com/machinelearning/2014/11/05/anomaly-detection-using-machine-learning-to-detect-abnormalities-in-time-series-data/

Tasc tábhachtach eile a gcaithfear a réiteach bunaithe ar shonraí seicheamhach (sonraí a shruthlú go minic) is ea aimhrialtacht a bhrath - cásanna a aimsiú i sonraí nach iad “an rud a bhfuil súil againn a fheiceáil ag an nóiméad seo”. Go minic is féidir an fhadhb seo a réiteach trí roinnt modhanna tairsí agus achair (achair staitistiúla uaireanta), ach ní i gcónaí is féidir linn brath ar an bhfad Eoiclídeach idir céimeanna ama sraitheanna ama. Mar a tharla i dtasc roimhe seo (braisliú), is féidir linn a bheith ag brath ar fhoghlaim dhomhain chun ár gcuid sonraí a leabú sa spás nua le uath-chódaitheoirí nó is féidir linn GANanna (líonraí naimhdeach giniúna) a úsáid mar bhrathadóirí aimhrialtachta le leas a bhaint as líonra idirdhealaithe mar bhrathadóir aimhrialtachta (seiceáil níos mó sonraí agus cód anseo)

Réitigh hibrideacha

Uaireanta bíonn do mhúnla matamaiticiúil sainithe agat cheana féin nó gnéithe a léiríonn go soiléir do chuid sonraí agus a thaispeánann feidhmíocht réasúnta maith. Ach ba mhaith leat fós cumhacht na foghlama domhain a úsáid agus do shamhail shaineolach a chomhcheangal le rud a fhoghlaimíonn líonta neural. Is féidir leat foghlaim ó thaithí Uber Labs ar conas réitigh hibrideacha a dhéanamh.

Réamhaisnéis Imeachtaí Foircneacha Sraith Ama le Neural Networks ag Uber

Is é an smaoineamh tacar gnéithe a chomhcheangal ón taobh clé de phictiúr thuas agus leabú ón autoencoder ón taobh dheis agus tar éis traenáil a dhéanamh ar shamhail chomhpháirteach, áit ar féidir leat fiú tábhacht gné éagsúil a rialú agus an tionchar a imríonn an fheidhmíocht dheiridh a rianú. níos mó.

Conclúidí

Cad iad na príomhbhealaí beir leat?

  • Tá comharthaí i ngach áit: ón spás amuigh go dtí ár gcorp
  • CNN autoregressive> CNN> RNN le haghaidh samhaltú seicheamhach
  • Déan braisliú i spás a leabú in ionad DTW + K-Means
  • Úsáid GANanna ní amháin chun m’alt roimhe seo a ghiniúint + a sheiceáil
  • Comhcheangail DL agus samhaltú matamaiticiúil más féidir leat
  • Oibríonn sé do NLP, urlabhra agus seichimh eile freisin!

Liosta léitheoireachta baile:

  • Nuair nach gá do mhúnlaí athfhillteach a bheith athfhillteach
  • Meastóireacht Eimpíreach ar Líonraí Comhréireacha agus Athfhillteach Cineálacha le haghaidh Samhaltú Seicheamh
  • Braisliú Deep Temporal: Foghlaim go hiomlán gan mhaoirsiú ar Ghnéithe Fearainn Ama
  • Giniúint Sraith Ama Fíor-luachmhar (Leighis) le GANanna Coinníollach Athfhillteach
  • Réamhaisnéis Imeachtaí Foircneacha Sraith Ama le Neural Networks ag Uber

Tá an cheist ón gceannteideal fós oscailte. Maidir liomsa, agus bunsraitheanna teoiriciúla na sraitheanna ama nua-aimseartha go léir á gcur san áireamh (ó mhúnlaí sraitheanna ama go córais dhinimiciúla) tá líonta neural againn ar féidir leo aon cheann acu a chomhfhogasú go héifeachtúil. Cén fáth nach bhfuil sé seo déanta againn go fóill? Is ceist eile í, ach anois is féidir leat tosú ar mhúnlaí domhainfhoghlama a chur i bhfeidhm do do thascanna féin, do shean-halgartaim a athsholáthar nó iad a mhéadú le leabú domhainfhoghlama. Tá súil agam gur fhoghlaim tú rud éigin nua ón alt seo. Fanacht tiúnta!

PS Lean mé freisin ar Facebook le haghaidh alt AI atá ró-ghearr do Mheán, Instagram le haghaidh rudaí pearsanta agus déanaimis nasc ar Linkedin!