Daugiau

Tinklo duomenų rinkinio kūrimas


Man reikia keleto pagrindinių nurodymų, kaip sukurti tinklo duomenų rinkinį naudojant „ArcMap 10.1“. Aš suprantu, kad yra „ESRI“ vadovėlių, bet man sunku suprasti viską. Aš tiesiog ieškau šiek tiek pagalbos, kad galėčiau pradėti.

Ką aš noriu padaryti: atlikti tinklo analizę potencialioje naujoje ligoninės vietoje - noriu sužinoti, kaip ši nauja svetainė bus palyginta su esama ligoninės vieta, atsižvelgiant į tai, kiek žmonių ji apima, prieinamumą ir kt.

Taigi pirmiausia turiu sukurti tinklo duomenų rinkinį. Šiuo metu turiu gatvių ir viešojo transporto maršruto formų failus, ir aš sukūriau 2 daugiakampio ypatybes senai ir naujai ligoninės vietai. Ko man dar reikia? Kur aš čia einu?


Pirmiausia peržiūrėkite mano atsakymą čia: / a / 104262/14435. Tai leis suprasti, kaip sukurti tinklo duomenų rinkinį. Eikite per „Esri KB“ pratimą - aš rekomenduoju tai tiems, kurie pradeda dirbti su NA. Tai nereikalaus daug laiko, bet suteiks jums visus pagrindus, kurių reikia norint savarankiškai sukurti tinklo duomenų rinkinį (su savo duomenimis). Užduokite daugiau klausimų šioje svetainėje, jei kyla problemų statant ND.

HowTo: Paruoškite duomenis naudoti su „Network Analyst“ plėtiniu

Tada pažiūrėkite, kokią tinklo analizę turėtumėte atlikti. Atrodo, kad jums reikia aptarnaujamos srities analizės. Skirkite savo ligoninėms taškus ir pakraukite jas kaip patalpas. Peržiūrėkite mokymo programą (aptarnaujamų sričių dalyje):

5 pratimas: Apskaičiuokite paslaugų sritis ir sukurkite OD sąnaudų matricą


Tiesiog sekite nuorodą - labai išsamus sprendimas su pagrindais https://youtu.be/K1Z3AGOnWrc


Takų žemėlapiai ir GIS

2004 m. RTC numatė, kad reikia išsamaus takų duomenų rinkinio, ir pradėjo projektą, kuriame būtų parodyti visi šalies geležinkelio takai. Tuo metu nė viena organizacija nebandė surinkti panašaus geoerdvinio duomenų rinkinio. Tas projektas, kuris tęsiasi ir šiandien, yra mūsų geografinės informacijos sistemos (GIS) pagrindas. Iki šiol esame priskyrę daugiau nei 25 000 mylių takų (ir surinkome daugiau nei 30 000 informacijos).

Mūsų GIS duomenų bazėje yra daugybė geoerdvinės informacijos, įskaitant demografinius, transporto ir hidrografinius duomenis, taip pat unikalų takų duomenų rinkinį. Mes naudojame šiuos duomenis, kad atliktume išsamius tyrimus, padedančius vietos bendruomenėms visoje šalyje stengtis propaguoti ir kurti takus bei aktyvaus transporto tinklus.

„Google“ dviračių sluoksnis

2010 m. Kovo mėn. RTC kartu su „Google ™“ išleido ilgai lauktą „Google Bicycling“ sluoksnį, kuris integravo RTC GIS duomenis į „Google Maps“ sąsają ir suteikė naujų funkcijų dviračių maršrutams ir nuorodoms įsigyti. RTC duomenų aukojimas „Google“ padėjo paleisti šią įdomią funkciją, užtikrinančią sklandų saugių, prieinamų ir linksmų dviračių maršrutų integravimą į kasdienes keliones.

„TrailLink.com“

Mes esame pasiryžę, kad mūsų GIS duomenys būtų prieinami viešai mūsų nacionalinėje „Trail-Finder“ svetainėje „TrailLink.com“. Čia žmonės gali ieškoti ir sužinoti daugiau apie takus ir takų tinklus visoje šalyje - žygiams pėsčiomis, dviračiais, jodinėjimui, slidinėjimui ir dar daugiau - ir gauti išsamius takų aprašymus, žemėlapius, nuotraukas, apžvalgas ir kitus puikius išteklius.

Padėkite mums augti

RTC toliau plečia mūsų duomenų bazę ieškodama naujos takų infrastruktūros, taip pat užtikrindama, kad mūsų turimi duomenys yra atnaujinti, nes keičiasi ir tobulėja takų sistemos. Bendradarbiaudami su mūsų ekspertais, mes tikimės, kad tokie vartotojai kaip jūs padės jums būti informuotiems.

Apsilankykite naujame takų puslapyje arba „TrailLink.com“ takelių žemėlapių puslapyje ir praneškite mums apie naujus takus ir takų pratęsimus jūsų vietovėje.

Palaikykite mūsų GIS darbą

Mes, kaip narių remiama organizacija, laukiame aukų, padedančių išlaikyti mūsų nacionalinę duomenų bazę. Apsvarstykite galimybę paremti šias svarbias ir įdomias pastangas.


Viešai prieinami duomenų rinkiniai

Viena iš dažniausių duomenų mokslo problemų yra duomenų rinkimas iš įvairių šaltinių kažkaip išvalytu (pusiau struktūrizuotu) formatu ir įvairių šaltinių metrikų sujungimas aukštesnio lygio analizei atlikti. Žvelgiant į kitų žmonių pastangas, ypač į kitus šios svetainės klausimus, atrodo, kad daugelis šios srities žmonių dirba šiek tiek pasikartojantį darbą. Pvz., „Twitter“ įrašų, „Facebook“ įrašų, „Wikipedia“ straipsnių ir pan. Analizavimas yra daugelio didelių duomenų problemų dalis.

Kai kurie iš šių duomenų rinkinių yra prieinami naudojant viešas API, kurias teikia teikėjo svetainė, tačiau paprastai šiose API trūksta tam tikros vertingos informacijos ar metrikos, ir visi turi atlikti tas pačias analizes dar ir dar kartą. Pvz., Nors grupių vartotojai gali priklausyti nuo skirtingų naudojimo atvejų ir funkcijų pasirinkimo, tačiau turint pagrindinį „Twitter“ / „Facebook“ vartotojų grupavimą gali būti naudinga daugelyje „Big Data“ programų, kurių nei API teikia, nei viešai prieinama nepriklausomuose duomenų rinkiniuose. .

Ar yra kokia nors rodyklė ar viešai prieinama duomenų rinkinių prieglobos svetainė, kurioje yra vertingų duomenų rinkinių, kuriuos būtų galima pakartotinai naudoti sprendžiant kitas didelių duomenų problemas? Duomenų mokslui turiu omenyje kažką panašaus į „GitHub“ (arba svetainių / viešų duomenų rinkinių grupę ar bent išsamų sąrašą). Jei ne, kokios yra tokios duomenų mokslo platformos neturėjimo priežastys? - komercinė duomenų vertė, reikia dažnai atnaujinti duomenų rinkinius,. Ar negalime turėti duomenų mokslininkams sukurto atvirojo kodo duomenų rinkinių modelio?


Mes turime keletą duomenų rinkinių tipų kategorijos:

Adreso vietos paskirstymo duomenys

Adreso vietos paskirstymo duomenys yra interneto adresai, turintys tam tikrų interneto topologiją apibūdinančių ypatybių (pavyzdžiui, adresai, kurie atsako skirtingais kodais arba atrodo dinamiški ir pan.). Šio duomenų rinkinio IP adresai paprastai nėra anonimizuojami, nes jie nustatomi pagal matavimo srautą, o ne faktinį siuntėjo ir imtuvo ryšį, todėl nėra susieti su konkrečiais asmenimis. Šiuos duomenis galima naudoti norint geriau suprasti interneto topologiją ir adresų naudojimą.

Konkretūs adreso vietos paskirstymo duomenų pogrupiai apima:

Interneto adresų surašymai (formatas): mes ping kiekvienas skirtas IP adresas vieną kartą apie du mėnesius ir pranešti apie rezultatus. Surašymas yra naudingas tiriant adresų paskirstymo politiką. Nuo 2006 m. Kas 2-4 mėnesius surinkome 2 surašymus. (Pavyzdys: internet_address_survey_it39w-20110322 buvo pirmasis surašymas po visų IPv4 blokų paskirstymo.)

Interneto adresų apklausos (formatas): mes pasirenkame 1–2% / 24 blokų paskirtoje interneto adresų erdvėje ir užrašome kiekvieną tų blokų adresą daug kartų (maždaug kas 11 minučių) iki dviejų savaičių. Adreso apklausa yra naudinga tiriant adreso naudojimą (pavyzdžiui, statinis ir dinaminis paskirstymas). Nuo 2006 m. Mes surinkome 2 apklausas kas 2–4 mėnesius. (Pavyzdys: internet_address_survey_reprobing_it43j-20111012 yra mūsų pirmoji apklausa iš Japonijos.)

IP adresų hitlists (formatas): įvykių sąraše pateikiamas kiekvieno / 24 IPv4 adresų bloko atstovas, kuris, kaip manoma, dažniausiai atsakys į pingus. Mūsų tikslas yra pateikti reaguojančius, išsamius ir stabilius atstovus: tai yra adresai, kurie reaguoja į skambučius ir trasos maršrutus (su didele tikimybe), kurie apima kiekvieną paskirtą IPv4 / 24 prefiksą ir kurie laikui bėgant nedaug keičiasi. Mūsų hitlistai gaunami iš mūsų surašymo duomenų. Hitlistai yra naudingas indėlis atliekant interneto topologijos tyrimus. Nuo 2009 m. Generavome hitlistus kas 2–4 mėnesius. (Pavyzdys: internet_address_hitlist_it29w-20091102 buvo pirmasis mūsų produkcijos hitlistas.)

IP adresų istorija (formatas): IP adresų istorijoje yra visi IPv4 adresai, kurie kada nors atsakė į 16 ankstesnių IPv4 adresų surašymų, kartu su kiekvieno adreso balais apie jo tikimybę atsakyti į būsimus pingus. Adresų istorijos yra naudingos pasirinkus IP adresus topologijos ir patikimumo tyrimams. (Pavyzdys: internet_address_history_it43w-20110913 buvo pirmoji mūsų adresų istorija.)

Kiti interneto topologijos duomenys

Geografinės vietos duomenys: IP geografinės padėties duomenų rinkiniai pateikia nurodytą konkrečių IP adresų geografinę vietą (platumą / ilgumą) ir kai kuriais atvejais šaltinio duomenis, kurie buvo naudojami tam išvadai padaryti. Geografinės padėties duomenys gali būti naudojami norint suprasti, iš kur atsiranda interneto srautas ir kaip tam gali turėti įtakos vietos politika. Daugiau informacijos.

AS-organizacijos žemėlapiai: mes siejame AS (nuo BGP nukreipimo) su organizacijomis (įmonėmis). (Pavyzdys: as_to_org_mapping_inferred_truth-20100507)

Interneto topologijos duomenys: Interneto topologijos duomenis sukuria programa, bandanti susieti internetą. Programa gali nustatyti, kurie maršrutizatoriai sugeba kalbėti su kitais maršrutizatoriais. Interneto topologijos duomenys rodo tik maršrutizatoriaus ryšį interneto šerdyje, o prie išorinių įmonės sienų juose nėra jokios atpažįstamos ar vidinės įmonės topologijos informacijos. Šis duomenų rinkinys gali būti naudojamas kirminų protrūkių modeliavimui ir modeliavimui, kirminų sulaikymui ir atsakomosioms priemonėms, zombių platinimui DDoS atakoms, pažeidžiamumo vertinimams, išilginiams interneto topologijos ir adresų paskirstymo tyrimams, interneto topologijai ir adresų žemėlapių išvadoms. (Pavyzdys: internet_router_map_planetlab-20030412)

Su eismu susijusius duomenis

Didžioji mūsų duomenų dalis yra IP paketų antraštės: šiuos duomenų rinkinius sudaro srauto duomenų antraštės, kuriose yra tokia informacija kaip anonimizuoti šaltinio ir paskirties IP adresai bei kiti IP ir transporto (pvz., TCP, UDP, ICMP, SCTP) antraštės laukai. Paketo turinys neįtrauktas. Atsižvelgiant į konkretų duomenų rinkinį, šios kategorijos duomenys gali būti naudojami apibūdinant tipinį interneto srautą arba srauto anomalijas, tokias kaip DDoS atakos, prievadų nuskaitymai ar kirminų protrūkiai.

bendros anonimizuotos paketų antraštės: paketinių antraščių rinkiniai iš regioninio tinklo prieigos nuorodų. (Pavyzdys: lander_sample-20080903)

anonimizuotas atakos srautas (paketų antraštės): paketinių antraščių rinkiniai, kuriuose yra žinomos paslaugos atsisakymo atakos, paimtos iš regioninio tinklo prieigos nuorodos. (Pavyzdys: attack-tcpsyn-20061106)

dirbtinės atakos dėl realaus foninio srauto: mes sukūrėme įvairaus intensyvumo dirbtinių atakų rinkinį, pridengtą tikrame tinklo foniniame sraute. (Pavyzdys: UniformAttack_Traces_Generated20070821-20041202)

anonamiški įvykiai iš tikro B šaknies DNS srauto: mes kuravome daugybę įvykių, susijusių su „B-Root“ įvykiais, įskaitant DDoS atakas ir „flash“ srautą. (Pavyzdys: B_Root_Anomaly_message_question-20151130)

Mes taip pat turime srauto duomenys: Tinklo srautas gali būti pateikiamas kaip srautas tarp dviejų galinių taškų. Šiame duomenų rinkinyje yra srauto informacijos, kuri apima įvairius atributus, tokius kaip šaltinio ir paskirties IP adresas, šaltinio ir paskirties prievadas, protokolo tipas, paketų ir baitų skaičius. Šie duomenys gali būti skirtingais formatais, kuriuos sugeneruoja įvairūs rinkimo įrankiai, pvz., „NetFlow“, „IPFIX“ ir „Argus“, arba variantai. Šiuose failuose esantys IP adresai yra anonimizuojami pagal duomenų rinkinį arba laiko intervalą. Šie duomenų rinkiniai yra naudingi tokiems tyrimams kaip tinklo ekonomika ir apskaita, tinklo planavimas, analizė, saugumas, paslaugų atsisakymo atakos, tinklo stebėjimas ir srauto vizualizavimas.

apibendrinti srautai: pateikiame kai kuriuos srauto duomenis „Argus“ formatu. (Pavyzdys: FRGPContinuousFlowData_sample-20130923)

ilgų srautų (formatas): teikiame tinklo srauto duomenis, gautus iš paketų antraščių regioninio tinklo prieigos sąsajose, tokiu formatu, kuris palaiko trumpų ir ilgų srautų nagrinėjimą. (Pavyzdys: long_flows_D1_2_days-20090605)

Dns duomenys

Mes turime DNS duomenys (Domenų vardų sistema), rodanti DNS protokolo paieškas. Mes turime daugiau informacijos apie DNS duomenų rinkinius, susijusius su konkrečiais dokumentais ir duomenimis apie „anycast“.

Mūsų DNS duomenys yra trijų skonių:

Vieši DNS duomenys: šį duomenų rinkinį sudaro domenų vardų sistemų duomenys, gauti iš viešų šaltinių, pavyzdžiui, iš gaktos DNS serverių. Ji nėra susieta su vartotojais ir neturi jokių privatumo apribojimų.

Viešo DNS duomenų rinkinio pavyzdys yra mūsų atvirkštiniai DNS duomenys rdns_ipv4-20160312.

Anonimizuoti DNS duomenys: šis duomenų rinkinys susideda iš domenų vardų sistemų duomenų, kuriuose nėra asmens identifikavimo informacijos, nes jis buvo anonimizuotas, arba todėl, kad jis apibendrintas iki tokio lygio, kad asmens užklausos būtų uždengtos, arba jame yra tik eksperimentinių duomenų iš bandymų programų (ne asmenų).

Anonimizuotų DNS duomenų rinkinių pavyzdys yra mūsų DITL duomenys DITL_B_Root-20160405.

Riboti DNS duomenys: šį duomenų rinkinį sudaro domenų vardų sistemų duomenys, kurie tiesiogiai nenustato asmenų, tačiau negali būti derinami su kitais duomenų šaltiniais.

Paslaugų surašymo duomenys

Mūsų paslaugų sąrašo duomenys susideda iš mūsų pastangų surašyti įvairias interneto paslaugas, kurios dabar apima:

„Anycast“ surašymo duomenų rinkiniai: Aktyvi zondavimo informacija apie bet kokias DNS paslaugas, pvz., Šakninį DNS. Paprastai zondai atliekami iš daugybės taškų, siekiant išvardyti visus bet kokius paslaugos mazgus. „Anycast“ surašymo duomenų rinkiniai yra naudingi norint suprasti „Anycast“ paslaugų ir mazgų veikimo būseną ir geografinį pasiekiamumą. Išsamią informaciją apie duomenų rinkinį rasite duomenų rinkinio aprašymo puslapyje.

„Google“ sąsajų sąrašas ir žemėlapiai: Aktyvios DNS užklausos su EDNS-client-subnet leidžia išvardyti „Google“ front-end IP adresus. Turėdami visus front-end IP adresus, mes naudojame naują techniką, kad priskirtume front-endus ir sugrupuotume juos į aptarnaujančias svetaines. Išsamią informaciją apie duomenų rinkinį rasite duomenų rinkinio aprašymo puslapyje.

Atvirkštinis DNS duomenys: Mes renkame ir tikriname „IPv4 Reverse DNS“ domenų pavadinimus.

Atvirkštinio DNS duomenų rinkinio pavyzdys yra rdns_ipv4-20160312.

Kiti DNS duomenys: turime duomenų, susijusių su DNS grįžtamuoju sklaidymu.

Interneto prastovos duomenys

Šios kategorijos duomenų rinkiniuose įrašoma informacija apie interneto sutrikimus - adresų blokus, kurie tampa nepasiekiami. Paprastai prastovos nustatomos iš aktyvaus zondavimo. Tai gali apimti / 24 bloko lygio nutraukimus per tam tikrą laiką arba išvardytų prastovų sąrašus, turinčius įtakos didesnėms interneto dalims. Duomenys apie prastovą gali būti naudingi norint suprasti interneto patikimumą.

Išsamesnės informacijos apie šį duomenų rinkinį ieškokite aprašymo puslapyje ir nutraukimo formatuose.

Kitos rūšies duomenys

kiti popieriaus duomenų rinkiniai: Mes turime keletą kitų duomenų rinkinių, skirtų mūsų publikuotiems dokumentams, įskaitant p2p srauto aptikimą, TCP SYN ir kt.


Stichinės nelaimės

Rosvoldas, E. ir H. Buhaugas. 2021. Geokoduotų nelaimių (GDIS) duomenų rinkinys. Palisades, NY: NASA socioekonominių duomenų ir taikymų centras (SEDAC). https://doi.org/10.7927/zz3b-8y61. Prieiga prie DAY MONTH YEAR.

Rosvoldas, E. L. ir H. Buhaugas. 2021. GDIS, visuotinis geokoduotų nelaimių vietų duomenų rinkinys. Moksliniai duomenys 8:61. https://doi.org/10.1038/s41597-021-00846-6.

* Kai autoriai naudojasi duomenimis, jie turėtų nurodyti tiek duomenų rinkinį, tiek mokslinę publikaciją, jei jos yra. Tokia praktika suteikia pagarbą duomenų rinkinių gamintojams ir skatina skaidrumo ir atkuriamumo principus. Norėdami gauti daugiau informacijos, apsilankykite duomenų citavimo puslapyje. Vartotojai, norintys formatuoti šio duomenų rinkinio (-ių) citatą (-as) naudodami daugybę alternatyvių stilių, gali nukopijuoti DOI numerį ir įklijuoti jį į „Crosscite“ svetainę.

& durklas Jei naudojate ENW failo formatą, „EndNote“ vartotojams patikrinkite lauką „Tyrimo pastaba“, ar nėra problemų dėl autorių, kurie yra organizacijos, importavimo.

Šį duomenų rinkinį sudaro 39 953 vietos, skirtos 9 924 nelaimėms, įvykusioms visame pasaulyje 1960–2018 m., Ir yra prieinama geoduomenų bazės (.gdb), „GeoPackage“ (.gpkg), CSV ir R-Workspace (.rdata) formatais, taip pat R scenarijaus šaltinio kodas (.r) ir „Codebook“ (.pdf).


Gatvių statyba

DOT išleidžia gatvių, kuriose įgulos kas savaitę atliks frezavimo ar dangos atnaujinimo darbus, sąrašą. Frezavimas - tai viršutinio asfalto sluoksnio ar važiuojamosios kelio dalies šlifavimo procesas. Frezavimas yra viršutinio asfalto sluoksnio ar važiuojamosios kelio dalies šlifavimo procesas, kuris paprastai atliekamas ruošiantis trinkelėms. Dangos danga yra asfalto perdangos uždėjimas ant kelio, nesvarbu, ar jis buvo frezuotas, ar ne. Šie sąrašai bendrinami su bendruomenės valdybomis, vietos policijos nuovadomis ir kitomis suinteresuotosiomis šalimis elektroniniu paštu ir paskelbiami DOT svetainėje. Savaitės atnaujinimo grafikas

Gatvės duobių darbo užsakymai - uždaryti

Duobė - tai skylė gatvėje, turinti apskritimo ar ovalo formą ir apibrėžtą dugną. Dugnas gali būti betoninis kelio pagrindas ir gali būti iš dalies užpiltas purvu, purvu ar puriu žvyru. Būklė neatrodo žmogaus sukurta ir paprastai nesėdi žlugimo srityje. Kad būtų galima „veikti“, duobė turėtų būti bent vienos kojos skersmens ir trijų colių gylio.

Gatvės duobių darbo užsakymų duomenis sudaro DOT patikrintos ir suremontuotos uždaros gatvių duobės. Duomenų rinkinyje yra duobės vieta, data, apie kurią buvo pranešta, ir ataskaita buvo užpildyta. Gatvės duobės darbo užsakymai - uždaras formos failas (pašto adresas) Gatvės duobės darbo užsakymai - uždaryti: metaduomenys

Gatvių įvertinimas / gatvių dangos reitingai

Niujorko transporto departamentas yra atsakingas už miesto gatvių tvarkingumą. Agentūra nuolat vertina Niujorko gatves. Įvertinimai remiasi skale nuo 1 iki 10, o rezultatai grupuojami į šias kategorijas: gerai (%) - įvertinimai nuo 8 iki 10, teisingi (%) - nuo 4 iki 7 ir prasti (%) - įvertinimai Nuo 1 iki 3. Šie duomenys leis jums sukurti žemėlapį. Atsisiųskite gatvės dangos įvertinimo metaduomenis (pdf) Atsisiųskite gatvės vertinimo reitingo formos failą (zip) Atsisiųskite „Street Assessment Rating Geojson“ failą (json)

Saugomos gatvės

Saugoma gatvė - tai gatvės atkarpa ar sankryža, kuri per pastaruosius penkerius metus buvo atnaujinta ar rekonstruota. Saugomose gatvėse neleidžiama atidaryti jokių gatvių, išskyrus avarinius darbus arba kaip leido komisaras. Būsimose saugomose gatvėse buvo gatvių, kurios dėl aktyvių ar planuojamų projektų netrukus bus įtrauktos į saugomų gatvių sąrašą. Šis sąrašas gali būti naudojamas planuojant gatvių darbus segmentuose ir sankryžose, kurios netrukus bus atnaujintos. Sužinokite daugiau apie saugomas gatves

NYC DOT 10 metų gatvių rekonstrukcijos sostinės planas


Tinklo duomenų rinkinio kūrimas - geografinės informacinės sistemos

Eismo ženklai yra pagrindinė eismo reguliavimo ypatybė, kasdien veikianti mus visus navigacijos ir eismo saugumo dėka. Plėtojant autonominį vairavimą, labai svarbu, kad ne tik žmonės, bet ir mašinos galėtų tiksliai suvokti ir suprasti eismo ženklus. Norėdami išmokti šio įgūdžio transporto priemonėse, įvairiose programose buvo būtina automatizuoti eismo ženklų atpažinimo procesą. Gilaus mokymosi epochoje didelis kiekis įvairaus mokymo duomenų yra vienas iš pagrindinių komponentų, leidžiančių mokyti neuronų tinklą eismo ženklams aptikti ir atpažinti.

Kad būtų galima sukurti tikslius ir patikimus eismo ženklų aptikimo ir klasifikavimo algoritmus, mes sukūrėme ir parengėme „Mapillary“ eismo ženklų duomenų rinkinį - pirmąjį duomenų rinkinį, skirtą apimti visuotinę eismo ženklų įvairovę su išvaizda ir geografine įvairove. Mes kruopščiai suprojektavome rankinių anotacijų darbo eigą ir išplėtėme ją algoritminiu metodu, kad gautume aukštos kokybės eismo ženklų ribojančių dėžių anotacijas visuose pasirinktuose vaizduose.

    100 000 didelės skiriamosios gebos vaizdų iš viso pasaulio su daugiau kaip 300 eismo ženklų klasių ribojančių dėžučių anotacijomis.
      Daugiau nei 52 000 vaizdų su eismo ženklais, kurie yra rankiniu būdu patikrinti ir komentuoti (

    36 000 vaizdų mokymui,

    5000 vaizdų patvirtinti ir

    Kodėl šis duomenų rinkinys

    Gali atrodyti, kad eismo ženklai turi gana standartinę išvaizdą ir turėtų būti gana nesudėtingi, tačiau iš tikrųjų tai vis dar gana sudėtinga. Ženklus galima lengvai supainioti su reklaminėmis juostomis ir reklaminiais skydais, juos sugadinti ar paslėpti medžiai ar kiti daiktai, arba jie sunkiai matomi esant silpnam apšvietimui ir dėl atspindžio. Jie taip pat yra palyginti maži, palyginti su kitais gatvės scenos objektais, todėl ypač sunku atpažinti, kai jie matomi iš tolo. Ir paskutinis, bet ne mažiau svarbus dalykas, ne visada lengva suprasti, ar ženklas yra kita tos pačios ženklų klasės versija, ar visai kita klasė - su kita prasme.

    Buvo daug pastangų sukurti gerus eismo ženklų duomenų rinkinius mokymo tikslais. Tačiau esami viešai prieinami duomenų rinkiniai yra riboto masto arba neturi geografinio pasiskirstymo, jutiklių tipų, oro ir šviesos sąlygų ir pan. Įvairovės. Tai labai riboja galimybę mokyti didelio našumo gilaus mokymosi algoritmus ir atlikti išsamų eismo ženklo palyginimą. aptikimo ar atpažinimo sistema.

    Sukūrėme šį duomenų rinkinį, nes mums patiems reikia patikimų treniruočių duomenų. Turėdami daugiau nei 570 milijonų vaizdų „Mapillary“ platformoje, kuriuos žmonės įkėlė iš visų pasaulio kampelių, mums kartu pavyko sukurti idealią platformą vaizdų parinkimui mokymo duomenų rinkiniui.

    Mes suderinome eismo ženklų komentavimo procesą šiuose vaizduose, kad užtikrintume duomenų kokybę (daugiau apie kokybės užtikrinimą skaitykite toliau). Be žmogaus anotacijų, duomenų rinkinyje taip pat yra vaizdų su mašinomis sukurtomis dalinėmis anotacijomis, kuriomis tikimės atverti kelią būsimiems pusiau prižiūrimo mokymosi tyrimams. Duomenų rinkinį padarėme prieinamą tiek akademiniams, tiek komerciniams tyrimams, nes manome, kad dalijimasis duomenimis yra labai svarbus siekiant padidinti pasaulinį eismo saugumą ir peržengti kompiuterinio regėjimo tyrimų ribas.

    Apsilankykite duomenų rinkinio puslapyje, jei norite sužinoti daugiau ir pasiekti duomenis →

    Statistika

    Visiškai anotuotame „Mapillary Traffic Sign Dataset“ (MTSD) rinkinyje yra 52 453 vaizdai su 257 543 eismo ženklų ribojimo langeliais. Papildomame, iš dalies komentuojamame duomenų rinkinyje yra 47 547 vaizdai su daugiau nei 80 000 ženklų, kurie automatiškai pažymimi korespondencijos informacija iš 3D rekonstrukcijos.

    Kalbant apie duomenų rinkinio mastą ir įvairovę, mes jį įtraukėme į ankstesnių tyrėjų bendruomenės duomenų rinkinių perspektyvą. Šiuo atveju mes palyginome su „Tsinghua-Tencent 100K“ eismo ženklų duomenų rinkiniu (TT100K). TT100K yra konkrečios šalies eismo ženklų duomenų rinkinys su Kinijoje surinktais vaizdais, kuriame yra 10 000 vaizdų su eismo ženklais ir 90 000 foninių vaizdų be jokių eismo ženklų.

    Kairėje diagramoje pavaizduotas eismo ženklų klasės pasiskirstymo tarp MTSD ir TT100K palyginimas. MTSD turi maždaug dvigubai daugiau eismo ženklų klasių nei TT100K. Viduryje esančiame siužete ženklų plotai palyginami pagal taškus pagal pirminę turinčio vaizdo skiriamąją gebą. MTSD apima platų eismo ženklų dydį, beveik vienodą paskirstymą iki 256 pikselių. Palyginti su TT100K, MTSD suteikia didesnę ekstremalių dydžių dalį, o tai padeda išspręsti vieną iš didžiausių eismo ženklų aptikimo iššūkių.

    Galiausiai, dešinėje esantis siužetas parodo vaizdų pasiskirstymą per ženklų skaičių paveikslėlyje. Be didesnio vaizdų kiekio, MTSD yra didesnė vaizdų dalis su dideliu eismo ženklų skaičiumi.

    Lyginant su pasauliniu duomenų rinkiniu, pvz., „Mapillary Vistas“ duomenų rinkiniu, MTSD yra ir daugiau vaizdų, ir anotuotų eismo ženklų. Dar svarbiau yra tai, kad MTSD yra sukurtas tam, kad būtų išsamiai aprašytos eismo ženklų klasės ir atributai, kurie nėra įtraukti į „Vistas“.

    Geografiškai mes taip pat matome iš žemiau pateikto paveikslo, kad MTSD vaizdai yra platinami visame pasaulyje, gerai aprėpiant įvairias šalis. Tai būtina norint užtikrinti eismo ženklų klasių įvairovę atsižvelgiant į jų išvaizdą ir scenos ypatybes, o tai yra raktas į duomenų rinkinio apibendrinimo gebėjimų stiprinimą, kai jie naudojami mokant mašininio mokymosi algoritmus įvairioms programoms.

    Geografinis vaizdų pasiskirstymas

    Kokybės kontrolė

    Esminis šios skalės etalono ar mokymo duomenų rinkinio aspektas yra anotacijos kokybė.

    Siekdami užtikrinti anotacijų kokybę, mes vykdėme anotacijas nuolatiniu kokybės kontrolės procesu, kad greitai nustatytume problemas anotacijos metu. Mes taip pat pristatėme antrojo etapo kokybės užtikrinimo procesą, kurį atliko nepriklausomas 5000 atsitiktinių vaizdų, įskaitant 26 000 ženklų, anotatorius. Mes nustatėme, kad tik 0,5% ribojančių dėžių reikėjo ištaisyti, klaidingai neigiamas rodiklis buvo 0,89% (dauguma atvejų yra labai maži požymiai), o klaidingai teigiamas procentas buvo 2,45%.

    Poveikis apmokytiems modeliams

    Atsižvelgdami į duomenų rinkinio mastą ir įvairovę, mes taip pat ištyrėme jo efektyvumą mokantis perkėlimo. Konkrečiai norėtume parodyti, kaip visuotinės MTSD anotacijos gali būti naudojamos siekiant pagerinti eismo ženklų atpažinimą konkrečioje šalyje. Šiuo atveju mes sutelkėme dėmesį į Kinijos duomenų rinkinio „TT100K“ vertinimą. Aptikimo užduočiai lokalizuoti visas ribojančias eismo ženklų dėžutes vaizduose pasirinkome populiarią aptikimo bazinę liniją „FasterRCNN with Feature Pyramid Network“ (FPN) ir „ResNet-50“ pagrindą.

    Mes įvertinome išankstinio mokymo nustatymą: vienas su „ImageNet“ duomenų rinkiniu ir vienas su MTSS. „ImageNet“ duomenų rinkinys yra dažniausiai naudojamas perkėlimo mokymasis, norint iš anksto apmokyti nervinio tinklo ypatybes. Abiejų sąrankų atveju tinklą suderinome naudodami TT100K.

    Dvejetainio aptikimo pagrindinė linija, kuri buvo iš anksto apmokyta naudojant MTSD, pralenkė ImageNet, nes daugiaklasės sąrankos absoliutus vidutinio tikslumo pagerėjimas siekė 6,3%, o absoliutus pagerėjimas - 6,1%. Tai yra labai reikšmingas našumas eismo ženklų aptikimo atžvilgiu.

    AP AP (mažas) AP (vidutinis) AP (didelis)
    „ImageNet“ išankstinis mokymas 91.27 84.01 95.87 90.13
    MTSS išankstinis mokymas 97.6 93.13 99.03 98.44

    ŽEMĖLAPIS ŽEMĖLAPIS (mažas) Žemėlapis (vidutinis) ŽEMĖLAPIS (didelis)
    „ImageNet“ išankstinis mokymas 89.6 83.9 93.0 84.3
    MTSS išankstinis mokymas 95.7 91.3 96.9 96.7

    Prieiga prie žemėlapių eismo ženklų duomenų rinkinio

    „Mapillary“ eismo ženklų duomenų rinkinį galima įsigyti ir kaip komercinį, ir kaip tiriamąjį leidimą. Eikite į duomenų rinkinio puslapį, kad sužinotumėte daugiau ir pasiektumėte duomenų rinkinį. Šiuo metu galite atsisiųsti vaizdų pavyzdį, tačiau mes ketiname patobulinti duomenų rinkinio puslapį su galimybe interaktyviai naršyti po visą duomenų rinkinį.

    Nekantriai laukiame tyrimų rezultatų, pasiektų naudojant „Mapillary“ eismo ženklų duomenų rinkinį, ir jų taikymą eismo saugumui ir navigacijai gerinti, ypač susijusiems su savaiminiu vairavimu. Jei turite klausimų ar komentarų, susisiekite su mumis.


    Žemės naudojimas ir žemės danga (LULC)

    Atsisiuntimai

    Kennedy, C. M., J. R. Oakleafas, D. M. Theobaldas, S. Baruchas-Mordo ir J. Kieseckeris. 2020. Pasaulinė žmogaus modifikacija antžeminėse sistemose. Palisades, NY: NASA socioekonominių duomenų ir taikymų centras (SEDAC). https://doi.org/10.7927/edbc-3z60. Prieiga prie DAY MONTH YEAR.

    Kennedy, C. M., J. R. Oakleafas, D. M. Theobaldas, S. Baruchas-Mordo ir J. Kieseckeris. 2019. Valdymas viduryje: išsaugojimo prioritetų pokytis, pagrįstas visuotiniu žmogaus modifikacijos gradientu. Pasaulinių pokyčių biologija 25 (3): 811-826. Https://doi.org/10.1111/gcb.14549.

    * Kai autoriai naudojasi duomenimis, jie turėtų nurodyti tiek duomenų rinkinį, tiek mokslinę publikaciją, jei jos yra. Tokia praktika suteikia pagarbą duomenų rinkinių gamintojams ir skatina skaidrumo ir atkuriamumo principus. Norėdami gauti daugiau informacijos, apsilankykite duomenų citavimo puslapyje. Vartotojai, norintys formatuoti šio duomenų rinkinio (-ių) citatą (-as) naudodami daugybę alternatyvių stilių, gali nukopijuoti DOI numerį ir įklijuoti jį į „Crosscite“ svetainę.

    & durklas Jei naudojate ENW failo formatą, „EndNote“ vartotojams patikrinkite lauką „Tyrimo pastaba“, ar nėra problemų dėl autorių, kurie yra organizacijos, importavimo.

    Duomenys pateikiami dviem projekcijomis. Originalūs duomenys buvo gauti Mollweide projekcijoje. Duomenis perprojektavome geografinėje projekcijoje. Abiejų projekcijų duomenis galima atsisiųsti „GeoTIFF“ (.tif) formatu kaip toliau nurodytus ZIP failus. Vartotojai turėtų žinoti, kad perprojektavimo procese atsiranda tam tikras erdvinis neapibrėžtumas.


    Svarstymai

    Mastelis

    Treniruotėms galite keisti mastelį „Azure Databricks“ aukštyn arba žemyn, atsižvelgdami į naudojamų duomenų dydį ir modelio mokymui reikalingą skaičiavimą. Norėdami keisti mastelį, galite koreguoti bendrą branduolių skaičių arba atminties kiekį, kurį turi klasteris. Tiesiog redaguokite naudojamų virtualių mašinų (VM) skaičių ar tipą. Šiame pavyzdyje „Criteo“ duomenų rinkinyje yra 45,8 mln. Eilučių. Jis buvo apmokytas per kelias minutes klasteryje su 10 standartinių „L8s“ VM.

    Norėdami diegti, galite apskaičiuoti išteklius pagal numatomą balų tarnybos apkrovą ir delsos reikalavimus. Taškų nustatymo tarnyba naudoja „MML Spark Serving“, veikiančią atskirai kiekviename „Kubernetes“ sankaupos mazge. Taikydami šią praktiką, galite sklandžiai perkelti funkcijų transformavimo ir modeliavimo numatymo planą, sukurtą „Azure Databricks“, į gamybos pusę. Tai taip pat nereikalauja iš anksto apskaičiuoti visų galimų vartotojo ir elementų derinių balų, o tai gali būti sunku, jei naudojate dinamines vartotojo funkcijas, pvz., Dienos laiką.

    Prieinamumas

    Mašinų mokymosi užduotys yra padalintos į du išteklių komponentus: išteklius mokymui ir išteklius, skirtus gamybai diegti. Mokymams reikalingi ištekliai paprastai nėra labai prieinami, nes tiesioginės gamybos užklausos tiesiogiai nepasiekia šių išteklių. Aptarnavimui reikalingi ištekliai turi būti labai prieinami klientų užklausoms patenkinti.

    Mokymai apie „Azure Databricks“ gali vykti bet kuriame iš regionų, turintiems paslaugų lygio sutartį (SLA), kad būtų patenkinti jūsų poreikiai. Produkcijos diegimui naudojama „Azure Kubernetes“ tarnyba, užtikrinanti platų geografinį prieinamumą naudojant šią SLA.

    Saugumas

    Šis scenarijus gali naudoti „Azure Active Directory“ („Azure AD“) vartotojams autentifikuoti „Azure Databricks“ darbo srityje ir „Azure Kubernetes“ grupėje. Leidimus galima valdyti per „Azure AD“ autentifikavimą arba vaidmenimis pagrįstą prieigos valdymą.


    Neseniai paskelbti duomenų rinkiniai

    Užimtumo sąlygoti šiluminiai afinitetai atspindi žinomas fizines jūrų rūšių šilumines ribas

    klimato fiziologijos biogeografija

    Šiame tyrime mes panaudojome „robis“ paketą, kad iš 24 taksonominių klasių išgautume 2 176 906 OBIS įvykių įrašus 533 jūrų rūšims, kurioms mes turėjome prieigą prie eksperimentiškai gautų šiluminių ribų. Susiedami šiuos įvykių įrašus su pasauline jūros paviršiaus ir jūros dugno temperatūra, mes palyginome temperatūras, kuriomis rūšys iš tikrųjų gyvena, iki jų šiluminių ribų.

    (nemokama elektroninė knyga) Biogeografinis giluminės pietvakarių Ramiojo vandenyno faunos atlasas

    ŠV Ramiojo vandenyno giliavandenis bentosas

    „Pensoft“ išleido „Biogeographic Atlas of the Deep NW Pacific Fauna“ kaip atviros prieigos elektroninę knygą po trejus metus trukusio intensyvaus daugiau nei 40 giliavandenių ekspertų bendradarbiavimo aplink šį žodį. Ši knyga yra sukurta kaip vadovas, sintezė ir apžvalga apie dabartines dugno faunos žinias, paplitusias Ramiojo vandenyno pietvakariuose, batyalio ir bedugnės zonose (žemiau 2000 m). Visi naudojami duomenys (seni ir nauji) yra OBIS.

    Kai kurios žuvys gilinasi, kad atvėstų šiltose jūrose

    bendruomenės temperatūros indekso klimato kaita

    A study published in the journal Nature Climate Change using OBIS data showed how fish, demersal and planktonic communities changed as warm-water species increase and cold-water marine species become less successful due to climate warming.

    The great dying at the end of the Permian linked to ocean warming and oxygen loss

    Biogeography extinction climate change

    A study published in Science using historical data of ocean warming and oxygen loss, combined with species traits and occurrence data from OBIS revealed patterns of habitat loss and extinction at the end of the Permian period.

    Microscopic “body-snatchers” and “planktonic-greenhouses” are ubiquitous with contrasting biogeographies and abundance in our oceans

    Biogeography mixotrophs plankton

    A study published in Proceedings of the Royal Society B using data from OBIS investigated for the first time the biogeography of mixotrophs, planktonic species which acquire phototrophic capability from their prey. The study shows that “body-snatchers”, (e.g., ciliates, which can steal plastids from their prey) dominate high-biomass areas such as coastal seas while the “planktonic-greenhouses” (e.g., Rhizaria, which enslave entire populations of their prey as endosymbionts) are particularly dominant in oligotrophic open seas. The findings from this study significantly changes the understanding of the functioning of the marine food web and hence the trophodynamics and the biogeochemical cycles in the oceans.

    Coastal benthic biogeographic regions are stable across the millennia

    A new study published in Global Ecology and Biogeography, using recent occurrence data from the Ocean Biogeographic Information System (OBIS) and fossil data from the Paleobiology Database, showed that modern and the near past global ecosystem feature highly similar biogeographic structures, which is remarkable given the known climatic variations of the past ten million years.


    Žiūrėti video įrašą: What is a DMZ? Demilitarized Zone (Spalio Mėn 2021).