Daugiau

Kaip konvertuoti sluoksnio ypatybes iš POLYGON į MULTIPOLYGON?


Kaip konvertuoti sluoksnio ypatybes iš POLYGON į MULTIPOLYGON? Aš žinau, kaip tai padaryti naudojant „postgis“ funkciją ST_Multi, bet kaip aš galėčiau padaryti tą patį QGIS sluoksniui?


Jei norite tai padaryti pagal lauką, tai galite padaryti naudodamiesi QGIS meniu: Vector -> Geometry Tools -> Singleparts to Multipart (norint, kad jūsų nurodytas atributas būtų bendrinamas, reikia mažiausiai dviejų taškų).

OGR yra tiesioginis atitikmuo ST_Multi. Neradau galimybės pasiekti šią specifinę OGR funkciją per QGIS, bet tai galima padaryti naudojant tokį GDAL / OGRogr2ogr -nlt MULTIPOLYGON multipolygon_output.shp polygon_input.shpDaugiau informacijos apie -nlt jungiklį rasite ogr2ogr puslapyje.


Vis dar laukdami paprasto QGIS sprendimo, dešiniuoju pelės mygtuku spustelėdami galite sužinoti, kaip sekasi „OpenJUMP“:


R kaip GIS ekonomistams

Čia mes sužinome, kaip konstruojami skirtingi sfg tipai. Mes taip pat mokomės, kaip sukurti sfc ir sf iš sfg nuo nulio. 37

2.2.1 Paprastų funkcijų geometrija (sfg)

Paketas sf naudoja sfg (paprastų bruožų geometrija) objektų klasę, kad pavaizduotų vienos geometrinės ypatybės geometriją (tarkime, miestas kaip taškas, upė kaip linija, apskritis ir mokyklos rajonas kaip daugiakampiai). Yra įvairių tipų sfg. Štai keletas funkcijų tipų, su kuriais dažniausiai susiduriame kaip ekonomistai 38:

  • TAŠKAS: be ploto funkcija, žyminti tašką (pvz., Šulinys, miestas, dirbama žemė)
  • LINIJAVIMAS: (pvz., Upės intakas)
  • DAUGIAVIRŠTINĖ: (pvz., Upė su daugiau nei vienu intaku)
  • POLIGONAS: geometrija su teigiama sritimi (pvz., Apskritis, valstija, šalis)
  • MULTIPOLYGON: daugiakampių rinkinys, rodantis vieną objektą (pvz., Šalys su salomis: JAV, Japonija)

TAŠKAS yra paprasčiausias geometrijos tipas ir jį vaizduoja dviejų 39 skaitinių reikšmių vektorius. Žemiau pateiktame pavyzdyje parodyta, kaip POINT funkciją galima sukurti nuo nulio:

Funkcija st_point () sukuria POINT objektą, kai jam pateikiamas dviejų skaitinių verčių vektorius. Jei patikrinsite naujai sukurto objekto klasę,

galite pamatyti, kad tai tikrai POINT objektas. Bet tai taip pat yra sfg objektas. Taigi, a_point yra sfg tipo POINT objektas.

„LINESTRING“ objektus vaizduoja taškų seka:

s1 yra matrica, kurioje kiekviena eilutė žymi tašką. Pritaikydami funkciją st_linestring () s1, sukuriate objektą LINESTRING. Pažiūrėkime, kaip atrodo linija.

Kaip matote, kiekviena iš eilės esančių taškų pora matricoje sujungta tiesia linija.

POLIGONAS yra labai panašus į LINESTRINGĄ tuo, kaip jis yra vaizduojamas.

Kaip ir anksčiau sukurtą objektą „LINESTRING“, taip ir „POLYGON“ vaizduoja taškų rinkinys. Didžiausias skirtumas tarp jų yra tas, kad turime turėti tam tikrą teigiamą plotą, uždarytą taškus jungiančiomis linijomis. Norėdami tai padaryti, turite tą patį tašką pirmajam ir paskutiniam taškui uždaryti kilpą: čia jis yra c (0,0). POLIGONAS gali turėti skylę. Pirmoji sąrašo matrica tampa išoriniu žiedu, o visos tolesnės matricos bus skylės išoriniame žiede.

Panašiai galite sukurti objektą MULTIPOLYGON. Vienintelis skirtumas yra tas, kad pateikiate matricų sąrašų sąrašą, o kiekvienas vidinis sąrašas reiškia daugiakampį. Toliau pateiktas pavyzdys:

Kiekvienas sąrašas (p1, p2), sąrašas (p3, p4), sąrašas (p5) reiškia daugiakampį. Šių sąrašų sąrašą pateikiate funkcijai st_multipolygon (), kad sukurtumėte objektą MULTIPOLYGON.

2.2.2 Sukurkite paprastų funkcijų geometrijos sąrašo stulpelį (sfc) ir paprastą bruožą (sf) nuo nulio

Norėdami sukurti paprastą funkcijų geometrijos sąrašo stulpelį (sfc), galite tiesiog pateikti sfg sąrašą funkcijai st_sfc () taip:

Norėdami sukurti sf objektą, pirmiausia pridėkite sfc kaip stulpelį prie data.frame.

Šiuo metu R dar nepripažįsta jo kaip sf.

Galite užregistruoti jį kaip sf objektą naudodami st_as_sf ().

Kaip matote, dabar sf_ex taip pat atpažįstamas kaip sf objektas.

Erdvinių objektų kūrimas nuo nulio yra daugeliui iš mūsų, kaip ekonomistų, nereikalingas įgūdis. Vis dėlto gerai žinoti pagrindinę duomenų struktūrą. Be to, kartais kyla poreikis. Pavyzdžiui, turėjau sukonstruoti erdvinius objektus nuo nulio, kai rengiau ūkyje atsitiktinius atsitiktinius azoto tyrimus. Tokiais atvejais, be abejo, reikia suprasti, kaip konstruojami skirtingi sfg tipai, sukurti sfc iš sfg s rinkinio ir tada sukurti sf iš sfc.

Vargu ar pamatysite kitus geometrijos tipus: MULTIPOINT ir GEOMETRYCOLLECTION. GEOMETRYCOLLECTION galite pamatyti susikertę du erdvinius objektus. Čia galite pamatyti, jei norite sužinoti, kokie jie yra


R kaip GIS ekonomistams

Čia aptariame būdus, kaip lygiagrečiai išgauti reikšmes iš daugelio daugiasluoksnių rastrinių failų.

6.2.1 Duomenų rinkiniai

Mes naudosime šiuos duomenų rinkinius:

  • rastras: dienos PRISM duomenys nuo 2010 m. iki 2019 m. kaupiami pagal mėnesius
  • daugiakampiai: Reguliarūs daugiakampio tinkleliai virš Ajovos

dienos PRISM krituliai nuo 2010 iki 2019 m

Čia galite atsisiųsti visus prizmės failus. Tiems, kurie nori sužinoti, kaip generuoti kasdien saugomų PRISM duomenų failų serijas pagal mėnesį, kodą rasite 9.3 skyriuje.

JAV apskrityse

6.2.2 Nelyginis ekstrahavimas

Mes 5.3 skyriuje jau sužinojome, kad vertes iš sukrautų rastrinių sluoksnių išgauti yra greičiau nei iš kelių vieno sluoksnio rastrinių duomenų rinkinių po vieną. Čia dienos kritulių duomenų rinkiniai kaupiami pagal metus ir mėnesius ir išsaugomi kaip daugiasluoksniai „GeoTIFF“ failai. Pavyzdžiui, PRISM_ppt_y2009_m1.tif saugo 2009 m. sausio mėn. kritulių dienos duomenis. Štai kiek laiko reikia išgauti JAV apskričių vertes iš mėnesio dienos PRISM kritulių duomenų.

Norėdami apdoroti visus 2009–2018 m. Kritulių duomenis, šiame skyriuje svarstome du būdus:

  1. lygiagrečiai per daugiakampius ir atlikite įprastą kilpą per metus-mėnesį
  2. lygiagrečiai per metus-mėnesį

6.2.3 1 metodas: lygiagretinkite daugiakampius ir reguliariai atlikite ciklą per metus

Šiuo požiūriu išmatuokime laiką, praleistą vienerių metų PRISM duomenų rinkiniui apdoroti, ir tada atspėkime, kiek užtruks 120 metų PRISM duomenų rinkinių apdorojimas.

Gerai, todėl toks požiūris tikrai nepadeda. Jei norėtume apdoroti 10 metų kasdienius PRISM duomenis, tai užtruktų maždaug 167,39 minutes.

6.2.4 2 metodas: lygiagretus laiko aspektas (metai-mėnuo)

Užuot lygiagrečiai per daugiakampius, palyginkime laiką (metus-mėnesį). Norėdami tai padaryti, pirmiausia sukuriame „data.frame“, kuriame yra visi metų ir mėnesių deriniai, prie kurių dirbsime.

Ši funkcija išskiria duomenis iš vieno metų mėnesio atvejo:

Tada lygiagrečiai pereiname per mėnesio_metų_duomenų eilutes.

Tai užtruko 7,52 min. Taigi aiškus nugalėtojas yra „Approach 2“.

6.2.5 Atminties svarstymas

Iki šiol nekreipėme dėmesio į lygiagrečių procesų atminties pėdsaką. Tačiau tai yra labai svarbu lyginant daug didelių duomenų rinkinių. 1 ir 2 požiūriai labai skiriasi savo atminties pėdsakais.

1 metodas išskiria daugiakampius į daugiakampių grupę ir išskiria rastrines reikšmes lygiagrečiai. 2 metodas ištraukia ir turi rastrines vertes 15 iš visų JAV daugiakampių. Taigi, 1 metodo atminties pėdsakas akivaizdžiai mažesnis. 2 metodas panaudojo apie 40 Gb kompiuterio atminties, beveik padidindamas 64 Gb RAM atmintį mano kompiuteryje (tuo metu RAM atmintį sunaudoja ne tik R arba C ++). Jei neperžengsite ribos, viskas gerai. 2 būdas man tikrai yra geresnis variantas. Tačiau jei aš turėčiau 32 Gb RAM atmintį, „Approach 2“ būtų patyręs reikšmingų nuostolių, o „Approach 1“ - ne. Arba, jei rastriniai duomenys turėtų dvigubai daugiau ląstelių tuo pačiu erdviniu mastu, tada 2 metodas būtų patyręs reikšmingų nuostolių, o 1 metodas neturėjo.

Lengva sugalvoti atvejį, kai pirmenybė teikiama 1 metodui. Pvz., Tarkime, kad turite kelis 10 Gb rastro sluoksnius, o jūsų kompiuteryje yra 16 Gb RAM atmintis. Tada 2 metodas akivaizdžiai neveikia, o 1 metodas yra jūsų vienintelis pasirinkimas, kuris yra geresnis, nei visai nelyginti.

Apibendrinant galima pasakyti, kad leisdami kiekvienam branduoliui apdoroti didesnį duomenų kiekį, turite būti atsargūs, kad neviršytumėte savo kompiuterio RAM atminties ribos.


Žinių atradimas ieškant erdvinės kartografinės informacijos.

ŽEMĖLAPIŲ KOLEKCIJŲ BIBLIOTEKŲ KATALOGAI daugelyje bibliotekų nėra gerai išvystyti. Kartografinės informacijos šaltinis skiriasi nuo kitų rūšių informacijos tuo, kad paprastai yra stačiakampio formos ir apibrėžtas keturių žemėlapio kampų koordinatėmis. Šią informaciją apie koordinates daugeliui žmonių sunku naudoti, nebent yra sukurta tam tikra vartotojo sąsaja ir neįdiegti žinių paieškos algoritmai. Sistema su tokia sąsaja ir algoritmais gali atlikti galingas užklausas, kurių negali įprasta teksto informacijos paieškos sistema. Šiame straipsnyje aprašoma prototipų sistema „GeoMatch“, leidžianti vartotojams interaktyviai apibrėžti dominančias geografines sritis foniniame žemėlapyje. Tai taip pat leidžia vartotojams kokybiškai arba kiekybiškai apibrėžti ryšį tarp vartotojo nustatytos srities ir žemėlapio aprėpties. Žinių atradimo duomenų bazėje (KDD) faktorius analizuojamas paieškos procese. Buvo apklausti trys bibliotekininkai, norėdami ištirti naujos sistemos įgyvendinamumą. Taip pat aptariamas MARC įrašo formatas, teigiant, kad kartografinės medžiagos įrašus iš esamos bibliotekos internetinės katalogų sistemos paversti „GeoMatch“ galima automatiškai.

Žinių atradimas duomenų bazėse (KDD) pastaraisiais metais tapo aktualia tema. KDD metodas buvo naudojamas įvairiose srityse, įskaitant erdvinės duomenų bazės analizę (Xu ir kt., 1997), automatinę klasifikaciją (Bell, 1998), nuokrypių aptikimą (Schmitz, 1990) ir grupavimą (Cheesman, 1996). Šiame straipsnyje nagrinėjamas KDD naudojimas ieškant informacijos, tiriant geografinės informacijos gavimo pobūdį ir procesą. Jame nagrinėjamos geografinių informacinių sistemų (GIS), kartografinės informacijos bibliografinių įrašų ir GIS pagrįstos kartografinės informacijos paieškos sistemos - „GeoMatch“ - charakteristikos.

GIS IR FUNKCIJOS, SUSIJUSIOS SU GIS PAGRĮSTA INFORMACIJOS GRĄŽINIMO SISTEMA

Aplinkos sistemos tyrimų institutas (ESRI) yra didžiausias GIS programinės įrangos gamintojas pasaulyje. ESRI GIS savo meniu (Aplinkos sistemos tyrimų institutas, 1991) apibrėžia kaip: "Organizuota kompiuterinės techninės įrangos, programinės įrangos, geografinių duomenų ir personalo kolekcija, skirta efektyviai fiksuoti, saugoti, atnaujinti, manipuliuoti, analizuoti ir rodyti visas geografines formas. nurodyta informacija “. Daugumą šio apibrėžimo žodžių galima rasti daugelio kitų informacinių sistemų apibrėžimuose. GIS ypatingas yra geografiškai nurodytų duomenų terminas. GIS naudoja erdvinę vietą kaip pagrindinę nuorodą tvarkant ir manipuliuojant informacija.

Tipiška GIS turi du pagrindinius funkcinius komponentus - duomenų bazių valdymo sistemą, kurioje kaupiami ir tvarkomi duomenys, ir erdvinį variklį, kuris atlieka specialias geologinių ypatybių topologines operacijas. Dažnas GIS nesusipratimas yra laikyti jį tik kompiuterizuotu žemėlapių kūrėju. GIS yra galinga analitinė priemonė, kuri yra kur kas tobulesnė nei žemėlapių kūrėjas. Tiesa, kai kurie GIS produktai rinkoje yra supaprastinti, kad naivūs GIS vartotojai galėtų kurti, peržiūrėti ir spausdinti žemėlapius. Šie „žiūrovo“ / programinės įrangos paketai dažnai palaiko tik ribotas manipuliavimo duomenimis funkcijas. Jie nėra laikomi visiškai veikiančiomis GIS sistemomis. GIS gali atlikti tinklo analizę, perdangas, buferį ir daugybę kitų operacijų, kurias gali atlikti nedaug kitų informacinių sistemų. Kaip apibendrino Burrough (1990), GIS gali atsakyti į tokius klausimus:

* Kur yra 785 S. Alleno gatvė Albanyje, Niujorke?

* Kokiame surašymo trakte yra minėtas adresas?

* Kiek prekybos centrų yra už trijų mylių nuo aukščiau nurodyto adreso?

* Pristatymo sunkvežimis turi pristatyti daiktus 200 klientų. Koks yra trumpiausias pristatymo kelias ir seka? Koks greičiausias būdas atlikti užduotį, jei yra kelių eismo informacijos?

* Koks yra gyventojų tankumas, atsižvelgiant į apskrities gyventojų skaičių? (GIS gali tiksliai apskaičiuoti apskrities plotą).

* Mieste ketinama pastatyti naują prekybos centrą. Prekybos centras turėtų būti pastatytas mažiausiai penkių mylių atstumu nuo esamų prekybos centrų šalia pagrindinės gatvės, kurią supa 5000 gyventojų, esančios keturių mylių atstumu ir ne toliau kaip už dešimties mylių nuo miesto centro. Kur geriausia pastatyti naująjį prekybos centrą?

Yra daugybė kitų klausimų, į kuriuos gali atsakyti tik GIS. Viena iš GIS funkcijų, labai susijusi su geografinės informacijos paieškos sistema, yra perdanga. Norint suprasti perdangos procesą, reikia apibrėžti kai kurias sąvokas.

GIS daugiakampis yra uždara teritorija, ribojama linijomis, tokiomis kaip surašymo traktas ar apskritis. Taigi daugiakampiai turi sritis ir parametrus, kuriuos GIS gali apskaičiuoti. Sluoksnis arba tema yra vieno elemento žemėlapio GIS koncepcija. Pavyzdžiui, Floridos apskrities žemėlapis, kuriame nurodytas vidutinis gyventojų amžius, yra daugiakampio sluoksnis. Šiuos vienos funkcijos sluoksnius analizė gali integruoti GIS.

GIS turi galimybę sukurti geometrinę topologiją. Jis gali nustatyti, kurios linijos kerta viena kitą, kad susikirtų mazgas. Jis gali nustatyti, kokios linijos yra sujungtos, kad būtų sukurtas uždaras daugiakampis. Tada GIS gali sukurti daugiakampį objektą su tokiomis funkcijomis kaip plotas ir parametras. GIS topologija gali būti išreikšta taškų, tiesių ir daugiakampių santykiu. GIS gali atlikti sudėtingą erdvinę analizę, nustačius topologiją.

Kelių sluoksnių sujungimo procesas vadinamas perdanga, unikalia GIS funkcija. Pavyzdžiui, tarkime, kad ant skaidrių yra atspausdinti du žemėlapiai - gyventojų surašymo žemėlapiai ir ežero žemėlapiai, visi toje pačioje apskrityje. Jei abu žemėlapiai yra tiksliai tos pačios skalės ir keturi dviejų žemėlapių kampai rodo tiksliai tas pačias vietas, abu skaidrės gali būti sujungtos, kad būtų sukurtas naujas žemėlapis - su apskrities ribomis ir ežero pakrante. Naujas žemėlapis yra vadinamasis perdanga. GIS yra labai galinga atliekant šią operaciją. Jis gali perdengti žemėlapius su įvairiomis ypatybėmis (taškas, linija, daugiakampis) ir sukurti naujas topologijas tolesnei analizei. Burroughas (1990) pateikia keturiasdešimt keturias perdangos analizės galimybes, kurias gali turėti GIS. 1 paveiksle parodytas perdangos procesas. Pirmasis žemėlapio sluoksnis rodo mokyklų rajonų ribas (C rajonas ir D rajonas). Antrasis žemėlapio sluoksnis rodo apskričių ribas (A ir B apskritis). Perdangos proceso metu GIS sujungia abiejų žemėlapių sluoksnių ypatybes į trečią sluoksnį, kuriame yra keturi daugiakampiai. Trečiame žemėlapio sluoksnyje kiekvienas daugiakampis turės atributus tiek iš apskrities žemėlapio, tiek iš mokyklos rajono žemėlapio sluoksnio. Pavyzdžiui, 1 srityje bus jo plotas, parametras, apskrities pavadinimas A, mokyklos rajono pavadinimas C ir kiti duomenys, anksčiau saugoti dviejuose žemėlapio sluoksniuose. Akivaizdu, kad būtų sunku integruoti mokyklos apygardos duomenis ir apskričių duomenis naudojant tik duomenų bazės metodus, nes surinkti duomenys atspindi skirtingas sritis.

[1 PAVEIKSLAS IŠTRAUKTAS]

ŽINIŲ ATRADIMAS DUOMENŲ BAZĖSE IR INFORMACIJOS GRĄŽINIMAS

Dėl pigesnio duomenų saugojimo ir didėjančios skaičiavimo galios įvairių organizacijų surinktų duomenų kiekis sparčiai išaugo. Ši didžiulė duomenų gausa, dažnai saugoma atskiruose duomenų rinkiniuose, apsunkina atitinkamos informacijos paiešką. Kita vertus, kompiuterių galia taip pat leidžia integruoti duomenų rinkinius, surinkti faktus ir išplėtoti informaciją į „susijusių išvadų rinkinį“ (Trybula, 1997). Štai kodėl KDD sulaukė tokio dėmesio tiek iš akademinio, tiek iš komercinio pasaulio. Pasak Tuzhilino (1997), dokumentų, pateiktų žinių atradimų dirbtuvėms, skaičius išaugo nuo 40 1993 m. Iki 215 1996 m.

Fayyadas, Piatetsky-Shapiro ir Smythas (1996) KDD apibrėžia kaip „nereikšmingą procesą, pagal kurį nustatomi galiojantys, nauji, potencialiai naudingi ir galiausiai suprantami duomenų modeliai“ (p. 2). Kaip apibendrino Trybula (1997), duomenų vertinimo metodai apima algoritmus, susiejimą, pokyčių ir nuokrypių nustatymą, vizualizavimą ir šešiolika kitų analizės metodų. Nesvarbu, kuris metodas naudojamas, pagrindinis KDD tikslas yra atskleisti naujas, naudingas ir suprantamas žinias.

Informacijos paiešką galima tiesiog išreikšti kaip suderinimo procesą - vartotojo informacijos poreikio suderinimą su informacijos šaltiniu (School of Information Studies, 1998). Šiame procese vartotojas turi tiksliai išreikšti savo informacijos poreikį, kad sistema galėtų gauti informaciją. Kita vertus, informacijos šaltiniai turi būti organizuojami taip, kad būtų galima lengvai gauti svarbiausius atributus, tokius kaip pavadinimas, autorius, dalykiniai terminai, raktiniai žodžiai, publikavimo metai ir pan.

Per pastaruosius tris dešimtmečius tekstinės informacijos paieškos sistemos tapo galingesnės. Paieškos efektyvumas ir efektyvumas buvo žymiai pagerintas naudojant Boolean operatorius, sutrumpinimus, artumą, tikimybių paiešką ir daugelį kitų paieškos mechanizmų. Tačiau kai kurie bibliografinių įrašų atributai gali sukelti tikslios atitikties paieškoje sunkumų. Kai kuriuos atributus vartotojams netgi sunku suprasti. Pavyzdžiui, geografinės koordinatės yra atributai MARC įrašuose už kartografinius duomenis. Nedaugelis vartotojų norėtų ar galėtų įvesti tikslius skaičius, atitinkančius tas koordinates. Dar mažiau žinotų, ką reiškia skaičiai. Nepaisant šių sunkumų, ar koordinatės galėtų būti naudingos ieškant informacijos? Ar juos galima apdoroti siekiant suteikti suprantamų ir naudingų žinių renkantis svarbią informaciją?

Šis straipsnis parodys GIS pagrįstos kartografinės informacijos paieškos sistemos prototipą ir parodys, kaip tokia sistema iš tikrųjų galėtų generuoti naujas ir naudingas žinias paieškos proceso metu.

KARTOGRAFINĖS INFORMACIJOS GRĄŽINIMAS

Kartografinės informacijos paieška bibliotekose

Prieigos taškas apibrėžiamas kaip „vardas, terminas, kodas ir kt., Pagal kuriuos galima ieškoti ir identifikuoti bibliografinį įrašą“ (Glossary, 1995). Įprasta informacijos paieškos sistema paprastai turi bendrus prieigos taškus, tokius kaip autorius, pavadinimas, raktiniai žodžiai, temų antraštės, klasifikacijos numeris ir informacija iš kitų specialių laukų.

Kartografinės informacijos šaltinis, pvz., Vieno lapo žemėlapis, be erdvinės aprėpties, dalijasi dauguma kitų informacijos šaltinių atributų, įskaitant pavadinimą ir dalyko terminus. Kartografinės informacijos šaltinis skiriasi nuo kitų formatų tuo, kad kaip informacijos talpykla jis paprastai yra stačiakampio formos ir jame yra keturių žemėlapio kampų koordinatės. Nepaisant to, dauguma dabartinių paieškos sistemų nenaudoja geografinių koordinačių kaip prieigos taškų, nes tai nėra prasmės tekstinės informacijos paieškos sistemoje. Daugelis bibliotekų vis dar vykdo savo žemėlapių kolekcijų retrospektyvinį keitimą iš kortelių katalogų į tekstinius internetinius katalogus. Norėdami ištirti bibliotekų, naudojančių GIS pagrįstą kartografinės informacijos paieškos sistemą, galimybes, dviejuose Tallahassee, Floridoje, esančiose bibliotekose, buvo atlikti ilgi interviu su trim bibliotekininkais.

Kiekvieno interviu metu buvo parodytas GIS pagrįstos kartografinės informacijos paieškos sistemos (GeoMatch) prototipas. Bibliotekininkų buvo paprašyta atsakyti į klausimus, susijusius su bibliotekos žemėlapių kolekcija, vartotojų poreikiais, paieškos priemonėmis ir paieškos procedūromis. Bibliotekininkų taip pat paprašyta įvertinti programinės įrangos prototipo tinkamumą naudoti ir sistemos naudingumą.

Didžiąją Floridos valstijos bibliotekos žemėlapių kolekcijos dalį sudaro istoriniai žemėlapiai. Nors šiuo metu biblioteka užsako žemėlapių katalogavimą organizacijai, susietai su OCLC, kortelių katalogas vis dar yra pagrindinis žemėlapių kolekcijos paieškos įrankis. Biblioteka prie savo internetinio katalogo pridėjo tik 800 žemėlapių. Internetiniame kataloge yra raktinių žodžių paieška, kuri suteikia daugiau informacijos nei kortelių katalogas. Kortelių katalogas leidžia ieškoti tik pagal autorių, pavadinimą ir dalyko terminus. Pokalbių metu bibliotekininkai nurodė, kad matė daugiau lankytojų, besinaudojančių katalogu, nes buvo įdiegta internetinė versija.

Biblioteka dar neplanuoja skaitmeninti (nuskaityti) žemėlapių. Globėjai dažniausiai negali rasti reikiamų žemėlapių naudodamiesi kortelių katalogu. Kai kurie lankytojai gali rasti savo žemėlapius naudodamiesi internetiniu katalogu ir ieškodami raktinių žodžių. Apskritai, lankytojai pirmiausia remiasi žemėlapių bibliotekininkais, norėdami rasti ir pasiekti žemėlapius.

Nors internetinė katalogų sistema negali suteikti pakankamos pagalbos norint pasiekti kartografinę informaciją, kiekvieną dieną daugelis žemėlapių naudotojų ieško istorinių žemėlapių, geležinkelio žemėlapių ir vietovardžių. Reikia labai pasikliauti žemėlapių bibliotekininkų žiniomis ir žiniomis.

FLORIDOS VALSTYBINĖ UNIVERSITETO BIBLIOTEKA

Floridos valstijos universiteto (FSU) bibliotekoje yra 165 000 vieno lapo žemėlapių, įskaitant JAV geologijos tarnybos žemėlapius, kelių žemėlapius, miesto žemėlapius, teminius žemėlapius ir istorinius žemėlapius. Daugumos vieno lapo žemėlapių įrašai saugomi kortelių kataloge. Bibliotekininkai pradėjo retrospektyvų žemėlapių kortelių katalogų įrašų konversiją į internetinius katalogų įrašus naudodamiesi OCLC. Žemėlapių bibliotekininkės teigimu, didžiąją dalį įrašų galima rasti OCLC duomenų bazėje. Konversijos proceso metu bibliotekininkas, prieš įtraukdamas OCLC įrašus į bibliotekos internetinį katalogą, turi atlikti nedidelius pakeitimus.

Bibliotekininkai kasdien aptarnauja daug žemėlapių naudotojų, įskaitant dėstytojus, studentus ir kitų bibliotekų nurodytus vartotojus. Žemėlapių bibliotekininkai yra gerai susipažinę su žemėlapių kolekcija ir paprastai gali rasti reikalingus žemėlapius. Padėtis FSU bibliotekoje yra panaši į Floridos valstijos bibliotekos padėtį - t. Y. Žemėlapių bibliotekininkai yra vertingiausias informacijos šaltinis, atsižvelgiant į tai, kad kartografinių duomenų katalogų sistema nėra labai naudinga.

Apibendrinant, žemėlapių bibliotekininkai abiejose bibliotekose yra svarbiausi informacijos šaltiniai vartotojams, ieškantiems kartografinių duomenų.

Abi bibliotekos keičia kortelių katalogo kartografinius įrašus į internetinius katalogus. Internetinis katalogas su paieškos galimybėmis padidino žemėlapių naudojimą.

Nors dauguma vartotojų gali gauti reikiamą žemėlapio informaciją su bibliotekininkų pagalba, šią situaciją reikia pagerinti dėl kelių priežasčių. Pirma, žemėlapių bibliotekininkai nėra tikri, ar jie iš tikrųjų randa geriausiai vartotojų poreikius atitinkančius žemėlapius. Antra, nė vienas iš bibliotekininkų nemano, kad gali pateikti išsamų žemėlapių, kurie gali būti įdomūs vartotojams, sąrašą, ypač bibliotekoje, kurioje yra daugiau nei 100 000 žemėlapių. Galiausiai tinkamos informacijos paieška tokioje sistemoje labai priklauso nuo žmonių patirties. Kaip sakė vienas bibliotekininkas: „Bibliotekininkui malonu, ar vartotojas gali gauti patenkinamą atsakymą“. Jei dabartiniai žemėlapių bibliotekininkai palieka savo pareigas, naujiems žemėlapių bibliotekininkams prireiktų metų, kad jie susipažintų su bibliotekos kolekcija. Labai reikalinga galinga bibliotekos žemėlapių kolekcijos paieškos priemonė.

GEO GAMINIŲ GRĄŽINIMO PRIEMONIŲ TYRIMAI

Literatūros apžvalga rodo, kad buvo sukurtos pažangesnės kartografinės informacijos paieškos sistemos, skirtos elektroninių žemėlapių paieškai, ir jos vis dar tobulinamos. Aleksandrijos projektas yra bene geriausiai žinoma elektroninių bibliotekų sistema, susijusi su topologiniais santykiais.

Smithas (1996) Aleksandrijos projekto skaitmeninės bibliotekos (ADL) tikslą apibūdino kaip „sukurti paskirstytą skaitmeninę biblioteką (DL) geografiškai nurodytai medžiagai. Pagrindinė ADL funkcija yra suteikti vartotojams prieigą prie daugybės skaitmeninių bibliotekų. medžiagos, pradedant žemėlapiais ir vaizdais, baigiant tekstu ir daugialypės terpės, atsižvelgiant į geografinę nuorodą “(http://www.dlib.org/dlib.org/dlib/march96/briefings/smith/ 03smith.html).

Aleksandrijos atlaso poskyris tiria „atlaso, kuris palaikytų grafinę / geografinę prieigą prie bibliotekos medžiagos, dizainą ir funkcionalumą“ (http://wwww.alexandria.ucsb.edu/public-documents/ year-report97 / node28.html # SECTION00051300000000000000 ). Kaip nurodoma Aleksandrijos svetainėje, „erdvinė paieška bibliotekų klientams nebuvo prieinama paslauga ir visiškai neaišku, kaip ADL klientai reaguos į faktinių erdvinių duomenų prieinamumą internete“ (http: // www.alexandria. ucsb.edu/public-documents/annual-r port97 / node28.html # SECTION00051300000000000000). Komanda tiria tokius klausimus kaip mastas, duomenų registravimas, paieškos rezultatų pateikimas ir neryškūs pėdsakai.

Aleksandrijos sistema palaiko geografinį naršymą ir paiešką naudojant grafinio žemėlapio sąsają. Sąsajos pavyzdį galite rasti & lthttp: //www.dlib.org/dlib/march96/briefings/smith/ 03smith.html & gt. Vartotojai gali artinti ir tolinti dabartinį žemėlapio vaizdą. Jie gali pasirinkti žemėlapio ypatybes, kurias nori matyti fone, pvz., Sienas ir upes. Vartotojai taip pat gali pasirinkti dominančią sritį ir „TURINIŲ PADANGOS“ režimą. Sistemos apžvalgą galite rasti & lthttp: //www.alexandria.ucsb.edu/adljigi/tutorials/ walkthrough1 / walkthrou & gt.

„GeoMatch“ prototipas be Aleksandrijos sistemoje esančių funkcijų turi keletą naujų funkcijų. „GeoMatch“ testavimo iniciatyva yra atsakyti į šiuos du klausimus: (1) ar GIS / grafika pagrįstą paieškos įrankį, pvz., Aleksandrijos projektą, galima naudoti neelektroninėms kartografinėms kolekcijoms bibliotekose? ir (2) kokias naujas funkcijas galima sukurti tobulinant GIS pagrįstą paieškos įrankį?

GEO-MATCH - IEŠKIMO PRIEMONĖ, KURIOS IEŠKO

2 paveiksle pavaizduotas „Geo-Match“ sistemos užklausos ekranas. Ši sistema ne tik nurodo įprastus informacijos poreikius, tokius kaip metai, pavadinimas, leidėjas, raktinis žodis ir t. T., Bet ir leidžia vartotojui interaktyviai identifikuoti susidomėjusią sritį naudojant pelę. Taip pat prašoma vartotojo nurodyti topologinį ryšį tarp žemėlapio aprėpties ir vartotojo pasirinktos srities. Sistema priima sulaikymo ir sutampančius santykius, kuriuos apibendrino Cobbas ir Petry (1998). Yra du galimi izoliavimo ryšiai - vartotojo pasirinkta sritis visiškai patenka į žemėlapio aprėptį arba žemėlapio aprėptis patenka į vartotojo pasirinktą sritį. Vartotojai gali pasirinkti.

[Iliustracijos praleista 2 paveiksle]

Jei vartotojas nusprendžia pasirinkti persidengiantį ryšį, atsiranda daugiau galimybių kiekybiškai nurodyti sutapimo laipsnį. Šis laipsnis apima žemėlapiuose sutampančios srities procentą ir vartotojo pasirinktos srities sutampančios srities procentą. Jei vartotojas pasirenka 85 procentus kaip sutampantį kriterijų vartotojo pasirinktoje srityje, jis ras žemėlapius, kurie apima didžiąją dalį dominančios srities (3 pav.). Jei vartotojas pasirenka 85 procentus kaip sutapimo kriterijų žemėlapio aprėptyje, vartotojas ras žemėlapius, sutelktus ties pasirinkta sritimi (4 pav.). Vartotojai gali nurodyti, kaip turėtų būti reitinguojami paieškos rezultatai, atsižvelgiant į sutapimo laipsnį.

[3–4 paveikslai IŠTRAUKTA IŠMETAMA]

Pagrindiniai prototipo bruožai yra jo galimybė vartotojui interaktyviai nustatyti dominančią sritį, ty kiekybiškai apibrėžti ryšį tarp vartotojo apibrėžtos srities ir žemėlapio aprėpties bei surikiuoti paieškos rezultatus pagal sutampa.

GRAFIKOS NAUDOJIMAS REIKALINGAI INFORMACIJAI IŠREIKŠTI

Kartografinė informacija yra nurodoma geografiškai - ji atspindi žemės vietas ir vietoves. Įprastas informacijos pateikimas naudojant tekstą ir simbolius nėra labai naudingas apibūdinant žemėlapio informaciją, vietovėje yra per daug geografinių savybių. Pavyzdžiui, geležinkelio žemėlapį Floridoje galima indeksuoti naudojant raktinius žodžius geležinkelis ir Florida. Tačiau į žemėlapį taip pat įtraukiami visi geležinkeliai kiekvienoje Floridos apskrityje. Tai rodo geležinkelio tiesimą Džeksonvilio rajone ir rodo geležinkelį šalia xxx ežero. Praktiškai neįmanoma indeksuoti visų vietovardžių, įtrauktų į sritį. Kai vartotojas nubrėžia langelį norėdamas nurodyti dominančią sritį, prašomai informacijai apibūdinti reikia daugybės žodžių. Grafinė sąsaja gali paslėpti koordinačių skaičius ir pateikti juos keičiamoje grafikoje, todėl vartotojams daug lengviau atrasti dominančius kartografinės informacijos išteklius.

Be anksčiau aptarto informacijos pateikimo klausimo, grafinė sąsaja taip pat išvengia problemų vartotojams, kai pasikeičia vietovardžiai ir apskričių ribos, arba kai jie tiesiog nežino tikslaus pavadinimo pradėti paiešką.

1 LYGIS KD - KOKYBIŠKAI NURODYTI TOPOLOGINIAI SANTYKIAI TARP VARTOTOJO APIBRĖŽTOS SRITYS IR ŽEMĖLAPIO APTIKIMO

Kaip jau buvo aptarta anksčiau, Aleksandrijos projektas savo elektroninėje kartografinės informacijos paieškos sistemoje gali kokybiškai nurodyti topologinius ryšius tarp vartotojo apibrėžtos srities ir žemėlapio aprėpties. Šis atitikimo procesas viršija tikslų atitikimą įprastoje informacijos paieškos sistemoje. Kompiuterinė sistema apskaičiuos topologinį ryšį tarp vartotojo nustatytos srities ir žemėlapių aprėpties, kad nustatytų, ar jie sutampa, ar viename yra visiškai kitas.

Cobbas ir Petry (1998) pateikė dvinarių topologinių ir kryptinių santykių tarp dvimatių objektų apibrėžimo ir reprezentavimo modelį. Tokie ryšiai gali būti naudojami neryškiai užklausoms. Cobbas ir Petry (1998) apibendrina, kad yra keturi pagrindinių santykių tipai - nesusiję, liestiniai (vienas šalia kito), sutapimai ir sulaikymas. „GeoMatch“ prielaida yra ta, kad vartotojai, naudodami užklausas sistemoje, naudingiausi supras sutapimus ir saugojimą.

Pirmiau nurodytos operacijos apima konversiją iš ekrano koordinačių į realaus pasaulio koordinates ir vartotojo nustatytos srities kampų koordinačių ir žemėlapio ribų palyginimą. Šiame procese sukuriamos naujos žinios - ar dvi sritys sutampa. Įgytas žinias galima panaudoti norint nukreipti vartotojus į atitinkamą informacijos šaltinį. „GeoMatch“ suteikia vartotojams papildomą pasirinkimą už Aleksandrijos sistemos ribų, kad apibrėžtų izoliavimo santykį.

2 LYGIS KD - KOKYBIŠKAI NUSTATYTI TOPOLOGINĮ SANTYKĮ TARP VARTOTOJO APIBRĖŽTOS SRITYS (stačiakampio) ir žemėlapio aprėpties

Kiekybinis topologinio ryšio nustatymas tarp vartotojo nustatytos srities ir žemėlapio aprėpties yra unikali „GeoMatch“ sistemos ypatybė. Šiame procese nustatomas ne tik dviejų sričių topologinis ryšys, bet ir matematinis skaičiavimas, siekiant įvertinti, kiek abi sritys sutampa. By combining the information input by users and the data stored in the database, the computer algorithm discovers new knowledge not explicitly represented in the database. Since the user-defined area is rectangular, the calculation involved is not overwhelming and can be realized using a conventional programming language such as C++ or Visual Basic.

This feature allows the system to achieve a higher recall and precision than those systems without this function. Gluck (1995) made an analysis of the relevance and competence in evaluating the performance of information systems. He indicated that "relevance judgments by users most often assess the qualities of retrieved materials item by item at a particular point in time and within a particular user context" (p. 447). Using the qualitative topological matching technique described in Level 1 above, there could be a large gap between the relevance of the system's view and the relevance of the user's view. For example, users may find that some retrieved maps cover only a small part of the area of interest and in fact are useless, but these maps are relevant from the system's view since they overlap the user-defined area. Users may also find that some retrieved maps cover such a large area that the area of actual interest encompasses only a small portion of the whole map. These maps are relevant too from the system's view but, again, practically useless for users. The reason for such a gap between the user's view and system's view is that not enough "knowledge" is discovered and provided for users to describe their information need in more detail. The techniques employed in the quantitative topological matching can greatly reduce the gap of relevance between the two perspectives. In addition, Geomatch can calculate the spatial relevance of the maps to the area of interest and rank the results using the quantitative overlapping factor, while many systems fail to "provide useful ordering of retrieved records" (Larson, McDonough, O'Leary, Kuntz, & Moon, 1990, p. 550). This function is particularly helpful for users when hundreds of maps are included in the result set.

LEVEL 3 IN KD--SPECIFYING TOPOLOGICAL RELATIONSHIP QUANTITATIVELY BETWEEN USER-DEFINED AREA (FREE STYLE) AND MAP COVERAGE

Specifying a topological relationship quantitatively between a user-defined area and map coverage differs from level 2 in that users are allowed to use the mouse to define an irregular area of interest rather than a straight rectangle. This feature can help users express their information need more precisely. For example, a user interested in the lake shore area of a lake can draw an irregular circle around the lake and perform a search.

This process involves complicated topological calculations that are difficult to accomplish using conventional programming languages. The GIS overlay function introduced at the beginning of this discussion needs to be used to generate new polygons and calculate the areas involved. Although the GeoMatch prototype currently does not have this feature, this function could be implemented using a third party GIS software such as the Spatial Engine from ESRI.

MARC RECORD FOR CARTOGRAPHIC INFORMATION RESOURCES

Whether an information system can be adopted depends not only on its creativity and usefulness but also on the degree of difficulty in converting the current system to the new system. MARC record format is studied to examine what new information needs to be collected to use GeoMatch.

US MARC (Machine Readable Cataloging), developed by the Library of Congress, follows the national standard (ANSI/NISO Z39.50) and international standard. It is the basic format of bibliographic description in the United States. Most online catalogs have a MARC interface for data import and export. OCLC, the bibliographic utility, also provides records in MARC format for members to share.

The current MARC format provides sufficient geographic information to support a more powerful searching tool such as GeoMatch. The most important field is Field 034--Coded Mathematical Data Area Field (Mangan, 1984). If a single set of scales is used, the first indicator is set to "1." The subfield codes include $b (ratio linear horizontal scale) Sc (ratio linear vertical scale) Sd (coordinates--westernmost longitude) Se (coordinates--easternmost longitude) $f (coordinates--northernmost latitude) and $g (coordinates--southernmost latitude). The following is an example of the MARC record 034 field:

The field above illustrates that the map covers an area from West 164 [degrees] 00'00" to West 044 [degrees] 00'00" in longitude and from North 090 [degrees] 00'00" to North 040 [degrees] 00'00" in latitude. This demonstrates that MARC records are capable of defining the scope of a map, and the data are usable in systems like GeoMatch. No additional value-adding operations are necessary unless the bibliographic record of a map is not available from the OCLC database or no matching MARC record is available for the map. If a library already has its map collection in its online catalog, all the records can be imported into GeoMatch automatically.

When librarians at the Florida State Library reviewed the prototype for GeoMatch, they realized that it could give answers to difficult questions. For example, towns may disappear over time, county boundaries may change, and users might not remember an exact place name. In such cases, GeoMatch could be very helpful.

Florida State University Library

The librarian showed interest in the GeoMatch system. She thought the system could be useful but should be integrated with the university library catalog system. When the librarian was asked whether the GeoMatch system could solve some difficult to answer questions, she provided the following example:

In summary, librarians in both libraries confirmed the need for a retrieval tool with a graphic user interface facilitating location-based searching. Such a tool is especially important when a user does not know the exact place name but knows approximately the locations of interest or when the name of a place has changed.

Nevertheless, while the librarians judged the system to be creative and potentially useful, they were not eager to implement such a system in their own libraries.

New spatial information retrieval tools are needed to improve the efficiency and effectiveness of geographically referenced searching. The GeoMatch prototype demonstrates that a graphic-based interface can mine the geographical data buried in MARC records and other geospatial sources and visualize the new knowledge discovered in these data. Combined with the text retrieval capability, this knowledge discovery tool provides users with greater flexibility in locating the information they need. Discovering knowledge in geospatial data is distinct from text information searching because it uses algorithms to convert coordinate information into user-understandable and useful knowledge.

The main contribution of GeoMatch is the quantitative analysis of the relationship in the retrieval process. Not only can it help users to more precisely define their information need and adjust the searching strategy, but it can also be used to rank the results.

The study of the MARC format shows that it supports the data requirements of GeoMatch, and no additional information is required for converting an existing online catalog to GeoMatch.

Future research in geospatial information retrieval systems will focus on the usability of the system and the theoretical framework of spatial information retrieval, including:

1. usability testing of GeoMatch to study the user friendliness and usefulness of the system

2. field testing of implementing GeoMatch in a library catalog system

3. evaluation of the efficiency and effectiveness of the quantitative overlapping function

4. design of the formula and algorithms to rank the searching result using factors from spatial comparison and factors from text information retrieval such as keywords

6. application of such a system to information sources other than paper maps, including electronic images and information that can be geographically referenced and

7. accessibility of such a system over the Web.

Results from these studies could enrich the theories in spatial information retrieval and lead to more powerful and user-friendly information retrieval tools.

Bell, D. A., & Guan, J. W. (1998). Computational methods for rough classification and discovery. Journal of the American Society for Information Science, 49(5), 403-414.

Burrough, P. A. (1990). Principles of geographical information systems for land resources assessment. Oxford: Clarendon Press.

Cheeseman, P., & Stutz, J. (1996). Bayesian classification (autoclass): Theory and results. In U. M. Fayyad (Ed.), Advances in knowledge discovery and data mining (pp. 153-180). Menlo Park, CA: AAAI Press.

Cobb, M. A., & Petry, F. E. (1998). Modeling spatial relationships within a fuzzy framework. Journal of the American Society for Information Science, 49(3), 253-266.

Environmental System Research Institute. (1991). Understanding GIS. Redland, CA: ESRI.

Fayyad, U. M. Piatetsky-Shapiro, G. & Smyth, P. (1996). From data mining to knowledge discovery: An overview. In U. M. Fayyad (Ed.), Advances in knowledge discovery and data mining (pp. 1-34). Menlo Park, CA: AAAI Press.

Glossary. (1995). Retrieved August 18, 1999 from the World Wide Web: http:// www.libraries.rutgers.edu/rulib/abtlib/alexlib/glossary-html.

Gluck, M. (1995). Understanding performance in information systems: Blending relevance and competence. Journal of the American Society for Information Science, 46(6), 446-460.

Larson, R. R. McDonough, J. O'Leary, P. Kuntz, L. & Moon, R. (1996). Cheshire II: Designing a next-generation online catalog. Journal of the American Society for Information Science, 47(7), 555-567.

Mangan, E. U. (1984). MARC conversion manual--maps: Content designation conventions and procedures for AACR2. Washington, DC: Library of Congress.

Schmitz, J. (1990). Coverstory--automated news finding in marketing. Interfaces, 20(6), 29-38.

School of Information Studies, FSU. (1999). Foundations of information studies. Retrieved May 17, 1999 from the World Wide Web: http://slis-one.lis.fsu.edu/courses/5230/.

Smith, T. R. (1996). A brief update on the Alexandria digital library project--constructing a digital library for geographically-referenced materials. Retrieved August 6, 1999 from the World Wide Web: http://alexandria.sdc.ucsb.edu.

Smith, T. R. (1998). Alexandria atlas subteam. Retrieved August 6, 1999 from the World Wide Web: http://alexandria.sdc.ucsb.edu.

Trybula, W. J. (1997). Data mining and knowledge discovery. In M. E. Williams (Ed.), Annual review of information science and technology (pp. 197-229). Medford, NJ: Information Today.

Tuzhilin, A. (1997). Editor's introduction to the special issue on knowledge discovery and its applications to business decision-making. Decision Support Systems, 21(1), 1-2.

Xu, X. W. Ester, M. Kriegel, H. P. &Sander, J. (1997). Clustering and knowledge discovery in spatial databases. Vistas in Astronomy, 41(3), 397-403.

Carter, C. L., & Hamilton, J. (1998). Efficient attribute-oriented generalization for knowledge discovery from large databases. IEEE transactions on knowledge and data engineering, 10(2), 193-208.

Chen, Z., & Zhu, Q. (1998). Query construction for user-guided knowledge discovery in databases. Journal of Information Sciences, 109(1-4), 49-64.

Connaway, L. S. Kochtanek, T. R. & Adams, D. (1994). MARC bibliographic records: Considerations and conversion procedures for microcomputer database programs. Microcomputers for Information Management, 11 (2), 69-88.

Deogun, J. S. Choubey, S. K. Raghavan, V. V. & Sever, H. (1998). Feature selection and effective classifiers. Journal of the American Society for Information Science, 49(5), 423-434.

Maddouri, M. Elloumi, S. & Jaoua, A. (1998). An incremental learning system for imprecise and uncertain knowledge discovery. Journal of Information Science, 109(1-4), 149164.

Morik, K., & Brockhausen, P. (1997). A multistrategy approach to relational knowledge discovery in databases. Machine Learning, 27(3), 287-312.

Vickery, B. (1997). Knowledge discovery from databases: An introductory review. Journal of Documentation, 53(2), 107-122.

Lixin Yu, School of Information Studies, Florida State University, Tallahassee, FL 32306-2100

LIXIN YU is an Assistant Professor at the School of Information Studies, Florida State University, where he teaches courses in database management, user interface design, and information system design and development. He worked as a Project Manager at Geosocial Resources, Inc. and has been working on Geographic Information System projects since 1990. He has published articles on GIS including "Geographic Information Systems in Library Reference Services: Development and Challenge" (Reference Librarian, February 1998) and "Assessing the Efficiency and Accuracy of Street Address Geocoding Strategies" (Proceedings of GIS '97, December 1997).3


Data Transfer

For many projects, it would be nearly impossible to gather all of the necessary data on your own. That’s where external data sources come in. Regardless of where the data comes from, GIS software can overlay all of the information into a single, layered map.

Sources

Any information tied to a specific location can be a part of GIS data collection. According to National Geographic, there are four main categories of GIS data:

  • Cartographic data: cartographic data is already in a map format and describes the location of features, the location of buildings, survey information, etc.
  • Photographic data: photographic data can be used to analyze and map features from print and digital photos, satellite imagery, and aerial photography.
  • Digital data: Digital data includes any information that’s already in digital format, including tables, satellite findings, and any data that’s been digitized by another GIS professional.
  • Spreadsheet data: This includes information in tables and spreadsheets, which typically need to be formatted as an Excel or CSV (comma-separated values) file. Spreadsheets are often the go-to source for demographic information such as age, income levels, or even spending habits.

Procesas

While there’s no shortage of public data, there’s also little to no standardization, making it difficult to find data in the right format. However, just because data isn’t formatted correctly doesn’t necessarily mean it’s unusable – it just needs to be translated.

There are two main components to translating data for GIS software, syntactic and semantic translation. Syntactic translation is by far the easier of the two, as it only involves translating symbols such as letters and numbers between systems. Semantic translation, on the other hand, is a bit more complicated. It aims to decipher the meaning behind the data, and though progress has been made, semantic translation tends not to be very accurate.


GIS Introduction by David J. Buckey

Data editing and verification is in response to the errors that arise during the encoding of spatial and non-spatial data. The editing of spatial data is a time consuming, interactive process that can take as long, if not longer, than the data input process itself.

Several kinds of errors can occur during data input. They can be classified as:

Incompleteness of the spatial data. This includes missing points, line segments, and/or polygons.
Locational placement errors of spatial data. These types of errors usually are the result of careless digitizing or poor quality of the original data source.
Distortion of the spatial data. This kind of error is usually caused by base maps that are not scale-correct over the whole image, e.g. aerial photographs, or from material stretch, e.g. paper documents.
Incorrect linkages between spatial and attribute data. This type of error is commonly the result of incorrect unique identifiers (labels) being assigned during manual key in or digitizing. This may involve the assigning of an entirely wrong label to a feature, or more than one label being assigned to a feature.
Attribute data is wrong or incomplete. Often the attribute data does not match exactly with the spatial data. This is because they are frequently from independent sources and often different time periods. Missing data records or too many data records are the most common problems.

The identification of errors in spatial and attribute data is often difficult. Most spatial errors become evident during the topological building process. The use of check plots to clearly determine where spatial errors exist is a common practice. Most topological building functions in GIS software clearly identify the geographic location of the error and indicate the nature of the problem. Comprehensive GIS software allows users to graphically walk through and edit the spatial errors. Others merely identify the type and coordinates of the error. Since this is often a labour intensive and time consuming process, users should consider the error correction capabilities very important during the evaluation of GIS software offerings.

Spatial Data Errors

A variety of common data problems occur in converting data into a topological structure. These stem from the original quality of the source data and the characteristics of the data capture process. Usually data is input by digitizing. Digitizing allows a user to trace spatial data from a hard copy product, e.g. a map, and have it recorded by the computer software. Most GIS software has utilities to clean the data and build a topologic structure. If the data is unclean to start with, for whatever reason, the cleaning process can be very lengthy. Interactive editing of data is a distinct reality in the data input process.

Experience indicates that in the course of any GIS project 60 to 80 % of the time required to complete the project is involved in the input, cleaning, linking, and verification of the data.

The most common problems that occur in converting data into a topological structure include:

slivers and gaps in the line work
dead ends, e.g. also called dangling arcs, resulting from overshoots and undershoots in the line work and
bow ties or weird polygons from inappropriate closing of connecting features.

Of course, topological errors only exist with linear and areal features. They become most evident with polygonal features. Slivers are the most common problem when cleaning data. Slivers frequently occur when coincident boundaries are digitized separately, e.g. once each for adjacent forest stands, once for a lake and once for the stand boundary, or after polygon overlay. Slivers often appear when combining data from different sources, e.g. forest inventory, soils, and hydrography. It is advisable to digitize data layers with respect to an existing data layer, e.g. hydrography, rather than attempting to match data layers later. A proper plan and definition of priorities for inputting data layers will save many hours of interactive editing and cleaning.

Dead ends usually occur when data has been digitized in a spaghetti mode, or without snapping to existing nodes. Most GIS software will clean up undershoots and overshoots based on a user defined tolerance, e.g. distance. The definition of an inappropriate distance often leads to the formation of bow ties arba weird polygons during topological building. Tolerances that are too large will force arcs to snap one another that should not be connected. The result is small polygons called bow ties. The definition of a proper tolerance for cleaning requires an understanding of the scale and accuracy of the data set.

The other problem that commonly occurs when building a topologic data structure is duplicate lines. These usually occur when data has been digitized or converted from a CAD system. The lack of topology in these type of drafting systems permits the inadvertent creation of elements that are exactly duplicate. However, most GIS packages afford automatic elimination of duplicate elements during the topological building process. Accordingly, it may not be a concern with vector based GIS software. Users should be aware of the duplicate element that retraces itself, e.g. a three vertice line where the first point is also the last point. Some GIS packages do not identify these feature inconsistencies and will build such a feature as a valid polygon. This is because the topological definition is mathematically correct, however it is not geographically correct. Most GIS software will provide the capability to eliminate bow ties and slivers by means of a feature elimination command based on area, e.g. polygons less than 100 square metres. The ability to define custom topological error scenarios and provide for semi-automated correction is a desirable capability for GIS software.

The adjoining figure illustrates some typical errors described above. Can you spot them ? They include undershoots, overshoots, bow ties, and slivers. Most bow ties occur when inappropriate tolerances are used during the automated cleaning of data that contains many overshoots. This particular set of spatial data is a prime candidate for numerous bow tie polygons.

Attribute Data Errors

The identification of attribute data errors is usually not as simple as spatial errors. This is especially true if these errors are attributed to the quality or reliability of the data. Errors as such usually do not surface until later on in the GIS processing. Solutions to these type of problems are much more complex and often do not exist entirely. It is much more difficult to spot errors in attribute data when the values are syntactically good, but incorrect.

Simple errors of linkage, e.g. missing or duplicate records, become evident during the linking operation between spatial and attribute data. Again, most GIS software contains functions that check for and clearly identify problems of linkage during attempted operations. This is also an area of consideration when evaluating GIS software.

Data Verification

Six clear steps stand out in the data editing and verification process for spatial data. These are:

Visual review. This is usually by check plotting.

These data verification steps occur after the data input stage and prior to or during the linkage of the spatial data to the attributes. Data verification ensures the integrity between the spatial and attribute data. Verification should include some brief querying of attributes and cross checking against known values.


8.7 Questions

We will continue to use the COVID-19 dataset. Please see Chapter 11 for details on the data.

Using these data, you are required to address the following challenges:

Fit a varying-slope model. Let one slope to vary by region. Think carefully your choice.

Fit a varying-intercept and varying-slope model.

Compare the results for models fitted in 1 and 2. Which is better? Kodėl?

Use the same explanatory variables used for the Chapter 7 challenge, so you can compare the model results from this chapter.


2 atsakymai 2

Inspired by @dk14 's answer, now I have a clearer mind on this question, though I don't completely agree with his answer. And I hope to post mine online for more confirmation.

On a vanilla case, where the input of original AlexNet is still (224,224,3), after a series of Conv layer and pooling, we reach the last Conv layer. At this moment, the size of the image turns into (7,7,512).

At the converted Conv layer(converted from FC1), we have 4096 * (7,7,512) filters overall, which generates (1,1,4096) vector for us. At the second converted Conv layer(converted from FC2), we have 4096 * (1,1,4096) filters, and they give us a output vector (1,1,4096). It's very important for us to remember that, in the conversion, filter size must match the input volume size. That's why we have one by one filter here. Similarily, the last converted Conv layer have 1000 * (1,1,4096) filters and will give us a result for 1000 classes.

The processed is summarized in the post: http://cs231n.github.io/convolutional-networks/#convert.

In FC1, the original matrix size should be (7*7*512, 4096), meaning each one of the 4096 neuron in FC2 is connected with every neuron in FC1. While after conversion, the matrix size becomes (7,7,512,4096), meaning we have 4096 (7,7,512) matrixes. It's like taking out each row of the original gigantic matrix, and reshape it accordingly.

Let's start with $F = 7$, $P = 0$, $S = 1$ notion. What does it actually mean:

$F = 7$: receptive field size is set to a maximum value (7 for 1D, 7x7 for 2D) which implies no parameter sharing (as there is only one receptive field), which is default for MLP. If F was equal to 1, all connections (from the image above) would always have an identical weight.

$S = 1$: stride equals to 1, which means that no neurons on the next layer is going to be removed (see figure below). Given $F = 7$ if we had stride = 2, the number of next-layer nodes would be twice smaller. Source: http://cs231n.github.io/convolutional-networks

$P = 0$: no zero padding, as we don't need it for a full receptive field (there is no uncovered units as you can see from image above).

Those three conditions basically guarantee that connectivity architecture is exactly same as for canonical MLP.

Attempt to answer your question about reshaping matrices:

Example of reshaping in Python's Numpy library: numpy.reshape

My guess is that the author meant that FCN usually has 1D output "vector" (from each layer) instead of 2D matrix. Let's say, the first layer of FC-network returns 1x1x4096 output matrix as it doesn't care about image's dimensions - it stacks all dimensions into one vector (put each rows on top of another). You can guess that next layer's weight matrix is gonna have corresponding shape (4096x4096) that combines all possible outputs). So when you convert it to a convolutional receptive field - you'll probably have to move your activations to 2D, so you need 64x64 activations and, I guess, something like 64x64x4096 tensor for receptive field's weights (since $S=1$).

The quote from the article that demonstrates "reshaping":

For example, if 224x224 image gives a volume of size [7x7x512] - i.e. a reduction by 32, then forwarding an image of size 384x384 through the converted architecture would give the equivalent volume in size [12x12x512], since 384/32 = 12. Following through with the next 3 CONV layers that we just converted from FC layers would now give the final volume of size [6x6x1000], since (12 - 7)/1 + 1 = 6. Note that instead of a single vector of class scores of size [1x1x1000], we’re now getting and entire 6x6 array of class scores across the 384x384 image

Example (for activations of some layer):

In order to show weights reshaping (to fit 2D image), I'd have to draw square into cube conversion. However, there is some demos on the internet:

P.S. However, I have some confusion about AlexNet example: it seems like mentioned $F=1$ just means "full" parameter sharing across non-existent dimensions (1x1). Otherwise, it won't be completely equivalent to an MLP with no parameter sharing - but maybe that's what was implied (scaling small FC-network into a large CNN).

to “slide” the original ConvNet very efficiently across many spatial positions in a larger image

Basically it allows you to scale a FC-network trained on small portions/images into a larger CNN. So in that case only small window of resulting CNN will be initially equivalent to an original FCN. This approach gives you ability to share parameters (learned from small networks) across large networks in order to save computational resources and apply some kind of regularization (by managing network's capacity).

Edit1 in response to your comment.

Example of $N = 5$ (sorry I was lazy to draw 7 neurons), $F=5$, $S=2$ :

So you can see that S = 2 can be applied even for receptive field with maximum size, so striding can be applied without parameter sharing as all it does is just removing neurons.

And parameter sharing strategies could be different. For instance, you can't tell about my last figure wether parameter are shared between neurons or not.


Predictive Ecosystem Mapping (PEM) Detailed Polygons with Short Attribute Table - 50,000 Spatial View

PEM_50K contains 1 to 50,000 PEM polygons with key and amalgamated (concatenated) attributes derived from the Resource Inventory Standards Committee (RISC) standard attributes. PEM divides the landscape into units according to a variety of ecological features including climate, physiography, surficial material, bedrock geology, soils and vegetation. PEM uses a modeling approach to ecosystem mapping, whereby existing knowledge of ecosystem attributes and relationships are used to predict ecosystem representation in the landscape. This layer is derived from the STE_TEI_ATTRIBUTE_POLYS_SP layer by filtering on the PROJECT_TYPE and PROJECT_MAP_SCALE attributes.

  • BGC
  • Kanada
  • DTEIF
  • Drainage
  • PEM
  • SEI
  • STE
  • STEWI
  • TEIS
  • TEM
  • TER
  • TSM
  • WHR
  • biogeoclimatic
  • bioterrain
  • bioterrain mapping
  • describing terrestr.
  • ecology
  • ecosystem
  • ecosystem mapping
  • ecosystem modelling
  • erosion
  • landslide
  • predictive ecosyste.
  • sedimentation
  • sensitive ecosystem
  • sensitive ecosystem.
  • slope stability
  • soil
  • terrain
  • terrain and ecosystems
  • terrain mapping
  • terrain stability
  • terrain stability m.
  • terrestrial ecosyst.
  • wildlife habitat ra.
  • wildlife inventory

Data and Resources

The PEM data in geodatabase format is available in the TEI Data Distribution.


Driver capabilities¶

This driver supports the GDALDriver::Create() operation

This driver supports georeferencing

KML Reading¶

KML reading is only available if GDAL/OGR is built with the Expat XML Parser, otherwise only KML writing will be supported.

Supported geometry types are Point , Linestring , Polygon , MultiPoint , MultiLineString , MultiPolygon and MultiGeometry . There are limitations, for example: the nested nature of folders in a source KML file is lost folder <description> tags will not carry through to output. Folders containing multiple geometry types, like POINT and POLYGON, are supported.

KML Writing¶

Since not all features of KML are able to be represented in the Simple Features geometry model, you will not be able to generate many KML-specific attributes from within GDAL/OGR. Please try a few test files to get a sense of what is possible.

When outputting KML, the OGR KML driver will translate each OGR Layer into a KML Folder (you may encounter unexpected behavior if you try to mix the geometry types of elements in a layer, e.g. LINESTRING and POINT data).

The KML Driver will rename some layers, or source KML folder names, into new names it considers valid, for example ‘ Layer #0 ’, the default name of the first unnamed Layer, becomes 'Layer__0' .

KML is mix of formatting and feature data. The <description> tag of a Placemark will be displayed in most geobrowsers as an HTML-filled balloon. When writing KML, Layer element attributes are added as simple schema fields. This best preserves feature type information.

Limited support is available for fills, line color and other styling attributes. Please try a few sample files to get a better sense of actual behavior.


Žiūrėti video įrašą: QGIS 행정동센서스 경계: 폴리곤 내 포인트 개수 계산 (Spalio Mėn 2021).