Árad az adattenger

Manapság az adatbőség korát éljük – ez természetesen érezteti hatását az ökológiában is.

Mindenki érzi, hogy manapság egyre inkább elárasztanak minket az információk. Jó példa erre az egyre terebélyesedő e-mailes levelezés. A számítógépemen 1997 óta megvannak archiválva a beérkező e-maileim – az általuk elfoglalt tárterület növekvő trendet mutat:

A HVG december 22-i számában megjelent cikk szerint „a közösségi hálózatok, az internetre feltöltött multimédia és az online kommunikáció olyan mennyiségű információt hoztak létre, amire az emberiség történetében még nem volt példa. (…) A statisztikusok szerint a világon rendelkezésre álló adatmennyiség 90 százaléka az utóbbi két évben keletkezett.” Információtechnológiai (IT) körökben 2008-ban tűnt fel a „Big Data”, azaz „hatalmas adatmennyiség” kifejezés, amely mára a legdivatosabb szóösszetétellé vált az IT szektorban. Manapság világszerte dollármilliárdokat költenek a nagyszabású adatbányászatra és az azt lehetővé tevő technológiákra. A területnek számos alkalmazása van a gazdaságtól, vállalatirányítástól kezdve a politikáig. Barack Obama tavalyi kampánya volt a világ első professzionális adatbányászatra épülő választási hadjárata – írja a HVG.

Ezen folyamatok természetesen a tudomány területén is éreztetik hatásukat. Mint azt Fernández-Cano és mtsai. (2004) említik, Derek John de Solla Price már a hatvanas években leírta a tudományos folyóiratok számának exponenciális növekedését. Ugyanakkor ökológiai tanulmányainkból tudjuk, hogy véges világban nincs végtelen növekedés, és az exponenciális növekedés után gyakran a populáció összeomlása következik be. Ennek megfelelően Price is megjósolta, hogy a folyamat előbb-utóbb tetőzni fog. A tudomány méreteinek növekedése valószínűleg részben az emberi népesség növekedésének köszönhető, ez pedig várhatóan a XXI. század második felében megáll majd (Lutz és mtsai. 2001).


A folyóiratok számával párhuzamosan változik a közölt szakcikkek száma is. Szűkebb szakterületemen, a természetvédelmi célú visszatelepítések témájában igyekeztem összegyűjteni minél teljesebb módon a nemzetközi szakirodalmat, és megvizsgáltam annak időbeli változásait. A bal oldali grafikont kaptam eredményül. Jól látszik, hogy az irodalom a kilencvenes évek közepéig exponenciálisan növekedett, majd egy csúcspont után visszaesett, azóta pedig évi 150 publikáció környékén ingadozik.

Nagy adatbázisok az ökológiában és a természetvédelemben

A magyarországi madárgyűrűzés 2008-ban ünnepelte fennállásának századik évfordulóját. A diagramon a gyűrűző-rendszer „teljesítménye”, azaz a Magyarországon meggyűrűzött madarak, az aktív gyűrűzők és az érintett madárfajok száma látható. Forrás: MME Madárgyűrűzési Központ.
Látható, hogy nagymértékben megnövekedett a rendelkezésre álló adatok száma, pedig az ábrán a néhány éve elindult műholdas jeladókkal való nyomkövetés adatai nem is szerepelnek. Ez utóbbi technológia nagyságrendekkel növelte meg a vizsgált fajokról rendelkezésre álló információk mennyiségét.

A modern, nagy teljesítményű molekuláris és környezeti technológiák (pl. génszekvenálás, műholdak) ontják magukból a biológiai vonatkozású adatokat, melyek jellemzően nincsenek eléggé kihasználva az elemzés területén (Patterson és mtsai. 2010). Lassan az ökológia és a természetvédelem is felzárkózik az emberi genom szekvenálása és a részecskegyorsítók hatalmas adathalmazai által kijelölt utat követve, hogy belőle is „nagyléptékű tudomány”, azaz „big science” legyen. Egy lépés errefelé, hogy az USA-ban állami támogatással létrehozták a NEON-t (National Ecological Observatory Network, azaz Nemzeti Ökológiai Megfigyelő Hálózat) - számolt be a brit The Economist c. lap tavaly augusztusban. 2016-ig országszerte 60 megfigyelőponton 15 000 szenzort fognak elhelyezni, amelyek több, mint 500 féle adatot fognak szolgáltatni a hőmérséklettől kezdve a napsütésen és a szennyező anyagok koncentrációján át a növényzet állapotáig. A standardizált adatgyűjtés legalább 30 évig fog tartani, így hosszú távú adatsorokat fognak kapni a kutatók.

Már ma is léteznek olyan nagy adatbázisok, mint az IUCN Vörös Listája (Red List), az Encyclopedia of Life, vagy magyar példákat említve a madárgyűrűzési adatbázis, a MÉTA (Magyarország Élőhelyeinek Térképi Adatbázisa), a cönológiai felvételeket feldolgozó CoenoDat és a TIR (Természetvédelmi Információs Rendszer). Ezen adatok elemzése nagy kihívást és egyben lehetőséget jelent a kutatóknak. A Vörös Lista változásainak elemzése volt az egyik eleme egy rangos publikációnak a globális biodiverzitás változásáról, amelyen 45 kutató dolgozott együtt, és a Science-ben jelent meg (Butchart és mtsai. 2010). A MÉTA adatbázis adta az alapot Czúcz Bálint és mtsai. (2008) kutatásához a Természeti Tőke Index (Natural Capital Index) magyarországi változásáról.

Érdekes kérdés, hogy fenntartható-e az a törekvésünk, hogy egyre nagyobb adathalmazokat hozzunk létre, egyre több szakirodalmat produkáljunk, egyre több hivatkozást gyűjtsünk be cikkeinkre. Mint az Jared Diamond leírja az Összeomlás c. könyvében, a Húsvét-szigeten sokáig egyre nagyobb szobrok állításával versengtek a családok, törzsek. Aztán a versengésben kivágták a sziget fáit, mert kellettek a szobrok szállításához és felállításához, majd a bekövetkező környezeti változások nyomán összeomlott az emberi populáció. Lehet, hogy a mai megalomániánk is korlátokba fog ütközni egy idő után?

Bejegyzésem folytatásaként legközelebb a megnövekedett szakirodalom elemzésének új módszereiről fogok írni.

Kedves Olvasó! Milyen adatbázisokat használsz a munkádhoz? Hogyan elemzed az adatokat? Várjuk hozzászólásodat!

Bajomi Bálint

Felhasznált irodalom:

-Anonymus (2012): Terrestrial ecology: NEON light. The Economist, 2012. augusztus 25.
-Bajomi, B.; Pullin, A. S.; Stewart, G. B. és Takács-Sánta, A. (2010): Bias and dispersal in the animal reintroduction literature. Oryx 44 (3): 358-365. o.
-Butchart, S. H. M és mtsai. (2010): Global biodiversity: indicators of recent declines. Science 328 (5982): 1164-1168. o.
- Czúcz, B.; Molnár, Zs.; Horváth, F. és Botta-Dukát, Z. (2008): The natural capital
index of Hungary. Acta Botanica Hungarica 50(Suppl.): 161–177 o.
-Diamond, J. ( 2007): Összeomlás. Tanulságok a társadalmak továbbéléséhez. Typotex Kiadó, Budapest. 580 o.
-Fernandez-Cano, A.; Torralbo, M. és Vallejo, M. (2004): Reconsidering Price's model of scientific growth: An overview. Scientometrics 61 (3): 301-321. o.
-Lutz, W.; Sanderson, W. és Scherbov, S. (2001): The end of world population growth. Nature 412 (6846): 543-545. o.
-Nagy, G. (2012): Big Data – adattengerben fulladozó világ. Káoszgyakorlat. HVG, 51.-52. szám, 2012. december 22., 122.-123. o.
-Patterson, D. J.; Cooper, J.; Kirk, P. M.; Pyle, R. L. és Remsen, D. P. (2010): Names are key to the big new biology. Trends in Ecology & Evolution 25 (12): 686-691. o.

Hozzászólások

Köszönöm Bajomi Bálintnak az izgalmas téma felvetését. Az adattenger valóban ijesztő méreteket ölt. (Saját szakterületemen, a hálózatkutatásban minden egyes héten csaknem ezer cikk címét kell átolvassam, hogy kibányásszam belőlük azt az kb. 50-100-at, aminek a kivonatát is elolvasom, hogy megleljem azt az ötöt -- néha tizet --, ami igazán fontos a számomra.) A jó hír az, hogy számos olyan adatelemző szolgálgatás áll már a rendelkezésünkre, amellyel a korábbi preferenciáink szerint érdekes információ az "orrunk elé kerül". A rossz hír az, hogy nem tudtuk még úgy igazán megoldani a "surprise me" algoritmust, azaz azt a mechanizmust, ami éppen hogy nem a felhasználó korábbi viselkedését tanulja meg, hanem -- néha -- ahhoz képest a lehető legkülönbözőbb viselkedéssel "lepi meg" őt. No, de nem is folytatom, mert vár az ezen a héten felgyűlt ezer cikk... Megyek meglepetést keresni (jó a kutatónak, mert az év minden napján jön a húsvéti nyuszi -- vagy nem jön... :).

Mi jelenleg a Kew Gardens egymástól szinte teljesen függetlenül létrehozott adatbázisainak (pl. International Plant Names Index, Vascular Plant Families and Genera, The Plant List, World Checklist, herbárium katalógus) összehangolását próbáljuk megvalósítani. Ennek első lépése egy botanikai név adatbázis létrehozása, amiben elméletileg az összes növénynév szerepelni fog és amin keresztül majd a temérdek növényekkel kapcsolatos adatot és adatbázist össze lehet kapcsolni.
Sajnos azonban az adatok mennyiségének növekedésével hasonló ütemben (exponenciálisan?) nő a hibák előfordulása is, a legapróbb elgépeléstől a szkennelési hibán át a valótlan adatokig. Ez nagyban megnehezíti a munkát és jelentős erőfeszítéseket igényel a hibák javítása. Ezért talán nem csak az okozhat problémát vagy esetleges összeomlást, "hogy egyre nagyobb adathalmazokat hozunk létre" hanem hogy az egyre nagyobb adathalmaz egyre több hibát is tartalmaz és egyre nehezebb ezeket a hibákat megtalálni és javítani.
Emellett talán azt is érdemes megemlíteni, hogy az internet segítségével minden sokkal könnyebben összekapcsolható, és mivel az összekapcsolás illetve az adatok/információk átvétele gyakran automatikusan történik, a hibák is megsokszorozódnak. Például a Global Biodiversity Information Facility (GBIF), ami egy nagyon hasznos kezdeményezés, azért jött létre, hogy széles körben elérhetővé váljon mindenféle biodiverzitással kapcsolatos információ ("to encourage free and open access to biodiversity data, via the Internet. Through a global network of countries and organizations, GBIF promotes and facilitates the mobilization, access, discovery and use of information about the occurrence of organisms over time and across the planet."). Ám a GBIF csak tükrözi a különböző online adatbázisokat, ezért ha a kiindulási adat hibás volt, akkor az hibásan jelenik meg a "tükör-adatbázisokban" is. És egyre nehezebbé válik kibogozni, hogy mi is az igazság, például hogy egy faj melyik családba tartozik a legújabb klasszifikáció alapján.