Datasets je poháněná vyhledávacím strojem Dataset Search, speciálně navrženým pro datasety. Shromažďuje informace z různých oblastí včetně vědeckých, vládních a komerčních datasetů.
Google doporučuje, aby příslušné webové stránky měli strojně čitelná metadata (podle schema.org na https://developers.google.com/search/docs/appearance/structured-data/dataset) tak, aby je Dataset Search mohl snáze najít. Nejlepším způsobem má být publikování do etablovaných repozitářů datasetů, které automaticky začleňují taková metadata.
Co je dataset
„Dataset (někdy také data set, datová sada) je kolekce dat. V případě tabulkových dat dataset odpovídá jedné či více databázovým tabulkám, kde každý sloupec tabulky představuje konkrétní proměnno a každý řádek odpovídá danému záznamu z daného datasetu. V dísciplíně open data je dataset jednotkou pro měření informací vydaných v otevřeném veřejném datovém repozitáři. Evropský portál data.europa.eu agreguje více než milion datasetů.“, praví Wikipedia.org.
Jak funguje vyhledávání datasetů
K vyhledávání datasetů v češtině je potřeba do pole vyhledávání na Google napsat slovo „dataset“. V angličtině by mělo postačit jen „data“.
Narozdíl od původního postu na googleblog.com není výsledek s datasety nahoře, ale spíše níže. Je potřeba scrollovat dolů, aby se ukázal.
Po prokliknutí se dostaneme na přehled datasetů.
Je vidět, že na aktuálnosti datasetů se bude muset ještě daleko více pracovat a zajistit například, aby aktualizování a publikování probíhalo automatizovaně.
Existuje také specializovaný odkaz přímo na Dataset Search: https://datasetsearch.research.google.com/ (viz úvodní obrazek to tomuto článku).
Význam datasetů
Přístup k datasetům je velice důležitý napříč mnoha vertikálami počínaje vědeckým výzkumem a konče analýzami pro podniky.
V některých zemích již existují pravidla, která vyžadují zajistit bezplatný přístup k výstupům výzkumů hrazených vládou (např. USA).
Předpokládám, že význam datasetů se bude dále zvyšovat a informační systémy se budou dále o data z datasetů obohacovat.