Project

Vývoj centralizovaného rozhraní pro vytěžování velkých dat z webových archivů

Project duration: 
2018 - 2022

V posledních 25 letech internet a webové stránky výrazně změnili lidskou komunikaci. V prostředí internetu průběžně narůstá objem publikovaných dokumentů, které se však postupně mění nebo zcela mizí. Pokud by nebyly průběžně archivovány, byla by tato významná část mezilidské komunikace navždy ztracena. Úlohou webových archivů je archivovat v co nejúplnější podobě webové stránky a zachovávat tak hodnotný zdroj informací, které mohou využívat i sociální vědci.

Mezi hlavní cíle projektu patří aplikovaný výzkum a experimentální vývoj systému pro identifikaci, správu a zpracování širokého spektra dat českého webového archivu (webarchiv.cz). Hlavním účelem je umožnit široké odborné veřejnosti využívat potenciál dlouhodobě shromažďovaných dat. Ta jsou dosud z velké části nezpracovaná, a tedy vědcům nepřístupná. Projekt propojuje oblast vytěžování velkých dat, tzv. big data, z českého webového archivu a oblast výzkumu sociálněvědních oborů.

Na projektu se v rámci Sociologického ústavu AV ČR, v. v. i., podílí tato oddělení: Centrum pro výzkum veřejného mínění, Český sociálněvědní datový archiv, Lokální a regionální studia, Hodnotové orientace ve společnosti

Principal investigator: 
Západočeská univerzita v Plzni
Národní knihovna ČR – Webarchiv
Topics: 
methodology
sociological data
Grant agency: 
Government ministry project