Navrhované technické řešení pro VNF

Dokument obsahuje souhrn informací, které byly prezentovány vedení NTK během schůzky 13tého prosince 2019.

Současná VNF využívá open source systém VuFind https://vufind.org/vufind/ který je založen na vyhledávací technologii SOLR.
Záznamy do VNF jsou harvestovány a indexovány komponentou Apache SOLR. Využíván je protokol OAI-PMH, ale také jednorázové dávky. Struktura harvestovaných záznamů je založena na MARC 21 (XML). VNF přiděluje unikátní systémová čísla záznamům a řeší deduplikace záznamů.

Implementace systému Vufind pro VNF, původně vyvíjená v MZK, prošla výraznou customizací. Systém se skládá z řady komponent, jádro zajišťuje technologie SOLR. To s sebou nese náročnou správu, a také problematické aktualizace.
Protože nemá Vufind v N|TK další využití, je i jeho zabezpečení závislé na limitovaných zdrojích.

Pro další rozvoj VNF je doporučeno

  • sjednotit prostředí se standardy NTK
  • využít dostupné prostředí a soustředit se na metodiku a uživatelskou prezentaci zvukového dědictví
  • navrhnout nové UI a Landing pages pro VNF
  • současné řešení na Vufind zachovat funkční a aktualizované (data) do překlopení a nahrazení
  • udělat pilotní test s daty v prostředí INVENIA

Implementace softwarového prostředí INVENIO, namísto stávajícího systému Vufind, by projektu VNF mohlo přinést některé výhody.
V případě rozhodnutí pro systém INVENIO by byla využívána již běžící infrastruktura, cloud prostředí CESNETu, na kterém bude VNF závislé.

Výhodou je také existující rozhraní INVENIA (vhodné pro testování) a dokumentovaná API. Vzhledem k tomu, že probíhá také další vývoj v ČR, lze očekávat rozšiřování funkcionality. Pro VNF je třeba vyvinout uživatelské rozhraní nad API INVENIA.

Na druhou stranu je Národní fonotéka pro Invenio nový usecase. Pravděpodobně nemáme příklad podobné implementace.
Na rozdíle od doposud využívaného indexu VNF, by vzniklo se využívalo úložiště, které je udržení konzistence náročnější.

Zmínit je ještě třeba možné legislativní dopady – autorský zákon a také fakt, že NTK není členem CESNETu.

V listopadu 2019 proběhl základní test s prostředím INVENIO.

  • Data znalostní báze VNF byla překlopena do JSON formátu dle DTD INVENIA. Stávající implementace využívá MARC formát.
  • Proběhl import do INVENIA a publikování přes OAI provider.
  • Následně byla data harvestována systémem VuFind.

Pro Invenio tým VŠCHT/NTK bude VNF nový open source vývoj ale bude časově náročné.

NTK přinese změna novou službu a tako konsolidaci prostředí (VČETNĚ lidských zdrojů, investic do hw apod). Bude však muset mít dedikovanou osobu na Invenio a také zpracovaný rozumný exit plán (přenositelnost projektu)

Pro CESNET znamená VNF prověření technologie (PoC datového repozitáře)
Bude muset zajistit financování. Rizikem je také současná projektová orientace VNF.

Do doby přepnutí se bude muset udržovat dočasně stávající systém a současně připravovat nové prostředí. Znamená to analýzu stávajících dat, vytvoření datového modelu, mapování, vývoj UI včetně zobrazování metadat a vyhledávání. A následně realizovat migraci dat.
Nový systém by měl zachovat funkce stávajícího.

Pro přechod bude nezbytné připravit časový plán a potřebné zdroje.