Polskie Biblioteki Cyfrowe – Sesja I
Masowa digitalizacja
Zarządzanie procesem masowej digitalizacji na przykładzie Konsorcjum RCIN
Dorota Gazicka-Wójtowicz (IGiPZ PAN), Dorota Czarnocka-Cieciura (IM PAN)
Omówienie zarządzania procesem masowej digitalizacji na przykładzie projektu pt. Repozytorium Cyfrowe Instytutów Naukowych – RCIN realizowanego przez konsorcjum 16 instytutów naukowych z Warszawy, Krakowa i Białowieży w latach 2010-2014, a finansowanego ze środków Programu Operacyjnego Innowacyjna Gospodarka, efektem którego będzie między innymi wykonanie ponad 13 milionów skanów wydawnictw papierowych, rękopisów, kart kartotek, fotografii, klatek mikrofilmów.
W szczególności zwrócenie uwagi, na etapie projektowania procesu digitalizacji, na wagę dobrego rozeznania posiadanych sił i środków oraz założeń wstępnych, takich jak rozpoznanie rodzaju i ilości pozycji przeznaczonych do digitalizacji i ich fizycznej lokalizacji oraz wpływ wyboru modelu digitalizacji na organizację pracy i zaprojektowanie niezbędnej infrastruktury technicznej i informatycznej oraz budżetu projektu. Konieczność zaplanowania w projekcie środków na przygotowanie obiektów do digitalizacji oraz różnorodnych szkoleń dla redaktorów, pracowników pracowni digitalizacji oraz informatyków, a także koszty różnych delegacji w tym związane z promocją. Istotne jest przygotowanie narzędzi do realizacji projektu począwszy od zapewnienia finansowania, przez zatrudnienie i wyszkolenie pracowników merytorycznych i administracyjnych, adaptację pomieszczeń, zakup urządzeń do masowej digitalizacji różnych rodzajów dokumentów, sprzętu IT do pracy bieżącej, udostępniania efektów digitalizacji i archiwizacji wieczystej plików matek, poprawa szybkości łączy internetowych, zakup i wdrożenie oprogramowania umożliwiającego i wspomagającego proces masowej digitalizacji i archiwizacji oraz prezentacji zdigitalizowanych obiektów w Internecie.
Omówienie znaczenia wypracowania zasad obiegu informacji i dokumentów, ze szczególnym zwróceniem uwagi na narzędzia wspomagające proces masowej digitalizacji i archiwizacji takie jak dLab.
Niezbędność wprowadzenia systemu nadzoru nad podstępem prac obejmującego zarówno sprawy merytoryczno-techniczne jak i formalne np.: korekty metadanych, poprawności nazewnictwa plików, generowanie statystyk monitorujących postęp prac oraz przygotowanie projektu do kontroli i audytów zewnętrznych.
Miarą skuteczności omawianej strategii zarządzania może być fakt, że po 16 miesiącach realizacji Projektu RCIN w sieci Internet udostępniono ponad 21 tys. publikacji, liczba czytelników przekroczyła 2 mln, wykonano i zarchiwizowano ponad 6,5 mln skanów. Kontrole zewnętrzne Projektu wypadają pozytywnie.
Masowe zabezpieczanie i udostępnianie egzemplarza obowiązkowego w Jagiellońskiej Bibliotece Cyfrowej
L. Szafrański (Biblioteka Jagiellońska)
Jagiellońska Biblioteka Cyfrowa (JBC) była pierwszym dużym projektem masowej digitalizacji w Bibliotece Jagiellońskiej. Jego celem była ochrona i zachowanie zabytkowych zbiorów znajdujących się w Bibliotece Jagiellońskiej oraz rozwój bibliotecznych zasobów cyfrowych stanowiących element Narodowego Zasobu Bibliotecznego. Do digitalizacji zostały zakupione najnowocześniejsze skanery wielkoformatowe. Równolegle z digitalizacją w ramach projektu prowadzone były prace konserwatorskie. Specjaliści od konserwacji uczestniczyli w wyborze dokumentów do skanowania oraz opracowali zalecenia mające zapobiec uszkodzeniu dzieł w trakcie skanowania. W czasie trwania projektu wprowadzono automatyzację poszczególnych zadań, co przełożyło się na ilość udostępnionych kopii cyfrowych dokumentów w Internecie. Równolegle z udostępnianiem kopii cyfrowych na stronach JBC prowadzona była cyfrowa archiwizacja. Obecnie JBC udostępnia ponad 200 tysięcy publikacji, na które składają się: czasopisma, książki, stare druki, rękopisy, dokumenty kartograficzne, grafika, dokumenty życia społecznego, muzykalia, dokumenty dźwiękowe itp. Pod względem ilości publikacji znajduje się na pierwszym miejscu w zestawieniu Federacji Bibliotek Cyfrowych. W referacie zostaną przedstawione nowe rozwiązania przyspieszające proces udostępniania kopii cyfrowych w Internecie. Zostanie również przedstawiony dalszy rozwój JBC oraz nowatorskie przedsięwzięcia jakie wyłoniły się w trakcie trwania projektu, między innymi: masowa digitalizacja i udostępnianie zbiorów muzycznych oraz archiwizacja i udostępnianie dokumentów „born digital” dostarczanych przez wydawców w ramach egzemplarza obowiązkowego. Omówione zostaną procesy gromadzenia, zabezpieczania i publikacji tych dokumentów oraz aspekty prawne dotyczące ich udostępniania przyjęte w JBC. Zostanie również przedstawiony proces masowej digitalizacji egzemplarza obowiązkowego, którym zostały objęte biblioteki instytutowe wchodzące w skład sieci bibliotek Uniwersytetu Jagiellońskiego.
Innowacyjne narzędzia w procesie masowej digtalizacji – Centrum Kompetencji IMPACT
T. Parkoła (PCSS)
Europejskie Centrum Kompetencji IMPACT w zakresie digitalizacji jest międzynarodową inicjatywą zrzeszającą instytucje nauki i kultury, firmy komercyjne oraz organizacje pozarządowe. Zasadniczym celem współpracy jest podnoszenie stopnia zaawansowania, jakości i innowacyjności szeroko rozumianego procesu digitalizacji, realizowanego przez biblioteki, archiwa, muzea, czy firmy komercyjne. By zrealizować powyższy cel, Centrum Kompetencji IMPACT oferuje szeroki wachlarz usług, narzędzi i zasobów, które pozwalają podnieść jakość i wprowadzić automatyzację procesu digitalizacji do najlepszej z możliwych granic. W praktyce odbywa się to poprzez zastosowanie najnowszych technik, będących często wynikami prac badawczo-rozwojowych, w ramach poszczególnych etapów procesu digitalizacji. Stając się członkiem Centrum Kompetencji IMPACT możliwe jest testowanie poszczególnych narzędzi na własnych zasobach cyfrowych, a co za tym idzie, wybór rozwiązania najbardziej adekwatnego do aktualnych potrzeb. Okazja współpracy w ramach Centrum Kompetencji IMPACT sprzyja również powstawaniu nowych pomysłów i ich realizowaniu w formie wspólnych projektów. W referacie przedstawiona zostanie oferta europejskiego Centrum Kompetencji IMPACT. PCSS jest jednym z członków założycieli tego centrum.
Reforma prawa autorskiego dla bibliotek. Raport z prac. Postulowane kierunki zmian ważne dla bibliotek cyfrowych
B. Szczepańska (Kancelaria prawna Hogan Lovells)
Gromadzenie i udostępnianie materiałów elektronicznych jest obszarem dużej niepewności prawnej. Dotyczy to zarówno obiektów digitalizowanych przez biblioteki jak i materiałów, które powstają w formie cyfrowej. Przedmiotem wystąpienia jest analiza przepisów ustawy o prawie autorskim i prawach pokrewnych w kontekście działalności prowadzonej przez biblioteki, w tym biblioteki cyfrowe. Analiza jest wynikiem prac prowadzonych w ramach warsztatów, które odbyły się w sierpniu i we wrześniu 2012 roku w zespole bibliotekarzy powołanym przez Centrum Cyfrowe Projekt Polska i Poznańską Fundację Bibliotek Naukowych dla realizacji projektu „Reforma prawa autorskiego dla bibliotek” finansowanego z grantu fundacji eIFL. Analiza zawiera listę problemów zgłaszanych przez przedstawicieli bibliotek oraz propozycje ich rozwiązań.
Autorka przedstawi główne założenia analizy oraz kierunki proponowanych zmian legislacyjnych. Dodatkowo omówiona zostanie kwestia sposobu interpretowania obecnie obowiązującego prawa, zarówno w świetle obowiązków bibliotek w ustawie o bibliotekach jak i w kontekście zakresu dozwolonego użytku publicznego w ustawie o prawie autorskim i prawach pokrewnych.
Polskie Biblioteki Cyfrowe – Sesja II
Długoterminowe przechowywanie danych źródłowych
Obiekty Badawcze – długoterminowe przechowywanie eksperymentów naukowych
P. Hołubowicz, R. Palma (PCSS)
Badania naukowe w coraz większym stopniu prowadzone są w sposób skomputeryzowany, z wykorzystaniem możliwości Internetu. Obiektami cyfrowymi stają się już nie tylko dane, ale także metody badawcze, a miejsce luźnych dokumentów zajmują cyfrowe opisy procesów, powiązane ściśle z danymi, metodami i narzędziami. Podczas wystąpienia zostaną zaprezentowane wyniki badań nad cyfrowymi eksperymentami w dziedzinach genomiki oraz astronomii. Powiemy jak tworzy się wirtualne Obiekty Badawcze tak, by stanowiły eksperyment w pigułce, który obecni i przyszli naukowcy będą w stanie odtworzyć, zrozumieć, a nawet uruchomić jeszcze raz. Dynamiczna natura cyfrowych eksperymentów oraz zależność od danych lub narzędzi dostępnych w sieci stawia nowe wymagania dotyczące ich przechowywania. Przedstawimy i zademonstrujemy bibliotekę cyfrową Obiektów Badawczych oraz opowiemy, w jaki sposób analiza jakościowa obiektów oraz ich aktywne monitorowanie zmniejszają ryzyko, że wraz z upływem czasu będą tracić na wartości. Przechowywanie obiektów ma największy sens wówczas, gdy mogą być w przyszłości ponownie wykorzystane – pokażemy w jaki sposób dzięki ich strukturze mogą być efektywnie wyszukiwane, a także jak przechowywane obiekty mogą wpływać na pracę naukowców nawet bez ich wiedzy. Dalsza popularyzacja koncepcji Obiektów Badawczych może doprowadzić w przyszłości do sytuacji, gdzie repozytoria uczelniane będą zawierały nie tylko deponowane przez badaczy artykuły naukowe, ale kompletny zestaw informacji pozwalający na odtworzenie poszczególnych procesów badawczych oraz ich kontynuację.
dArceo – usługi długoterminowego przechowywania danych z bibliotek cyfrowych
T. Parkoła (PCSS)
Dostępność zasobów dziedzictwa kulturowego w formie cyfrowej w bliskiej i odległej przyszłości jest jednym z zasadniczych czynników motywacyjnych dla podejmowanych aktualnie działań digitalizacyjnych. Oczywiście długoterminowe przechowywanie danych źródłowych jest jednym z kluczowych aspektów. Dostępność cyfrowych obiektów dla dedykowanej grupy odbiorców, bez względu na zmiany technologiczne związane ze sprzętem i oprogramowaniem komputerowym, jest aktualnym wyzwaniem stojącym przed instytucjami nauki i kultury, które prowadzą aktywną digitalizację swoich zasobów. Wychodząc naprzeciw temu wyzwaniu Poznańskie Centrum Superkomputerowo-Sieciowe w ramach projektu SYNAT opracowało dedykowany system dArceo, który umożliwia realizację idei długoterminowego przechowywania danych źródłowych. Zestaw funkcji wchodzących w skład dArceo obejmuje między innymi: składowanie danych z automatycznie generowanymi metadanymi technicznymi, monitorowanie i migrację danych oraz zgodność z uznanym międzynarodowym modelem OAIS. Referat będzie wprowadzał w tematykę długoterminowego przechowywania danych źródłowych oraz przedstawiał założenia i zasadnicze funkcje oprogramowania dArceo.
Wykorzystanie standardów w masowej digitalizacji i długoterminowym przechowywaniu danych źródłowych
A. Dudczak, T. Parkoła (PCSS)
W ramach referatu przedstawione zostaną wyniki dwóch badań ankietowych zrealizowanych przez PCSS w ramach projektu SYNAT (http://www.synat.pl) w latach 2010-2012. Badania ankietowe objęły swoim zakresem większość instytucji tworzących w Polsce biblioteki cyfrowe. Przedstawione wyniki dają obraz stosowanych rozwiązań w zakresie dwóch niezmiernie istotnych płaszczyzn: długoterminowego przechowywania oraz przygotowania pełnotekstowych wersji dokumentów historycznych. Omawiane badania były częścią etapu zbierania wymagań dla narzędzi tworzonych w projekcie SYNAT. Prace nad monitorowaniem i promowaniem standardów w zakresie digitalizacji będą kontynuowane jako część działań w europejskim projekcie SUCCEED (http://www.succeed-project.eu/). W referacie przedstawione zostaną również krótko podstawowe założenia i zakres prac tego projektu.
Polskie Biblioteki Cyfrowe – Sesja III
E-humanistyka
Przeglądanie zdygitalizowanych fiszek (na przykładzie Repozytorium Cyfrowego Instytutów Naukowych)
J. S. Bień (Uniwersytet Warszawski)
Zrealizowany w Katedrze Lingwistyki Formalnej UW projekt “Narzędzia dygitalizacji tekstów na potrzeby badań filologicznych” (2009-2012) obejmował m.in. stworzenie przeglądarki fiszek słownikowych w formacie DjVu. Przeglądarka ta, nazwana maleks, była testowana najpierw na
fragmentach, a potem na całości kartoteki “Słownika polszczyzny XVII I pierwszej połowy XVIII wieku” liczącej prawie 3 miliony fiszek. Kartoteka razem z innymi została zdygitalizowana w ramach projektu “Repozytorium Cyfrowe Instytutów Naukowych” i jest udostępniana za pomocą dLibra jako prawie 600 dokumentów, więc nawet samo pobranie kartoteki nie było zadaniem trywialnym. Wykonano też pewne testy na mniejszych kartotekach udostępnionych w ten sam sposób.
Zasadniczym trybem pracy przeglądarki jest tzw. indeksowanie okazjonalne, kiedy w trakcie wyszukiwania fiszki metodą zblizoną do przeszukiwania binarnego do indeksu zostają wprowadzone informacje o hasłach napotkanych w trakcie tego procesu fiszek. Indeks jest przechowywany na serwerze w bazie MySQL, co ułatwia zespołowe indeksowanie fiszek.
Stylometryczna analiza literacka
J. Rybicki (Uniwersytet Jagielloński)
W danym zbiorze tekstów wystarczy znać częstości kilkuset (a czasem nawet kilkudziesięciu) najczęstszych słów, by pogrupować je (teksty) względem ich autorów. A dokładniej: jeżeli weźmiemy po kilka tekstów (np. powieści) kilku różnych autorów, ciąg liczb dla danej książki (będący częstościami najczęstszych słów w całym tym zbiorze) będzie zwykle najbardziej podobny do ciągów częstości tych samych słów w innych dziełach tego samego autora. O takim autorskim „odcisku palca” wiadomo już co najmniej od czasu, gdy dwaj amerykańscy statystycy, Frederick Mosteller i David Wallace, policzyli słowa „funkcyjne” (czyli właśnie te najczęstsze: zaimki, przyimki, czasowniki modalne…) w esejach namawiających mieszkańców stanu Nowy Jork do ratyfikowania Konstytucji USA w latach 1787-1788 i skutecznie wykryli autorstwo anonimowych tekstów (1964). Od tego czasu atrybucja autorstwa oparta na częstościach najczęściej występujących słów stała się jedną z pewniejszych tzw. „nietradycyjnych” metod w tej dziedzinie i coraz częściej wykracza poza zwykłą atrybucję, szukając „sygnału” nie tylko autorskiego, lecz również gatunkowego, genderowego czy chronologicznego.
CLARIN – rozproszony system technologii językowych dla różnych języków europejskich
M. Piasecki (Politechnika Wrocławska)
W wielu dziedzinach nauk humanistycznych i społecznych zgromadzone materiały źródłowe w postaci tekstów czy też nagrań stanowią bardzo istotne źródło danych. Duża ilość danych tego typu może być bardzo pomocna, ale też stwarza problemy w wydobywaniu potrzebnych informacji i ich analizie. Ponadto wiele istniejących już archiwów jest rozproszonych w sieci, opisanych w różnorodny sposób oraz ma zróżnicowane zasady i metody dostępu. Jednym z celów projektu CLARIN (www.clarin.eu), będącego częścią europejskiej mapy drogowej infrastruktury naukowej, jest powiązanie wielu istniejących już archiwów tekstów i nagrań mowy w jednolity, rozproszony system gromadzenia i dostępu do danych. Jednak głównym celem projektu jest połączenie zasobów i narzędzi językowych dla możliwe wielu języków europejskich w jedną wspólną sieć, która ma się stać ważnym narzędziem pracy naukowców z szeroko pojętych humanistycznych i społecznych gałęzi nauki. Zasoby i narzędzia językowe, które ze względu na swój specjalistyczny charakter były dotąd dostępne jedynie dla informatyków i lingwistów informatycznych , zostaną obudowane w funkcjonalne aplikacje i udostępnione wszystkim badaczom, którzy w swej pracy posługują się dokumentami pisanymi i zapisem mowy w językach europejskich. W ramach wystąpienia zostaną omówione podstawowe założenia projektu CLARIN, stan obecny prac i dalsze plany rozwoju i badań. Szczególna uwaga zostanie poświęcona zastosowaniom CLARIN jako narzędzia badawczego oraz powstającej polskiej podsieci systemu w ramach projektu CLARIN-PL.
Krok w stronę cyfrowej humanistyki – infrastruktura IT dla badań humanistycznych
A. Dudczak (PCSS)
Cyfrowa humanistyka (ang. digital humanities) to obecnie jeden z najdynamiczniej rozwijających się trendów w badaniach humanistycznych. Narodziny tego kierunku badawczego wynikają z jednej strony z coraz większej dostępności odpowiedniego oprogramowania, sieci szerokopasmowych i mocy obliczeniowych współczesnych komputerów. Z drugiej strony są odpowiedzią na coraz większe wolumeny danych, które muszą zostać przeanalizowane aby dostarczyć wiarygodnych odpowiedzi na pytania dotyczące zjawisk zachodzących np. we współczesnym społeczeństwie, kulturze i sztuce.
Tradycyjne podejście badawcze w naukach humanistycznych można sprowadzić do trzech podstawowych faz: gromadzenia materiału badawczego, przeprowadzenia analizy badanego zjawiska na podstawie zebranych materiałów i opublikowania wyników. W ramach niniejszego referatu przedstawiona zostanie propozycja realizacji infrastruktury informatycznej wspierającej badania humanistyczne, opartej o wykorzystanie zasobów oferowanych przez Federację Bibliotek Cyfrowych (http://fbc.pionier.net.pl) i narzędzi opracowanych w projektach takich jak SYNAT (http://www.synat.pl). Narzędzia oferowane w ramach proponowanej infrastruktury pozwolą naukowcom na realizację każdej z omówionych powyżej faz realizacji badań humanistycznych. Zaprezentowane zostaną przykłady narzędzi, które są już dostępne (np. Wirtualne Laboratorium Transkrypcji, http://wlt.synat.pcss.pl) oraz takie, które w najbliższym czasie będą rozwijane. Referat ma być przyczynkiem do dyskusji nad kierunkami rozwoju takiej infrastruktury w Polsce.