Nas clases
correspondentes aos días 29 de novembro e 5 de decembro tratamos a
indización e a clasificación dos recursos na World Wide Web, así
como a importancia dos metadatos e as bases de datos. Aquí está
unha pequena reflexión sobre o tratado nesas dúas horas:
Indizar é, segundo
a norma ISO 5963 (1983), describir ou representar o contido temático
dun recurso de infomación. Dito doutro xeito, a indización consiste
en catalogar e describir os recursos a través de palabras clave que
forman parte dun índice terminolóxico ou vocabulario controlado. A
WWW é o lugar principal onde ollar información, unha especie de
enciclopedia inmensa e universal a cuxos datos se pode acceder de
xeito inmediato.
A indización ten
unha serie de cualidades que son a especificidade, que depende da
correcta utilización dos termos e conceptos; a exhaustividade, que
consiste na maior oferta de repertorio posible e pertinente de temas,
obxectos e conceptos representados no documento; a pertinencia,
segundo a cal se debe acustar o emprego dos termos para que resulte
útiles para os usuarios, xa que un bó descritor debe responder ás
espectativas da busca; e coherencia, que se mide pola linguaxe
documental e que depende dos descritores, vocabulario e terminoloxía
usados. É moi subxectivo.
A
indización pode ser libre ou controlada. A primeira refírese a
identificación a través dunha lista ou conxunto aberto de termos e
a segunda a unha lista ou conxunto pechado de termos. O control
destes últimos plásmase en vocabularios controlados (glosarios,
diccionarios...), que son listas de termos cun significado concreto
que facilitan a busca e recuperación da información e que se
caracterizan por evitar a ambigüidade; en tesauros, nos cales os
termos gardan entre sí relacións semánticas de equivalencia,
xerarquía ou asociación de xeito que a linguaxe representa de
maneira unívoca o contido dos documentos e serva tanto para
indización como para a recuperación e cuxo principal exemplo é o
Tesauro
da OIT; en
taxonomías, unha lista xerárquica en forma de árbol que parte dos
termos máis xerais aos máis específicos que permite a recuperación
de información e que tamén se pode utilizar como sistema de
clasificación temática para organizar coleccións de pequenas
bibliotecas ou centros de información sobre o tema de traballo, como
a Taxonomía
da OIT;
en mapas de coñecemento, conceptuais ou temáticos, que son unha
representación visual útil para representar sistemas de
organización de coñecemento estruturados en forma de rede; e en
ontoloxías, un tipo de tesauro máis desenvolto que representa a
conceptualización dun determinado campo de coñecemento mediante
estruturas semánticas.
Antes
de analizar os recursos, os sistemas de información deben crear o
fondo dacordo coas necesidades e obxectivos do mesmo. Así, definen
unha política de adquisición para que sexa coherente e equilibrada
a información seleccionada, seleccionan os documentos e adquírenos
mediante a compra, as subscripcións, os donativos, os intercambios e
o depósito legal para bilbiotecas públicas, o que asegura a
conservación da «memoria documental» da comunidade e a súa
difusión (as editoriais, non os escritores).
A
normalización da identificación bibliográfica facilita a
identificación unívoca do material a través dun código numérico
normalizado para cada obra publicada. Estes identificadores poden ser
depósito legal, ISBN (International
Standard Book Number),
que identifica a edición dun título dun editor específico, e ISSN
(International
Standard Number),
que identifica unha publicación periódica ou seriada.Estes dous
últimos permiten
identificar unha publicación en calquera país e en calquera lingua,
polo que as operacións de troco, préstamos, intercambio de datos,
etc se ven facilitadas ao mesmo tempo que melloran os circuítos de
venda identificando rapidamente os pedidos entre editores, libreiros
e distribuidores.
Unha
vez se conta cos fondos, débese organizar os documentos en rexistros
para poder recuperalos máis tarde. Esto denomínase análise
documental, mediante a cal o contido se representa, de modo distinto
ao orixinal, nun sistema documental co obxectivo de poder recuperalo
cando se necesitan. O documentalista ocúpase de representalo
mediante un código que logo utilizará o usuario. Así, os
documentos primarios pasan a ser secundarios catalogados e
clasificados. En xeral, pódese falar de dúas fases: a análise
formal e a análise do contido. Na primeira identifícanse os
materiais integrantes dunha colección mediante a descrición
bibliográfica, (o documento clasifícase mediante as características
formais e externas como o autor, o título, o lugar e ano de edición,
tipo de encadernación), a catalogación (establecemento da lista de
documentos dunha colección, como autores e títulos, alfabéticos de
materias ou sistemático de materias) e os datos de localización (a
través dunha sinatura e o número de rexistro). A segunda consiste
nunha descripción do asunto que trata o documento e que require unha
lectutar pormenorizada. A operación mediante a cal se describe o
contido conceptual e se agrupa por temáticas que o represente
denomínase clasificación. A CDU
(Clasificación
Decimal Universal) enumera o coñecemento en 10 grandes grupos
divisibles: diccionarios, filosofía, relixións, ciencias sociais,
vacío, ciencias exactas e naturais, ciencias aplicadas, xogos e arte
e relacionados, xeografía e lingüistica e literatura.
Os recursos web
deben ser catalogados en tres pasos: identificar o traballo,
determinar os puntos de acceso para recuperalo con posterioridade e
almacenar a forma na que este acceso vai ser posible. As etiquetas
META identifican os contidos das páxinas web, xa que os buscadores
rastrexan na cabeceira dos documentos para estraer estas etiquetas.
Os metadatos son
fundamentais á hora de recuperar información. Son datos
estruturados e codificados de xeito que facilitan a búsqueda da
información que se require no ámbito dixital. Para asiganar os
metadatos, débense identificar cunha cabeceira que resuma o contido,
a propiedade intelectual (qeu supón un recoñecemento ao creador ou
autor de obras do intelecto humano) ou a tipoloxía e a materia que
nos permiten clasificar o documento debidamente para que a
dificultade de atopalo con posterioridade sexa mínima. Así, os
documentos tamén quedan relacionados entre eles. Ademais, hai varios
modos de asociar metadatos con recursos dixitais:
-Incrustando os
metadatos dentro do propio documento, xeralmente na cabeceira do
arquivo.
-Asociando os
metadatos a través de arquivos, usado especialmente para material
multimedia, imaxes ou sons.
-Metadatos
independentes, que se mateñen en xeral nunha base de datos
xestionada por unha organización de control directo. Adoita ser
usada polas organizacións que non queren que os seus datos estean ao
alcance dos motores de busca.
Por outra banda, os
metadatos poden clasificarse segundo a función que cumplan e da
caracterización dos seus contidos a través dunha serie de atributos
en metadatos administrativos (para a xestión e administración dos
recursos dixitais de información), descritivos (para representar
recursos de información) ou estruturais (facilitan a navegación e a
presentación dos recursos).
Existen
diferentes esquemas de metadatos que dependen dos sistemas e servizos
de información dixital na WWW. Unha das iniciativas máis coñecidas
é Dublin
Core Metadata Element Set,
de caracter xeral e que recolle a descripción de referencia dos
elementos que identifican os metadatos. Creada en 1995, abarca 15
descritores que se distribúen en contido do recurso, propiedade
intelectual e instancia do recurso. Ademais, existen ourtos formatos
a ter en conta, como Metadata
Encoding and Transmission Standard
(METS),
VRA-Core de la Visual Resources Association, Resource
Description Framework
(RDF)
ou formatos de metainformación para información xeográfica.
A
Folcsonomía ou Folksonomía é unha forma de indización que
consiste na clasificación social de contidos. Así, vanse incluíndo
etiquetas simples, sen xerarquías, de xeito que sexan os usuarios os
que colaboran na descrición dun espazo informativo para establecer a
listaxe de termos clave. O tagging (de tag, marca) xera unha
navegación baseada na exploración que se ven representados nas
nubes de termos.
Os
bookmarks (páxina de favoritos) identifican as páxinas coas
palabras para poder recuperar todas as páxinas cun contido
determinado a través das palabras clave.
As
bases de datos recompilan todo tipo de información para atender as
necesidades dun amplo grupo de usuarios. Están organizadas por
rexistros e campos (cada un dos elementos que fomran un rexistro) e
facilita a recuperación de toda clase de información consistente en
textos, gráficas, imaxes... Esta información está almacenada en
documentos perfectamente identificados en función do contido e as
propiedades semánticas. Cabe salientar as palabras claves, que son
fundamentais á hora da busca de información.
Existen
varias clasificacións das bases de datos en función de criterios
diversos:
-Segundo
a natureza da información poden ser referenciais (como Oracle),
que son os directorios e tamén as bibliográficas e que remiten a
outros documentos, institucións, persoas... ou documentais, que
serían textuais, numéricas ou multimedia e que conteñen textos
completos, datos estatísticos e imaxes fixas ou en movemento
respectivamente.
-Segundo
o tipo de cobertura temática podemos falar de bases de datos
multidisciplinares, nas cales a documentación abarca diferentes
eidos científicos (o caso de TESEO
, unha base de datos que almacena todas as teses que se presentan en
España é moi representativo), ou especializadas, nas que a
información alamcenada versa sobre unha mesma disciplina.
-A
cobertura xeográfica permítenos diferenciar bases de datos
internacionais cuxa información provén de moitos lugares do mundo,
e nacionais, que almacenan información dun único país (de España
no noso caso, IME
e ISOC).
Por
outra banda, debemos diferenciar entre páxinas invisibles e páxinas
dinámicas. Páxinas
invisibles son ás que normalmente non acceden os nosos buscadores
porque non están ben indizadas. Existen pero non accedemos a elas.
Páxinas dinámicas son aquelas que che aparecen cando ti fas unha
busca Van cambiando dependendo da mesma. O marco de todas estas
páxinas é o deseño, que as divide en tres partes: corpo, título e
enlaces.
Por
último, cabe destacar a existencia da literatura
gris que non se move polo circuíto tradicional de difusión. Son
todos aqueles textos, documentos e recursos que non seguen estes
discursos.
*A
imaxe foi obtida do seguinte enlace:
http://ratonesinformaticos.blogspot.com.es/2012/03/conceptos-basicos-de-bases-de-datos.html
No hay comentarios:
Publicar un comentario