jueves, 6 de diciembre de 2012

Uns pequenos apuntes sobre indilización e metadatos en particular



Nas clases correspondentes aos días 29 de novembro e 5 de decembro tratamos a indización e a clasificación dos recursos na World Wide Web, así como a importancia dos metadatos e as bases de datos. Aquí está unha pequena reflexión sobre o tratado nesas dúas horas:

Indizar é, segundo a norma ISO 5963 (1983), describir ou representar o contido temático dun recurso de infomación. Dito doutro xeito, a indización consiste en catalogar e describir os recursos a través de palabras clave que forman parte dun índice terminolóxico ou vocabulario controlado. A WWW é o lugar principal onde ollar información, unha especie de enciclopedia inmensa e universal a cuxos datos se pode acceder de xeito inmediato.
A indización ten unha serie de cualidades que son a especificidade, que depende da correcta utilización dos termos e conceptos; a exhaustividade, que consiste na maior oferta de repertorio posible e pertinente de temas, obxectos e conceptos representados no documento; a pertinencia, segundo a cal se debe acustar o emprego dos termos para que resulte útiles para os usuarios, xa que un bó descritor debe responder ás espectativas da busca; e coherencia, que se mide pola linguaxe documental e que depende dos descritores, vocabulario e terminoloxía usados. É moi subxectivo.
A indización pode ser libre ou controlada. A primeira refírese a identificación a través dunha lista ou conxunto aberto de termos e a segunda a unha lista ou conxunto pechado de termos. O control destes últimos plásmase en vocabularios controlados (glosarios, diccionarios...), que son listas de termos cun significado concreto que facilitan a busca e recuperación da información e que se caracterizan por evitar a ambigüidade; en tesauros, nos cales os termos gardan entre sí relacións semánticas de equivalencia, xerarquía ou asociación de xeito que a linguaxe representa de maneira unívoca o contido dos documentos e serva tanto para indización como para a recuperación e cuxo principal exemplo é o Tesauro da OIT; en taxonomías, unha lista xerárquica en forma de árbol que parte dos termos máis xerais aos máis específicos que permite a recuperación de información e que tamén se pode utilizar como sistema de clasificación temática para organizar coleccións de pequenas bibliotecas ou centros de información sobre o tema de traballo, como a Taxonomía da OIT; en mapas de coñecemento, conceptuais ou temáticos, que son unha representación visual útil para representar sistemas de organización de coñecemento estruturados en forma de rede; e en ontoloxías, un tipo de tesauro máis desenvolto que representa a conceptualización dun determinado campo de coñecemento mediante estruturas semánticas.

Antes de analizar os recursos, os sistemas de información deben crear o fondo dacordo coas necesidades e obxectivos do mesmo. Así, definen unha política de adquisición para que sexa coherente e equilibrada a información seleccionada, seleccionan os documentos e adquírenos mediante a compra, as subscripcións, os donativos, os intercambios e o depósito legal para bilbiotecas públicas, o que asegura a conservación da «memoria documental» da comunidade e a súa difusión (as editoriais, non os escritores).
A normalización da identificación bibliográfica facilita a identificación unívoca do material a través dun código numérico normalizado para cada obra publicada. Estes identificadores poden ser depósito legal, ISBN (International Standard Book Number), que identifica a edición dun título dun editor específico, e ISSN (International Standard Number), que identifica unha publicación periódica ou seriada.Estes dous últimos permiten identificar unha publicación en calquera país e en calquera lingua, polo que as operacións de troco, préstamos, intercambio de datos, etc se ven facilitadas ao mesmo tempo que melloran os circuítos de venda identificando rapidamente os pedidos entre editores, libreiros e distribuidores.
Unha vez se conta cos fondos, débese organizar os documentos en rexistros para poder recuperalos máis tarde. Esto denomínase análise documental, mediante a cal o contido se representa, de modo distinto ao orixinal, nun sistema documental co obxectivo de poder recuperalo cando se necesitan. O documentalista ocúpase de representalo mediante un código que logo utilizará o usuario. Así, os documentos primarios pasan a ser secundarios catalogados e clasificados. En xeral, pódese falar de dúas fases: a análise formal e a análise do contido. Na primeira identifícanse os materiais integrantes dunha colección mediante a descrición bibliográfica, (o documento clasifícase mediante as características formais e externas como o autor, o título, o lugar e ano de edición, tipo de encadernación), a catalogación (establecemento da lista de documentos dunha colección, como autores e títulos, alfabéticos de materias ou sistemático de materias) e os datos de localización (a través dunha sinatura e o número de rexistro). A segunda consiste nunha descripción do asunto que trata o documento e que require unha lectutar pormenorizada. A operación mediante a cal se describe o contido conceptual e se agrupa por temáticas que o represente denomínase clasificación. A CDU (Clasificación Decimal Universal) enumera o coñecemento en 10 grandes grupos divisibles: diccionarios, filosofía, relixións, ciencias sociais, vacío, ciencias exactas e naturais, ciencias aplicadas, xogos e arte e relacionados, xeografía e lingüistica e literatura.

Os recursos web deben ser catalogados en tres pasos: identificar o traballo, determinar os puntos de acceso para recuperalo con posterioridade e almacenar a forma na que este acceso vai ser posible. As etiquetas META identifican os contidos das páxinas web, xa que os buscadores rastrexan na cabeceira dos documentos para estraer estas etiquetas.
Os metadatos son fundamentais á hora de recuperar información. Son datos estruturados e codificados de xeito que facilitan a búsqueda da información que se require no ámbito dixital. Para asiganar os metadatos, débense identificar cunha cabeceira que resuma o contido, a propiedade intelectual (qeu supón un recoñecemento ao creador ou autor de obras do intelecto humano) ou a tipoloxía e a materia que nos permiten clasificar o documento debidamente para que a dificultade de atopalo con posterioridade sexa mínima. Así, os documentos tamén quedan relacionados entre eles. Ademais, hai varios modos de asociar metadatos con recursos dixitais:
-Incrustando os metadatos dentro do propio documento, xeralmente na cabeceira do arquivo.
-Asociando os metadatos a través de arquivos, usado especialmente para material multimedia, imaxes ou sons.
-Metadatos independentes, que se mateñen en xeral nunha base de datos xestionada por unha organización de control directo. Adoita ser usada polas organizacións que non queren que os seus datos estean ao alcance dos motores de busca.
Por outra banda, os metadatos poden clasificarse segundo a función que cumplan e da caracterización dos seus contidos a través dunha serie de atributos en metadatos administrativos (para a xestión e administración dos recursos dixitais de información), descritivos (para representar recursos de información) ou estruturais (facilitan a navegación e a presentación dos recursos).
Existen diferentes esquemas de metadatos que dependen dos sistemas e servizos de información dixital na WWW. Unha das iniciativas máis coñecidas é Dublin Core Metadata Element Set, de caracter xeral e que recolle a descripción de referencia dos elementos que identifican os metadatos. Creada en 1995, abarca 15 descritores que se distribúen en contido do recurso, propiedade intelectual e instancia do recurso. Ademais, existen ourtos formatos a ter en conta, como Metadata Encoding and Transmission Standard (METS), VRA-Core de la Visual Resources Association, Resource Description Framework (RDF) ou formatos de metainformación para información xeográfica.
A Folcsonomía ou Folksonomía é unha forma de indización que consiste na clasificación social de contidos. Así, vanse incluíndo etiquetas simples, sen xerarquías, de xeito que sexan os usuarios os que colaboran na descrición dun espazo informativo para establecer a listaxe de termos clave. O tagging (de tag, marca) xera unha navegación baseada na exploración que se ven representados nas nubes de termos.
Os bookmarks (páxina de favoritos) identifican as páxinas coas palabras para poder recuperar todas as páxinas cun contido determinado a través das palabras clave.

As bases de datos recompilan todo tipo de información para atender as necesidades dun amplo grupo de usuarios. Están organizadas por rexistros e campos (cada un dos elementos que fomran un rexistro) e facilita a recuperación de toda clase de información consistente en textos, gráficas, imaxes... Esta información está almacenada en documentos perfectamente identificados en función do contido e as propiedades semánticas. Cabe salientar as palabras claves, que son fundamentais á hora da busca de información.
Existen varias clasificacións das bases de datos en función de criterios diversos:
-Segundo a natureza da información poden ser referenciais (como Oracle), que son os directorios e tamén as bibliográficas e que remiten a outros documentos, institucións, persoas... ou documentais, que serían textuais, numéricas ou multimedia e que conteñen textos completos, datos estatísticos e imaxes fixas ou en movemento respectivamente.
-Segundo o tipo de cobertura temática podemos falar de bases de datos multidisciplinares, nas cales a documentación abarca diferentes eidos científicos (o caso de TESEO , unha base de datos que almacena todas as teses que se presentan en España é moi representativo), ou especializadas, nas que a información alamcenada versa sobre unha mesma disciplina.
-A cobertura xeográfica permítenos diferenciar bases de datos internacionais cuxa información provén de moitos lugares do mundo, e nacionais, que almacenan información dun único país (de España no noso caso, IME e ISOC).
Por outra banda, debemos diferenciar entre páxinas invisibles e páxinas dinámicas. Páxinas invisibles son ás que normalmente non acceden os nosos buscadores porque non están ben indizadas. Existen pero non accedemos a elas. Páxinas dinámicas son aquelas que che aparecen cando ti fas unha busca Van cambiando dependendo da mesma. O marco de todas estas páxinas é o deseño, que as divide en tres partes: corpo, título e enlaces.
Por último, cabe destacar a existencia da literatura gris que non se move polo circuíto tradicional de difusión. Son todos aqueles textos, documentos e recursos que non seguen estes discursos.




No hay comentarios:

Publicar un comentario