¿En qué consiste la Web Semántica o Web 3.0?

Exploremos los fundamentos de la Web Semántica, la visión de su fundador, Tim Berners-Lee. Su evolución desde los conceptos sobre Automatización de la recuperación de información, Internet de las Cosas y Asistentes Personales. Además de dos importantes tipos de datos que, en conjunto, ponen en práctica su visión actual: los Datos Abiertos Enlazados y los Metadatos Semánticos.

También revisemos brevemente cómo se adoptaron rápidamente los conceptos de la web semántica en la gestión de datos e información. 

La Web Semántica es una visión sobre una ampliación de la actual World Wide Web, que proporciona a los programas de software metadatos interpretables por máquina de la información y los datos publicados. En otras palabras, añadimos más descriptores de datos a contenidos y datos ya existentes en la Web.

Como resultado, los ordenadores son capaces de hacer interpretaciones significativas similares a la forma en que los humanos procesan la información para alcanzar sus objetivos. 

La ambición última de la Web Semántica, iniciativa desarrollada por su fundador Tim Berners-Lee, tiene como visión permitir que los ordenadores manipulen mejor la información en nuestro nombre. Explica además que, en el contexto de la Web Semántica, la palabra «semántica» indica procesable por máquina o lo que una máquina es capaz de hacer con los datos. Mientras que «web» transmite la idea de un espacio navegable de objetos interconectados con correspondencias de URI a recursos. 

La visión en evolución de la Web Semántica 

Lo que hay detrás de la visión original de la Web Semántica se engloba en tres cosas: Automatización de la recuperación de información, Internet de los objetos y asistentes personales. Puede leer más sobre los tres en el artículo seminal de Tim Berners-Lee, James Hendler y Ora Lassila, publicado en Scientific American: The Semantic Web

Con el tiempo, sin embargo, el concepto evolucionó hacia dos importantes tipos de datos que, en conjunto, ponen en práctica su visión actual. Se trata de los datos abiertos enlazados y los metadatos semánticos. 

Web Semántica.
Web Semántica.

Datos abiertos enlazados: ¿Para que sirven?

Para que la web semántica funcione, los ordenadores deben tener acceso a colecciones estructuradas de información y conjuntos de reglas de inferencia que puedan utilizar para realizar razonamientos automatizados. Es decir, las maquinas deben recorrer un camino a través de laberinto de los datos 

Cit. La web semántica Una nueva forma de contenido web que tenga sentido para los ordenadores desencadenará una revolución de nuevas posibilidades. 

Los Datos Abiertos Enlazados (Linked Open Data, LOD) son datos estructurados modelados como un grafo y publicados de forma que permitan el enlace entre servidores. Tim Berners-Lee lo formalizó en 2006 con las Cuatro reglas de los datos enlazados: 

  1.  Utilizar URI como nombres de cosas. 
  1. Utilizar URI HTTP para que la gente pueda buscar esos nombres. 
  1. Cuando alguien busque un URI, proporcione información útil, utilizando los estándares (RDF*, SPARQL). 
  1. Incluye enlaces a otras URI para que puedan descubrir más cosas. 

LOD permite tanto a las personas como a las máquinas acceder a datos de distintos servidores e interpretar su semántica con mayor facilidad. Como resultado, la Web Semántica trasciende de un espacio compuesto por documentos enlazados a un espacio compuesto por información enlazada. Lo que, a su vez, potencia la creación de una red ricamente interconectada de significado procesable por máquinas. 

Linked Open Data incluye: 

  • Datos factuales sobre entidades y conceptos específicos (por ejemplo, Varna, la Segunda Guerra Mundial o la teoría del calentamiento global); 
  • Ontologías: esquemas semánticos que definen: 
  • Clases de objetos (por ejemplo, Persona, Organización, Ubicación y Documento); 
  • Tipos de relación (por ejemplo, un padre de o un fabricante de); 
  • Atributos (por ejemplo, el DoB de una persona o la población de una región geográfica). 

En la actualidad, hay miles de conjuntos de datos publicados como LOD en distintos sectores, como enciclopedias, datos geográficos, datos gubernamentales, bases de datos y artículos científicos, entretenimiento, viajes, etc. Sólo en Ciencias de la Vida, hay más de 100 bases de datos científicas publicadas como LOD. 

Debido a su vinculación, estos conjuntos de datos forman una gigantesca red de datos o un grafo de conocimiento, que conecta una enorme cantidad de descripciones de entidades y conceptos de importancia general. Por ejemplo, existen varias descripciones de la ciudad de Varna (por ejemplo, una derivada de Wikipedia, otra de GeoNames, etc.). 

Leer  El Intrigante viaje hacia la Consciencia en la Inteligencia Artificial

Metadatos semánticos: Etiquetar la Web existente 

Los metadatos semánticos son etiquetas semánticas que se añaden a páginas web normales para describir mejor su significado. Por ejemplo, la página de inicio del Instituto Búlgaro de Oceanografía puede anotarse semánticamente con referencias a varios conceptos y entidades apropiados, por ejemplo, Varna, Institución Académica y Oceanografía. 

Estos metadatos facilitan enormemente la búsqueda de páginas web en función de criterios semánticos. Resuelve cualquier posible ambigüedad y garantiza que cuando busquemos París (la capital de Francia), no obtendremos páginas sobre Paris Hilton.   

Si queremos tener una relación bien determinada entre el tema de la página Web y la página o documento correspondiente, lo mejor es utilizar uno de los esquemas de metadatos de datos estructurados. Actualmente, el esquema de este tipo más popular es Schema.org, establecido por Google, Yahoo, Microsoft y Yandex. Según un estudio reciente de la Universidad de Mannheim, en 2015, el 30% de las páginas web contenían metadatos semánticos. 

Laberinto Datos Web Semántica
Laberinto Datos Web Semántica

Como funciona la Web Semántica por dentro

La Web Semántica proporciona un marco común que permite compartir y reutilizar datos más allá de los límites de las aplicaciones, las empresas y las comunidades. Es un esfuerzo de colaboración dirigido por el W3C con la participación de un gran número de investigadores y socios industriales. 

Cit. Actividad de la Web Semántica Página del W3C 

Para la adopción de la visión de la web semántica ha sido fundamental el desarrollo de un conjunto de normas establecidas por el organismo internacional de normalización World Wide Web Consortium (W3C): 

  • Marco de Descripción de Recursos (RDF) – un lenguaje sencillo para describir objetos y sus relaciones en un grafo; 
  • Protocolo SPARQL y lenguaje de consulta RDF (SPARQL): protocolo y lenguaje de consulta para datos RDF; 
  • Identificador Uniforme de Recursos (URI): cadena de caracteres diseñada para la identificación inequívoca de recursos y la extensibilidad mediante el esquema URI. 

La disponibilidad de estas normas ha propiciado el desarrollo de un ecosistema de herramientas de distintos proveedores: motores de bases de datos, como GraphDB, que trabajan con datos RDF (conocidos como triplestores), editores de ontologías, herramientas de etiquetado que utilizan el análisis de textos para generar automáticamente metadatos semánticos, motores de búsqueda semántica y un largo etcétera. 

Grafos de conocimiento: Lo reciente de la Web Semántica 

Aunque los grafos de conocimiento llegaron más tarde, rápidamente se convirtieron en un poderoso motor para la adopción de los estándares de la Web Semántica y todas las tecnologías semánticas que los implementan. Los grafos de conocimiento llevan el paradigma de la Web Semántica a las empresas, introduciendo metadatos semánticos para impulsar la gestión de datos y contenidos a nuevos niveles de eficiencia y rompiendo silos para permitirles crear sinergias con diversas formas de gestión del conocimiento. 

Los grafos de conocimiento empresarial utilizan ontologías para hacer explícitos diversos modelos conceptuales (esquemas, taxonomías, vocabularios, etcétera) utilizados en los distintos sistemas de la empresa. En la jerga de la gestión de datos empresariales, los grafos de conocimiento representan un tipo superior de datos semánticos de referencia: una colección de descripciones interconectadas de entidades (objetos, eventos o conceptos). 

De este modo, los grafos de conocimiento ayudan a las organizaciones a mejorar la información propia utilizando el conocimiento global como contexto de interpretación y fuente de enriquecimiento. 

La importancia de la Web Semántica

La Web Semántica es la red de conexiones entre distintas formas de datos que permiten a una máquina hacer algo que no era capaz de hacer directamente. 

Cit. Tejiendo la Web: The Original Design and Ultimate Destiny of the World Wide Web por su inventor, p. 185

Gracias a su capacidad para impulsar la generación, integración y comprensión de los datos, los conceptos de la web semántica se adoptaron rápidamente en la gestión de datos e información. Hoy en día, múltiples organizaciones utilizan Linked Data como mecanismo para publicar internamente datos maestros.

Los estándares de la Web Semántica se utilizan ampliamente en el desarrollo de grafos de conocimiento en distintos ámbitos: gobierno (por ejemplo Legislation.gov.uk), medios de comunicación (la BBC fue la pionera), ciencia (tanto Elsevier como Springer Nature utilizan GraphDB), servicios financieros, etcétera. 

Hilmer Palomares

Deja un comentario

×