miércoles, 15 de octubre de 2008

World Wide Web

DEFINICION

La WWW puede definirse básicamente como tres cosas: hipertexto, que es un sistema de enlaces que permite saltar de unos lugares a otros; multimedia, que hace referencia al tipo de contenidos que puede manejar (texto, gráficos, vídeo, sonido y otros) e Internet, las base sobre las que se transmite la información.


HISTORIA
La World Wide Web: documentos con referencias cruzadas. El concepto en sí no es nuevo. Las referencias a otros documentos, en forma de notas al margen, existían ya en los manuscritos medievales. La diferencia es que la Web es más global, más rápida, y más fácil de usar. Todo ello es posible gracias a los avances tecnológicos de finales del siglo pasado.
En 1945, el Director de la Oficina de Desarrollo e Investigación Científica (EE.UU.), el Doctor
Vannevar Bush, escribió el artículo "As We May Think" para "The Atlantic Online", en que expresaba su preocupación por la ingente cantidad de información que existía y estaba siendo generada, y el poco tiempo y los ineficientes sistemas que había para encontrarla. Así, y basándose en la tecnología existente en aquel entonces, describió un dispositivo personal, al que llamó "memex", y que imaginaba como un suplemento íntimo a su memoria. Este aparato permitiría a cada individuo almacenar su información en microfilmes, consultarlos rápidamente y, lo que es más importante, crear vínculos entre unos documentos y otros, de modo que durante la lectura de un documento se recordara al lector qué documentos contenían información relacionada. Era una visión de lo que ocurriría sólo 45 años después.
En los años 60,
Douglas Engelbart, mientras trabajaba en el Stanford Research Institute, propuso el NLS (oNLine System), un entorno de trabajo por computadora, con un sistema para almacenar publicaciones, con catálogos e índices para facilitar la búsqueda, y con reglas establecidas para citar documentos, de modo que fuera más fácil para los lectores acceder a los documentos referenciados. Era un entorno con teclado, pantalla, ratón e impresora, con posibilidad de teleconferencia y correo electrónico a través de una red de computadoras para una rápida comunicación entre los profesionales. Tenía las herramientas básicas de composición, estudio, organización y modificación de información. Los ficheros se guardaban jerárquicamente para su mejor organización. Se trabajaba con los documentos en modo multiventana, para ver varios documentos a la vez en ventanas diferentes, y se podían copiar objetos seleccionados de una ventana a otra.
El término "
hipertexto" fue acuñado por Ted Nelson en 1965, en su artículo "A File Structure for the Complex, the Changing, and the Indeterminate", que leyó durante la vigésima conferencia anual de la Association of Computer Machinery (ACM). Ted Nelson ideó un modelo para la interconexión de documentos electrónicos. El proyecto Xanadu aún continúa luchando para conseguir un modelo de hipertexto superior al que trajo la World Wide Web.
La World Wide Web fue inventada en 1989 por un informático del
CERN (Organización Europea de Investigación Nuclear) llamado Tim Berners-Lee. Era un sistema de hipertexto para compartir información basado en Internet, concebido originalmente para servir como herramienta de comunicación entre los científicos nucleares del CERN. Tim Berners-Lee había estado experimentando con hipertexto desde 1980, año en que programó Enquire, un programa para almacenar piezas de información y enlazarlas entre ellas. Enquire se ejecutaba en un entorno multiusuario y permitía acceder a varias personas a los mismos datos. Tim Berners-Lee entregó su propuesta al CERN en 1989, en septiembre de 1990 recibió el visto bueno y junto con Robert Cailliau comenzó a escribir el nuevo sistema de hipertexto. A finales de 1990 el primer browser de la historia, WorldWide Web, ya tenía forma.
Los documentos necesitaban un formato que fuera adecuado para su misión. En aquella época casi todo el mundo utilizaba TeX y PostScript, pero éstos eran demasiado complicados teniendo en cuenta que debían ser leídos por todo tipo de computadoras, desde la terminales tontas hasta las estaciones de trabajo gráficas X-Windows. Así, tanto el lenguaje de intercambio (
HTML), como el protocolo de red (HTTP) se diseñaron para ser realmente muy simples.
HTML son las siglas de "HyperText Mark-up Language". "
Mark-up" es un término de imprenta que significa el conjunto de instrucciones estilísticas detalladas escritas en un manuscrito que debe ser tipografiado. Así, HTML podría ser traducido como "Lenguaje de Formato de Documentos para Hipertexto". HTML es una aplicación de SGML, un lenguaje muy general para definir lenguajes de formato de documentos.
A principios de 1993 había alrededor de 50 servidores. Existían básicamente dos tipos de browsers: el original, gráfico, pero sólo para plataformas NeXT, y el browser en modo de línea, preparado para cualquier plataforma pero muy limitado y muy poco atractivo. En Febrero se lanzó la primera versión alfa del navegador "
Mosaic for X", desarrollado en el NCSA (National Center for Supercomputing Applications). Funcionaba en X Windows, que era una plataforma popular entre la comunidad científica. En Abril el tráfico de la WWW era el 0,1% del total de Internet. El CERN declaraba la WWW como tecnología de acceso gratuito. En septiembre ya había versiones de Mosaic para PC y Macintosh. El tráfico alcanzaba el 1% de todo el tráfico de Internet y había más de 500 servidores. Es el comienzo del crecimiento explosivo de la Web. A finales del 94 ya había más de 10.000 servidores y 10 millones de usuarios. En 1997, más de 650.000 servidores.
Hoy, en 2003, la Web es algo cotidiano para una gran parte de los más de 600 millones de
usuarios de Internet que hay en todo el mundo. Sus utilidades son diversas, su impacto en la economía mundial es apreciable. No sólo hay documentos de texto: hay imágenes, vídeos, música, se pueden comprar cosas, se pueden hacer reservas...
Y cada uno de nosotros puede tejer unas hebras más de esa gran red que la Web...


FUNCIONAMIENTO DE LA WEB

La visualización de una página web de la World Wide Web normalmente comienza tecleando la
URL de la página en el navegador web, o siguiendo un enlace de hipertexto a esa página o recurso. En ese momento el navegador comienza una serie de comunicaciones, transparentes para el usuario, para obtener los datos de la página y visualizarla.
El primer paso consiste en traducir la parte del nombre del servidor de la URL en una
dirección IP usando la base de datos distribuida de Internet conocida como DNS. Esta dirección IP es necesaria para contactar con el servidor web y poder enviarle paquetes de datos.
El siguiente paso es enviar una petición
HTTP al servidor Web solicitando el recurso. En el caso de una página web típica, primero se solicita el texto HTML y luego es inmediatamente analizado por el navegador, el cual, después, hace peticiones adicionales para los gráficos y otros ficheros que formen parte de la página. Las estadísticas de popularidad de un sitio web normalmente están basadas en el número de 'páginas vistas' o las 'peticiones' de servidor asociadas, o peticiones de fichero, que tienen lugar.
Así que se han recibido los ficheros solicitados desde el servidor web, el navegador
renderiza la página tal y como se describe en el código HTML, el CSS y otros lenguajes web. Al final se incorporan las imágenes y otros recursos para producir la página que ve el usuario en su pantalla.
La mayoría de las páginas web contienen
hiperenlaces a otras páginas relacionadas y algunas también contienen descargas, documentos fuente, definiciones y otros recursos web.
Esta colección de recursos útiles y relacionados, interconectados a través de enlaces de hipertexto, es lo que ha sido denominado como 'red' (web, en inglés) de información. Al trasladar esta idea a Internet, se creó lo que Tim Berners-Lee llamó WorldWideWeb (un término escrito en
CamelCase, posteriormente desechado) en 1990.[1]
si un usuario accede de nuevo a una página después de un pequeño intervalo, es probable que no se vuelvan a recuperar los datos del servidor web de la forma en que se explicó en el apartado anterior. Por defecto, los navegadores almacenan en una
caché del disco duro local todos los recursos web a los que el usuario va accediendo. El navegador enviará una petición HTTP sólo si la página ha sido actualizada desde la última carga, en otro caso, la versión almacenada se reutilizará en el paso de renderizado para agilizar la visualización de la página.
Esto es particularmente importante para reducir la cantidad de
tráfico web en Internet. La decisión sobre la caducidad de la página se hace de forma independiente para cada recurso (imagen, hoja de estilo, ficheros JavaScript, etc, además de para el propio código HTML). Sin embargo en sitios de contenido muy dinámico, muchos de los recursos básicos sólo se envían una vez por sesión. A los diseñadores de sitios web les interesa reunir todo el código CSS y JavaScript en unos pocos ficheros asociados a todo el sitio web, de forma que pueden ser descargados en las cachés de los usuarios y reducir así el tiempo de carga de las páginas y las peticiones al servidor.
Hay otros componentes de Internet que pueden almacenar contenido Web. El más común en la práctica son los frecuentes
firewalls de empresa y académicos donde se pueden almacenar los recursos web solicitados por un usuario para el beneficio de todos los que estén conectados a ese firewall. Algunos buscadores como Google, Yahoo!, GlowBoom o AltaVista también almacenan contenidos de sitios Web.
Aparte de las utilidades creadas en los servidores Web que pueden determinar cuándo los ficheros físicos han sido actualizados, los diseñadores de páginas web generadas dinámicamente pueden controlar las cabeceras HTTP enviadas a los usuarios, de forma que las páginas intermedias o sensibles a problemas de seguridad no sean guardadas en caché. Por ejemplo, en los
bancos on line y las páginas de noticias se utiliza frecuentemente este sistema.
Esto nos ayuda a comprender la diferencia entre los verbos HTTP 'GET' y 'POST' - los datos solicitados con GET pueden ser almacenados en la caché, si se cumplen las otras condiciones, mientras que con los datos obtenidos después de enviar información al servidor con POST normalmente no se puede.


Ejemplos

ftp://ftp.uji.es/pub/fichero.doc
http://www.uji.es
(URL de la página de entrada del servidor Web del Departamento de Educación de la Universitat Jaume I, en el host www.uji.es)
gopher://gopher.uji.es
(URL de la entrada del servidor gopher del "Servei d'Informació del Campus (sic) de la Universitat Jaume I")
mailto:jordi@edu.uji.es
(Este URL posibilita el envío de un mensaje de correo electrónico a la dirección jordi@edu.uji.es)
news:comp.infosystems.gopher
(URL del grupo de news comp.infosystems.gopher(
nntp://news.uji.es/comp.infosystems.gopher
(Este URL especifica el grupo de news comp.infosystems.gopher almacenado en el servidor news.uji.es)
wais://wais.uji.es/tractatus?ethics
(Este URL especifica la búsqueda del término "ethics" en la base de datos "tractatus" del servidor WAIS wais.uji.es)
La utilidad, y la necesidad, de una notación que, como ésta, introduzca algo de orden en el caos de la red es obvia. Los URL se idearon para un proyecto concreto y limitado, el del WWW, pero ha cundido el ejemplo. Ahora mismo se está produciendo un amplio debate en el seno de Internet, concretado en un grupo de trabajo de la IETF (Internet Engineering Task Force) para el desarrollo de sistemas universales de designación y caracterización de objetos persistentes de la red, inspirados en los URL pero que irían más allá: debería ser posible, por ejemplo, asignar un URN (Uniform Resource Name) invariable para un objeto, aunque cambiara su path e incluso su método de acceso. Un sistema distribuido (similar al DNS o Domain Name System) resolveria un URN en uno o varios URL aplicando criterios de optimización de recursos (como proximidad al solicitante).