Página Inicial de WebUsable

Página anterior Página Inicial de WebUsable Disminuir tamaño de letra Aumentar tamaño de letra Mapa de WebUsable Envía tus comentarios
 

 Éxito en Google

Temas relacionados: Óptimizar para Buscadores | PageRank en Google


  1. Acerca de Google

    El fenómeno Google no sólo ha supuesto un espaldarazo en el mundo de los buscadores y los portales generalistas, sino una verdadera revolución en la Red. Y como consecuencia, el crecimiento y la multiplicación del valor de la compañía.

    Y después de haber sido estudiado en profundidad por multitud de consultoras y expertos en la Red, la conclusión siempre es más o menos la misma: el producto es muy bueno. Tanto que la mayoría de bancos de referencias de la Red no tienen reparo en haber migrado y utilizar Google como motor de búsqueda, habida cuenta la diferencia de calidad de resultados que ofrece.

    Probablemente, para búsquedas especializadas en un sector concreto, los profesionales utilicen buscadores verticales especializados. Con seguridad, un médico consultará Medinfo o algún otro site especializado para buscar un síntoma inespecífico de la diabetes, pero es muy probable que acuda a Google para todo lo relacionado con su próximo viaje de vacaciones.

    A cualquier usuario que se le pregunte ¿y tú porque usas Google? va a contestar algo parecido a:

    1. Casi siempre encuentro lo que busco sin tener que perder tiempo en visitar sitios que no me interesan.
    2. Es muy rápido.
    3. Es muy fácil de usar.


    • 1.1 Facilidad de uso:

    • Traduciendo a razones técnicas estas respuestas por órden inverso, el hecho de que sea fácil de usar realmente es la circunstancia menos destacable de su éxito, ya que la mayoría de portales generalistas siempre han cuidado la usabilidad de sus sites siguiendo un patrón común de usabilidad demostrada. Algunos aspectos destacables de su usabilidad son:

      • Austeridad espartana de diseño, prescindible habida cuenta del valor intrínseco del site.

      • Google genera un "abstract" (resúmen) del texto más relevante existente en la página relativo a los términos buscados, lo que permite al usuario estimar si la página coincidente presentada se adapta o no a lo que está buscando.

        De cara al usuario este método es mucho más eficaz que presentar los tags <title>, <meta name="description"> o una descripción introducida por el propietario de la página los cuales, la mayor parte de las veces, o no describen bien la página, o lo hacen en términos comerciales.

      • Minimización de las opciones mostradas a primer nivel: arquitectura de contenidos de topología vertical en la que muestran las alternativas de navegación a distintos niveles. Más "clicks" pero menos saturación. Buena priorización de alternativas.

      • Disponibilidad en un gran número de idiomas.

      • Utilización de términos claros y precisos.

    • 1.2 Rapidez:

    • Que sea rápido básicamente se debe a las siguientes razones técnicas:

      • Miles de PC's conectados en red, con una excelente gestión de bases de datos distribuídas.

      • El sofisticado algoritmo de búsqueda utilizado que permite obtener resultados casi instantáneamente de entre los más de 8.000 millones de páginas indexadas en su banco de datos.

      • La especial catalogación / cualificación que hace su motor de indización, PageRank, lo que hace que el tiempo de proceso requerido en la recuperación de datos sea mínimo.

        En WebUsable dispones de una utilidad que permte averiguar el PageRank asignado por Google a cualquier sitio Web.


    • 1.3 Factor de éxito muy alto:

    • Que los resultados mostrados tengan un factor de éxito muy alto para cumplir la expectativa del usuario se consigue con varias acciones:

      • En Google no se vende la prioridad de aparición en resultados. (Se puede hacer publicidad pero es al márgen de la lista de ocurrencias, a la derecha). Esto redunda en que no aparezcan sitios-ruído que obliguen al usuario a descargarse páginas que no le interesan.

      • Cuando GoogleBot (el "spider" de Google), indiza las páginas de un sitio, genera una compleja estructura de metadatos en base a la información encontrada en todas las páginas y al número de veces que aparecen, en:

        • Title.
        • Description
        • Keywords
        • Headings y Subheadings
        • Links entre páginas
        • Texto de Página...

        En tiempo de realización de la búsqueda el motor realiza una serie de cálculos y suposiciones en base a dichos metadatos y frecuencia de aparición del texto buscado y asigna un ratio de probabilidad, presentando antes las páginas que lo tienen más alto.

      • Además del número de veces que los términos buscados aparecen en las páginas, Google hace también un análisis de proximidad, para ponderar que, si estamos buscando "fronteras de Brasil" , el sistema valore más una página dónde "fronteras" y "Brasil" están a dos palabras de distancia que otra dónde están a 20 (podría tratarse de una página que habla de las fronteras de Venezuela, en la que también aparecería la palabra Brasil).

      • Y lo que es tremendamente novedoso es la utilización de un factor corrector de la ponderación de una página, basado en las páginas externas que la enlazan.

        Así, entre 2 páginas que fueran a aparecer las primeras de un listado de coincidentes, presentará antes una que está enlazada por 2 sitios externos que otra que no lo esté.

        Y esto se hace en tiempo de indización de la página / sitio, momento en que, además de generar los metadatos propios, PageRank rastrea los millones de páginas de su base de datos buscando enlaces a la página en curso. Así establece una "valoración externa" para la candidata que pasará a formar parte de los datos sobre la misma almacenados en el sistema.

        Y no sólo esto: existe además un prámetro de calidad de sitios externos que enlazan la página basado, fundamentalmente, en como de visitados estos sitios son. Así un sitio tendrá un PageRank mayor si le enlaza por ejemplo RTVE que si está enlazado por una página personal, porque a su vez RTVE tendrá mayor "PageRank" que la página personal.


  2. Técnicas para optimizar la valoración de Google:

    En realidad no existen soluciones milagrosas para ocupar las primeras posiciones en los resultados de las búsquedas de Google. Entre otras cosas porque no venden la prioridad y porque prácticamente no hay intervención humana en los procesos de indización y recuperación de datos.

    Sin embargo sí que hay un buen número de "buenas prácticas" que, seguidas al pie de la letra, garantizan resultados sobresalientes. Aunque, a veces, pueden resultar algo restrictivas con respecto a la idea de diseño técnico del site que tengamos inicialmente.

    Finalmente se trata de una elección o de llegar a una solución de compromiso. Pero tener en cuenta estas recomendaciones nos garantizará excelentes situaciones en las búsqedas del mejor buscador de la Red, y de todos los que lo usan.


    • 2.1 "Títle" de página autoexplicativo y único:

      El contenido del tag <TITLE> de cada página es fundamental pues es uno de los sitios clave en los que GoogleBot indiza términos. Al márgen de permitir en "Búsqueda avanzada" hacer búsquedas específicas en los títulos de las páginas mediante allintitle.

      • Siempre debe existir un <TITLE> para cada página, no se debe dejar el tag vacío.

        Hay cerca de 1 millón de páginas con <TITLE> = "Page Title" ("default" puesto por el editor HTML) y más de 12 millones de páginas con <TITLE> = "Untitled document"

      • No se debe utilizar el mismo <TITLE> para cada página, por ejemplo el nombre del "site" o un slogan comercial. Se desaprovecha el que Google considere todas las páginas como entidades relevantes.

      • Los títulos de página no deben ser excesivamente largos (entre 6 y 8 palabras), ya que el spider considera más significativas las palabras que aparecen en las primeras posiciones.


    • 2.2 "Keywords" específicas de la página, no del site:

      El concepto de Palabras clave que mejor definen la página, asociadas con el tag <meta name="keywords" content=""> está directamente asociado a conceptos de indización y recuperación de resultados de búsquedas en páginas.

      En esencia no es más que establecer los términos que mejor identifican la página de entre los que se encuentran en el contenido: En concreto en Google, este concepto parece no ser relevante, habida cuenta que indiza y filtra todo el contenido de la página.

      Sin embargo, por la universalización de su uso en búsquedas lo consideramos importante ya que, con seguridad, nuestras páginas pertenecerán a varios catálogos y buscadores para los que las "Keywords" serán fundamentales.

      Sería recomendable cumplimentar este tag una vez generado el contenido, extrayendo los términos principales que lo identifican. Entre 8 y 20 palabras debieran ser suficientes.

      También se debería tratar de incluir aquellos términos por los que suponemos que los usuarios van a buscar nuestros contenidos. No obstante, insistir en que deben estar contenidos en la página.


    • 2.3 "Description" resúmen de la página:

      El concepto de Descripción de página es la frase o conjunto de frases que mejor definen el sentido y utilidad de la página y está asociado al tag <meta name="description" content="">.

      Está igualmente asociado a conceptos de indización y recuperación de resultados de búsquedas en páginas, pero en este caso, si es fundamental para Google.

      Debe incluir una breve descripción que explique de la forma más clara y explicativa en qué consiste la página y cuales son sus características principales. Al leerla el usuario debe tener la idea más exacta posible de qué se va a encontrar en la página.

      Y esto es así porque Google captura directamente el contenido de este campo y cuando muestra las coincidencias de una búsqueda lo muestra como resúmen descriptivo ("abstract") de la página.

      Una buena técnica para componerlo es, una vez generado el tag <meta name="keywords" content="">, tratar de incluir las palabras claves más relevantes en la descripción. Sin embargo no se debe olvidar que debe ser comprensible y tener sentido para un usuario que lo lea por primera vez


    • 2.4 Utilizar un sumario inicial de la página:

      Las palabras que aparecen al principio de cada página son las que primero indiza un spider. Según va encontrando nuevos términos chequea si ya los ha recogido y sigue adelante: Y esto hasta cierto punto en que considera que ya tiene bastantes palabras para describir el contenido.

      Por esto es que es importante buscar la manera de empezar cada página con:

      • Un resúmen que describa los conceptos claves abordados en la página. Es recomendable que este "abstract" recoja la mayor cantidad posible de las palabras claves de la página.

      • Un índice de contenidos (normalmente puede estar formado por hipertextos) con los capítulos abordados en la página. El título de cada capítulo debe describir con precisión el contenido del mismo.


    • 2.5 Nunca usar Frames:

      Si hay algo que garantiza el francaso de la indexación de un sitio Web para un buscador son las "Frames". Al márgen de sus escasas ventajas y de sus muchos inconvenientes, un sistema de marcos normalmente enmascara todas o casi todas las páginas las páginas de un sitio, haciéndolas difícilmente accesibles a la araña que lo analiza.

      De manera que si no nos importa la ausencia de nuestras páginas en el buscador, y no sabemos como resolver sistemas de navegación, podemos usar frames. Si no, frames ni en pintura.


    • 2.6 Todas las páginas enlazadas por un enlace textual descriptivo:

      En la forma en que GoogleBot indexa un site es comenzando por la URL del mismo (Home Page) y siguiendo los sucesivos "links" hipertexto que encuentra va recorriendo página tras página seleccionando palabras y generando metadatos.

      Sin embargo, en los modernos sistemas de navegación:

      • La mayoría de menús se implementan con HTML Dinámico.

      • Las Barras de Herramientas y de Iconos tienen asociado Javascript para programar los manejadores de eventos.

      • Hay páginas dinámicas (PHP, ASP, JSP) generados en función de la sesión y datos del usuario

      • Y lo que es aún peor, hay secciones o sites enteros generados en Flash con la navegación embebida en los propios objetos gráficos.

      Citando una frase que les gusta mucho, Google sólo habla texto. Esto quiere decir que sólo si hay un hipertexto en un enlace el robot va a pasar de una página a otra.

      Google es capaz de parsear HTML y separar tags de contenido, pero no entiende otros lenguajes de programación, con lo que se pierde y abandona.

      Es por esto que si utilizamos artefactos de interfaz de usuario para la navegación, siempre se debe buscar una vía alternativa para que todas las páginas estén enlazadas por un hipertexto que provenga de otra que también lo esté, y así sucesivamente, hasta llegar a la Home Page. Es la forma de asegurarnos que Google las indice todas.

      En cuanto a la forma de establecer los hipertextos para enlazar páginas se debe rehuir totalmente de enlaces no-significativos como:

      • Para acceder al capítulo de "Sitios Web Óptimizados para Buscadores" Pulse aquí

      • También puede consultar el capítulo "Sitios Web Óptimizados para Buscadores"

      En su lugar se debe escribir un texto que de la idea más clara posible del contenido de la página enlazada, como en este ejemplo:

      También puede consultar el capítulo Sitios Web Óptimizados para Buscadores.

      De esta forma. GoogleBot puede asociar cada página HTML a una descripción de enlace. En realidad "Pulse aquí" no es específico, de manera que si hay varios en un site Google tendría que asociar varias páginas a un único texto, lo que no es posible.

      Google tiene asociadas 700.000 páginas para la cadena de texto "Pulse aquí" y más de 1.340.000 para la cadena "Haga click".


    • 2.7 Mapa del site con enlaces hipertexto:

      El Mapa del site, tan extendido a lo largo de la Web, es el mecanismo alternativo más sencillo y efectivo para:

      • Ayudar al usuario a entender nuestra arquitectura de contenidos y orientarse en los mismos.

      • Servir como herramienta alternativa de navegación, en muchos casos más intuitiva que algunos sofisticados menús dinámicos.

      • Y sobre todo, para establecer una página desde las que se referencien todas las demás del site mediante enlaces hipertexto, lo que nos va a garantizar que el "spider" de Google las vea, las siga y las indexe.

      Esto, claro está, siempre que:

      • El Mapa del site no se genere de forma dinámica por una aplicación al efecto: a Google se le dan mal las páginas dinámicas.

      • Los "links" del Mapa a las páginas sean hipertextos. Los conjuntos de iconos que representan carpetas abiertas, cerradas, documentos, etc. hacen el sitio visualmente muy atractivo pero Google no los sigue bien, a menos que estén acompañados de texto dentro del enlace.


    • 2.8 Incluir texto en "links" con imágenes. Atributos "title" y "alt" claros y precisos:

      Como se ha descrito en 2..6 Google sólo puede seguir "links" definidos mediante texto estático. Los que sólo incluyan un icono o una imágen los va a ignorar.

      En el caso de precisar asociar una imágen a un enlace, se solventa el problema asociando un texto dentro del enlace. Y siempre es preferible que aparezca antes dicho texto que la imágen:

      La noticia de hoy
      Aproximacion al funcionamiento de Google. Tecnicas para obtener mayor prioridad en las busquedas en Google

      <a class="pageLink" title="Aproximacion al funcionamiento de Google. Tecnicas para obtener mayor prioridad en las busquedas en Google" href="exitoGoogle.htm"> La noticia de hoy <br /><img src="images/webusable.gif" alt="Aproximacion al funcionamiento de Google. Tecnicas para obtener mayor prioridad en las busquedas en Google" border="0" /></a>

      El spider de Google no reconoce texto dentro de las imágenes, de manera que nos podríamos haber ahorrado el atributo alt="Aproximacion al funcionamiento de Google. Tecnicas para obtener mayor prioridad en las busquedas en Google".

      Sin embargo, el hecho de que GoogleBot no lo vea no quiere decir que no sea útil como parte del código HTML que establece el interfaz de usuario. De hecho los atributos:

      • ALT muestra texto alternativo en forma de "tool tip" para imágenes / formularios / applets.

      • TITLE muestra texto alternativo en forma de "tool tip" para muchos elementos HTML que lo admiten como links / lists / span / div ....

        Es especialmente útil en navegadores de voz que lo "declaman" al encontrarlo asociado a un elemento.

      • SUMMARY utilizado para describir la finalidad de tablas.

        También es muy útil en navegadores de voz que describen la tabla que encuentran según el contenido de este atributo.

      Tanto para Google, como para los usuarios del site, es muy importante utilizar tags ALT, TITLE, SUMMARY muy descriptivos del contenido del elemento al que van asociados. Se recomienda que incluyan alguna palabra clave de dicho contenido.


    • 2.9 Chequear que no existan enlaces rotos u obsoletos:

      En sitios con una larga vida el número de enlaces rotos:

      • Porque apunten a páginas que ya no existan (obsoletas)
      • Porque estén escritos con algún error o indiquen un "path" erróneo

      Suele sorprender a la mayoría de webmasters. Por cuidadoso que se sea, se suelen producir cada cierto tiempo.

      Existen herramientas para uso local, así como servicios gratuitos on-line que hacen chequeos bastante fiables de la integridad referencial de un site. Es muy recomendable pasar un chequeo de "broken links", bien periódicamente, bien cuando se realicen cambios substanciales en la arquitectura de páginas.

      Porque, como ya se ha explicado, GoogleBot indiza las páginas del sitio siguiendo los enlaces entre las mismas. Si encuentra uno roto puede perder la secuencia y dejar de indexar un número significativo de ellas, por lo que no aparecerán en las búsquedas de los usuarios.


    • 2.10 HTML bien formado:

      Cuando GoogleBot empieza a analizar una página, va "parseando" la estructura de la misma separando lo que es código HTML de lo que es contenido puro.

      Con dicho contenido, dependiendo ´de dónde lo haya encontrado, generará los metadatos, "keywords", "links", ec. que quedarán asociados a la página.

      Pero el hecho de encontrar HTML mal formado puede alterar todo el proceso de análisis sintáctico. Si por ejemplo se abre una lista con <ul>, GoogleBot va a seguir analizando la página en busca del tag de clausura </ul>, ya que no sabrá si todo el código a partir del último <li> pertenece al último item de la lista o está fuera de la tabla.

      Así va a perder la secuencia de análisis y la consecuencia más probable es que indexe mal la página o, directamente la ignore.

      Es pues muy importante hacer chequeos sintácticos de cada página previos a su puesta en producción, de manera que nos aseguremos que estén "HTML-well-formed" para garantizarnos el éxito con la araña de Google.

      Muchos editores de HTML ya incorporan validadores sintácticos, que son muy útiles para detectar incorrecciones que se le escapan al mejor maquetador. También hay servicios on-line que analizan el HTML de una página, con sólo indicarles la URL de la misma.


    • 2.11 No utilizar más de 100 hipervínculos por página:

      Esto es algo en lo que insiste Google: con seguridad no considera a partir del enlace 101 encontrado o, lo que es peor, ignore la página que tenga más de 100 "links".

      Y esto se contradice con su recomendación de utilizar Mapas del Site para facilitar el análisis de la arquitectura de páginas..Muchos sitios tendrán con seguridad más de esta cantidad tope de páginas.

      Pero la medida no es arbitraria. Con ella Google pretende lucharcontra las "link farms" generadas por los SEO's (Search Engine Optimizer) o por las comunidades de enlaces.

      En efecto, no es difícil montar una "página puerta" con todas las páginas de todos los "sites amigos" enlazadas por hipertexto: un anzuelo excelente para GoogleBot. Bien montada, puede empezar a analizar una por una y tragarselas todas sin dejar una.

      Y si por ejemplo el SEO tiene 30 sites amigos con una media de 50 páginas por site, con una sóla página se ha garantizado la indexación de 1.500 páginas.

      En el caso que tengamos más de 100 páginas en nuestro site, hay que buscar la forma de separar nuestro Mapa en varias partes, siguiendo una arquitectura usable y razonable. Y, por supuesto, enlazados por hipertextos.


    • 2.12 Evitar páginas dinámicas:

      Las páginas dinámicas son páginas que se generan "al vuelo" en el Web Server y son diferentes en función de ciertos parámetros propios de la lógica de la aplicación que las genera.

      Así, por ejemplo, mediante variables de sesión y "cookies" se puede grabar la historia de la navegación de cada usuario en el site, y presentarle en cada nueva visita la página de entrada a la sección que más le interesa.

      Básicamente se haría haciendo una petición al Web Server de una URL consistente en:

      • Una parte común que referenciaría la aplicación que gestiona las preferencias de los usuarios

      • Y una parte específica, identificada mediante un parámetro, que haría referencia a las preferencias de un usuario en concreto.

      Pues bien, en teoría Google indexa páginas dinámicas pero siempre que tengan pocos parámetros. Es decir, probablemente no va a tener problemas con una página del tipo:

      http://www.webusable.com/address/module.php?category=colours

      Ya que consta de una URL específica:

      http://www.webusable.com/address/module.php

      Con un único parámetro:

      category=colours

      Pero con seguridad va a desestimar una página lanzada por una URL más compleja, como por ejemplo:

      http://www.webusable.com/foros/index.php?p=topicsCategory&dane[kat]=2

      De manera que en términos de éxito de indexación de páginas por GogleBot, deberíamos de tratar de no lanzar páginas estratégicas de forma dinámica o, si no queda otro remedio, hacerlo con URL's lo más simplificadas posibles.


    • 2.13 Web Server con HTTP-Header "If-Modified-Since":

      Habilitando la cabecera "If-Modified-Since" en el Web Server permitimos que éste avise a GoogleBot qué páginas se han modificado y desde cuando, de manera que Google vuelva a indexarlas si la fecha de modificación es posterior a la del último rastreo de Google.

      De otra forma, sí por ejemplo la Home Page no ha cambiado, es muy probable que GoogleBot no considere rastrear el sitio a la búsqueda de alguna página modificada.


    • 2.14 Configurar correctamente el fichero "robots.txt" del Web Server:

      El fichero robots.txt del Web Server indica a los "spiders" de los buscadores qué directorios deben rastrearse y cuales no.

      La no inclusión de un directorio con páginas en este fichero puede hacer que GoogleBot lo desestime y no indexe nada de su contenido.

      De otra parte, la inclusión de un directorio no indizable, por ejemplo de imágenes, puede hacer qe el agente se bloquee y de problemas en la indexación del resto del site.

      Con cada inclusión, borrado o modificación de una nueva carpeta en el Web Server, se debería revisar la configuración de "robots.txt".

      (Más información sobre "robots.txt" en http://www.robotstxt.org).

Capítulos:
Técnicas para optimizar la valoración de Google Prácticas éticamente incorrectas penalizadas por Google Capítulo siguiente

Temas relacionados: Óptimizar para Buscadores | PageRank en Google

 
 
WebUsable.com © Todos los derechos reservados.
Subir al inicio de página Página anterior Página Inicial de WebUsable Imprimir esta página Envía tus comentarios Recomienda esta página a un amigo Mapa de WebUsable