¿Cómo configurar una página web?

Actualizado: 01 abr 2017 Versión: 4.7.5 Nivel: Medio

Para tener una página web correctamente configurada, además de los archivos básicos para su funcionamiento, es necesario añadir algunos archivos adicionales que ayudarán a la puesta en marcha de la web en el servidor e indicarle a Google que es lo que tiene que indexar de una página web.

1. El archivo .htaccess

El archivo htaccess.txt es un documento de texto especial que comenzó a usar Apache desde sus inicios y se utiliza para configurar una página web en el servidor mediante instrucciones. Se puede modificar mediante el editor de texto de Windows o cualquier otro programa para editar texto como Notepad++.

El uso de este archivo es muy extenso y va desde la restricción de seguridad en directorios hasta el control de la caché del servidor. En este artículo te voy a hablar de los 3 usos más comunes que puedes darle a este archivo para tener tu web configurada correctamente.

En un servidor remoto, para que el archivo htaccess.txt funcione correctamente es necesario renombrarlo como .htaccess.

a. Código de WordPress

Una vez instalado WordPress en un servidor remoto, dirígete a Ajustes >> Enlaces permanentes. En “Ajustes comunes” selecciona “Nombre de la entrada” y automáticamente WordPress asignará el texto /%postname%/ en el campo “Estructura personalizada”. Adicionalmente, WordPress creará el archivo .htaccess en el servidor con el siguiente código:

# BEGIN WordPress
<IfModule mod_rewrite.c>
RewriteEngine On
RewriteBase /
RewriteRule ^index\.php$ - [L]
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule . /index.php [L]
</IfModule>
# END WordPress

Con estas líneas de código ya se ha configurado el uso de WordPress para URL’s amigables.

b. Redirección del dominio sin www o con www

Esta regla se utiliza para forzar el uso del dominio con o sin las www. Esto es muy recomendable y “casi obligatorio” hacerlo ya que Google actualmente detecta las páginas con www y sin www como dos páginas diferentes y para el posicionamiento SEO lo considera como contenido duplicado siendo muy penalizable.

Si quieres tú dominio sin www (http://tudominio.com/) añade el siguiente código en .htaccess:

RewriteEngine on
RewriteCond %{HTTP_HOST} .
RewriteCond %{HTTP_HOST} !^www.tudominio.com\.com
RewriteRule (.*) tudominio.com/$1 [R=301,L]

Si quieres tú dominio con www (http://www.tudominio.com/) añade el siguiente código en .htaccess:

RewriteEngine on
RewriteCond %{HTTP_HOST} ^tudominio.com [NC]
RewriteRule ^(.*)$ http://www.tudominio.com/$1 [L,R=301]

Aunque algunos programadores suelen recomendar el uso del dominio sin www por ser la URL más corta, a mi en lo personal me gusta con www. Desde mi punto de vista creo que es algo relativo y a gusto de cada quien ya que por los momentos no he encontrado diferencias con el uso de esta regla en sus dos variantes.

c. Redirección de una página interna

Otro de los motivos de penalización por parte de Google es el típico error 404. Este error es generado por algún fallo humano al momento de añadir un enlace en un texto y otras veces por alguna página interna que ha dejado de existir.

Para solventar este fallo y evitar ser penalizados por Google existe el redireccionamiento 301 que se puede configurar en .htaccess (solo para servidores que funcionen con Apache) añadiendo el siguiente código:

# Redireccion 301
redirect permanent /pagina-vieja/ http://www.tudominio.com/pagina-nueva/

(Si estás usando el redireccionamiento del dominio con www)

# Redireccion 301
redirect permanent /pagina-vieja.html http://tudominio.com/pagina-nueva/

(Si estás usando el redireccionamiento del dominio sin www)

En el formato .txt el símbolo “#” se utiliza para añadir comentarios. La primera línea, #Redireccion 301, es solo un comentario que indica lo que la siguiente línea de código va a hacer. Puedes buscar en Google más información sobre el archivo .htaccess para ver que otro tipo de funciones te puede brindar para configurar tu página web.

2. El archivo robots.txt

Este es un fichero de texto que se utiliza para configurar una página web y se aloja en la raíz del servidor para indicarle a los buscadores cuales son los “bots” que tienen acceso a rastrear la web y cuáles no. A diferencia del archivo .htaccess el archivo robots se aloja sin ser renombrado, es decir, el archivo tendrá el nombre robots.txt.

Los buscadores o “crawlers” son básicamente robots que acceden a los sitios webs para buscar información en ellas, indexarlas y mostrarlas luego en sus resultados de búsqueda.

Los robots más utilizados son:

  • Googlebot: Es el nombre del crawler para el buscador de Google.
  • Mediapartners-Google: Es el crawler de Google encargado de comprobar un página de destino como una Landing Page.
  • Adsbot-Google: Es el crawler de Google encargado de revisar los anuncios de AdWords.
  • Googlebot-Image: Es el robot que indexa las imágenes en Google.
  • Bingbot: Es el crawler encargado de indexar las páginas de Bing.

La regla más básica para permitir a todos los robots rastrear una página viene dada por:

User-agent: *
Disallow:

El * significa que se le permite la entrada a cualquier robot. Si solo deseas permitir el acceso a uno en específico, sustituye el * por el nombre del robot:

User-agent: Googlebot
Disallow:

Si quieres restringir el rastreo de cualquier robot a tu web o a un directorio en concreto, escribe el nombre de este directorio a continuación de Disallow:

User-agent: *
Disallow: / (Se restringe el rastreo a todo tu sitio)
User-agent: *
Disallow: /cgi-bin/ (Se restringe el rastreo al directorio /cgi-bin/)

Es posible combinar varias instrucciones Disallow para un mismo robot pero nunca se podría combinar la instrucción que restringe a todo el sitio con un directorio a la vez:

User-agent: Googlebot
Disallow: /cgi-bin/
Disallow: /css/
Disallow: /js/
Disallow: /template/

Una instrucción adicional que puedes añadir al archivo robots.txt es el sitemap:

Sitemap: http://www.tudominio.com/sitemap.xml

Uniéndolo todo en un solo archivo robots.txt, típico en una instalación de WordPress, quedaría de la siguiente manera:

User-agent: Googlebot
Disallow:

User-agent: Adsbot-Google
Disallow:

User-agent: Mediapartners-Google
Disallow:

User-agent: Googlebot-Image
Disallow:

User-agent: Bingbot
Disallow:

User-agent: *
Disallow: /cgi-bin/ (Algunos servidores lo suelen incluir)
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php

Sitemap: http://www.tudominio.com/sitemap.xml

3. Sitemap de Google

El sitemap.xml es un archivo que se utiliza para configurar una página web en el que se indican, mediante un formato específico, todas las páginas que componen tu sitio y que quieres que sean indexadas.

Este archivo, aunque no es obligatorio, es muy recomendable crearlo ya que, si no existe o no se indica lo contrario en el archivo robots.txt, los buscadores indexarán todo lo que encuentren en tu sitio web y en un futuro es posible que tengas problemas de indexación y errores 404.

El formato básico para la creación de un sitemap.xml viene dado por:

<urlset xmlns="http://www.google.com/schemas/sitemap/0.9">
<url>
<loc>http://www.tudominio.com/</loc>
<priority>1.0</priority>
<lastmod>2017-05-01</lastmod>
<changefreq>monthly</changefreq>
</url>
<url>
<loc>http://www.tudominio.com/pagina01/</loc>
<priority>0.9</priority>
<lastmod>2017-05-01</lastmod>
<changefreq>monthly</changefreq>
</url>
<url>
<loc>http://www.tudominio.com/pagina03/</loc>
<priority>0.9</priority>
<lastmod>2017-05-01</lastmod>
<changefreq>monthly</changefreq>
</url>
<url>
<loc>http://www.tudominio.com/pagina03/</loc>
<priority>0.9</priority>
<lastmod>2017-05-01</lastmod>
<changefreq>monthly</changefreq>
</url>
.
.
.
</urlset>

Cuando tienes una página web, es muy recomendable darte de alta en Google Search Console ya que te permitirá mantener tu web correctamente configurada y te avisará de posibles errores. Esta herramienta cuenta con un apartado para dar de alta el sitemap.xml de tu página web. Incluso tienes la posibilidad de crear varios sitemap si tu web es muy extensa y dividirlos en categorías, pdf, videos o como mejor lo prefieras.

Conociendo estas 3 técnicas fundamentales, podrás configurar una página web correctamente sin cometer errores. Estas técnicas son de gran utilidad y muy sencillas de implementar. Aunque ninguna es obligatoria, es muy recomendable crearlas y configurarlas correctamente para el buen funcionamiento de tu página web.

¿Te ha gustado?

Valora este artículo: 1 punto2 puntos3 puntos4 puntos5 puntos (7 votos, promedio: 4,43 de 5)

Deja un comentario si tienes alguna duda o comparte como ha sido tu experiencia.

COMPARTE ESTE ARTÍCULO EN...

¿QUIERES APRENDER WORDPRESS DESDE CERO?

Suscríbete y recibe información para crear tu propia página web con WordPress.