5 características más infravaloradas de Oncrawl

¿Eres un experimentado Oncrawler que cree conocer la plataforma como la palma de su mano? O bien, ¿te has asociado recientemente con nosotros y estás buscando consejos de iniciación para arrancar? Como parte del equipo CSM de Oncrawl, tengo una visión particular sobre las herramientas de la plataforma que he notado que son visitadas con menos frecuencia. Así que, independientemente de tu situación, aquí tienes un resumen de mis 5 características más infravaloradas de Oncrawl que puede que hayas pasado por alto o que simplemente no conozcas todavía.

Campos personalizados (raspado de datos)

Una rápida recapitulación sobre los campos personalizados en Oncrawl, ofrecemos dos métodos para el scraping, XPath y Regex. Y antes de ir más lejos, si necesita una mirada más profunda en el raspado web, la extracción de datos de los sitios web, echa un vistazo a este artículo que repasa sus útiles funciones.

Ahora las características de los campos personalizados no son necesariamente innovadoras, pero lo que es increíblemente conveniente es la capacidad de utilizar una mezcla de Regex y XPath en lugar de estar limitado a un método.
Para decirlo simplemente, Regex y Xpath son métodos para encontrar cosas. En lugar de hacer búsquedas individuales de texto, puedes hacer una búsqueda basada en un patrón. Digamos que quieres identificar el mes en este texto, «Septiembre, 21», en lugar de buscar «Septiembre», con Regex puedes usar w+ para recoger el carácter de la palabra. Mientras que Xpath le permite mostrar elementos de texto de un documento XML o HTML. En este caso, digamos que quieres mostrar el contenido dentro del elemento div, empezarás con //div[@class and so on. In some cases you just want to display the content, in others you want to identify a specific pattern, but sometimes you need a mix of both.

For example, let’s say I want to scrape the price for all product items on a site. In my first rule, I’m using XPath and you can see that I’m pulling the raw data to verify that I’m picking up the pricing element:

RECOMENDADO  Revisión de Fastpages - Precios y características 2021


Then, I use Regex for my second rule to only pick up any element until the quotation mark, in this case, the pricing: content=”([^”]+):

Hace que la creación de reglas de raspado sea un poco más rápida y fácil. Y si aún no te sientes cómodo con ninguno de los dos métodos tenemos un buen artículo aquí con algunos consejos.

Filtros personalizados en el Explorador de Datos

¿Alguna vez se ha encontrado en el Explorador de Datos tratando de recordar los filtros que utilizó con el Lenguaje de Consulta de Oncrawl? O tal vez cada vez que estás allí siempre estás usando manualmente el OQL para filtrar a través de las páginas rastreadas y añadir cada columna relevante una por una. Pues bien, podría ahorrarse un tiempo precioso utilizando la función de filtros personalizados, que está convenientemente situada a la derecha de las opciones del DataSet:

Tiene la opción Quickfilters que está compuesta por consultas comunes, y cada filtro personalizado que guarde se añadirá en la sección «Filtros propios» donde podrá recuperar fácilmente las páginas que busca. Esto puede hacerse para todos los conjuntos de datos disponibles, por defecto tendrá Páginas y Enlaces, pero si tiene activada la Monitorización de Registros en su suscripción verá la opción de Monitorización de Registros: Páginas, y Monitorización de Registros: Eventos.

Todo lo que tiene que hacer es usar el OQL para filtrar las páginas, aquí estamos viendo las páginas activas de SEO para el 18 de agosto, específicamente para el grupo de páginas del Blog:

Y luego puedes usar el menú desplegable («ADD COLUMNS») para añadir las métricas relevantes a tu búsqueda:

A continuación, haz clic en «GUARDAR FILTROS» para guardar tu filtro personalizado y estará disponible en «Filtros propios»


Alerta de registro/notificaciones

Una adición reciente a nuestras actualizaciones de funciones para 2021 que puede pasarse por alto es la opción de activar las alertas de registro – Es una gran manera de estar al tanto de cualquier problema de procesamiento con sus registros. Así que en lugar de esperar a descubrir un problema con cualquier depósito cuando se conecte a la plataforma, active la alerta de registro para hacerle saber cuando los registros no se han depositado recientemente, o lo que se deposita no se considera útil.

RECOMENDADO  ¿Cuánto tiempo se tarda en escribir una entrada de blog?

Es bastante sencillo de utilizar, diríjase a su proyecto que tiene la monitorización de registros activada y haga clic en la pestaña «Herramientas del gestor de registros»:

Una vez que esté en el informe de Log Manager Tools, haga clic en «Configurar notificaciones»:

Desde aquí podrá habilitar las notificaciones y definir un umbral para cuando deba ser contactado si no hay líneas útiles o no se han depositado nuevos archivos.

Esto puede suponer un ahorro de tiempo a la hora de descubrir qué es exactamente lo que ha fallado en algunos depósitos, lo que te acerca mucho más a tener los informes actualizados antes.

Herramientas del Gestor de Registros

Ya que estamos en el tema de los registros, parece apropiado mencionar que el informe de las Herramientas del Administrador de Registros es otra gran área de la plataforma que a menudo no se utiliza tan a menudo como podría ser. Es un pequeño y agradable centro escondido en el nivel de proyecto que se compone de los detalles sobre lo que exactamente se está depositando, en lo que respecta a los archivos de registro.

Cuando entras, no sólo vas a ver los archivos exactos que han sido depositados, verás la fecha y hora exacta de cada depósito, el desglose de cada tipo de línea de registro (OK, filtrada, errónea), un gráfico que monitorea la cantidad de hits de bots falsos detectados por fecha de depósito, y puedes ver un desglose de la calidad de los registros depositados y la distribución de líneas útiles.

Es un gran lugar para comprobar la calidad de los depósitos de archivos, por ejemplo, asegurándose de si los archivos están comprimidos, si realmente está depositando es líneas relacionadas con el SEO, como en las visitas orgánicas y golpes de bot, y la verificación de la frecuencia de los depósitos.

RECOMENDADO  La nueva tecnología de Google para las consultas complejas

Si usted comienza a notar algo extraño con sus reportes de registro un gran lugar para comenzar su investigación es en las Herramientas del Administrador de Registros. Es posible que descubra que el formato de la línea de registro ha cambiado y nuestro equipo de Éxito del Cliente necesita actualizar el analizador, o tal vez note que el nombre del cubo ha cambiado y necesita enviarnos nuevas credenciales. En cualquier caso, siempre puede echar un vistazo y ponerse en contacto con nosotros si necesita ayuda para profundizar.

Segmentaciones personalizadas

Por último, pero no menos importante, nuestra más reciente adición a nuestro arsenal, ¡Segmentaciones personalizadas! Ahora tenemos una colección de plantillas de segmentación para inspirar a los nuevos en Oncrawl que nunca han trabajado en una segmentación, o para hacer el desarrollo de una un poco más suave.

Un rápido repaso a las segmentaciones, son esenciales para el desarrollo ya que se quiere saber qué parte del sitio se está viendo al inspeccionar los resultados del rastreo. Pueden ser tan simples como agrupar páginas por la primera ruta en la URL, o pueden ser tan específicas como agrupar páginas por un rango de sesiones de GA.

Además de las plantillas que ahora le dan una pequeña orientación sobre por qué debe usarlas, también tendrá múltiples plantillas disponibles según los conectores de datos externos que configure para el proyecto.

Así, si tienes datos de registro, tendrás una sugerencia de plantilla para Visitas SEO o visitas de bots, y si tienes conectado Google Search Console verás la opción de crear una segmentación basada en Posiciones o Páginas de Ranking.

Depende de ti cómo quieras ver el sitio, nosotros estamos aquí para hacerlo un poco más fácil. Así que adelante, pruébalo y dinos lo que piensas.