Cбор статистики из log-файлов

1. Введение
2. Инструменты сбора статистики
3. Скрипт для сбора статистики из log-файлов
4. Заключение

1. Введение

Статистика – это наука, требующая внимания, времени и терпения. Но то, что в Интернете (а в частности, в Рунете) называют «статистикой веб-сайтов», к науке пока отношение имеет только косвенное. Администраторы сайтов время от времени посматривают на хиты и хосты, радуются, когда подобные показатели возрастают, и удивляются, – когда снижаются.

Однако сегодня Интернет-статистика – очень мощный инструмент, который при правильном использовании сможет помогать Вашему бизнесу. Недаром многие иностранные фирмы, предоставляющие подобные сервисы, гордо называют их «EBusiness Intelligence Products».

В Рунете с Интернет-статистикой сложилось довольно-таки странная картина (прежде всего, это относится к коммерческим проектам, корпоративным сайтам). Одни при слове «статистика» недоуменно пожимают плечами. Другие утверждают, что, кроме счетчика HotLog, им ничего и не надо. Третьи заказывают дорогие статистические online-системы только для внутреннего использования, просматривают графики и отчеты, не делая при этом никаких существенных выводов. Некоторые же используют статистические отчеты для того, чтобы понять, что еще можно улучшить в предоставляемых сервисах, переносят опыт в offline, анализируют эффективность маркетинговых акций.

2. Инструменты сбора статистики

Счетчики. Пожалуй, самый известный и популярный в настоящее время способ получить сведения о посетителях Интернет-ресурса. Количество подобных счетчиков (порою объединенных с рейтингами) исчисляется десятками. Среди них можно выделить несколько лидеров: HotLog, SpyLOG, Liveinternet, Rating@Mail\.ru, Rambler’s Top100 и некоторые другие.

Нестандартные счетчики. Существует ряд систем, которые пытаются интерпретировать статистические данные не совсем обычным способом. Среди таких систем – Netvertising и IntelliMetr. Специфика первой в том, что она объединяет данные, полученные от счетчиков, с данными анкет, регистраций и т.п. Специфика второй – в бизнес-подходе: сервис предоставляет информацию о продажах, регистрациях, эффективности работы партнеров – обо всем, что интересует маркетологов.

Анализаторы log-файлов. Принцип работы этих систем – в анализе стандартной информации, накапливаемой в файлах журнала любого веб-сервера. Наиболее популярным бесплатным анализатором является Analog.

Собственная система статистики. Для большинства коммерческих проектов подобная система является оптимальным вариантом. Это – не самое дешевое решение, но позволяющее реализовать практически все ваши мысли и пожелания. Однако для создания подобной системы потребуется немалый опыт, а также довольно длительный период для устранения ошибок и недочетов созданной системы.

Более подробную информацию об Интернет-статистике можно найти на сайте Oborot.rU.

3. Скрипт для сбора статистики из log-файлов

Итак, мы рассмотрели основные инструменты для сбора статистики в Интернете. Со счетчиками все просто: зашли на интересуемый сайт, предоставляющий подобный сервис, зарегистрировались и можно «пользоваться».

С программами-анализаторами немного сложнее: если на приобретение программного обеспечения требуется сравнительно малое время и небольшие затраты, то для освоения потребуется достаточно длительное время (а порою и дополнительные затраты).

Создание же собственной системы статистики для многих – совершенно неприемлемый вариант: существенные временные и материальные затраты на реализацию подобного проекта могут совершенно не окупиться, поэтому позволить подобное могут лишь большие корпоративные сайты.

Что же делать маленьким и беззащитным, но гордым и принципиальным? Можно попробовать создать собственную небольшую систему статистики – своеобразный гибрид программы-анализатора и счетчика. Подобную систему всегда будет просто подстроить под себя, постоянно совершенствуя и дополняя ее новыми возможностями.

Для решения поставленной задачи напишем скрипт, позволяющий собирать статистику из log-файлов произвольного веб-ресурса.

Сразу стоит сказать, что форматы log-файлов на различных сайтах зачастую отличаются друг от друга. Поэтому для использования приведенного ниже скрипта в собственных целях необходима его достаточно простая корректировка (регулярного выражения, интересуемых User-Agent и т.д.).


html>
head>
  title>Сбор статистики из log-файловtitle>
 
В 



* {
В  font-family: Arial, Helvetica, sans-serif;
В  font-size: 12px;
}



function ip_st(state)
{
В  if (document.all)
В  {
В В В  document.all.ip.disabled = state;
В В В  document.all.req_ip.disabled = state;
В  }
В  else
    if (document.getElementById) // Для Netscape/Mozilla
В В В  {
В В В В В  document.getElementById('ip').disabled = state;
В В В В В  document.getElementById('req_ip').disabled = state;
В В В  }
}

function cd_st(state)
{
В  if (document.all)
В  {
В В В  document.all.code.disabled = state;
В В В  document.all.req_code.disabled = state;
В  }
В  else
    if (document.getElementById) // Для Netscape/Mozilla
В В В  {
В В В В В  document.getElementById('code').disabled = state;
В В В В В  document.getElementById('req_code').disabled = state;
В В В  }
}

function ua_st(state)
{
В  if (document.all)
В  {
В В В  document.all.user_agent.disabled = state;
В В В  document.all.req_user_agent.disabled = state;
В  }
В  else
    if (document.getElementById) // Для Netscape/Mozilla
В В В  {
В В В В В  document.getElementById('user_agent').disabled = state;
В В В В В  document.getElementById('req_user_agent').disabled = state;
В В В  }
}



В 
В В В 

В В В  ">
В В В 

В В В 


В В В 
В В В 

(Голосов: 5, Рейтинг: 5)