machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

Визуализация данных результатов соревнований элитных пловцов (часть 1 - наборы данных)

Дата публикации Jun 18, 2017

Этот пост является первой частью производственных заметок для проекта по визуализации данных, «История пловцов».

История пловцов

Визуализация данных результатов соревнований элитных пловцов на крупных соревнованиях по плаванию. Исследуйте +1500 истории пловцов ...

tany.kim

Плавание - это мой давний интерес, и я всегда хотел сделать визуализацию данных. Недавно (читай: год назад :-)) нашелотличный сайтэто дает результаты многочисленных встреч по плаванию, и я попытался поиграть с информацией с сайта. В этом посте я обсуждаю, как яудаленные защищенные HTML-страницы (с R), извлечь полезные данные точек и, наконец,генерировать оптимальные наборы данных для визуализаций (с Python), С помощью наборов данных я разработал визуализации, позволяющие пользователям выбирать соревнования по плаванию / события и фильтровать гонки по пловцам. Таким образом, я включил дизайн компонента пользовательского интерфейса дляфильтрация данных (восстановление подмножеств данных) на внешнем интерфейсе, Я также немного расскажу о мире плавания для лучшего понимания собранных наборов данных.

Интересные данные о плавании

Среди многочисленных веб-страниц SwimRankings.net я сосредоточился на международных соревнованиях, на которых стремятся соревноваться элитные пловцы. В настоящее время на сайте доступны полные результаты крупных соревнований с 2007 года.

Пять главных встреч по плаванию

В период с 2007 по 2016 год охвачено всего 17 встреч.

Олимпийские события

Плавательные мероприятия в основном делятся на два - индивидуальные и командные. Для этого проекта я включил события, которые представлены на Олимпийских играх. Например, гонки на спине и брассе на короткой дистанции (50 м) проводятся на чемпионатах мира, но не на Олимпийских играх. Между расами мужчин и женщин нет идеальной симметрии; самый длинный свободный стиль для мужчин - 1500 м, тогда как женщины соревнуются на 800 м.

Набор данных включает в себя только финальные гонки, которые делаютвсего 544 гонки (16 соревнований X 2 пола X 17 встреч), Вот список событий в наборе данных, который я использую.

  • Индивидуальный фристайл: 50 м, 100 м, 200 м, 400 м, 800 м (только для женщин), 1500 м (только для мужчин)
  • Индивидуальный ход на спине: 100 м, 200 м
  • Индивидуальный брасс: 100м, 200м
  • Индивидуальная бабочка: 100м, 200м
  • Индивидуальная смесь: 200м, 400м
  • Командный фристайл: 4 х 100 м, 4 х 200 м
  • Комбинация команд: 4 х 100 м

Утилизация защищенных HTML-страниц с помощью R

На исходном веб-сайте каждое событие отображается на одной странице, которая идентифицируется параметрами с идентификатором встречи, полом и идентификатором стиля (события) после одной и той же базы URL. Например, URL-адрес страницы «Рио-Олимпик 2016» (знакомый) мужчина (пол), 50-метровый фристайл (стиль) URL выглядит следующим образом:

page=meetDetail&meetId=596227&gender=1&styleId=16

Для получения идентификатора 17 встреч я проанализировал страницу метаинформации каждой встречи (например,Страница олимпиады) потому что на этих страницах есть гиперссылки на указанные выше URL.Гарантированный способ получения правильных значений индекса заключается в проверке исходного кода.На странице Олимпиады часть, на которой я сосредоточился, находится здесь:

Часть, которую я осмотрел на информационной странице Олимпиады.
Ссылка на конкретную встречу имеет идентификатор встречи

Проверка кода показывает идентификационный номер каждой олимпийской игры. Кроме того, из этого источника я проследил названия стран и городов, в которых они находятся.

В раскрывающемся меню стилей отображаются идентификаторы стилей.

Теперь у нас есть все идентификаторы встреч. ID стилей собираются вручную из проверки кода