Invest-currency.ru

Как обезопасить себя в кризис?
0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Данные для анализа

Лучшие бесплатные источники наборов данных для анализа

Сбор высококачественных данных представляет собой важную часть любого анализа данных или проекта по машинному обучению. В целях экономии вашего драгоценного времени команда WebDataRocks подготовила тщательно отобранный список бесплатных репозиториев с реальными данными, готовыми к использованию в проекте.

Socrata OpenData

Одна из крупнейших и наиболее мощных поисковых систем, в которой размещены тысячи наборов данных по таким темам, как финансы, инфраструктура, транспорт, окружающая среда, экономика и общественная безопасность. Все наборы данных категоризированы с помощью алгоритмов машинного обучения.

Помимо этого, Discovery API от Socrata OpenData предоставляет способ получения доступа ко всем общедоступным данным с платформы. Еще одна отличительная особенность для разработчиков заключается в том, что вызовы API возвращают вложенные объекты JSON, которые легко понять и проанализировать.

Здесь можно найти множество примеров визуализации данных и кратких руководств для проведения интерактивного исследования с помощью диаграмм, а также врапперы для получения доступа к функциям Socrata OpenData из различных серверных языков.

Если вы хотите внести свой вклад в данный проект, прочитайте руководство по публикации.

Kaggle

Kaggle является самой большой платформой и сообществом по науке о данных, которая поражает разнообразием наборов данных, соревнований и примеров проектов. Помимо образовательных целей, она предоставляет возможность получить финансовое вознаграждение в соревнованиях, проводимых компаниями, которые стремятся к лучшему пониманию данных. Однако главная цель этих соревнований — исследование области науки о данных, а не завоевание первых мест.

Следует отметить, что этот ресурс содержит в основном чистые данные, особенно если они является частью соревнования. Наборы данных можно искать по различным тегам.

Вы можете испытать свои силы в следующих открытых соревнованиях:

Или попробуйте создать визуализации и модели ML вокруг следующих наборов данных:

FiveThirtyEight

Заинтересованы в data-driven статьях и графиках, созданных авторами блога FiveThirtyEight? Загляните в данные, которые лежат в основе визуализаций. Загрузить данные можно из online-коллекции данных или из репозитория GitHub.

Большинство визуализаций, которые можно найти здесь, являются интерактивными. Попробуйте создать собственный вариант анализа и визуализации.

Репозиторий UCI

Обширная платформа, которая содержит наборы данных для решения задач машинного обучения. Это классическое место для начала путешествия в мир машинного обучения, которое поддерживается Национальным научным фондом. Для каждого набора данных указано его задание по умолчанию, типы атрибутов, типы данных и другие функции. Несмотря на небольшие размеры многих наборов данных, они отлично подходят для выполнения образовательных проектов.

ProPublica

Эта американская некоммерческая организация известна тем, что предлагает универсальное хранилище данных, которое охватывает вопросы здравоохранения, уголовного правосудия, образования, политики, бизнеса, транспорта и финансов. Помимо этого, данные часто обновляются.

Коллекция содержит как платные, так и бесплатные наборы данных. Платные наборы данных, в свою очередь, доступны по академическим, коммерческим, студенческим и журналистским лицензиям.

ProPublica также предоставляет пять API для упрощения получения данных.

Искали возможности создать собственный проект, но не знали, с чего начать?

Тогда не упустите отличный шанс улучшить навыки исследования и анализа на Yelp — еще одной платформе, которая предоставляет готовые к использованию данные и поддерживает как новичков, так и опытных специалистов по науке о данных в решении проблем.

Здесь можно не только принять участие в соревнованиях, но и выиграть денежные призы.

После загрузки и воспроизведения данных можно отправить на рассмотрение собственный проект, заполнив заявку. Он может быть представлен в любом формате, подтверждающим использование данных.

Не проходите мимо — это место подходит не только для студентов. Не стесняйтесь участвовать в испытаниях, раскройте свои таланты.

InsideAirbnb

Сервис данных, созданный и поддерживаемый компанией Airbnb. Он содержит уникальную коллекцию данных Airbnb, категоризированных по регионам и странам. Здесь можно просматривать данные по определенному городу и исследовать информативные отчеты с креативными визуализациями.

data.world

Открытое сообщество data.world является настоящим сокровищем для тех, кто увлечен анализом данных. В коллекции доступно более 450 наборов данных на любой вкус и для любых целей. Большинство из них требуют выполнения очистки, а очистка данных является важным этапом любого проекта по науке о данных.

Наборы данных охватывают такие темы, как финансы, преступность, экономика, образование, перепись, образование, окружающую среда, энергетика, спорт, НАСА и многие другие.

Зарегистрироваться очень легко — просто используйте учетную запись GitHub для получения доступа ко всем наборам данных.

Работа с данными также не вызывает затруднений — вы можете писать SQL-запросы через интерфейс сайта, использовать SDK для Python или R или просто загружать файл данных.

Data Hub: Collections

Богатый каталог данных, содержащий наборы данных по различным темам: экономика, климат, образование, логистика, здравоохранение и многие другие. На странице набора данных есть встроенные визуализации, созданные с помощью Plotly, предоставляющие краткий обзор тенденций в мире данных.

Если вы не можете найти необходимые данные, сделайте бесплатный запрос на них.

Вас поразит множество способов интеграции набора данных в используемый инструмент. Здесь есть фрагменты кода, которые показывают, как использовать данные с R, Pandas, Python, JavaScript, cURL и data-cli. Кроме того, можно просто загрузить наборы данных CSV или JSON.

Quandl

Платформа с финансовыми и экономическими данными, помогающими в разработке data-driven стратегий. Здесь можно найти бесплатные и предварительно оплаченные наборы данных. Для извлечения данных Quandl предоставляет бесплатный API, работающий как единый интерфейс. Также можно получить доступ к данным из Python, R и Ruby с помощью модулей и пакетов. Кроме того, здесь доступна надстройка для Excel.

NASA datasets

Увлечены космическими проектами?

Тогда этот репозиторий создан специально для вас. Здесь содержатся данные по астрофизике, гелиофизике, исследованиям Солнечной системы и ресурсы изображений.

Wikipedia

Удивлены, увидев Википедию в списке? Да, ее можно использовать не только в образовательных целях. Википедия также предлагает способы загрузки и запроса данных. Узнать подробности можно в этом руководстве.

Читать еще:  Системный анализ магазина

The World Bank

Огромный репозиторий, который предоставляет бесплатный доступ к данным по глобальной разработке. Вы можете искать наборы данных по странам, регионам и экономическим или демографическим показателям.

С помощью online-инструментов визуализации можно исследовать данные в интерактивном режиме с помощью диаграмм, таблиц, карт, создавать отчеты, выполнять стилизацию и многое другое. Наборы данных доступны в виде файлов CSV, XML и Excel.

Data.gov

Репозиторий открытых наборов данных от правительственных учреждений США по таким темам, как климат, потребители, образование, экосистемы, энергетика, финансы, производство, наука.

Наборы данных доступны для публичного использования, но иногда необходимо принять лицензионное соглашение перед загрузкой.

Еще одна замечательная особенность заключается в возможности отправлять истории использования данных и принимать участие в различных соревнованиях.

Pew Research Center

Исследовательский центр Пью (Pew Research Center) известен публикацией отчетов об исследованиях и различных видов анализа. Его исследователи предоставляют наборы данных, лежащие в основе докладов, в открытый доступ для общественности. Многие из наборов данных предоставляются в виде файлов .sav, поэтому вам потребуются навыки использования SPSS или R. С их помощью можно находить религиозные, политические, социальные, журналистские и медийные тенденции.

Google Dataset Search

Dataset Search — это мощная поисковая система, предоставляющая удобный интерфейс, через который можно получить доступ к миллионам наборов данных со всего мира. Этот относительно новый продукт от Google уже одобрен учеными, журналистами и студентами. Здесь можно найти научные, социальные, экологические или правительственные данные, объемы которых постоянно растут.

После выполнения запроса данных появится список репозиториев, из которых их можно скачать.

Чтобы опубликовать собственные данные, следуйте этим рекомендациям.

Хотите попрактиковаться в анализе больших данных?

Google Public Datasets

Посетите каталог Cloud Public Datasets Program, в котором можно найти большие наборы данных. Все они хранятся в BigQuery и доступны через Cloud Public Datasets Program. Несмотря на необходимость платить за выполняемые с данными запросы, вы можете воспользоваться 1 ТБ бесплатных запросов.

AWS Public Datasets

Выполнить поиск наборов данных с платформы Amazon Web Services можно через реестр открытых данных. Наборы данных находятся в открытом доступе. Здесь также можно найти множество интересных случаев использования. Они охватывают детали использования данных организациями, внедрения рекомендованных систем, прогнозирования цен на акции и т. д.

Помимо этого, вы можете внести свой вклад, поделившись данными в AWS.

Для начала работы с данными просто загрузите их или получите доступ из облака с помощью EC2 или Hadoop.

Academic Torrents

Распределенная система, которая содержит более 45 ТБ данных для исследований. Обратите внимание на условия лицензионного соглашения — большинство наборов данных разрешено использовать в некоммерческих и образовательных целях.

Список популярных наборов данных:

Для получения более полного списка наборов данных, перейдите на эту страницу GitHub.

Надеемся, что вы найдете свой идеальный набор данных для проведения data-driven исследований и удовлетворения интереса к тенденциям в определенных областях нашей жизни.

Желаем удачи в выполнении проектов по анализу данных и машинному обучению!

Готовим данные для анализа правильно

В задачах машинного обучения качество моделей очень сильно зависит от данных.
Но сами данные в реальных задачах редко бывают идеальными. Как правило, самих данных не много, количество доступных для анализа параметров ограничено, в данных шумы и пропуски. Но решать задачу как-то нужно.

Я хочу поделиться практическим опытом успешного решения задач машинного обучения. И дать простой набор шагов, позволяющих выжать из данных максимум.

Решение задач анализа данных состоит из двух больших этапов:

  1. Подготовка данных.
  2. Построение на подготовленных данных моделей.

На практике, качество итоговых моделей намного сильнее зависит от качества подготовленных данных, чем от выбора самой модели и её оптимизации.

Например, XGBoost может дать улучшение качества модели порядка 5% по сравнению со случайным лесом, нейронная сеть до 3% по сравнению с XGBoost. Оптимизации, регуляризация и подбор гиперпараметров может ещё добавить 1-5%.

Но просто добавив информационные признаки, извлечённые из тех же данных, которые уже есть, можно сразу получить до 15% прироста качества модели.

Построение признакового пространства

Извлечение фич – это расширение пространства информационных признаков новыми данными, которые могут быть полезны для повышения качества модели, но которые модель не может извлечь сама.

Современные алгоритмы машинного обучения, такие как нейронные сети, умеют самостоятельно находить нелинейные закономерности в данных. Но для того чтобы это произошло, данных должно быть много. Иногда очень много. Так бывает не всегда. И тогда мы можем помочь нашей модели.

В своей работе я придерживаюсь следующих основных принципов:

1. найти все возможные характеристики описываемых моделью объектов;
2. не делать предположения о важности извлекаемых из данных параметров;
3. извлекаемые параметры должны быть осмыслены.

Расскажу о каждом пункте подробнее

Данные, на которых мы обучаем модель – это объекты реального мира. Изначально мы не располагаем векторами и тензорами. Всё что у нас есть – это какое-то сложное описание каждого объекта в выборке. Это могут быть, например, номер телефона, цвет упаковки, рост и даже запах.

Для нас важно всё. И из каждого из этих сложных признаков можно извлечь цифровую информацию.

Мы извлекаем всю цифровую информацию, которая может как-то охарактеризовать каждый аспект нашего объекта.

Когда-то такой подход считался плохой практикой. Линейные модели не могли работать с коррелирующими параметрами, так как это приводило к плохой обусловленности матриц, неограниченному росту весов. Сегодня проблема мультиколлинеарности практически исчерпана за счёт использования продвинутых алгоритмов и методов регуляризации. Если у вас есть рост и вес человека – берите оба эти параметра. Да, они коррелируют, но мультиколлинеарность – в прошлом. Просто используйте современные алгоритмы и регуляризацию.

Итак, рассмотрите каждый аспект вашего объекта и найдите все числовые характеристики. В конце ещё раз посмотрите и подумайте. Не упустили ли вы чего-то.

Приведу пару примеров.

Читать еще:  Анализ содержания труда

Предположим, вы располагаете номерами телефонов. Казалось бы, бесполезная информация. Но по номеру телефона можно много чего сказать. Можно узнать регион владельца номера, к какому оператору номер относится, частота оператора в регионе, относительный объём оператора и много чего ещё. Зная регион, можно добавить много параметров, характеризующих его в зависимости от решаемой вами задачи.

Если у вас есть информация об упаковке, то вы знаете её геометрические размеры. К геометрическим характеристикам относятся не только высота, ширина и глубина, но и их отношения – они тоже описывают габариты. Материал упаковки, разнообразие цветов, их яркость и много-много чего ещё.

Исследуйте диапазоны изменяемых значений каждого извлечённого признака. В некоторых случаях, например, логарифм параметра будет работать гараздо лучше самого параметра. Поскольку логарифм – характеристика порядка. Если у вас большие разбросы в диапазоне значений, обязательно логарифмируйте параметры.

Если у вас есть периодичность в параметрах, используйте тригонометрические функции. Они могут дать очень богатый набор дополнительных признаков. Например, когда одной из характеристик вашего объекта являются замкнутые кривые, использование тригонометрических функций обязательно.

Используйте внешние источники. Единственным ограничением в использовании внешних источников должна быть стоимость их извлечения относительно бюджета решаемой задачи.

Не делайте предположения о важности извлекаемых из данных параметров.
Какой бы экспертизой в предметной области мы не обладали, мы не знаем всех статистических закономерностей. Я не перестаю удивляться как иногда, казалось бы, не важные на первый взгляд вещи улучшают качество модели и выходят в топ features importance. В конечном итоге у вас будет много признаков, которые вообще не работают. Но вы не знаете заранее, какие хитрые сочетания не важных, на первый взгляд, параметров сработают хорошо.

Признаки, которые вы извлечёте, как правило, не будут работать по одиночке. И вы не найдёте корреляции с целевой переменной каждого параметра по отдельности. Но вместе они работать будут.

Ну и наконец, не засоряйте пространство информационных признаков бессмысленными фичами. Это кажется противоречащим написанному выше, но есть нюанс – здравый смысл.
Если информация хоть как-то описывает объект – она полезна. Если вы просто взяли и попарно перемножили все фичи, то, скорее всего, никакого смысла вы не добавили, но возвели в квадрат размерность признакового пространства.

Иногда можно встретить совет попарно перемножать фичи. И это действительно может сработать, если у вас линейная модель. Таким образом вы добавите нелинейность и улучшите разделимость признакового пространства. Но современные алгоритмы, в особенности нейронные сети не нуждаются в таком искусственном и неосмысленном добавлении нелинейности.
Впрочем, если вы обладаете достаточным запасом вычислительной мощности, можете так сделать и проверить сами.

Если у вас есть большой набор не размеченных данных и небольшой размеченных, можно добавить фич используя обучение без учителя. Автокодировщики работают хорошо.

Наводим порядок в данных

Когда данные собраны, нужно навести в них порядок.

Может так получиться, что некоторые компоненты вашего признакового пространства будут постоянны или обладать очень малой вариативностью, не имеющей статистической значимости. Выкидывайте их без сожаления.

Проверьте взаимные корреляции. Мы ставим порог по абсолютному значению взаимных корреляций 0.999. В ваших задачах он может быть другой. Но некоторые признаки могут просто линейно выражаться друг через друга. В этом случае нужно оставить только один. В случае прямой линейной зависимости смысла оставлять оба параметра из коррелирующей пары нет. Отмечу, что просто к функциональной зависимости это не относится.

И наконец, посчитайте features importance. Делать это нужно по двум причинам.

Во-первых, откровенно слабые информационные признаки могут непродуктивно нагружать ваши вычислительные ресурсы, не привнося полезной информации.

Во-вторых, вам нужно найти самые важные признаки и проанализировать их.

Удалять информационные признаки не обязательно. Сейчас есть достаточно хорошие методы обучения высокомерных моделей. Ценой будет время вычисления.
А вот самые важные признаки нужно пристально рассмотреть. На самом деле, протащить целевую переменную в пространство признаков намного проще, чем кажется на первый взгляд. Особенно, если происхождение данных не контролируется вами полностью.
Если вы видите такую картинку на вашей диаграмме важности признаков,

то это может быть не поводом для радости, а поводом для полного исключения фичи из пространства признаков.

Извлекайте все данные которые можно извлечь, но руководствуйтесь здравым смыслом.
Не пытайтесь включать эксперта, преждевременно удаляя признаки.

Используйте функциональные выражения от ваших информационных признаков, если они оправданы.

Удаляйте статистически не значимые переменные и переменные сильно коррелирующие с другими.

Сделайте диаграмму важности признаков. Возможно удалите самые не важные.
Изучите самые важные.

Если самые важные сильно выделяются на фоне остальных, изучите их особо пристально. Постройте графики распределений. Попытайтесь понять, почему они влияют так сильно. Подумайте над их удалением.

Если у вас есть возможность проверить вашу модель не только на тестовых, но и на реальных данных. Проверьте её сначала исключив подозрительно важные параметры, а затем включив их. И сравните результаты.

Приведённые здесь рекомендации зависят от того, какой алгоритм используется для построения модели. Я обычно использую нейронные сети. Эти рекомендации точно не подойдут вам, если вы используете логистические и линейные регрессии.

В статье не затронута обширная тема сбора данных. Старайтесь понять, как собирались данные для анализа. В особенности, уделите внимание формированию целевой переменной.

Объём статьи не позволяет затронуть все аспекты, но я постарался изложить основные моменты.
Большинство публикаций по машинному обучению ориентированы на описание алгоритмов. Но сбор и подготовка данных – это 95% работы по построению модели. Надеюсь, моя заметка поможет вам пореже наступать на грабли.

А какие методы улучшения качества моделей используете вы?
Автор — Валерий Дмитриев rotor
Спасибо MikeKosulin за правки 🙂

Инструменты в помощь аналитику данных

«Коробочные» решения, библиотеки для глубинного обучения и сервисы для создания интерактивных графиков

Подборка полезных библиотек и сервисов для тех, кто хочет работать аналитиком — или освоить анализ данных для себя.

Читать еще:  Контроль и анализ деятельности

Python для анализа данных

Знание языка программирования Python — одно из самых распространённых требований для вакансий аналитика. А чтобы упростить написание кода на нём, можно воспользоваться библиотеками: шаблонами решений для стандартных задач.

Jupyter

Jupyter Notebook — бесплатная интерактивная оболочка для Python. Она позволяет объединить код, текст и диаграммы — и делиться результатом с другими пользователями.

Библиотеки

Pandas

Pandas пригодится для анализа неполных и неупорядоченных данных (в таком виде они чаще всего и встречаются в жизни). В этой библиотеке есть готовые методы для их фильтрации, группировки и объединения.

TensorFlow

TensorFlow — библиотека для глубинного обучения, разработанная в Google. Она нужна, чтобы тренировать нейронные сети для автоматического нахождения и классификации образов.

Она пригодится для:

  • Распознавания речи и изображений
  • Работы с текстом
  • Анализа временных рядов
  • Распознавания объектов на видео

NumPy и SciPy

NumPy упрощает работу с векторами и матрицами: от расчета определителей матриц до решения линейных уравнений. SciPy расширяет возможности первой библиотеки и позволяет работать с вероятностными распределениями и интегральным исчислением.

Matplotlib

Matplotlib пригодится для создания графиков: от круговых диаграмм до контурных схем.

«Коробочные» решения

Готовые решения для анализа данных пригодятся тем, кто пока не умеет программировать — но уже хочет получить инсайты о продукте. Основной недостаток: платное использование.

Mixpanel

С помощью сервиса можно увидеть, как клиенты взаимодействуют с вашим приложением или сайтом и найти закономерности в их поведении. Также сервис позволяет проводить A/B-тестирования — эксперименты, в ходе которых тестируется, как изменения в продукте влияют на пользовательский опыт.

Amplitude

Amplitude помогает отследить, как меняются и от чего зависят продуктовые метрики (например, конверсия в платящих пользователей). Так, в сервисе можно задать долгосрочную цель вашего сервиса и проанализировать, что поможет её достижению.

Tableau

Tableau — это корпоративная система бизнес-аналитики. С её помощью можно подготовить (упорядочить и промаркировать) данные для анализа, найти в них закономерности и визуализировать выводы.

Другое

Если вам не хватает стандартных инструментов, то вы можете воспользоваться сервисами для отдельных задач: например, для создания интерактивных графиков или работы с маркетинговыми данными.

Plotly

Plotly нужен для создания сложной визуализации: например, интерактивных или 3D-графиков.

Improvado.io

Improvado — сервис для маркетинговой аналитики. С его помощью можно агрегировать данные с разных платформ в один инструмент: например, Tableau, Excel или Looker.

Где найти данные для анализа в системе R?

3.5 миллионов авторов

Data360 — статистические отчеты по экономике и образованию в США; как правило, отчет выглядит в виде графика и в подавляющем числе случаев имеется возможность скачать данные, использованные для его построения (в формате csv )
Datamob.org — более 220 наборов данных разной тематики
Factual — большая коллекция данных из таких областей, как развлечения, образование, здравоохранение, и т.п.
Freebase — сайт сообщества «любителей открытых данных»
Goggle Public Data Explorer — Google-поиск публичных данных
Infochimps — большая коллекция данных разной тематики, однако не все данные находятся в свободном доступе
Numbray — сервис по поиску открытых данных и обмену ими
Sample R Datasets — наборы данных непосредственно от R Project (R)
SourceForge Research Data — тестовые данные проекта SourceForge.net
National UFO Reporting Center — данные по наблюдениям НЛО 🙂
9/11 Pager Intercepts Data — данные перехвата пейджер-сообщений в день трагедии 11 сентября 2001 г. в Нью-Йорке (проект Wikileaks)
Stats4Stem.org — коллекция данных в формате R, созданная для облегчения работы преподавателей статистики (R)
The Washington Post List — базы данных разной тематики от издания The Washington Post

Климатические данные, собранные Отделом климатических исследований Университета Восточной Англии
Климатические данные Национального управления океанических и атмосферных исследований США (US NOAA)
Gene Expression Omnibus — хранилище данных по экспрессии генов
GeoDa Center — коллекция географических данных
Human Microbiome Project — данные по геному микроорганизмов, населяющих тело человека
MIT Cancer Genomics Data — данные, полученные в ходе выполнения Программы исследований рака Массачусетского Технологического Института (R, Bioconductor)
NASA — данные Национального управления по воздухоплаванию и исследованию космического пространства США
ICOS — данные по структуре белков, полученные Междисциплинарной группой вычислений и сложных систем (Interdisciplinary Computing and Complex Systems) Ноттингемского Университета
Stanford Microarray Dabase — база данных, полученных в ходе экспериментов с использованием технологии биочипов

General Social Survey — сайт Национальной программы США по сбору данных для социальных наук
ICPSR — коллекция данных Межуниверситетского консорциума политических и социологических исследований
Social Science Data Archive — архив социологических данных (проект Университета Лос-Анджелеса)
Upjohn Institute — коллекция данных по трудовой занятости в США и Европе

Time Series Data Library — коллекция проф. Роба Хиндмана (Rob Hyndman), содержащая около 800 временных рядов разной тематики

Enron Email Dataset — набор данных, содержащий около 0.5 миллиона электронных писем 150 авторов (проект Университета Карнеги-Меллон)
Carnegie Mellon University StatLab — коллекция данных Статистической лаборатории Университета Карнеги-Меллон
Carnegie Mellon University JASA data archive — архив данных, предоставленных авторами Журнала Статистической Ассоциации Америки (Journal of the American Statistical Association)
Stanford Large Network Dataset Collection — коллекция Стенфордского Университета, содержащая данные по большим социальным и другим видам сетей
UC Berkeley — коллекция социологических данных Калифорнийского университета в Беркли
UCLA — коллекция данных разной тематики, собранных в рамках проекта SOCR Калифорнийского университета в Лос-Анджелесе
UCR Time Series Classification/Clustering — коллекция данных для тестирования новых алгоритмов классификации/кластеризации временных рядов (проект Калифорнийского университета в Риверсайде)
Delve — коллекция данных для тестирования разных методов обучения (проект Торонтского Университета)
Gapminder — очень большая коллекция данных, собранная в рамках проекта проф. Ханса Рослинга (Hans Rosling) Gapminder

По мере обнаружения новых источников, приведенный список будет мною обновляться.

Ссылка на основную публикацию
ВсеИнструменты 220 Вольт
Adblock
detector
×
×