Какие проблемы возникают при обработке больших данных
Перейти к содержимому

Какие проблемы возникают при обработке больших данных

  • автор:

Big Data: проблемы и технологии Текст научной статьи по специальности «Компьютерные и информационные науки»

большие данные / технологии анализа данных / о Blockchain / искусственный интеллект и Deep Learning / Statistica. / Big Data / data analysis technologies / cloud storages artificial intelli- gence и Deep Learning / statistica.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — А. Т. Абдыкаримова

В статье рассматривается понятие больших данных , история Big Data , описываются источники больших данных , дается понятие новым технологиям анализа больших данных , такие как: искусственный интеллект и Deep Learning , облачные хранилища, Блокчейн-технологии, Dark Data и программное обеспечение Statistica. В статье затрагиваются задачи и функции больших объемов данных, также раскрываются проблемы, которые возникают при работе с большими данными.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — А. Т. Абдыкаримова

Использование информационных технологий в банковском обслуживании корпоративных клиентов
Мировой рынок новейших ИТ-технологий и национальные интересы
Технологии больших данных в электронном образовании
Современные технологии электронного образования

Конкурентные стратегии организации на основе информационных технологий сегмента Business Intelligence

i Не можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

BIG DATA: PROBLEMS AND TECHNOLOGIES

The article covers the main principles and history of Big Data , describes various sources of Big Data and provides an introduction to new technologies of Big Data analysis such as artificial intelligence and Deep Learning, cloud storages, Blockchain technologies, Dark Data and Statistica software. Also the article discusses the tasks and functions of Big Data and the problems arising when working with Big Data .

Текст научной работы на тему «Big Data: проблемы и технологии»

BIG DATA: ПРОБЛЕМЫ И ТЕХНОЛОГИИ

А.Т. Абдыкаримова, магистр, старший преподаватель Жетысуский государственный университета им. И. Жансугурова (Казахстан, г. Талдыкорган)

Аннотация. В статье рассматривается понятие больших данных, история Big Data, описываются источники больших данных, дается понятие новым технологиям анализа больших данных, такие как: искусственный интеллект и Deep Learning, облачные хранилища, Блокчейн-технологии, Dark Data и программное обеспечение Statistica. В статье затрагиваются задачи и функции больших объемов данных, также раскрываются проблемы, которые возникают при работе с большими данными.

Ключевые слова: большие данные, технологии анализа данных, облачные хранилища, Blockchain, искусственный интеллект и Deep Learning, Statistica.

Понятие «большие данные» резко ворвались в нашу повседневную жизнь. Потоки информации существовали всегда, но не так давно стали актуальны методы и технологии обработки больших объемов информации. Поэтому на данный момент

1. Искусственный интеллект и Deep Learning.

Deep Learning называется один из подходов к машинному обучению, который

под Big Data понимают не только большой объем данных, но и технологии их обработки.

Новые технологии анализа больших данных приведены на рисунке 1 [1].

позволяет предугадывать результаты по входным данным. Другими словами, автономная система самообучения, где используют данные, которые уже существуют

интеллект и Deep

f N. Программное

Dark Data обеспечение STA

Рисунок. Технологии анализа больших данных

для обучения алгоритмов, чтобы найти образцы и в последующем применить их для прогнозирования новых данных.

2. Облачные хранилища.

Облачное хранилище данных, так называемая модель хранилища, где данные хранятся на многочисленных серверах, которые распределены в сети и предоставляются в пользование клиентам. Клиент же не знает о структуре «облака», и на каком из нескольких серверов хранятся данные, он имеет только доступ к аккаунту и управлением им.

Блокчейн технология — это непрерывная последовательность блоков, которые содержат информацию и выстроены по определённым правилам. Это своего рода база данных, представляющая собой непрерывную цепь из блоков, хранящиеся на нескольких компьютерах. В данной базе-цепочке постоянно создаются новые блоки, которые содержат в себе группу упорядоченных записей (транзакций), которые накопились за последнее время.

Dark Data — это вся неоцифрованная информация, не играющая ключевой роли при ее использовании, но которая может послужить причиной для перехода на новый формат хранения сведений.

5. Программное обеспечение Statistica

Statistica — это программный продукт

для статистической обработки данных, разработанный компанией StatSoft. Данный программный пакет реализует функции анализа данных, добычи данных, управления данными, также можно проводить визуализацию данных с использованием статистических методов. Программное обеспечение Statistica включает широкий набор различных аналитических процедур и методов: более ста типов графиков, разведочный анализ данных, описательные и внутригрупповые статистики, быстрые основные статистики и блоковые статистики, корреляции, интерактивный вероятностный калькулятор [2].

Как показывает практика, недостаточно знать и использовать технологии анализа больших данных. Есть ряд причин неудач проектов больших данных. В первую оче-

редь это дефицит специалистов, которые обладают знаниями и навыками в сфере анализа больших данных, управления данными и программирования. Ведь проект больших данных — это конкретная предметная область и недостаточный объем знаний его участников в данной прикладной сфере, а также отсутствие постановок задач анализа и критериев эффективности их решения,

неосведомленность бизнес-аналитиков о потенциале технологий больших данных, методов и средств их анализа приводят к краху проекта. Также не правильное проектирование хранилища данных может привести к ошибкам в анализе данных. Ведь современный мир перешел не просто к большим данным, а к очень большим данным и из-за роста объема данных нарушается работоспособность хранилищ данных [3].

Главная проблема при работе с большими данными заключается не только в увеличение объема данных, но и в изменении характера данных.

С появлением больших данных многие предприятия осознали важность и необходимость работы с большим объемом структурированных и

неструктурированных данных. Но для того чтобы внедрить эти процессы необходимы четкий план действий и правильно выбранные инструменты оптимизации процессов. Получить ожидаемый положительный результат от больших данных многие компании не могут, так как они используют унаследованные системы управления базами данных, а в них не хватает масштабируемости и

функциональности. Ведь основной объем данных — это неструктурированная информация. Ее хранение и обработка на основе реляционных баз данных в привычных системах малоэффективна и реляционные системы управления базами данных не являются выходом для ряда ситуаций. И это привело к появлению целого семейства решений, так называемых NoSQL-системы.

Таким образом, предприятиям нужна стратегия, которая будет учитывать источники данных, также их жизненный

цикл, совместимость разных реляционных дополнительные ресурсы для

СУБД и масштабируемость хранения и сопровождения, необходимые для конечно капиталовложения в ГГ- разработки новых приложений и сервисов. инфраструктуру предприятия,

1. Абдыкаримова А. Т., «Технология больших данных», Наука и жизнь Казахстана, №2(78), 2019 г., с.223-226.

2. [Электронный ресурс]. — Режим доступа: https://freshprogs.ru/programmy/7335-statsoft-statistica-v- 100.html

3. [Электронный ресурс]. — Режим доступа: http://www.jetinfo.ru/stati/bolshie-dannye-bolshaya-problema

BIG DATA: PROBLEMS AND TECHNOLOGIES

A.T. Abdykarimova, master, senior lecturer Zhetysu state university named after I.Zhansugurov (Taldykurgan, Kazakhstan)

Abstract. The article covers the main principles and history of Big Data, describes various sources of Big Data and provides an introduction to new technologies of Big Data analysis such as artificial intelligence and Deep Learning, cloud storages, Blockchain technologies, Dark Data and Statistica software. Also the article discusses the tasks and functions of Big Data and the problems arising when working with Big Data.

Keywords: Big Data, data analysis technologies, cloud storages, Blockchain, artificial intelligence u Deep Learning, statistica.

ОСНОВНЫЕ ПРОБЛЕМЫ ИСПОЛЬЗОВАНИЯ БОЛЬШИХ ДАННЫХ В СОВРЕМЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМАХ Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Менщиков Александр Алексеевич, Перфильев Владислав Эдуардович, Федосенко Максим Юрьевич, Фабзиев Ильшат Равильевич

В статье рассматривается проблематика использования больших данных в современных информационных системах. Представлены хронологические этапы становления термина Big Data, начиная с первого его упоминания главным редактором журнала Nature Клиффордом Линчем в выпуске «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?» и заканчивая становлением учебного и научного направления data science. Указаны крупные корпорации, внедряющие в свои производственные процессы большие данные (IBM, Oracle, Microsoft, Hewlett-Packard, EMC). Классификация больших данных рассмотрена согласно теории “VVV”, включающей в себя объём (volume), скорость (velocity), многообразие (variety) обрабатываемых данных, “4V”, включающей в себя помимо прочего достоверность (veracity), “5V”, включающей в себя помимо прочего жизнеспособность (viability), «7V», рассматривающая также переменчивость (variability) и визуализацию (vizualization). Сами массивы данных, в зависимости от формы их хранения и представления, характеризуются как структурированные, слабоструктурированные, неструктурированные. Отсюда, проблематика Big Data рассматривается исходя из большого объёма, способов хранения и обработки, неструктурированного вида и процесса структуризации, скорости обработки и существующих алгоритмов обработки. Само определение и процесс отнесения набора данных к Big Data в статье рассматривается со стороны количественного показателя скорости обработки NoSQL данных в системе. Для работы и анализа массивом больших данных существуют такие направления как Data Science (наука о данных), технологии Machine Learning (машинного обучения), частным случаем которого является Artificial Intelligence (искусственный интеллект)

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Менщиков Александр Алексеевич, Перфильев Владислав Эдуардович, Федосенко Максим Юрьевич, Фабзиев Ильшат Равильевич

Обзор технологии «большие данные» (Big Data) и программно-аппаратных средств, применяемых для их анализа и обработки

Проблематика Big Data в инфраструктуре уровня предприятия
Обеспечение качества бизнес-процессов авиакомпании
Применение современных технологий больших данных в правовой сфере
Технологии больших данных в статистике
i Не можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE MAIN PROBLEMS OF USE OF BIG DATA IN MODERN INFORMATION SYSTEMS

The article deals with the problems of using big data in modern information systems. The chronological stages of the formation of the term Big Data are presented, starting from its first mention by the editor-in-chief of the journal Nature Clifford Lynch in the issue “How can technologies that open up opportunities for working with large amounts of data affect the future of science?” and ending with the formation of the educational and scientific direction of data science. Large corporations that implement big data in their production processes (IBM, Oracle, Microsoft, Hewlett-Packard, EMC) are indicated. The classification of big data is considered according to the theory “VVV”, which includes the Volume, Velocity, Variety of processed data, “4V”, which includes Veracity, “5V”, which includes Viability, «7V», also considering Variability and Visualization. The data arrays themselves, depending on the form of their storage and presentation, are characterized as structured, semi-structured, unstructured. Hence, the problems of Big Data are considered based on the large volume, storage and processing methods, unstructured form and structuring process, processing speed and existing processing algorithms. The very definition and process of classifying a data set as Big Data is considered in the article from the side of a quantitative indicator of the speed of NoSQL data processing in the system. To work and analyze an array of big data, there are such areas as Data Science Machine Learning technologies, a special case of which is Artificial Intelligence.

Текст научной работы на тему «ОСНОВНЫЕ ПРОБЛЕМЫ ИСПОЛЬЗОВАНИЯ БОЛЬШИХ ДАННЫХ В СОВРЕМЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМАХ»

Научная статья Original article УДК 004.043 + 004.622

ОСНОВНЫЕ ПРОБЛЕМЫ ИСПОЛЬЗОВАНИЯ БОЛЬШИХ ДАННЫХ В СОВРЕМЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМАХ

THE MAIN PROBLEMS OF USE OF BIG DATA IN MODERN INFORMATION

Менщиков Александр Алексеевич, кандидат технических наук, доцент, ординарный доцент факультета Безопасности информационных технологий, ФГАОУ ВО «Национальный исследовательский университет ИТМО» (197101 Россия, г. Санкт-Петербург, Кронверкский проспект, д.49, лит. А.), тел. 8 (812) 458-43-08, ORCID: 0000-0002-2287-4310, menshikov@itmo.ru Перфильев Владислав Эдуардович, аспирант, инженер факультета Безопасности информационных технологий, ФГАОУ ВО «Национальный исследовательский университет ИТМО» (197101 Россия, г. Санкт-Петербург, Кронверкский проспект, д.49, лит. А.), тел. 8 (812) 458-43-08, ORCID: 0000-00017338-4939, vladik.perfilev@gmail. com

Федосенко Максим Юрьевич, магистрант, инженер факультета Безопасности информационных технологий, ФГАОУ ВО «Национальный исследовательский университет ИТМО» (197101 Россия, г. Санкт-Петербург, Кронверкский проспект, д.49, лит. А.), тел. 8 (812) 458-43-08, ORCID: 0000-0001-8786-5661,

Фабзиев Ильшат Равильевич, студент факультета Безопасности информационных технологий, ФГАОУ ВО «Национальный исследовательский университет ИТМО» (197101 Россия, г. Санкт-Петербург, Кронверкский проспект, д.49, лит. А.), тел. 8 (812) 458-43-08, ifabzievr@gmail.com

Menshchikov Alexander Alekseevich, candidate of technical sciences, associate professor, ordinary associate professor of the Faculty of Information Technology

Security, ITMO University (49 bldg. A, Kronverksky Pr., St. Petersburg, 197101, Russia), tel. 8 (812) 458-43-08, ORCID: https://orcid.org/0000-0002-2287-4310, menshikov@itmo .ru

Perfiliev Vladislav Eduardovich, post-graduate student, engineer of the Faculty of Information Technology Security, ITMO University (49 bldg. A, Kronverksky Pr., St. Petersburg, 197101, Russia), tel. 8 (812) 458-43-08, ORCID: https://ordd.org/0000-0001-7338-4939, vladik.perfilev@gmail.com

Fedosenko Maksim Yurievich, master student, engineer of the Faculty of Information Technology Security, ITMO University (49 bldg. A, Kronverksky Pr., St. Petersburg, 197101, Russia), tel. 8 (812) 458-43-08, ORCID: https://orcid.org/0000-0001-8786-5661, fedosenkomaksim98@gmail.com

Fabziev Ilshat Ravilevich, student of the Faculty of Information Technology Security ITMO University (49 bldg. A, Kronverksky Pr., St. Petersburg, 197101, Russia), tel. 8 (812) 458-43-08, ifabzievr@gmail.com

Аннотация: В статье рассматривается проблематика использования больших данных в современных информационных системах. Представлены хронологические этапы становления термина Big Data, начиная с первого его упоминания главным редактором журнала Nature Клиффордом Линчем в выпуске «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?» и заканчивая становлением учебного и научного направления data science. Указаны крупные корпорации, внедряющие в свои производственные процессы большие данные (IBM, Oracle, Microsoft, Hewlett-Packard, EMC). Классификация больших данных рассмотрена согласно теории «VVV», включающей в себя объём (volume), скорость (velocity), многообразие (variety) обрабатываемых данных, «4V», включающей в себя помимо прочего достоверность (veracity), «5V», включающей в себя помимо прочего жизнеспособность (viability), «7V», рассматривающая также переменчивость (variability) и визуализацию

(vizualization). Сами массивы данных, в зависимости от формы их хранения и представления, характеризуются как структурированные,

слабоструктурированные, неструктурированные. Отсюда, проблематика Big Data рассматривается исходя из большого объёма, способов хранения и обработки, неструктурированного вида и процесса структуризации, скорости обработки и существующих алгоритмов обработки. Само определение и процесс отнесения набора данных к Big Data в статье рассматривается со стороны количественного показателя скорости обработки NoSQL данных в системе. Для работы и анализа массивом больших данных существуют такие направления как Data Science (наука о данных), технологии Machine Learning (машинного обучения), частным случаем которого является Artificial Intelligence (искусственный интеллект)

Abstract: The article deals with the problems of using big data in modern information systems. The chronological stages of the formation of the term Big Data are presented, starting from its first mention by the editor-in-chief of the journal Nature Clifford Lynch in the issue «How can technologies that open up opportunities for working with large amounts of data affect the future of science?» and ending with the formation of the educational and scientific direction of data science. Large corporations that implement big data in their production processes (IBM, Oracle, Microsoft, Hewlett-Packard, EMC) are indicated. The classification of big data is considered according to the theory «VVV», which includes the Volume, Velocity, Variety of processed data, «4V», which includes Veracity, «5V», which includes Viability, «7V», also considering Variability and Visualization. The data arrays themselves, depending on the form of their storage and presentation, are characterized as structured, semi-structured, unstructured. Hence, the problems of Big Data are considered based on the large volume, storage and processing methods, unstructured form and structuring process, processing speed and existing processing algorithms. The very definition and process of classifying a data set as Big Data is considered in the article from the side of a quantitative indicator of the speed of NoSQL data processing in the system. To work

and analyze an array of big data, there are such areas as Data Science Machine Learning technologies, a special case of which is Artificial Intelligence. Ключевые слова: большие данные, обработка данных, неструктурированные данные, NoSQL системы, технологии хранения данных, наука о данных. Keywords: big data, data processing, unstructured data, NoSQL systems, data storage technologies, data science.

Конец 20-го и начало 21 века характеризуется большим скачком в увеличении объёма использования цифровой информации. Увеличиваются размеры файлов, в жизнь стремительно внедряются информационные технологии: социальные сети, средства связи, электронный документооборот, безналичный расчёт, различные системы по сбору и хранению информации (напр. системы видеонаблюдения). Это в свою очередь увеличивает ресурсозатраты на технологии хранения и обработки данных, вынуждая научного сообщество вести активные исследования и разработки в данном направлении [1].

Увеличение объёма данных приводит к появлению термина Big Data. Big Data (с англ. большие данные) — это структурированные или неструктурированные (в большинстве своём) массивы данных большого объема. Данный термин был предложен редактором журнала Nature Клиффорд Линч в 2008 году, в сентябрьском спецвыпуске «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?». В нём говорилось о феномене взрывного роста объёмов и многообразия обрабатываемых данных в мире, а также об технологических перспективах в решении задачи их обработки [2]. Этапы становления

Уже с 2009 года термин распространился в научных кругах и деловой прессе, а к 2010 году начинают появляться первые продукты и решения,

относящихся непосредственно к обработке больших данных. До 2011 года анализом больших данных занимались только в рамках научных и статистических исследований. Их изучали, тестировали уже имеющиеся подходы, разрабатывали новые алгоритмы для работы с ними. Но уже к началу 2012-го объемы данных выросли до огромных масштабов, в связи с чем возникла потребность в их систематизации для практического применения [3]. С этого момента большинство крупнейших компаний — поставщиков информационных технологий, для организации рабочего процесса начинают использовать понятие о больших данных. Среди них стоит выделить компании IBM, Oracle, Microsoft, Hewlett-Packard, EMC — где аналитики рынка информационных технологий посвящают данной концепции отдельные выделенные исследования. Например, в компании Gartner отметили большие данные как тренд номер два в информационно-технологической инфраструктуре (после виртуализации), а также прогнозировали, что внедрение данной технологии окажет наибольшее влияние на информационные технологии в производстве, торговле, здравоохранении, государственном управлении и других в сферах и отраслях, где регистрируются частые перемещения информационных ресурсов. Другими словами, для данных сфер задача структуризации, обработки, выделения закономерностей и внедрения в производственные процессы большого объёма пользовательской информации наиболее актуальна. По этим же причинам, С 2014 на Big Data обратили внимание ведущие мировые вузы, обучающие не только «науке о данных» (data science), но и различным инженерным и ИТ-специальностям [4]. Проблемы

В сущности, понятие Big Data подразумевает работу с информацией огромного объема и разнообразного состава, которая часто обновляется и может располагаться в различных информационных источниках. Согласно отчету McKinsey Institute «Большие данные: новый рубеж для инноваций, конкуренции и производительности» (дословно Big data: The next frontier for innovation,

competition and productivity), данный термин относится к наборам данных, размер которых превосходит возможности типовых баз данных (БД) по хранению, управлению и анализу. В своей статье (в выпуске сентября 2008 года журнала Nature) Клиффорд Линч отнес к Big Data любые массивы неоднородных данных, превышающие объёмом обработки 150 Гб в сутки. Однако, единого критерия на объём до сих пор не существует в силу различий в особенностях данных из разных источников. Например, набор данных на 100000 записей, состоящей из серий и номеров документов будет в разы меньше по объёму набора данных из такого же количество профессиональных фотографий. И те, и те необходимо структурировать и обрабатывать, однако подходы и применяемые для этого технологии будут различаться [5].

Как было сказано ранее, одной из проблем в изучении вопроса больших данных является классификация. Несмотря на то, что есть способы классифицировать данные и применяемые к ним технологии, свойственный большим данным плюрализм не позволяет создать единые направления и методы для работы с ними. Существуют общие классификации и направления по работе с наборами данных они будут рассмотрены далее, однако каждый набор требует к себе индивидуального подхода в процессе его обработки. Указанная выше проблема вытекает из того, что подавляющее большинство наборов данных не структурированы. Другими словами, имея разный вид, особенности заполнения, поля, источники — данные не имеют единого вида, из-за чего становится сложно анализировать их единым механизмом. Это в свою очередь вызывают неудобства при работе с ним: найти необходимый элемент из кучи, где могут храниться картинки, метаданные, сетевые пакеты, хеш-значения и прочее. Данные хранилища называют нерелятивными NoSQL системами, однако для манипуляций всё же необходимо выявить закономерности и группировку.

Следующей проблемой при работе с Big Data выделяют их объём. Огромные массивы не всегда возможно хранить на одном сервере, что в свою очередь приводит к применению технологий распределённых систем. Под данной

системой прежде всего понимают совокупность взаимосвязанных автономных компьютеров и их вычислительных мощностей. Распределённое хранение также вызывает сложности при выборки данных и составлении алгоритмов их обработки. Большой объём в свою очередь требует от системы огромных вычислительных мощностей, что является дорогостоящей технологией [6]. Также, от объёма хранилища данных зависит и скорость их обработки. Если скорость обработки низкая, то данные могут устареть, прежде чем принесут практическую пользу. При небольшой скорости также увеличивается процесс выборки нужной информации их большого объёма, что приводит к несвоевременному получению необходимых составляющих. Отсутствия структурированного вида усугубляет данную проблемы.

Обобщая вышесказанное, у Big Data существую следующие проблемы, расположенные в порядке уменьшения их актуальности:

• Большой объём данных, требующий дорогостоящий технологий для их хранения и обработки

• Хранение данных, обеспечивающие их целостность (чтобы ничего не упустить и не «потерять»), доступность (возможность получить необходимую информацию по мере необходимости), конфиденциальность (очень часто датасеты содержат в себе персональные данные и не подлежат разглашению третьим лицам)

• Неструктурированный вид, где данные разного формата представления хранятся «в куче», а состав конкретного элемента не имеет однообразный вид

• Сложность структуризации, сортировки, распределения при составлении выборок и поиске конкретного элемента из общей системы

• Низкая скорость обработки (в сравнении с объёмом данных), способная привести к большому времени ожидания ответа при поиске определённой позиции, а также их устареванию уже в процессе обработки

• Отсутствие эффективных алгоритмов обработки, учитывающих объём хранилища данных, структуру и методы поиска необходимого элемента (ячейки памяти)

• Большое количество шумов и процесс их учёта при работе с датасетами [7].

Последнюю проблему стоит осветить чуть подробнее, поскольку она вытекает из всех остальных и имеет в себе противоречия. Дело в том, что в структурированных наборах данных, представляющих собой релятивные SQL системы, отклонения от общей структуры (по форме данных, их содержанию) считаются выбросами, и зачастую не учитываются (отбрасываются) при составлении общих выборок. Однако в случае с Big Data выбросы и отклонения зачастую содержат в себе наиболее важную информацию, а сам большой объём данных формируется с целью выявить эти самые отклонения. Небольшая по размеру их выборка (по сравнению с большим объёмом общего хранилище) имеет наибольшую ценность в практической и исследовательской деятельности. И очень важно при обработке датасета их не пропустить и не отбросить. Это первостепенное противоречие, связанная с проблемой наличия шумов. Затем уже идёт задача верно выявить выбросы, структурировать, классифицировать, проанализировать, сделать из них выводы и найти им применение. Эта задача, в свою очередь задействует упомянутые ранее проблемы, связанные с объёмом, скоростью обработки, структуризацией и алгоритмическими подходами при их обработке. Классификация

Одна из важных проблем при работе с Big Data является классификация. Однозначно классифицировать данные порой бывает сложно в силу их неоднородности, в связи с чем также различаются подходы к их обработке. Однако, общие закономерности всё-таки выделяются, с целью направить практическое применение массивов данных в нужное русло, дать некие рекомендации для работы с ними. Рассмотрим имеющиеся способы классификации общего понятия Больших данных без привязки к какому-то конкретному набору. Энциклопедии и имеющиеся научные труды в качестве определяющих характеристик для больших данных традиционно выделяют теорию «VVV», которая содержит в себе следующие характеристики:

• Объём (от англ. Volume) — представляет собой величину физического объёма данных

• Скорость (от англ. Velocity) — подразумевает под собой как скорость прироста информации, так и необходимость высокоскоростной обработки и получения результатов,

• Многообразие (от англ. Variety) — возможность одинаковой и одновременной обработки различных типов данных: структурированных и полуструктурированных, неструктрированных.

Также, с данные характеристики уместно добавить следующие:

• Достоверность (от английского veracity) — представляет собой набор истинной информации, учёт которой при обработке массивов данных является наиболее важным.

• Жизнеспособность (от англ. Viability) — характеризует данные в зависимости от времени их актуальности.

• Ценность (от англ. Value) — показатель, характеризующий важность и необходимость выборки данных при работе с ними над решением конкретных практических задач.

• Переменчивость (от англ. Variability) — способность данный терять свою актуальность со временем. Может является частным показателем для жизнеспособности, если рассматривать их как единое целое и в одной системе классификации.

• Визуализация (от англ. Visualization) — характеризует набор данных в зависимости от степени удобства их представления и графической интерпертации [8].

Набор признаков VVV (Volume, Velocity, Variety) был выработан Meta Group в 2001 году вне контекста представлений понятия Big Data как об определённой структуры информационно-технологических методов и инструментов, поскольку, в связи с ростом популярности концепции центрального хранилища данных для организаций того времени, отмечалась

равнозначимость проблематик при управлении данными по всем трём аспектам. Затем стали появляться интерпретации с «4V», где четвёртая V представляет собой достоверность (от английского veracity) — набор истинной и наиболее важной для практического применения данных (использовалась в рекламных материалах IBM). IDC интерпретирует «четвёртое V» как value c точки зрения важности экономической целесообразности обработки соответствующих объёмов в соответствующих условиях, что отражено также и в определении больших данных от IDC. Интерпретация «5V» прибавляет к набору характеристик жизнеспособность (от англ. Viability), и ценность (от англ. Value), представляющие собой схожее с достоверностью определения, однако не берущее во внимания истинную причину происхождения данных и характер их правдивости. Это сделано с целью взять во внимания все имеющиеся выборки и выявить из них максимально возможное количество характеристик [9]. Интерпретация «7V» ,кроме всего упомянутого, добавляет также переменчивость (от англ. Variability) — способность данный терять свою актуальность со временем и визуализацию (от англ. visualization) — показатель степени возможности графической интерпретации выборок данных и их закономерностей. В каждом из случаев, в этих признаках подчёркивается, что определяющей характеристикой для больших данных является не только их физический объём, но и другие категории, специально разработанные для формирования представления о сложности задачи обработки и анализа данных.

Также, наборы данных характеризуют и по их физическому представлению. Существуют следующие категории: 1. Структурированные данные: это когда данные хранятся, извлекаются, или могут быть использованы в конкретном, определенном формате. Например, информация о клиенте банка может содержаться в базе данных в виде таблицы, сериализованного пакета и содержать информацию, которую возможно найти однозначно и без особых усилий (имя, возраст, номер телефона, номер счёта, состояния счёта, аресты и др.)

2. Неструктурированные данные: этот вид данных трудно категорировать или структурировать. Неструктурированные данные не имеют определенной формы или общего формата, а храниться могут в виде текста, пакетов или мультимедийных файлов. Хорошим примером могут являться электронные письма, текстовые документы, презентации, видео — которые хоть и могут принадлежать конкретной категории, однако данные в них хранятся хаотично и непредсказуемое.

3. Слабоструктурированные (полуструктурированные) данные: представляет собой некий гибрид, смешанную категорию между структурированными и неструктурированными данными. Основное отличие заключается в том, что нельзя категоризировать, но они имеют некоторые определенные свойства (например логи, тэги), которые можно проанализировать и структурировать для их хранения.

Рассмотренная выше классификация уже имеет своё отражение при исследовании проблематики использования Big Data. Исследуются оптимальные технологии для работы с учётом особенностей массива данных по «каждой из V», ведутся работы для разработки оптимальных алгоритмов при анализе неструктурированных массивов. Это достаточно важное направление для исследования, поскольку 80%-90% информации, которую получают компании — это неструктурированные данные [10]. Многообразные, большого объёма, имеющие не всегда необходимую скорость обработки, что приводит к их низкой жизнеспособности и ценности за счёт имеющейся переменчивости. Это всё представляет сложность при поиске необходимого значения. Достоверность данных уже является следующим направлением для исследования, хоть и для составления и анализ точных практических моделей необходимы правдивые наборы. Затем необходимо иметь алгоритмы, которые учитывают при работе каждую из особенностей датасета и способны давать ожидаемый результат. Для работы и анализа с Big Data используются такие направления как Data Science

(наука о данных), технологии Machine Learning (машинного обучения), частным случаем которого является Artificial Intelligence (искусственный интеллект). Но в основе любого подхода лежит серьёзный математический аппарат и большие вычислительные ресурсы для ЭВМ.

1. United Nations Development Programme. Public service excellence in the 21 st century

— Singapore: Springer Singapore, 2019 — 345 C.

2. Lynch C. How do your data grow? //Nature. — 2008. — V. 455. № 7209. — P. 28-29.

3. Корнев М.С. История понятия «Большие данные» (Big Data): словари, научная и деловая периодика // Вестник РГГУ. Серия: История. Филология. Культурология. Востоковедение. — 2018. — № 1(34). — С. 81-85.

4. Свириденкова М.А., Свириденков К.И.. Тенденции развития Big Data // Международный журнал информационных технологий и энергоэффективности.

— 2020. — № 1(15). — С. 23-29.

5. Сердюк С. В., Иващенко И. И. Применение Big Data в современных IT-технологиях. // Ассоциация научных сотрудников «Сибирская академическая книга». — 2017. — №1. — С. 73-74

6. XLVI международная научно-практическая конференция. Инновационные подходы в современной науке, Москва, 2019, 5 С.

7. Клименко А.В., Слащев И. С., Калайда А. В.. Методы обработки больших массивов данных в крупномасштабных системах // Инновационные подходы в современной науке (Москва, 24 мая 2019 года). — Москва, 2019.- С. 98-102.

8. Искаков Р.Р.. Big Data: Актуальные проблемы и пути решения // Моя профессиональная карьера — 2020. — Т.2 № 12. — С. 129-133.

9. Шаталова В.В., Лихачевский Д.В., Казак Т.В.. Большие данные: как технологии Big Data меняют нашу жизнь. // Big data and advanced analytics. — 2021. — № 7-1. -С. 188-192.

10. Формула Big Data: семь «V» + неординарная задача / Блог Форсайт.

11. IV Всероссийская научно-практической конференциия. Приоритетные и перспективные направления научно-технического развития российской федерации, Москва, 2021, 5 С.

12. Дегтярёва В.В., Гусейнова Н.Р.. Возможности применения глобальных технологий Big Data в автоматизированных системах управления // Приоритетные и перспективные направления научно-технического развития российской федерации (Москва, 11-12 марта 2021 года) — Москва, 2021. — С. 338342.

1. United Nations Development Programme. Public service excellence in the 21 st century

— Singapore: Springer Singapore, 2019 — 345 P.

2. Lynch C. How do your data grow? //Nature. — 2008. — V. 455. № 7209. — P. 28-29.

3. Kornev M.S. The history of the concept of «Big Data» (Big Data): dictionaries, scientific and business periodicals // Bulletin of the Russian State University for the Humanities. Series: History. Philology. Culturology. Oriental studies. — 2018. — No. 1 (34). — P. 81-85.

4. Sviridenkova M.A., Sviridenkov K.I. Big Data Development Trends // International Journal of Information Technologies and Energy Efficiency. — 2020. — No. 1(15). — P. 23-29.

5. Serdyuk S. V., Ivashchenko I. I. Application of Big Data in modern IT technologies. // Association of Researchers «Siberian Academic Book». — 2017. — No. 1. — P. 73-74

6. XLVI International scientific and practical conference. Innovative approaches in modern science, Moscow, 2019, 5 P.

7. Klimenko A.V., Slashchev I.S., Kalaida A.V. Methods for processing large data sets in large-scale systems // Innovative approaches in modern science (Moscow, May 24, 2019). — Moscow, 2019. — P. 98-102.

8. Iskakov R.R. Big Data: Actual problems and solutions // My professional career — 2020.

— V.2 No. 12. — P. 129-133.

9. Shatalova V.V., Likhachevsky D.V., Kazak T.V. Big data: how Big Data technologies change our lives. // Big data and advanced analytics. — 2021. — No. 7-1. — P. 188-192.

10. Big Data formula: seven «V» + extraordinary task / Foresight Blog. https://www.fsight.ru/blog/formula-big-data-sem-v-neordinarnaja-zadacha-2/ (01.16.2022).

11. IV All-Russian Scientific and Practical Conference. Priority and promising areas of scientific and technological development of the Russian Federation, Moscow, 2021, 5 P.

12. Degtyareva V.V., Huseynova N.R.. Possibilities of using global Big Data technologies in automated control systems // Priority and promising areas of scientific and technical development of the Russian Federation (Moscow, March 11-12, 2021) — Moscow, 2021. — P. 338-342.

© Менщиков А.А., Перфильев В.Э., Федосенко М.Ю., Фабзиев И.Р., 2022 Научный сетевой журнал «Столыпинский вестник» №1/2022.

Для цитирования: Менщиков А.А., Перфильев В.Э., Федосенко М.Ю., Фабзиев И.Р. Основные проблемы использования больших данных в современных информационных системах // Научный сетевой журнал «Столыпинский вестник» №1/2022.

Проблемы анализа данных

Сегодня практически каждая компания, независимо от ее размера, генерирует огромное количество данных: бухгалтерская отчетность, различные системы учета, колл-трекинговые системы, CRM, складские отчеты, данные из отдела кадров и др. Ясно, что данные должны работать – их нужно не только собирать и хранить, но и анализировать. Какие проблемы могут возникнуть при анализе данных?

Процесс анализа данных состоит из нескольких этапов:

— Обработка и хранение данных

— Собственно анализ данных

Сбор данных

Нельзя однозначно сказать, какой из этапов анализа наиболее важный – у каждого из них есть свои особенности и проблемы. Для результатов анализа важно, чтобы каждый этап был выполнен качественно и без ошибок. Какие трудности возникают на этапе сбора данных?

— Разный формат данных

— Ручной (!) сбор данных

На этапе сбора данных лучше заранее продумать, откуда и как будет собираться информация. Подготовить источники данных, унифицировать их, проверить на «задваивание» данных и другие ошибки. Конечно, это идеальная ситуация. В реальности мы сталкиваемся с тем, что объем данных уже есть и его нужно анализировать. В этом случае переходим к следующему этапу.

Обработка данных

Перед загрузкой данных в любую аналитическую систему их необходимо подготовить – унифицировать, найти и удалить ошибки, проверить на «задваивание» информации. Подготовка данных к анализу проводится автоматически – с помощью специальных программных решений.

Подготовка данных к анализу может состоять из нескольких процессов:

— Профилирование данных, которое помогает определить качество и полноту данных и помогает ответить на вопрос: подходят ли эти данные для анализа.

— Стандартизация, или унифицирование, данных.

— Очистка данных позволяет найти и устранить любые существующие ошибки.

— Обогащение данных позволяет дополнить существующие данные новыми, необходимыми для анализа – при этом для такого дополнения используются уже существующие данные. Например, можно указать пол клиента, используя анализ отчества (-вна или –вич), или по коду телефона определить город нахождения.

— Дедупликация данных помогает из неполных дублирующихся записей по объекту сделать одну – и обогатить ее недостающему данными (например, если по клиенту существует 2 записи, в одной из которых не указан город, но он указан в другой записи, то система может автоматически объединить записи, дополнив при этом запись городом проживания).

В обработке данных может помочь Alteryx. Это программное решение специально разработано для управления данными, их обработки, обогащения и подготовки к использованию в BI-анализе (например, при помощи программного решения Tableau).

Основная проблема загрузки данных сегодня – это, как отмечалось, большой объем данных. Причем поток данных поступает постоянно, в режиме реального времени и в идеале требует загрузки и аналитики в режиме реального времени. Поэтому при выборе базы данных, программного решения для аналитики обязательно следует обращать внимание на возможность системы одновременно выполнять несколько процессов:

— Загрузка данных из нескольких источников

— Качественная обработка данных

Анализ данных и визуализация

Основная проблема анализа данных сегодня – это быстрое получение результатов и их быстрая интерпретация. Сегодня как никогда важно, чтобы ваши данные не только быстро обрабатывались, но и анализировались в режиме реального времени.

Получается, что для качественного анализа данных нам уже необходим IT-специалист (разработчик) и хотя бы один аналитик, обладающий знаниями математической статистики и умеющий грамотно интерпретировать результаты анализы.

К счастью, это не так. Сегодня рынок предлагает big data для анализа больших данных, которая не требует специальных знаний, позволяет делать глубокий анализ и представляет данные красиво и понятно.

В чем преимущество таких автоматических систем анализа (типа Tableau http://analytikaplus.ru/products/tableau/)?

— Подключаются к нескольким источникам (ко всем популярным базам данных и системам аналитики и учета).

— Просты в освоении (не требуют специальных знаний в области IT или статистики).

— Анализируют огромные объемы информации.

— В результате анализа получаем красивые и простые интерактивные отчеты с возможностью кликнуть по любому сегменту или цифре и уточнить информацию.

Анализируйте ваши данные быстро, легко и красиво!

— Основы Tableau можно изучить за 2 дня обучения – это подтверждают наши видео-курсы. Полученных знаний хватает для того, чтобы сделать глубокую, красивую и понятную аналитику.

— Есть бесплатный пробный период в 14 дней

Большие ошибки в больших данных: проблемы анализа на практике

При работе с big data ошибок не избежать. Вам нужно докопаться до сути данных, расставить приоритеты, оптимизировать, визуализировать данные, извлечь правильные идеи. По результатам опросов, 85 % компаний стремятся к управлению данными, но только 37% сообщают об успехах в этой области. На практике изучать негативный опыт сложно, поскольку о провалах никто не любит говорить. Аналитики с удовольствием расскажут об успехах, но как только речь зайдет об ошибках, будьте готовы услышать про «накопление шума», «ложную корреляцию» и «случайную эндогенность», и без всякой конкретики. Действительно ли проблемы с big data существуют по большей части лишь на уровне теории?

Сегодня мы изучим опыт реальных ошибок, которые ощутимо повлияли на пользователей и аналитиков.

Ошибки выборки

В статье «Big data: A big mistake?» вспомнили об интересной истории со стартапом Street Bump. Компания предложила жителям Бостона следить за состоянием дорожного покрытия с помощью мобильного приложения. Софт фиксировал положение смартфона и аномальные отклонения от нормы: ямы, кочки, выбоины и т.д. Полученные данные в режиме реального времени отправлялись нужному адресату в муниципальные службы.

Однако в какой-то момент в мэрии заметили, что из богатых районов жалоб поступает гораздо больше, чем из бедных. Анализ ситуации показал, что обеспеченные жители имели телефоны с постоянным подключением к интернету, чаще ездили на машинах и были активными пользователями разных приложений, включая Street Bump.

В результате основным объектом исследования стало событие в приложении, но статистически значимой единицей интереса должен был оказаться человек, использующий мобильное устройство. Учитывая демографию пользователей смартфонов (на тот момент это в основном белые американцы со средним и высоким уровнем дохода), стало понятно, насколько ненадежными оказались данные.

Проблема неумышленной предвзятости десятилетиями кочует из одного исследования в другое: всегда будут люди, активнее других пользующиеся соцсетями, приложениями или хештегами. Самих по себе данных оказывается недостаточно — первостепенное значение имеет их качество. Подобно тому, как вопросники влияют на результаты опросов, электронные платформы, используемые для сбора данных, искажают результаты исследования за счет воздействия на поведение людей при работе с этими платформами.

По словам авторов исследования «Обзор методов обработки селективности в источниках больших данных», существует множество источников big data, не предназначенных для точного статистического анализа — опросы в интернете, просмотры страниц в Твиттере и Википедии, Google Trends, анализ частотности хештегов и др.

Одной из самых ярких ошибок такого рода является прогнозирование победы Хилари Клинтон на президентских выборах в США в 2016 году. По данным опроса Reuters/Ipsos, опубликованным за несколько часов до начала голосования, вероятность победы Клинтон составляла 90%. Исследователи предполагают, что методологически сам опрос мог быть проведен безупречно, а вот база, состоящая из 15 тыс. человек в 50 штатах, повела себя иррационально — вероятно, многие просто не признавались, что хотят проголосовать за Трампа.

Ошибки корреляций

Непонятная корреляция и запутанная причинно-следственная связь часто ставят в тупик начинающих дата-сайнтистов. В результате появляются модели, безупречные с точки зрения математики и совершенно не жизнеспособные в реальности.

На диаграмме выше показано общее количество наблюдений НЛО с 1963 года. Число зарегистрированных случаев из базы данных Национального центра отчетности по НЛО в течение многих лет оставалось примерно на одном уровне, однако в 1993 году произошел резкий скачок.

Таким образом, можно сделать совершенно логичный вывод, что 27 лет назад пришельцы всерьез взялись за изучение землян. Реальная же причина заключалась в том, что в сентябре 1993 года вышел первый эпизод «Секретных материалов» (на пике его посмотрели более 25 млн человек в США).

Теперь взгляните на данные, которые показывают частоту наблюдений НЛО в зависимости от времени суток и дня недели: желто-оранжевым окрашена наибольшая частота случаев наблюдения. Очевидно, что пришельцы чаще высаживаются на Землю в выходные, потому что в остальное время они ходят на работу. Значит, исследование людей для них — хобби?

Эти веселые корреляции имеют далеко идущие последствия. Так, например, исследование «Доступ к печати в сообществах с низким уровнем дохода» показало, что школьники, имеющие доступ к большему количеству книг, получают лучшие оценки. Руководствуясь данными научной работы, власти Филадельфии (США) занялись реорганизацией системы образования.

Пятилетний проект предусматривал преобразование 32 библиотек, что обеспечило бы равные возможности для всех детей и семей в Филадельфии. На первый взгляд, план выглядел великолепно, но, к сожалению, в исследовании не учитывалось, действительно ли дети читали книги — в нем лишь рассматривался вопрос, доступны книги или нет.

В итоге значимых результатов добиться не удалось. Дети, не читавшие книги до исследования, не полюбили вдруг чтение. Город потерял миллионы долларов, оценки у школьников из неблагополучных районов не улучшились, а дети, воспитанные на любви к книгам, продолжили учиться так же, как учились.

Потеря данных

Иногда выборка может быть верной, но авторы просто теряют необходимые для анализа данные. Так произошло в работе, широко разошедшейся по миру под названием «Фрикономика». В книге, общий тираж которой превысил 4 млн экземпляров, исследовался феномен возникновения неочевидных причинно-следственных связей. Например, среди громких идей книги звучит мысль, что причиной спада подростковой преступности в США стал не рост экономики и культуры, а легализация абортов.

Авторы «Фрикономики», профессор экономики Чикагского университета Стивен Левитт и журналист Стивен Дабнер, через несколько лет признались, что в итоговое исследование абортов попали не все собранные цифры, поскольку данные просто исчезли. Левитт объяснил методологический просчет тем, что в тот момент «они очень устали», и сослался на статистическую незначимость этих данных для общего вывода исследования.

Действительно ли аборты снижают количество будущих преступлений или нет — вопрос все еще дискуссионный. Однако у авторов подметили множество других ошибок, и часть из них удивительно напоминает ситуацию с популярностью уфологии в 1990-х годах.

Ошибки анализа

Биотех стал для технологических предпринимателей новым рок-н-роллом. Его также называют «новым IT-рынком» и даже «новым криптомиром», имея ввиду взрывную популярность у инвесторов компаний, занимающихся обработкой биомедицинской информации.

Являются ли данные по биомаркерам и клеточным культурам «новой нефтью» или нет — вопрос второстепенный. Интерес вызывают последствия накачки индустрии быстрыми деньгами. В конце концов, биотех может представлять угрозу не только для кошельков венчурных фондов, но и напрямую влиять на здоровье людей.

Например, как указывает генетик Стивен Липкин, для генома есть возможность делать высококлассные анализы, но информация о контроле качества часто закрыта для врачей и пациентов. Иногда до заказа теста вы не можете заранее узнать, насколько велика глубина покрытия при секвенировании. Когда ген прочитывают недостаточное число раз для адекватного покрытия, программное обеспечение находит мутацию там, где ее нет. Зачастую мы не знаем, какой именно алгоритм используется для классификации аллелей генов на полезные и вредные.

Тревогу вызывает большое количество научных работ в области генетики, в которых содержатся ошибки. Команда австралийских исследователей проанализировала около 3,6 тыс. генетических работ, опубликованных в ряде ведущих научных журналов. В результате обнаружилось, что примерно одна из пяти работ включала в свои списки генов ошибки.

Поражает источник этих ошибок: вместо использования специальных языков для статистической обработки данных ученые сводили все данные в Excel-таблице. Excel автоматически преобразовывал названия генов в календарные даты или случайные числа. А вручную перепроверить тысячи и тысячи строк просто невозможно.

В научной литературе гены часто обозначаются символами: например, ген Септин-2 сокращают до SEPT2, а Membrane Associated Ring Finger (C3HC4) 1 — до MARCH1. Excel, опираясь на настройки по умолчанию, заменял эти строки датами. Исследователи отметили, что не стали первооткрывателями проблемы — на нее указывали более десятилетия назад.

В другом случае Excel нанес крупный удар по экономической науке. Знаменитые экономисты Гарвардского университета Кармен Рейнхарт и Кеннет Рогофф в исследовательской работе проанализировали 3,7 тыс. различных случаев увеличения госдолга и его влияние на рост экономики 42 стран в течение 200 лет.

Работа «Рост за время долга» однозначно указывала, что при уровне госдолга ниже 90 % ВВП он практически не влияет на рост экономики. Если же госдолг превышает 90 % ВВП, медианные темпы роста падают на 1 %.

Исследование оказало огромное влияние на то, как мир боролся с последним экономическим кризисом. Работа широко цитировалась для оправдания сокращения бюджета в США и Европе.

Однако несколько лет спустя Томас Херндорн, Майкл Эш и Роберт Поллин из Университета Массачусетса, разобрав по пунктам работу Рогоффа и Рейнхарта, выявили банальные неточности при работе с Excel. Статистика, на самом деле, не показывает никакой зависимости между темпами роста ВВП и госдолгом.

Заключение: исправление ошибок как источник ошибок

Учитывая огромное количество информации для анализа, некоторые ошибочные ассоциации возникают просто потому, что такова природа вещей. Если ошибки редки и близки к случайным, выводы итогового анализа могут не пострадать. В некоторых случаях бороться с ними бессмысленно, так как борьба с ошибками при сборе данных может привести к возникновению новых ошибок.

Знаменитый статистик Эдвард Деминг сформулировал описание этого парадокса следующим образом: настройка стабильного процесса для компенсации небольших имеющихся отклонений с целью достижения наиболее высоких результатов может привести к худшему результату, чем если бы не происходило вмешательства в процесс.

В качестве иллюстрации проблем с чрезмерным исправлением данных используется моделирование корректировок в процессе случайного падения шариков через воронку. Корректировать процесс можно с помощью нескольких правил, основная цель которых — предоставить возможность попасть как можно ближе к центру воронки. Однако чем больше вы будете следовать правилам, тем более разочаровывающими будут результаты.

Проще всего эксперимент с воронкой провести онлайн, для чего создали симулятор. Пишите в комментариях, каких результатов вам удалось достичь.

Правильно анализировать большие данные мы можем научить в Академии MADE — бесплатном образовательном проекте от Mail.ru Group. Заявки на обучение принимаем до 1 августа включительно.

  • Блог компании VK
  • Анализ и проектирование систем
  • Big Data
  • Математика
  • Визуализация данных

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *