Технология когда одна инструкция оперирует многими данными называется

This article’s factual accuracy may be compromised due to out-of-date information. Please help update this article to reflect recent events or newly available information. (March 2017)

Single instruction, multiple data

Single instruction, multiple data (SIMD) is a type of parallel processing in Flynn’s taxonomy. SIMD can be internal (part of the hardware design) and it can be directly accessible through an instruction set architecture (ISA), but it should not be confused with an ISA. SIMD describes computers with multiple processing elements that perform the same operation on multiple data points simultaneously.

Such machines exploit data level parallelism, but not concurrency: there are simultaneous (parallel) computations, but each unit performs the exact same instruction at any given moment (just with different data). SIMD is particularly applicable to common tasks such as adjusting the contrast in a digital image or adjusting the volume of digital audio. Most modern CPU designs include SIMD instructions to improve the performance of multimedia use. SIMD has three different subcategories in Flynn’s 1972 Taxonomy, one of which is SIMT. SIMT should not be confused with software threads or hardware threads, both of which are task time-sharing (time-slicing). SIMT is true simultaneous parallel hardware-level execution.

History[edit]

The first use of SIMD instructions was in the ILLIAC IV, which was completed in 1966.

SIMD was the basis for vector supercomputers of the early 1970s such as the CDC Star-100 and the Texas Instruments ASC, which could operate on a «vector» of data with a single instruction. Vector processing was especially popularized by Cray in the 1970s and 1980s. Vector processing architectures are now considered separate from SIMD computers: Duncan’s Taxonomy includes them where Flynn’s Taxonomy does not, due to Flynn’s work (1966, 1972) pre-dating the Cray-1 (1977).

The first era of modern SIMD computers was characterized by massively parallel processing-style supercomputers such as the Thinking Machines CM-1 and CM-2. These computers had many limited-functionality processors that would work in parallel. For example, each of 65,536 single-bit processors in a Thinking Machines CM-2 would execute the same instruction at the same time, allowing, for instance, to logically combine 65,536 pairs of bits at a time, using a hypercube-connected network or processor-dedicated RAM to find its operands. Supercomputing moved away from the SIMD approach when inexpensive scalar MIMD approaches based on commodity processors such as the Intel i860 XP[2] became more powerful, and interest in SIMD waned.

The current era of SIMD processors grew out of the desktop-computer market rather than the supercomputer market. As desktop processors became powerful enough to support real-time gaming and audio/video processing during the 1990s, demand grew for this particular type of computing power, and microprocessor vendors turned to SIMD to meet the demand.[3] Hewlett-Packard introduced MAX instructions into PA-RISC 1.1 desktops in 1994 to accelerate MPEG decoding.[4] Sun Microsystems introduced SIMD integer instructions in its «VIS» instruction set extensions in 1995, in its UltraSPARC I microprocessor. MIPS followed suit with their similar MDMX system.

The first widely deployed desktop SIMD was with Intel’s MMX extensions to the x86 architecture in 1996. This sparked the introduction of the much more powerful AltiVec system in the Motorola PowerPC and IBM’s POWER systems. Intel responded in 1999 by introducing the all-new SSE system. Since then, there have been several extensions to the SIMD instruction sets for both architectures. Advanced vector extensions AVX, AVX2 and AVX-512 are developed by Intel. AMD supports AVX and AVX2 in their current products.

All of these developments have been oriented toward support for real-time graphics, and are therefore oriented toward processing in two, three, or four dimensions, usually with vector lengths of between two and sixteen words, depending on data type and architecture. When new SIMD architectures need to be distinguished from older ones, the newer architectures are then considered «short-vector» architectures, as earlier SIMD and vector supercomputers had vector lengths from 64 to 64,000. A modern supercomputer is almost always a cluster of MIMD computers, each of which implements (short-vector) SIMD instructions.

Advantages[edit]

An application that may take advantage of SIMD is one where the same value is being added to (or subtracted from) a large number of data points, a common operation in many multimedia applications. One example would be changing the brightness of an image. Each pixel of an image consists of three values for the brightness of the red (R), green (G) and blue (B) portions of the color. To change the brightness, the R, G and B values are read from memory, a value is added to (or subtracted from) them, and the resulting values are written back out to memory. Audio DSPs would likewise, for volume control, multiply both Left and Right channels simultaneously.

With a SIMD processor there are two improvements to this process. For one the data is understood to be in blocks, and a number of values can be loaded all at once. Instead of a series of instructions saying «retrieve this pixel, now retrieve the next pixel», a SIMD processor will have a single instruction that effectively says «retrieve n pixels» (where n is a number that varies from design to design). For a variety of reasons, this can take much less time than retrieving each pixel individually, as with a traditional CPU design.

Another advantage is that the instruction operates on all loaded data in a single operation. In other words, if the SIMD system works by loading up eight data points at once, the add operation being applied to the data will happen to all eight values at the same time. This parallelism is separate from the parallelism provided by a superscalar processor; the eight values are processed in parallel even on a non-superscalar processor, and a superscalar processor may be able to perform multiple SIMD operations in parallel.

Disadvantages[edit]

  • Not all algorithms can be vectorized easily. For example, a flow-control-heavy task like code parsing may not easily benefit from SIMD; however, it is theoretically possible to vectorize comparisons and «batch flow» to target maximal cache optimality, though this technique will require more intermediate state. Note: Batch-pipeline systems (example: GPUs or software rasterization pipelines) are most advantageous for cache control when implemented with SIMD intrinsics, but they are not exclusive to SIMD features. Further complexity may be apparent to avoid dependence within series such as code strings; while independence is required for vectorization.[clarification needed]
  • Large register files which increases power consumption and required chip area.
  • Currently, implementing an algorithm with SIMD instructions usually requires human labor; most compilers don’t generate SIMD instructions from a typical C program, for instance. Automatic vectorization in compilers is an active area of computer science research. (Compare vector processing.)
  • Programming with particular SIMD instruction sets can involve numerous low-level challenges.
    1. SIMD may have restrictions on data alignment; programmers familiar with one particular architecture may not expect this. Worse: the alignment may change from one revision or «compatible» processor to another.
    2. Gathering data into SIMD registers and scattering it to the correct destination locations is tricky (sometimes requiring permute operations) and can be inefficient.
    3. Specific instructions like rotations or three-operand addition are not available in some SIMD instruction sets.
    4. Instruction sets are architecture-specific: some processors lack SIMD instructions entirely, so programmers must provide non-vectorized implementations (or different vectorized implementations) for them.
    5. Different architectures provide different register sizes (e.g. 64, 128, 256 and 512 bits) and instruction sets, meaning that programmers must provide multiple implementations of vectorized code to operate optimally on any given CPU. In addition, the possible set of SIMD instructions grows with each new register size. Unfortunately, for legacy support reasons, the older versions cannot be retired.
    6. The early MMX instruction set shared a register file with the floating-point stack, which caused inefficiencies when mixing floating-point and MMX code. However, SSE2 corrects this.

To remedy problems 1 and 5, RISC-V’s vector extension uses an alternative approach: instead of exposing the sub-register-level details to the programmer, the instruction set abstracts them out as a few «vector registers» that use the same interfaces across all CPUs with this instruction set. The hardware handles all alignment issues and «strip-mining» of loops. Machines with different vector sizes would be able to run the same code. LLVM calls this vector type «vscale».[citation needed]

An order of magnitude increase in code size is not uncommon, when compared to equivalent scalar or equivalent vector code, and an order of magnitude or greater effectiveness (work done per instruction) is achievable with Vector ISAs.[5]

ARM’s Scalable Vector Extension takes another approach, known in Flynn’s Taxonomy as «Associative Processing», more commonly known today as «Predicated» (masked) SIMD. This approach is not as compact as Vector processing but is still far better than non-predicated SIMD. Detailed comparative examples are given in the Vector processing page.

Chronology[edit]

Examples of SIMD supercomputers (not including vector processors)

Year Example
1974 ILLIAC IV
1974 ICL Distributed Array Processor (DAP)
1976 Burroughs Scientific Processor
1981 Geometric-Arithmetic Parallel Processor from Martin Marietta (continued at Lockheed Martin, then at Teranex and Silicon Optix)
1983-1991 Massively Parallel Processor (MPP), from NASA/Goddard Space Flight Center
1985 Connection Machine, models 1 and 2 (CM-1 and CM-2), from Thinking Machines Corporation
1987-1996 MasPar MP-1 and MP-2
1991 Zephyr DC from Wavetracer
2001 Xplor from Pyxsys, Inc.

Hardware[edit]

Small-scale (64 or 128 bits) SIMD became popular on general-purpose CPUs in the early 1990s and continued through 1997 and later with Motion Video Instructions (MVI) for Alpha. SIMD instructions can be found, to one degree or another, on most CPUs, including IBM’s AltiVec and SPE for PowerPC, HP’s PA-RISC Multimedia Acceleration eXtensions (MAX), Intel’s MMX and iwMMXt, SSE, SSE2, SSE3 SSSE3 and SSE4.x, AMD’s 3DNow!, ARC’s ARC Video subsystem, SPARC’s VIS and VIS2, Sun’s MAJC, ARM’s Neon technology, MIPS’ MDMX (MaDMaX) and MIPS-3D. The IBM, Sony, Toshiba co-developed Cell Processor’s SPU’s instruction set is heavily SIMD based. Philips, now NXP, developed several SIMD processors named Xetal. The Xetal has 320 16-bit processor elements especially designed for vision tasks.

Modern graphics processing units (GPUs) are often wide SIMD implementations, capable of branches, loads, and stores on 128 or 256 bits at a time.

Intel’s AVX-512 SIMD instructions process 512 bits of data at once.

Software[edit]

The ordinary tripling of four 8-bit numbers. The CPU loads one 8-bit number into R1, multiplies it with R2, and then saves the answer from R3 back to RAM. This process is repeated for each number.

The SIMD tripling of four 8-bit numbers. The CPU loads 4 numbers at once, multiplies them all in one SIMD-multiplication, and saves them all at once back to RAM. In theory, the speed can be multiplied by 4.

SIMD instructions are widely used to process 3D graphics, although modern graphics cards with embedded SIMD have largely taken over this task from the CPU. Some systems also include permute functions that re-pack elements inside vectors, making them particularly useful for data processing and compression. They are also used in cryptography.[6][7][8] The trend of general-purpose computing on GPUs (GPGPU) may lead to wider use of SIMD in the future.

Adoption of SIMD systems in personal computer software was at first slow, due to a number of problems. One was that many of the early SIMD instruction sets tended to slow overall performance of the system due to the re-use of existing floating point registers. Other systems, like MMX and 3DNow!, offered support for data types that were not interesting to a wide audience and had expensive context switching instructions to switch between using the FPU and MMX registers. Compilers also often lacked support, requiring programmers to resort to assembly language coding.

SIMD on x86 had a slow start. The introduction of 3DNow! by AMD and SSE by Intel confused matters somewhat, but today the system seems to have settled down (after AMD adopted SSE) and newer compilers should result in more SIMD-enabled software. Intel and AMD now both provide optimized math libraries that use SIMD instructions, and open source alternatives like libSIMD, SIMDx86 and SLEEF have started to appear (see also libm).[9]

Apple Computer had somewhat more success, even though they entered the SIMD market later than the rest. AltiVec offered a rich system and can be programmed using increasingly sophisticated compilers from Motorola, IBM and GNU, therefore assembly language programming is rarely needed. Additionally, many of the systems that would benefit from SIMD were supplied by Apple itself, for example iTunes and QuickTime. However, in 2006, Apple computers moved to Intel x86 processors. Apple’s APIs and development tools (XCode) were modified to support SSE2 and SSE3 as well as AltiVec. Apple was the dominant purchaser of PowerPC chips from IBM and Freescale Semiconductor and even though they abandoned the platform, further development of AltiVec is continued in several PowerPC and Power ISA designs from Freescale and IBM.

SIMD within a register, or SWAR, is a range of techniques and tricks used for performing SIMD in general-purpose registers on hardware that doesn’t provide any direct support for SIMD instructions. This can be used to exploit parallelism in certain algorithms even on hardware that does not support SIMD directly.

Programmer interface[edit]

It is common for publishers of the SIMD instruction sets to make their own C/C++ language extensions with intrinsic functions or special datatypes (with operator overloading) guaranteeing the generation of vector code. Intel, AltiVec, and ARM NEON provide extensions widely adopted by the compilers targeting their CPUs. (More complex operations are the task of vector math libraries.)

The GNU C Compiler takes the extensions a step further by abstracting them into a universal interface that can be used on any platform by providing a way of defining SIMD datatypes.[10] The LLVM Clang compiler also implements the feature, with an analogous interface defined in the IR.[11] Rust’s packed_simd crate uses this interface, and so does Swift 2.0+.

C++ has an experimental interface std::experimental::simd that works similarly to the GCC extension. LLVM’s libcxx seems to implement it.[citation needed] For GCC and libstdc++, a wrapper library that builds on top of the GCC extension is available.[12]

Microsoft added SIMD to .NET in RyuJIT.[13] The System.Numerics.Vector package, available on NuGet, implement SIMD datatypes.[14] Java also has a new proposed API for SIMD instructions [15] available in OpenJDK 17 in an incubator module. It also has a safe fallback mechanism on unsupported CPUs to simple loops.

Instead of providing an SIMD datatype, compilers can also be hinted to auto-vectorize some loops, potentially taking some assertions about the lack of data dependency. This is not as flexible as manipulating SIMD variables directly, but is easier to use. OpenMP 4.0+ has a #pragma omp simd hint.[16] This OpenMP interface has replaced a wide set of nonstandard extensions, including Cilk’s #pragma simd.,[17] GCC’s #pragma GCC ivdep, and many more.[18]

SIMD multi-versioning[edit]

Consumer software is typically expected to work on a range of CPUs covering multiple generations, which could limit the programmer’s ability to use new SIMD instructions to improve the computational performance of a program. The solution is to include multiple versions of the same code that uses either older or newer SIMD technologies, and pick one that best fits the user’s CPU at run-time (dynamic dispatch). There are two main camps of solutions:

  • Function multi-versioning (FMV): a subroutine in the program or a library is duplicated and compiled for many instruction set extensions, and the program decides which one to use at run-time.
  • Library multi-versioning (LMV): the entire programming library is duplicated for many instruction set extensions, and the operating system or the program decides which one to load at run-time.

FMV, manually coded in assembly language, is quite commonly used in a number of performance-critical libraries such as glibc and libjpeg-turbo. Intel C++ Compiler, GNU Compiler Collection since GCC 6, and Clang since clang 7 allow for a simplified approach, with the compiler taking care of function duplication and selection. GCC and clang requires explicit target_clones labels in the code to «clone» functions,[19] while ICC does so automatically (under the command-line option /Qax). The Rust programming language also supports FMV. The setup is similar to GCC and Clang in that the code defines what instruction sets to compile for, but cloning is manually done via inlining.[20]

As using FMV requires code modification on GCC and Clang, vendors more commonly use library multi-versioning: this is easier to achieve as only compiler switches need to be changed. Glibc supports LMV and this functionality is adopted by the Intel-backed Clear Linux project.[21]

SIMD on the web[edit]

In 2013 John McCutchan announced that he had created a high-performance interface to SIMD instruction sets for the Dart programming language, bringing the benefits of SIMD to web programs for the first time. The interface consists of two types:[22]

  • Float32x4, 4 single precision floating point values.
  • Int32x4, 4 32-bit integer values.

Instances of these types are immutable and in optimized code are mapped directly to SIMD registers. Operations expressed in Dart typically are compiled into a single instruction without any overhead. This is similar to C and C++ intrinsics. Benchmarks for 4×4 matrix multiplication, 3D vertex transformation, and Mandelbrot set visualization show near 400% speedup compared to scalar code written in Dart.

McCutchan’s work on Dart, now called SIMD.js, has been adopted by ECMAScript and Intel announced at IDF 2013 that they are implementing McCutchan’s specification for both V8 and SpiderMonkey.[23] However, by 2017, SIMD.js has been taken out of the ECMAScript standard queue in favor of pursuing a similar interface in WebAssembly.[24] As of August 2020, the WebAssembly interface remains unfinished, but its portable 128-bit SIMD feature has already seen some use in many engines.

Emscripten, Mozilla’s C/C++-to-JavaScript compiler, with extensions can enable compilation of C++ programs that make use of SIMD intrinsics or GCC-style vector code to the SIMD API of JavaScript, resulting in equivalent speedups compared to scalar code.[25] It also supports (and now prefers) the WebAssembly 128-bit SIMD proposal.[26]

Commercial applications[edit]

Though it has generally proven difficult to find sustainable commercial applications for SIMD-only processors, one that has had some measure of success is the GAPP, which was developed by Lockheed Martin and taken to the commercial sector by their spin-off Teranex. The GAPP’s recent incarnations have become a powerful tool in real-time video processing applications like conversion between various video standards and frame rates (NTSC to/from PAL, NTSC to/from HDTV formats, etc.), deinterlacing, image noise reduction, adaptive video compression, and image enhancement.

A more ubiquitous application for SIMD is found in video games: nearly every modern video game console since 1998 has incorporated a SIMD processor somewhere in its architecture. The PlayStation 2 was unusual in that one of its vector-float units could function as an autonomous DSP executing its own instruction stream, or as a coprocessor driven by ordinary CPU instructions. 3D graphics applications tend to lend themselves well to SIMD processing as they rely heavily on operations with 4-dimensional vectors. Microsoft’s Direct3D 9.0 now chooses at runtime processor-specific implementations of its own math operations, including the use of SIMD-capable instructions.

One of the recent processors to use vector processing is the Cell Processor developed by IBM in cooperation with Toshiba and Sony. It uses a number of SIMD processors (a NUMA architecture, each with independent local store and controlled by a general purpose CPU) and is geared towards the huge datasets required by 3D and video processing applications. It differs from traditional ISAs by being SIMD from the ground up with no separate scalar registers.

Ziilabs produced an SIMD type processor for use on mobile devices, such as media players and mobile phones.[27]

Larger scale commercial SIMD processors are available from ClearSpeed Technology, Ltd. and Stream Processors, Inc. ClearSpeed’s CSX600 (2004) has 96 cores each with two double-precision floating point units while the CSX700 (2008) has 192. Stream Processors is headed by computer architect Bill Dally. Their Storm-1 processor (2007) contains 80 SIMD cores controlled by a MIPS CPU.

See also[edit]

  • Streaming SIMD Extensions, MMX, SSE2, SSE3, Advanced Vector Extensions, AVX-512
  • Instruction set architecture
  • Flynn’s taxonomy
  • SIMD within a register (SWAR)
  • Single Program, Multiple Data (SPMD)
  • OpenCL

References[edit]

  1. ^ Flynn, Michael J. (September 1972). «Some Computer Organizations and Their Effectiveness» (PDF). IEEE Transactions on Computers. C-21 (9): 948–960. doi:10.1109/TC.1972.5009071.
  2. ^ «MIMD1 — XP/S, CM-5» (PDF).
  3. ^ Conte, G.; Tommesani, S.; Zanichelli, F. (2000). «The long and winding road to high-performance image processing with MMX/SSE». Proc. Fifth IEEE Int’l Workshop on Computer Architectures for Machine Perception. doi:10.1109/CAMP.2000.875989. hdl:11381/2297671. S2CID 13180531.
  4. ^ Lee, R.B. (1995). «Realtime MPEG video via software decompression on a PA-RISC processor». digest of papers Compcon ’95. Technologies for the Information Superhighway. pp. 186–192. doi:10.1109/CMPCON.1995.512384. ISBN 0-8186-7029-0. S2CID 2262046.
  5. ^ Patterson, David; Waterman, Andrew (18 September 2017). «SIMD Instructions Considered Harmful». SIGARCH.
  6. ^ RE: SSE2 speed, showing how SSE2 is used to implement SHA hash algorithms
  7. ^ Salsa20 speed; Salsa20 software, showing a stream cipher implemented using SSE2
  8. ^ Subject: up to 1.4x RSA throughput using SSE2, showing RSA implemented using a non-SIMD SSE2 integer multiply instruction.
  9. ^ «SIMD library math functions». Stack Overflow. Retrieved 16 January 2020.
  10. ^ «Vector Extensions». Using the GNU Compiler Collection (GCC). Retrieved 16 January 2020.
  11. ^ «Clang Language Extensions». Clang 11 documentation. Retrieved 16 January 2020.
  12. ^ «VcDevel/std-simd». VcDevel. 6 August 2020.
  13. ^ «RyuJIT: The next-generation JIT compiler for .NET». 30 September 2013.
  14. ^ «The JIT finally proposed. JIT and SIMD are getting married». 7 April 2014.
  15. ^ «JEP 338: Vector API».
  16. ^ «SIMD Directives». www.openmp.org.
  17. ^ «Tutorial pragma simd». CilkPlus. 18 July 2012. Archived from the original on 4 December 2020. Retrieved 9 August 2020.
  18. ^ Kruse, Michael. «OMP5.1: Loop Transformations» (PDF).
  19. ^ «Function multi-versioning in GCC 6». lwn.net.
  20. ^ «2045-target-feature». The Rust RFC Book.
  21. ^ «Transparent use of library packages optimized for Intel® architecture». Clear Linux* Project. Retrieved 8 September 2019.
  22. ^ John McCutchan. «Bringing SIMD to the web via Dart» (PDF). Archived from the original (PDF) on 2013-12-03.
  23. ^ «SIMD in JavaScript». 01.org. 8 May 2014.
  24. ^ «tc39/ecmascript_simd: SIMD numeric type for EcmaScript». GitHub. Ecma TC39. 22 August 2019. Retrieved 8 September 2019.
  25. ^ Jensen, Peter; Jibaja, Ivan; Hu, Ningxin; Gohman, Dan; McCutchan, John (2015). «SIMD in JavaScript via C++ and Emscripten» (PDF).
  26. ^ «Porting SIMD code targeting WebAssembly». Emscripten 1.40.1 documentation.
  27. ^ «ZiiLABS ZMS-05 ARM 9 Media Processor». ZiiLabs. Archived from the original on 2011-07-18. Retrieved 2010-05-24.

External links[edit]

  • SIMD architectures (2000)
  • Cracking Open The Pentium 3 (1999)
  • Short Vector Extensions in Commercial Microprocessor
  • Article about Optimizing the Rendering Pipeline of Animated Models Using the Intel Streaming SIMD Extensions
  • «Yeppp!»: cross-platform, open-source SIMD library from Georgia Tech
  • Introduction to Parallel Computing from LLNL Lawrence Livermore National Laboratory Archived 2013-06-10 at the Wayback Machine
  • simde on GitHub: A portable implementation of platform-specific intrinsics for other platforms (e.g. SSE intrinsics for ARM NEON), using C/C++ headers

Справочная страница по устранению неоднозначности

Для одноименных статей см. Single .

несколько процессоров обрабатывают несколько потоков данных с одинаковыми инструкциями

Единая инструкция для нескольких данных (что на английском языке означает «одна инструкция, несколько данных»), или SIMD , является одной из четырех категорий архитектуры, определенных в таксономии Флинна в 1966 году, и обозначает режим работы компьютеров, наделенных мощностями. от параллельности . В этом режиме одна и та же инструкция применяется к нескольким данным одновременно для получения нескольких результатов.

Эта аббревиатура используется в противоположность SISD ( одна инструкция, отдельные данные ), традиционной операции, MIMD ( несколько инструкций, несколько данных ), работе с несколькими процессорами с независимой памятью или SPMD ( одна программа, несколько данных ). Существует также термин SIMT ( Single Instruction, Multiple Threads ), который является улучшением SIMD за счет его адаптации к многопоточным вычислениям .

Исторический

Определено систематике Флинна в 1966 году, один из первых приложений будет в Cray-1 суперкомпьютер в 1976 году .

В начале 1990 — х годов , в Macintosh микрокомпьютеры от компании Apple и BeBox были оснащены RISC PowerPC процессоров , они включали в себя fmadd инструкцию (стоя для плавающей умножения-сложения , то есть плавучий сложение-mulitiplication) и fmsub (с английского плавающей умножения-вычитания , означает плавающее вычитание-умножение), способный умножать два регистра, затем добавлять или вычитать из третьего и помещать результат в четвертый, они могут быть выбраны по желанию в регистрах с плавающей запятой двойной точности FPU . Эти, как и большинство других плавающих инструкций, используют процессоры с технологией RISC от трех до четырех тактовых циклов для своего выполнения, но до трех могут выполняться параллельно благодаря конвейерной системе.

в 8 января 1997 г., Intel выпускает первый микропроцессор с технологией MMX , Pentium MMX (P166MX) с тактовой частотой 166  МГц , это первый случай, когда SIMD был добавлен к процессору с технологией CISC . Позже, в 1997 году , AMD также выпустила MMX-совместимый процессор X86 (по лицензии Intel), включая дополнительный набор SIMD, 3DNow! В 1999 году Intel добавит новую игру SIMD с технологией SSE , несовместимой с 3DNow !.

VFP ARM вектор процессор представлен в SoC в 2000 — е годы , что позволило ввести их в мобильных телефонах и других мобильных устройствах с очень низким энергопотреблением. В 2009 году ARM представила новую линейку процессоров ARM Cortex-A , основанную на технологии NEON , с первой моделью Cortex-A8 , которая повысила производительность устройств этого типа.

Использовать

Модель SIMD особенно подходит для обработки, структура которой очень регулярна, как в случае матричных вычислений . Как правило, приложения, использующие архитектуры SIMD, — это те, которые используют множество массивов, матриц или подобных структур данных. В частности, можно упомянуть научные приложения или обработку сигналов.

Аппаратная реализация

Аппаратная реализация парадигмы SIMD может быть реализована различными способами:

  • посредством использования инструкций SIMD, как правило, в микрокоде, интерпретируемом на CISC или связанном с RISC;
  • на векторных процессорах  ;
  • от потоковых процессоров  (EN)  ;
  • или через системы, содержащие многоядерные процессоры или несколько процессоров.

В первых трех случаях один процессор, естественно, может выполнять идентичную операцию с разными данными.

В последнем случае каждый процессор будет выполнять одну операцию с данными. Таким образом, параллелизм SIMD обусловлен использованием нескольких процессоров.

SIMD инструкции

Эти инструкции представляют собой инструкции, которые могут выполнять несколько операций параллельно с разными данными.

Рассматриваемые операции могут быть:

  • побитовые операции, такие как и , или , не побитовые  ;
  • дополнения;
  • вычитания;
  • умножения;
  • возможно подразделения;
  • или более сложные математические операции.

Пример выполнения инструкции сложения вектора.

Все эти инструкции SIMD работают с набором данных одного размера и типа. Эти данные собираются в виде блоков данных фиксированного размера, называемых вектором. Эти векторы содержат несколько целых чисел или чисел с плавающей запятой, расположенных рядом друг с другом.

Инструкция SIMD будет обрабатывать все данные вектора независимо от других. Например, инструкция сложения SIMD суммирует данные, которые находятся в одном месте в двух векторах, и помещает результат в другой вектор в том же месте. При выполнении инструкции для вектора данные, присутствующие в этом векторе, обрабатываются одновременно.

Все современные процессоры содержат расширения своего набора команд, такие как MMX, SSE и т. Д. Эти расширения были добавлены в современные процессоры, чтобы повысить скорость обработки вычислений. Команды SIMD состоят, в частности, из наборов команд:

  • На процессоре x86  : MMX , 3DNow! , SSE , SSE2 , SSE3 , SSSE3 , SSE4 , SSE4.1, SSE4.2, AVX , AVX2 и AVX512;
  • На процессоре PowerPC  : AltiVec  ;
  • На процессоре ARM  : VFP , VFPv2, VFPv3lite, VFPv3, NEON , VFPv4;
  • На процессоре SPARC  : VIS и VIS2;
  • На процессоре MIPS  : MDMX и MIPS-3D.

Регистры SIMD

Векторы, обрабатываемые этими инструкциями, часто помещаются в отдельные регистры, специализирующиеся на хранении векторов. Часто они довольно большие по размеру, от 128 до 256 бит.

Однако некоторые процессоры используют свои общие регистры для хранения этих векторов. Следовательно, они не обязательно имеют специализированные регистры, а обычные регистры используются для поддержки векторов. Затем инструкции SIMD работают с теми же регистрами, что и их аналоги, не относящиеся к SIMD. Эта форма инструкций SIMD называется micro-SIMD.

Использовать для оптимизации

Программы, оптимизированные с помощью этого вида инструкций, требуют много ресурсов процессора: сжатие данных , кодек для воспроизведения звука и / или видео, вычисление больших целых чисел ( в частности, криптография ) и т. Д.

Обычно эти инструкции используются непосредственно программистами. Они пишут фрагменты ассемблерного кода в своих программах, чтобы иметь возможность максимально использовать оптимизацию, разрешенную инструкциями SIMD. Они начинают с разработки универсального кода, который будет работать везде. Когда алгоритм верен, они пишут специализированную версию для расширения данного процессора. Поэтому использование этих инструкций требует много работы и глубоких знаний сборки.

Некоторые компиляторы и некоторые библиотеки позволяют использовать эти оптимизации без программирования на ассемблере. Можно отметить, что проект Mono, например, выигрывает от этих оптимизаций процессора, если используются соответствующие классы. Однако следует отметить, что ручная оптимизация, выполняемая программистами, дает лучшие результаты, чем оптимизация, выполняемая компилятором.

Векторные процессоры

Векторные процессоры можно рассматривать как процессоры, включающие инструкции SIMD с некоторыми дополнительными улучшениями. Например, эти процессоры не накладывают ограничений на выравнивание инструкций SIMD доступа к памяти. Кроме того, инструкции доступа к памяти поддерживают дополнительные режимы доступа к памяти, такие как доступ с чересстрочной разверткой или методом разброса-сбора.

Обработка потока

Обработка потока , или путем расчета потока, допускает различные типы единиц для расчета, то есть то , что позволяет, например, стандартная библиотека вычисления OpenCL .

Программная парадигма

Чтобы облегчить использование архитектур SIMD, были изобретены различные языки. Эти языки стремятся сделать параллелизм данных более удобным для компиляторов.

В современных процедурных языках компиляторам сложно определить, работают ли операторы с независимыми данными или нет. В результате компиляторы могут упустить некоторые возможности использования инструкций SIMD или векторных инструкций. Чтобы избежать такой ситуации, насколько это возможно, были изобретены определенные языки SIMD.

Среди этих языков можно указать:

  • Язык CUDA . Этот язык позволяет использовать графические карты для числовых вычислений , и есть много инструкций, которые работают с несколькими данными одновременно.
  • Стандарт библиотеки вычислений OpenCL позволяет распараллеливать все доступные процессоры системы; CPU, GPU (или gpGPU), DSP, SIMD, FPU и т. Д.
  • Библиотека OpenMP — это гетерогенная библиотека для параллельных вычислений, которая стала де-факто стандартом для архитектур, состоящих из нескольких компьютеров. Начиная с версии 4.0, он включает функции, специализирующиеся на использовании модулей SIMD.
  • Программное обеспечение для численных расчетов, такое как Matlab , Maple , Octave или расширение Python SciPy , также позволяет вычислять матрицы с помощью операций SIMD.
  • Наконец, мы можем сослаться на библиотеку BLAS, широко используемую в Fortran и C / C ++ для линейной алгебры . Эта библиотека предоставляет множество примитивов матричного исчисления и линейной алгебры, все из которых работают с несколькими данными ( матрицами или числами с плавающей запятой ).

Наконец, компиляторы, такие как GCC или LLVM (и CLANG), позволяют автоматически векторизовать циклы вычислений на большинстве существующих SIMD.

использованная литература

  1. (in) Использование векторных операций SIMD для повышения производительности кода приложений на маломощных платформах ARM и Intel , Университет Гриффита, Австралия.
  2. (in) Руководство пользователя микропроцессора PowerPC 603e RISC и семейства EM603e на IBM.com — глава «2.3.4.2.2 Инструкции умножения с плавающей запятой» на стр. 2-26 и глава «6.4.3 Время выполнения модуля с плавающей запятой» », Стр. 6-17
  3. http://www.hardware.fr/articles/847-14/impact-assembleur-x264.html
  4. (in) Опубликованы спецификации OpenMP 4.0

В статье рассказывается:

  1. Определение Big Data, или больших данных
  2. Сбор и хранение больших данных перед обработкой
  3. 3 главных принципа работы с большими данными
  4. 9 основных методов обработки больших данных
  5. Проблемы анализа и обработки большого объема данных
  6. Пройди тест и узнай, какая сфера тебе подходит:
    айти, дизайн или маркетинг.

    Бесплатно от Geekbrains

Обработка больших данных в настоящее время с помощью обычных программных методов и аппаратных средств совершенно нерациональна, а зачастую невозможна, так как этого не позволяет огромный объем имеющейся информации. Впрочем, несколько эффективных методов для проведения подобных операций все же существует. Хотя и тут есть свои сложности.

Для каждого конкретного случая необходимо выбирать наиболее подходящий способ обработки данных, только тогда результаты окажутся удовлетворительными: и с технологической, и с экономической точки зрения. О принципах и проблемах этого процесса мы подробно рассказали ниже.

Определение Big Data, или больших данных

К большим данным относят информацию, чей объем может быть свыше сотни терабайтов и петабайтов. Причем такая информация регулярно обновляется. В качестве примеров можно привести данные, поступающие из контакт-центров, медиа социальных сетей, данные о торгах фондовых бирж и т. п. Также в понятие «большие данные» иногда включают способы и методики их обработки.

Если же говорить о терминологии, то «Big Data» подразумевает не только данные как таковые, но и принципы обработки больших данных, возможность дальнейшего их использования, порядок обнаружения конкретного информационного блока в больших массивах. Вопросы, связанные с такими процессами, не теряют своей актуальности. Их решение носит важный характер для тех систем, которые многие годы генерировали и копили различную информацию.

Определение Big Data, или больших данных

Определение Big Data, или больших данных

Существуют критерии информации, определенные в 2001 году Meta Group, которые позволяют оценить, соответствуют ли данные понятию Big Data или нет:

  • Volume (объем) — примерно 1 Петабайт и выше.
  • Velocity (скорость) — генерация, поступление и обработка данных с высокой скоростью.
  • Variety (разнообразие)— разнородность данных, различные форматы и возможное отсутствие структурированности.

Скачать
файл

Зачастую к этим параметрам добавляют еще два фактора:

  • Variability (изменчивость) — разноплановая интенсивность поступления, которая влияет на выбор методик обработки.
  • Value (значимость) — разница в уровне сложности получаемой информации. Так, данные, поступающие из сообщений в чат-боте интернет-магазинов, имеют один уровень сложности. А данные, которые выдают машины, отслеживающие сейсмическую активность планеты — совсем другой уровень.

Следует отметить, что такие формулировки весьма условны, т. к. четкого и единого определения не существует. Есть даже мнение о необходимости отказа от термина «Big Data», т. к. происходит подмена понятий и Big Data часто путают с другими продуктами.

Сбор и хранение больших данных перед обработкой

Ресурсы, выдающие большие данные могут быть весьма разнообразны. Например:

  • интернет — социальные сети, блоки и сайты СМИ, интернет вещей (IoT) и т.п.;
  • корпоративные источники — транзакции, архивы, базы данных и т. п.;
  • устройства, собирающие информацию — GPS-сигналы автомобилей, метеорологическое оборудование и т.п.

Совокупность методик по сбору данных и саму операцию называют Data Mining. В качестве примеров сервисов, осуществляющих процесс сбора информации, можно привести: Qlik, Vertica, Power BI, Tableau. Формат данных, как уже говорилось выше, может быть разнообразным — видео, текст, таблицы, SAS.

Если в сжатой форме описывать процесс сбора и обработки большого массива данных, то стоит выделить основные этапы:

  • постановка задачи для аналитической программы;
  • программа осуществляет сбор данных с их параллельной подготовкой (декодировка, отсев мусора, удаление нерелевантной информации);
  • выбор алгоритма анализа данных;
  • обучение программы выбранному алгоритму с дальнейшим анализом обнаруженных закономерностей.

В большинстве случаев полученные необработанные данные хранятся в так называемом «озере данных» — Data Lake. Формат и уровень структуризации информации при этом может быть разнообразным:

  • структурные (данные в виде строк и колонок);
  • частично структурированные (логи, CSV, XML, JSON-файлы);
  • неструктурированные (pdf-формат, формат документов и т. п.);
  • бинарные (формат видео, аудио и изображения).

Инструментарий, позволяющий хранить и обрабатывать данные в Data Lake:

  • Hadoop — пакет утилит и библиотек, используемый для построения систем, обрабатывающих, хранящих и анализирующих большие массивы нереляционных данных: данные датчиков, интернет-трафика, объектов JSON, файлов журналов, изображений и сообщений в соцсетях.
  • HPPC (DAS) – суперкомпьютер, способный обрабатывать данные в режиме реального времени или в «пакетном состоянии». Реализован LexisNexis Risk Solutions.
  • Storm — фреймворк Big Data, созданный для работы с информацией в режиме реального времени. Разработан на языке программирования Clojure.
  • DataLake – помимо функции хранения, включает в себя и программную платформу (например, такую как Hadoop), а также определяет источники и методы пополнения данных, кластеры узлов хранения и обработки информации, управления, инструментов обучения. DataLake при необходимости масштабируется до многих сотен узлов без прекращения работы кластера.

pdf иконка

Топ-30 самых востребованных и высокооплачиваемых профессий 2023

Поможет разобраться в актуальной ситуации на рынке труда

doc иконка

Подборка 50+ ресурсов об IT-сфере

Только лучшие телеграм-каналы, каналы Youtube, подкасты, форумы и многое другое для того, чтобы узнавать новое про IT

pdf иконка

ТОП 50+ сервисов и приложений от Geekbrains

Безопасные и надежные программы для работы в наши дни

Уже скачали 20925 pdf иконка

Месторасположение «озера», как правило, находится в облаке. Так, около 72 % компаний при работе с Big Data предпочитают собственным серверам облачные. Это связано с тем, что обработка больших баз данных требует серьезные вычислительные мощности, в то время как облако значительно снижает стоимость работ. Именно по этой причине компании выбирают облачные хранилища.

Облако имеет ряд преимуществ перед собственным дата-сервисом. Из-за того, что расчет предстоящей нагрузки на инфраструктуру затруднителен, то закупка оборудования не целесообразна. Аппаратура, купленная на случай востребованности в больших мощностях, может просто простаивать, принося убытки. Если же оборудование окажется недостаточным по мощности, то его ресурсов не хватит для полноценной работы.

Облако, напротив, не имеет ограничений по объему сохраняемых в нем данных. Следовательно, оно выгодно с точки зрения экономии средств для тех компаний, нагрузка которых быстро растет, а также бизнеса, связанного с тестами различных гипотез.

3 главных принципа работы с большими данными

Ключевыми положениями для работы с большими данными являются:

Горизонтальная адаптивность

Количество данных неограниченyо, поэтому обрабатывающая их система должна иметь способность к расширению: при возрастании объемов данных должно пропорционально увеличиваться количество оборудования для поддержания работоспособности всей системы.

Стабильность в работе при отказах

Горизонтальная адаптивность предполагает наличие большого числа машин в компьютерном узле. К примеру, кластер Hadoop насчитывает более 40 000 машин. Само собой, что периодически оборудование, изнашиваясь, будет подвержено поломкам. Системы обработки больших данных должны функционировать таким образом, чтобы безболезненно переживать возможные сбои.

Только до 25.05

Скачай подборку тестов, чтобы определить свои самые конкурентные скиллы

Список документов:

Тест на определение компетенций

Чек-лист «Как избежать обмана при трудоустройстве»

Инструкция по выходу из выгорания

Чтобы получить файл, укажите e-mail:

Подтвердите, что вы не робот,
указав номер телефона:


Уже скачали 7503

Концентрация данных

В масштабных системах данные распределяются по большому количеству оборудования. Допустим, что местоположение данных — один сервер, а их обработка происходит на другом сервере. В этом случае затраты на передачу информации с одного сервера на другой могут превышать затраты на сам процесс обработки. Соответственно, чтобы этого избежать необходимо концентрировать данные на той же аппаратуре, на которой происходит обработка.

Концентрация данных

Концентрация данных

В настоящее время все системы, работающие с Big Data, соблюдают эти три положения. А чтобы их соблюдать, нужно разрабатывать соответствующие методики и технологии.

9 основных методов обработки больших данных

Принципы работы инструментов обработки больших данных могут иметь некоторые различия, которые зависят от исследуемой сферы.

  • Машинное обучение

Этот метод анализ данных содержит в своей основе способность аналитической системы самостоятельно обучаться в процессе решения различных задач. Т.е. программе задается алгоритм, который позволяет ей учиться выявлять определенные закономерности. Сферы применения такого метода достаточно разнообразны — например, с помощью машинного обучения проводятся маркетинговые исследования, социальные сети предлагают подборку постов, происходит разработка медицинских программ.

  • Нейросеть

Нейросеть используют для распознавания визуальных образов. Нейронные сети — это математические модели, отображенные программным кодом. Такие модели работают по принципу нейронной сети живого существа: получение информации — ее обработка и передача — выдача результата.

Нейросеть способна проделать работу за несколько десятков людей. Ее используют для развлечений, прогнозирования, обеспечения безопасности, медицинской диагностики и т. д. Т.е. в различных социальных и профессиональных областях.

  • Технология Data Mining

Математик Григорий Пятецкий-Шапиро ввел этот термин в 1989 г. Метод подразумевает обнаружение определенных закономерностей в сырых данных с помощью интеллектуального анализа. Data Mining используют для:

  • определения нетипичных данных в общем потоке информации посредством анализа отклонений;
  • поиска идентичной информации в различных источниках с помощью ассоциаций;
  • определения факторов влияния на заданный параметр через регрессионный анализ;
  • распределения данных по группам со схожими характеристикам, т. е. классификация данных;
  • разделения записей по заранее сформированным классам, т. е. кластеризация.

Как использовать большие данные: определение, возможности, сферы применения

Читайте также

  • Стратегия краудсорсинга

В некоторых ситуациях, когда нет экономической выгоды в разработке системы ИИ (искусственного интеллекта), для выполнения разовых работ привлекают большое количество людей. Они могут решить те задачи, с которыми компьютер не в состоянии справиться в одиночку. Примером может быть сбор и обработка данных социологического опроса. Такая информация может находиться в неоцифрованном виде, в ней могут быть допущены ошибки и сокращения. Такой формат будет понятен человеку, и он сможет организовать данные в тот вид, который будет читаем алгоритмами программ.

Однако, если речь идет о постоянном поиске решений подобных задач, то придется применять методы Data Mining или машинного обучения. Благодаря умению подводить математическую статистику или составлять имитационные модели, машины могут выполнять сложные аналитические процессы.

  • Метод предиктивной аналитики

Другими словами, методика прогнозирования. Имея достаточный объем соответствующей информации, можно составить прогноз и ответить на вопрос «Как будут развиваться события?». Принцип предиктивной аналитики таков: сначала нужно исследовать данные за прошлый период; выявить закономерности или факторы, которые стали причиной результата; далее с помощью нейросети или математических вычислений создать модель, которая сможет производить прогнозирование.

Методика прогнозов используется в различных сферах. Например, предиктивная аналитика позволяет выявить и предотвратить мошеннические схемы в кредитовании или страховании. В медицине прогнозный анализ на основе данных о пациенте помогает определить его предрасположенность к каким-либо заболеваниям.

  • Принцип статистического анализа

Суть метода заключается в сборе данных, их изучении на основе конкретных параметров и получении результата, выраженного, как правило, в процентах. У этого метода есть слабое звено — неточность данных в маленьких выборках. Поэтому для получения максимально точных результатов необходимо собирать большой объем исходных данных.

Принцип статистического анализа

Принцип статистического анализа

Статистический анализ часто используют как часть другого способа обработки больших данных Big Data, например, в машинном обучении или предиктивной аналитике.

Некоторые маркетинговые методы исследования, например, А/В тестирование относятся к статистической аналитике. A/B testing чаще всего используют для увеличения конверсии, а само тестирование складывается из сравнения двух групп: контрольной — не подвергающейся изменениям, и второй группы, на которую оказывали какое-либо влияние (например, ей показывали другой формат рекламы). Такое тестирование позволяет понять, что улучшает целевые показатели.

Для получения статистических показателей используют:

  • корреляционный анализ для определения взаимозависимости показателей;
  • процентное соотношение итогов анализа;
  • динамические ряды для оценки интенсивности изменений определенных условий в конкретный интервал времени;
  • определение среднего показателя.
  • Технология имитационного моделирования

Имитационное моделирование отличается от методики прогнозирования тем, что берутся в учет факторы, чье влияние на результат затруднительно отследить в реальных условиях. Т.е. выстраиваются модели с учетом гипотетических, а не реальных данных, и затем эти модели исследуют в виртуальной реальности.

Метод имитационных моделей применяют для анализа влияния разных обстоятельств на итоговый показатель. Например, в сфере продаж таким образом исследуют воздействие изменения цены, наличия предложений со скидками, количества продавцов и прочих условий. Различные вариации изменений помогают определить наиболее эффективную модель маркетинговой стратегии для внедрения в практику. Для такого рода моделирования необходимо использовать большое число возможных факторов, чтобы снизить риски недостоверности результатов.

  • Метод визуализации аналитических данных

Для удобства оценки результатов анализа применяют визуализацию данных. Для реализации этого метода, при условии работы с большими данными, используют виртуальную реальность и «большие экраны». Основной плюс визуализации в том, что такой формат данных воспринимается лучше, чем текстовый, ведь до 90 % всей информации человек усваивает с помощью зрения.

Результат анализа визуализируют в виде графиков, 3D-моделей, диаграмм и т. д. Инструментарий такого метода представлен платформами: Orange, Microsoft (Excel, Power BI), Microstrategy, Qlik, Tableau (tableau desktop, tableau public).

Метод визуализации аналитических данных позволяет быстро воспринять и сравнить, например, уровни продаж в разных регионах, или оценить зависимость объемов продаж от снижения/увеличения стоимости товара.

  • Метод смешения и интеграции данных

В подавляющем большинстве случаев Big Data получают из различных источников, соответственно, данные имеют разнородный формат. Загружать такие данные в одну базу бессмысленно, так как их параметры не имеют взаимного соотношения. Именно в таких случаях применяют смешение и интеграцию, то есть приводят все данные к единому виду.

Data-driven: владеешь информацией, владеешь миром

Читайте также

Для использования информации из различных источников применяют следующие методы:

  • сведение данных в единый формат посредством конвертации документов, перевода текста в цифры, распознавание текста;
  • информацию для одного объекта дополняют данными из разных источников;
  • из лишней информации отфильтровывают и удаляют ту, которая недоступна для анализа.

После того как процесс интеграции завершен, следует анализ и обработка данных. В качестве примера метода интеграции и смешения данных можно рассмотреть: магазин, который ведет торговлю в нескольких направлениях — оффлайн-продажи, маркетплейс и одна из соцсетей. Чтобы провести полноценную оценку продаж и спроса, нужно собрать данные: о заказах через маркетплейс, товарные чеки оффлайн-продаж, заказы через соцсеть, остатки товара на складе и так далее.

Проблемы анализа и обработки большого объема данных

Основная проблема обработки большого массива данных лежит на поверхности — это высокие затраты. Здесь учитываются расходы на закупку, содержание и ремонт оборудования, а также заработанная плата специалистов, которые компетентны в работе с Big Data.

Следующая проблема связана с большим объемом информации, нуждающейся в обработке. Например, если в процессе исследования мы получаем не два-три результата, а многочисленное число возможных итогов, то крайне сложно выбрать именно те, которые будут иметь реальное воздействие на показатели определенного события.

Еще одна проблема — это приватность больших данных. Конфиденциальность может быть нарушена, так как все большее количество сервисов, связанное с обслуживанием клиентов, используют данные онлайн. Соответственно, это увеличивает рост киберпреступлений. Даже обычное хранение персональных данных клиентов в облаке может быть подвержено утечке. Вопрос сохранности личных данных — одна из важнейших задач, которую необходимо решать при использовании методик Big Data.

Проблемы анализа и обработки большого объема данных

Проблемы анализа и обработки большого объема данных

Угроза потери данных. Однократное резервирование не решает вопрос сохранения информации. Для хранилища необходимо создавать минимум две-три резервные копии. Но с ростом объемов данных увеличивается проблемность резервирования. Поэтому специалисты заняты поиском максимально результативного выхода из такой ситуации.

В заключение следует отметить, что развитие технологий обработки больших данных открывают широкие возможности для повышения эффективности различных сфер человеческой деятельности: медицины, транспортного обслуживания, государственного управления, финансов, производства. Именно это и определяет интенсивность развития данного направления в последние годы.

Что такое большие данные?

Самое простое определение

Из названия можно предположить, что термин `большие данные` относится просто к управлению и анализу больших объемов данных. Согласно отчету McKinsey Institute `Большие данные: новый рубеж для инноваций, конкуренции и производительности` ( Big data: The next frontier for innovation, competition and productivity), термин `большие данные` относится к наборам данных, размер которых превосходит возможности типичных баз данных (БД) по занесению, хранению, управлению и анализу информации. И мировые репозитарии данных, безусловно, продолжают расти. В представленном в середине 2011 г. отчете аналитической компании IDC `Исследование цифровой вселенной` (Digital Universe Study), подготовку которого спонсировала компания EMC, предсказывалось, что общий мировой объем созданных и реплицированных данных в 2011-м может составить около 1,8 зеттабайта (1,8 трлн. гигабайт) — примерно в 9 раз больше того, что было создано в 2006-м.

IDC, Nexus of Forces Gartner

Традиционная база данных и База Больших Данных

Более сложное определение

Тем не менее `большие данные` предполагают нечто большее, чем просто анализ огромных объемов информации. Проблема не в том, что организации создают огромные объемы данных, а в том, что бóльшая их часть представлена в формате, плохо соответствующем традиционному структурированному формату БД, — это веб-журналы, видеозаписи, текстовые документы, машинный код или, например, геопространственные данные. Всё это хранится во множестве разнообразных хранилищ, иногда даже за пределами организации. В результате корпорации могут иметь доступ к огромному объему своих данных и не иметь необходимых инструментов, чтобы установить взаимосвязи между этими данными и сделать на их основе значимые выводы. Добавьте сюда то обстоятельство, что данные сейчас обновляются все чаще и чаще, и вы получите ситуацию, в которой традиционные методы анализа информации не могут угнаться за огромными объемами постоянно обновляемых данных, что в итоге и открывает дорогу технологиям больших данных.

Наилучшее определение

В сущности понятие больших данных подразумевает работу с информацией огромного объема и разнообразного состава, весьма часто обновляемой и находящейся в разных источниках в целях увеличения эффективности работы, создания новых продуктов и повышения конкурентоспособности. Консалтинговая компания Forrester дает краткую формулировку: `Большие данные объединяют техники и технологии, которые извлекают смысл из данных на экстремальном пределе практичности`.

Насколько велика разница между бизнес-аналитикой и большими данными?

Крейг Бати, исполнительный директор по маркетингу и директор по технологиям Fujitsu Australia, указывал, что бизнес-анализ является описательным процессом анализа результатов, достигнутых бизнесом в определенный период времени, между тем как скорость обработки больших данных позволяет сделать анализ предсказательным, способным предлагать бизнесу рекомендации на будущее. Технологии больших данных позволяют также анализировать больше типов данных в сравнении с инструментами бизнес-аналитики, что дает возможность фокусироваться не только на структурированных хранилищах.

Мэтт Слокум из O’Reilly Radar считает, что хотя большие данные и бизнес-аналитика имеют одинаковую цель (поиск ответов на вопрос), они отличаются друг от друга по трем аспектам.

  • Большие данные предназначены для обработки более значительных объемов информации, чем бизнес-аналитика, и это, конечно, соответствует традиционному определению больших данных.
  • Большие данные предназначены для обработки более быстро получаемых и меняющихся сведений, что означает глубокое исследование и интерактивность. В некоторых случаях результаты формируются быстрее, чем загружается веб-страница.
  • Большие данные предназначены для обработки неструктурированных данных, способы использования которых мы только начинаем изучать после того, как смогли наладить их сбор и хранение, и нам требуются алгоритмы и возможность диалога для облегчения поиска тенденций, содержащихся внутри этих массивов.

Согласно опубликованной компанией Oracle белой книге `Информационная архитектура Oracle: руководство архитектора по большим данным` (Oracle Information Architecture: An Architect’s Guide to Big Data), при работе с большими данными мы подходим к информации иначе, чем при проведении бизнес-анализа.

Работа с большими данными не похожа на обычный процесс бизнес-аналитики, где простое сложение известных значений приносит результат: например, итог сложения данных об оплаченных счетах становится объемом продаж за год. При работе с большими данными результат получается в процессе их очистки путём последовательного моделирования: сначала выдвигается гипотеза, строится статистическая, визуальная или семантическая модель, на ее основании проверяется верность выдвинутой гипотезы и затем выдвигается следующая. Этот процесс требует от исследователя либо интерпретации визуальных значений или составления интерактивных запросов на основе знаний, либо разработки адаптивных алгоритмов `машинного обучения`, способных получить искомый результат. Причём время жизни такого алгоритма может быть довольно коротким.

Big Data≠Data Science

  • ETLELT
  • Технологии хранения больших объемов структурированных и не структурированных данных
  • Технологии обработки таких данных
  • Управление качеством данных
  • Технологии предоставления данных потребителю

Data Science – это:

  • Распознавание видео
  • Распознавание текстов
  • Распознавание речи
  • Построение рекомендательных моделей
  • Сегментация
  • Кластеризация и т.д.

Методики анализа больших данных

Существует множество разнообразных методик анализа массивов данных, в основе которых лежит инструментарий, заимствованный из статистики и информатики (например, машинное обучение). Список не претендует на полноту, однако в нем отражены наиболее востребованные в различных отраслях подходы. При этом следует понимать, что исследователи продолжают работать над созданием новых методик и совершенствованием существующих. Кроме того, некоторые из перечисленных них методик вовсе не обязательно применимы исключительно к большим данным и могут с успехом использоваться для меньших по объему массивов (например, A/B-тестирование, регрессионный анализ). Безусловно, чем более объемный и диверсифицируемый массив подвергается анализу, тем более точные и релевантные данные удается получить на выходе.

A/B testing. Методика, в которой контрольная выборка поочередно сравнивается с другими. Тем самым удается выявить оптимальную комбинацию показателей для достижения, например, наилучшей ответной реакции потребителей на маркетинговое предложение. Большие данные позволяют провести огромное количество итераций и таким образом получить статистически достоверный результат.

Association rule learning. Набор методик для выявления взаимосвязей, т.е. ассоциативных правил, между переменными величинами в больших массивах данных. Используется в data mining.

Classification. Набор методик, которые позволяет предсказать поведение потребителей в определенном сегменте рынка (принятие решений о покупке, отток, объем потребления и проч.). Используется в data mining.

Cluster analysis. Статистический метод классификации объектов по группам за счет выявления наперед не известных общих признаков. Используется в data mining.

Crowdsourcing. Методика сбора данных из большого количества источников.

Data fusion and data integration. Набор методик, который позволяет анализировать комментарии пользователей социальных сетей и сопоставлять с результатами продаж в режиме реального времени.

Data mining. Набор методик, который позволяет определить наиболее восприимчивые для продвигаемого продукта или услуги категории потребителей, выявить особенности наиболее успешных работников, предсказать поведенческую модель потребителей.

Ensemble learning. В этом методе задействуется множество предикативных моделей за счет чего повышается качество сделанных прогнозов.

Genetic algorithms. В этой методике возможные решения представляют в виде `хромосом`, которые могут комбинироваться и мутировать. Как и в процессе естественной эволюции, выживает наиболее приспособленная особь.

Machine learning. Направление в информатике (исторически за ним закрепилось название `искусственный интеллект`), которое преследует цель создания алгоритмов самообучения на основе анализа эмпирических данных.

Natural language processing (NLP). Набор заимствованных из информатики и лингвистики методик распознавания естественного языка человека.

Network analysis. Набор методик анализа связей между узлами в сетях. Применительно к социальным сетям позволяет анализировать взаимосвязи между отдельными пользователями, компаниями, сообществами и т.п.

Optimization. Набор численных методов для редизайна сложных систем и процессов для улучшения одного или нескольких показателей. Помогает в принятии стратегических решений, например, состава выводимой на рынок продуктовой линейки, проведении инвестиционного анализа и проч.

Pattern recognition. Набор методик с элементами самообучения для предсказания поведенческой модели потребителей.

Predictive modeling. Набор методик, которые позволяют создать математическую модель наперед заданного вероятного сценария развития событий. Например, анализ базы данных CRM-системы на предмет возможных условий, которые подтолкнут абоненты сменить провайдера.

Regression. Набор статистических методов для выявления закономерности между изменением зависимой переменной и одной или несколькими независимыми. Часто применяется для прогнозирования и предсказаний. Используется в data mining.

Sentiment analysis. В основе методик оценки настроений потребителей лежат технологии распознавания естественного языка человека. Они позволяют вычленить из общего информационного потока сообщения, связанные с интересующим предметом (например, потребительским продуктом). Далее оценить полярность суждения (позитивное или негативное), степень эмоциональности и проч.

Signal processing. Заимствованный из радиотехники набор методик, который преследует цель распознавания сигнала на фоне шума и его дальнейшего анализа.

Spatial analysis. Набор отчасти заимствованных из статистики методик анализа пространственных данных – топологии местности, географических координат, геометрии объектов. Источником больших данных в этом случае часто выступают геоинформационные системы (ГИС).

Statistics. Наука о сборе, организации и интерпретации данных, включая разработку опросников и проведение экспериментов. Статистические методы часто применяются для оценочных суждений о взаимосвязях между теми или иными событиями.

Supervised learning. Набор основанных на технологиях машинного обучения методик, которые позволяют выявить функциональные взаимосвязи в анализируемых массивах данных.

Simulation. Моделирование поведения сложных систем часто используется для прогнозирования, предсказания и проработки различных сценариев при планировании.

Time series analysis. Набор заимствованных из статистики и цифровой обработки сигналов методов анализа повторяющихся с течением времени последовательностей данных. Одни из очевидных применений – отслеживание рынка ценных бумаг или заболеваемости пациентов.

Unsupervised learning. Набор основанных на технологиях машинного обучения методик, которые позволяют выявить скрытые функциональные взаимосвязи в анализируемых массивах данных. Имеет общие черты с Cluster Analysis.

Визуализация. Методы графического представления результатов анализа больших данных в виде диаграмм или анимированных изображений для упрощения интерпретации облегчения понимания полученных результатов.

Наглядное представление результатов анализа больших данных имеет принципиальное значение для их интерпретации. Не секрет, что восприятие человека ограничено, и ученые продолжают вести исследования в области совершенствования современных методов представления данных в виде изображений, диаграмм или анимаций.

Аналитический инструментарий

На 2011 год некоторые из перечисленных в предыдущем подразделе подходов или определенную их совокупность позволяют реализовать на практике аналитические движки для работы с большими данными. Из свободных или относительно недорогих открытых систем анализа Big Data можно порекомендовать:[1]

  • 1010data;
  • Apache Chukwa;
  • Apache Hadoop;
  • Apache Hive;
  • Apache Pig!;
  • Jaspersoft;
  • LexisNexis Risk Solutions HPCC Systems;
  • MapReduce;
  • Revolution Analytics (на базе языка R для мат.статистики).

Особый интерес в этом списке представляет Apache Hadoop – ПО с открытым кодом, которое за последние пять лет испытано в качестве анализатора данных большинством трекеров акций[2]. Как только Yahoo открыла код Hadoop сообществу с открытым кодом, в ИТ-индустрии незамедлительно появилось целое направление по созданию продуктов на базе Hadoop. Практически все современные средства анализа больших данных предоставляют средства интеграции с Hadoop. Их разработчиками выступают как стартапы, так и общеизвестные мировые компании.

Рынки решений для управления большими данными

Платформы больших данных (BDP, Big Data Platform) как средство борьбы с цифровым хордингом

Возможность анализировать большие данные, в просторечии называемая Big Data, воспринимается как благо, причем однозначно. Но так ли это на самом деле? К чему может привести безудержное накопление данных? Скорее всего к тому, что отечественные психологи применительно к человеку называют патологическим накопительством, силлогоманией или образно «синдромом Плюшкина». По-английски порочная страсть собирать все подряд называют хордингом (от англ. hoard – «запас»). По классификации ментальных заболеваний хординг причислен к психическим расстройствам. В цифровую эпоху к традиционному вещественному хордингу добавляется цифровой (Digital Hoarding), им могут страдать как отдельные личности, так и целые предприятия и организации (подробнее).

Мировой и рынок России

  • Большие данные в России
  • Большие данные (Big Data) мировой рынок
  • Большие данные как услуга (BDaaS)

Big data Landscape — Основные поставщики

Интерес к инструментам сбора, обработки, управления и анализа больших данных проявляли едва ли не все ведущие ИТ-компании, что вполне закономерно. Во-первых, они непосредственно сталкиваются с этим феноменом в собственном бизнесе, во-вторых, большие данные открывают отличные возможности для освоения новых ниш рынка и привлечения новых заказчиков.

  • Amazon
  • Dell
  • eBay
  • EMC
  • Facebook
  • Fujitsu
  • Google
  • HDS (Hitachi Data Systems Corporation) Хитачи Вантара
  • HP
  • IBM
  • LinkedIn
  • Microsoft
  • NetApp
  • Oracle
  • SAP
  • SAS
  • SGI (Silicon Graphics Inc)
  • Teradata
  • VMware
  • Yahoo

На рынке появлялось множество стартапов, которые делают бизнес на обработке огромных массивов данных. Часть из них используют готовую облачную инфраструктуру, предоставляемую крупными игроками вроде Amazon.

  • Acunu
  • Apigee
  • Aspera
  • Aster Data (поглотила Teradata)
  • Cloudera
  • Couchbase
  • Datameer
  • DataStax
  • Factual
  • GoodData
  • Greenplum (поглотила ЕМС)
  • Hortonworks (имеет общие корни с Yahoo)
  • MapR Technologies
  • Metaweb Technologies (поглотила Google)
  • Netezza (поглотила IBM)
  • nPario
  • Palantir Technologies
  • ParAccel
  • ParStream
  • SenSage
  • Socrata
  • Splunk
  • Sybase (поглотила SAP)
  • TellApart
  • Vertica (поглотила НР)

Теория и практика Больших данных в отраслях

Основная статья — Теория и практика Больших данных в отраслях.

Как использовать аналитические данные для разработки качественных ИТ-сервисов

Основная статья — Использование аналитических данных для разработки ИТ-сервисов

История развития

2017

Прогноз TmaxSoft: следующая «волна» Big Data потребует модернизации СУБД

Согласно отчету IDC, в связи ростом объемов данных, генерируемых подключенными к интернету устройствами, датчиками и другими технологиями, доходы, связанные с большими данными, увеличатся со $130 млрд в 2016 году до более чем $203 млрд к 2020 году.[3] Однако те компании, у которых нет ИТ-инфраструктуры, необходимой для адаптации к революции больших данных, не смогут получить выгоду от этого роста, считают эксперты компании TmaxSoft.

Предприятиям известно, что в накопленных ими огромных объемах данных содержится важная информация об их бизнесе и клиентах. Если компания сможет успешно применить эту информацию, то у нее будет значительное преимущество по сравнению с конкурентами, и она сможет предложить лучшие, чем у них, продукты и сервисы. Однако многие организации всё еще не могут эффективно использовать большие данные из-за того, что их унаследованная ИТ-инфраструктура неспособна обеспечить необходимую емкость систем хранения, процессы обмена данных, утилиты и приложения, необходимые для обработки и анализа больших массивов неструктурированных данных для извлечения из них ценной информации, указали в TmaxSoft.

Кроме того, увеличение процессорной мощности, необходимой для анализа постоянно увеличивающихся объемов данных, может потребовать значительных инвестиций в устаревшую ИТ-инфраструктуру организации, а также дополнительных ресурсов для сопровождения, которые можно было бы использовать для разработки новых приложений и сервисов.

По мнению Андрея Ревы, исполнительного директора TmaxSoft Россия, эти факторы приведут к тому, что организации, которые продолжают использовать унаследованную инфраструктуру, в будущем будут вынуждены заплатить намного больше за переход на актуальные технологии либо не смогут получить никакого эффекта от революции больших данных.

«

Феномен больших данных заставил многие предприятия осознать необходимость сбора, анализа и хранения структурированных и неструктурированных данных. Однако для внедрения этих процессов нужен план действий и правильные инструменты оптимизации процессов. А реально получать ощутимый эффект от больших данных многие компании не в состоянии из-за использования унаследованных СУБД, в которых не хватает функциональности и масштабируемости, и в результате революция больших данных никак не помогает их бизнесу, — пояснил свой прогноз Андрей Рева.

»

По убеждению представителя TmaxSoft, предприятиям нужна стратегия, учитывающая, среди прочего, источники данных для извлечения, жизненный цикл данных, совместимость разных реляционных СУБД и масштабируемость хранения.

2016

Прогноз EMC: BigData и аналитика в реальном времени объединятся

В 2016 году мы познакомимся с новой главой истории развития аналитики «больших данных» по мере развития двухуровневой модели обработки. Первый уровень будет представлять собой «традиционную» аналитику BigData, когда большие массивы данных подвергаются анализу не в режиме реального времени. Новый, второй уровень обеспечит возможность анализа относительно больших объемов данных в реальном времени, в основном за счет технологий аналитики в памяти (in-memory). В этой новой фазе развития BigData, такие технологии как DSSD, Apache Spark и GemFire будут столь же важны, как Hadoop. Второй уровень предложит нам одновременно новые и привычные способы использования «озер данных» — для «аналитики на лету» с целью влияния на события, в то время, когда они происходят. Это открывает новые возможности для бизнеса в таких масштабах, которых раньше никто не видел.

Но для того, чтобы аналитика в памяти стала реальностью, необходимо, чтобы произошло два события. Во-первых, поддерживающие технологии должны получить необходимое развитие, чтобы обеспечить достаточные объемы памяти для размещения действительно масштабных наборов данных. Также нужно подумать о том, как эффективно перемещать данные между большими объектными хранилищами и системами, ведущими анализ в памяти. Ведь эти два элемента работают в принципиально разных режимах, и ИТ-группам нужно будет создать особые условия, чтобы данные могли перемещаться туда и обратно с нужной скоростью и прозрачно для пользователей. Работы уже ведутся, появляются новые объектные хранилища, специальные флеш-массивы для монтажа в стойку, а также специальные технологии, которые могут объединить их в одну систему. Инициативы с открытым кодом будут играть важную роль в поиске ответа на этот вызов.

Во-вторых, масштабные среды вычислений в памяти требуют устойчивости и динамичности данных. Проблема состоит в том, что обеспечивая персистентность данных в памяти, мы делаем устойчивыми также любые их дефекты. В результате в 2016 году мы увидим появления систем хранения для сред, проводящих обработку данных в памяти. Они будут предоставлять сервисы дедупликации, снимков состояния, многоуровневого хранения, кеширования, репликации, а также возможность определения последнего состояния, когда данные были верными и система работала корректно. Эти функции будут крайне важны по мере перехода к аналитике в реальном времени, когда более безопасные технологии обработки данных в памяти станут коммерческими в 2016 году.

2015

Gartner исключила «Большие данные» из популярных трендов

6 октября 2015 года стало известно об исключении из отчета Gartner «Цикл зрелости технологий 2015» сведений о больших данных. Исследователи объяснили это размыванием термина — входящие в понятие «большие данные» технологии стали повседневной реальностью бизнеса[4].

Отчет Gartner «Цикл зрелости технологий» (Hype Cycle for Emerging Technologies) взбудоражил отрасль отсутствием технологии сбора и обработки больших массивов данных. Свое решение аналитики компании объяснили тем, что в состав понятия «большие данные» входит большое количество технологий, активно применяющихся на предприятиях, они частично относятся к другим популярным сферам и тенденциям и стали повседневным рабочим инструментом.

Диаграмма Gartner «Hype Cycle for Emerging Technologies 2015»

«Изначально понятие «большие данные» расшифровывали через определение из трех «V»: volume, velocity, variety. Под этим термином подразумевалась группа технологий хранения, обработки и анализа данных большого объема, с изменчивой структурой и высокой скоростью обновления. Но реальность показала, что получение выгоды в бизнес-проектах осуществляется по тем же принципам, что и раньше. А описываемые технологические решения сами по себе не создали никакой новой ценности, лишь ускорив обработку большого количества данных. Ожидания были очень высокие, и список технологий больших данных интенсивно рос. Очевидно, что вследствие этого границы понятия размылись до предела», — поведал Святослав Штумпф, главный эксперт группы маркетинга продуктов «Петер-Сервис».

Дмитрий Шепелявый, заместитель генерального директора SAP CIS (САП СНГ), считает — тема больших данных не исчезла, а трансформировалась во множество различных сценариев:

«Примерами здесь могут быть ремонты по состоянию, точное земледелие (precision farming), системы по противодействию мошенничеству, системы в медицине, позволяющие на качественно новом уровне диагностировать и лечить пациентов. А также планирование логистической системы и транспортировки в режиме реального времени, усовершенствованная бизнес-аналитика для поддержки и сопровождения основных функций компаний. Один из основных трендов сейчас — Интернет вещей, позволяющий связывать машины между собой (machine-to-machine). Устанавливаемые электронные датчики производят миллионы транзакций в секунду, и необходимо надежное решение, способное трансформировать, сохранить и работать с ними в режиме реального времени».

В мае 2015 года Эндрю Уайт (Andrew White), вице-президент по исследованиям Gartner, в своем блоге размышлял:

«[[Интернет вещей Internet of Things (IoT)|Интернет вещей (Internet of Things, IoT)]] затмит собой большие данные, как слишком сфокусированную технологию. Она может породить еще несколько эффективных решений и инструментов, но платформой будущего, которая в долгосрочной перспективе повысит нашу продуктивность, станет именно интернет вещей».

Аналогичные идеи раньше — по результатам отчета Gartner за 2014 год, опубликовал обозреватель Forbes Гил Пресс (Gil Press).

По мнению Дмитрия Шепелявого, наступила эпоха, когда важно не просто уметь аккумулировать информацию, а извлекать из нее бизнес-выгоду. Первыми к этому выводу пришли индустрии, которые непосредственно работают с потребителем: телекоммуникационная и банковская, ритейл. Теперь процессы взаимодействия выходят на новый уровень, позволяя наладить связь между различными устройствами с использованием инструментов дополненной реальности и открывают новые возможности оптимизации бизнес-процессов компаний.

«Понятие «большие данные» потеряло интерес для реального бизнеса, на диаграмме Gartner его место заняли другие технологии с более четким и понятным бизнесу звучанием», — подчеркнул Святослав Штумпф.

Это, в первую очередь, машинное обучение — средства поиска правил и связей в очень больших объемах информации. Такие технологии позволяют не просто проверять гипотезы, но искать неизвестные ранее факторы влияния. Сегмент решений по хранению данных и параллельному доступу к ним (NoSQL Database), по предварительной обработке потоков информации (Marshalling), решения для визуализации и самостоятельного анализа (Advanced Analytics with Self-Service Delivery). Кроме того, по мнению эксперта, сохраняют свое значение средства интеллектуального анализа данных (Business Intelligence и Data Mining), выходящие на новый технологический уровень.

В понимании «Яндекса», согласно заявлению пресс-службы компании, большие данные никуда не исчезли и не трансформировались. Для обработки больших массивов данных компания использует те же технологии и алгоритмы, что применяет в интернет-поиске, сервисе «Яндекс.Пробки», в машинном переводчике, в рекомендательной платформе, в рекламе. Алгоритмы основаны на умении компании: накапливать, хранить и обрабатывать большие объемы данных и делать их полезными бизнесу. Области применения Yandex Data Factory не ограничены — главное, чтобы были данные для анализа. В фокусе компании на 6 октября 2015 года:

  • ритейл,
  • финансы,
  • логистика,
  • телеком,
  • энергетика,
  • ЖКХ,
  • нефтегаз,
  • аэрокосмическая отрасль.

Больше данных – не лучше

Big data и ценовая дискриминация клиентов

Ниже приведены избранные фрагменты из статьи Морган Кеннеди (Morgan Kennedy) опубликованной 6 февраля 2015 на сайте InsidePrivacy, посвященном проблеме защиты неприкосновенности частной жизни[5].

5 февраля 2015 года Белый дом опубликовал доклад, в котором обсуждался вопрос о том, как компании используют «большие данные» для установления различных цен для разных покупателей — практика, известная как «ценовая дискриминация» или «дифференцированное ценообразование» (personalized pricing). Отчет описывает пользу «больших данных» как для продавцов, так и покупателей, и его авторы приходят к выводу о том, что многие проблемные вопросы, возникшие в связи с появлением больших данных и дифференцированного ценообразования, могут быть решены в рамках существующего антидискриминационного законодательства и законов, защищающих права потребителей.

В докладе отмечается, что в это время имеются лишь отдельные факты, свидетельствующие о том, как компании используют большие данные в контексте индивидуализированного маркетинга и дифференцированного ценообразования. Этот сведения показывают, что продавцы используют методы ценообразования, которые можно разделить на три категории:

  • изучение кривой спроса;
  • Наведение (steering) и дифференцированное ценообразование на основе демографических данных; и
  • целевой поведенческий маркетинг (поведенческий таргетинг — behavioral targeting) и индивидуализированное ценообразование.

Изучение кривой спроса: С целью выяснения спроса и изучения поведения потребителей маркетологи часто проводят эксперименты в этой области, в ходе которых клиентам случайным образом назначается одна из двух возможных ценовых категорий. «Технически эти эксперименты являются формой дифференцированного ценообразования, поскольку их следствием становятся разные цены для клиентов, даже если они являются «недискриминационными» в том смысле, что у всех клиенты вероятность «попасть» на более высокую цену одинакова».

Наведение (steering): Это практика представления продуктов потребителям на основе их принадлежности к определенной демографической группе. Так, веб-сайт компьютерной компании может предлагать один и тот же ноутбук различным типам покупателей по разным ценам, уставленным на основе сообщённой ими о себе информации (например, в зависимости от того, является ли данный пользователь представителем государственных органов, научных или коммерческих учреждений, или же частным лицом) или от их географического расположения (например, определенного по IP-адресу компьютера).

Целевой поведенческий маркетинг и индивидуализированное ценообразование: В этих случаях персональные данные покупателей используются для целевой рекламы и индивидуализированного назначения цен на определенные продукты. Например, онлайн-рекламодатели используют собранные рекламными сетями и через куки третьих сторон данные об активности пользователей в интернете для того, чтобы нацелено рассылать свои рекламные материалы. Такой подход, с одной стороны, дает возможность потребителям получить рекламу представляющих для них интерес товаров и услуг, Он, однако, может вызвать озабоченность тех потребителей, которые не хотят, чтобы определенные виды их персональных данных (такие, как сведения о посещении сайтов, связанных с медицинскими и финансовыми вопросами) собирались без их согласия.

Хотя целевой поведенческий маркетинг широко распространен, имеется относительно мало свидетельств индивидуализированного ценообразования в онлайн-среде. В отчете высказывается предположение, что это может быть связано с тем, что соответствующие методы все ещё разрабатываются, или же с тем, что компании не спешат использовать индивидуальное ценообразование (либо предпочитают о нём помалкивать) — возможно, опасаясь негативной реакции со стороны потребителей.

Авторы отчета полагают, что «для индивидуального потребителя использование больших данных, несомненно, связано как с потенциальной отдачей, так и с рисками». Признавая, что при использовании больших данных появляются проблемы прозрачности и дискриминации, отчет в то же время утверждает, что существующих антидискриминационных законов и законов по защиты прав потребителей достаточно для их решения. Однако в отчете также подчеркивается необходимость «постоянного контроля» в тех случаях, когда компании используют конфиденциальную информацию непрозрачным образом либо способами, которые не охватываются существующей нормативно-правовой базой.

Данный доклад является продолжением усилий Белого дома по изучению применения «больших данных» и дискриминационного ценообразования в Интернете, и соответствующих последствий для американских потребителей. Ранее уже сообщалось[6] о том, что рабочая группа Белого дома по большим данным опубликовала в мае 2014 года свой доклад по этому вопросу. Федеральная комиссия по торговле (FTC) также рассматривала эти вопросы в ходе проведенного ею в сентября 2014 года семинара по дискриминации в связи с использованием больших данных[7].

2014

Gartner развеивает мифы о «Больших данных»

В аналитической записке осени 2014 года Gartner перечислен ряд распространенных среди ИТ-руководителей мифов относительно Больших Данных и приводятся их опровержения.

  • Все внедряют системы обработки Больших Данных быстрее нас

Интерес к технологиям Больших Данных рекордно высок: в 73% организаций, опрошенных аналитиками Gartner в этом году, уже инвестируют в соответствующие проекты или собираются. Но большинство таких инициатив пока еще на самых ранних стадиях, и только 13% опрошенных уже внедрили подобные решения. Сложнее всего — определить, как извлекать доход из Больших Данных, решить, с чего начать. Во многих организациях застревают на пилотной стадии, поскольку не могут привязать новую технологию к конкретным бизнес-процессам.

  • У нас так много данных, что нет нужды беспокоиться о мелких ошибках в них

Некоторые ИТ-руководители считают, что мелкие огрехи в данных не влияют на общие результаты анализа огромных объемов. Когда данных много, каждая ошибка в отдельности действительно меньше влияет на результат, отмечают аналитики, но и самих ошибок становится больше. Кроме того, большая часть анализируемых данных — внешние, неизвестной структуры или происхождения, поэтому вероятность ошибок растет. Таким образом, в мире Больших Данных качество на самом деле гораздо важнее.

  • Технологии Больших Данных отменят нужду в интеграции данных

Большие Данные обещают возможность обработки данных в оригинальном формате с автоматическим формированием схемы по мере считывания. Считается, что это позволит анализировать информацию из одних и тех же источников с помощью нескольких моделей данных. Многие полагают, что это также даст возможность конечным пользователям самим интерпретировать любой набор данных по своему усмотрению. В реальности большинству пользователей часто нужен традиционный способ с готовой схемой, когда данные форматируются соответствующим образом, и имеются соглашения об уровне целостности информации и о том, как она должна соотноситься со сценарием использования.

  • Хранилища данных нет смысла использовать для сложной аналитики

Многие администраторы систем управления информацией считают, что нет смысла тратить время на создание хранилища данных, принимая во внимание, что сложные аналитические системы пользуются новыми типами данных. На самом деле во многих системах сложной аналитики используется информация из хранилища данных. В других случаях новые типы данных нужно дополнительно готовить к анализу в системах обработки Больших Данных; приходится принимать решения о пригодности данных, принципах агрегации и необходимом уровне качества — такая подготовка может происходить вне хранилища.

  • На смену хранилищам данных придут озера данных

В реальности поставщики вводят заказчиков в заблуждение, позиционируя озера данных (data lake) как замену хранилищам или как критически важные элементы аналитической инфраструктуры. Основополагающим технологиям озер данных не хватает зрелости и широты функциональности, присущей хранилищам. Поэтому руководителям, отвечающим за управление данными, стоит подождать, пока озера достигнут того же уровня развития, считают в Gartner.

Accenture: 92% внедривших системы больших данных, довольны результатом

Согласно исследованию Accenture (осень 2014 года), 60% компаний уже успешно завершили как минимум один проект, связанный с большими данными. Подавляющее большинство (92%) представителей этих компаний оказалось довольно результатом, а 89% заявили, что большие данные стали крайне важной частью преобразования их бизнеса. Среди остальных опрошенных 36% не задумывались о внедрении данной технологии, а 4% пока не закончили свои проекты.

В исследовании Accenture приняло участие более 1000 руководителей компаний из 19 стран мира. В основу исследования легли данные опроса Economist Intelligence Unit среди 1135 респондентов по всему миру[8].

Среди главных преимуществ больших данных опрошенные назвали:

  • «поиск новых источников дохода» (56%),
  • «улучшение опыта клиентов» (51%),
  • «новые продукты и услуги» (50%) и
  • «приток новых клиентов и сохранение лояльности старых» (47%).

При внедрении новых технологий многие компании столкнулись с традиционными проблемами. Для 51% камнем преткновения стала безопасность, для 47% — бюджет, для 41% — нехватка необходимых кадров, а для 35% — сложности при интеграции с существующей системой. Практически все опрошенные компании (около 91%) планируют в скором времени решать проблему с нехваткой кадров и нанимать специалистов по большим данным.

Компании оптимистично оценивают будущее технологий больших данных. 89% считают, что они изменят бизнес столь же сильно, как и интернет. 79% респондентов отметили, что компании, которые не занимаются большими данными, потеряют конкурентное преимущество.

Впрочем, опрошенные разошлись во мнении о том, что именно стоит считать большими данными. 65% респондентов считают, что это «большие картотеки данных», 60% уверены, что это «продвинутая аналитика и анализ», а 50% — что это «данные инструментов визуализации».

Мадрид тратит 14,7 млн евро на управление большими данными

В июле 2014 г. стало известно о том, что Мадрид будет использовать технологии big data для управления городской инфраструктурой. Стоимость проекта — 14,7 млн евро, основу внедряемых решений составят технологии для анализа и управления большими данными. С их помощью городская администрация будет управлять работой с каждым сервис-провайдером и соответствующим образом оплачивать ее в зависимости от уровня услуг.

Речь идет о подрядчиках администрации, которые следят за состоянием улиц, освещением, ирригацией, зелеными насаждениями, осуществляют уборку территории и вывоз, а также переработку мусора. В ходе проекта для специально выделенных инспекторов разработаны 300 ключевых показателей эффективности работы городских сервисов, на базе которых ежедневно будет осуществляться 1,5 тыс. различных проверок и замеров. Кроме того, город начнет использование инновационной технологическлй платформы под названием Madrid iNTeligente (MiNT) — Smarter Madrid.

Читать подробнее: Зачем Мадриду аналитика и большие данные?

2013

Эксперты: Пик моды на Big Data

Все без исключения вендоры на рынке управления данными в это время ведут разработку технологий для менеджмента Big Data. Этот новый технологический тренд также активно обсуждается профессиональными сообществом, как разработчиками, так и отраслевыми аналитиками и потенциальными потребителями таких решений.

Как выяснила компания Datashift, по состоянию на январь 2013 года волна обсуждений вокруг «больших данных» превысила все мыслимые размеры. Проанализировав число упоминаний Big Data в социальных сетях, в Datashift подсчитали, что за 2012 год этот термин употреблялся около 2 млрд раз в постах, созданных около 1 млн различных авторов по всему миру. Это эквивалентно 260 постам в час, причем пик упоминаний составил 3070 упоминаний в час.

Обсуждения Big Data в сети идут весьма активно. Причем, как видно из представленных выше круговых диаграмм, пик обсуждений только нарастает: если в первом квартале 2012 года насчитывалось более 504 тыс. упоминаний термина, то в четвертом квартале – уже более 800 тыс. Главные темы обсуждений применительно к большим данным – мифы и реальность, опыт использования, человеческий фактор, возврат инвестиций, новые технологии. Среди вендоров чаще всего упоминались компании Apache, 10gen, IBM, HP и Teradata.

Gartner: Каждый второй ИТ-директор готов потратиться на Big data

После нескольких лет экспериментов с технологиями Big data и первых внедрений в 2013 году адаптация подобных решений значительно возрастет, прогнозируют в Gartner[9]. Исследователи опросили ИТ-лидеров во всем мире и установили, что 42% опрошенных уже инвестировали в технологии Big data или планируют совершить такие инвестиции в течение ближайшего года (данные на март 2013 года).

Компании вынуждены потратиться на технологии обработки больших данных, поскольку информационный ландшафт стремительно меняется, требую новых подходов к обработки информации. Многие компании уже осознали, что большие массивы данных являются критически важными, причем работа с ними позволяет достичь выгод, не доступных при использовании традиционных источников информации и способов ее обработки. Кроме того, постоянное муссирование темы «больших данных» в СМИ подогревает интерес к соответствующим технологиям.

Фрэнк Байтендидк (Frank Buytendijk), вице-президент Gartner, даже призвал компании умерить пыл, поскольку некоторые проявляют беспокойство, что отстают от конкурентов в освоении Big data.

«Волноваться не стоит, возможности для реализации идей на базе технологий «больших данных» фактически безграничны», — заявил он.

По прогнозам Gartner, к 2015 году 20% компаний списка Global 1000 возьмут стратегический фокус на «информационную инфраструктуру».

В ожидании новых возможностей, которые принесут с собой технологии обработки «больших данных», уже сейчас многие организации организуют процесс сбора и хранения различного рода информации.

Для образовательных и правительственных организаций, а также компаний отрасли промышленности наибольший потенциал для трансформации бизнеса заложен в сочетании накопленных данных с так называемыми dark data (дословно – «темными данными»), к последним относятся сообщения электронной почты, мультимедиа и другой подобный контент. По мнению Gartner, в гонке данных победят именно те, кто научится обращаться с самыми разными источниками информации.

Опрос Cisco: Big Data поможет увеличить ИТ-бюджеты

В ходе исследования (весна 2013 года) под названием Cisco Connected World Technology Report, проведенного в 18 странах независимой аналитической компанией InsightExpress, были опрошены 1 800 студентов колледжей и такое же количество молодых специалистов в возрасте от 18 до 30 лет. Опрос проводился, чтобы выяснить уровень готовности ИТ-отделов к реализации проектов Big Data и получить представление о связанных с этим проблемах, технологических изъянах и стратегической ценности таких проектов.

Большинство компаний собирает, записывает и анализирует данные. Тем не менее, говорится в отчете, многие компании в связи с Big Data сталкиваются с целым рядом сложных деловых и информационно-технологических проблем. К примеру, 60 процентов опрошенных признают, что решения Big Data могут усовершенствовать процессы принятия решений и повысить конкурентоспособность, но лишь 28 процентов заявили о том, что уже получают реальные стратегические преимущества от накопленной информации.

Более половины опрошенных ИТ-руководителей считают, что проекты Big Data помогут увеличить ИТ-бюджеты в их организациях, так как будут предъявляться повышенные требования к технологиям, персоналу и профессиональным навыкам. При этом более половины респондентов ожидают, что такие проекты увеличат ИТ-бюджеты в их компаниях уже в 2012 году. 57 процентов уверены в том, что Big Data увеличит их бюджеты в течение следующих трех лет.

81 процент респондентов заявили, что все (или, по крайней мере, некоторые) проекты Big Data потребуют применения облачных вычислений. Таким образом, распространение облачных технологий может сказаться на скорости распространения решений Big Data и на ценности этих решений для бизнеса.

Компании собирают и используют данные самых разных типов, как структурированные, так и неструктурированные. Вот из каких источников получают данные участники опроса (Cisco Connected World Technology Report):

  • 74 процента собирают текущие данные;
  • 55 процентов собирают исторические данные;
  • 48 процентов снимают данные с мониторов и датчиков;
  • 40 процентов пользуются данными в реальном времени, а затем стирают их. Чаще всего данные в реальном времени используются в Индии (62 процента), США (60 процентов) и Аргентине (58 процентов);
  • 32 процента опрошенных собирают неструктурированные данные – например, видео. В этой области лидирует Китай: там неструктурированные данные собирают 56 процентов опрошенных.

Почти половина (48 процентов) ИТ-руководителей прогнозирует удвоение нагрузки на их сети в течение ближайших двух лет. (Это особенно характерно для Китая, где такой точки зрения придерживаются 68 процентов опрошенных, и Германии – 60 процентов). 23 процента респондентов ожидают утроения сетевой нагрузки на протяжении следующих двух лет. При этом лишь 40 процентов респондентов заявили о своей готовности к взрывообразному росту объемов сетевого трафика.

27 процентов опрошенных признали, что им необходимы более качественные ИТ-политики и меры информационной безопасности.

21 процент нуждается в расширении полосы пропускания.

Big Data открывает перед ИТ-отделами новые возможности для наращивания ценности и формирования тесных отношений с бизнес-подразделениями, позволяя повысить доходы и укрепить финансовое положение компании. Проекты Big Data делают ИТ-подразделения стратегическим партнером бизнес-подразделений.

По мнению 73 процентов респондентов, именно ИТ-отдел станет основным локомотивом реализации стратегии Big Data. При этом, считают опрошенные, другие отделы тоже будут подключаться к реализации этой стратегии. Прежде всего, это касается отделов финансов (его назвали 24 процента респондентов), научно-исследовательского (20 процентов), операционного (20 процентов), инженерного (19 процентов), а также отделов маркетинга (15 процентов) и продаж (14 процентов).

Gartner: Для управления большими данными нужны миллионы новых рабочих мест

Мировые ИТ расходы достигнут $3,7 млрд к 2013 году, что на 3,8% больше расходов на информационные технологии в 2012 году (прогноз на конец года составляет $3,6 млрд). Сегмент больших данных (big data) будет развиваться гораздо более высокими темпами, говорится в отчете Gartner[10].

К 2015 году 4,4 млн рабочих мест в сфере информационных технологий будет создано для обслуживания больших данных, из них 1,9 млн рабочих мест – в США. Более того, каждое такое рабочее место повлечет за собой создание трех дополнительных рабочих мест за пределами сферы ИТ, так что только в США в ближайшие четыре года 6 млн человек будет трудиться для поддержания информационной экономики.

По мнению экспертов Gartner, главная проблема состоит в том, что в отрасли для этого недостаточно талантов: как частная, так и государственная образовательная система, например, в США не способны снабжать отрасль достаточным количеством квалифицированных кадров. Так что из упомянутых новых рабочих мест в ИТ кадрами будет обеспечено только одно из трех.

Аналитики полагают, что роль взращивания квалифицированных ИТ кадров должны брать на себя непосредственно компании, которые в них остро нуждаются, так как такие сотрудники станут пропуском для них в новую информационную экономику будущего.

2012

Первый скепсис в отношении «Больших данных»

Аналитики компаний Ovum и Gartner предполагают, что для модной в 2012 году темы больших данных может настать время освобождения от иллюзий.

Термином «Большие Данные», в это время как правило, обозначают постоянно растущий объем информации, поступающей в оперативном режиме из социальных медиа, от сетей датчиков и других источников, а также растущий диапазон инструментов, используемых для обработки данных и выявления на их основе важных бизнес-тенденций.

«Из-за шумихи (или несмотря на нее) относительно идеи больших данных производители в 2012 году с огромной надеждой смотрели на эту тенденцию», — отметил Тони Байер, аналитик Ovum.

Байер сообщил, что компания DataSift провела ретроспективный анализ упоминаний больших данных в Twitter за 2012 год. Ограничивая поиск производителями, аналитики хотели сфокусироваться на восприятии этой идеи рынком, а не широким сообществом пользователей. Аналитики выявили 2,2 млн твитов от более чем 981 тыс. авторов.

Эти данные различались в разных странах. Хотя общепринято убеждение, что США лидирует по показателю установленных платформ для работы с большими данными, пользователи из Японии, Германии и Франции часто были более активны в обсуждениях.

Идея Больших Данных привлекла столь большое внимание, что об этом широко писала даже бизнес-пресса, а не только специализированные издания.

Число положительных отзывов о больших данных со стороны производителей в три раза превышало число отрицательных, хотя в ноябре в связи с покупкой компанией HP компании Autonomy наблюдался всплеск негатива.

Концепцию больших данных ожидают намного более суровые времена, хотя, миновав их, эта идеология достигнет зрелости.

«Для сторонников больших данных наступает время расставания с иллюзиями», — пояснила Светлана Сикулар, аналитик Gartner. Она сослалась на обязательную стадию, входящую в классическую кривую цикла популярности (Hype Cycle), которую используют в Gartner.

Даже среди тех клиентов, которые добились наибольших успехов с использованием Hadoop, многие «утрачивают иллюзии».

«Они отнюдь не чувствуют, что находятся впереди других, и полагают, что успех выпадает другим, в то время как они переживают не лучшие времена. У этих организаций потрясающие идеи, а теперь они разочарованы из-за трудностей в выработке надежных решений», — сказала Сикулар.

Впрочем, источником оптимизма для сторонников больших данных в это время может быть то, что следующий цикл на кривой популярности, а также завершающие этапы имеют весьма многообещающие названия, а именно «склон просвещения» и «плато продуктивности».

Медленные СХД сдерживают развитие «Больших данных»

Если производительность современных вычислительных систем за несколько десятилетий выросла на многие порядки и не идет ни в какое сравнение с первыми персональными ПК образца начала 1980-х гг. прошлого столетия, то с СХД дела обстоят гораздо хуже. Безусловно, доступные объемы многократно увеличились (впрочем, они по-прежнему в дефиците), резко снизилась стоимость хранения информации в пересчете на бит (хотя готовые системы по-прежнему слишком дорогие), однако скорость извлечения и поиска нужной информации оставляет желать лучшего.

Если не брать в рассмотрение пока еще слишком дорогие и не вполне надежные и долговечные флэш-накопители, технологии хранения информации не очень далеко ушли вперед. По-прежнему приходится иметь дело с жесткими дисками, скорость вращения пластин которых даже в самых дорогих моделях ограничена на уровне 15 тыс. об./мин. Коль скоро речь идет о больших данных, очевидно, немалое их количество (если не подавляющее) размещается на накопителях со скоростью вращения шпинделя 7,2 тыс. об./мин. Достаточно прозаично и грустно.

Обозначенная проблема лежит на поверхности и хорошо знакома ИТ-директорам компаний. Впрочем, она далеко не единственная[11]:

  • Технологическое отставание.

Большие данные могут превратиться в большую головную боль или открыть большие возможности перед правительственными учреждениями, если только они сумеют ими воспользоваться. К таким выводам пришли во втором квартале 2012 года авторы исследования с неутешительным названием The Big Data Gap (с англ. gap – «расхождение», в данном контексте между теоретическими выгодами и реальным положением дел). По результатам опроса 151 ИТ-директора в ближайшие два года объемы хранимых данных в государственных учреждениях увечатся на 1 Петабайт (1024 Терабайт). В то же время извлекать выгоды из постоянно растущих информационных потоков становится все сложнее, сказывается недостаток доступного пространства в СХД, затрудняется доступ к нужным данным, не хватает вычислительной мощности и квалифицированного персонала.

Находящиеся в распоряжении ИТ-менеджеров технологии и приложения демонстрируют существенное отставание от требований реальных задач, решение которых способно принести большим данным дополнительную ценность. 60% представителей гражданских и 42% оборонных ведомств пока только занимаются изучением феномена больших данных и ведут поиск возможных точек его приложения в своей деятельности. Основной, по мнению ИТ-директоров федеральных органов власти, должно стать повышение эффективности работы – так считают 59% респондентов. На втором месте находится повышение скорости и точности принимаемых решений (51%), на третьем – возможность строить прогнозы (30%).

Как бы там ни было, но потоки обрабатываемых данных продолжают расти. На увеличение объемов хранимой информации в течение последних двух лет указали 87% опрошенных ИТ-директоров, на сохранение этой тенденции в перспективе ближайших двух лет рассчитывают уже 96% респондентов (со средним приростом 64%). Чтобы суметь воспользоваться всеми преимуществами, которые сулят большие данные, принимавшим участие в опросе учреждениям понадобится в среднем три года. Пока только 40% органов власти принимают стратегические решения, основываясь на накапливаемых данных, и лишь 28% взаимодействуют с другими организациями для анализа распределенных данных.

  • Низкое качество данных.

В большом доме всегда сложнее навести порядок, нежели в крохотной квартирке. Здесь можно провести полную аналогию с большими данными, при работе с которыми очень важно придерживаться формулы `мусор на входе — золото на выходе`. К сожалению, современные инструменты управления мастер-данными недостаточно эффективны и нередко приводят к обратным ситуациям (`золото на входе — мусор на выходе`).

  • Метаданные: осведомлен – значит вооружен.

Запрос, который хорошо справляется с поиском сотни строк из миллиона, может не справиться с таблицей из ста миллиардов строк. Если данные часто меняются, крайне важно вести журнал и проводить аудит. Выполнение этих несложных правил позволит располагать важной для выработки методики хранения и работы с данными информации об объеме данных, скорости и частоте его изменения.

  • Скажи мне кто твой друг – и я скажу кто ты.

Правильно интерпретировать скрытые в массивах больших данных тенденции и взаимосвязи могут в буквальном смысле считанные подготовленные специалисты. В некоторой степени их способны заменить фильтры и распознаватели структур, но качество получаемых на выходе результатов пока оставляет желать лучшего.

  • Визуализация.

Одноименный раздел статьи наглядно иллюстрирует всю сложность и неоднозначность используемых подходов для визуализации больших данных. В то же время, представление результатов в доступной для восприятия форме подчас имеет критически важное значение.

  • Время – деньги.

Просмотр данных в реальном времени означает необходимость постоянного пересчета, что далеко не всегда приемлемо. Приходится идти на компромисс и прибегать к ретроспективному способу аналитики, например, на базе кубов, и мириться с отчасти устаревшими результатами.

  • Палить из пушки по воробьям.

Никогда нельзя знать заранее на каком временном промежутке большие данные представляют особую ценность и наиболее релевантны. А ведь сбор, хранение, анализ, создание резервных копий требует немалых ресурсов. Остается оттачивать политику хранения и, конечно, не забывать применять ее на практике.

Oracle: Решение проблемы больших данных в модернизации ЦОДов

Результаты исследования корпорации Oracle свидетельствуют о том, что многие компании, по всей видимости, застигнуты врасплох бумом «больших данных».

«Борьба с «большими данными», похоже, станет самой большой ИТ-задачей для компаний в ближайшие два года, – считает Луиджи Фрегуйя (Luigi Freguia), старший вице-президент по аппаратному обеспечению Oracle в регионе EMEA. – К концу этого периода они либо справятся с ней, либо значительно отстанут в бизнесе и будут далеки как от угроз, так и от возможностей «больших данных».

Задача по «освоению» больших данных является уникальной, признают в Oracle. Главным же ответом компаний на вызовы big data должна стать модернизация корпоративных центров обработки данных (ЦОД).

Чтобы оценить степень готовности компаний к изменениям внутри ЦОДов, на протяжении почти двух лет Oracle вместе с аналитической компанией Quocirca собирала данные для исследования Oracle Next Generation Data Centre Index (Oracle NGD Index). Этот индекс оценивает прогресс компаний в вопросе продуманного использования ЦОДов для улучшения производительности ИТ-инфраструктуры и оптимизации бизнес-процессов.

Исследование состояло из двух фаз (циклов), и аналитики заметили существенные изменения всех ключевых показателей уже на пороге второго этапа. Средний балл по Oracle NGD Index, который набрали участники опроса из Европы и Ближнего Востока, составил 5,58. Максимальный балл –10,0 – отражает наиболее продуманную стратегию использования ЦОДов.

Средний балл (5,58) стал выше по сравнению с первым циклом исследования, проведенным в феврале 2011 года, – 5,22. Это говорит о том, что компании в ответ на бум «больших данных» увеличивают инвестиции в стратегии развития ЦОДов. Все страны, отрасли и направления в рамках отраслей, охваченные исследованием, повысили индекс Oracle NGD Index по результатам второго цикла в сравнении с первым.

Скандинавия и регион DCH (Германия/ Швейцария) занимают лидирующие позиции по устойчивому развитию с индексом (Sustainability Index) в 6,57. Далее в этом рейтинге следует Бенилюкс (5,76) и, затем, Великобритания с показателем 5,4, что уже ниже среднего уровня.

У России, которая была включена в список стран/регионов только во втором цикле исследования и не участвовала в первом, есть значительный потенциал для роста (показатель 4,62), отмечают аналитики.

Согласно исследованию, российские организации рассматривают поддержку роста бизнеса в качестве важной причины для инвестиций в ЦОДы. Более 60% компаний видят необходимость таких инвестиций сегодня или в ближайшем будущем, предполагая, что организации в скором времени обнаружат, что конкурировать становится невероятно сложно, если и пока не сделать соответствующие инвестиции.

В целом в мире доля респондентов с собственными корпоративными ЦОДами снизилась с 60% по результатам первого цикла исследования до 44% на втором цикле исследования, напротив, использование внешних ЦОДов возросло на 16 пунктов до 56%.

Лишь 8% респондентов заявили, что им не нужны новые мощности ЦОДа в обозримом будущем. 38% респондентов видят необходимость в новых мощностях ЦОДа в пределах двух ближайших лет. Лишь 6,4% респондентов сообщили, что в их организации нет плана устойчивого развития, связанного с использованием ЦОДа. Доля руководителей ЦОДов, которые просматривают копии счетов на оплату электроэнергии, выросла с 43,2% до 52,2% за весь период исследования.

Инвестиции в Big Data-стартапы

Во второй декаде октября 2012 года сразу три американских стартапа получили инвестирование на развитие приложений и сервисов для работы с Big data. Эти компании на своем примере показывают неугасающий, а возрастающий интерес венчуров к этому сегменту ИТ бизнеса, а также необходимость новой инфраструктуры для работы с данными, пишет TechCrunch 21 октября 2012 года.

Интерес инвесторов к Big data объясняется позитивным прогнозом Gartner о развитии этого сегмента до 2016 года. Согласно исследованию, решения для Big data будут составлять около 232 млрд долларов в структуре ИТ-расходов компаний.

При этом, многие компании и стартапы в сегменте Big data начинают уходить от схемы работы пионеров отрасли (Google, Amazon), когда решения по работе с большими данными являлись лишь частью центров обработки данных. Сейчас они трансформировались в отдельное направление ИТ-рынка.

Big data сейчас-это и инфраструктурные предложения и приложения как коробочного, так и облачного типов, это инструмент работы не только больших корпораций, но и среднего, а порой и малого бизнесов.

И это движение рынка вынуждает вендоров иначе смотреть на Big data и менять свой подход в работе с ними, а также меняет взгляд на клиентов-потребителей, которыми теперь являются не только телекоммуникационные или финансовые корпорации.

Индия готовится к буму больших данных

Индийский рынок ИТ постепенно начинает сбавлять темпы развития и индустрии приходится искать новые пути поддержания привычную динамику роста или способы не рухнуть вслед за другими отраслями в периоды мирового экономического кризиса. Разработчики ПО и приложений начинают предлагать новые варианты использования новейших технологий. Так некоторые индийские компании производят анализ покупательской активности на основе больших объемов неструктурированных данных (Big Data) и затем предлагают результаты исследований крупным магазинам и ритейловым сетям. Об этом сообщил 8 октября 2012 года Reuters.

Под пристальное изучение попали камеры видеонаблюдения, отчеты о покупках, запросах в интернете, отчеты о завершенных покупках с помощью того или иного веб-ресурса.

«Эти данные могут нам дать понять о склонности посетителя к той или иной покупке, а следовательно эта информация дает ключ к заключению выгодной сделки для всех сторон», — цитирует Reutes генерального директора Бангалорской компании Mu Sigma Дхирая Раджарама (Dhiraj Rajaram), одной из крупнейших организаций, занимающейся анализом Big Data.

Дхирай Раджарам заметил, что основная часть подобного анализа производится в США, однако сейчас, когда бурное развитие индийского ИТ-рынка начало ослабевать, компании обращают все более пристальное внимание к этому перспективному сегменту.

При этом, индийские компании при работе с Big Data чаще всего используют облачные технологии для хранения и обработки данных и результатов своей деятельности.

Объем общемировых данных, производимых в 2011 году оценивается, по мнению Дхирая Раджарама, в примерно 1,8 зеттабайт — 1,8 миллиарда терабайт, что эквивалентно 200 млрд. полнометражных фильмов высокой четкости.

Помимо анализа запросов и результатов обработки изображения с камер видеонаблюдения, огромный простор для работы Дхирай Раджарам видит в том, сколько информации от пользователей и покупателей появляется в социальных сетях. По его мнению этот относительно новый сегмент ИТ-рынка может стать драйвером всей индустрии в скором времени.

Индийская национальная ассоциация программного обеспечения и ИТ услуг (India’s National Association of Software and Services Companies (Nasscom) прогнозирует шестикратный рост сегмента решения для работы с Big Data до 1,2 млрд долларов.

При этом общемировой рост Big Data составит более чем 2 раза с 8,25 млрд долларов сейчас, до 25 млрд долларов в ближайшие несколько лет, считают в Nasscom.

2011

Мода на «Большие данные» расцветает

В 2011 году было принято считать, что современные программные инструменты не в состоянии оперировать большими объемами данных в рамках разумных временных промежутков. Обозначенный диапазон значений носит весьма условный характер и имеет тенденцию к увеличению в большую сторону, поскольку вычислительная техника непрерывно совершенствуется и становится все более доступной. В частности, Gartner в июне 2011 года рассматривает «большие данные» сразу в трех плоскостях – роста объемов, роста скорости обмена данными и увеличения информационного разнообразия[12].

В это время считается, что основной особенностью используемых в рамках концепции больших данных подходов является возможность обработки информационного массива целиком для получения более достоверных результатов анализа. Прежде приходилось полагаться на так называемую репрезентативную выборку или подмножество информации. Закономерно погрешности при таком подходе были заметно выше. Кроме того, такой подход требовал затрат определенного количества ресурсов на подготовку данных для анализа и приведение их к требуемому формату.

Согласно сообщениям СМИ в этот период, «трудно найти отрасль, для которой проблематика больших данных была бы неактуальной». Умение оперировать большими объемами информации, анализировать взаимосвязи между ними и принимать взвешенные решения, с одной стороны, несет потенциал для компаний из различных вертикалей для увеличения показателей доходности и прибыльности, повышения эффективности. С другой стороны, это прекрасная возможность для дополнительного заработка партнерам вендоров – интеграторам и консультантам.

Чтобы подчеркнуть выгоды от развития и внедрения инструментов работы с большими данными компания McKinsey предлагала приведенную ниже статистику. Она имеет привязку преимущественно к рынку США, но ее нетрудно экстраполировать и на другие экономически развитые регионы.

  • Потенциальный объем рынка здравоохранения в США составляет $300 млрд в год. Часть этой огромной суммы идет на внедрение современных ИТ, и очевидно, большие данные не останутся в стороне.
  • Использование инструментов анализа «больших данных» в розничных сетях потенциально может привести к увеличению прибыльности на 60%.
  • Только в США для эффективной обработки «больших данных» понадобится 140-190 тыс. аналитиков и свыше 1,5 млн менеджеров для управления информационными массивами.
  • Американские компании в 15 из 17 отраслей экономики располагают большими объемами данных, чем библиотека Конгресса США.

Почему данные стали большими

В 2011 году апологеты концепции Big Data заявляют, что источников больших данных в современном мире великое множество. В их качестве могут выступать:

  • непрерывно поступающие данные с измерительных устройств,
  • события от радиочастотных идентификаторов,
  • потоки сообщений из социальных сетей,
  • метеорологические данные,
  • данные дистанционного зондирования земли,
  • потоки данных о местонахождении абонентов сетей сотовой связи,
  • устройств аудио- и видеорегистрации.

Собственно, массовое распространение перечисленных выше технологий и принципиально новых моделей использования различно рода устройств и интернет-сервисов послужило отправной точкой для проникновения больших данных едва ли не во все сферы деятельности человека. В первую очередь, научно-исследовательскую деятельность, коммерческий сектор и государственное управление.

Файл:1_BigData1.jpg

Рост объемов данных (слева) на фоне вытеснения аналоговых средств хранения (справа). Источник: Hilbert and López, `The world’s technological capacity to store, communicate, and compute information,`Science, 2011Global

Несколько показательных фактов этого времени:

  • В 2010 году корпорации мира накопили 7 экзабайтов данных, на наших домашних ПК и ноутбуках хранится 6 экзабайтов информации.
  • Всю музыку мира можно разместить на диске стоимостью 600 долл.
  • В 2010 году в сетях операторов мобильной связи обслуживалось 5 млрд телефонов.
  • Каждый месяц в сети Facebook выкладывается в открытый доступ 30 млрд новых источников информации.
  • Ежегодно объемы хранимой информации вырастают на 40%, в то время как глобальные затраты на ИТ растут всего на 5%.
  • По состоянию на апрель 2011 года в библиотеке Конгресса США хранилось 235 терабайт данных.
  • Американские компании в 15 из 17 отраслей экономики располагают большими объемами данных, чем библиотека Конгресса США.

Файл:2_BigData.png

Рост вычислительной мощности компьютерной техники (слева) на фоне трансформации парадигмы работы с данными (справа). Источник: Hilbert and López, `The world’s technological capacity to store, communicate, and compute information,`Science, 2011Global

К примеру, датчики, установленные на авиадвигателе, генерируют около 10 Тб за полчаса. Примерно такие же потоки характерны для буровых установок и нефтеперерабатывающих комплексов. Только один сервис коротких сообщений Twitter, несмотря на ограничение длины сообщения в 140 символов, генерирует поток 8 Тб/сут. Если все подобные данные накапливать для дальнейшей обработки, то их суммарный объем будет измеряться десятками и сотнями петабайт. Дополнительные сложности проистекают из вариативности данных: их состав и структура подвержены постоянным изменениям при запуске новых сервисов, установке усовершенствованных сенсоров или развертывании новых маркетинговых кампаний.

Рекомендации ИТ-директорам

Невиданное прежде разнообразие данных, возникающих в результате огромного числа всевозможных транзакций и взаимодействий, предоставляет собой прекрасную фундаментальную базу для бизнеса по уточнению прогнозов, оценке перспектив развития продуктов и целых направлений, лучшего контроля затрат, оценки эффективности – список легко продолжать сколь угодно долго. С другой стороны, большие данные ставят непростые задачи перед любым ИТ-подразделением, писали эксперты 2020vp.com в 2011 году. Мало того, что они принципиально нового характера, при их решении важно учитывать накладываемые бюджетом ограничения на капитальные и текущие затраты.

ИТ-директор, который намерен извлечь пользу из больших структурированных и неструктурированных данных, должен руководствоваться следующими техническими соображениями[13]:

  • Разделяй и властвуй.

Перемещение и интеграция данных необходимы, но оба подхода повышают капитальные и операционные расходы на инструменты извлечения информации, ее преобразования и загрузки (ETL). Поэтому не стоит пренебрегать стандартными реляционными средами, такими как Oracle, и аналитическими хранилищами данных, такими как Teradata.

  • Компрессия и дедупликация.

Обе технологии существенно ушли вперед, например, многоуровневая компрессия позволяет сокращать объем `сырых` данных в десятки раз. Впрочем всегда стоит помнить какая часть сжатых данных может потребовать восстановления, и уже отталкиваясь от каждой конкретной ситуации принимать решение об использовании той же компрессии.

  • Не все данные одинаковы.

В зависимости от конкретной ситуации диапазон запросов для бизнес-аналитики меняется в широких пределах. Часто для получения необходимой информации достаточно получить ответ на SQL-запрос, но встречаются и глубокие аналитические запросы, требующие применения наделенных бизнес-интеллектом инструментов и обладающих полным спектром возможностей приборной доски и визуализации. Чтобы не допустить резкого увеличения операционных расходов, нужно тщательно подойти к составлению сбалансированного списка необходимых патентованных технологий в сочетании с открытым ПО Apache Hadoop.

  • Масштабирование и управляемость.

Организации вынуждены решать проблему разнородности баз данных и аналитических сред, и в этой связи возможность масштабирования по горизонтали и вертикали имеет принципиальное значение. Собственно, как раз легкость горизонтального масштабирования и стала одной из основных причин быстрого распространения Hadoop. Особенно в свете возможности параллельной обработки информации на кластерах из обычных серверов (не требует от сотрудников узкоспециальных навыков) и экономии таким образом инвестиций в ИТ-ресурсы.

Рост спроса на администраторов big data

46% директоров ИТ-служб, опрошенных в конце 2011 года кадровым агентством Robert Half, называют самой востребованной специальностью администрирование баз данных. Администрирование сетей назвали 41% опрошенных, администрирование систем Windows — 36%, техническую поддержку настольных приложений — 33%, а бизнес-аналитику и средства составления отчетов — 28%.

Обработка больших объемов данных становится серьезной проблемой для многих компаний, и это повышает спрос на специалистов по управлению базами данных, заключают в Robert Half. Помимо роста объемов неструктрированных данных (например, сообщений в социальных сетях), спрос повышается из-за подготовки к введению в Европе новых нормативных требований — в том числе стандартов платежеспособности Solvency II для страховых компаний и стандартов капитала и ликвидности Basel III для банковского сектора.

Аналитики Robert Half предсказывают также дефицит специалистов по мобильным и облачным технологиям. Их вывод основан на том, что 38% опрошенных ИТ-директоров главным направлением инвестиций назвали мобильные технологии, а 35% — виртуализацию.

2008: Появление термина «Большие данные»

Непосредственно термин «большие данные» появился в употреблении только в конце 2000-х. Он относится к числу немногих названий, имеющих вполне достоверную дату своего рождения — 3 сентября 2008 года, когда вышел специальный номер старейшего британского научного журнала Nature, посвященный поиску ответа на вопрос «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объемами данных?». Специальный номер подытоживал предшествующие дискуссии о роли данных в науке вообще и в электронной науке (e-science) в частности[14].

Можно выявить несколько причин, вызвавших новую волну интереса к большим данным. Объемы информации росли по экспоненциальному закону и ее львиная доля относится к неструктурированным данным. Другими словами, вопросы корректной интерпретации информационных потоков становились все более актуальными и одновременно сложными. Реакция со стороны ИТ-рынка последовала незамедлительно – крупные игроки приобрели наиболее успешные узкоспециализированные компании и начали развивать инструменты для работы с большими данными, количество соответствующих стартапов и вовсе превосходило все мыслимые ожидания.

Наряду с ростом вычислительной мощности и развитием технологий хранения возможности анализа больших данных постепенно становятся доступными малому и среднему бизнесу и перестают быть исключительно прерогативой крупных компаний и научно-исследовательских центров. В немалой степени этому способствует развитие облачной модели вычислений.

В это время ожидается, что с дальнейшим проникновением ИТ в бизнес-среду и повседневную жизнь подлежащие обработке информационные потоки продолжат непрерывно расти. И если в конце 2000-х большие данные – это петабайты, ожидалось, что в будущем придется оперировать с экзабайтами и т.д. Прогнозировалось, что в обозримой перспективе инструменты для работы с такими гигантскими массивами информации все еще будут оставаться чрезмерно сложными и дорогими.

1970-е: Эпоха мейнфреймов — появление концепции больших данных

Сама по себе концепция «больших данных» возникла ещё во времена мэйнфреймов и связанных с ними научных компьютерных вычислений[15]. Как известно, наукоемкие вычисление всегда отличались сложностью и обычно неразрывно связаны с необходимостью обработки больших объемов информации.

Смотрите также

  • Обзор BI и Big Data
  • Dark data (темные данные)
  • Data Fabric (ткань данных)
  • DataOps (data operations, конвейер данных)
  • Business Intelligence (рынок России)
  • Главные тенденции рынка BI в России
  • Большие данные Big Data (рынок России)
  • Big Data — Каталог систем и проектов
  • Большие данные (Big Data)
  • Большие данные (Big Data) мировой рынок
  • Большие данные в электронной коммерции
  • Большие данные (Big Data) в медицине
  • Большие данные в гражданской авиации
  • Специалист по работе с большими данными (big data)
  • Business Intelligence (мировой рынок)
  • География BI-проектов
  • Российский BI: отраслевая специфика
  • Внедрения BI в России: типичные ошибки
  • Self-Service BI
  • Визуализация данных
  • Предикативная аналитика (предиктивная, прогнозная, прогностическая) Predictive analytics
  • Cloud/SaaS BI
  • Как технологии Business Intelligence эволюционируют и становятся доступными каждому
  • Директор по данным (Chief Data Officer, CDO)
  • Data Governance (Руководство данными)
  • Управление данными (Data management)
  • Директор по цифровым технологиям Chief Digital Officer, CDO
  • Директор по цифровым технологиям (Chief Digital Officer, CDO) в России
  • ИТ-директор (CIO — Chief Information Officer)
  • Специалист по изучению данных (data scientist)
  • Data Mining
  • Машинное обучение (Machine Learning)
  • Сквозные технологии цифровой экономики
  • Статья:Интернет вещей Internet of Things (IoT)
  • Статья:Интернет вещей, IoT, M2M (мировой рынок)
  • Статья:Интернет вещей, IoT, M2M (рынок России)
  • Интернет вещей: успеть нельзя остаться
  • IIoT — Industrial Internet of Things (Промышленный интернет вещей)
  • PaaS — Platform As A Service — Бизнес-платформа как сервис
  • RFID
  • АСУ ТП

Примечания

  1. ↑ Как анализировать большие данные
  2. ↑ Большие планы на «большие данные»
  3. ↑ Double-Digit Growth Forecast for the Worldwide Big Data and Business Analytics Market Through 2020 Led by Banking and Manufacturing Investments, According to IDC
  4. ↑ Интернет вещей затмил большие данные
  5. ↑ США: Белый дом опубликовал отчет о больших данных и дифференциальном ценообразовании
  6. ↑ Ten Key Take-Aways From the White House Big Data Report
  7. ↑ FTC Public Workshop On Big-Data Discrimination: Assessing the Current Environment
  8. ↑ 92% руководителей довольны проектами больших данных
  9. ↑ Gartner Survey Finds 42 Percent of IT Leaders Have Invested in Big Data or Plan to Do So
  10. ↑ Gartner Says Big Data Creates Big Jobs: 4.4 Million IT Jobs Globally to Support Big Data By 2015
  11. ↑ Managing Big Data: Six Operational Challenges
  12. ↑ Gartner Says Solving ‘Big Data’ Challenge Involves More Than Just Managing Volumes of Data
  13. ↑ Making the Most of Big Data
  14. ↑ Большие Данные — новая теория и практика
  15. ↑ 2012-й: «облачный» год для «больших данных»

Анализ данных  •  15 декабря  2022  •  5 мин чтения

Big Data, или большие данные для бизнеса, — как закодированное послание: если его расшифровать, получатся точные координаты, чтобы проложить курс. Разбираем, как это работает.

  • Что такое Big Data
  • Параметры больших данных
  • Как работает технология Big Data: сбор, хранение, обработка
  • Преимущества технологии Big Data
  • Где применяется аналитика больших данных
  • Использование Big Data в России и мире
  • Кто работает с Big Data
  • Как начать работать с большими данными
  • Совет эксперта

Что такое Big Data

О больших данных заговорили в середине нулевых, когда объёмы информации, которой оперировали для вычислений и анализа, росли в геометрической прогрессии. Тогда в редакции журнала Nature предложили относить к Big Data данные, объём которых превышает 150 Гб в сутки. Другие эксперты предлагают считать большими данными всё, что больше 8 Гб, то есть стандартного размера оперативной памяти ПК.

Гораздо проще определить, что относится к большим данным, через их применение. Big Data — это массивы информации, которые помогают принимать обоснованные решения, их ещё называют data-driven, то есть основанные на данных. Они позволяют строить прогнозные модели высокой точности. Такие используют, к примеру, в NASA, чтобы воспроизвести все детали будущей миссии. Для сбора, хранения и анализа больших данных требуются специальные инструменты и оборудование. К примеру, вместо одного ПК или сервера для хранения Big Data используют множество серверов или дата-центров по всему миру.

Анализ больших данных: зачем он нужен и кто им занимается

Параметры больших данных

Основные характеристики Big Data (больших данных) определяют как шесть «V»:

Volume — объём — от 150 Гб в сутки.

Velocity — скорость. Объём и содержимое Big Data ежесекундно меняются, поэтому собирать и обрабатывать их нужно на больших вычислительных мощностях. Например, сервис FlightRadar24, где отображаются все маршруты самолётов в режиме онлайн.

Variety — разнообразие. Массив больших данных может включать фото, видео и тексты, файлы разных объёмов и форматов, данные из множества разных источников. Обычные данные, как правило, однородные, например таблица Excel с Ф. И. О. каждого сотрудника.

Veracity — достоверность. Большие данные собирают только из источников, которым можно доверять, а для анализа используют точные и объективные методы. Поэтому корпорации и международные организации принимают стратегические решения на основе этих данных.

Variability — изменчивость. Большие данные обновляются в режиме онлайн, поэтому их поток нестабилен. На него влияют скорость передачи, изменение источников, действия пользователей и даже смена сезонов. При анализе данных нужно учитывать и прогнозировать все эти факторы. Например, данные об авиаперелётах стоит использовать с поправками на задержки рейсов и погодные условия, из-за которых меняются маршруты.

Value — ценность. Сами по себе данные ничего не значат, но на их основе можно сделать глубокие выводы и принимать взвешенные решения. Например, проанализировать трафик на дорогах в течение года и понять, как лучше построить маршруты для городского транспорта.

Big Data также бывают:

● Структурированными — то есть уже размеченными по определённым параметрам. Допустим, данные о ключевых медицинских показателях пациентов: температура, давление, анализы крови и ЭКГ.

● Частично структурированными, например файлы разного формата с записями о стихийных бедствиях в регионе за последние пять лет.

● Неструктурированными, например фото, музыка и сообщения всех пользователей VK.

Ещё одно важное отличие больших данных от обычных — распределённая структура. Это значит, что управлять ими и анализировать их можно с помощью множества микросервисов.

Визуально это можно представить в виде воронки: на входе заливают множество данных, а на выходе получают узкий сегмент нужной информации

Если заливать обычные данные, то источник один и процесс пройдёт быстро и легко. Но если это большие данные, то источников много, объём информации большой и горлышко обычной воронки может не справиться. На помощь приходят специальные сервисы, которые помогают ускорить этот процесс: быстро обработать большие данные и представить их в виде структурированных сегментов информации.

Решайте задачи с помощью машинного обучения

Попробуйте себя в роли специалиста по Data Science: находите неочевидные закономерности в данных, стройте гипотезы, обучайте алгоритмы.
Начните курс с бесплатной вводной части.

Как работает технология Big Data: сбор, хранение, обработка

Технологии, которые используют для больших данных:

1. Сбор

Большие данные собирают из разных источников:

Социальные — всё, что публикуют и делают пользователи в соцсетях, онлайн-сервисах и приложениях. Сюда относят фото, видео, аудио, сообщения в мессенджерах, геолокации и хештеги.

Статистические — все данные от госорганов и исследовательских компаний о людях, животных, транспортных средствах, товарах и услугах, политических и экономических явлениях.

Медицинские — данные из электронных карт о медицинских показаниях, анализах, аппаратной диагностике, вакцинациях, историях болезней.

Машинные — записи с камер наблюдения, видеорегистраторов, систем управления и умных устройств.

Транзакционные — данные о платежах и переводах через банки и другие финансовые сервисы.

В процессе сбора данные проходят очистку, или Data Cleaning. На этом этапе, с помощью специальных программ, данные находят, отбирают и фильтруют, проверяя на точность и соответствие заданным параметрам. Специалисты по Data Cleaning размечают массивы данных так, чтобы алгоритмам было проще находить нужные сегменты информации в ответ на запросы пользователей.

Данные извлекают полностью или частично — с момента последнего успешного извлечения. Например, когда составляют прогноз погоды, используют только данные за последние сутки. Чтобы извлечь Big Data за определённый период, в хранилище используют специальную функцию захвата данных.

2. Хранение

Обычные данные помещаются на одном компьютере или онлайн-диске. С большими данными так не получится, поэтому их хранят и обрабатывают с помощью облачных серверов и распределённых вычислительных мощностей. Благодаря этому с Big Data одновременно могут работать несколько человек, получая доступ из разных точек.

Для хранения больших данных используют:

DWH — или data warehouse — единое хранилище для всех данных, на основе которых компания формирует отчёты и принимает решения. Файлы в них сгруппированы по областям применения и расположены по хронологии. Например, DWH интернет-магазина, где собраны данные обо всех клиентах, транзакциях и подразделениях. Данные в них поступают по принципу ETL (от англ. Extract, Transform, Load): сначала извлекаются, затем трансформируются, а потом загружаются в едином формате.

Data Lake озёра данных, которые не имеют единого формата и чёткой структуры. Порядок действий здесь такой: извлечение, загрузка в базу и трансформация в формат, который подходит для текущих задач. Озеро данных напоминает виртуальный диск, где хранятся тексты, фото и PDF, а база данных — это таблица, где все они перечислены.

СУБД системы управления базами данных, бывают реляционными или нереляционными. Для работы с большими данными чаще используются первые — данные в них организованы в виде таблиц, которые связаны между собой ключами, а для запросов используют специальный язык — SQL. Например, в колоночной СУБД ClickHouse, которую используют в сервисе Яндекс Метрика, все данные о трафике сайтов хранятся в нескольких таблицах. Строки — это события, например просмотры страниц, а колонки — параметры, например переходы с мобильных устройств. Это позволяет за секунды сформировать отчёт о трафике для сайта по нескольким параметрам сразу, поскольку все они расположены в соседних ячейках.

Многие компании используют нереляционные СУБД. В них данные преобразуются не в связанные друг с другом таблицы, а хранятся по другой, заранее заданной схеме. Это позволяет быстро помещать и извлекать нужную информацию из хранилища, а также запускать высоконагруженные приложения. Допустим, DynamoDB от Amazon — бессерверная СУБД типа NoSQL, которая поддерживает разные языки запросов. Её используют в системах «умного дома», онлайн-играх и рекламных сервисах.

3. Обработка

Информацию большого объёма с помощью обычных инструментов обработать будет сложно: на это уйдёт слишком много времени. Для этих задач применяют особое ПО, которое работает по технологии MapReduce. Сначала алгоритм отбирает данные по заданным параметрам, затем распределяет между отдельными узлами, серверами или компьютерами, а потом они одновременно обрабатывают эти сегменты данных, параллельно друг с другом.

Вот примеры сервисов, которые используют MapReduce:

Hadoop — сервис с открытым исходным кодом, позволяющий собирать, хранить и работать с Big Data сразу нескольким специалистам. Он автоматически перераспределяет нагрузку так, чтобы при отказе одного из узлов другие продолжили работать вместо него.
Apache Spark — сервис из нескольких библиотек для работы с потоковыми данными, которые обновляются с высокой скоростью. При этом данные внутри можно фильтровать, обрабатывать и применять для машинного обучения нейросетей.

Чтобы следить за качеством сбора данных, структурировать их и находить нужное, некоторые компании нанимают специалистов — DWH-аналитиков.

Чтобы применять большие данные в работе, необходимо анализировать их по самым разным параметрам. В этом помогают:

SQL — язык запросов, который применяют при работе с реляционными СУБД.

Нейросети, натренированные с помощью машинного обучения так, чтобы за секунды обработать тонны информации и представить точные данные для самых сложных задач.

Чтобы извлекать нужные сегменты информации и преобразовывать их в понятные отчёты и графики, используют специальные аналитические сервисы на базе Business Intelligence (BI). Например, Power BI Microsoft — сервис бизнес-аналитики, который собирает данные из CRM, Excel-таблиц и других источников, а затем представляет их в виде интерактивных отчётов.

На курсе «Специалист по Data Science» студентов учат работать с Big Data с помощью самых популярных инструментов и технологий. А главное — извлекать из «сырых» данных самое ценное и принимать решения, которые помогут бизнесу.

Преимущества технологии Big Data

Большие данные — драйвер мировой экономики. Они помогают:

Работать с большими объёмами информации.
Например, базы данных миллионов пользователей VK: у каждого из них сотни сообщений, фотографий, музыки и видео.

Строить более точные прогнозы и принимать более взвешенные решения.
Например, планировать рекламную кампанию, опираясь на информацию Яндекс Метрики о миллионах пользователей и цифровом следе каждого из них — браузер, настройки, посещаемые сайты. Это позволит, предположим, показывать рекламу запчастей только тем, кто посещает автомобильные сайты.

Мгновенно реагировать на сбои и уязвимости.
Благодаря доступу к большим данным обо всех действиях пользователей, банки или платёжные сервисы могут сразу отследить подозрительные действия и остановить мошенников.

Строить долгосрочные стратегии.
Если у компании есть данные о продажах, прибыли и убытках за несколько лет, их анализ поможет планировать инвестиции, работу с персоналом и ассортиментом.

Исправлять ошибки и улучшать продукт.
Предположим, специалисты службы доставки заметили, что в вечернее время люди часто отменяют доставку через 30 минут после заказа. Это значит, что клиенты не хотят долго ждать и предпочитают сходить в магазин сами. Проблему можно решить, увеличив число курьеров в эти часы.

Но есть и минусы:

Трудности с масштабированием.
К примеру, сервисом стартапа пользуются 10 тыс. человек. После рекламной кампании приходит 1 млн новых пользователей. Не каждая система для хранения и обработки данных справится с таким резким притоком. Решить проблему помогают специальные облачные хранилища, которые можно масштабировать в любой момент.

Высокие риски.
Большие данные повышают требования к безопасности. Например, если взломают базу данных крупных банков, миллионы клиентов лишатся денег. Чтобы этого избежать, компании-владельцы Big Data используют распределённый доступ: у разных групп сотрудников разный уровень доступа и только к определённым сегментам баз данных. Кроме того, данные шифруют и структурируют на каждом уровне.

Высокие затраты.
Большие данные требуют больших вычислительных мощностей, более дорогих сервисов для хранения и обработки. Допустим, для обучения нейросетей нужны огромные датасеты, которые есть только у очень крупных корпораций и часто недоступны для свободного пользования. Для работы с большими данными нужно привлекать специалистов: аналитиков данных, DWH-аналитиков, специалистов по BI.

Где применяется аналитика больших данных

Big data находят применение в бизнесе, госсекторе и промышленности. Вот области, где большие данные используют чаще всего:

Транспорт. С помощью больших данных о маршрутах и скорости машин навигаторы предлагают самый короткий путь с учётом пробок.

Мобильная связь и интернет. Сотовые операторы используют большие данные, чтобы спрогнозировать нагрузки сети в каждой зоне и понять, где не хватает обычных сотовых вышек, а где — 5G.

Медицина. С помощью больших данных можно предсказать, как будет развиваться эпидемия и в какой момент понадобится увеличить выпуск вакцин.

Маркетинг. К примеру, Amazon использует систему рекомендаций товаров, которая обучена с помощью больших данных и приносит сервису до 35% от всей выручки.

HR. На базе миллионов профилей успешных кандидатов можно создать алгоритм, который будет автоматически отбирать самых подходящих соискателей и отправлять им приглашения на собеседования.

Производство. Большие данные помогают организовать работу сотрудников так, чтобы снизить риски аварий и несчастных случаев в цехах.

Финтех. На основе данных обо всех случаях мошенничества банки могут создать наиболее безопасные сервисы для онлайн-платежей.

Образование. Большие массивы данных помогают составлять персональные рекомендации вузов для абитуриентов и профессий для выпускников.

Интернет вещей. Большие данные используют, чтобы умные устройства, сенсорные датчики, камеры наблюдения, системы управления беспилотными автомобилями работали ещё лучше и облегчали жизнь людей.

Наука. Результаты исследований, опросы и показания приборов помогают выявлять неочевидные закономерности и совершать новые открытия в разных областях науки.

Государственное управление. Госорганам и международным организациям большие данные в виде статистики помогают лучше распределять ресурсы и реагировать на проблемы, которые действительно актуальны для людей.

Искусственный интеллект и роботы. С помощью датасетов с реальными диалогами компании обучают голосовых и чат-ботов, которые заменяют сотрудников техподдержки или кол-центра.

Использование Big Data в России и мире

За рубежом следят за использованием больших данных больше, чем в России. Это, с одной стороны, хорошо защищает данные пользователей различных онлайн-сервисов, с другой — сильно ограничивает возможности бизнеса. К примеру, европейский GDPR — Всеобщий регламент по защите данных — запрещает сервисам Google собирать данные о составе семьи или национальности, которые сэкономили бы рекламные бюджеты маленьким бизнесам.

В США главные потребители и держатели Big Data — крупные корпорации: Apple, Google, Facebook, Amazon. Однако государство с каждым годом всё больше ограничивает их деятельность и монополию на сбор и хранение данных. В некоторых штатах, например Калифорнии, любой пользователь может запросить у онлайн-сервисов все данные, которые хранятся в привязке к его профилю, и потребовать их уничтожить.

В Big Data данные разделяют на персональные и обезличенные. Персональные — это те, по которым можно безошибочно идентифицировать пользователя: например имя и фамилия, домашний адрес, номер мобильного. Им уделяется особое внимание в законодательстве, в том числе российском: в первую очередь это 152-ФЗ «О персональных данных». К обезличенным данным относят всё остальное: например геолокацию или список покупок без привязки к конкретному человеку и его номеру телефона.

В Китае действует более 200 разных законов и правил, которые призваны защищать персональную информацию — в том числе ту, что автоматически собирают приложения для смартфонов. Из-за этого в стране заблокировано большинство зарубежных соцсетей и международных онлайн-сервисов, однако эти данные доступны госорганам.

Сложность в том, что, если собрать обезличенные данные из разных источников и сопоставить их, тоже можно получить довольно исчерпывающую информацию. Например, данные такси и службы доставки помогают понять, где человек живёт и работает, какой у него примерный доход и что он предпочитает покупать. На этом и зарабатывают главные держатели больших данных в мире.

Кто работает с Big Data

Специалистов, чья работа связана с Big Data, можно поделить на три большие группы:

Инфраструктурные профессии: сотрудники облачных провайдеров, которые обеспечивают технический сбор и хранение данных, дата-инженеры и разработчики ЦОДов — центров обработки данных.

Аналитические профессии: системные, веб- и аналитики данных, маркетологи. Их задача — обработать большие данные, чтобы сделать сервис более удобным для пользователей. Благодаря Big Data рекомендательные сервисы YouTube так хорошо подстраиваются под каждого пользователя и советуют ему подходящие видео.

Специалисты по ИИ и машинному обучению используют Big Data, чтобы обучать нейросети и создавать роботизированные сервисы на их основе.

Как начать работать с большими данными

1. Разобраться с открытыми датасетами разного содержания, список которых можно найти на Хабре. Даже небольшое хранилище на 10 Тб поможет понять логику структурирования и работы с данными.

2. Выучить языки запросов и языки программирования. Язык запросов SQL и языки программирования Python, R или Scala понадобятся, чтобы создавать запросы к базам данных, структурировать и извлекать нужную информацию в виде наглядных отчётов и дашбордов.

3. Пройти курсы, чтобы получить более основательную и структурированную базу. Например, на курсе «Специалист по Data Science» объясняют, как использовать технологии больших данных для разных задач в науке или бизнесе. Для этого студенты изучают математические методы, логические приёмы, инструменты для сортировки и визуализации данных, основы машинного обучения. Курс подойдёт и специалистам с технической базой, и тем, у кого пока нет опыта в IT.

Совет эксперта

Алексей Макаров
Лучше начинать изучение Big Data с методов работы с данными. Неважно, с какой таблицей придётся работать — на миллион или на тысячу строк, — методы анализа остаются такими же, только инструменты могут немного меняться из-за объёмов. Понимание того, как фильтровать, агрегировать, исследовать и очищать данные, — это основа, которая пригодится в любой работе с Big Data.

Руководитель сопровождения и фидбэк-команды направления Анализ данных

Чем озеро данных отличается от базы и зачем оно нужно аналитикам

С чем работает аналитик данных: 10 популярных инструментов

Понравилась статья? Поделить с друзьями:
  • Руководство пользователя wordpress на русском
  • Чистодез концентрат инструкция по применению как разводить
  • Фитолизин таблетки отзывы при цистите у женщин инструкция
  • Розувастатин северная звезда инструкция по применению цена
  • Канди смарт стиральная машина 8кг инструкция