Учебное пособие Разработчик: Белов В. С. Москва, 2008 icon

Учебное пособие Разработчик: Белов В. С. Москва, 2008


1 чел. помогло.

Смотрите также:
Реферат ргазу
Учебное пособие Москва 2008 удк машкин М. Н. Информационные технологии: Учебное пособие. М...
Учебное пособие Москва 2008...
Учебное пособие Москва 2008 удк 004. 738 Ббк 32. 973. 202...
Учебное пособие Москва 2008 г. Воропаев В. И. История и тенденции развития управления проектами...
Учебное пособие москва 2008 удк ббк федоров И. В., Новикова М. А...
Учебное пособие 28365942 Москва 2008 ббк 66. 0 П 50...
Учебное пособие Москва 200 8 удк 004. 738 Ббк 32. 973. 202...
Учебное пособие Москва, 2008 Авторы: В. О...
Учебное пособие Москва 2008 Орлова Е. И. Образ автора в литературном произведении...
Учебное пособие москва-2008 ббк 88. 53 Удк 316...
Учебное пособие Санкт-Петербург 2008 удк 531...



страницы: 1   2   3   4   5   6   7
вернуться в начало
скачать
^

Тема 2. Архитектура информационно-аналитических систем. Основные принципы




Объектом анализа являются данные, сконцентрированные в хранилище, а при необходимости и изымаемые непосредственно из первичных источников, которые должны быть структурированы в виде системы показателей исследуемой предметной области.

Прохождение данных из первичных источников как внутренних - предприятия или другого объекта управления, так и из внешних источников в информационное хранилище и далее к лицу(ам) или другим программам-приложениям, использующим их (данные) в процессе анализа и подготовки итоговых материалов различного назначения – в итоге для обоснования принятия решений, происходит в несколько этапов:

  • Этап извлечения, преобразования и загрузки данных. На основе принятой системы показателей, характеризующих деятельность предприятия, подлежащих анализу и использованию в процессе принятия решений, и необходимых при разработке каких-либо документов, организуется сбор необходимых данных в хранилище и прорабатываются пути непосредственного извлечения в экстренных случаях необходимых детальных данных из первичных источников; этому этапу предшествует работа по созданию необходимой структуры перекачиваемых данных;

  • Этап накопления, обеспечения готовности данных к использованию.

По мере накопления в соответствующих зонах памяти выполняется периодическая загрузка данных из функциональных (транзакционных) подсистем интегрированной информационной системы (ИС) или автономных ИС, поддерживается необходимый уровень качества данных; в отдельных случаях допускается внеплановая загрузка по ситуации.

  • Этап применения данных, содержащихся в хранилище и извлекаемых напрямую из первичных источников.

Для обеспечения процесса управления предприятием или другим объектом данные используются в трёх основных режимах – создания плановых отчётных и других документов (Reporting), оперативного анализа в незапланированных ситуациях (OLAP-анализ), интеллектуального или углублённого анализа (Data mining). Накопленные в хранилище данные могут быть использованы в специальных программах, обеспечивающих развитие бизнеса.

В основе концепции информационных хранилищ заложена идея гибкой архитектуры данных. Это означает, что любому пользователю из числа доверенных лиц должна быть обеспечена возможность доступа к любому разрешённому для использования участку данных, которыми располагает предприятие (организация). Такой доступ осуществляется путём закладки в организационно-методологические основы построения системы сбора и хранения данных соответствующих возможностей, а также согласования принципов построения и чёткого взаимодействия аппаратного, программного комплексов и структуры накапливаемых и хранимых сведений.

Эта идея реализуется в основном в рамках свойств "открытых систем", определение которых POSIX 1003.0 принято Комитетом IEEE. В соответствии с этим определением открытая система есть “система, которая реализует открытые спецификации на интерфейсы, сервисы (услуги среды) и поддерживаемые форматы данных, достаточные для того, чтобы дать возможность должным образом разработанному прикладному программному обеспечению быть переносимым в широком диапазоне систем с минимальными изменениями, взаимодействовать с другими приложениями на локальных и удаленных системах, и взаимодействовать с пользователями в стиле, который облегчает переход пользователей от системы к системе”.

Основные свойства открытых систем, очерченные этим определением, следующие:

  • Расширяемость (extensibility) предполагает возможность включения новых или изменения некоторых прикладных функций ИС из числа уже реализованных, не изменяя при этом остальные функциональные подсистемы ИС.

  • Масштабируемость (scalability) предусматривает применительно к прикладным программам и базам данных, реализуемым на разных прикладных платформах, возможность изменения их количественных характеристик (размерности решаемых задач, числа обслуживаемых пользователей и т.д.) путем настройки параметров, а не путем перепроектирования и программирования заново.

  • Переносимость (portability) – это возможность перемещения ИС на другие аппаратно-программные платформы в случае их модернизации или замены с наименьшими затратами, сохраняя инвестиции, вложенные в разработку приложений, формирование массивов данных и обучение пользователей. Рассматривается переносимость приложений (application portability) и данных (data portability). Такая возможность обеспечивается соблюдением принятых стандартов обмена данными между приложениями и функциональной средой открытых систем. Определена “переносимость” пользователей (user portability), которая предусматривает возможность обеспечения стабильным дружественным пользовательским интерфейсом.

  • Интероперабельность (interoperability) – свойство, обеспечивающее взаимодействие ИС с другими системами при обращении к информационным ресурсам (базам данных, базам знаний) этих систем или при решении определенных задач с использованием их вычислительных ресурсов, если собственные ресурсы недостаточны. Интероперабельность систем реализуется, прежде всего, форматами данных, принятыми в качестве стандартов электронного обмена данными (electronic data interchange -EDI) для разных прикладных областей. Интероперабельность систем при обращении запуске на исполнение к программам и данным, располагающихся в других системах, обеспечивается стандартами удаленного вызова процедур (remote procedure call - RPC).

- Способность к интеграции. При интеграции систем в целом (system integration) это свойство обеспечивает объединение нескольких ИС различного назначения в интегрированную многофункциональную ИС.

В случае интеграции баз данных (database integration) для прикладной программы или пользователя несколько баз данных представляются как одна логически единая база данных. При этом обеспечивается обращение пользователей к любой из этих баз независимо от её места расположения в режиме коллективного доступа к данным, одновременная работа нескольких баз данных с каждой из прикладных программ ИС или пользователем.

При интеграции данных (data integration) обеспечивается возможность совместного использования запросом пользователя или программой одновременно нескольких файлов данных как единого целого. Рассматривается логическая интеграция, которая осуществляет объединение данных на логическом уровне, не затрагивая их физической организации, а также физическая, предполагающая слияние данных в единый информационный массив.

Высокая готовность (high availability) – свойство, означающее высокую отказоустойчивость (практически полную) системы (fault tolerance). В случае отказа какого-либо компонента обеспечивается гарантия автоматического восстановления работоспособности и сохранение целостности баз данных. Свойство готовности рассматривается и как мера способности системы принимать и успешно выполнять запросы и задания за доступный интервал времени.

На основе обзора свойств открытых систем можно сделать вывод об их определяющем значении при создании и эксплуатации информационно-аналитических систем. В соответствии с принципами открытых систем организуются и реализуются манипуляции с данными на всех рассмотренных выше этапах пути прохождения данных из источников к потребителям, а также подготовки на основе использования накапливаемых данных информации для тех или иных целей.


При организации работ по созданию, внедрению и применению ИАС важное значение имеет учёт стандартов. Применение их облегчает организацию сбора, представление их в виде системы стандартных показателей в функциональных подсистемах ИАС, позволяет легко вписывать данные из первичных источников в структуру хранилища. данных

Положения функциональной стандартизации в области информационных технологий определены стандартом ГОСТ Р ИСО/МЭК ТО 10000-99 ”Информационная технология. Основы и таксономия международных функциональных стандартов”.

Ориентация на стандарты при создании и ведении ИАС имеет два аспекта:

  • использование их при создании архитектуры аппаратной и программной платформ ИАС (смотри приведённый выше стандарт);

  • применение международных и российских стандартов в процессе классификации и кодирования систем показателей, что становится особенно актуальным при организации международного компьютерного обмена данными в процессе экономической или другой деятельности.

В настоящее время широко распространены системы электронного обмена данными (ЭОД), в англоязычной терминологии Electronic Data Interchange (EDI). Для создания системы компьютерного обмена данными, особенно в корпоративных распределённых структурах, особенно транснационального масштаба, в мировой практике широко применяются стандарты EDIFACT, которые были утверждёны Международной организацией по стандартизации (International Organization for Standardization ISO) в 1988 году:

  • ISO 7372-86 "Trade data interchange. Trade data elements directory. First edition. 1986-07-01" (Справочник элементов данных).

  • ISO 9735-88 "EDI for administration, commerce and transport (EDIFACT). Syntax rules. 1988-07-15" (Синтаксические правила ЭДИФАКТ ООН).

В России появились два аналога приведённых выше стандартов:

- ГОСТ 6.20.2-91 "Элементы внешнеторговых данных (ISO 7372-86)

  • ГОСТ 6.20.1.90 "Электронный обмен данными в управлении (ISO 9735-88) торговле и на транспорте (ЭДИФАКТ). Синтаксические правила."

Введены эти стандарты 01.01.1992 года.

Стандарты ISO нашли дальнейшее развитие по отраслям деятельности, по технологиям обмена, в направлении применения Web –технологий.


Эти процессы, соответствующие этапу извлечения, преобразования и загрузки данных, в англоязычной терминологии Extraction, Transformation, Loading – ETL-процессы.

В процессе создания ИАС и её центральной подсистемы – информационного хранилища как важная проблема выделяется обеспечение необходимого качества данных, в том числе достоверности, согласованности, соответствия установленным ограничениям и бизнес-правилам и т.д. Качество загружаемых и содержащихся в хранилище данных достигается системой организационных и программно-технических мероприятий. К ним относятся: "ручная" проверка разного рода ошибок, несоответствий, например неодинаковых названий полей с одним смыслом, и автоматическая с применением программных средств.

При сборе данных в информационное хранилище необходимо учитывать два основных аспекта: структурный и смысловой. Структурный аспект заключается в представлении данных из источников в тех или иных форматах программных сред, в которых были сформированы. Они должны приводиться к одному или группе форматов в системе сбора и хранения данных. Смысловой аспект состоит в содержательном наполнении знаковых структур данных. Даже при согласованных форматах данных могут быть разные толкования одинаково или близко по виду записанных данных и другие виды разночтений. Такие ситуации необходимо исключить ещё на этапе формирования структуры ИХ.

ETL-процессы, которые реализуют требования по обеспечению качества, созданию необходимой структуры и поддержанию смысловых характеристик данных делятся на следующие стадии:

  • Извлечение. На этой стадии производится перегрузка данных из источника, как правило, в промежуточную область хранилища. Под каждый источник в этой области создаётся своя таблица. Данные в источниках могут иметь различные форматы, в том числе текстовые неструктурированные, табличных процессоров, разного типа СУБД. Данные одного типа и структуры в первичных источниках сводят в одну таблицу, присваивая ей дополнительные поля.

  • Структуризация. Ей подвергаются только неструктурированные данные. Они приводятся к пригодному для ввода в реляционные таблицы виду.

  • Обработка. Изначально структурированные и подвергшиеся структуризации данные подвергаются обработке, которая заключается в очистке, фильтрации, согласовании данных.

  • Пересылка и импорт данных. Современные СУБД обеспечивают возможности транспортировки данных внутри одного сервера, так и в распределённом режиме между серверами. Этот процесс требует тщательного квалифицированного администрирования. Необходимо обеспечивать защиту передачи данных по каналам связи. Может оказаться, что некоторые данные не могут быть вставлены в предназначенные им таблицы из-за ограничений или несогласованности типов данных. В таких случаях для них необходимо отводить отдельный участок памяти, где они сохраняются для дальнейшей оценки.

Отдельно и более подробно рассмотрим процессы повышения качества данных. Искажение данных может появляться на любом этапе, стадии, шаге ETL-процессов. Упредить их возникновение полностью – задача практически невыполнимая, но необходимо принимать меры по снижению их количества и обнаружению. Рассматривают фатальные искажения, ошибки, к которым относятся: отсутствие данных в источнике, ошибка в подключении к источнику, проявляющаяся в отсутствии доступа к необходимым данным, проявление системного сбоя операционной системы.

Очистка данных состоит в исключении из общего потока тех данных, которые не отвечают заданным ограничениям на загрузку или бизнес-правилам. В этом случае данные из исходной таблицы разделяются на две части: отвечающие критериям качества, несоответствующие таковым и не попадающие на загрузку в хранилище.

Оценка качества данных производится:

  • по критичности ошибок в данных (могут или не могут быть загружены) – ошибки в именах полей, типах данных;

  • по правильности форматов и представлений данных;

  • на соответствие данных ограничениям целостности;

  • на уникальности внутренних и внешних ключей;

  • по полноте данных и связей;

Приведённый перечень видов искажений, несоответствий в данных касается в основном структурного представления данных, технологических причин.

Смысловое содержание данных – знаковых структур очень важно при создании структуры хранилища и его поддержании, которое состоит в первоначальной загрузке и дальнейшем его заполнении и актуализации в процессе эксплуатации. В ходе ETL-процессов велика вероятность искажений, сбоев в работе по причине несогласованности в семантике. Такие ситуации называют "семантические разрывы" (46). В этой работе приводится четыре их вида:

  • "Вавилонский" – это ситуация, когда одно и то же понятие или показатель обозначают разными именами.

  • Кросспотоковый разрыв. В этом случае наименования разных по смысловому содержанию понятий одинаковые в знаковом представлении. Такое происходит при наличии в одной системе разных по смыслу данных, предоставляемых из разных источников. Например в одном источнике "Партия комплектов 50 штук" понимают комплекты узлов для компьютеров но этот комментарий опущен, в другом источнике это комплекты узлов для музыкальных центров. В связи со сложившейся привычкой комментарии также отсутствуют.

  • Кроссязыковый разрыв происходит в тех случаях, когда передающее и принимающее звено не согласовали характеризующие признаки понятий- показателей. Например при оценке объёмов поставок нефти передающий оценивает их в тоннах, а принимающий – в баррелях.

  • Асинхронный разрыв связан с потерей или задержкой в передаче целой посылки в массиве или её части, что нарушает целостность массива, его смысловое содержание или не даёт возможности правильно понять и определить данные.

В информационных хранилищах семантические разрывы в данных возможны на любом из переходов от этапа к этапу при прохождении данных от источников к конечным пользователям информацией и знаниями.






Скачать 0,96 Mb.
оставить комментарий
страница3/7
Дата28.09.2011
Размер0,96 Mb.
ТипУчебное пособие, Образовательные материалы
Добавить документ в свой блог или на сайт

страницы: 1   2   3   4   5   6   7
отлично
  1
Ваша оценка:
Разместите кнопку на своём сайте или блоге:
rudocs.exdat.com

Загрузка...
База данных защищена авторским правом ©exdat 2000-2017
При копировании материала укажите ссылку
обратиться к администрации
Анализ
Справочники
Сценарии
Рефераты
Курсовые работы
Авторефераты
Программы
Методички
Документы
Понятия

опубликовать
Документы

наверх