Программирование на Visual C++. Архив рассылки
Шрифт:
СТАТЬЯ
Использование парсера MSXML для работы с XML-документами
Автор: Кен Скрибнер (Kenn Scribner)
Перевод: Александр Шаргин
Источник: "Visual C++ Developer", Ноябрь 2000
Демонстрационный проект XMLNodeExerciser
Парсер MSXML основывается на объектной модели документа XML (XML Document Object Model, XML DOM). Поэтому важно в первую очередь рассмотреть различные объекты, связанные с документом. Они приведены в таблице 1. Эти объекты позаимствованы прямо из спецификаций XML. MSXML предпренимает дополнительные усилия для стыковки объектов XML DOM с моделью COM. Благодаря этому достаточно просто установить, какому объекту модели XML DOM соответствует тот или иной COM-интерфейс MSXML. Например, IXMLDOMNode представляет DOM-объект Node (узел).
Таблица 1.
Объект DOM | Назначение |
---|---|
DOMImplementation | Объект, который можно запросить об уровне поддержки модели DOM |
DocumentFragment | Представляет часть дерева (хорошо подходит для операций Вырезать/Вставить) |
Document | Представляет узел верхнего уровня в дереве |
NodeList | Объект-итератор для доступа к узлам XML |
Node | Расширяет базовое понятие помеченного элемента (tagged element) в XML |
NamedNodeMap | Поддержка пространства имён и итерации для коллекций атрибутов |
CharacterData | Объект для манипулирования текстом |
Attr | Представляет атрибут(ы) элемента |
Element | Узел, представляющий элемент XML (удобен для доступа к атрибутам) |
Text | Представляет текст, содержащийся в элементе или атрибуте |
CDATASection | Используется для отключения разбора и валидации некоторых разделов XML |
Notation | Содержит нотацию, расположенную в DTD (Document Type Definition, описание типов документа) или в схеме |
Entity | Представляет разобранную или неразобранную сущность |
EntityReference | Представляет узел, ссылающийся на некоторую сущность |
ProcessingInstruction | Представляет инструкцию обработки |
Иногда это может сбивать с толку, но объекты XML-документа могут быть (и часто бывают) полиморфными. Так, узел (Node) в то же самое время является элементом (Element). Это вносит путаницу, когда вы решаете, какой объект DOM требуется для совершения некоторого действия. Вы создаёте узлы, используя объект документа (Document), но если вам требуется добавить атрибуты к только что созданному узлу, вам придётся поработать с ним как с одним из элементов. Если в отношениях между объектами и действиями над ними и существует какая-то закономерность, мне пока не удалось открыть её в процессе каждодневной работы. Я постоянно обращаюсь к документации в MSDN, чтобы посмотреть, какой интерфейс предоставляет методы, нужные мне для решения той или иной задачи. Методы различных объектов логически сгруппированы, и, по-видимому, именно этот принцип (группировка логически связанных операций) был использован при проектировании DOM.
Таким образом, весь фокус состоит в том, чтобы получить у парсера MSXML нужный DOM-объект, реализацию которого предоставляет объект COM. Обычная последовательность действий подразумевает создание COM-объекта самого MSXML, у которого затем можно запросить (или получить каким-то другим способом) указатели на другие объекты XML DOM (которые в свою очередь тоже являются COM-объектами).
Создать навороченное приложение, использующее множество различных возможностей MSXML, совсем не сложно, но лишний код может только добавить путаницы. Поэтому я решил написать простое консольное
• Загружает XML-файл с диска.
• Отыскивает определённый узел и добавляет к нему дочерний узел.
• Находит ещё один узел и отображает содержащийся в нём текст.
• Сохраняет изменённый документ на диск.
Чтобы ещё больше упростить задачу, я жёстко "зашил" в программу имена XML-файлов и узлов. Понятно, что в реальном приложении вы вряд ли примените эту тактику. Но в нашем случае она имеет смысл, так как ещё больше упрощает код, связанный с использованием MSXML.
Как и во многих других случаях, я использовал в своём примере библиотеку ATL как удобную обёртку для всех операций, связанных с COM. Поэтому вы непременно увидете, как я использую объекты CComPtr и CComQIPtr. Для ровного счёта я добавил к ним также объекты CComBSTR и CComVariant. Если они вам не знакомы, просто запомните, что они являются шаблонами и сами заботятся о многих деталях, которые для наших целей несущественны. Для нас важно рассмотреть, каким образом искать узлы XML, добавлять новые узлы и отображать содержащийся в них текст.
Моё консольное приложение будет загружать XML-документ под названием xmldata.xml (предполагается, что он лежит в одном каталоге с исполняемым файлом), содержащий следующие данные:
Сначала мы будем искать узел xmlnode, и если найдём, добавим к нему новый узел (с атрибутом) в качестве дочернего. В результате получится документ следующего вида:
Далее мы напечатаем сообщение, содержащееся в узле xmltext ("Hello, World!"), и сохраним полученный документ в файл updatedxml.xml. После этого вы сможете посмотреть результаты, используя текстовый редактор или Internet Explorer 5.x. Давайте займёмся кодом.
Прежде всего приложение инициализирует библиотеку COM, а затем создаёт экземпляр парсера MSXML:
Если нам удалось создать экземпляр парсера, мы загружаем в него XML-документ:
Поиск узла осуществляется через объект документа, поэтому мы используем IXMLDOMDocument::selectSingleNode для обнаружения нужного узла по его имени. Есть и другие способы, но этот наиболее прост, в том случае, если вы точно знаете, какой узел вам требуется.
Другие методы, о которых вам следует знать, – это IXMLDOMDocument::nodeFromID и IXMLDOMElement::getElementsByTagName, которые вы можете использовать, чтобы получить список узлов в документе. Вы также можете обратиться к документу как к дереву и просканировать его (получая дочерний узел, все узлы одного уровня и т. д.).