Nous suivre Acteurs du sport

Étude comparative de méthodes d'extraction de données Twitter : le cas des matches de l'équipe nationale masculine du Canada de hockey sur glace aux JO d'hiver de Sotchi 2014

Sujets relatifs :

, ,

Soyez le premier à réagir

Soyez le premier à réagir

En l’espace d’une décennie, une attention considérable des chercheurs du champ de la communication sportive s’est portée sur les médias sociaux, et le contenu généré par leurs utilisateurs (User-Generated Content, UGC). Ces derniers se sont notamment focalisés sur Twitter, une plateforme de microblogging utilisée par de multiples parties prenantes dans le domaine du sport (ex. fans, athlètes, organisations sportives). Toutefois, une large part de la littérature a tendance à se reposer uniquement sur les méthodes conventionnelles d’extraction des données, à travers l’utilisation des hashtags officiels, afin d’y examiner l’UGC, sans analyser les données issues de conversations n’utilisant pas ces hashtags. Ainsi, cet article cherche à comparer les données des conversations collectées via la méthode du hashtracking et celle des requêtes-texte à propos des matches de l’équipe nationale masculine canadienne de hockey sur glace disputés lors des derniers Jeux olympiques d’hiver de 2014 à Sotchi. Dans sa portée académique, cette étude met en lumière le problème de sélection des variables (hashtags vs mots-clés) pour extraire l’UGC. Elle incite ainsi chercheurs et praticiens à utiliser les requêtes-texte dont le principal avantage est de permettre de rassembler plus de données dans un laps de temps plus court et avec de plus grandes possibilités et flexibilité que la méthode conventionnelle du hashtracking.

Cette dernière décennie a généré un appétit croissant des chercheurs en communication sportive, pour les médias sociaux (Wenner, 2013). Des recherches entières ont été consignées dans des ouvrages (Billings & Hardin, 2014 ; Sanderson & Yandle, 2015) et numéros spéciaux de revues académiques (Clavio, 2010 ; Sanderson, 2012). Parmi ces revues, figure notamment, dans le domaine du sport, l’International Journal of Sport Communication dont les six articles les plus cités concernent Twitter (Abeza, O’Reilly & Nadeau, 2014). L’intérêt pour la célèbre plateforme de microblogging a, toutefois, suscité un certain dédain sur la quantité et la qualité des études associées (Wenner, 2014) provoquant de vifs débats autour du bien-fondé des recherches sur Twitter et consacrés dans un numéro de la revue Communication & Sport paru en 2014 (1). Encore aujourd’hui, ces débats perdurent autour de l’argument selon lequel les résultats de ces études prennent valeur essentiellement aux yeux des praticiens (McAfee & Brynjolfsson, 2012). Dans ce contexte, il apparaît donc important de réfléchir aux façons avec lesquelles les chercheurs en communication sportive peuvent aiguiser leurs analyses particulièrement celles exploitant Twitter comme source de données primaires.

En effet, la plupart des critiques de ces études portent généralement sur la sélection et la confiance aveugle dans les variables dépendantes sélectionnées. La plupart du temps, ces dernières sont matérialisées par un hashtag (#) représentant le message d’un utilisateur de Twitter parmi un flot continu de nombreux messages circulant sur cette plateforme. Dans le champ du sport, des chercheurs en communication (Smith & Smith, 2012), en marketing (Delia & Armstrong, 2015) et en sociologie (Norman, 2012), ayant cherché à comparer des discussions sur Twitter, ont ainsi collecté leurs données en utilisant des requêtes simples ou multiples systématiquement avec la méthode du hashtracking (2). Or, bien que les hashtags soient utiles aux chercheurs dans la mesure où ils contiennent des tweets relevant d’un sujet délimité (Boyd, Golder, & Lotan, 2010), leur signification seule (qu’il s’agisse de tweets individuels ou échangés au cours d’une discussion) ne peut refléter entièrement ce que contient le flot continu de messages sur un sujet précis. Prenons, à titre d’exemple, l’une des études représentatives de ce problème, à savoir celle de Blazka et al. (2012) sur la série mondiale du baseball à travers laquelle furent collectés 17 404 tweets issus du hashtag officiel (#WorldSeries). Bien que leur base de données demeure importante au regard des études pionnières du phénomène Twitter (Pegoraro, 2010), la prise en compte seule du hashtag omet des milliers, pour ne pas dire des millions, de tweets d’utilisateurs qui auraient commenté la série mondiale sans marquer leur conversation en utilisant le hashtag officiel de l’événement. Ainsi, en élargissant la sélection des variables dépendantes dans le processus de collecte des données et en y incluant les tweets non précédés d’un hashtag, il apparaît possible de mieux comprendre les données et ainsi d’aider les professionnels à une meilleure compréhension des messages véhiculés sur Twitter liés à un événement ou à un phénomène.

Notre étude ambitionne donc de comparer les données collectées sur Twitter en utilisant, d’un côté, le hashtracking conventionnel et, de l’autre, les requêtes-texte afin de déterminer si l’analyse des données, dans le champ de la communication sportive, pourrait ou non bénéficier du passage de la première à la seconde méthode citée en fournissant un meilleur cadre de compréhension des données collectées. Pour parvenir à cet objectif, deux fichiers de données ont été créés à partir de ces deux méthodes (hashtracking vs requêtestexte). Les données de ces fichiers ont été collectées à partir de tweets diffusés lors des matches de l’équipe nationale masculine canadienne de hockey disputés lors des récents Jeux olympiques (JO) de Sotchi en 2014. Le hockey, composante à part entière de la culture sportive canadienne (Vincent & Crossman, 2012) est à même de générer une somme importante de données. Cela est d’autant plus palpable dans le cadre du tournoi olympique masculin qui constitue traditionnellement l’un des événements sportifs les plus médiatisés au Canada lorsque son équipe nationale y participe (3). Les résultats observés attestent d’un effet quantité important symbolisé par les 41 % de tweets supplémentaires collectés à travers la méthode de collecte de données par requêtes-texte comparée à celle du hashtracking. En utilisant Leximancer©, un logiciel d’analyse de données assistée par ordinateur (4), nous montrons toutefois que l’effet qualité est, en revanche plus nuancé dans la mesure où, si les mots identifiés dans les tweets collectés font état de conversations plus riches et plus diversifiées dans le cas des requêtes-texte, c’est l’inverse qui se produit lorsqu’il s’agit d’analyser les noms propres (autrement dit les acteurs ou les organisations citées) dont la diversité est plus prégnante dans le cas du hashtracking. Ces différents résultats sont dressés afin de discuter de la pertinence ou non de recourir à une de ces méthodes plus qu’une autre.

I • Revue de littérature

Cette section offre, d’abord, une revue de littérature sur Twitter, appréhendé comme un média social constitutif du « Big Data », puis un bref aperçu de l’état actuel des recherches dans le champ de la communication sportive. Sont décrites particulièrement celles concernant Twitter ainsi que les techniques de collecte de données associées à ce média social.

A - Twitter : un composant du Big Data

Bien que certains chercheurs soutiennent l’idée qu’il n’existe pas de définition complète du terme de « Big Data » (Mayer-Schnberger & Cukier, 2013), d’autres le caractérisent comme étant d’immenses bases de données issues de divers médias difficiles à saisir et à exploiter de manière rapide et efficace (Nambiar, Chitor et Joshi, 2012 ; Singh & Singh, 2012). En dépit de l’absence de consensus autour de sa définition, le terme de Big Data a toutefois progressivement été conceptualisé de manière plus étroite en étant associé à trois caractéristiques principales : volume, vitesse et variété (Singh & Singh, 2012 ; Zadrozny & Kodali, 2013). De plus en plus important au sein du Big Data, les médias sociaux disposent également de ces trois caractéristiques. Ainsi, le volume, qui fait référence à l’importante quantité de données existantes au sein d’une même source, est associé au contenu généré par les utilisateurs ou user-generated content (UGC – acronyme utilisé après), représentant la matière brute produite par les différents utilisateurs de ces médias. La vitesse fait, elle, référence à la haute fréquence de génération de ces données tandis que la variété désigne la diversité des types de données générées et stockées dans une même source.

En considérant l’ensemble de ces trois caractéristiques, Twitter apparaît comme élément constitutif du Big Data. En effet, ce média est, à la fois, une plateforme de microblogging et un réseau social devenu un média populaire spécialisé dans le partage d’informations au sein de communautés d’utilisateurs (Sanderson & Cheong, 2010) générant un nombre important et varié de données les diffusant de façon instantanée. Ainsi, Twitter générait, au début des années 2010, plus de 340 millions d’UGC par jour représentant le nombre de tweets envoyés (Wang et al., 2012) pouvant prendre la forme de données structurées (textes) ou non (images, liens externes, vidéos) (Singh & Singh, 2012). De même, l’UGC, formé par les tweets et les retweets envoyés sur cette plateforme, « est généré à la vitesse à laquelle il est pensé et est prêt à être consommé en temps (presque) réel » (Russell, 2014, p. 5).

B - Twitter dans le sport

Dans le champ du sport, les recherches sur Twitter ont émergé à partir des années 2010. Une compilation d’articles couvrant « une variété de sujets au sein de nouveaux médias sociaux » (Clavio, 2010, p. 394) fut ainsi parue dans un numéro spécial de 2010 de la revue International Journal of Sport Communication (5). Pourtant, bien que ce numéro ne fût pas dédié, à proprement parler, à Twitter, une part importante des recherches consacrées reposaient, en fait, sur des données extraites de cette plateforme (Clavio & Kian, 2010 ; Pegoraro, 2010 ; Sheffer & Schultz, 2010). Suite à ces contributions pionnières, plusieurs articles ont, par la suite, été écrits dans cette revue analysant les messages délivrés sur Twitter par les athlètes eux-mêmes (Sanderson, 2011 ; Hambrick & Mahony, 2011 ; Kassing & Sanderson, 2010), les organisateurs d’événements (Hambrick, 2012) et les journalistes sportifs (Deprez, Mechant & Hoebeke, 2013 ; Sanderson & Hambrick, 2012 ; Sheffer & Schultz, 2010). Le développement embryonnaire de ces travaux déboucha en 2012 sur la parution d’un second numéro spécial (6) au sein de cette même revue dédiée cette fois-ci spécialement à l’émergence de Twitter dans le sport.

Dans ce second numéro ont été analysés les contenus des tweets extraits des mêmes acteurs et/ou groupe d’organisations sportives citées précédemment avec une prédominance pour la catégorie des athlètes (Browning & Sanderson, 2012 ; Frederick et al., 2014 ; Lebel & Danylchuk, 2012) devançant celle des organisateurs d’événements sportifs (Blaszka et al., 2012 ; Smith & Smith, 2012) et celle des fans (Clavio, Burch & Frederick, 2012). Des recherches plus récentes sur Twitter ont continué à explorer les caractéristiques de cette plateforme. Parmi elles, celle de Gibbs, O’Reilly et Brunette (2014) s’est ainsi intéressée à la façon dont les clubs sportifs professionnels communiquent avec leurs fans via Twitter faisant apparaître l’importance des stratégies digitales dans la communication de ces organisations avec les membres de leurs communautés. C’est dans le prolongement de ces travaux que des chercheurs issus du champ du marketing se sont d’ailleurs intéressés à cette problématique. Les organisations sportives, en y incluant les organisateurs d’événements, constituent, en effet, un centre d’attention privilégié de ces chercheurs comme l’indiquent certaines fenêtres spéciales entrouvertes à l’occasion de la publication de numéros spéciaux portant sur les médias sociaux. Ainsi, la revue International Journal of Sport Management and Marketing centrait, en 2014 (7), son analyse sur l’événement sportif particulier que sont les JO avec la publication de cinq articles spécialement dédiés à l’utilisation des médias sociaux dans le cadre de cette compétition mais dont l’intégralité s’est révélée être uniquement centrée sur Twitter, preuve de l’importance de cette plateforme dans la famille des médias sociaux. Enfin, dans un registre différent, une plus récente étude, celle de Boehmer et Tandoc (2015) s’est même attachée à prolonger l’analyse des contenus tweetés en identifiant cette fois-ci les causes des retweets et des messages partagés en matière d’actualités sportives montrant ainsi les potentiels de recherche associés à Twitter.

II • Problématique et questions de recherche associées

Bien que les recherches, présentées ci-avant, aient identifié Twitter comme une source unique de collecte de données, celles-ci ont une portée limitée en se focalisant uniquement sur le contenu des discussions et non les moyens pour parvenir à extraire ces discussions. Ce débat méthodologique se pose dans le domaine général de la communication exploitant les données Twitter comme en attestent les controverses du champ (Parks, 2014). Par exemple, des revues académiques généralistes emblématiques du champ de la communication, tel le Journal of Communication, ont fait cohabiter au sein de mêmes numéros des recherches reposant à la fois sur des méthodes conventionnelles de collecte de données et des méthodes plus innovantes. Dans un de ces numéros parus en 2014 (8), des quatre articles étudiant respectivement la dynamique du contenu des messages véhiculés (ex. : Giglietto & Selva, 2014 ; Jungherr, 2014), les indices et symboles non verbaux utilisés au sein de ces contenus (Park, Baek & Cha, 2014) et leurs caractéristiques en termes de réseaux (ex. : Vargo et al., 2014), les deux premiers cités furent réalisés via l’utilisation d’une requête multiple à partir de hashtags tandis que les deux derniers le furent en utilisant des requêtes-texte via l’interface de programmation Twitter ou application programming interface (API – acronyme utilisé par la suite). L’objectif de notre contribution vise, ainsi, à déterminer la pertinence ou non de recourir à d’autres méthodes de collecte de données que celles traditionnellement utilisées reposant pour la plupart sur le hashtracking (collecte de tweets précédés d’un hashtag) y compris dans le champ du sport (tableau 1).

Or, selon Boyd & Crawford (2012), les API facilitent l’accès aux tweets disponibles dans l’espace public permettant aux utilisateurs d’effectuer des requêtes et d’ainsi collecter de grandes bases de données à partir de mots-clés. D’après ces mêmes auteurs, Twitter, en tant que source de données, demeure largement inexploité arguant du fait qu’une grande majorité des études sur ce média social n’accèdent qu’à un faible flux d’informations représentant tout au plus 10 % de l’ensemble des tweets disponibles dans l’espace public. Qui plus est, ces données sont souvent collectées en utilisant un ou plusieurs comptes hashtags utilisateurs (UGC généré à partir de messages clairement marqués). Or, ces bases de données posent un défi de taille aux chercheurs, s’agissant d’expliquer les données collectées, dans la mesure où, considérant ces chiffres, 90 % des messages non filtrés et non marqués par un hashtag demeurent dans l’écosystème Twitter sans pouvoir être exploités. En effet, comme Tufecki (2014) l’a noté, l’utilisation d’un hashtag décroît une fois que les utilisateurs sont liés à une conversation (à cause de sa redondance) et aussi parce qu’elle affecte la structure d’un tweet dans la mesure où elle empiète sur la limite des 140 caractères alloués disponibles. L’extraction d’échantillons de données Twitter non liées à un hashtag en particulier doit donc permettre aux chercheurs une meilleure exploitation de l’écosystème de ce média et ainsi confirmer ou réfuter des résultats préalablement dressés à partir de l’exploitation conventionnelle des données collectées via des hashtags préalablement identifiés.

La problématique de cet article porte, dès lors, sur l’analyse de l’incidence des choix méthodologiques de collecte des données sur la quantité et la nature de ces données collectées. Pour y répondre, nous partons de l’hypothèse selon laquelle une recherche via l’utilisation de requêtes-texte reposant sur l’exploitation d’API fournit une plus grande quantité de données dont l’exploitation permet de mieux les interpréter comparativement à celles extraites de hashtags préalablement identifiés. Cette hypothèse est ainsi testée en tentant de répondre à la première question de recherche identifiée (QR1). Quand bien même la réponse à cette question montrerait l’existence de plus grandes bases de données dans le cas des méthodes de collecte de données utilisant les requêtes-texte, cela ne semble pas forcément signifier des recherches de meilleures qualités en termes d’interprétation faite de ces mêmes données (Parks, 2014). C’est la raison pour laquelle nous dressons une seconde question de recherche (QR2) visant à appréhender les similarités et les différences en matière d’UGC contenu dans ces conversations issues de méthodes de collecte de données différentes. QR1 – Quelles sont les similarités et différences en matière de collecte de données entre les données extraites de discussions regroupées sous un hashtag comparativement à celles extraites à partir de requêtes-texte ? QR2 – Quelles sont les similarités et différences en matière d’UGC extrait des discussions regroupées sous un hashtag comparativement à celui extrait de discussions obtenues de requêtes-texte ? 

III • Méthodologie de recherche

Nous offrons d’abord une vue d’ensemble du contexte de notre recherche. Celui-ci est particulièrement intéressant à décrire dans notre cas en ce sens que la présente étude est emblématique de la collecte des données issues du Big Data dans le domaine du sport. Nous évoquons ensuite le processus utilisé dans la collecte et l’analyse des données.

A - Contexte de la recherche

Deux caractéristiques ont été prises en compte dans le processus de sélection du contexte de notre recherche : la pertinence et la flexibilité afin de fournir une somme importante de données. En faisant des JO notre terrain d’investigation, il apparaît que ces deux critères ont été remplis. En effet, sur le premier point, Yardi et Boyd (2010) ont montré que la pertinence du choix de Twitter comme source de données prend corps dans la polarisation autour de groupes sur des sujets soumis à controverse ce que permettent les JO en opposant, en plus des nations concurrentes, de nombreux fans supporters de ces nations. Sur le second point, les JO étant avec la Coupe du Monde de football, l’un des deux événements les plus médiatisés au monde, ceux-ci sont à même de fournir de nombreuses données ce qui explique d’ailleurs qu’ils aient fait récemment l’objet d’analyse du point de vue des médias sociaux (Abeza et al., 2014 ; Pegoraro et al, 2014).

Les JO constituent d’ailleurs un tel méga-événement que l’étude s’est portée sur une seule compétition. Nous avons choisi le tournoi olympique masculin de hockey disputé aux JO d’hiver de Sotchi en 2014 en centrant notre analyse sur l’équipe nationale canadienne. Cet événement est une des compétitions phares des JO d’hiver et le hockey est une composante de la culture nationale sportive au Canada (Vincent & Crossman, 2012). De plus, les données Twitter collectées lors de ces matches ont révélé, dans les bases de données, la polarisation de groupes opposant les supporters de l’équipe canadienne aux supporters adverses (9). Aussi, les matches auxquels a participé l’équipe canadienne sont apparus comme étant à même de fournir une somme importante d’UGC.

B - Collecte des données

L’UGC extrait des données Twitter l’a été en utilisant deux outils de collecte de données : - le hashtracking, outil permettant l’extraction des données Twitter à partir des hashtags et ; - l’outil MUSTT (Multiple User-defined Search Terms on Twitter), reposant sur l’utilisation de mots-clés et utilisé précisément dans la collecte de données issues du Big Data.

Le hashtracking est un outil de collecte de données commercialisé en ligne permettant de recueillir des données contenues dans les hashtags de certains réseaux sociaux, particulièrement Twitter (Blumenfeld, 2015). Cet outil a été utilisé dans de nombreuses études d’abord hors du champ sportif puis plus récemment dans le champ du sport notamment dans le contexte des JO (Pegoraro et al., 2014).

L’outil MUSTT a été confectionné à l’aide d’un informaticien pour les besoins de la présente étude. Il permet à ses utilisateurs de collecter des données Twitter à partir d’un ensemble de mots-clés prédéfinis (qui peut se trouver dans les textes, les hashtags ou encore les mentions des comptes utilisateurs) à des fins de recherches académiques (10). Cet outil, qui utilise les API de Twitter, a été développé en utilisant NodeJS, un logiciel d’application informatique (Cantelon et al., 2014). La collecte des tweets est ainsi opérée à partir de mots-clés de la même façon qu’un chercheur le ferait lors d’une recherche d’articles de journaux enregistrés dans une base de données en ligne (Naraine & Dixon, 2014).

Le processus de collecte de données utilisant l’outil MUSTT est presque identique à celui utilisant le hashtracking. Dans les deux cas, les utilisateurs peuvent effectuer une recherche avec un seul ou plusieurs termes – qui peut être un mot choisi spécifiquement, un hashtag ou la mention d’un compte utilisateur (ex. @Canada) – et collecter tous les messages des tweets contenant ce terme ou cet ensemble de termes et cela en temps réel. De cette façon, l’utilisateur peut contrôler le début et la fin du processus de collecte. Une fois la collecte de données terminée, un fichier avec une extension .csv est créé et peut être visualisé dans des logiciels tels que Microsoft Excel afin d’en examiner plus attentivement le contenu. Tandis que l’outil MUSTT s’attache à collecter l’UGC associé à tous les termes prédéfinis dans les requêtes, il offre aussi des informations sur chaque tweet collecté incluant : date et heure d’envoi, compte utilisateur, tweet en lui-même, tous les hashtags présents dans le tweet, biographie de l’utilisateur et localisation du tweet (lorsque ces informations sont disponibles), nombre de followers de l’utilisateur, nombre d’utilisateurs à suivre le tweet et nombre de retweets.

Pour cette étude, ces deux outils furent utilisés pour collecter les tweets durant l’intégralité des matches de hockey disputés par l’équipe nationale canadienne lors des JO de Sotchi de 2014. Leur activation s’est réalisée durant un intervalle de temps sensiblement équivalent (11) afin de pouvoir comparer de manière équitable les résultats obtenus à travers ces deux méthodes de collecte de données. Ce temps correspondait à une période allant d’une heure avant le début de chaque match jusqu’au moment où la vitesse avec laquelle l’UGC produite dans les commentaires d’après-match chutait sensiblement soit quelques heures après chaque match. Dans le cas du hashtracking, deux hashtags (#wearewinter et #teamcanada) furent retenus dans le processus de collecte des données pour l’ensemble des matches de l’équipe nationale canadienne disputés lors des JO d’hiver de Sotchi de 2014. Le hashtag (#wearewinter) représente le hashtag officiel utilisé par le comité national olympique canadien tandis que le hashtag (#teamcanada) est celui utilisé par l’équipe nationale de hockey du Canada à l’occasion de rencontres internationales. Dans le cas de l’outil MUSTT, les données ont été extraites à partir de requêtes effectuées sur des données-texte incluant différents termes (en excluant les éventuels hashtags ou noms d’utilisateurs) variables selon l’équipe adverse. Ces termes étaient paramétrés sur la base des informations disponibles avant chaque match et incluaient : le terme de « Team Canada » lui-même, les noms des capitaines, vice-capitaines et du gardien pour chacun des matches, ainsi que les termes « Canada » et son adversaire (ex. « Canada-Finland »), et enfin un joueur actuel ou retiré de LNH (Ligue Nationale de Hockey) ainsi que le gardien de l’équipe adverse. Ces paramètres ont d’abord été choisis en se focalisant sur l’équipe canadienne, mais aussi au regard de leur capacité à générer une large quantité d’UGC incluant les noms des équipes et des athlètes qui étaient opposés à l’équipe. À titre d’exemple, lors du match opposant le Canada à la Finlande, il semblait prévisible que Teemu Selanne, joueur finlandais récemment retiré de la LNH puisse être plus cité dans les UGC que son coéquipier Jarko Immonen, joueur n’évoluant pas et n’ayant pas évolué en LNH.

C - Analyse des données

L’étape d’analyse des données s’est effectuée en deux phases comparatives afin de répondre successivement aux deux questions de recherche préalablement dressées.

La première phase a permis d’apporter des éléments de réponse à notre première question de recherche (QR1). Dans cette phase, nous avons ainsi comparé les bases de données extraites à partir de l’outil MUSTT à celles extraites à partir des hashtags officiels « #wearewinter » et « #teamcanada » lors des six matches disputés par l’équipe nationale canadienne de hockey au cours du tournoi olympique.

La seconde phase a permis d’apporter des éléments de réponse à notre seconde question de recherche (QR2). Dans cette phase, nous avons isolé le cinquième match de l’équipe canadienne qui correspondait à la demi-finale l’opposant aux États-Unis. Au cours de ce match, nous avons ainsi séparé les bases de données extraites à partir de l’outil MUSTT à celles extraites à partir des deux hashtags officiels. Cette séparation a essentiellement été dictée pour des raisons méthodologiques. Il était, en effet, inopportun de comparer des bases de données issues de fichiers différents (extraites de l’ensemble des tweets collectés sur la totalité des six matches). Ce match avait, en outre, l’avantage de présenter toutes les caractéristiques garantissant la production de nombreux tweets. La rivalité sportive historique, la proximité géographique entre les deux nations et les études antérieures ayant identifié les États-Unis comme l’une des nations les plus utilisatrices de Twitter (Mocanu et al., 2013) sont, en effet, autant d’ingrédients à même de produire une large quantité d’UGC parmi les tweets collectés. Au cours de cette seconde phase, les données ont été analysées en utilisant Leximancer©. La fonction première de ce logiciel est de détecter les concepts clés regroupés dans une base de données (Sotiriadou, Brouwers, & Le, 2014). Ce logiciel a été jugé fiable à des fins de réalisation de recherches académiques (Santiago-Brown et al., 2006), capable notamment d’analyser d’importantes quantités de données (Penn-Edwards, 2010) au même titre que d’autres logiciels de même fonction du type NVivo (Sotiriadou et al., 2014). Si peu de recherches dans le champ du sport ont eu recours à Leximancer©, son utilisation est devenue plus fréquente ces dernières années (Abeza et al., 2014 ; Pegoraro et al., 2014).

D - Résultats

1re phase de l’analyse

Les résultats de la première phase d’analyse font apparaître des différences sur le plan du volume des données collectées entre chacune des deux méthodes précédemment exposées. Dans les deux cas, ce sont des milliers de tweets qui furent collectés durant les 6 matches analysés. Apparaît ci-après le volume des tweets collectés dans le cas du hashtracking (tableaux 2 et 3).

À partir du premier hashtag « #wearewinter », ce sont ainsi 327 001 tweets qui furent collectés. Le second hashtag « #teamcanada » a permis, quant à lui, de recueillir un total de 204 972 tweets. À travers ces deux hashtags officiels, ce sont donc au total 531 973 tweets qui furent collectés dont une majeure partie (environ 46 %) l’ont été nettement, dans les deux cas, au cours de la finale opposant le Canada à la Suède. Les données collectées via l’outil MUSTT proviennent d’un plus grand nombre de tweets comparés à ceux capturés via le hashtracking (tableau 4). Ainsi, un total de 747 843 tweets furent collectés au cours des 6 mêmes matches retenus. À la différence du hashtracking, le match ayant suscité, en proportion, le plus grand nombre de commentaires fut la demifinale opposant le Canada aux États-Unis avec plus d’un tiers (environ 34 %) des tweets collectés.

Malgré des données recueillies au cours de périodes généralement légèrement plus restreintes que dans le cas du hashtracking, l’outil MUSTT a donc permis de collecter 41 % de tweets supplémentaires comparativement à la combinaison des deux hashtags retenus dans la méthode du hashtracking.

2e phase de l’analyse

Les résultats de la seconde phase d’analyse mettent en lumière des différences importantes mais aussi des similitudes quant à la comparaison des deux méthodes à partir du focus sur le contenu des tweets extraits de la demi-finale opposant le Canada aux États-Unis. Leximancer© identifiant des concepts regroupant divers mots et noms (notamment les noms propres) qui apparaissent le plus fréquemment dans le texte, nous analysons chaque fichier de données pour lesquels ce logiciel fait apparaître une liste de ces « concepts ». Dans le cas du hashtracking, Leximancer© a identifié 31 mots et 17 noms à travers le hashtag « #wearewinter », 35 mots et 21 noms à travers le hashtag « #teamcanada ». Dans le cas de l’outil MUSTT, ce sont 43 mots et 25 noms qui furent identifiés par le logiciel. Sont présentés respectivement les mots (tableau 5) et noms (tableau 6) apparaissant au-dessus du seuil des 2 000 occurrences pour chacune des deux méthodes considérées.

Les tableaux présentés ci-avant font état de différences importantes dans le nombre de concepts apparaissant plus de 2 000 fois au travers des données. Celles collectées via l’outil MUSTT ont généré 34 mots et 23 noms figurant au-dessus du seuil des 2000 occurrences, tandis que celles collectées via le hashtracking ont généré de 8 mots dans chacun des fichiers de données et de 6 et 7 noms propres respectivement pour les hashtags « #wearewinter » et « #teamcanada ». Cet écart substantiel entre le nombre de mots et de noms est la résultante de données plus volumineuses collectées via l’outil MUSTT comparativement à celles issues de la méthode du hashtracking. C’est la raison pour laquelle nous avons également ajouté aux données brutes collectées le pourcentage avec lequel les occurrences extraites apparaissent dans l’ensemble des tweets collectés.

Certes, une partie du contenu des données collectées est similaire à l’exemple des mots « game », « medals », et « men’s » qui apparaissent ainsi dans chacun de ces trois fichiers de données. De même, d’autres apparaissent à la fois sur le fichier de données MUSTT et dans l’un des deux hashtags tels que les mots « gold », « hockey », « today » et « win ». Toutefois, les observations réalisées font apparaître de nouvelles informations. En effet, chaque fichier a des mots apparaissant au-dessus du seuil des 2 000 occurrences qui lui sont propres. En considérant cette liste, l’outil MUSTT met en évidence 27 noms uniques, les données extraites du hashtag « #wearewinter » en contiennent 5 et « #teamcanada » 2. Si ces chiffres sont à relativiser étant donné la prise en compte de données brutes, il est intéressant de constater que si nous prenons en considération uniquement le pourcentage d’occurrences, le fichier de données issues de l’outil MUSTT est le plus diversifié avec 8 noms identifiés au-delà du seuil des 5 % de représentativité dans le cas de l’outil MUSTT contre 7 et 4 respectivement identifiés via hashtracking respectivement dans les cas des hashtags « #wearewinter » et « #teamcanada » au-dessus de ce même seuil. Ces différences entre ces trois fichiers de données illustrent ainsi une diversité plus importante des conversations entre données extraites à partir de recherche de mots-clés comparativement à celles extraites de hashtags identifiés.

En regardant à présent les noms identifiés par Leximancer©, les résultats sont légèrement différents si on considère les fichiers de données extraites par l’outil MUSTT et le hashtag « #teamcanada » avec 21 noms suivis du hashtag « #wearewinter » avec 17. En tenant compte du seuil des 2 000 occurrences, les résultats diffèrent toutefois grandement selon la méthode considérée. L’analyse des données collectées identifie 22 noms dans le cadre de l’utilisation de l’outil MUSTT et fait surtout apparaître un écart substantiel avec les fichiers de données issus du hashtag « #teamcanada » contenant 7 noms identifiés suivis du hashtag « #wearewinter » avec 6. En revanche, si nous considérons à présent uniquement les pourcentages de représentativité des occurrences entre les deux méthodes, nous nous apercevons que contrairement aux mots identifiés par Leximancer©, les noms sont moins diversifiés dans le cadre des données extraites par l’outil MUSTT contrairement à la méthode du hashtracking. En effet, au-delà du seuil de 5 % de représentativité, seuls trois noms sont identifiés par l’outil MUSTT contre respectivement 5 et 6 dans le cas des hashtags « #wearewinter » et « #teamcanada ».

IV • Discussion

Les résultats dressés à la fois sur le volume ainsi que la nature des mots et des noms communs à chacun des fichiers de données fournissent des indications sur les forces et les limites de chacune des deux méthodes employées.

Les résultats révèlent d’abord que la collecte de données Twitter à partir de requêtes-texte effectuées via l’outil MUSTT fournit plus d’UGC que les méthodes traditionnelles d’extraction des données via hashtracking. Ils montrent ainsi que la recherche par mots-clés est plus appropriée au regard des trois caractéristiques principales du Big Data et identifiées par des recherches passées : volume, vitesse et variété (Singh & Singh, 2012 ; Zadrozny & Kodali, 2013). En effet, la méthode de recherche de données via requêtes-texte utilisant l’outil MUSTT a permis de collecter 41 % de tweets en plus comparativement à ceux extraits de la combinaison des deux hashtags officiels dans le cas de la méthode du hashtracking. Ceci est d’autant plus intéressant à constater que l’activation de l’outil MUSTT s’est faite dans une période de temps souvent plus courte que celle durant laquelle furent collectées les données via hashtracking. Ce qui pouvait sembler comme un résultat logique, dû au fait que la méthode de recherche de mots-clés par requêtes-texte ne dépendant pas de hashtags identifiés devait toutefois être confirmée. D’ailleurs, si la somme globale des tweets collectés est plus importante dans le cadre de cette méthode, le détail match par match montre qu’il ne s’agit pas ici d’une règle immuable. Ainsi, le match pour la finale opposant le Canada à la Suède généra plus de tweets en cumulé sur les deux hashtags officiels identifiés comme étant à même de produire un volume important d’UGC. Ce résultat, aussi surprenant soit-il, montre que, dans certains cas, la communauté d’utilisateurs de Twitter peut privilégier les sources officielles pour émettre des commentaires « basiques » (12) sur l’équipe supportée. Ce résultat qui demande à être vérifié dans de futures études pourrait ainsi être approfondi à travers l’analyse des motivations des utilisateurs de Twitter dans leurs choix de canaux de communication.

En revanche, les résultats sont plus nuancés concernant la nature des données collectées. Le match de la demi-finale opposant le Canada aux États-Unis, choisi sur la base de considérations méthodologiques pour répondre à notre seconde question de recherche, a montré une plus grande diversité des mots utilisés dans le cas de la méthode de collecte de données par requêtes-texte comparativement aux données obtenues via hashtracking. Mais le résultat inverse fut observé s’agissant d’identifier les noms propres tirés de ces mêmes tweets collectés. Au final, notre étude fait surtout apparaître des similarités avec les données recueillies à partir des hashtags. Encore que les mots et noms ne soient pas totalement identiques, ils constituent ainsi un ensemble d’un même contexte. Ce résultat laisse ainsi planer le doute sur la pertinence de l’analyse de données issues d’une collecte plus large. Certes, l’effet volume fait que les analyses fondées sur la base de données plus importantes sont statistiquement plus fiables que celles reposant sur des bases de données moins volumineuses. Mais dans notre cas, la base de données collectées la plus réduite, celle issue du hashtracking, semble déjà suffisamment conséquente pour ne pas avoir à supporter cette critique.

Toutefois, dans la mesure où les méthodes de recherche par mots-clés issus de requêtestexte ne sont pas plus contraignantes que les méthodes conventionnelles du hastracking, il semble opportun d’y avoir recours. Les chercheurs devraient, ainsi, considérer ces méthodes de recherche par mots-clés afin d’enrichir leurs fichiers de données éventuellement en complément d’une analyse effectuée à partir d’une collecte traditionnelle de données reposant sur le hashtracking. Bien que les recherches par mots-clés ne garantissent pas des recherches de meilleures qualités en termes d’interprétation faite des données collectées via ces méthodes (Parks, 2014), il serait dommage, étant donné qu’elles permettent d’extraire plus d’UGC et un meilleur accès à l’écosystème Twitter, que les chercheurs continuent à se reposer simplement sur les hashtags afin d’extraire les données. Les méthodes de recherches par mots-clés qui, dans notre cas, reposaient sur l’activation de l’outil MUSTT, se généralisent eu égard aux débats récents autour de la validité des recherches effectués à partir de collecte de données ne reposant que sur des hashtags préalablement identifiés. Ce phénomène a d’ailleurs favorisé la création d’outils de collecte des données prônant la méthode de collecte de données par requêtes-texte. C’est dans cette perspective que les recherches par mots-clés sur lesquelles se base l’outil MUSTT peuvent permettre aux recherches sur sport et Twitter d’être améliorées. La valeur de Twitter dans le champ du sport tient au fait que ce média social peut permettre d’étudier les relations entre fans, athlètes, mais aussi les organisations sportives faisant l’objet de nombreuses discussions publiques souvent non filtrées (Sanderson, 2012). Ainsi, il apparaît important de chercher à développer et utiliser ces outils innovants qui peuvent in fine permettre de mieux comprendre les objets des discussions dans l’écosystème Twitter.

Bien que les résultats probants sur la méthode d’extraction des données fassent de MUSTT au moins en matière de volume de données collectées un outil de valeur pour les chercheurs, nous ne consacrons pas l’outil mais plutôt la méthode de collecte de données qu’il prône. En, effet celui-ci n’a été créé que pour les besoins de cette présente étude et n’est pas commercialisé. En revanche, il existe de nombreux outils d’analyse du Big Data qui consacrent la méthode de recherche par mots-clés. Ces derniers demeurent toutefois très chers et se trouvent souvent dans des firmes qui offrent leurs services à de grandes entreprises ou à des clients fortunés. Ce point s’avère être un obstacle pour les chercheurs tentant de faire avancer les recherches analysant le Big Data dans le champ du management du sport. Il reste malgré tout un vent d’espoir. D’autres outils se créent tel VISTA (Hoeber et al., 2016). Il s’agit ici de la partie émergée de l’iceberg ; le sport occupant un sujet important des conversations sur les réseaux sociaux, de nouveaux outils émergeront probablement dans les prochaines années permettant aux chercheurs de mieux identifier les marques discursives au sein de ces conversations. Aussi, cette responsabilité revient in fine aux chercheurs dont l’intérêt est d’aller au-delà de la simple collecte de données issues des hashtags alors que leurs fichiers de données peuvent être enrichis de données supplémentaires obtenues à partir de recherches par mots-clés.

Conclusion

Cet article ouvre des perspectives dans la conduite de projets de recherches futures quant à l’application de méthodologies similaires dans d’autres contributions sur le sport afin de déterminer si les recherches par mots-clés apportent une réelle plus-value dans l’analyse de fichiers de données volumineux comparativement à celles basées sur les hashtags. Les chercheurs devraient ainsi considérer l’usage de mots-clés à travers l’utilisation d’outils tels que l’outil MUSTT afin de reproduire les études passées à avoir extrait de l’UGC à partir de Twitter (Blazka et al., 2012 ; Norman, 2012). 

Enfin, les futures études du champ de la communication sportive devraient également considérer le même type de données extraites d’autres plateformes de médias sociaux tels Facebook ou Instagram. À présent que l’extraction des données à partir de recherches par mots-clés apparaît générer un volume de données plus important et avec une plus grande flexibilité que les méthodes traditionnelles, tel le hashtracking, des façons similaires de procéder pour analyser les données pourraient être appliquées dans des études sur ces médias appliquées au champ du sport.

 

Bibliographie

Abeza, G., O’Reilly, N., & Nadeau, J. (2014). Sport communication: A multidimensional assessment of the field’s development. International Journal of Sport Communication, 7(3), 289-316.

Abeza, G., Pegoraro, A., Naraine, M.L., Séguin, B., & O’Reilly, N. (2014). Activating a global sport sponsorship with social media: An analysis of TOP sponsors, Twitter, and the 2014 Olympic Games. International Journal of Sport Management and Marketing, 15(3/4), 184-213.

Billings, A.C., & Hardin, M. (2014). Routledge handbook of sport and new media. Oxon, England: Routledge. 

Blaszka, M., Burch, L.M., Frederick, E.L., Clavio, G., & Walsh, P. (2012). #WorldSeries: An empirical examination of a Twitter hashtag during a major sporting event. International Journal of Sport Communication, 5(4), 435-453.

Blumenfeld, C. (2015, June 24). How to set up hashtracking hashtag tracking for Twitter and Instagram [Web log post]. Retrieved from http://blog.hashtracking.com/how-to-setup- hashtracking-hashtag-tracking-for-twitter-and-instagram/.

Boehmer, J., & Tandoc Jr., E.C. (2015). Why we retweet: Factors influencing intentions to share sport news on Twitter. International Journal of Sport Communication, 8(2), 212-232.

Boyd, D., & Crawford, K. (2012). Critical questions for big data. Information, Communication & Society, 15(5), 662-679.

Boyd, D., Golder, S., & Lotan, G. (2010). Tweet, tweet, retweet: Conversational aspects of retweeting on Twitter. Proceedings of the 43rd Hawaii International Conference on System Sciences (HICSS), 5-8.

Browning, B., & Sanderson, J. (2012). The positives and negatives of Twitter: Exploring how student-athletes use Twitter and respond to critical tweets. International Journal of Sport Communication, 5(4), 503-521.

Cantelon, M., Holowaychuk, T.J., Rajlich, N., & Harter, M. (2014). Node.js in action. Shelter Island, NY: Manning Publications.

Clavio, G. (2010). Introduction to this special issue of IJSC on new media and social networking. International Journal of Sport Communication, 3(4), 393-394.

Clavio, G. Burch, L.M. & Frederick, E.L. (2012). Networked fandom: applying systems theory to sport Twitter analysis. International Journal of Sport Communication, 5(4), 522-538.

Clavio, G., & Kian, T. (2010). Uses and gratifications of a retired female athlete’s Twitter followers. International Journal of Sport Communication, 3(4), 485-484.

Delia, E.B., & Armstrong, C.G. (2015). #Sponsoring the #FrenchOpen: An examination of social media buzz and sentiment. Journal of Sport Management, 29(2), 184-199.

Deprez, A., Mechant, P., & Hoebeke, T. (2013). Social media and Flemish sports reporters: A multimethod analysis of Twitter use as journalistic tool. International Journal of Sport Communication, 6(2), 107-119.

Frederick, E.L., Lim, C.H., Clavio, G., Pedersen, P.M., & Burch, L.M. (2014). Choosing between the one-way or two-way street: An exploration of relationship promotion by professional athletes on Twitter. Communication & Sport, 2(1), 80-99.

Gibbs, C., O’Reilly, N., & Brunette, M. (2014). Professional team sport and Twitter: Gratifications sought and obtained by followers. International Journal of Sport Communication, 7(2), 188-213.

Giglietto, F., & Selva, D. (2014). Second screen and participation: A content analysis on a full season dataset of tweets. Journal of Communication, 64(2), 260-277.

Hambrick, M.E. (2012). Six degrees of information: Using social network analysis to explore the spread of information within social networks. International Journal of Sport Communication, 5(1), 16-34.

Hambrick, M.E., & Mahony, T.Q. (2011). « It’s incredible – Trust me »: Exploring the role of celebrity athletes as marketers in online social networks. International Journal of Sport Management and Marketing, 10(3/4), 161-179.

Hoeber, O., Hoeber, L., El Meseery, M., Odoh, K., & Gopi, R. (2016). Visual Twitter Analytics (VISTA) temporally changing sentiment and the discovery of emergent themes within sport event tweets. Online Information Review, 40, 25-41.

Jungherr, A. (2014). The logic of political coverage on Twitter: Temporal dynamics and content. Journal of Communication, 64(2), 239-259.

Kassing, J.W., & Sanderson, J. (2010). Fan-athlete interaction and Twitter tweeting through the Giro: A case study. International Journal of Sport Communication, 3(1), 113-128.

Lebel, K., & Danylchuk, K. (2012). How tweet it is: A gendered analysis of professional tennis players’ self-presentation on Twitter. International Journal of Sport Communication, 5(4), 461-480.

Mayer-Schonberger, V., & Cukier, K. (2013). Big data: A revolution that will transform how we live, work, and think. New York, NY: Houghton Mifflin Harcourt.

McAfee, A., & Brynjolfsson, E. (2012). Big data: The management revolution. Harvard Business Review, 90(10), 60-68.

Mocanu, D., Baronchelli, A., Perra, N., Gonçalves, B., Zhang, Q., & Vespignani, A. (2013). The Twitter of Babel: Mapping world languages through microblogging problems. PLoS ONE, 8(4), e61981.

Nambiar, R., Chitor, R., & Joshi, A. (2012). Data management – A look back and a look ahead. In T. Rabl, M. Poess, C. Baru, & H-A. Jacobsen (Eds.), Specifying big data benchmarks (pp. 11-19). Berlin, Germany: Springer.

Naraine, M.L., & Dixon, J.C. (2014). « Frame-changing the game »: Examining the media framing of the mixed martial arts discourse in Ontario. Communication & Sport, 2(2), 186-199.

Norman, M. (2012). Saturday night’s alright for tweeting: Cultural citizenship, collective discussion, and the new media consumption/production of Hockey Day in Canada. Sociology of Sport Journal, 29(3), 306-324.

Park, J., Baek, Y.M., & Cha, M. (2014). Cross-cultural comparison of nonverbal cues in emoticons on Twitter: Evidence from big data analysis. Journal of Communication, 64(2), 333-354.

Parks, M.R. (2014). Big data in communication research: Its content and discontents. Journal of Communication, 64(2), 355-360.

Pegoraro, A. (2010). Look who’s talking – Athletes on Twitter: A case study. International Journal of Sport Communication, 3(4), 501-514.

Penn-Edwards, S. (2010). Computer aided phenomenography: The role of Leximancer computer software in phenomenographic investigation. The Qualitative Report, 15(2), 252-267.

Russell, M.A. (2014). Mining the social web: Data mining Facebook, Twitter, Linkedin, Google+, Github, and more (2nd ed.). Sebastopol, CA: O’Reilly Media. Sanderson, J. (2011). To tweet or not to tweet: Exploring Division I athletic departments’ social-media policies. International Journal of Sport Communication, 4(4), 492-513.

Sanderson, J. (2012). Introduction to this special issue of IJSC on Twitter. International Journal of Sport Communication, 5(4), 433-434.

Sanderson, J., & Cheong, P. H. (2010). Tweeting prayers and communicating grief over Michael Jackson online. Bulletin of Science, Technology & Society, 30(5), 328-340.

Sanderson, J., & Hambrick, M.E. (2012). Covering the scandal in 140 characters: A case study of Twitter’s role in coverage of the Penn State saga. International Journal of Sport Communication, 5(3), 384-402.

Sanderson, J., & Yandle, C. (2015). Developing successful social media plans in sport organizations. Morgantown, WV: FiT Publishing.

Santiago-Brown, I., Jerram, C., Metcalfe, A. & Collins, C. (2014). What does sustainability mean ? Knowledge gleaned from applying mixed methods research to wine grape growing. Journal of Mixed Methods Research. Advance online publication.

Sheffer, M.L., & Schultz, B. (2010). Paradigm shift or passing fad ? Twitter and sports journalism. International Journal of Sport Communication, 3(4), 472-484.

Singh, S., & Singh, N. (2012). Big data analytics. Proceedings of Communication, Information & Computing Technology (ICCICT), 2012 International Conference on, 1-4.

Smith, L.R., & Smith, K.D. (2012). Identity in Twitter’s hashtag culture: A sport-mediaconsumption case study. International Journal of Sport Communication, 5(4), 539-557.

Sotiriadou, P., Brouwers, J., & Le, T.A. (2014). Choosing a qualitative data analysis tool: A comparison of NVivo and Leximancer. Annals of Leisure Research, 17(2), 218-234.

Tufecki, Z. (2014). Big questions for social media big data: Representativeness, validity and other methodological pitfalls. Proceedings of the Eighth International AAAI Conference on Weblogs and Social Media, 505-514.

Vargo, C.J., Guo, L., McCombs, M., & Shaw, D.L. (2014). Network issue agendas on Twitter during the 2012 U.S. presidential election. Journal of Communication, 64(2), 296-316.

Vincent, J., & Crossman, J. (2012). « Patriots at play »: Analysis of newspaper coverage of the gold medal contenders in men’s and women’s ice hockey at the 2010 Winter Olympic Games. International Journal of Sport Communication, 5(1), 87-108.

Wang, W., Chen, L., Thirunarayan, K., & Sheth, A.P. (2012). Harnessing Twitter « big data » for automatic emotion identification. In 2012 International Conference on Privacy, Security, Risk and Trust (PASSAT), and 2012 International Conference on Social Computing (SocialCom) (pp. 587–592). 

Wenner, L.A. (2013). On communication and sport: From key figures to new opportunities. Communication & Sport, 1(1/2), 3-6.

Wenner, L.A. (2014). Much ado (or not) about Twitter ? Assessing an emergent communication and sport research agenda. Communication & Sport, 2(2), 103-106. Yardi, S., & Boyd, d. (2010). Dynamics debates: An analysis of group polarization over time on Twitter. Bulletin of Science, Technology & Society, 30(5), 316-327. 

Zadrozny, P., & Kodali, R. (2013). Big data analytics using Splunk: Deriving operational intelligence from social media, machine data, existing data warehouses, and other real-time streaming sources. Berkley, CA: Apres

 

1 Cf. volume 2, numéro 2 de cette revue.

2 Nous revenons sur cette méthode plus en détail au moment de la description de notre méthodologie de recherche.

3 C’est notamment le cas lorsque l’équipe nationale se hisse loin dans le tournoi et y affronte des équipes avec lesquelles il existe une importante rivalité. À titre d’exemple, les JO de 2014 virent le Canada affronter les États-Unis en finale du tournoi à laquelle ont assisté 16,6 millions de Canadiens (source : https://www.nhl.com/news/olympicfinal- most-watched-hockey-game-in-30-years/c-519476).

4 Cf. http://info.leximancer.com/ pour un aperçu complet des potentialités de l’outil.

5 Cf. volume 3, numéro 4.

6 Cf. volume 5, numéro 4.

7 Cf. volume 15, numéro 3/4.

8 Cf. volume 64 de la revue dont le 2nd numéro de 2014 portait sur le Big data dans le champ de la communication.

9 Il est à noter toutefois que le centrage de notre étude étant sur l’équipe canadienne était plus propice à collecter des messages générés par les supporters canadiens que ceux adverses.

10 Bien que notre objectif se centre sur l’extraction d’UGC dans le contexte sportif, l’outil MUSTT est applicable dans n’importe quel contexte de recherche.

11 Avec l’outil MUSTT, l’extraction des tweets s’opère en temps réel, faisant ainsi varier le temps de programmation et de configuration de la collecte des données ce qui explique les très légers écarts constatés entre les deux méthodes de collecte de données et apparaissant dans les résultats.

12 Ou tout du moins ne comprenant pas les termes rentrant dans la requête-texte au risque que ces derniers soient aussi comptabilisés dans le cadre de cette méthode, ne créant ainsi pas de différences entre ces deux méthodes.

 

Cet article a été écrit par : 

Michael L. NARAINE University of Ottawa, michael.naraine@uottawa.ca 

Ann PEGORARO Laurentian University, apegoraro@laurentian.ca 

Aurélien FRANÇOIS University of Ottawa, francoisaurel@yahoo.fr 

Milena M. PARENT University of Ottawa and Norwegian School of Sport Sciences, milena.parent@uottawa.ca

Bienvenue !

Vous êtes inscrit à la news hebdomadaire d’Acteurs du Sport

Nous vous recommandons

Viry-Châtillon met ses équipements en accès libre

Viry-Châtillon met ses équipements en accès libre

La ville de Viry-Châtillon a engagé une démarche expérimentale baptisée ViryVerySport. Elle vise à remettre les équipements collectifs à la disposition du plus grand nombre. Il s'agit de[…]

« Pour être prospectif, il faut élargir le champ des partenaires » - Jean-Paul Omeyer

« Pour être prospectif, il faut élargir le champ des partenaires » - Jean-Paul Omeyer

À Jonzac, l'espace aqualudique atteint l'équilibre

À Jonzac, l'espace aqualudique atteint l'équilibre

Le Calvados met le sport en mode transverse

Le Calvados met le sport en mode transverse

Plus d'articles