社交媒体:人们何时何地发布?

2020年3月2日 作者 奇先生 0

难度 <! - 7 - >
所需时间 平均(6-10天)
先决条件 熟悉MicrosoftExcel®或其他数据可视化工具(如Tableau®Public)将会有所帮助。
材料可用性 一应俱全
安全 没有问题

摘要

互联网上充斥着社交媒体。我们如何处理数百万人发布,发推,拍照和聊天所产生的所有信息?公司如何将其转化为利润?虽然您没有自己分析数百万社交媒体帖子数据的工具,但您可以分析缩小版本。按照此项目中的说明尝试从几个社交媒体网站提取数据,并使用它来创建有意义的可视化(即数据的表示或图片),目的是获得有关社交媒体使用的有趣见解。

目的

使用从社交媒体中提取的数据来研究活动期间和之后关于真实世界事件的帖子数量。

积分

Sabine De Brabandere,PhD,Science Buddies

引用本页

此处提供了一般引用信息。请务必检查所使用方法的格式,包括大小写,并根据需要更新引文。

MLA风格

Sabine,De Brabandere。”社交媒体:人们发布的时间和地点?” 科学伙伴,2017年7月28日,https://www.sciencebuddies.org/science-fair-projects/project-ideas/Soc_p028/sociology/social-media-when-and-where-do-people-post。2019年7月6日访问。

APA风格

De Brabandere,S。(2017年7月28日)。社交媒体:人们何时何地发布?从…获得https://www.sciencebuddies.org/science-fair-projects/project-ideas/Soc_p028/sociology/social-media-when-and-where-do-people-post


最后编辑日期:2017-07-28

简介

社交媒体球形象

你是那个人转向嗡嗡声吗?你对趋势感兴趣吗?你想知道人们在谈论什么吗?也许您对时尚或流行汽车,体育,名人,音乐或视频游戏感兴趣。无论主题如何,要及时了解周围快速变化的世界中发生的事情并非易事.社交媒体消息中的趋势,如推文,Facebook帖子和YouTube视频,同样难以熬夜。在社交媒体网站上发布几篇文章之后,您不会给出很多关于谁发帖,发布内容以及发布时间的大图。但是,查看大量社交媒体帖子可以揭示我们感兴趣的习惯,时尚和其他方面的趋势和见解。此项目将允许您查看真实世界事件如何影响该事件的帖子数量。图1显示了一个关于网球运动员塞雷娜·威廉姆斯的社交媒体帖子在一场大型网球比赛当天开始的三天时间内的示例。您可以在变体中找到您可以使用此项目中收集的数据执行的其他研究想法。

关于一个特定主题的社交媒体帖子的频率(Serena Williams)超过三个白天。
图1。从一个重要的网球比赛日开始的三天内关于一个特定主题(网球运动员塞雷娜威廉姆斯)的社交媒体帖子的数量。

您是否想知道为什么提取隐藏在社交媒体帖子中的信息是如此重要的业务?营销和宣传绝对可以将收集的数据用于盈利!考虑根据消费者的兴趣和爱好定制的广告。社交媒体的趋势有助于有效地瞄准客户。公司和政党使用社交媒体通过同行评审,信息视频以及从一个人转发到另一个人的帖子来影响公众舆论。趋势有助于选择适合目标的社交媒体提供商,它们允许用户为帖子设置正确的时间,或使用帖子的最有效格式和内容。

社交媒体,一种新的营销方式
图2. 社交媒体提供了一种新的营销方式。

许多政党,非营利组织和小型企业使用社交媒体与客户建立联系,但隐藏在社交媒体帖子中的信息会让您感兴趣吗?它能否帮助您发现社交媒体提供商关于您关注的主题的帖子最多,从而帮助您更有效地使用社交媒体?也许知道人们发布消息的时间和原因可以帮助您更新,更有效地保持最新状态。数据在那里,为什么不尝试一下呢?

从大量社交媒体消息中获取信息和洞察力并非易事。它被认为是一项”大数据” 工作。它是如何大数据的?首先阅读科学伙伴什么是大数据?,然后考虑社交媒体帖子不断被大量创建,包括不同类型的数据(图片,超链接等),包括”杂乱” 数据(如文本)。您是否同意这两个特征使得从大量社交媒体样本中提取有价值的信息是一项大数据工作?在这个科学项目中,您将通过大幅减少帖子样本和研究易于访问的参数(例如创建帖子的时间)来保持工作的可管理性。当我们引导您完成由社交媒体帖子推动的大数据工作的过程时,请考虑您想要学习的内容。

大数据工作的第一步是数据收集。理想情况下,数据科学家知道将使用哪些数据(他们将研究的问题类型),并且可以相应地组织数据。实际上,这并不总是可行的,因为数据库可能是历史创建的,在分析过程中可能会出现新的问题,等等。在此项目中,您将使用公开可用的工具( socialmention )来提取有关特定主题的社交媒体帖子。它返回一个公开发布的帖子列表,其中包含其他字段 – 时间戳,帖子的超链接以及帖子的来源和用户。这将作为您学习的输入。

原始数据集 – 这是尚未处理或操作的集合 – 通常称为原始数据主数据

收集数据后,需要对其进行处理。例如,社交媒体消息中的语言可以被处理并标记为主题和”情绪” (消息的正面,中性或负面)。这会将元数据或有关数据的数据添加到帖子中。

一旦数据和元数据可用,我们就进入数据挖掘领域.数据挖掘使用人工智能和建模等工具来检测数据中的模式和趋势。它将数据转换为我们可以理解的信息。这些趋势和模式的潜在预测能力是有价值的。例如,Science Buddies使用数据挖掘来为主题选择向导提供支持。填写简短的问卷后,向导会向您展示您可能喜欢的一系列科学项目。经过同行评审的研究表明,与只是浏览的学生相比,使用这种推荐工具的学生找到满足他们的项目理念的可能性要高95%。换句话说,向导在选择您喜欢的项目方面明显优于您手动完成的项目。它怎么能这样做?从数以千计的其他学生收集的信息数据挖掘允许科学伙伴提取趋势,当应用于您的输入时,可以显示对您将享受的内容的良好预测。

现在,您是否渴望发现一些趋势? 程序将指导您完成与活动前后相关的某个重大事件相关的帖子频率(每日帖子数),包括活动当天。一旦您对分析社交媒体数据感到满意,您就可以尝试识别其他趋势.变体中的建议可以激发更多创意。

术语和概念

  • 社交媒体
  • 大数据
  • 原始数据
  • 主要数据
  • 元数据
  • 数据挖掘
  • 假设
  • 世界时
  • 峰值

问题

  • 广告商,政党或非营利组织如何使用社交媒体以及他们可以利用从数据挖掘中获得的信息来优化其社交媒体的使用?
  • 您认为可以在典型的家用计算机上进行社交媒体分析的一些示例,您认为需要更多计算机能力的示例是什么?
  • 大数据项目的主要步骤是什么?

参考书目

您可以从以下网站下载免费的数据可视化软件:

材料和设备

  • 您有权下载数据的计算机
  • 数据可视化计算机程序,如Microsoft Excel或Tableau Public
  • 实验室笔记本

实验程序

规划您的研究

​​简介中所述,为了有效地收集数据,您需要知道自己想要学习什么。在本节中,您将熟悉社交媒体研究的数据收集,并形成 假设 你的学习。

以下过程假设您使用 socialmention – 一个免费的社交媒体搜索引擎来收集数据。选择此工具是因为它允许您下载帖子列表而无需编写代码。您可以使用其他工具收集数据。建议在变体部分中给出。但是,如果您决定以不同的方式收集数据,则需要相应地调整过程。

  1. 探索社交
    1. 要熟悉社交活动,请搜索感兴趣的主题,或点击社交网站建议的趋势主题之一。
    2. 花点时间浏览结果页面。它返回了多少个帖子?访问了哪些社交媒体提供商(来源)来检索帖子?使用屏幕顶部的下拉菜单将结果过滤到不同的时间范围;例如,过去12或24小时。图3可以帮助您找到时间窗口选择框。不同社交媒体提供商的帖子数量会发生什么变化?你对结果感到困惑吗?第d步以及e。,下面,将澄清。
    3. 右上角提供了导出数据的按钮,如图3所示。将数据导出到CSV/Excel文件并在计算机上打开。查看每篇文章的可用信息。您的项目可能会对以下信息感兴趣:日期时间,来源和用户。你注意到什么异常吗?
    4. 关于日期时间的技术说明可能有助于您了解社交网站返回的数据。
      1. 并非所有社交媒体提供商都以相同的方式提供数据和时间戳。一些提供者提供帖子发布的日期和时间,而其他提供者提供用户访问的日期和时间,例如socialmention或您。因此,您可能会看到相当多的帖子(如来自Photobucket的帖子)具有相同的数据时间戳。这反映了从提供者处检索帖子的时间,而不是帖子发布的日期和时间.
      2. 即使发布帖子的数据和时间也可能令人困惑。通常,会列出通用时间,而不是创建帖子的计算机上显示的本地时间。请注意,设备(如计算机或平板电脑)的设置允许您指定要在此设备上使用的时区(如东​​部标准时间,太平洋标准时间等)。例如,考虑播放足球世界杯后的帖子。在纽约东海岸(使用计算机设置为遵循美国东部标准时间)和在西海岸旧金山的支持者(使用计算机设置遵循美国太平洋标准时间)说两个人都发布消息进球后一分钟。这些帖子列出的时间将完全相同,即世界时间(例如1月20日晚上11:43)。这两个支持者的当地时间虽然在他们的设备上显示但是会有所不同。东海岸支持者的时钟将指示下午5:43,西海岸用户在当地时间下午2:43读取他或她的设备。本地时间和普遍时间的这种差异解释了为什么您可能会在列表中找到似乎未来的帖子.
    5. 一旦您开始比较几天的数据,您可能会注意到某些提供商(如Facebook和Twitter)的帖子仅来自过去12或24小时,而其他提供商(如YouTube)的帖子则会进一步追溯。您需要使用这些知识来获取分析的良好数据样本.
Socialmention允许在指定时间窗口内对感兴趣的主题执行社交媒体搜索。
图3. Socialmention是一个免费的社交媒体搜索引擎。感兴趣的主题可以在红色箭头指示的框中指定。紫色箭头表示选择时间窗口的选项。要导出搜索结果,请查看绿色箭头指示的工具。

  1. 现在您知道可用的数据类型,请考虑您要验证的假设。
    1. 此过程将研究真实世界事件如何影响该事件的帖子数量。它将更贴近Twitter和Facebook.变体部分提供了您可以学习的其他主题的概念。但是,如果您决定使用不同的学习领域,则需要相应地调整程序。
    2. 制定明确的假设。想想你期望看到的趋势,以及为什么你期望这种趋势存在。推文数量会迅速增加,而Facebook帖子的分布更广;或者是相反的方式;或者几乎没有差别?您可以使用哪些信息来形成有根据的猜测?

收集数据

在此项目中,您将学习有关活动的帖子数量。作为第一步,您需要选择几个主要的有新闻价值的事件,如超级碗,结婚或去世的名人,地震等等。您将需要至少三个事件来确认或拒绝您的假设。

对于所选的每个事件,请遵循以下数据收集步骤。

  1. 寻找一个好的标记词来捕捉有关所选事件的帖子。
    1. 您需要在搜索框中输入反映您的活动的几个字词。查看社交中建议的趋势主题可能会为您提供有关如何选择搜索词的线索。尝试一些变体并评估结果,同时考虑以下因素:
      1. 您希望尽可能多地收集有关此次活动的帖子。
      2. 您希望选择仅与该活动相关的帖子,并尽量减少与该活动无关的帖子数量。举个例子,”足球” 太过笼统,无法拿到与世界杯有关的帖子。
    2. 一旦你确定了(a)搜索词,在这个事件的数据收集过程中坚持使用这些搜索词是很重要的。
  2. 围绕活动收集数据数天。
    1. 如果可能,请在活动开始前至少三天(比如足球世界杯前三天)开始收集数据。如果您无法预测事件,请从活动当天开始(如地震当天)。
    2. 在活动当天后至少五天收集数据。
    3. 如果可以,请在较长时间内收集数据(如活动日期前2周和活动后2周)。这段延长期可以让您更全面地了解帖子频率如何随时间变化.
    4. 尽可能在每天的同一时间(例如每天下午5点)收集数据。这样可以防止数据样本中出现空白。
    5. 每天收集数据:
      1. 搜索 socialmention 上的主题。选择最后一天作为时间窗口。请注意,选择上周将不会为所有社交媒体提供商提供过去一周的数据,因为不幸的是,社交网站只回顾有限的时间,例如12或24小时,对于像Facebook和Twitter这样的特定社交媒体提供商。在收集数据时与所选时间窗口保持一致将为您提供良好的数据样本以供分析。
      2. 将数据导出为CSV/Excel文件。此文件稍后将加载到您选择的数据可视化程序(例如Excel或Tableau Public)。
      3. 将数据保存到您的计算机。
      4. 为您的文件命名,以便名称包含主题和日期,例如 Soccer-world-cup 2015 02 15 。这样可以轻松跟踪收集的数据.

  3. 清理数据。
    1. 在此过程中,通过在制作发布时放置过滤器来删除无关信息(请参阅下面的分析数据中的步骤3),因此只有来自Facebook和Twitter的帖子才会显示。在下面的步骤6中处理潜在的重复.
  4. 整合数据。
    1. 逐步合并每天的数据,使用Excel条目从一个文件复制/粘贴到另一个文件。结果是一个合并数据的大Excel文件,其中包含在一个事件周围跨越几天的期间发布的帖子。
  5. 确保您的数据格式正确。
    1. 根据您使用的数据可视化程序(例如Excel或Tableau Public),您可能必须更改日期/时间字段的格式.Excel中的”数据” “文本到列” 工具可以帮助您从每个条目的时间中分割日期。如果您不知道如何执行此操作,请参阅Excel的”帮助” 功能或进行互联网搜索。
    2. 请注意,此项目不会考虑更精细的时间粒度,如小时或分钟。对于这个项目,一天是一个很好的粒度,让你看到一个变化,而不会被波动分散注意力.
    3. 如果您更喜欢研究的其他变量名,可以重命名列标题。
  6. 从数据中删除所有重复项。
    1. 在合并在多个实例中收集的数据时,重复项(在数据样本中多次发生一次)可能会滑入。您可以使用Excel工具删除重复项以完成准备分析的数据集。如果您不知道如何执行此操作,请使用Excel的”帮助” 功能或进行互联网搜索。

分析数据

  1. 在实验室笔记本中创建如表1所示的数据表;它将清楚地概述您的发现。

< TD>

事件1 事件2 事件3
微博 微博 推特
帖子总数
有一个或多个帖子的天数
峰值
宽度
表1。记录分析结果的表。请注意,最后一行中的”宽度” 定义为帖子数等于或超过峰值一半的天数,如分析数据的步骤8中所述。

  1. 使用您喜欢的数据可视化程序,例如Excel或 Tableau Public 创建数据的可视化表示。您需要为收集数据的三个事件中的每个事件创建可视化。
  2. 创建一个条形图,显示每天的帖子数量,为不同的社交媒体提供商使用不同的颜色。一个例子如图4所示。
    1. 请记住,您只需要两种颜色,因为您只是比较两个社交媒体提供商。您可以通过在数据上放置一个过滤器(在Excel或您喜欢的数据可视化程序中)来排除除您感兴趣的提供程序之外的所有内容。如果您不知道如何,请参阅Excel”帮助” 功能或进行互联网搜索使用过滤器。
    2. 请记住添加标题,标记轴并在条形图中包含图例。
六家社交媒体提供商发现的社交媒体帖子频率活动日期。
图4. 八家社交媒体提供商发布的关于超级碗XLIX的帖子数量的条形图(一场大型足球比赛)围绕比赛日期。游戏发生在第2天。每种颜色代表不同的社交媒体提供商。此图表的时间跨度已缩短。

  1. 首先研究Facebook的发行版。放置过滤器(在您使用的任何数据可视化程序中)或更改本节步骤3中创建的条形图上的现有过滤器将帮助您创建仅显示源自此提供程序的帖子的条形图.
  2. 查找此图表中的条目总数,即整个数据收集期间此特定提供商的帖子总数。
    1. 您的可视化工具可能有一个选项,可以查看图表中的条目总数。如果没有,则显示每个社交媒体提供商(来源)的记录(帖子)数量的条形图将告知您特定提供商的帖子数量。
    2. 在表格中记录此数字,如表1所示。
  3. 计算该提供商的帖子天数,并在数据表中记录该号码。
  4. 记录峰值,这是一天中看到的最大帖子数.
  5. 计算分布的宽度,定义为帖子数等于或超过峰值的一半(包括具有峰值的日期)的天数。较大的宽度表示帖子随时间推移更加分散,而较小的宽度表示帖子在短时间内集中。
    1. 例如,图4中以绿色显示的提供者显示第2天的峰值,当天记录了100个帖子。它的宽度为1,因为只有一天的帖子数量等于或超过最大帖子数量的一半,该提供商在一天内就有50个帖子。
    2. 以橙色,紫色和棕色表示的提供者都会有更大的宽度,因为每天的帖子数超过了条形图中每天的峰值的一半.
    3. 以红色和蓝色表示的提供商的宽度为2,两天的每天的帖子数量超过了高峰日的帖子数量的一半.
  6. 将您的发现记录在表1中。
  7. 重复步骤4-9,现在查看Twitter。
  8. 对于您收集数据的其他两个事件,重复步骤3-10。
  9. 查看数据表和条形图,并尝试得出结论。以下问题可以帮助您入门:
    1. 您能看到一天内发布的帖子总数或最高帖数的趋势吗?
    2. 在所研究的两个提供者的数据记录期间,这些职位是否均匀分布?或者一个人显示出一个尖峰,而一个帖子在另一个时间内更加分散?
  10. 数据是否支持或与假设相矛盾,或者您的数据是否不确定?
  11. 确定更多学习领域:
    1. 如果您的活动都属于同一类别(如体育赛事,娱乐活动等),您的数据是否可以推广到其他类别(如政治活动,自然灾害等)?
    2. 如果条形图对于所研究的事件看起来非常不同,那么这种差异的根源可能是什么?发布强烈依赖于事件的类型?
  12. 您认为可管理任务(如本项目中提供的任务)与大数据任务之间的区别是什么?想想大数据的定义,如​​简介中所述,比如从”杂乱” 数据(如文本)中提取信息,分析大量数据数据,或提取要求大量计算能力处理的复杂关系。

探索更多!

寻找更多大数据科学项目?使用您的科学项目探索大数据世界!

如果你喜欢这个项目,你可能会喜欢探索这些相关的职业:

数据科学家

人们日常生活的许多方面可以使用数据来概括,从最流行的新视频游戏到人们喜欢暑假的地方。数据科学家(有时称为数据分析师)是组织和分析大量数据(通常称为”大数据” )的专家。通过这样做,数据科学家得出的结论可以帮助其他人或公司。例如,数据科学家可以帮助视频游戏公司根据玩家的在线行为制作更有利可图的视频游戏,或者帮助旅行社找出他们应该为度假套餐制作的目的地。阅读更多

统计员

统计学家利用数学和概率论的力量来回答影响数百万人生活的问题。他们告诉教育工作者哪种教学方法效果最好,告诉政策制定者新鲜水果中可接受的农药含量,告诉医生哪种处理效果最好,并告诉建筑商哪种类型的涂料最耐用。它们几乎适用于从工程,制造,医药到动物科学,食品生产,运输和教育等各种行业。每个人都需要统计学家!了解更多

社会学家

任何时候房间里都有一个以上的人,就有可能发生社交互动或形成一个团体。社会学家研究这些相互作用 – 群体和社会的形成方式和原因,以及健康问题,技术和犯罪等外部事件如何影响社会和个人。如果你已经想过人们如何作为个人和团体进行互动,那么你就像一个社会学家一样思考!了解更多

计算机程序员

计算机是现代世界的必备工具,处理从交通控制,汽车焊接,电影动画,航运,飞机设计,社交网络到图书出版,商业管理,音乐混合,医疗保健,农业和网上购物等各个方面。计算机程序员是编写指令的人,告诉计算机该做什么。了解更多



变体形式

  • 在此项目中,您比较了每天的帖子数量是如何针对不同社交媒体提供商的事件分配的。您还可以研究特定主题(如流行音乐或体育)是否经常在推文中讨论,而不是在Facebook公开帖子中讨论。或者,您可以研究Twitter用户是否更有可能在三天的时间间隔内发布与Facebook用户相同的主题上的多条消息.
  • 此项目涉及使用社交网站提取社交媒体帖子列表。您还可以使用应用程序编程接口(通常称为API)从社交媒体提供商或社交网站检索数据.API用于计算机程序中,可以方便外部源的访问。使用API​​收集数据有几个好处:清理数据可以通过调用API的计算机程序自动完成,数据可以立即以您喜欢的格式存储;这些只是您可以实施的两项改进.API还可以使您在较长时间内收集数据变得容易。单击该链接将允许您直接访问 socialmention API 。对”API” 和社交媒体提供商进行互联网搜索将帮助您找到访问该媒体提供商的API,参考书目中的参考文章解释了如何在Python中使用API​​。
  • 如果您认为公众人物,记录等的受欢迎程度可以通过与该人,记录等相关的社交媒体帖子的数量来衡量,那么您可以衡量受欢迎程度随时间的变化情况。
  • 作为替代方案,您可以创建一项研究,以了解特定社交媒体提供商是否更多地讨论特定风格的音乐.

探索更多!

寻找更多大数据科学项目?使用您的科学项目探索大数据世界!