做一个进军AI AEC行业的应用

在进军AEC行业的人工智能应用程序——第2部分

人工智能已经成为一种时尚,大多数人要么被当前的成就吸引或焦虑。与此同时,机器学习(毫升)被提到的兴奋和错误的信息,因为它是不容易了解机器可以“学习”和“改善”执行任务。当你试图认为,从本质上讲,它对机器学习意味着什么?

如果我们想要回答这个问题没有任何歧义,我们需要坚持形式主义。当我们采用正式的语言,我们可以谈论变量之间的关系,推导出影响使用逻辑和推理在显式的和非主观性的方式,因此创建一个复杂的系统保持一致。

数学是科学的语言,能够流利地说它打开许多途径。设计算法,将显示学习行为,我们将大量地吸收主要是线性代数、多变量微积分和统计数据。我们将努力简化幕后所有的数学在我们的下一个文章,使其直观的足以帮助理解算法在做什么。

传统的算法和机器学习算法

一个算法是一个定义明确的指令集,用户提要计算机来完成所需的任务。传统上,我们设计一个算法基于最好的知识获得的经验我们有聚集在时间。

然而,如果我们能获得更多的经验,也许我们可以有一个更好的设计。现在想象这样一个场景:我们可以把人类从经验中学习质量的电脑(不断地从数据推断,我们提供持续),换句话说,我们可以教学习的算法基于提供的数据做正确的事。

当设计一个毫升系统,我们为算法的数据让“它”获得经验和执行任务通过改善每一次新体验——这正是学习的过程!这有助于我们克服限制人类学习的模式在我们获得大量的数据在今天的时间。ML算法可以对新输入值进行预测,为预定义的类别分类,分组相似的样本数据为集群没有我们的监督等等。

没有alt文本提供了这张照片

现在我们想要学习的算法快速正确的事情,很大一部分我们的工作围绕建设和清洁之前提供的原始数据算法(我们将回到这一点)。

首先,我们通过机器学习的一些术语:

  1. 标签和Un-labelled数据:一个标签是任何你想要有一个预测。例如,给定一个真实记录数据的“区域的房子”和相应的“价格”我们想要一个价格预测领域的一些新值,在这种情况下,“价格”标签和“区域”的值的所有价格都是已知的标签。所以,价格以所有值的数据集面积标签而未标记的数据集的列表区域。
  2. 任务,经验和性能:考虑同一场景中,该算法的任务将是“价格分配一个给定的输入值区”,提供的经验将area-price配对,和性能将是衡量价格预测是正确的。
  3. 一个模型:毫升是模式搜索。我们一直在寻找一个隐藏模型(数学函数)来表示模式,这种模式可以为我们做出预测所需的地方。

那么正式,学习是什么?

汤姆•米切尔作为一个计算机程序定义了一个适定的学习问题是说从经验中学习(E(“”)对一些任务T”)和一些性能测量('P”),如果其性能('T”),以('P”),提高通过经验('E”)。因此,机器学习问题定义变量T E和P,确保随E。

机器学习是人工智能的一个分支,用于处理算法和系统执行特定任务的使用模式和推理。而不是显式地编程指令(从某种意义上说,我们没有指定的路径来实现目标,算法调整参数土地最好的路径),一个系统从数据与自我改进方法。根据麻省理工学院技术评论”,机器学习算法使用统计发现大量数据中的模式。和数据,包括很多things-numbers,文字,图片,点击。如果它可以数字化存储,它可以输入一个机器学习算法”。

类型的机器学习

机器学习类型通常在这些小标题分类

  1. 监督机器学习
  2. 非监督机器学习
  3. 强化学习

监督式学习——指的是使用标签数据训练模型。这种类型的学习,提供所需的输入和输出数据。数据(输入和输出)被标记为未来提供一个学习的基础数据预测。它仅仅意味着喂养模型与数据的正确答案,期待新的问题回答正确。例子包括垃圾邮件检测、价格预测、图像识别,和许多更多。

这两种类型的使用监督学习是解决问题回归分类。回归预测可以取任何值在一个连续范围,如价格预测价值,而分类是关于预测离散值或类像垃圾邮件过滤(垃圾邮件或者非垃圾邮件)。

工作流程监督学习

无监督学习——它包括培训系统,利用数据没有被贴上的同时也获得一些关于相互关系的见解。它提供了未预料到的模式的数据集没有预先存在的标签,给我们新的洞察数据,沿着这些线路允许描述和算法,马克和另外组数据根据相似点和不同点。无监督学习算法允许您执行逐步复杂处理任务与监督学习(虽然它往往更不可预测)。无监督学习的一些例子包括社交网络分析、市场细分等。

没有alt文本提供了这张照片

强化学习(RL)——我们这里的环境相互作用,如果它的作用令人钦佩的地方,你还有你奖励,惩罚算法。模型使得一系列决定从自己的经验学习与环境互动。RL学习自己做什么基于它是如何对待其先前的决定。奖励可以是积极的还是消极的,同样的惩罚。所有奖励提高行为反应的概率。所有的惩罚行为反应的概率下降。它分配积极品质的理想活动来激励代理人和消极属性不受欢迎的做法。

强化学习过程

机器学习过程的步骤

下面列出的步骤表示工作流遵循使用机器学习解决问题。

  1. 数据收集
  2. 数据处理
  3. 工程特性
  4. 模型选择
  5. 模型训练
  6. 模型验证
  7. 模型的持久性

数据科学家花80%在数据准备的时间。是不可能创建一个工作机器学习模型,而不必喂它正确的数据。因此,收集、预处理和数据的准备非常重要的第一步,也是整个过程。通过若干次迭代,您可以得到程序安排依赖于过去的所有数据/项目你已经处理。数据越多你喂你的数据库,将获得更多的经验(从数据)模型,更准确的模型将使它找到模式,相似之处和差异。

采购/收集数据这是第一步要考虑在您的数据准备毫升。简单地说,它是一个过程,找到或创建数据训练机器学习模型。必须确定数据的来源,它被提取的网络平台或应用程序数据库。就是一个例子从Revit获得时间表的数据库使用的时间表。

数据预处理——这是非常重要的,我们确定的数据类型是结构化或非结构化数据。这涉及到清洁,让您的数据准备训练,这包含了安排和组织,正常化和管理缺失的数据。通常,数据通常可以进来几个格式和复杂。

有必要识别不同类型(例如,所有文本文件,照片,等等)如果这是不可能的,但这并不意味着数据并不可用,虽然利用不完整或未加工的数据会导致各种错误和减少/预测结果的准确性。可以检查是否有异常值的算法在我们的数据集,我们将需要删除或如果有任何缺失的值集合,我们需要包括。

特性工程(FE)根据KD掘金,这涉及到将原始数据转换为特征的艺术和科学,更好地代表一个模式学习算法。铁有助于区分输入变量,通常适用于任务和从现有数据中提取新变量。而数据预处理是一个精炼数据的方法,包括设计是对强调升级它的方式。菲允许您描述重要数据在你的数据集。这可能意味着将数据分解成各个部分来解释特定的连接。

可以是结构化或非结构化的数据。结构化数据是一个有组织的方式使它容易搜索和提取,大多数时候行和列中存储格式,特别是对数字。他们可以适应关系数据库而非结构化数据仅仅是相反的。更大的比例在世界是结构化的数据。没有组织结构在非结构化数据使它具有挑战性的工作(收集、管理流程、分析等)。获取数据来源在原子能委员会是相当棘手的还没有一致的标准对数据科学工作流。有些公司有大型数据集,但由于没有定义为合作,大多数数据实验是自身的发展。

因为我们有点云的自动化在DiRoots目标,我们在点云数据处理扩大一点。最近的一个繁荣的类型的数据点云,因为今天他们已经应用在大多数诸如机器人导航和感知,自主驾驶系统、医学影像、地理信息系统、等AEC行业,他们是杰出的,因为他们可以用来记录建筑物和构筑物形状重组在原来的形状,他们可以贡献数据从存储库的重要的基础设施,可以用来证实原位决定在设计阶段,可以用来追踪变化对结构以及多年来,捕获和暴露GIS数据等。

点云是稀疏order-invariant组交互的点坐标空间中定义和采样对象捕捉它们的spatial-semantic表面的信息。由于他们的稀疏特性,它们是计算效率和更少的比体积和多视点表示对噪声敏感。此外,multisampling和数据压缩是实现点云,从而获得优于其他形式的表示。让我们的机器理解所有自动点云的结构,我们可以利用各种各样的机器学习算法。

3 d计算机视觉,自动化的理解点云环境需要做分类,对象检测、6自由度姿态估计,(现场,对象或部分)分割、重建等。但是,对于要实现的所有,有需要预处理和初始我们上面描述的关键的一步,选择的功能(在这种情况下:位置,正常,曲率或高阶导数,颜色,运动矢量,等等)来区分结构与算法。如果我们希望实现监督深度学习,我们有许多基于PoinNet最近网络架构,能够直接处理点云的非结构化性质。我们还需要准备培训,交叉验证和测试的点云数据实现特定需求的关键训练神经网络,进行分割或分类。

模型选择——这涉及到选择一个机器学习模型,统计上可以解决上述问题我们正在努力解决中一系列可用的机器学习模型。一个完美的模型是不可行,但是ML模式选择必须“足够好”来解决这个问题。

模型训练——这涉及到提供学习机器学习模型训练数据。使用训练数据训练毫升模型预测的能力解决问题的办法。

模型验证——这是每毫升验证模型建立的关键。这是指训练毫升的评价模型与一组测试数据集。这是一个比较的方法训练模型的结果一个真正的系统知道如何有效的/真实模型的结果。模型验证帮助检查训练数据集的功能。

模型的持久性——这个阶段更像是重新评估的模型验证阶段模型不是足够好,但努力确保模型是最好的是做什么。


Baidu
map